成人美女黄网站免费|哔哩哔哩免费观看在线视频|freexx老女人|欧美精品三区|近的2019中文字幕在线|97中文字幕一区二区|日本jazz护士

巨人財經 - 專業科技行業財經媒體

昇騰AI開發者峰會2026北京啟幕,攜手開發者共繪Agentic AI時代新藍圖

   發布時間:2026-05-26 18:22 作者:鄭浩

近日,一場聚焦人工智能前沿技術的盛會在北京成功舉辦。此次大會以“一起昇騰 共綻光芒”為主題,吸引了全球眾多開發者參與,旨在匯聚前沿技術,打造一場面向開發者的思想盛宴。昇騰秉持開源開放理念,持續為開發者提供便捷的開發工具,致力于構建繁榮的開發者生態,攜手開發者共創未來。

在大會上,華為公司Fellow、半導體首席科學家廖恒發表了主題演講,深入探討了面向Agentic AI時代的昇騰超節點最佳實踐。他指出,過去一年Agentic AI發展迅猛,華為在AI Infra層面已開啟超節點時代。針對預訓練、推理Prefill與Decode等各類業務負載,AI芯片的算力、內存帶寬、內存容量、互聯IO帶寬四大核心指標,在不同應用場景下優先級有所不同。其中,互聯能力直接決定了超節點的能力。昇騰950芯片憑借優異的互聯能力,可構建出更高帶寬、更低延時且覆蓋范圍更大的超節點,系統綜合性能等同于超節點規模與單芯片性能規格的乘積。

廖恒還提到,Agent時代對MoE模型推理的時延提出了更高要求,需壓縮至10毫秒、5毫秒甚至1毫秒級別。而EP的Dispatch - Combine通信是制約時延的核心瓶頸。他認為EP通信應在Scale Up域里完成,因為EP是All - to - All這種多對多的極其細粒度的通信,單數據包大小僅7KB至14KB,數據包交互頻次隨專家數量呈平方級增長,傳統網絡架構難以承載,無法實現低時延傳輸。對于通信方式的選擇,廖恒認為取決于通信的顆粒度,通信量小則Load&Store內存語義優勢大,通信顆粒較大則建議使用DMA,同時多個網絡流量盡量不要有路徑重疊。

Agentic AI也給KV Cache帶來了更大挑戰。一方面,模型調用頻次暴漲50至100倍;另一方面,序列長度從Chatbot典型的4k序列長度提升到接近1兆,帶來250倍提升。受此影響,KVCache命中率突破95%,高命中率顯著降低了Prefill成本,但也導致KVCache成本等比例提升。為此,華為創新設計搭載UB端口的SSU單元,直出接口接入UB網絡。該架構精簡了存儲系統、文件系統以及從文件系統名字中間轉換到SSD的邏輯扇區的轉換過程,消除了原路徑諸多障礙,NPU可直接命中SSU的KVCache,SSU通過UB網絡把數據傳送到NPU的片上內存,帶寬至少提升一個數量級。

華為昇騰計算產品部部長周斌在會上發表了《圍繞易用性持續提升,打造從好用到易用的昇騰算力底座》主題演講,從開發者視角全面介紹了昇騰軟件易用性建設的最新成果。他圍繞CANN全面開源開放、兼容主流開源生態、Mind系列軟件升級并開源貢獻三大方向,闡述了如何持續降低開發門檻、提升開發效率,為AI開發者提供全流程高效開發體驗。

CANN作為昇騰軟件底座與生態核心,已實現全面開源開放,為開發者提供了完整、高效、開放的算子開發體系。目前,CANN完成分層解耦與開源,開放運行時、算子編譯等全層級接口,算子與通信庫支持獨立升級,已開源50余個源碼倉。在算子編程層面,昇騰面向不同開發者需求提供全棧支持。對于追求極致性能的工程師,提供Ascend C、CATLASS模板庫,支持對計算、訪存、流水等關鍵環節細粒度控制,充分釋放芯片性能;對于注重快速創新的AI算法工程師,支持TileLang、Triton等主流Tile編程生態,并推出PyPTO,以Tensor抽象簡化算法創新流程。為降低開發門檻,昇騰全面擁抱Python生態,推出PyAsc、Python版CATLASS模板庫及PyPTO,讓開發者以Python友好方式實現底層并行與高性能算子開發。

昇騰還打造了CANNBot算子智能體,將微架構優化經驗融入skill技能庫,支持Ascend C、CATLASS、Triton、TileLang、PyPTO等多種編程范式,覆蓋算子開發全流程。基于CANNBot,單個Vector算子生成僅需3小時,從生成到部署全流程1天內即可完成,相比傳統人工開發效率提升5倍以上。為進一步賦能業界Agent與大模型適配昇騰算子,昇騰還量身打造了專屬算子數據集與評測集。算子數據集覆蓋Vector、Cube、CV融合算子數據,通過高質量樣本與專業思維鏈幫助大模型理解算子寫法;算子評測集提供分級評測體系,覆蓋22類典型算子、內置4000 +評測點,多維度評估算子生成的功能、精度與性能。

在兼容主流開源技術生態方面,昇騰以全面兼容主流開源生態為易用性改進核心方向,讓開發者無需改變使用習慣即可高效調用昇騰硬件能力。算子編程層面,昇騰實現Triton和TileLang接口100%兼容,性能可達Ascend C的0.6 - 0.9倍,開發周期縮短至一周,已支持超600個Triton算子和300個TileLang算子,覆蓋主流模型關鍵算子樣例。北京大學計算機學院副研究員楊智提到,TileLang作為tile級編程框架,在DeepSeek V4的算子實踐中表現出了高開發效率與高性能,使能昇騰全面支持DeepSeek V4推理,同時也證明了TileLang優秀的跨平臺能力,Developer模式下不同平臺的算子僅有少量代碼存在區別。

在AI框架上,昇騰全面支持PyTorch生態,實現2300多個API與社區對齊;圖模式加速實現40 +模型入圖能力對齊,分布式加速實現20 +主流大模型FSDP2開箱即用。訓練加速方面,昇騰與8 +強化學習社區建立合作,累計合入超萬行代碼。verl社區Maintainer侯正罡介紹,verl社區與昇騰深度合作,基于昇騰軟硬件實現fully Async,并在基礎架構上開展聯合創新和回饋社區,使得強化學習訓練效率提升2倍以上。在推理領域,昇騰全面適配LLM、多模態等核心場景,作為vLLM Project唯一自主創新硬件廠商、SGLang主倉唯一自主創新非GPU硬件廠商,原生合入主干代碼并貢獻關鍵特性,長序列場景首Token時延降低30%,xLLM框架也已原生支持昇騰。開源大模型推理引擎xLLM負責人劉童璇分享道,xLLM推理引擎如同操作系統般連接底層芯片與上層大模型應用,原生支持文本、圖像、視頻等全模態模型的推理加速,實現算力向模型智能高效轉化。其架構深度適配昇騰超節點技術優勢,推理性能出眾;同時開源大模型服務核心組件,構筑從推理引擎到上層服務的完整技術棧。

在Mind系列軟件全面升級方面,MindSpore面向超節點創新,組件化解耦,提升昇騰大模型圖模式、分布式競爭力;MindSpeed通過架構革新,解耦插件,靈活配合開源社區使用,快速使能昇騰算力;MindIE系列軟件棧全新升級,與生態充分融合,助力推理更快、更穩、更簡單;MindStudio開源開放并搭載智能助手,全流程提升了開發調試效率。

華為昇騰生態發展部部長張良在《匯聚開發生態,共建技術未來》的演講中,詳細介紹了全面升級后的昇騰開發者使能計劃,包括社區體驗、開發工具、激勵權益三大方向。面向社區,昇騰優化環境準備、部署、資料檢索等流程,實現一鍵自動部署,平均2分鐘即可跑通首個Demo。社區上線了1000 +昇騰卡,為每一位開發者提供初始100卡時的免費算力,基于一站式開發平臺即取即用;算子開發易用性提升,算子工程升級、開源昇騰skills倉庫,助力開發者高效開發、調試;加強開源社區CI/CD建設及Committer專家投入,提速開源貢獻的驗證及合入。面向開發工具,將數千名昇騰專家經驗沉淀成skills,搭建Agent工作流,提供全新Agentic開發體驗,開發者通過需求描述即可完成各類模型開發操作,大幅壓縮開發周期,讓新手也能輕松搞定復雜任務,加速創新想法落地。伴隨基礎軟件全面開源,昇騰轉向社區化運作,明確開發者成長與創新路徑。設立首批創新激勵基金,扶持算子、加速庫等領域創新探索;投放10000卡算力資源,支撐開源社區研發運維與實操體驗,充分保障開發者算力需求。

會上,華為ICT戰略與業務發展部總裁彭紅華、華為公司Fellow、半導體首席科學家廖恒、華為昇騰計算業務總裁張迪煊、華為北京總經理張東亞為杰出個人及團隊分別頒發了“昇騰開源貢獻杰出個人獎”及“昇騰開源合作杰出團隊獎”,以表彰近一年來昇騰開發者在昇騰技術創新、技術生態發展中的突出表現。11名個人杰出貢獻者獲得“昇騰開源貢獻杰出個人獎”榮譽,14個開源項目團隊分別獲得開源項目先鋒團隊獎、開源社區共建團隊獎及AI4S生態貢獻團隊獎。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新