當(dāng)前位置：職教網(wǎng) ☉ 專業(yè)信息 ☉ 其它 ☉ 其它 ☉ 昇騰生態(tài)硬核賦能！上交大攻克超長推理難題

昇騰生態(tài)硬核賦能！上交大攻克超長推理難題

發(fā)布時間：2025-11-27 到期時間：長期有效 瀏覽：156次

發(fā)布者：111111111 (給Ta發(fā)送短消息) (查看Ta的發(fā)帖記錄)
聯(lián)系人：本人
聯(lián)系方式：(顯示聯(lián)系電話)
所屬地區(qū)：其他
相關(guān)圖片：0張 (查看圖片)

信息詳情
留言點(diǎn)評

隨著大語言模型在文本分析、智能問答等場景的廣泛應(yīng)用，處理1M超長文本推理時，常常面臨顯存不足、運(yùn)算速度卡頓的行業(yè)痛點(diǎn)，嚴(yán)重限制了超長文本場景的應(yīng)用。近日，上海交通大學(xué)李健教授團(tuán)隊依托上海交通大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心的算力支持，基于vLLM-Ascend 推理框架研發(fā)出一套針對超長上下文推理的稀疏注意力 KV Cache 分層緩存管理系統(tǒng)。在昇騰 AI 軟硬件平臺的全方位賦能下，該項目成功破解單卡支持超長上下文推理的顯存與性能雙重難題，同時大幅提升吞吐量。

項目核心創(chuàng)新在于設(shè)計了 KV Cache 分級緩存集成機(jī)制。該機(jī)制先對推理任務(wù)進(jìn)行實(shí)時分析，智能識別Top-K 重要塊并集中算力處理，從源頭提升計算效率；同時采用數(shù)據(jù)冷熱分層存儲策略，根據(jù)數(shù)據(jù)訪問頻率，將生成數(shù)據(jù)動態(tài)劃分為高頻熱數(shù)據(jù)與低頻冷數(shù)據(jù)，再針對性優(yōu)化存儲位置，減少資源浪費(fèi)。這一機(jī)制的落地依托昇騰CANN異構(gòu)計算架構(gòu)靈活的動態(tài)調(diào)度能力，能精準(zhǔn)控制冷熱數(shù)據(jù)在顯存與主存間的流轉(zhuǎn)，大幅降低數(shù)據(jù)遷移開銷。最終，該方案實(shí)現(xiàn)單卡流暢處理超過1M的超長文本推理任務(wù)，系統(tǒng)推理吞吐量超過39%，徹底突破傳統(tǒng)系統(tǒng)在長序列處理上的顯存與性能瓶頸。

同時項目進(jìn)行了元數(shù)據(jù)結(jié)構(gòu)優(yōu)化與緩存機(jī)制設(shè)計，其中數(shù)據(jù)索引與掩碼是關(guān)鍵支撐 —— 通過精簡索引結(jié)構(gòu)、合并掩碼維護(hù)步驟，有效減少重復(fù)運(yùn)算，使昇騰NPU算力更集中于注意力計算與文本生成等核心任務(wù)，提升硬件利用效率。相關(guān)優(yōu)化已通過vLLM-Ascend推理框架靈活集成，保障了技術(shù)方案的順利落地。

目前，該項目源代碼已在 Gitee 社區(qū)中開源，后續(xù)將進(jìn)一步推送到昇騰開源生態(tài)，合入GitHub社區(qū) vLLM-Ascend 項目專區(qū)。此次技術(shù)突破，不僅為超長文本推理提供了高效解決方案，更印證了昇騰生態(tài)在AI創(chuàng)新中的賦能價值。未來，隨著該系統(tǒng)在更多行業(yè)場景的落地，昇騰將持續(xù)為AI技術(shù)研發(fā)提供算力與技術(shù)保障，推動大語言模型在長文本分析、智能辦公、數(shù)字孿生等千行百業(yè)的深度應(yīng)用，加速人工智能產(chǎn)業(yè)化進(jìn)程。

聯(lián)系我時請說明是在“職教網(wǎng)www.yyk001.com”看到的，謝謝！

上一條：融雙高黨建領(lǐng)航，博文研學(xué)育時代新人

下一條：2025第十二屆旅游服務(wù)業(yè)院校獎項獲獎名單重磅發(fā)布！

留言點(diǎn)評：

您感興趣的信息：

您感興趣的分類：

其它

综合网在线视频,亚洲精选久久久,又色又爽又激情的59视频,日韩天堂av,国产精品videos,99r在线视频,久久久久久久97

留言點(diǎn)評：

您感興趣的信息：

您感興趣的分類：