原創(chuàng) 張廣凱 觀察者網(wǎng)
? 文 觀察者網(wǎng) 張廣凱
今天是DeepSeek“開(kāi)源周”第二日,DeepSeek宣布開(kāi)源DeepEP,第一個(gè)用于MoE模型訓(xùn)練和推理的開(kāi)源EP通信庫(kù)。
昨天,DeepSeek則開(kāi)源了代碼庫(kù)Flash MLA,這是針對(duì)Hopper GPU優(yōu)化的高效MLA解碼內(nèi)核,針對(duì)可變長(zhǎng)度序列作了優(yōu)化。
MoE(混合專(zhuān)家架構(gòu))和MLA(多頭潛在注意力機(jī)制)被認(rèn)為是DeepSeek以低成本實(shí)現(xiàn)杰出表現(xiàn)的核心原因。
簡(jiǎn)單理解,MoE架構(gòu)是由多個(gè)專(zhuān)注于垂直技能的專(zhuān)家模型分工協(xié)作來(lái)實(shí)現(xiàn)最終輸出結(jié)果,訓(xùn)練成本和推理成本更低。有消息稱(chēng),GPT-4就使用了MoE架構(gòu),由8個(gè)220B模型組成。但MoE架構(gòu)的缺點(diǎn)之一是會(huì)增加通信成本。
DeepEP通信庫(kù)就是針對(duì)通信環(huán)節(jié)的優(yōu)化,其特點(diǎn)包括:高效、優(yōu)化的全員溝通;節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間均支持 NVLink 和 RDMA;用于訓(xùn)練和推理預(yù)填充的高吞吐量?jī)?nèi)核;用于推理解碼的低延遲內(nèi)核;原生 FP8 調(diào)度支持;靈活的 GPU 資源控制,實(shí)現(xiàn)計(jì)算-通信重疊。
MLA則是讓模型預(yù)測(cè)更遠(yuǎn)位置的token,從而增強(qiáng)語(yǔ)義理解能力。DeepSeek的Flash MLA專(zhuān)為英偉達(dá)Hopper GPU打造了高效MLA解碼內(nèi)核,特別針對(duì)變長(zhǎng)序列進(jìn)行了優(yōu)化。
來(lái)源|觀察者網(wǎng)
上一篇:推動(dòng)可持續(xù)發(fā)展 采暖行業(yè)邁向綠色化、節(jié)能化
下一篇:2025年中國(guó)供熱行業(yè)數(shù)據(jù)發(fā)布:清潔能源占比提升,智能化供熱成趨勢(shì)