9月7日,騰訊在數(shù)字生態(tài)大會(huì)上正式推出混元大模型。據(jù)介紹,騰訊混元大模型是由騰訊全鏈路自研的通用大語(yǔ)言模型,擁有超千億參數(shù)規(guī)模,預(yù)訓(xùn)練語(yǔ)料超2萬(wàn)億 tokens,具備強(qiáng)大的中文創(chuàng)作能力,復(fù)雜語(yǔ)境下的邏輯推理能力,以及可靠的任務(wù)執(zhí)行能力。
目前,騰訊云、騰訊廣告、騰訊游戲、騰訊金融科技、騰訊會(huì)議、騰訊文檔、微信搜一搜、QQ 瀏覽器等超過(guò)50個(gè)騰訊業(yè)務(wù)和產(chǎn)品,已經(jīng)接入騰訊混元大模型測(cè)試。同時(shí),騰訊混元大模型將作為騰訊云 MaaS 服務(wù)的底座,客戶不僅可以直接通過(guò) API 調(diào)用,也可以將混元大模型作為基底模型,為不同產(chǎn)業(yè)場(chǎng)景構(gòu)建專屬應(yīng)用。
(相關(guān)資料圖)
在這一波大模型浪潮中,云服務(wù)被認(rèn)為是最理想的大模型承載平臺(tái),而大模型也將引領(lǐng)下一代云服務(wù)的演進(jìn)。通過(guò)云廠商所提供的基礎(chǔ)設(shè)施、模型服務(wù)、訓(xùn)練加速框架等支持,大模型的能力將很快滲透到各行各業(yè)中。
與此同時(shí),算力緊缺是擺在眼前的困境。如何在有限的卡上,構(gòu)建穩(wěn)定可靠的算力集群,如何讓有限的算力資源發(fā)揮出最大的價(jià)值,也成為各家云廠商和模型公司最重要的課題。
大模型時(shí)代的贏家
如今我們正處于“智能涌現(xiàn)”的風(fēng)口浪尖,人工智能只需訪問(wèn)每天產(chǎn)生的2.5萬(wàn)億字節(jié)數(shù)據(jù)中的一小部分,就能創(chuàng)造出人類智力無(wú)法比擬的奇跡。不久前,由 Google DeepMind 構(gòu)建的 AlphaDev,結(jié)合了計(jì)算機(jī)推理和直覺(jué),幫助我們?nèi)祟惏l(fā)現(xiàn)一些我們?cè)静恢赖臇|西:一種全新且更快的排序算法,排序速度上取得的突破超越了科學(xué)家們幾十年來(lái)的研究。
人類可能需要20年的時(shí)間才能成為領(lǐng)域?qū)<遥缓髮⑦@種思維應(yīng)用于解決實(shí)際問(wèn)題。如今,人工智能可以在幾分鐘或幾秒鐘內(nèi)實(shí)現(xiàn)這種專編程客棧業(yè)化。
騰訊集團(tuán)副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 COO、騰訊云總裁邱躍鵬將今年這一特殊的年份描述為“大模型的元年”,他說(shuō):“今天有點(diǎn)像移動(dòng)互聯(lián)網(wǎng)剛到來(lái)的時(shí)候,那一年我們往后看,可能沒(méi)有太多人想到十幾年之后移動(dòng)互聯(lián)網(wǎng)帶來(lái)的深刻改變。”
如今,在技術(shù)創(chuàng)新帶來(lái)的這股潮流趨勢(shì)下,全球的科技企業(yè)都開(kāi)始了 GPT“軍備”競(jìng)賽,希望通過(guò)研發(fā)更強(qiáng)大的 GPT 模型來(lái)增強(qiáng)他們的產(chǎn)品和服務(wù)。以微軟納德拉為首的一眾大佬都聲稱要將“所有產(chǎn)品上搭載 AI,徹底改造”。
然而,人工智能的高成本構(gòu)成了一個(gè)不容忽視的難題,這也成為了許多企業(yè)參與的障礙,大企業(yè)反而比初創(chuàng)企業(yè)更能占據(jù)有利的地位。Semianalysis 估計(jì),截至編程客棧2023年2月,OpenAI 使用超過(guò)3,600臺(tái) Nvidia HGX A100服務(wù)器來(lái)為 ChatGPT 提供服務(wù)。這些 HGX 服務(wù)器均包含8個(gè) A100GPU,每臺(tái)成本為 $10,000美元。這大約相當(dāng)于為 ChatGPT 提供服務(wù)的硬件成本高達(dá)2.88億美元,顯然這些基礎(chǔ)設(shè)施只有大型云服務(wù)提供商才能提供。
另一方面,訓(xùn)練和“推理”(實(shí)際運(yùn)行)大語(yǔ)言模型的高昂成本是一種結(jié)構(gòu)性成本,與之前的計(jì)算熱潮不同。即使軟件被構(gòu)建或訓(xùn)練,它仍然需要大量的計(jì)算資源來(lái)運(yùn)行大語(yǔ)言模型,因?yàn)槊看紊商崾卷憫?yīng)時(shí)都需要進(jìn)行數(shù)十億次計(jì)算。相比之下,我們?nèi)粘J褂玫膽?yīng)用程序所需的計(jì)算要少得多。也就是說(shuō),訓(xùn)練模型的成本只是冰山一角,隱藏在水面之下還有巨大的“推理成本”,即每次調(diào)用模型輸出時(shí)產(chǎn)生的成本。Semianalysis 表示,“以任何合理規(guī)模部署模型時(shí),推理成本遠(yuǎn)遠(yuǎn)超過(guò)訓(xùn)練成本。事實(shí)上,ChatGPT 推理的成本超過(guò)了每周的訓(xùn)練成本。”
因此,以最低的綜合成本獲取算力資源已經(jīng)成為人工智能公司成功的關(guān)鍵因素,而在云計(jì)算行業(yè)中,那些提供這種“鏟子”的企業(yè)價(jià)值不可小覷。
“針對(duì)大模型所有相關(guān)能力的投入和研究是必需的,所有云廠商都js必須做好對(duì)于 AGI 的支持,這是一個(gè)必答題,沒(méi)有人能不答這道題。”邱躍鵬表示。
“目前投資規(guī)模最大的是在訓(xùn)練,沒(méi)有幾十億的資本投入,很難下場(chǎng)去持續(xù)做大模型。另一方面,真的下場(chǎng)做大模型的企業(yè)不多,未來(lái)真正的應(yīng)用場(chǎng)景還是在下游。結(jié)合場(chǎng)景看,未來(lái),推理是比訓(xùn)練更大的市場(chǎng)。今天我們看到很多場(chǎng)景用了大模型之后,帶來(lái)的效果提升確實(shí)非常明顯,這說(shuō)明大模型的商業(yè)模式相對(duì)來(lái)說(shuō)更清晰。雖然目前還很難講具體的算力需求究竟有多少,但一定是非常長(zhǎng)期的機(jī)會(huì)。”
傳統(tǒng)云服務(wù)能滿足需求嗎?
傳統(tǒng)的云基礎(chǔ)設(shè)施并不是為支持大規(guī)模人工智能而設(shè)計(jì)的,隨著 AI 普及度和復(fù)雜度越來(lái)越高,云廠商也面臨了一些全新的挑戰(zhàn),計(jì)算、存儲(chǔ)以及 IT 架構(gòu)等層面都發(fā)生著翻天覆地的變化。
傳統(tǒng)云服務(wù)大部分由通用 CPU 的服務(wù)器組成,而更適合運(yùn)行 AI 工作負(fù)載的 GPU 集群只占基礎(chǔ)設(shè)施的一小部分。根據(jù)英偉達(dá)在2023年臺(tái)北電腦展會(huì)上的演講,如果使用 GPU 進(jìn)行訓(xùn)練,相比 CPU 服務(wù)器,客戶可以以4% 的成本和1.2% 的電力消耗來(lái)訓(xùn)練一個(gè) LLM。因此,該公司表示 CPU 已落伍,用 GPU 才是訓(xùn)練大語(yǔ)言模型的首選。
傳統(tǒng)服務(wù)器和 AI 服務(wù)器對(duì) GPU 的依賴對(duì)比,來(lái)自摩根大通的估計(jì)。
但高密度算力需求,也會(huì)給云服務(wù)帶來(lái)影響,比如 IDC(數(shù)據(jù)中心)的規(guī)劃對(duì)于高密集算力而言,仍然有許多瓶頸,例如需要高功率供電的機(jī)架。高功率的電力供給基礎(chǔ)設(shè)施都很早期,高功率供電的機(jī)架很稀缺。
邱躍鵬提到,“IDC 是非常長(zhǎng)周期的投資,面向未來(lái),算力基礎(chǔ)設(shè)施也需要相應(yīng)地升級(jí),來(lái)更好地承接大模型帶來(lái)的新需求。”
而從存儲(chǔ)方面來(lái)說(shuō),在過(guò)去幾年中,大語(yǔ)言模型的尺寸每年平均增長(zhǎng)了10倍,參數(shù)數(shù)量從數(shù)百萬(wàn)個(gè)到萬(wàn)億不等,大語(yǔ)言模型(LLM)也會(huì)面臨存儲(chǔ)容量的挑戰(zhàn),單個(gè)存儲(chǔ)設(shè)備是不可能滿足存儲(chǔ)要求的。例如,OpenAI 的 GPT-3模型擁有1750億個(gè)參數(shù),僅其參數(shù)就需要超過(guò)300GB 的存儲(chǔ)空間。
正如 OpenAI 論文“Language Models are Few-Shot Learners”中表示的那樣,較大的模型往往表現(xiàn)更好,然而,參數(shù)數(shù)量增加也提出了更高的存儲(chǔ)容量需求。如果在讀取數(shù)據(jù)時(shí)機(jī)器出現(xiàn)問(wèn)題,或者導(dǎo)致 SSD 硬件故障,都是不能容忍的。
最后一個(gè)是大模型“解鎖”了各行各業(yè)的數(shù)據(jù)。以前是個(gè)別企業(yè)帶著大家通過(guò) AI 技術(shù)逐個(gè)攻克單一領(lǐng)域的問(wèn)題,模型參數(shù)量和算力需求在多年來(lái)其實(shí)也一直是一個(gè)比較穩(wěn)定的水平,據(jù)估算,海量數(shù)據(jù)因?yàn)橐蕾嚱Y(jié)構(gòu)化也只用起來(lái)了20%。而現(xiàn)在,隨著大模型通用能力的加持,各行各業(yè)的萬(wàn)千企業(yè)都已經(jīng)參與到了這里面來(lái),Embeding(向量化)技術(shù)讓非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用也有了更多的想象空間,模型訓(xùn)練的所需算力也變成了千卡規(guī)模,數(shù)據(jù)檢索也會(huì)面臨更大的壓力。
基于以上種種挑戰(zhàn),騰訊云認(rèn)為,在新的大模型時(shí)代,需要更高效的云技術(shù)。如果把之前的云稱為 AI1.0時(shí)代,那么在1.0時(shí)代里,行業(yè)著重關(guān)注的是單機(jī)單卡的性能、標(biāo)量數(shù)據(jù)的結(jié)構(gòu)化精確檢索,以及云原生帶來(lái)的自動(dòng)調(diào)度。而現(xiàn)在,當(dāng)行業(yè)進(jìn)入到了 AI2.0時(shí)代,在這個(gè)背景下,由于服務(wù)重點(diǎn)發(fā)生了轉(zhuǎn)變,現(xiàn)在更多關(guān)注 AI 企業(yè)和大模型,云廠商需要將重點(diǎn)轉(zhuǎn)向集群性能的提升、向量數(shù)據(jù)的存儲(chǔ)與檢索等方向上。
騰訊云是如何解決當(dāng)前挑戰(zhàn)的
傳統(tǒng)云計(jì)算已經(jīng)無(wú)法滿足 AI 企業(yè)及大模型訴求,云智算已成為了關(guān)鍵支撐,騰訊面向 AI 場(chǎng)景專用,打造了騰訊云 AI 超級(jí)底座。
在這次大會(huì)上,我們關(guān)注到了騰訊云 AI 超級(jí)底座的幾個(gè)關(guān)鍵產(chǎn)品:
高性能算力集群
基于當(dāng)下大模型大規(guī)模、高效率的訓(xùn)練需求,騰訊云上線了全新一代高性能計(jì)算集群 HCC,相比上一代整體提升了3倍。在實(shí)際業(yè)務(wù)測(cè)試當(dāng)中,業(yè)內(nèi)傳統(tǒng)的集群方案訓(xùn)練一次需要50天的時(shí)間,而騰訊云只需要4天。
HCC 不止是一個(gè)單純的算力資源,還包含了目前騰訊最先進(jìn)的存儲(chǔ)和3.2T RDMA 網(wǎng)絡(luò)能力,以及上層最前沿的軟件定義技術(shù)、云原生編排技術(shù)和加速框架。
存儲(chǔ)層面,訓(xùn)練場(chǎng)景下,幾千臺(tái)計(jì)算節(jié)點(diǎn)會(huì)同時(shí)讀取一批數(shù)據(jù)集,需要盡可能縮短數(shù)據(jù)集的加載時(shí)長(zhǎng)。騰訊云提供了 COS+GooseFS 對(duì)象存儲(chǔ)方案,提升端到端的數(shù)據(jù)讀取性能,以及 CFS Turbo 高性能并行文件存儲(chǔ)方案,解決大模型場(chǎng)景大數(shù)據(jù)量、高帶寬、低延時(shí)的訴求。
騰訊稱,目前 HCC 已成為國(guó)內(nèi)性能最強(qiáng)的訓(xùn)練集群,算力能夠?qū)崿F(xiàn)無(wú)損釋放。
他們?cè)谟布矫孢M(jìn)行了大量的優(yōu)化和升級(jí),不斷提高了集群的計(jì)算能力和穩(wěn)定性,基于騰訊自研星星海服務(wù)器,搭載了目前業(yè)內(nèi)領(lǐng)先的 GPU 芯片,支持單卡在 FP16精度下輸出989TFlops 的算力(如果在精度差一點(diǎn)的推理場(chǎng)景下,可以接近2000TFlops)。
另外,運(yùn)行成本是開(kāi)發(fā)者普遍非常關(guān)心的問(wèn)題,大模型興起初期,有開(kāi)發(fā)者抱怨說(shuō):“跑一把大模型 ,體驗(yàn)就感覺(jué)就像坐在一輛被困在路上的出租車?yán)?要么下車,要么盯著計(jì)價(jià)器跳動(dòng)”。
雖然云計(jì)算工程師們已經(jīng)能把故障率降得很低很低,但由于大模型任務(wù)和環(huán)境的復(fù)雜,仍然有可能出現(xiàn)偶發(fā)的中斷。訓(xùn)練中斷也是當(dāng)前整個(gè)行業(yè)高度關(guān)注的話題。
騰訊云基于云原生能力,能夠支持集群的監(jiān)控和斷點(diǎn)續(xù)算能力。為此騰訊提供了7*24小時(shí)的全局監(jiān)控視角,支持編排、框架、實(shí)例等多層級(jí)的指標(biāo)監(jiān)控。一旦觸發(fā)故障,系統(tǒng)能夠在5分鐘內(nèi)恢復(fù)任務(wù),10分鐘內(nèi)恢復(fù)基礎(chǔ)設(shè)施,并且無(wú)需人工干預(yù),就能夠自動(dòng)最大化保障任務(wù)的連續(xù)進(jìn)行。一個(gè)粗略的計(jì)算是,每減少一小時(shí)異常,干卡規(guī)模可節(jié)省數(shù)十萬(wàn)元成本。
高性能數(shù)據(jù)處理
為了滿足企業(yè)在這個(gè)新時(shí)代對(duì)數(shù)據(jù)檢索的需求,騰訊推出了一款專為 AI 場(chǎng)景打造的數(shù)據(jù)庫(kù):騰訊云向量數(shù)據(jù)庫(kù)。
這是一款企業(yè)級(jí)的分布式向量數(shù)據(jù)庫(kù),相較于傳統(tǒng)的單機(jī)插件式向量數(shù)據(jù)庫(kù)方案,騰訊提供了10倍的單索引規(guī)模,支持高達(dá)10億級(jí)行數(shù),助力企業(yè)應(yīng)對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)檢索的挑戰(zhàn)。
許多企業(yè)在 AI 接入過(guò)程中,Embedding 工程成為了非常大的瓶頸。而騰訊向量數(shù)據(jù)庫(kù)集成 Embedding 能力,可以使得企業(yè)數(shù)據(jù)接入 AI 的工期從30天縮短到了3天,效率提升10倍。
大模型的成功依賴于三編程個(gè)要素:模型、算力和數(shù)據(jù),擁有高質(zhì)量的數(shù)據(jù)能夠使模型更加精準(zhǔn)。
騰訊在云上打造了云原生數(shù)據(jù)湖倉(cāng)、向量數(shù)據(jù)庫(kù)。它們就像“過(guò)濾器”,能夠?qū)Υ罅康脑紨?shù)據(jù)進(jìn)行清洗、分類。
云原生數(shù)據(jù)湖倉(cāng)配合 COS 數(shù)據(jù)湖存儲(chǔ),目前能支持每秒百萬(wàn)級(jí)數(shù)據(jù)更新入湖、TB 級(jí)海量吞吐能力。配合剛剛發(fā)布的騰訊云向量數(shù)據(jù)庫(kù),能夠?qū)崿F(xiàn)10億級(jí)向量檢索規(guī)模、100億級(jí)的離線數(shù)據(jù)清洗規(guī)模,并將延遲控制在毫秒級(jí)。
實(shí)測(cè)效果顯示,對(duì)比傳統(tǒng)方式,騰訊云的高性能數(shù)據(jù)處理引擎,讓原始數(shù)據(jù)清洗性能提升了40%+,企業(yè)運(yùn)行綜合成本降低50% 。
通過(guò)對(duì)各類數(shù)據(jù)的收集、分類、去重、清洗、管理,能夠給大模型提供純度極高的數(shù)據(jù)“燃料”,大模型也能基于這些高質(zhì)量數(shù)據(jù),全面提升訓(xùn)練和推理效率。
TI 平臺(tái)提供精調(diào)部署能力
很多企業(yè)需要在通用大模型的基礎(chǔ)上,灌入自己的數(shù)據(jù)做訓(xùn)練或精調(diào),從而打造出適合自身業(yè)務(wù)的行業(yè)大模型。騰訊云也結(jié)合開(kāi)發(fā)者和企業(yè)的使用需求,進(jìn)一步完善了訓(xùn)練推理框架和 TI 平臺(tái)工具鏈。
在訓(xùn)練推理層面,騰訊借助自研的機(jī)器學(xué)習(xí)框架 Angel,完成了混元的訓(xùn)練。Angel 訓(xùn)練速度相比業(yè)界主流框架提升1倍,推理速度比業(yè)界主流框架提升1.3倍。目前,企業(yè)和開(kāi)發(fā)者可以通編程過(guò) TI 平臺(tái)直接使用該框架。
TI 平臺(tái)提供的工具覆蓋環(huán)境準(zhǔn)備、代碼調(diào)試、性能評(píng)估和部署全鏈路,具備高性能的大模型精調(diào)與部署能力,覆蓋大模型開(kāi)發(fā)、應(yīng)用全生命周期,讓客戶只需加入自己獨(dú)有的場(chǎng)景數(shù)據(jù),即可在短時(shí)間內(nèi)精調(diào)出專屬的模型方案。
寫在最后
大模型已經(jīng)成為當(dāng)前云服務(wù)提供商不可或缺的機(jī)遇。
事實(shí)上,云廠商之間正在圍繞大模型展開(kāi)競(jìng)爭(zhēng),重新?tīng)?zhēng)奪公有云市場(chǎng),因?yàn)?AI 并不只是帶來(lái)算力投入的增長(zhǎng),而是會(huì)帶來(lái)整個(gè)業(yè)務(wù)的增長(zhǎng)——當(dāng)大模型的能力不斷進(jìn)化,企業(yè)在云上使用模型服務(wù)的需求也會(huì)增加;而被大模型改造的應(yīng)用和產(chǎn)品,也帶來(lái)了新的市場(chǎng)空間。基礎(chǔ)設(shè)施、模型和應(yīng)用,三者相輔相成,已經(jīng)成為云廠商必爭(zhēng)的空間。
面對(duì)全新的發(fā)展機(jī)遇,騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 CEO 湯道生表示:“以大模型生成技術(shù)為核心,人工智能正在成為下一輪數(shù)字化發(fā)展的關(guān)鍵動(dòng)力,也為解決產(chǎn)業(yè)痛點(diǎn),帶來(lái)了全新的思路。騰訊產(chǎn)業(yè)互聯(lián)網(wǎng)將通過(guò)智能增強(qiáng)、數(shù)據(jù)增強(qiáng)、連接增強(qiáng),持續(xù)助力產(chǎn)業(yè)增強(qiáng)。”
截至目前,國(guó)內(nèi)主要大廠的大模型均已上線,而真正的競(jìng)爭(zhēng)才剛剛開(kāi)始,能否落地,能否真正產(chǎn)生價(jià)值,才是制勝關(guān)鍵。
關(guān)鍵詞: