2026-04-15 22:15:25
4月15日,第二屆酒仙橋論壇在京開幕。中國工程院院士鄭緯民指出,我國Token消耗兩年間增長千倍,但AI算力基礎(chǔ)設(shè)施無法高效生產(chǎn),陷入高耗能、低產(chǎn)出困局。他認為,AI競賽正從MaaS向TaaS躍遷,未來需推動Token服務(wù)標(biāo)準(zhǔn)化、分層化與可調(diào)度化,按業(yè)務(wù)目標(biāo)分層定價與調(diào)度,擴大計算資源池,實現(xiàn)智能服務(wù)高效低成本生產(chǎn)。
每經(jīng)記者|楊卉 每經(jīng)編輯|畢陸名
4月15日,由北電數(shù)智主辦的第二屆酒仙橋論壇在京啟幕。
《每日經(jīng)濟新聞》記者在現(xiàn)場注意到,會上,中國工程院院士、清華大學(xué)計算機科學(xué)與技術(shù)系教授鄭緯民提出,我國Token(詞元)消耗在兩年間增長了千倍。
然而,當(dāng)前的AI算力基礎(chǔ)設(shè)施還無法高效生產(chǎn)Token;實際Token產(chǎn)能受限于系統(tǒng)優(yōu)化不足,陷入高耗能、低產(chǎn)出的困局。
圖片來源:每經(jīng)記者 楊卉攝
在鄭緯民看來,AI競賽的核心標(biāo)準(zhǔn)正在從MaaS(模型即服務(wù))向TaaS(Token即服務(wù))躍遷。未來還需推動Token服務(wù)向標(biāo)準(zhǔn)化、分層化與可調(diào)度化轉(zhuǎn)變,按業(yè)務(wù)目標(biāo)對產(chǎn)能進行分層定價與調(diào)度。不能將所有負載壓在最昂貴的GPU(圖形處理器)資源上,需將大模型參數(shù)合理分配至不同的計算資源上,實現(xiàn)計算、緩存、狀態(tài)保存與數(shù)據(jù)搬運的職能分離與各歸其位,將可用計算資源池大幅擴大,將異構(gòu)設(shè)備都用起來,通過優(yōu)化底層架構(gòu)來實現(xiàn)智能服務(wù)的高效、低成本生產(chǎn)。
鄭緯民提到,前幾年大家還都在做大模型,去年開始,風(fēng)口轉(zhuǎn)到了Token。Token究竟是什么?
鄭緯民解釋稱,Token介于硬件與應(yīng)用之間,是AI處理信息的最小語義單元。如“人工智能很強大”這句話,會被分成“人工”“智能”“很”“強大”四個Token。
“你和AI的每一句輸入對話、AI生成的每一段輸出內(nèi)容,都用Token來計量信息的處理量。”鄭緯民稱。此外,Token還是計算量的映射,是AI運行時算力消耗的基本計量單位,更是AI運行的計價單位。
鄭緯民稱,Token越來越重要的背后,是AI使用方式發(fā)生變化的事實。
據(jù)他介紹,在生成式AI時代,計算的消耗主要用于輸入、輸出式的單詞請求。到了智能體時代,智能體需要自行圍繞目標(biāo)持續(xù)執(zhí)行鏈路,實際消耗的Token數(shù)量遠超預(yù)期?,甚至達到“100倍”級別的膨脹。鄭緯民還強調(diào),一旦未來新的智能水平出現(xiàn),Token的消耗還可能會達到新的水平。
鄭緯民稱,我國Token消耗已經(jīng)從2024年的日均千億漲到了如今的140萬億Token/天,兩年增長了千倍。然而,隨著Token消耗大增,新的問題開始出現(xiàn):當(dāng)前的AI算力基礎(chǔ)設(shè)施還無法高效生產(chǎn)Token;基礎(chǔ)設(shè)施主要服務(wù)于大模型訓(xùn)練,而非實際應(yīng)用中的持續(xù)性服務(wù);實際Token產(chǎn)能受限于系統(tǒng)優(yōu)化不足,陷入高耗能、低產(chǎn)出的困局。
在鄭緯民看來,單純將開源模型和開源推理框架做靜態(tài)堆疊,缺乏物理硬件層面的深度優(yōu)化與系統(tǒng)級調(diào)度,昂貴算力就會在鏈路中的各類瓶頸處,如批處理與并發(fā)策略失衡、跨節(jié)點通信與調(diào)度不協(xié)調(diào)、顯存與系統(tǒng)內(nèi)存配置不匹配等被持續(xù)損耗。
鄭緯民進一步指出,MaaS(模型即服務(wù))一直是產(chǎn)業(yè)鏈的重要一環(huán)。但隨著AI進入規(guī)模化執(zhí)行后,單純的模型接入已不足以支撐高效能供給。這意味著未來AI競賽的核心標(biāo)準(zhǔn)正在從MaaS(模型即服務(wù))向TaaS(Token即服務(wù))躍遷;從“比拼算力集群規(guī)?!睆氐邹D(zhuǎn)向“比拼每瓦Token生產(chǎn)效率”。
在鄭緯民的設(shè)想里,未來TaaS作為Agent時代生產(chǎn)智能的新型工業(yè)級服務(wù)體系,既能為產(chǎn)業(yè)釋放創(chuàng)新活力、為全國一體化算力網(wǎng)盤活存量資源,更能推動高質(zhì)量智能服務(wù)普惠可及,讓智能生成像水電一樣穩(wěn)定調(diào)度與供給,真正開啟普惠智能時代。
需要注意的是,據(jù)鄭緯民介紹,當(dāng)前的Token服務(wù)其實是多樣的,有適用于實時交互、自動駕駛等對延遲敏感場景的極低時延型;有支持長上下文處理,適用于復(fù)雜Agent推理、多輪對話等場景的均衡通用型;還有大規(guī)模離線處理,適用于數(shù)據(jù)清洗、研報生成、模型微調(diào)等批量任務(wù)的高吞吐低成本型。未來,Token服務(wù)還需實現(xiàn)標(biāo)準(zhǔn)化、分層化與可調(diào)度化,將大模型參數(shù)合理分配至不同的計算資源上,以降低成本并提高性能。鄭緯民強調(diào),按業(yè)務(wù)目標(biāo)對產(chǎn)能進行分層定價與調(diào)度,是Token服務(wù)走向基礎(chǔ)設(shè)施的前提。
談到調(diào)度,鄭緯民還進一步指出,要實現(xiàn)全系統(tǒng)的“異構(gòu)協(xié)同”,就不能將所有負載壓在最昂貴的GPU資源上,需實現(xiàn)計算、緩存、狀態(tài)保存與數(shù)據(jù)搬運的職能分離與各歸其位,將可用計算資源池大幅擴大,將異構(gòu)設(shè)備都用起來。
“過去,我們建設(shè)模型;今天,我們要建設(shè)智能供給體系。從模型服務(wù)走向Token服務(wù),是 Agent 時代對基礎(chǔ)設(shè)施的必然要求。只有當(dāng)智能生成像水電一樣,被穩(wěn)定調(diào)度與供給算力之上、Token 為王的普惠智能時代才算真正到來?!编嵕暶穹Q。
封面圖片來源:每日經(jīng)濟新聞
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP