要聞

中國工程院院士鄭緯民：從模型服務(wù)走向詞元服務(wù)，是智能體時代對基礎(chǔ)設(shè)施的必然要求

2026-04-15 22:15:25

4月15日，第二屆酒仙橋論壇在京開幕。中國工程院院士鄭緯民指出，我國Token消耗兩年間增長千倍，但AI算力基礎(chǔ)設(shè)施無法高效生產(chǎn)，陷入高耗能、低產(chǎn)出困局。他認為，AI競賽正從MaaS向TaaS躍遷，未來需推動Token服務(wù)標(biāo)準(zhǔn)化、分層化與可調(diào)度化，按業(yè)務(wù)目標(biāo)分層定價與調(diào)度，擴大計算資源池，實現(xiàn)智能服務(wù)高效低成本生產(chǎn)。

每經(jīng)記者｜楊卉每經(jīng)編輯｜畢陸名

4月15日，由北電數(shù)智主辦的第二屆酒仙橋論壇在京啟幕。

《每日經(jīng)濟新聞》記者在現(xiàn)場注意到，會上，中國工程院院士、清華大學(xué)計算機科學(xué)與技術(shù)系教授鄭緯民提出，我國Token（詞元）消耗在兩年間增長了千倍。

然而，當(dāng)前的AI算力基礎(chǔ)設(shè)施還無法高效生產(chǎn)Token；實際Token產(chǎn)能受限于系統(tǒng)優(yōu)化不足，陷入高耗能、低產(chǎn)出的困局。

圖片來源：每經(jīng)記者楊卉攝

在鄭緯民看來，AI競賽的核心標(biāo)準(zhǔn)正在從MaaS（模型即服務(wù)）向TaaS（Token即服務(wù)）躍遷。未來還需推動Token服務(wù)向標(biāo)準(zhǔn)化、分層化與可調(diào)度化轉(zhuǎn)變，按業(yè)務(wù)目標(biāo)對產(chǎn)能進行分層定價與調(diào)度。不能將所有負載壓在最昂貴的GPU（圖形處理器）資源上，需將大模型參數(shù)合理分配至不同的計算資源上，實現(xiàn)計算、緩存、狀態(tài)保存與數(shù)據(jù)搬運的職能分離與各歸其位，將可用計算資源池大幅擴大，將異構(gòu)設(shè)備都用起來，通過優(yōu)化底層架構(gòu)來實現(xiàn)智能服務(wù)的高效、低成本生產(chǎn)。

“當(dāng)前AI算力基礎(chǔ)設(shè)施無法高效生產(chǎn)詞元”

鄭緯民提到，前幾年大家還都在做大模型，去年開始，風(fēng)口轉(zhuǎn)到了Token。Token究竟是什么？

鄭緯民解釋稱，Token介于硬件與應(yīng)用之間，是AI處理信息的最小語義單元。如“人工智能很強大”這句話，會被分成“人工”“智能”“很”“強大”四個Token。

“你和AI的每一句輸入對話、AI生成的每一段輸出內(nèi)容，都用Token來計量信息的處理量。”鄭緯民稱。此外，Token還是計算量的映射，是AI運行時算力消耗的基本計量單位，更是AI運行的計價單位。

鄭緯民稱，Token越來越重要的背后，是AI使用方式發(fā)生變化的事實。

據(jù)他介紹，在生成式AI時代，計算的消耗主要用于輸入、輸出式的單詞請求。到了智能體時代，智能體需要自行圍繞目標(biāo)持續(xù)執(zhí)行鏈路，實際消耗的Token數(shù)量遠超預(yù)期?，甚至達到“100倍”級別的膨脹。鄭緯民還強調(diào)，一旦未來新的智能水平出現(xiàn)，Token的消耗還可能會達到新的水平。

鄭緯民稱，我國Token消耗已經(jīng)從2024年的日均千億漲到了如今的140萬億Token/天，兩年增長了千倍。然而，隨著Token消耗大增，新的問題開始出現(xiàn)：當(dāng)前的AI算力基礎(chǔ)設(shè)施還無法高效生產(chǎn)Token；基礎(chǔ)設(shè)施主要服務(wù)于大模型訓(xùn)練，而非實際應(yīng)用中的持續(xù)性服務(wù)；實際Token產(chǎn)能受限于系統(tǒng)優(yōu)化不足，陷入高耗能、低產(chǎn)出的困局。

在鄭緯民看來，單純將開源模型和開源推理框架做靜態(tài)堆疊，缺乏物理硬件層面的深度優(yōu)化與系統(tǒng)級調(diào)度，昂貴算力就會在鏈路中的各類瓶頸處，如批處理與并發(fā)策略失衡、跨節(jié)點通信與調(diào)度不協(xié)調(diào)、顯存與系統(tǒng)內(nèi)存配置不匹配等被持續(xù)損耗。

按業(yè)務(wù)目標(biāo)對產(chǎn)能進行分層定價與調(diào)度

鄭緯民進一步指出，MaaS（模型即服務(wù)）一直是產(chǎn)業(yè)鏈的重要一環(huán)。但隨著AI進入規(guī)模化執(zhí)行后，單純的模型接入已不足以支撐高效能供給。這意味著未來AI競賽的核心標(biāo)準(zhǔn)正在從MaaS（模型即服務(wù)）向TaaS（Token即服務(wù)）躍遷；從“比拼算力集群規(guī)?！睆氐邹D(zhuǎn)向“比拼每瓦Token生產(chǎn)效率”。

在鄭緯民的設(shè)想里，未來TaaS作為Agent時代生產(chǎn)智能的新型工業(yè)級服務(wù)體系，既能為產(chǎn)業(yè)釋放創(chuàng)新活力、為全國一體化算力網(wǎng)盤活存量資源，更能推動高質(zhì)量智能服務(wù)普惠可及，讓智能生成像水電一樣穩(wěn)定調(diào)度與供給，真正開啟普惠智能時代。

需要注意的是，據(jù)鄭緯民介紹，當(dāng)前的Token服務(wù)其實是多樣的，有適用于實時交互、自動駕駛等對延遲敏感場景的極低時延型；有支持長上下文處理，適用于復(fù)雜Agent推理、多輪對話等場景的均衡通用型；還有大規(guī)模離線處理，適用于數(shù)據(jù)清洗、研報生成、模型微調(diào)等批量任務(wù)的高吞吐低成本型。未來，Token服務(wù)還需實現(xiàn)標(biāo)準(zhǔn)化、分層化與可調(diào)度化，將大模型參數(shù)合理分配至不同的計算資源上，以降低成本并提高性能。鄭緯民強調(diào)，按業(yè)務(wù)目標(biāo)對產(chǎn)能進行分層定價與調(diào)度，是Token服務(wù)走向基礎(chǔ)設(shè)施的前提。

談到調(diào)度，鄭緯民還進一步指出，要實現(xiàn)全系統(tǒng)的“異構(gòu)協(xié)同”，就不能將所有負載壓在最昂貴的GPU資源上，需實現(xiàn)計算、緩存、狀態(tài)保存與數(shù)據(jù)搬運的職能分離與各歸其位，將可用計算資源池大幅擴大，將異構(gòu)設(shè)備都用起來。

“過去，我們建設(shè)模型；今天，我們要建設(shè)智能供給體系。從模型服務(wù)走向Token服務(wù)，是 Agent 時代對基礎(chǔ)設(shè)施的必然要求。只有當(dāng)智能生成像水電一樣，被穩(wěn)定調(diào)度與供給算力之上、Token 為王的普惠智能時代才算真正到來?！编嵕暶穹Q。

封面圖片來源：每日經(jīng)濟新聞

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

特變電工2025年凈利增長近44%不及機構(gòu)預(yù)期：多晶硅產(chǎn)量下滑超50%，預(yù)計2026年營收增長超13%

返回每經(jīng)網(wǎng)首頁

下一篇文章

4月16日消費新版早參

相關(guān)文章