每日經(jīng)濟(jì)新聞 2026-05-09 16:11:01
每經(jīng)AI快訊,5月9日,MiniMax官微發(fā)長文回應(yīng)M2系列模型無法說出馬嘉祺一事,提供了對(duì)“嘉祺識(shí)別”問題的完整排查過程和技術(shù)思考。MiniMax表示,其從分詞器版本對(duì)齊、embedding統(tǒng)計(jì)分布、語義近鄰檢索、預(yù)訓(xùn)練與后訓(xùn)練模型的few-shot對(duì)比實(shí)驗(yàn)、后訓(xùn)練數(shù)據(jù)頻次統(tǒng)計(jì)以及對(duì)全詞表lm_head變化幅度的排序掃描等多個(gè)維度進(jìn)行了排查。最終定位到的原因是:“嘉祺”在分詞器中被合并為一個(gè)獨(dú)立token,但該token在后訓(xùn)練數(shù)據(jù)中出現(xiàn)頻次極低,導(dǎo)致模型在后訓(xùn)練中逐漸遺忘了對(duì)該token的生成能力。

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP