當(dāng)人們詢問AI關(guān)于“馬嘉祺”的信息時(shí),得到的回答可能是“馬俊杰”“馬杰倫”或其他名字,唯獨(dú)不是正確的答案。這種現(xiàn)象并非AI在故意編造,而是與其處理語言的方式密切相關(guān)。人類在交流時(shí),往往先理解語義,再提取對應(yīng)的詞匯發(fā)音;而AI的運(yùn)作方式則相反,它先有一套詞匯表,再通過統(tǒng)計(jì)關(guān)聯(lián)構(gòu)建描述和概念。
以人類認(rèn)識“草莓”為例,人們通過感官體驗(yàn)形成對草莓的綜合認(rèn)知,最終知道它叫“草莓”。而AI則通過海量文本數(shù)據(jù),統(tǒng)計(jì)“strawberry”常與哪些詞匯共現(xiàn),從而拼湊出關(guān)于草莓的描述。它沒有真實(shí)的感官體驗(yàn),只是通過數(shù)據(jù)關(guān)聯(lián)模擬出草莓的形象。在AI的詞匯表中,“草莓”可能只是一串編號,即Token。
Token在AI領(lǐng)域有著重要作用,它是語言在模型中的替代物。如今,Token的影響力已超出科技圈,甚至有了中文譯名“詞元”,不過這一譯名存在爭議。Token的概念最早可追溯到1906年,美國哲學(xué)家查爾斯·桑德斯·皮爾士提出Type-Token distinction,用于區(qū)分抽象的類型和具體的實(shí)例。例如,英語中只有一個(gè)抽象的“the”,但具體文本中會(huì)出現(xiàn)多個(gè)“the”,抽象的“the”是Type,具體的則是Token。
此后,Type-Token這對概念被應(yīng)用到多個(gè)領(lǐng)域。1930年代,語言學(xué)家齊普夫用其統(tǒng)計(jì)詞匯出現(xiàn)頻率,發(fā)現(xiàn)了齊普夫定律;1944年,心理學(xué)家提出類型-標(biāo)記比,用于衡量文本詞匯豐富度。計(jì)算機(jī)出現(xiàn)后,Token在編譯原理中有了新應(yīng)用,編譯器將代碼切分成一個(gè)個(gè)Token,以便計(jì)算機(jī)識別處理。
然而,處理自然語言時(shí),按空格切分的方法存在諸多問題。英語雖相對容易,但會(huì)面臨詞表爆炸、未登錄詞等困擾;而中文、日語等沒有空格的語言,分詞更是難題。2016年,神經(jīng)機(jī)器翻譯興起,為解決生詞問題,愛丁堡大學(xué)的Rico Sennrich等人將字節(jié)對編碼(BPE)算法引入自然語言處理。BPE算法通過統(tǒng)計(jì)相鄰字節(jié)出現(xiàn)頻率,將高頻組合合并成新符號,從而控制詞表大小,解決生詞問題。
2018年,OpenAI對BPE算法進(jìn)行改進(jìn),推出Byte-level BPE(BBPE)。BBPE從基礎(chǔ)字節(jié)出發(fā),無論何種語言,都統(tǒng)一處理為0到255之間的數(shù)字,再通過合并生成詞表。這使得GPT系列模型能夠處理多種語言,因?yàn)槠淦瘘c(diǎn)足夠低,不依賴任何語言的先驗(yàn)知識。
但BBPE也存在問題,不同語言在處理效率和成本上存在差異。英文單詞常能以完整Token出現(xiàn),而中文漢字可能需要多個(gè)字節(jié),一些生僻字甚至?xí)徊鸱殖啥鄠€(gè)碎片,導(dǎo)致中文Token消耗更多。大模型按Token計(jì)費(fèi),中文用戶需支付更多費(fèi)用,且在相同上下文窗口下,能輸入的內(nèi)容更少。小語種的情況更為嚴(yán)峻,由于訓(xùn)練數(shù)據(jù)稀缺,字節(jié)組合難以合并,Token消耗可能是英文的數(shù)倍。
這種語言不平等現(xiàn)象并非首次出現(xiàn)。電報(bào)時(shí)代,莫爾斯碼基于英文字母頻率設(shè)計(jì),中文電報(bào)需將漢字轉(zhuǎn)換為數(shù)字再編碼,導(dǎo)致信號量是英文的七八倍,費(fèi)用也更高;打字機(jī)發(fā)明初期,也是為拉丁字母設(shè)計(jì),中文打字機(jī)操作復(fù)雜,速度緩慢。近現(xiàn)代以來,每次新的信息編碼系統(tǒng)出現(xiàn),都會(huì)引發(fā)語言不平等,且英文往往占據(jù)優(yōu)勢。
雖然技術(shù)在不斷改進(jìn),如從GPT-3到GPT-5,中文Token效率有所提升,但詞表容量有限,小語種的問題仍未得到有效解決。語料配比決策隱藏在技術(shù)文檔中,卻決定了數(shù)十億人使用AI的成本和體驗(yàn)。BPE用頻率取代Type,雖帶來了便利,但也導(dǎo)致了語言不平等,高頻語言被完整保留,低頻語言被碎成碎片。
這種不平等不僅存在于不同語言之間,也存在于同一種語言內(nèi)部。以“馬嘉祺”為例,由于“祺”字出現(xiàn)頻率低,BPE算法未為其分配完整Token,而是拆分成碎片。AI生成名字時(shí),難以正確組合這些碎片,而“馬俊杰”等名字因各字為完整Token且組合常見,更易被AI生成。2026年1月的研究發(fā)現(xiàn),tokenizer會(huì)影響大模型的推理能力,模型會(huì)選擇阻力最小的路徑生成答案,強(qiáng)制移除易混淆的Token可提升模型表現(xiàn),這表明問題在于tokenizer的架構(gòu)層面,模型變大也無法解決。
Token從邏輯圖中的一個(gè)概念,逐步發(fā)展成為AI領(lǐng)域的核心要素,其發(fā)展歷程充滿了偶然性。皮爾士、Philip Gage、Rico Sennrich以及OpenAI等,每一步的選擇都是為了解決當(dāng)時(shí)的問題,卻在不經(jīng)意間凝固成了新的秩序。如今,人類正將意義和規(guī)則的定義權(quán)交給統(tǒng)計(jì)數(shù)據(jù),而Token已成為這一過程中不可或缺的一部分。











