滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

Token：從邏輯符號到AI基石，它如何重塑語言與權(quán)力的新秩序？

時(shí)間：2026-03-30 20:29:56 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

當(dāng)人們詢問AI關(guān)于“馬嘉祺”的信息時(shí)，得到的回答可能是“馬俊杰”“馬杰倫”或其他名字，唯獨(dú)不是正確的答案。這種現(xiàn)象并非AI在故意編造，而是與其處理語言的方式密切相關(guān)。人類在交流時(shí)，往往先理解語義，再提取對應(yīng)的詞匯發(fā)音；而AI的運(yùn)作方式則相反，它先有一套詞匯表，再通過統(tǒng)計(jì)關(guān)聯(lián)構(gòu)建描述和概念。

以人類認(rèn)識“草莓”為例，人們通過感官體驗(yàn)形成對草莓的綜合認(rèn)知，最終知道它叫“草莓”。而AI則通過海量文本數(shù)據(jù)，統(tǒng)計(jì)“strawberry”常與哪些詞匯共現(xiàn)，從而拼湊出關(guān)于草莓的描述。它沒有真實(shí)的感官體驗(yàn)，只是通過數(shù)據(jù)關(guān)聯(lián)模擬出草莓的形象。在AI的詞匯表中，“草莓”可能只是一串編號，即Token。

Token在AI領(lǐng)域有著重要作用，它是語言在模型中的替代物。如今，Token的影響力已超出科技圈，甚至有了中文譯名“詞元”，不過這一譯名存在爭議。Token的概念最早可追溯到1906年，美國哲學(xué)家查爾斯·桑德斯·皮爾士提出Type-Token distinction，用于區(qū)分抽象的類型和具體的實(shí)例。例如，英語中只有一個(gè)抽象的“the”，但具體文本中會(huì)出現(xiàn)多個(gè)“the”，抽象的“the”是Type，具體的則是Token。

此后，Type-Token這對概念被應(yīng)用到多個(gè)領(lǐng)域。1930年代，語言學(xué)家齊普夫用其統(tǒng)計(jì)詞匯出現(xiàn)頻率，發(fā)現(xiàn)了齊普夫定律；1944年，心理學(xué)家提出類型-標(biāo)記比，用于衡量文本詞匯豐富度。計(jì)算機(jī)出現(xiàn)后，Token在編譯原理中有了新應(yīng)用，編譯器將代碼切分成一個(gè)個(gè)Token，以便計(jì)算機(jī)識別處理。

然而，處理自然語言時(shí)，按空格切分的方法存在諸多問題。英語雖相對容易，但會(huì)面臨詞表爆炸、未登錄詞等困擾；而中文、日語等沒有空格的語言，分詞更是難題。2016年，神經(jīng)機(jī)器翻譯興起，為解決生詞問題，愛丁堡大學(xué)的Rico Sennrich等人將字節(jié)對編碼（BPE）算法引入自然語言處理。BPE算法通過統(tǒng)計(jì)相鄰字節(jié)出現(xiàn)頻率，將高頻組合合并成新符號，從而控制詞表大小，解決生詞問題。

2018年，OpenAI對BPE算法進(jìn)行改進(jìn)，推出Byte-level BPE（BBPE）。BBPE從基礎(chǔ)字節(jié)出發(fā)，無論何種語言，都統(tǒng)一處理為0到255之間的數(shù)字，再通過合并生成詞表。這使得GPT系列模型能夠處理多種語言，因?yàn)槠淦瘘c(diǎn)足夠低，不依賴任何語言的先驗(yàn)知識。

但BBPE也存在問題，不同語言在處理效率和成本上存在差異。英文單詞常能以完整Token出現(xiàn)，而中文漢字可能需要多個(gè)字節(jié)，一些生僻字甚至?xí)徊鸱殖啥鄠€(gè)碎片，導(dǎo)致中文Token消耗更多。大模型按Token計(jì)費(fèi)，中文用戶需支付更多費(fèi)用，且在相同上下文窗口下，能輸入的內(nèi)容更少。小語種的情況更為嚴(yán)峻，由于訓(xùn)練數(shù)據(jù)稀缺，字節(jié)組合難以合并，Token消耗可能是英文的數(shù)倍。

這種語言不平等現(xiàn)象并非首次出現(xiàn)。電報(bào)時(shí)代，莫爾斯碼基于英文字母頻率設(shè)計(jì)，中文電報(bào)需將漢字轉(zhuǎn)換為數(shù)字再編碼，導(dǎo)致信號量是英文的七八倍，費(fèi)用也更高；打字機(jī)發(fā)明初期，也是為拉丁字母設(shè)計(jì)，中文打字機(jī)操作復(fù)雜，速度緩慢。近現(xiàn)代以來，每次新的信息編碼系統(tǒng)出現(xiàn)，都會(huì)引發(fā)語言不平等，且英文往往占據(jù)優(yōu)勢。

雖然技術(shù)在不斷改進(jìn)，如從GPT-3到GPT-5，中文Token效率有所提升，但詞表容量有限，小語種的問題仍未得到有效解決。語料配比決策隱藏在技術(shù)文檔中，卻決定了數(shù)十億人使用AI的成本和體驗(yàn)。BPE用頻率取代Type，雖帶來了便利，但也導(dǎo)致了語言不平等，高頻語言被完整保留，低頻語言被碎成碎片。

這種不平等不僅存在于不同語言之間，也存在于同一種語言內(nèi)部。以“馬嘉祺”為例，由于“祺”字出現(xiàn)頻率低，BPE算法未為其分配完整Token，而是拆分成碎片。AI生成名字時(shí)，難以正確組合這些碎片，而“馬俊杰”等名字因各字為完整Token且組合常見，更易被AI生成。2026年1月的研究發(fā)現(xiàn)，tokenizer會(huì)影響大模型的推理能力，模型會(huì)選擇阻力最小的路徑生成答案，強(qiáng)制移除易混淆的Token可提升模型表現(xiàn)，這表明問題在于tokenizer的架構(gòu)層面，模型變大也無法解決。

Token從邏輯圖中的一個(gè)概念，逐步發(fā)展成為AI領(lǐng)域的核心要素，其發(fā)展歷程充滿了偶然性。皮爾士、Philip Gage、Rico Sennrich以及OpenAI等，每一步的選擇都是為了解決當(dāng)時(shí)的問題，卻在不經(jīng)意間凝固成了新的秩序。如今，人類正將意義和規(guī)則的定義權(quán)交給統(tǒng)計(jì)數(shù)據(jù)，而Token已成為這一過程中不可或缺的一部分。

03-30

Linux 7.0 RC6來襲，補(bǔ)丁異常增多，Torvalds坦言擔(dān)憂發(fā)布進(jìn)程

03-30

智象未來與諾亦騰機(jī)器人攜手，共探具身智能高質(zhì)量數(shù)據(jù)生成新路徑

03-30

90后華裔女將Cat Wu掌舵，Claude Code迭代加速開啟AI產(chǎn)品新篇章

03-30

宇樹科技王興興：六個(gè)月后機(jī)器人可自由組合動(dòng)作，智能化水平將大幅提升

03-30

AI新突破：DreamPartGen讓3D物體生成如搭積木般靈活精準(zhǔn)

03-30

阿伯丁大學(xué)研究：AI時(shí)間推理受阻，雙重機(jī)制影響多語言處理能力

03-30

AI難擔(dān)數(shù)據(jù)科學(xué)大任？明尼蘇達(dá)大學(xué)研究：人機(jī)協(xié)作方為破局之道

03-30

90后華裔女將Cat Wu：以跨界之姿，引領(lǐng)Claude Code開啟加速迭代新篇

03-30

上海“AGI4S珠穆朗瑪計(jì)劃”啟航，以全要素協(xié)同托舉科學(xué)原創(chuàng)新高度

03-30

馬克·古爾曼爆料：iOS 27全新Siri應(yīng)用將至，“擴(kuò)展”功能或引AI交互新變革

03-30

NVIDIA力推800VDC電力架構(gòu) 為下一代AI數(shù)據(jù)中心注入新動(dòng)力

03-30

4月19日人機(jī)同場競技！王興興：人形機(jī)器人半馬將突破1小時(shí)大關(guān)

03-30

北京互聯(lián)網(wǎng)法院判定：利用AI生成不實(shí)內(nèi)容侵害名譽(yù)權(quán)需擔(dān)責(zé)

03-30

?最懂開發(fā)者的城市！上海已發(fā)布超150款備案大模型，集聚 30 萬 AI 人才

03-30

點(diǎn)擊查看更多 +

全站最新

圖解丨南下資金凈買入騰訊，凈賣出阿里和中芯國際

高盛：市場悲觀情緒接近極限一旦戰(zhàn)爭局勢降溫股市或大幅反彈

廣汽2025年年報(bào):"新廣汽"輪廓逐漸清晰

賽克賽斯三闖IPO，專注于醫(yī)療器械領(lǐng)域，近5年累計(jì)分紅3.23億元

皇冠新材深主板IPO，聚焦復(fù)合材料領(lǐng)域，面臨原材料漲價(jià)風(fēng)險(xiǎn)

美股異動(dòng) | 力拓盤前漲超3% 恢復(fù)皮爾巴拉三處港口碼頭運(yùn)營

熱門內(nèi)容

本欄最新

長城汽車2025年?duì)I收創(chuàng)新高，高端化布局與研發(fā)投入共促穩(wěn)健增長

中聯(lián)重科“巨無霸”起重機(jī)亮相隨州，核心技術(shù)突破助力智能工廠高效生產(chǎn)

李文正深度剖析：Agentic AI時(shí)代，AI大模型從“對話”邁向“多體協(xié)同”新征程

長安汽車巴西工廠竣工投產(chǎn) 首輛本土制造UNI-T下線開啟拉美新征程

眾智FlagOS 2.0重磅登場：32款芯片全支持，八大突破引領(lǐng)智能體時(shí)代新發(fā)展

AI流量增速遠(yuǎn)超人類，代理型AI崛起：互聯(lián)網(wǎng)商業(yè)與安全面臨雙重重構(gòu)

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

Token：從邏輯符號到AI基石，它如何重塑語言與權(quán)力的新秩序？