滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

千問(wèn)發(fā)布法律大模型評(píng)測(cè)基準(zhǔn)PLaw Bench

時(shí)間：2026-02-07 00:18:39 來(lái)源：鞭牛士編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

AIPress.com.cn報(bào)道

2月6日，千問(wèn)Qwen團(tuán)隊(duì)聯(lián)合阿里巴巴AIData團(tuán)隊(duì)、曉天衡宇評(píng)測(cè)社區(qū)正式發(fā)布PLaw Bench，這是一個(gè)專(zhuān)門(mén)針對(duì)法律實(shí)務(wù)場(chǎng)景設(shè)計(jì)的大模型評(píng)測(cè)基準(zhǔn)。與市面上常見(jiàn)的法律知識(shí)問(wèn)答測(cè)試不同，PLaw Bench的核心目標(biāo)是檢驗(yàn)大模型在真實(shí)法律工作場(chǎng)景中的表現(xiàn)。

PLaw Bench的做法是全流程還原法律工作場(chǎng)景。研究團(tuán)隊(duì)收集了用戶(hù)咨詢(xún)記錄、律所實(shí)務(wù)案例和法院公開(kāi)裁判文書(shū)，經(jīng)過(guò)脫敏和改編處理后，設(shè)計(jì)了13類(lèi)場(chǎng)景、850道題目和12500條評(píng)分細(xì)則。

評(píng)測(cè)分為三大任務(wù)模塊。

第一個(gè)是用戶(hù)理解。研究團(tuán)隊(duì)設(shè)計(jì)了大量經(jīng)過(guò)改編的當(dāng)事人陳述，其中充滿(mǎn)情緒化表達(dá)、事實(shí)誤導(dǎo)和關(guān)鍵信息缺失。測(cè)試要求模型從這些混亂的陳述中識(shí)別關(guān)鍵問(wèn)題，并通過(guò)提問(wèn)來(lái)澄清事實(shí)。從結(jié)果來(lái)看，頂尖模型得分接近80分，能有效過(guò)濾情感干擾，但也有部分模型出現(xiàn)關(guān)鍵細(xì)節(jié)遺漏和核心問(wèn)題誤判的情況。

第二個(gè)是案例分析。這個(gè)模塊涵蓋個(gè)人生活糾紛、公司治理、法律與科技、跨國(guó)法律實(shí)務(wù)等11個(gè)類(lèi)別。研究團(tuán)隊(duì)不僅關(guān)注模型判斷的對(duì)錯(cuò)，更聚焦其推理路徑是否正確。結(jié)果顯示各主流大模型得分趨于接近，但最高分未突破70分，表明當(dāng)前模型在推理嚴(yán)謹(jǐn)性和邏輯閉環(huán)性上與專(zhuān)業(yè)法律從業(yè)者仍有差距。

第三個(gè)是文書(shū)生成。與用戶(hù)理解類(lèi)似，題目以當(dāng)事人陳述形式展開(kāi)，其中植入了不合理訴求、錯(cuò)誤法律用語(yǔ)和模糊表述。模型需要站在律師視角，從混亂陳述中歸納核心事實(shí)，制定訴訟策略，最終生成起訴狀或答辯狀等文書(shū)。最高得分剛過(guò)70分，部分模型雖然格式規(guī)范，但存在核心事實(shí)遺漏和法律關(guān)系誤判問(wèn)題。

在總排名中，GPT-5系列表現(xiàn)強(qiáng)勢(shì)，Gemini 3.0和Claude-sonnet-4-5緊隨其后，千問(wèn)Qwen3-max位居第五。但整體來(lái)看，參與測(cè)試的模型得分都在60%左右，并未出現(xiàn)具有碾壓優(yōu)勢(shì)的選手。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了幾個(gè)有意思的現(xiàn)象。同一公司訓(xùn)練的模型往往具備相似的特長(zhǎng)，比如Gemini系列擅長(zhǎng)需要嚴(yán)謹(jǐn)推理的案例分析，GPT系列更擅長(zhǎng)總結(jié)歸納但在查找法條上存在短板。在涉及中國(guó)法律咨詢(xún)和文書(shū)實(shí)務(wù)時(shí)，以Qwen3-Max和DeepSeek-V3.2為代表的國(guó)產(chǎn)模型表現(xiàn)更優(yōu)，對(duì)本土法律術(shù)語(yǔ)和咨詢(xún)場(chǎng)景有更精準(zhǔn)的語(yǔ)境感知能力。

研究團(tuán)隊(duì)表示，PLaw Bench的價(jià)值不僅在于提供模型排名，更希望回答一個(gè)現(xiàn)實(shí)問(wèn)題：當(dāng)把真實(shí)法律糾紛交給AI處理時(shí)，它能有效發(fā)揮作用的邊界在哪里，哪些環(huán)節(jié)仍需專(zhuān)業(yè)法律從業(yè)者介入。

目前相關(guān)論文和項(xiàng)目已在arXiv和GitHub公開(kāi)。

02-17

馬斯克重申：特斯拉Cybercab今年4月投產(chǎn)

02-17

特斯拉開(kāi)始在歐洲車(chē)輛推廣Grok人工智能助手

02-17

阿里發(fā)布新一代基模千問(wèn)3.5，登頂全球最強(qiáng)開(kāi)源大模型

02-17

宇樹(shù)王興興發(fā)文：為科技的夢(mèng)想干杯

02-17

馬年春晚兩小時(shí)：京東機(jī)器人搜索量飆升，多款“春晚同款”遭搶購(gòu)

02-17

OpenClaw創(chuàng)始人投身OpenAI：智能體AI新賽道，行業(yè)變革序幕拉開(kāi)

OpenClaw 周?chē)纳鐓^(qū)有一種神奇的魔力，OpenAI 已做出強(qiáng)有力的承諾，支持我投入時(shí)間維護(hù)它，并已開(kāi)始贊助這個(gè)項(xiàng)目。而OpenClaw的技術(shù)，恰恰切中了這個(gè)方向最核心的問(wèn)題：多個(gè)AI智能體之間，如…

02-17

春晚機(jī)器人驚艷亮相：中國(guó)科技實(shí)力引外國(guó)網(wǎng)友“愛(ài)恨交織”

有媒體采訪(fǎng)這段武術(shù)對(duì)打的幕后故事時(shí)從塔溝武術(shù)學(xué)校王教練處得知，這些機(jī)器人此前經(jīng)過(guò)大量訓(xùn)練，而且是把“武林高手”的代表招式，都由人類(lèi)在影棚里先做一遍，按步驟拆解，再通過(guò)動(dòng)作捕捉技術(shù)，轉(zhuǎn)化為機(jī)器人能識(shí)別的程序，…

02-17

小米Tag追蹤器或推國(guó)行版海外售價(jià)近148元兼容多平臺(tái)定位

IT之家 2 月 13 日消息，博主 @智慧皮卡丘發(fā)文，透露小米昨天在歐洲市場(chǎng)推出的 Xiaomi Tag追蹤器也將推出國(guó)行版本，還有“陶瓷手環(huán)在路上”。作為比較，海外 Xiaomi Tag 追蹤器單個(gè)…

02-17

2026手機(jī)廠(chǎng)商大變革：“華米OV耀”跨界出擊相機(jī)市場(chǎng)格局生變

但MWC 2026開(kāi)幕在即，手機(jī)廠(chǎng)商們的槍口不再只是對(duì)準(zhǔn)彼此，而是齊刷刷地調(diào)轉(zhuǎn)方向，瞄準(zhǔn)了那個(gè)曾經(jīng)被認(rèn)為“神圣不可侵犯”的領(lǐng)地——專(zhuān)業(yè)相機(jī)與手持影像設(shè)備市場(chǎng)。經(jīng)過(guò)數(shù)月的供應(yīng)鏈摸排與信息匯總，不客觀實(shí)驗(yàn)室拼…

02-17

Murena Volla隱私平板登場(chǎng)：搭載安卓14系統(tǒng)，硬件配置強(qiáng)勁且注重隱私保護(hù)

Murena Volla 搭載了基于 Android 14 的 /e/OS 系統(tǒng)，而不是 Volla OS 或 Ubuntu Touch。Murena Volla 平板電腦日前以 798 美元（IT之家注…

02-17

春節(jié)AI購(gòu)物熱潮涌動(dòng)，千問(wèn)助力超1.3億人嘗鮮，日活飆升成新寵

如果說(shuō)去年春節(jié)是深度思考出圈的DeepSeek時(shí)刻，今年春節(jié)就是AI辦事出圈的千問(wèn)時(shí)刻，“千問(wèn)幫我”已成為AI時(shí)代的用戶(hù)新習(xí)慣。除夕當(dāng)天，阿里巴巴還開(kāi)源全新一代大模型千問(wèn)Qwen3.5-Plus，性能媲美…

02-17

Murena Volla隱私平板來(lái)襲：搭載安卓系統(tǒng)，開(kāi)源應(yīng)用助力隱私保護(hù)

02-17

馬斯克三度確認(rèn)：特斯拉Cybercab 4月投產(chǎn) 自動(dòng)駕駛網(wǎng)約車(chē)新篇將啟

02-17

馬年春晚機(jī)器人表演引熱潮：京東機(jī)器人搜索訂單量雙雙激增

02-17

點(diǎn)擊查看更多 +

全站最新

松延動(dòng)力與魔法原子人形機(jī)器人閃耀2026年春晚舞臺(tái) 展現(xiàn)科技魅力

春節(jié)AI購(gòu)物熱潮涌動(dòng)，千問(wèn)助力超1.3億人嘗鮮，日活飆升成新寵

全新馬自達(dá)CX-30來(lái)襲！動(dòng)力足油耗低，都市通勤的省心“搭子”

高端踏板終極對(duì)決！吳老臭實(shí)測(cè)揭秘：XADV750與TMAX560誰(shuí)更值得入手？

凱美瑞雙擎通勤一年：油費(fèi)省出手機(jī)錢(qián)，但這些槽點(diǎn)實(shí)在難忍！

中年人偏愛(ài)奔馳GLC：底盤(pán)扎實(shí)動(dòng)力穩(wěn)，選對(duì)配置省8萬(wàn)冤枉錢(qián)

熱門(mén)內(nèi)容

本欄最新

春節(jié)AI購(gòu)物熱潮涌動(dòng)，千問(wèn)助力超1.3億人嘗鮮，日活飆升成新寵

千問(wèn)3.5：以第一性原理破局，重塑大模型性能、開(kāi)源與性?xún)r(jià)比新格局

2026央視春晚科技味濃：超20家企業(yè)合作，4家機(jī)器人企業(yè)攜新品驚艷亮相

小米YU7 GT純電性能猛獸來(lái)襲！超千匹馬力配超寬胎，4月上市劍指Model Y高性能版

雷軍微博換新頭像引熱議！網(wǎng)友：健身后氣場(chǎng)足，配SU7 Ultra似賽車(chē)手

奧迪E7X量產(chǎn)版亮相：大五座設(shè)計(jì)配751km長(zhǎng)續(xù)航，上半年上市引期待

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類(lèi)資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶(hù)提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

千問(wèn)發(fā)布法律大模型評(píng)測(cè)基準(zhǔn)PLaw Bench