AIPress.com.cn報(bào)道
2月6日,千問(wèn)Qwen團(tuán)隊(duì)聯(lián)合阿里巴巴AIData團(tuán)隊(duì)、曉天衡宇評(píng)測(cè)社區(qū)正式發(fā)布PLaw Bench,這是一個(gè)專(zhuān)門(mén)針對(duì)法律實(shí)務(wù)場(chǎng)景設(shè)計(jì)的大模型評(píng)測(cè)基準(zhǔn)。與市面上常見(jiàn)的法律知識(shí)問(wèn)答測(cè)試不同,PLaw Bench的核心目標(biāo)是檢驗(yàn)大模型在真實(shí)法律工作場(chǎng)景中的表現(xiàn)。
PLaw Bench的做法是全流程還原法律工作場(chǎng)景。研究團(tuán)隊(duì)收集了用戶(hù)咨詢(xún)記錄、律所實(shí)務(wù)案例和法院公開(kāi)裁判文書(shū),經(jīng)過(guò)脫敏和改編處理后,設(shè)計(jì)了13類(lèi)場(chǎng)景、850道題目和12500條評(píng)分細(xì)則。
評(píng)測(cè)分為三大任務(wù)模塊。
第一個(gè)是用戶(hù)理解。研究團(tuán)隊(duì)設(shè)計(jì)了大量經(jīng)過(guò)改編的當(dāng)事人陳述,其中充滿(mǎn)情緒化表達(dá)、事實(shí)誤導(dǎo)和關(guān)鍵信息缺失。測(cè)試要求模型從這些混亂的陳述中識(shí)別關(guān)鍵問(wèn)題,并通過(guò)提問(wèn)來(lái)澄清事實(shí)。從結(jié)果來(lái)看,頂尖模型得分接近80分,能有效過(guò)濾情感干擾,但也有部分模型出現(xiàn)關(guān)鍵細(xì)節(jié)遺漏和核心問(wèn)題誤判的情況。
第二個(gè)是案例分析。這個(gè)模塊涵蓋個(gè)人生活糾紛、公司治理、法律與科技、跨國(guó)法律實(shí)務(wù)等11個(gè)類(lèi)別。研究團(tuán)隊(duì)不僅關(guān)注模型判斷的對(duì)錯(cuò),更聚焦其推理路徑是否正確。結(jié)果顯示各主流大模型得分趨于接近,但最高分未突破70分,表明當(dāng)前模型在推理嚴(yán)謹(jǐn)性和邏輯閉環(huán)性上與專(zhuān)業(yè)法律從業(yè)者仍有差距。
第三個(gè)是文書(shū)生成。與用戶(hù)理解類(lèi)似,題目以當(dāng)事人陳述形式展開(kāi),其中植入了不合理訴求、錯(cuò)誤法律用語(yǔ)和模糊表述。模型需要站在律師視角,從混亂陳述中歸納核心事實(shí),制定訴訟策略,最終生成起訴狀或答辯狀等文書(shū)。最高得分剛過(guò)70分,部分模型雖然格式規(guī)范,但存在核心事實(shí)遺漏和法律關(guān)系誤判問(wèn)題。
在總排名中,GPT-5系列表現(xiàn)強(qiáng)勢(shì),Gemini 3.0和Claude-sonnet-4-5緊隨其后,千問(wèn)Qwen3-max位居第五。但整體來(lái)看,參與測(cè)試的模型得分都在60%左右,并未出現(xiàn)具有碾壓優(yōu)勢(shì)的選手。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了幾個(gè)有意思的現(xiàn)象。同一公司訓(xùn)練的模型往往具備相似的特長(zhǎng),比如Gemini系列擅長(zhǎng)需要嚴(yán)謹(jǐn)推理的案例分析,GPT系列更擅長(zhǎng)總結(jié)歸納但在查找法條上存在短板。在涉及中國(guó)法律咨詢(xún)和文書(shū)實(shí)務(wù)時(shí),以Qwen3-Max和DeepSeek-V3.2為代表的國(guó)產(chǎn)模型表現(xiàn)更優(yōu),對(duì)本土法律術(shù)語(yǔ)和咨詢(xún)場(chǎng)景有更精準(zhǔn)的語(yǔ)境感知能力。
研究團(tuán)隊(duì)表示,PLaw Bench的價(jià)值不僅在于提供模型排名,更希望回答一個(gè)現(xiàn)實(shí)問(wèn)題:當(dāng)把真實(shí)法律糾紛交給AI處理時(shí),它能有效發(fā)揮作用的邊界在哪里,哪些環(huán)節(jié)仍需專(zhuān)業(yè)法律從業(yè)者介入。
目前相關(guān)論文和項(xiàng)目已在arXiv和GitHub公開(kāi)。










