千問Qwen團隊攜手阿里巴巴AIData團隊及曉天衡宇評測社區,共同推出了一款專注于法律實務場景的大模型評測基準——PLaw Bench。這一創新舉措旨在填補現有法律評測體系的空白,通過模擬真實法律工作環境,全面評估大模型在處理復雜法律問題時的能力。
為解決這些問題,PLaw Bench構建了一個高度貼近實際的評測框架。研究團隊深入挖掘用戶咨詢記錄、律所實務案例及法院裁判文書,經過脫敏處理后,設計了涵蓋13類法律場景的850道題目,并制定了12500條詳細的評分標準。這一體系不僅覆蓋了從用戶咨詢到文書生成的全流程,還特別強調對模型推理過程和邏輯嚴謹性的考察。
評測任務分為三個核心模塊。在用戶理解模塊中,模型需從情緒化、碎片化的當事人陳述中提取關鍵信息,并通過追問澄清事實。測試結果顯示,頂尖模型能夠較好地過濾情感干擾,但仍有部分模型在關鍵細節識別和核心問題判斷上存在不足。案例分析模塊則聚焦于模型對復雜法律問題的推理能力,涵蓋個人糾紛、公司治理、跨國法律實務等多個領域。盡管主流模型得分接近,但最高分未達70分,表明其在邏輯閉環性方面仍有提升空間。
文書生成模塊要求模型根據混亂的當事人陳述,歸納核心事實、制定訴訟策略,并生成規范的起訴狀或答辯狀。這一任務對模型的綜合能力提出了更高要求,測試中最高得分僅略超70分,部分模型雖格式正確,但存在事實遺漏和法律關系誤判等問題。這些結果反映出,當前大模型在處理真實法律事務時,仍需在事實提取、邏輯推理和法律適用等關鍵環節加強訓練。
在整體排名中,GPT-5系列模型表現突出,Gemini 3.0和Claude-sonnet-4-5緊隨其后,千問Qwen3-max位列第五。值得注意的是,所有參與評測的模型得分均集中在60分左右,未出現明顯領先者,顯示出當前法律大模型在實務應用中的普遍局限性。
研究還發現,同一技術路線下的模型往往呈現相似的優勢領域。例如,Gemini系列在需要嚴密推理的案例分析中表現優異,而GPT系列則更擅長信息歸納,但在法條檢索方面存在短板。在處理中國法律咨詢和文書實務時,Qwen3-Max和DeepSeek-V3.2等國產模型展現出更強的語境適應能力,能夠更準確地理解本土法律術語和咨詢場景。
PLaw Bench的推出不僅為法律大模型的性能評估提供了新標準,更引發了對AI在法律領域應用邊界的深入思考。研究團隊強調,該項目的核心目標并非單純比較模型優劣,而是通過系統化評測,明確AI在處理真實法律糾紛時的能力邊界,為技術開發者與法律從業者提供合作參考。目前,相關研究論文和評測數據已在學術平臺和開源社區公開,供全球研究者進一步探索和完善。











