滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

千問Qwen團隊發布PLaw Bench：法律大模型真實場景“大考”誰更優？

時間：2026-02-06 22:24:50 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

千問Qwen團隊攜手阿里巴巴AIData團隊及曉天衡宇評測社區，共同推出了一款專注于法律實務場景的大模型評測基準——PLaw Bench。這一創新舉措旨在填補現有法律評測體系的空白，通過模擬真實法律工作環境，全面評估大模型在處理復雜法律問題時的能力。

為解決這些問題，PLaw Bench構建了一個高度貼近實際的評測框架。研究團隊深入挖掘用戶咨詢記錄、律所實務案例及法院裁判文書，經過脫敏處理后，設計了涵蓋13類法律場景的850道題目，并制定了12500條詳細的評分標準。這一體系不僅覆蓋了從用戶咨詢到文書生成的全流程，還特別強調對模型推理過程和邏輯嚴謹性的考察。

評測任務分為三個核心模塊。在用戶理解模塊中，模型需從情緒化、碎片化的當事人陳述中提取關鍵信息，并通過追問澄清事實。測試結果顯示，頂尖模型能夠較好地過濾情感干擾，但仍有部分模型在關鍵細節識別和核心問題判斷上存在不足。案例分析模塊則聚焦于模型對復雜法律問題的推理能力，涵蓋個人糾紛、公司治理、跨國法律實務等多個領域。盡管主流模型得分接近，但最高分未達70分，表明其在邏輯閉環性方面仍有提升空間。

文書生成模塊要求模型根據混亂的當事人陳述，歸納核心事實、制定訴訟策略，并生成規范的起訴狀或答辯狀。這一任務對模型的綜合能力提出了更高要求，測試中最高得分僅略超70分，部分模型雖格式正確，但存在事實遺漏和法律關系誤判等問題。這些結果反映出，當前大模型在處理真實法律事務時，仍需在事實提取、邏輯推理和法律適用等關鍵環節加強訓練。

在整體排名中，GPT-5系列模型表現突出，Gemini 3.0和Claude-sonnet-4-5緊隨其后，千問Qwen3-max位列第五。值得注意的是，所有參與評測的模型得分均集中在60分左右，未出現明顯領先者，顯示出當前法律大模型在實務應用中的普遍局限性。

研究還發現，同一技術路線下的模型往往呈現相似的優勢領域。例如，Gemini系列在需要嚴密推理的案例分析中表現優異，而GPT系列則更擅長信息歸納，但在法條檢索方面存在短板。在處理中國法律咨詢和文書實務時，Qwen3-Max和DeepSeek-V3.2等國產模型展現出更強的語境適應能力，能夠更準確地理解本土法律術語和咨詢場景。

PLaw Bench的推出不僅為法律大模型的性能評估提供了新標準，更引發了對AI在法律領域應用邊界的深入思考。研究團隊強調，該項目的核心目標并非單純比較模型優劣，而是通過系統化評測，明確AI在處理真實法律糾紛時的能力邊界，為技術開發者與法律從業者提供合作參考。目前，相關研究論文和評測數據已在學術平臺和開源社區公開，供全球研究者進一步探索和完善。

更多>同類資訊

2026年春晚人形機器人大集結！宇樹、松延、魔法原子、銀河通用誰將閃耀？

在2025年4月19日舉行的全球首個人形機器人半程馬拉松上，松延動力的“小頑童N2”奪得亞軍，憑借穩定性能與亮眼表現成功出圈。魔法原子擁有全棧自研的軟硬件技術，核心硬件覆蓋全關節模組、靈巧手、減速器驅動器等…

02-17

阿里巴巴Qwen3.5-Plus發布：架構革新、多模態突破，開啟開源智能新紀元

這種對思維深度的精細化控制，是Qwen3.5-Plus能夠以17B激活參數抗衡萬億模型的核心技術屏障，讓其在保持強大性能的同時，顯著降低了計算資源需求，為大模型的普惠化應用奠定了基礎，這也是其與Qwen3-…

02-17

2026央視春晚：4家機器人企業閃耀舞臺 8家上市公司攜手共賀新春

紅星資本局注意到，在2025年央視春晚上，宇樹科技的機器人靠節目《秧bot》一炮走紅；今年，宇樹科技、魔法原子、銀河通用、松延動力四家機器人企業亮相2026年央視春晚。松延動力的多款產品，與蔡明配合完成小…

02-17

阿里千問3.5壓軸登場：參數“瘦身”性能飆升，國產大模型加速超車

但從今天起，阿里也是一個在全模態上100%對標谷歌的公司了，從預訓練第一天起，Qwen3.5就在文本和視覺的混合數據上聯合學習，讓視覺與語言在統一的參數空間內深度融合，這就是Gemini3 Pro和Nan…

02-17

突發！OpenClaw創始人將加入OpenAI

02-17

消息稱阿里今晚將開源新一代千問大模型

02-17

2026央視春晚：4家機器人企業閃耀舞臺，8家上市公司攜手共賀新春

02-17

公募開年調研熱情高漲，超5000次調研聚焦風電科技紅利三大賽道

02-17

雷軍新頭像引熱議！褪去西裝站SU7旁，網友：氣場不輸專業賽車手

02-17

除夕官宣！千問3.5開源上線，性能躍升推理效率最高提升19倍

02-16

蛇年除夕Qwen3.5-Plus攜“小而強”登場，大模型性價比競賽正式打響

02-16

阿里開源千問Qwen3.5-Plus：性能躍升成本大降，AI應用場景再拓展

大象新聞記者從阿里了解到，千問3.5實現了底層模型架構的全面革新，此次發布的Qwen3.5-Plus版本總參數為3970億，激活僅170億，性能超過萬億參數的Qwen3-Max模型，部署顯存占用降低60%，…

02-16

國產電機強勢崛起：新能源市場馬力“內卷”，性能與安全如何平衡？

02-16

B站京東聯手推出AIPIAIPI洛天依甜甜圈耳機禮盒，129元開啟萌趣音樂之旅

02-16

谷歌AI概覽“權威答案”藏隱患，詐騙頻發用戶需謹慎核實信息

02-16

點擊查看更多 +

全站最新

光影流轉科技賦能！重慶造賽力斯問界M9再登春晚演繹“手到福來”

全新雷克薩斯ES實車亮相引熱議：顛覆設計，是創新還是“失味”？

2027款路虎攬勝中期改款諜照來襲或配發光LOGO內飾有新變化

智界V9或3月登場，豪華配置引期待，37.99萬起售能否攪動高端MPV市場？

大眾探歌T-Roc R高性能版諜照流出，性能升級或成歐洲SUV市場新焦點

問界M9數控燈陣閃耀春晚舞臺重慶“智造”演繹科技年味新篇章

熱門內容

本欄最新

2026年春晚人形機器人大集結！宇樹、松延、魔法原子、銀河通用誰將閃耀？

阿里巴巴Qwen3.5-Plus發布：架構革新、多模態突破，開啟開源智能新紀元

2026央視春晚：4家機器人企業閃耀舞臺 8家上市公司攜手共賀新春

阿里千問3.5壓軸登場：參數“瘦身”性能飆升，國產大模型加速超車

國產電機強勢崛起：新能源市場馬力“內卷”，性能與安全如何平衡？

2026總臺春晚科技感拉滿！超20家合作企業涉智能出行、AI及白酒等領域

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

千問Qwen團隊發布PLaw Bench：法律大模型真實場景“大考”誰更優？