滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

越南新加坡聯(lián)合研究：選擇性引導(dǎo)技術(shù)為AI安全控制開啟新路徑

時間：2026-01-29 00:00:23 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

人工智能技術(shù)的快速發(fā)展，讓AI助手在日常生活中的應(yīng)用越來越廣泛。然而，如何確保這些智能系統(tǒng)在面對復(fù)雜場景時依然遵守安全邊界，成為全球研究者關(guān)注的焦點。近期，一支跨國科研團隊提出了一種名為“選擇性引導(dǎo)”的創(chuàng)新技術(shù)，通過精準干預(yù)AI的決策過程，實現(xiàn)了對有害行為的實時控制，同時保持了系統(tǒng)的原有性能。

傳統(tǒng)方法在應(yīng)對AI安全問題時，往往需要重新訓(xùn)練整個模型，既耗時又可能影響其他功能。研究團隊另辟蹊徑，將AI模型的工作機制類比為工廠流水線，發(fā)現(xiàn)不同層次對應(yīng)著語言理解、邏輯推理等不同功能。通過深入分析發(fā)現(xiàn)，AI在處理“有害”和“無害”請求時，中間層次的神經(jīng)元激活模式呈現(xiàn)“正負相反”的特征，就像工廠中專門負責質(zhì)檢的關(guān)鍵環(huán)節(jié)。研究人員將這些層次定義為“判別層”，并證實只需調(diào)整這些區(qū)域即可有效控制行為。

數(shù)學(xué)實現(xiàn)上的突破是該技術(shù)的核心創(chuàng)新。早期調(diào)整方法在改變信息方向時，會無意中破壞信息總量，導(dǎo)致輸出混亂。研究團隊通過嚴格的數(shù)學(xué)推導(dǎo)，開發(fā)出基于“旋轉(zhuǎn)”的調(diào)整方法，如同在二維平面上精準轉(zhuǎn)動方向盤而不改變車速。這種操作既能保持信息流的穩(wěn)定性，又具備可逆性，允許隨時撤銷調(diào)整效果，為系統(tǒng)安全性提供了雙重保障。

實驗驗證覆蓋了九個主流AI模型，包括Llama、Qwen和Gemma三大系列，參數(shù)規(guī)模從15億到90億不等。測試結(jié)果顯示，新技術(shù)在小型模型上的行為控制成功率比傳統(tǒng)方法提升5.5倍，在Qwen2.5-1.5B模型上從13.46%躍升至74.04%。更關(guān)鍵的是，所有模型在數(shù)學(xué)推理、常識問答等核心能力測試中均保持了原始水平，徹底解決了傳統(tǒng)方法“治標不治本”的缺陷。

對比實驗進一步證明了精準定位的重要性。當隨機選擇調(diào)整層次時，系統(tǒng)成功率接近零；即使選擇所有層次，雖然能改變行為，但會導(dǎo)致輸出大量無意義文本。而數(shù)學(xué)精確性同樣關(guān)鍵，在相同判別層選擇下，有缺陷的舊方法在Qwen2.5-3B模型上完全失效，新方法卻達到84.6%的成功率。這些數(shù)據(jù)清晰地表明，每個技術(shù)環(huán)節(jié)都不可或缺。

該技術(shù)的實時調(diào)整特性具有顯著應(yīng)用價值。相比需要數(shù)周重新訓(xùn)練的傳統(tǒng)方案，選擇性引導(dǎo)可在AI運行時即時生效，大幅降低了安全控制的實施成本。研究團隊已公開所有代碼和實驗細節(jié)，這種開放態(tài)度將加速技術(shù)迭代。目前，團隊正在探索更復(fù)雜的特征提取方法，以應(yīng)對不同架構(gòu)AI模型的特殊需求，例如某些模型呈現(xiàn)出的雙峰控制模式暗示可能存在多重決策機制。

這項突破為AI安全領(lǐng)域提供了全新范式。通過深入解析AI的“思考過程”，研究者找到了既保持智能水平又約束行為的平衡點。計算復(fù)雜度從原來的與總層數(shù)相關(guān)，優(yōu)化為僅與判別層數(shù)量相關(guān)，這種效率提升使得技術(shù)具備大規(guī)模應(yīng)用潛力。正如研究論文所展示的，當精密手術(shù)取代整體重建，AI安全控制終于找到了可靠的技術(shù)路徑。

更多>同類資訊

科技賦能新春歸途：智慧加能站讓返鄉(xiāng)之路更高效暖心又便捷

02-20

英偉達300億美元投資OpenAI，或取代去年千億長期投資承諾

02-20

Linux內(nèi)核提前布局：PCIe 7.0適配工作啟動，為未來硬件生態(tài)筑基

02-20

春晚機器人“頂流”再引熱潮：宇樹科技憑何連續(xù)站上全球焦點？

如果只盯著動作看，宇樹這一年的變化已經(jīng)很驚人：去年還是偏節(jié)奏化、低速協(xié)同的秧歌舞，今年已經(jīng)進化到高速穿插、強動態(tài)、復(fù)雜器械的武術(shù)表演。節(jié)目中的相對定位與環(huán)境交互，跑酷翻桌動作要求機器人在高速運動中精準判斷…

02-20

港股馬年首日AI熱：智譜大漲市值破3232億，MINIMAX同飆升超3000億

02-20

科技賦能春運新圖景：智慧加能站解鎖返鄉(xiāng)路高效暖心新體驗

02-20

死神降臨！Anthropic上周引發(fā)SaaS末日

02-20

智譜AI港股尾盤股價漲超42% 總市值突破 3232 億港元

02-20

大年初四科研新突破！我國科學(xué)家借AI解鎖暗弱天體，刷新深空探測紀錄

大年初四，我國科學(xué)家又一項科研成果發(fā)表——探索遙遠暗弱的天體與結(jié)構(gòu)，是破解宇宙起源演化、物質(zhì)能量循環(huán)等科學(xué)謎題的關(guān)鍵。我國科學(xué)家基于計算光學(xué)原理與人工智能算法，開發(fā)出天文AI模型“星衍”，可解鎖暗弱天體信號，…

02-20

我國科學(xué)家研發(fā)“星衍”模型解鎖暗弱天體刷新深空探測極限

研究顯示，將星衍應(yīng)用于詹姆斯·韋布空間望遠鏡，覆蓋波段可從可見光（約500納米）延伸到中紅外（5微米），并將其深空探測深度提升1個星等，探測準確度提升1.6個星等——這相當于將空間望遠鏡等效口徑從約6米提升到…

02-20

計算光學(xué)與AI助力，“星衍”模型解鎖130億光年外深空影像

探索遙遠暗弱的天體與結(jié)構(gòu)，是破解宇宙起源演化、物質(zhì)能量循環(huán)等科學(xué)謎題的關(guān)鍵。我國科學(xué)家基于計算光學(xué)原理與人工智能算法，開發(fā)出天文AI模型“星衍”，可解鎖暗弱天體信號，探測到超過130億光年的星系，并獲取目前國…

02-20

星衍模型解鎖宇宙奧秘：我國科學(xué)家繪制國際最優(yōu)深空影像探早期星系

我國科學(xué)家基于計算光學(xué)原理與人工智能算法，開發(fā)出天文AI模型“星衍”，可解鎖暗弱天體信號，探測到超過130億光年的星系，并獲取目前國際已知探測最深的深空影像。《科學(xué)》審稿人評價，該研究為探測宇宙提供了“強大…

02-20

我國科學(xué)家研發(fā)天文AI模型“星衍” 解鎖暗弱天體繪就深空探測新畫卷

02-20

我國科學(xué)家開發(fā)天文AI模型“星衍” 解鎖暗弱天體繪就深空新畫卷

02-20

清華團隊“星衍”模型突破天文觀測極限助力探索宇宙黎明奧秘

02-20

點擊查看更多 +

全站最新

比亞迪122度磷酸鐵鋰刀片電池登場！三大創(chuàng)新解決痛點，開啟電動出行新時代

經(jīng)典重現(xiàn)！伏爾加借力長安汽車，俄羅斯汽車市場再掀新波瀾

年后手機圈大戲開場！OPPO Find X9 Ultra與vivo X300 Ultra影像對決誰更強？

年后手機圈“卷”影像！OPPO Find X9 Ultra與vivo X300 Ultra攜增距鏡來襲

美國總統(tǒng)特朗普：政府停擺沖擊經(jīng)濟，呼吁美聯(lián)儲降息

谷歌Gemini 3.1 Pro發(fā)布：推理能力躍升，AI競爭格局或迎新變局

熱門內(nèi)容

本欄最新

科技賦能新春歸途：智慧加能站讓返鄉(xiāng)之路更高效暖心又便捷

科技賦能春運新圖景：智慧加能站解鎖返鄉(xiāng)路高效暖心新體驗

科技賦能春運新圖景：智慧加能站助力返鄉(xiāng)路高效暖心共赴團圓

蘇州制造企業(yè)如何選畫冊設(shè)計機構(gòu)？看懂大廠案例背后的專業(yè)邏輯

春晚舞臺上的“魔法時刻”：具身智能落地，機器人開啟真實服務(wù)新篇

探秘未來汽車“智慧能源大腦”：整車智能能量管理控制全解析

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

越南新加坡聯(lián)合研究：選擇性引導(dǎo)技術(shù)為AI安全控制開啟新路徑