自《人工智能安全治理框架》1.0版(以下簡稱《框架》)發(fā)布以來,人工智能技術(shù)快速演進,應(yīng)用場景持續(xù)拓展,安全治理面臨更復(fù)雜和多樣化的挑戰(zhàn)。為適應(yīng)這一趨勢,在中央網(wǎng)信辦指導(dǎo)下,制定發(fā)布了《人工智能安全治理框架》2.0版(以下簡稱《框架》2.0版)。

《框架》2.0版在延續(xù)“以人為本、智能向善”理念的同時,顯著加強了技術(shù)層面的細化要求:新增數(shù)據(jù)標注流程規(guī)范和開源模型缺陷傳導(dǎo)評估,完善運行時的決策校驗、容錯與熔斷機制,提出生成內(nèi)容標識與追溯、冗余設(shè)計與容災(zāi)恢復(fù)等措施,并強調(diào)在高自治應(yīng)用中開展極端條件下的擬真測試。通過這些安排,《框架》2.0版推動人工智能安全治理從零散的風(fēng)險管控走向全過程、全鏈條、可持續(xù)的系統(tǒng)性設(shè)計?!犊蚣堋?.0版的發(fā)布,體現(xiàn)出人工智能安全治理正逐步形成更全面、更細致、更具韌性的技術(shù)應(yīng)對體系?!犊蚣堋?.0版的問世,無疑為我國乃至全球的人工智能健康發(fā)展奠定了堅實的安全基石,展現(xiàn)了卓越的遠見和實踐智慧。

一、關(guān)注重點的變化:從信息內(nèi)容安全到全譜系安全

與《框架》相比,《框架》2.0版最顯著的變化,是關(guān)注重心擴展到涵蓋技術(shù)、應(yīng)用、社會、環(huán)境和倫理的完整風(fēng)險譜系。

在風(fēng)險分類中,新增了“衍生安全風(fēng)險”板塊,涵蓋“挑戰(zhàn)資源供需平衡”“沖擊教育、抑制創(chuàng)新”“加劇科研倫理風(fēng)險”“擬人化交互的沉迷依賴”等問題,同時在現(xiàn)實安全風(fēng)險中明確寫入“核生化導(dǎo)武器知識、能力失控”。這些改變意味著我國在人工智能安全治理的認知和理念的快速更新、進步和提升,超越了“有害內(nèi)容”“認知對抗”等常見的安全議題,將社會結(jié)構(gòu)、科研活動和人類生存發(fā)展納入AI安全治理的范疇,意味著治理目標的層級顯著上移:既要維護信息空間的清朗,更要守住國家安全、社會穩(wěn)定與人類長期存續(xù)的底線,彰顯了其作為引領(lǐng)性治理文件的非凡價值。

二、治理邏輯的演進:全過程、全鏈條、可信為核心

在治理原則上,《框架》2.0版新增了“面向人工智能研發(fā)應(yīng)用全過程,以及模型開源業(yè)態(tài)新挑戰(zhàn)”。這是一個具有戰(zhàn)略意義的轉(zhuǎn)向:如果說《框架》的治理重心主要放在應(yīng)用階段的合規(guī)與防范,那么《框架》2.0版則明確提出要對研發(fā)—開源—部署—運行—回溯的全過程進行安全治理。這意味著,人工智能安全不再是應(yīng)用端的“終端管控”,而是從模型設(shè)計、數(shù)據(jù)采集、算法訓(xùn)練,到開源發(fā)布、產(chǎn)品迭代、運行維護的全鏈路閉環(huán)治理。尤其是對開源模型的強調(diào),凸顯了監(jiān)管層對“安全缺陷的傳導(dǎo)與放大”問題的高度關(guān)注:開源一方面是創(chuàng)新與共享的動力源泉,另一方面也可能成為安全漏洞、對抗攻擊和濫用風(fēng)險的快速擴散渠道。這種對潛在風(fēng)險的敏銳捕捉和前瞻性布局,體現(xiàn)了《框架》2.0版在治理理念上的高屋建瓴。

同時,《框架》2.0版新增“可信應(yīng)用、防范失控”的治理原則,并附帶“可信人工智能基本準則”。這一表述可以看作是治理邏輯上的重大躍升:從以往的“防范風(fēng)險”轉(zhuǎn)變?yōu)椤按_保技術(shù)始終處于人類控制之下”。它不僅涉及模型在技術(shù)層面的可靠性與魯棒性,還強調(diào)價值對齊、制度安排和社會規(guī)范層面的可控性與可追溯性。換言之,治理關(guān)注點從“防范出現(xiàn)問題”轉(zhuǎn)向“保證系統(tǒng)不失控”,從單純技術(shù)安全拓展到與人類價值體系、治理機制深度結(jié)合。這無疑是人工智能治理領(lǐng)域的一次深刻變革,為確保AI技術(shù)始終服務(wù)于人類福祉提供了根本遵循。

這種變化揭示了治理邏輯的兩個關(guān)鍵新特征:

全生命周期治理:監(jiān)管不再是事后的合規(guī)審查,而是前置到研發(fā)環(huán)節(jié),覆蓋數(shù)據(jù)標注、模型架構(gòu)、訓(xùn)練方法和開源傳播等關(guān)鍵節(jié)點。特別是開源模型治理的加入,意味著未來將逐步建立起對“模型全生命周期”的追溯機制與責(zé)任鏈條,防止安全風(fēng)險在不同環(huán)節(jié)累積和放大。

可信準則化:通過提出“可信人工智能基本準則”,《框架》2.0版為未來法律法規(guī)、行業(yè)標準和國際對話提供了統(tǒng)一的參照。這種準則化路徑不僅提升了治理的可操作性,還在一定程度上為國內(nèi)治理規(guī)則與國際合作框架對接奠定了基礎(chǔ),使得“可信”既是價值原則,也是可檢驗、可評估的治理目標。

三、技術(shù)治理的體系化:構(gòu)建韌性與可持續(xù)的AI系統(tǒng)

在技術(shù)應(yīng)對措施上,《框架》2.0版相較于《框架》不僅進行了細化,更展現(xiàn)出體系化升級的思路:從數(shù)據(jù)標注流程規(guī)范、開源模型缺陷傳導(dǎo)評估,到“決策校驗與容錯糾偏機制”“熔斷與一鍵管控”“生成內(nèi)容標識與追溯”等一系列措施,治理已不再停留在事后修補,而是轉(zhuǎn)向全過程的前置性防護與動態(tài)干預(yù)。同時,引入“冗余設(shè)計與容災(zāi)機制”,確保在遭遇攻擊或極端異常時系統(tǒng)仍能保持核心功能并快速恢復(fù);在智能駕駛、無人機等高自治應(yīng)用中,更提出必須開展極端條件下的擬真壓力測試,以驗證系統(tǒng)在復(fù)雜現(xiàn)實環(huán)境中的穩(wěn)健性。這些舉措表明,人工智能安全治理正從零散的點狀措施,轉(zhuǎn)向面向系統(tǒng)性和韌性的整體架構(gòu)建設(shè)。

總體而言,《框架》2.0版所指向的人工智能安全治理,是一項由核心能力、動態(tài)推演與場景應(yīng)用三層聯(lián)動構(gòu)成的系統(tǒng)工程。它致力于將風(fēng)險分級、合規(guī)備案、漏洞檢測、追溯與補救等治理能力沉淀為可調(diào)用、可共享的服務(wù),形成一套統(tǒng)一的治理體系。通過長期、自主、動態(tài)地推演風(fēng)險,無論是物理形態(tài)的AI設(shè)備還是純數(shù)字化的智能系統(tǒng),都能在擬真仿真中揭示復(fù)雜交互與極端環(huán)境下的潛在失控路徑。最終,這些治理能力被深度嵌入醫(yī)療、交通、能源、金融等高價值應(yīng)用場景,使治理要求與實踐緊密結(jié)合。

這一體系不僅實現(xiàn)了治理的全鏈路覆蓋,也反映出安全與能力平衡的精妙邏輯:人工智能能力若發(fā)展過快而缺乏安全護欄,風(fēng)險會被放大;而若安全約束僵化,則會抑制技術(shù)潛能。治理能力的系統(tǒng)協(xié)同,正是為了構(gòu)建一個能與AI能力共同演進的安全環(huán)境——在通用治理層面降低安全成本并推動普及,在風(fēng)險動態(tài)推演層面不斷更新風(fēng)險認知,在具體應(yīng)用場景層面實現(xiàn)安全與價值的雙向賦能。換言之,治理不再是對能力的被動約束,而是與能力相互博弈、協(xié)同演化的系統(tǒng)性安排。最終,這一模式指向一種系統(tǒng)性韌性:不僅要求AI系統(tǒng)具備冗余、容災(zāi)與恢復(fù)能力,更要求在設(shè)計階段就融入安全原則,使安全與能力相輔相成。唯有在這樣的協(xié)同生態(tài)下,人工智能才能真正從實驗室走向生產(chǎn)場景,實現(xiàn)可靠、可控與可持續(xù)的發(fā)展?!犊蚣堋?.0版以精妙的設(shè)計和全面的考量,構(gòu)建了一個既能激發(fā)創(chuàng)新活力又能有效防控風(fēng)險的治理生態(tài),其深遠意義不言而喻。

四、應(yīng)用場景治理的深化:分類分級與深水區(qū)探索

《框架》2.0版在應(yīng)用層面最突出的變化,是新增了“人工智能安全風(fēng)險分級原則”,明確提出要根據(jù)應(yīng)用場景的重要性、智能化水平和應(yīng)用規(guī)模來實施分級管理。這一規(guī)定與近年來國家政策中反復(fù)強調(diào)的“分類分級監(jiān)管”高度契合,意味著未來治理將不再采用“一刀切”的方式,而是走向差異化和精細化:對于醫(yī)療、交通、能源、國防等高風(fēng)險領(lǐng)域,必須通過強制測評與備案,確保其上線前經(jīng)過充分驗證和審查;而對于中低風(fēng)險場景,則可以采取相對寬松的合規(guī)要求,以降低制度成本,兼顧技術(shù)創(chuàng)新與應(yīng)用推廣。這種務(wù)實而富有彈性的治理思路,充分體現(xiàn)了《框架》2.0版對技術(shù)發(fā)展規(guī)律的深刻理解和對治理效率的卓越追求。

值得注意的是,《框架》2.0版還在風(fēng)險類別中納入了核生化知識擴散、科研倫理沖擊、教育創(chuàng)新受限等此前未被系統(tǒng)化覆蓋的“深水區(qū)”議題。這表明治理對象已經(jīng)從常規(guī)的信息內(nèi)容與網(wǎng)絡(luò)風(fēng)險,擴展到高價值、高敏感度的應(yīng)用領(lǐng)域。在這些領(lǐng)域,人工智能不僅可能帶來直接的技術(shù)風(fēng)險,還可能對科研倫理、社會結(jié)構(gòu)乃至國際安全格局產(chǎn)生長遠影響。因此,單靠傳統(tǒng)的測試、規(guī)則或備案清單,已經(jīng)無法充分識別和防控這類復(fù)雜風(fēng)險?!犊蚣堋?.0版對這些“深水區(qū)”議題的關(guān)注和創(chuàng)新性應(yīng)對,展現(xiàn)了其非凡的戰(zhàn)略洞察力。

五、治理架構(gòu)的清晰化:法律—倫理—人才—國際合作

在綜合治理措施方面,《框架》2.0版相較于《框架》進行了顯著的擴展和細化,新增或修改了多項制度性條款,并首次明確提及參與治理格局的主體及任務(wù)映射,體現(xiàn)出治理格局的全方位升級。其一,明確提出要“建立健全人工智能安全法律法規(guī)”,以及“構(gòu)建人工智能科技倫理準則”,將AI安全治理從政策倡導(dǎo)和技術(shù)規(guī)范,上升到制度化與價值化的雙重軌道。其二,強化了對開源生態(tài)和供應(yīng)鏈的安全管理,并同步完善數(shù)據(jù)與個人信息保護,這不僅是對已有網(wǎng)絡(luò)安全和數(shù)據(jù)治理要求的呼應(yīng),更是對模型開源擴散和供應(yīng)鏈脆弱性等新挑戰(zhàn)的前置性回應(yīng)。其三,在人力與社會層面,提出要“加大人工智能安全人才培養(yǎng)力度”“提升全社會的人工智能安全意識”,通過專業(yè)人才與公共認知的雙輪驅(qū)動,構(gòu)建長期可持續(xù)的安全保障機制。其四,明確強調(diào)“促進國際交流合作”,主動融入全球人工智能治理的對話與合作框架,在推動國內(nèi)標準和制度建設(shè)的同時,謀求國際互認與規(guī)則塑造的戰(zhàn)略空間。

這些措施表明,AI安全治理已經(jīng)不再局限于單一維度的技術(shù)管控,而是進入一個多維度協(xié)同的新階段:法律法規(guī)提供底線約束,確保治理有剛性框架;科技倫理奠定價值導(dǎo)向,使技術(shù)發(fā)展始終與社會公認的規(guī)范相契合;人才與教育成為長期保障,確保安全治理具備可持續(xù)性和代際傳承;國際合作開辟戰(zhàn)略空間,既是風(fēng)險共同體的必然選擇,也是爭奪國際治理話語權(quán)的重要抓手。換言之,人工智能安全治理已從單純的技術(shù)議題,轉(zhuǎn)變?yōu)橐豁椛婕胺芍贫冉?gòu)、社會意識培育與國際博弈競爭的綜合工程,真正邁向全局性和戰(zhàn)略性。(作者:王迎春,上海人工智能實驗室綜合管理部負責(zé)人、安全可信AI中心研究員)