AI Safety Index 2025:行業能力飛速提升,安全治理嚴重滯後
2025-12-11 21:28

非營利組織生命未來研究所(Future of Life Institute,FLI)近日發布了《AI Safety Index (Winter 2025)》,對全球8家領先AI公司(Anthropic、OpenAI、Google DeepMind、xAI、Z.ai、Meta、DeepSeek、Alibaba Cloud)的安全實踐進行了獨立評估。

本次評估涵蓋風險評估、當前危害、安全框架、存在性安全、治理與問責、信息共享6大領域,共35項指標。報告結果顯示,Anthropic、OpenAI、Google DeepMind位居前三,但沒有任何一家公司的得分達到 B 級或以上;最高評分的公司也僅為 C+,顯示出行業整體的安全實踐明顯滯後於能力發展速度。

報告指出,表現最優者(Anthropic、OpenAI與Google DeepMind)與其他受評公司(Z.ai、xAI、Meta、Alibaba Cloud、DeepSeek)之間依然存在明顯差距。差距主要體現在風險評估、安全框架和信息共享領域,其原因在於披露有限、缺乏系統性安全流程的充分證據,以及穩健評估實踐采用程度不一致。

盡管各公司已公開作出安全承諾,但其實踐仍落後於新興全球標準。許多公司在一定程度上符合諸如歐盟《通用人工智能行為準則》等框架的要求,但在實施的深度、具體性與質量方面差異顯著,尚未達到這些框架所要求的嚴謹性、可衡量性與透明化水平。

風險評估(Risk Assessment)方面,Anthropic、OpenAI、Google DeepMind繼續保持領先。報告指出,盡管更多公司開始對前沿 AI 風險進行內部與外部評估,但整體深度與獨立性不足,具體表現為:風險評估範圍較窄,例如未覆蓋氣候風險等新興領域;尚無公司開展“Human Uplift Trials”(人類提升試驗,用於測量 AI 是否會提高用戶實施危害行為的能力);未有公司量化 AGI 失控等極端情景的概率;外部審查的獨立性仍不充分。

當前危害(Current Harms)方面,Anthropic在該維度得分最高,而xAI表現最弱。整體來看,各公司在該領域得分普遍偏低,頻繁的安全漏洞、薄弱的穩健性以及對嚴重危害的控制不足是共同問題。在真實性、公平性、有害內容生成等可信度測試中,各公司表現均不理想。此外,所有模型默認使用用戶交互數據進行訓練,反映出各企業對隱私原則的執行不夠嚴格。值得註意的是,中國公司在內容水印標註方面因政策要求而表現較優。

安全框架(Safety Frameworks)方面,Anthropic、Google DeepMind、Meta、OpenAI和xAI已發布安全框架,其中Anthropic、Google DeepMind和OpenAI提供的結構化程度最高,概述了風險領域、定性閾值和緩解措施。另一方面,DeepSeek、Z.ai和Alibaba Cloud尚未發布任何形式的安全框架。

存在性安全(Existential Safety)方面,該維度是所有公司表現最弱的領域。盡管各公司正在積極推進通用人工智能(AGI)和超級智能的研發,但沒有任何企業提出可信的計劃來防止潛在的大規模濫用或失控風險。報告指出,這類最具破壞性的風險在當前仍未得到有效應對,是行業最嚴重的薄弱點之一。

總體來看,AI 技術正在快速逼近更高水平的通用智能,而行業在安全治理方面的準備卻遠遠不足。唯有在全球範圍內同步提升安全治理標準與監管要求,才能在技術加速發展的背景下確保風險可控。

作者:Qinger