新型人工智能風險的早期預警系統

May 30, 2023

新研究提出了一個針對新型威脅評估通用模型的框架

為了負責任地在人工智能（AI）研究的先進領域開拓，我們必須盡早識別AI系統中的新能力和新型風險。

人工智能研究人員已經使用一系列評估基準來識別人工智能系統中不需要的行為，如人工智能系統做出誤導性的聲明、有偏見的決定或重複有版權的內容。現在，隨著人工智能社群開始建立和部署越來越強大的人工智能，我們必須擴大評估組合，包括在操縱、欺騙、網絡犯罪或其他危險能力方面具有強大技能的通用人工智能模型可能帶來的極端風險。

在我們最新的論文中，我們介紹了一個評估這些新型威脅的框架，與劍橋大學、牛津大學、多倫多大學、蒙特利爾大學、OpenAI、Anthropic、Alignment研究中心、長期復原力中心（Centre for Long-Term Resilience）和人工智能治理中心的同事共同撰寫的。

模型安全評估，包括那些評估極端風險的模型，將是安全的人工智能開發和部署的一個關鍵組成部分。

我們建議的方法的概述：為了評估新的、通用的人工智能系統的極端風險，開發者必須對危險的能力和排列組合進行評估（見下文）。通過早期識別風險，這將釋放出機會，在訓練新的人工智能系統、部署這些人工智能系統、透明地描述其風險以及應用適當的網絡安全標準時更加負責。

對極端風險進行評估

通用模型在訓練中學習其能力和行為。然而，現有指導學習過程的方法並不完善。例如 DeepMind 以前的研究已經探討了人工智能系統如何學習追求反向的目標，即使我們正確地獎勵他們的良好行為。

負責任的人工智能開發者必須向前看，預測未來可能的發展和新的風險。經過持續的進展，未來的通用模型可能會默認學習各種危險的能力。例如，未來的人工智能系統能夠進行進攻性的網絡行動，在對話中巧妙地欺騙人類，操縱人類進行有害的行動，設計或獲取武器（如生物、化學武器），在雲計算平台上微調和操作其他高風險的人工智能系統，或協助人類完成任何這些任務，這都是可信的（盡管不確定）。

懷有惡意的人訪問這些模型可能會濫用其能力。或者，由於對接失敗，這些人工智能模型可能會采取有害的行動，即使沒有人打算這樣做。

模型評估有助於我們提前識別這些風險。在我們的框架下，人工智能開發者將使用模型評估來揭開：

一個模型在多大程度上具有某些「危險的能力」，可以用來威脅安全，施加影響，或逃避監督。模型在多大程度上容易應用其能力來造成傷害（即模型的排列組合）。
對應評價應確認模型即使在非常廣泛的情況下也能表現出預期的行為，並且在可能的情況下，應檢查模型的內部運作。

這些評估的結果將幫助人工智能開發者了解是否存在足以導致極端風險的成分。最高風險的情況將涉及多種危險能力結合在一起。人工智能系統不需要提供所有的成分，如本圖所示：

極端風險的成分：有時，特定的能力可以外包給人類（如使用者或工作者）或其他AI系統。這些能力必須應用於傷害，要麽是由於誤用，要麽是由於對接失敗（或兩者的混合）。
一個經驗法則：如果一個人工智能系統具有足以造成極端傷害的能力特征，假設它被誤用或對準不良，人工智能社群應該將其視為高度危險。要在現實世界中部署這樣的系統，人工智能開發者需要證明異常高的安全標準。

作為關鍵治理基礎設施的模型評估

如果我們有更好的工具來識別哪些模型是有風險的，公司和監管機構可以更好地確保：

負責任的培訓：負責任地決定是否以及如何培訓一個顯示出早期風險跡象的新模式。
負責任的部署：對是否、何時以及如何部署有潛在風險的模型做出負責任的決定。
透明度：向利益相關者報告有用的和可操作的訊息，以幫助他們準備或減輕潛在的風險。
適當的安全：強大的訊息安全控制和系統適用於可能構成極端風險的模型。
我們已經制定了一個藍圖，說明針對極端風險的模型評估應如何反饋到圍繞培訓和部署一個高能力的通用模型的重要決策中。開發者自始至終進行評估，並授予外部安全研究人員和模型審核人員結構化的模型訪問權，以便他們進行額外評估。評估結果可以在模型培訓和部署之前，為風險評估提供訊息。

在整個模型培訓和部署過程中，將極端風險的模型評估嵌入到重要的決策過程中，這是一個藍圖。