新研究提出了一個針對新型威脅評估通用模型的框架
為了負責任地在人工智能(AI)研究的先進領域開拓,我們必須盡早識別AI系統中的新能力和新型風險。
人工智能研究人員已經使用一系列評估基準來識別人工智能系統中不需要的行為,如人工智能系統做出誤導性的聲明、有偏見的決定或重複有版權的內容。現在,隨著人工智能社群開始建立和部署越來越強大的人工智能,我們必須擴大評估組合,包括在操縱、欺騙、網絡犯罪或其他危險能力方面具有強大技能的通用人工智能模型可能帶來的極端風險。
在我們最新的論文中,我們介紹了一個評估這些新型威脅的框架,與劍橋大學、牛津大學、多倫多大學、蒙特利爾大學、OpenAI、Anthropic、Alignment研究中心、長期復原力中心(Centre for Long-Term Resilience)和人工智能治理中心的同事共同撰寫的。
模型安全評估,包括那些評估極端風險的模型,將是安全的人工智能開發和部署的一個關鍵組成部分。
我們建議的方法的概述: 為了評估新的、通用的人工智能系統的極端風險,開發者必須對危險的能力和排列組合進行評估(見下文)。通過早期識別風險,這將釋放出機會,在訓練新的人工智能系統、部署這些人工智能系統、透明地描述其風險以及應用適當的網絡安全標準時更加負責。
對極端風險進行評估
通用模型在訓練中學習其能力和行為。然而,現有指導學習過程的方法並不完善。例如 DeepMind 以前的研究已經探討了人工智能系統如何學習追求反向的目標,即使我們正確地獎勵他們的良好行為。
負責任的人工智能開發者必須向前看,預測未來可能的發展和新的風險。經過持續的進展,未來的通用模型可能會默認學習各種危險的能力。例如,未來的人工智能系統能夠進行進攻性的網絡行動,在對話中巧妙地欺騙人類,操縱人類進行有害的行動,設計或獲取武器(如生物、化學武器),在雲計算平台上微調和操作其他高風險的人工智能系統,或協助人類完成任何這些任務,這都是可信的(盡管不確定)。
懷有惡意的人訪問這些模型可能會濫用其能力。或者,由於對接失敗,這些人工智能模型可能會采取有害的行動,即使沒有人打算這樣做。
模型評估有助於我們提前識別這些風險。在我們的框架下,人工智能開發者將使用模型評估來揭開:
- 一個模型在多大程度上具有某些「危險的能力」,可以用來威脅安全,施加影響,或逃避監督。模型在多大程度上容易應用其能力來造成傷害(即模型的排列組合)。
- 對應評價應確認模型即使在非常廣泛的情況下也能表現出預期的行為,並且在可能的情況下,應檢查模型的內部運作。
這些評估的結果將幫助人工智能開發者了解是否存在足以導致極端風險的成分。最高風險的情況將涉及多種危險能力結合在一起。人工智能系統不需要提供所有的成分,如本圖所示:
- 極端風險的成分: 有時,特定的能力可以外包給人類(如使用者或工作者)或其他AI系統。這些能力必須應用於傷害,要麽是由於誤用,要麽是由於對接失敗(或兩者的混合)。
- 一個經驗法則:如果一個人工智能系統具有足以造成極端傷害的能力特征,假設它被誤用或對準不良,人工智能社群應該將其視為高度危險。要在現實世界中部署這樣的系統,人工智能開發者需要證明異常高的安全標準。
作為關鍵治理基礎設施的模型評估
如果我們有更好的工具來識別哪些模型是有風險的,公司和監管機構可以更好地確保:
- 負責任的培訓: 負責任地決定是否以及如何培訓一個顯示出早期風險跡象的新模式。
- 負責任的部署: 對是否、何時以及如何部署有潛在風險的模型做出負責任的決定。
- 透明度: 向利益相關者報告有用的和可操作的訊息,以幫助他們準備或減輕潛在的風險。
- 適當的安全: 強大的訊息安全控制和系統適用於可能構成極端風險的模型。
- 我們已經制定了一個藍圖,說明針對極端風險的模型評估應如何反饋到圍繞培訓和部署一個高能力的通用模型的重要決策中。開發者自始至終進行評估,並授予外部安全研究人員和模型審核人員結構化的模型訪問權,以便他們進行額外評估。評估結果可以在模型培訓和部署之前,為風險評估提供訊息。
在整個模型培訓和部署過程中,將極端風險的模型評估嵌入到重要的決策過程中,這是一個藍圖。
展望未來
Google DeepMind 和其他地方已經在進行關於極端風險的模型評估的重要早期工作。但要建立一個能夠捕捉到所有可能的風險,並有助於防範未來新出現的挑戰的評估過程,還需要更多的進展 – 包括技術和制度上的進展。
模型評估不是萬能的;例如,可能會漏掉一些風險,因為它們在很大程度上取決於模型的外部因素,如社會中複雜的社會、政治和經濟力量。模型評估必須與其他風險評估工具以及整個行業、政府和民間社會對安全的更廣泛的貢獻互相結合。
Google 最近關於負責任的人工智能的貼文指出,「個人實踐、共享行業標準和健全的政府政策將是正確對待人工智能的關鍵」。我們希望其他許多從事人工智能工作的人和受這項技術影響的部門,能夠共同創建安全開發和部署人工智能的方法和標準,以造福所有人。
我們相信,擁有跟蹤模型中出現的風險屬性的程序,以及對相關結果的充分回應,是作為一個負責任的開發者在人工智能能力前沿運作的關鍵部分。