當人工智能學會推理

當人工智能學會推理

Science通訊信件寫出一個可能忽略的事實:推理是人類智慧的重要核心功能,大型推理模型(LRM)即是配合這樣的思考問題所建立的,需要更多算力,

比較起來,強化學習是一種無監督的方法,其中LRM本身生成了一整套導致答案的推理步驟,該模型僅因獲得正確答案並將推理步驟以正確的格式進行「獎勵」,以實現人類可讀性(例如,按順序編號)。 強化學習對大量試驗的力量在於,即使它沒有對步驟品質提供任何(昂貴的)監督反饋,模型也可以學習哪些步驟有效,哪些步驟不起作用。 

有趣的是,DeepSeek的橫空出世,代表沒有任何監督學習,卻產生了一個在許多推理基準上表現非常好的模型。正如DeekSeek研究人員所說,這一結果「強調了強化學習的力量和美:我們沒有明確地教授模型如何解決問題,而是簡單地為其提供正確的激勵,並自主開發高階解決問題的策略。」 專注於強化學習而不是監督學習是使DeepSeek能夠建立LRM的因素之一,其培訓和使用比美國公司建立的相應LRM便宜得多。

但是,LRM 使用的擬人化語言會讓人誤以為它們正在「思考」,些模型甚至將推理步驟與「嗯」、「啊哈!」等詞穿插在一起。 或者「等等!」 讓他們聽起來更像人。使用者告訴我們,透過響應瞭解模型推理如何,不僅支援更明智的決策,還有助於對其答案建立信任,OpenAI發言人說。但問題是,當底層模型不太值得信任時,使用者是否主要基於這些人性化的觸控來建立信任?

所以人類需要更多的研究來回答這些關於LRM的穩健性、可信度和可解釋性的重要問題。在OpenAI、Google和Anthropic等模型上很難進行此類研究,因為這些公司沒有釋出他們的模型或其工作的許多細節。令人耳目一新的是,DeepSeek釋出了R1的模型權重,釋出了一份關於其如何訓練的詳細報告,並使該系統能夠充分展示其思想鏈,這將促進對其能力的研究。

開源LRM能夠做的可能比過去都多,這當然需要更多算力,跟推理小說需要花費更多腦力一樣。

Artificial intelligence learns to reason

如果你喜歡這篇文章,或許可以請我喝杯咖啡

我有想法..