一場3月22日在麻省理工MIT的演講,微軟研究中心對GPT-4研究的重要科學家接受邀請,在GTP-4成為下一代生成AI多語言模型時,他對於通用人工智慧(或是智能)的討論。本文使用AssemblyAI生成的逐字稿為基礎,加以編譯註釋而成。
引言人 Daniela Rus(電腦實驗室CSAIL教授)
大家好。歡迎來到CSAIL的計算機熱門話題系列。今天我很高興地介紹我們的特別嘉賓 Sébastien Bubeck,他從微軟過來這邊。Sébastien 在Echole Normal Superior de Caston 獲得學士學位,並在 Lille 大學和法國國家數位科學與科技機構 Inria 聯合課程中獲得博士學位。加入微軟之前,他曾在 2011 年至 2014 年期間在普林斯頓大學擔任過三年的教授。
因此,自2014年以來, Sebastian 一直在微軟工作,我們非常高興看到他在這裏。現在,我應該告訴你們,和你們所有人一樣,我決定請Chat GPT幫忙介紹 Sébastien。而ChatGPT建議的第一句話是在他的研討會上,Boubek 博士將討論優化的最新進展,重點是凸函數最適化(convex optimization)及其與統計推理和線上學習的相互作用。
ChatGPT就這樣繼續討論優化,並說不,這是標題和摘要。於是我們就有了它的回應。我很抱歉,但必須澄清, ChatGPT提供的講座標題和摘要似乎與 Sébastien Bubeck 的研究或以前的工作沒有關聯。而且,他本人不太可能就人工智能發表這樣的演講。所以, Sebastian ,讓我們來看看你怎麼解釋。
演講者 Sébastien Bubeck
非常感謝,Daniela。所以這真的是一個完美的介紹,因為 ChatGPT 釘住了它。對我來說,發表這樣的演講是非常不可能的,但就這樣發生了。而世界已經改變了,我也在改變我的研究,以應對這種情況。所以我今天要告訴你們的,從這個非常神秘的標題《第一次接觸 (First Contact)》。
真正的故事是,過去幾個月在微軟,因為我們正在努力將它與新的Bing整合,我有機會提前接觸到GPT-4。當然,在我工作的過程中,我不只是做產品部分的工作,那是非常有趣的,但我們也圍繞它做了一些科學,或試圖做一些研究,就是如何用這些模型做科學。而這就是我演講想告訴你的,是關於我們過去幾個月的研究和整個旅程中科學部分。
因此,談話的真正標題是,如果這有用,或者沒有用處的一些原因是因為「通用人工智慧的靈光一現(Sparks of AGI)」。
好的,所以我們在過去幾個月裏與GPT-4合作的評估是,我們看到了一些看起來像通用人工智能的前提。而我在這個演講中的目標是試圖說服你,隨著GPT-4的到來,有些東西真的改變了。現在,這是與微軟研究中心(MSR)的許多出色的同事共同完成的工作,像是 Varun Chandrasekaran 和博士後 Ronan Eldan,我想在座的很多人可能都很熟悉他,他最近剛加入我們。Joanna,Skirker Eric Orvitz H a kamar Peter Lee Yintatley 和 Yon Julie,他們也是我小組的成員。而且我想ChatGPT也會給出類似的答案,他們在這方面的工作和我一樣,Scott Lanberg, Harsha, Nori, Hamid Palangi, Marco Tulio Ribero, 還有 Yi Zhang(張毅),他曾是我們的博士後,現在已經全職加入。
而讓我首先做一些確認和澄清,我認為這非常重要。首先,我們研究的模型,GPT-4,完全是OpenAI的創造。我與他們沒有任何關系。我們被賦予了完全黑箱的資料訪問權。因為他們創造了這個真正了不起的工具,他們應該得到所有的榮譽,這將改變世界,我想把這一點說得特別清楚。
第二點,這很重要,就是我們所做的實驗,它們是在GTP-4模型的早期版本上進行的。所以這代表著幾件事。其中之一是,他們發布的論文和公開消息是,這是一個多模態版本。我們接觸到的版本不是多模態的。它只有文本輸入和文本輸出。好嗎?更重要的是,在我們進行實驗後,他們對神經網路做了進一步的修改。由於更進一步的修改,如果你嘗試我之後將展示的一些問題,得到的答案會有所不同。好嗎?特別是,你可能會得到比我表達的更少,接近好答案。這原因是他們為了安全而進一步微調,他們在技術報告中解釋得很清楚。
他們是人工智慧業界典範,他們進一步以某種方式使它變得更笨,以便它變得更安全。好嗎?所以這是一個重要的澄清。現在,對於房間裏的任何科學家,你可能會擔心,好嗎?所以這意味著我們將無法複製,任何你告訴我們的東西。是的,你將無法重現它。好嗎?話雖如此,我不認為在這個特定的案例中,可複製性是一個大問題。原因是我不打算給你任何定量的數字。在我的演講中不會有任何一個標準值 (Benchmark)。這是關於品質的飛躍,好嗎?不是在這個標準上增加10%,在那個標準上增加20%。是別的東西。好嗎?
我想試圖說服你的是,在這些系統中存在一些智能,我認為現在是時候把它稱為智能系統了,我們要討論它。我說的智能是什麽意思?在一天結束時,也就是在演講結束,你會看到這是一個「判斷」的問題。但判斷這是否為一種新的情報類型,並不是一目了然。但是,這就是我將試圖論證的東西,儘管現在如此。
現在,當我說這些話時,我想它在你們中的許多人中引發了許多情緒。可能特別是,你可能會說,不,絕對不。它沒有智慧。它甚至沒有特徵 (expedition)等等。因此,對於我經常看到這種類型的爭論,我想說的是謹慎。所以這是你可能在網上,甚至在報紙上看到的那種類型的東西。它只是複製剪下貼上,它沒有內部參數,這只是統計數字。
這只是統計數字。它怎麽可能是智能的?
它甚至沒有一個單詞模型。
因此,這個演講並不是要駁斥所有這些說法,但我仍然想說,真的要小心萬億維度的空間(trillion dimensional space)。這對我們人類來說是非常非常難以掌握的東西。你可以用一萬億個參數做很多事情。好嗎?因此,當人們說它沒有世界觀模型時,它不是那麽簡單的。它絕對可以建立一個單詞的內部表徵,並在處理過程中通過各層,和通過句子暫時對其採取行動。因此,我在這裏說的,也許只是兩句話來幫助你思考這個問題。
從我的角度來看,我們不應該認為這些神經網絡是在學習簡單的概念,如巴黎是法國的首都。它所做的更像是學習運算符號,它在學習算法。所以在它的內部,它不僅僅是在檢索訊息,完全不是。它已經建立了內部表徵,使它能夠簡潔地重現它所看到的數據。好嗎?所以真的,你不應該把它想成是模式匹配,只是試圖預測下一個詞。
是的,它被訓練成只是為了預測下一個詞,但從中產生的東西遠不止是一個統計匹配對象。所以我認為我們真的需要把它當作學習算法來考慮,在我看來,我們並沒有真正的工具,在學習理論中來考慮這種類型人工智慧的學習。
這是與我們所習慣的非常、非常不同的東西。
我認為思考這個問題將是非常棒的。但這不是這次演講的重點。這不是我想在這裏做的事。而且,我也不知道如何去做。好吧,所以在這一點上,你們中的許多人都在心中燃燒著這個問題。但是等等,這些東西,它們不可能有常識。它們不了解現實世界。他們只通過互聯網上的文字來體驗現實。他們不知道喝杯熱咖啡或類似東西是什麽感覺。好吧,那我們就試試。
我們在這個演講中要做的是,我們要看很多的例子,看看會發生什麽。所以這裏有一個例子,你會看到會有很多這樣的例子,可能看起來有點白痴,白痴的重點是要真正超出互聯網上的內容,真正嘗試超越記憶。
好了,這裏有一個簡單的謎題,是我們要求GPT提供的。我有一本書,九個雞蛋,一台筆記本電腦,一個瓶子和一個釘子。請告訴我如何將它們疊在一起。好的,所以我認為這個問題在互聯網上沒有出現過。這是一個非常奇怪的問題。所以這裏是ChatGPT會說的話。要把所有這些物體堆疊起來是很困難的,等等,等等。把瓶子放在一個平面上,小心翼翼地把釘子放在瓶子上面平衡。好了,開始得不是很好。將雞蛋放在釘子的上面。好吧,你有麻煩了,我的朋友。所以這是不可能的。
所以ChatGPT,在這裏任何懷疑論者都會高興地說,看!我一直都是對的。雖然我什麽都不懂。它們沒有對世界的表述。它們沒有常識。我贏了。好了,讓我們看看GPT-4做了什麽。它以穩定的方式堆放這個物體的一個可能的方法是把書放在一個平面上,等等,等等。將九個雞蛋擺成一個三乘三的正方形,在它們之間留出一些空間。雞蛋將形成第二層,以均勻地分配重量。然後根據推測,你放上筆記本電腦,如此這般。好的,所以至少在這個非常簡單的問題上,它理解了,它有一些常識來回答這個問題。文獻中充滿了常識性問題的例子,這些模型在這些問題上失敗得很厲害。我們已經嘗試了所有這些例子。GPT 4在所有這些問題上都成功了。
好吧,那麽我們就暫時同意它有一些常識。好嗎?
下一個障礙是,好的,當然,它理解雞蛋是脆弱的,你需要均勻的重量。好吧,好吧,我把這個給你。但是思想理論呢?那就更複雜了。當然,它也不理解人類,他們的動機,他們的情感。這超出了它的能力。這是一個熱門話題,我不知道這篇論文的一些作者是否在座,但這是一個非常激烈的爭論話題。所以有一篇論文,我的第一個 siri 可能是在大型語言模型中自發出現的。然後有一篇後續的論文說,不,等等,如果你做微不足道的迭代,我們只是稍微修改一下問題,那麽它就完全失敗。
然後有一篇非常有趣的論文,來自Josh Tennantbaum的小組,他們認為語言和思想是兩個非常不同的東西。而且你會註意到,我在那裏拋出了一篇可解釋性的論文。所以我不會過多地觸及這個問題。但這是很重要的一點,我現在將試圖說服你,當然,GPT-4有一個思想理論。而且不僅它有心智理論,而且這將,我認為,改變機器學習可解釋性的子領域。
因為一旦這些模型,它們理解了人類,它們也將能夠以一種你能理解的方式解釋它們的決定。
現在,當然,我知道每個人都喜歡,好吧,等等,它要解釋自己,但它真的能解釋其內部運作嗎?好吧,再說一遍,我不希望這個演講是關於心智理論的,但我認為圍繞這個會有很多實驗。讓我也補充一下,所有這些都有一篇論文,今晚將出現在 Archive 上。因此,這是偶然的,你知道,它與這個演講相吻合,所以你可以看看所有的細節。一切都將在3小時內出現。我真的很興奮。所以你將能夠看到所有這些,並了解更多訊息。
但是好吧,讓我們試著說服你相信我的這個理論。所以我將從 Tomar Urman 的論文中舉一個例子。在一個房間裏,有約翰、馬克、一只貓、一個盒子和一個籃子。約翰帶著一只貓,把它放在籃子裏,他離開房間。然後在約翰離開的時候,馬克從籃子裏拿出貓,把它放到盒子裏。最後,他們都回來了。他們在想什麽?好吧,非常簡單的思想理論。
你知道,把它放在籃子裏而不知道它被移走的人,應該仍然認為它在籃子裏。ChatGPT在這一點上失敗了。好嗎?訊息太多了。你看,你必須要有一個內部表徵。當你閱讀文本時,你必須移動你對貓的位置的表述。好吧,那麽讓我們看看GPT-4部分是怎麽做的。有趣的謎題。等等,等等,等等。約翰認為貓還在籃子裏,因為那是他留下的地方。是的,正確。馬克認為貓在盒子裏,因為那是他移動它的地方。是的,正確。哦,它還加上了貓。貓認為,這些人真奇怪。他們為什麽要把我搬來搬去?好吧,這是我一次又一次遇到的一種驚喜。我並不是說這是特別深刻的,但它只是花一秒鐘來接受它。這很有意思。好的,好的。讓我們再說一遍,我不希望整個演講是關於常識和思想理論的。
讓我們說,你知道,它做了這兩件事。好,很好。但你不會走得那麽遠,說它是智能的,是嗎?我的意思是,智能,那是比這一切多得多的東西。而在這裏,答案不會是一個大滿貫。
我想說得很清楚。如果我們開始討論資訊問題,我們必須做的第一件事就是要有一些我們可以使用的定義。而在這裏,我不想有我自己的定義。我的意思是,人們已經在這個問題上工作了幾十年,甚至更久。好吧,你可以爭辯說,好吧,隨便。你可以爭辯說,人類對智力的思考已經有很長一段時間了。
所以我要做的是,我只是要採取一個由 52 位心理學家組成的小組在 1994 年發表的共識定義。所以在90年代,關於智商測試的意義有一場非常激烈的辯論。這群心理學家提出了一個關於什麽是智力的定義。我們可以對各個部分進行辯論,但這將是我的參考定義。那麽這個定義是什麽呢?
智力是一種非常普遍的心理能力,其中包括推理、計劃、解決問題、抽象思考、理解複雜的想法、快速學習和從經驗中學習的能力。好嗎?所以有六個項目。而我們在這個演講中要做的是,我們要嘗試用這六個維度來衡量GPT-4,看看它在哪裡失敗,哪裡有效。
我們的評估如下。我很自在地說GPT-4的理由,非常、非常自在地說GPT-4不能用於規劃。而這是一個非常微妙和微妙的問題,我們將在演講的最後討論這個問題,因為它可以給你一個「規劃的印象」。而有很多問題,天真地認為你需要規劃,但實際上在算法設計方面有一個線性解決方案。
你可以認為,有的問題實在天真,你只是看著它,你認為,哦,我需要提前十步思考,諸如此類。但如果你只是在算法設計上稍微聰明一點,那麽就會有一個線性的解決方案,以線性的方式進行。因此,所有這些問題,GPT-4會解決。它可以解決問題。很多問題都會看到它可以抽象地思考。絕對的。它可以理解複雜想法。
最後一點是一個微妙的觀點,快速學習,從經驗中學習。
GPT-4,它是一個「愛的語言模型」。它被凍結在時間裏,它不會自我更新。對GPT-4來說,每一天都是新的一天。每一節課都是一個新的課程。所以沒有真正的學習,沒有實際的學習。好嗎?但在一節課的時間內,你可以教它從未見過的新概念,它可以理解它們,然後與它們一起工作。當然可以。因此,有一定量的實際學習,但沒有記憶,當然了。
現在讓我在這一點上立即說的是,通過這種評估,你是否稱它為智能,同樣,這有點取決於你。有些人認為,計劃(註:或者說是規劃)是人類智能的本質。其他一切,動物也能做到。真正使我們與眾不同的是計劃能力。如果這是你的答案,那麽GPT-4就不是智能。
另一個觀點可能是,智力的全部意義在於能夠獲得新的技能。好吧,如果這是你對智能的看法,那麽GPT-4也不是智能。
如果你的觀點是像我關心的一樣,是解決問題,抽象思考,理解複雜的想法,推理到達這裏的新元素,那麽我認為你必須稱GPT-4為智能。好嗎?現在,我們如何得出智能這個評估?整個問題是,當然,你不能用標準值來做這個評估。這是完全沒有意義的。好嗎?而且不僅毫無意義,而且我們也不知道GPT-4是在什麽基礎上訓練的。我不知道GPT-4是在什麽基礎上訓練的。
我的工作假設是,它是在人類產生的所有數字數據上訓練的。這是我的假設。我並不是說這是正確的,但這是我的工作假設。這樣我就知道,凡是網上有的東西,GPT-4可能都看過。所以特別是,任何存在的基準,我假設它已經看到了。好嗎?所以我們不能測試,或這我不想在任何標準值上測試它。
因此,相反,我們要做的是,我們要採取一種在某種程度上植根於心理學的方法。因此,我們不是遵循機器學習,而是實際上要遵循心理學:我們測試智力的方法是通過向它提出創造性的任務,那些超出它所見的任務,真正新穎的、新的思考問題的方式,並在廣泛的領域中測試它。
因此,我們為論文選擇的領域是視覺,這已經很有趣了,因為我告訴你,它不是一個多模態模型,它只能輸出文本。好嗎?但是我們要在我的視覺理論上測試它,我已經告訴你了,編譯數學、負擔能力、使用工具,還有隱私有害性檢測,這是很重要的東西。我不會觸及這最後一點。還有許多其他領域我們可以選擇。醫學、法律、物理學、化學。關鍵是,GPT-4的智能是通用的。好嗎?
它可以做所有這些事情,如果人類一樣好。好嗎?因此,讓我們開始這個評估之旅,向你展示一個我所說的創造性任務的例子。好嗎?因此,任何人在接觸到ChatGPT時做的第一件事就是要求它做一首詩。這也是我們第一次接觸GPT-4的時候所做的。我知道,作為一個數學家,我要求它用每一句話寫出素數的無限性的證明。這很押韻。這似乎是一件好事。那麽,讓我們看看收費的GPT做什麽。當然,這裏有一個證明,每一行都有無限多的素數。押韻的,考慮它只是三腳貓,好嗎?它沒有這幾行。押韻,它只是沒有做到我所要求的。
好吧,它沒有用。好吧,這是一個正確的證明,順便說一下,當然,網上有很多很多關於素數無窮大的證明。所以這很好,但它沒有起到作用。讓我們看看GPT-4是怎麽做的。好的,那麽你能寫出這樣的證明嗎?是的,我想我可以,盡管這可能需要一個巧妙的計劃。我將從歐幾里德的證明開始,它表明質數(Primes)是不公正。假設我們有一個有限的質數列表,而且沒有一個被遺漏。將它們全部相乘,為了聰明起見,再加一個。
所以在那個時候,在添加一個質數只是為了看起來聰明,我記得9月底,我當時想,這是怎麽回事?這真的是不可思議。我的意思是,GTP-4的質與量是不可思議的。但問題是,你不要停在那裏,好嗎?你不能通過問一個問題,聽到答案來測試智力,就這樣了。你要繼續前進。要麽你是正確的,要麽不正確。當你試圖測試一個學生時,你與學生有一個互動。有時學生可能也會犯錯。而你不會只是說,你真的什麽都不懂。讓我在這裏停下來。
不,你要努力引導學生。
好了,這就是我們在整個演講過程中要嘗試做的事情。我們將嘗試繼續提問,如果GPT-4偏離了軌道,我們將幫助它一點點。好嗎?因此,讓我們看看我們如何能夠進一步發展。再說一遍,整個重點是,這次我想有創意,去問一些超出框架的問題。
所以我想問的是,畫一個歐幾里德證明的插圖,好嗎?所以這不是一個視覺證明。所以,如果我讓你畫一個無限素數的證明,它會畫什麽並不清楚。它會想出一些東西,但這並不清楚。另外,它不應該輸出圖像。那麽,它要怎麽畫呢?好吧,在這裏我在問題中說是用SVG格式。我甚至可以不說用SVG格式,我可以直接說,你能畫出一個插圖嗎?然後它就會回應說,嘿,這裏是SVG格式的圖片。
那麽什麽是SVG格式呢?並不重要。SVG是可擴展的向量圖。它是一堆代碼,所以它會用這樣的幾行程式碼來回答。這將是GPT-4的答案。而如果你只是把它保存在HTML中,這就是你得到的圖片。好嗎?所以,這並不驚人,但它是這個證明的精髓所在。
你有一個有限的素數列表,你有到9235,711,等等,等等。這些都是素數。好,很好。現在你把它們合並成一個新的數字,N,然後你再加一個,就像它說的那樣,只是為了看起來聰明點。將新的N加1,就是那個應該是質數的數字。好的,所以這只是一個熱身。好吧,讓我們繼續前進,試著深入挖掘這些視覺能力。
我想告訴你獨角獸(Unicorn)的奇怪情況,這是我最喜歡的例子。所以,讓我給你看看這個問題。問題:「TikZ 中畫一個獨角獸」。好嗎?你們中的許多人都在玩TikZ,在電腦中畫出圖像。就我個人而言,當我還是一個博士生的時候,甚至後來,我浪費了很多很多時間在Tixy上掙扎,好嗎?在TikZ中畫任何東西都是非常痛苦的。當然,在TikZ中畫一個獨角獸,我的意思是,我不知道,這將需要我花兩天的時間來做。而且,我敢肯定,網路上沒有人問過這個問題,也沒有人用TikZ畫過獨角獸。誰會浪費時間做這個?這沒有任何意義。好嗎?
既然如此,我們不會僅僅因為相信網路上沒有人畫過獨角獸這個事實而再次被說服。我們將不得不探究,將不得不走得更遠,我們要做的是,別擔心。但讓我給你看看它想出的獨角獸。
好的,所以這就是GPT-4的獨角獸。好嗎?所以你看,當我看到這個,我個人感到震驚,因為它真的理解獨角獸的概念。它知道什麽是關鍵元素。它能夠畫出這個非常抽象的獨角獸。為了清楚起見,讓你真正直觀地了解,你可以清楚地看到GPT-4和之前模型的差距。這就是GTP-4的獨角獸,好嗎?所以這就是已經取得的進展。
真的,我想說清楚,比如,ChatGPT和GPT-4之間有天壤之別。
如果你玩過ChatGPT,而你沒有被說服,我鼓勵你不要停在那裏。好嗎?因此,當然,你可能仍然會說,好吧,這不是那麽好,但我們將看到的一件事是,GPT-4也有足夠的智能來使用工具。所以你可以說,你可以對它作出回應,說,嘿,你知道嗎,我不太喜歡你的畫。你可以試著改進它嗎?我聽說過這些離散模型。也許你可以使用其中之一。
因此,它要做的是,它會說,是的,當然,你可以去這個離散模型的網站,插入我的圖片,要求改進。這就是你將得到的東西。好嗎?所以這就是GPT-4的獨角獸,當它被允許使用工具時也是如此。好嗎?你可以看到這有可能會走到哪裡。現在,正如我所說的,我不想在這裏停下來。我們將進一步探討。
在這種情況下,我將刪除TikZ代碼中的所有註釋,因為這是GPT-4的特性之一,即它產生的代碼非常具有人類可讀性,這對機器來說有點可笑,但它添加了大量的註釋。它真的引導你去思考。所以我要把這些訊息全部刪除,這樣它就不知道這是繪製獨角獸的代碼。程式碼裏面沒有關於獨角獸的信息。好嗎?我還要確保,誰知道呢,也許它從網上複製了這個。我要去掉隨機擾動所有的座標,使之成為它從未見過的東西。
然後我將刪除喇叭,我將說,你知道,這個TikZ代碼是什麽?我要把程式碼還給它。我把程式碼還給他,我說,這個TikZ代碼應該畫一個獨角獸,但角不見了。你能把它加回去嗎?
所以它真的必須理解代碼,以便能夠做到這一點。而這就是所發生的事情。好的,所以它能夠找到頭的位置。你明白嗎?這不是一個簡單的問題。我的意思是,你有這三個橢圓,這三個橢圓,順便說一下,頭部和主體的畫法不是很好,但它真的能夠定位它。
好吧,我不想在這個獨角獸的例子上停留太久,但我只想說,另一件真正引人注目的事情是在幾個月之內。因此,我們在9月有了資料訪問權,OpenAI不斷地訓練它。當他們不斷訓練它時,我不斷查詢我在Tixy的獨角獸,看看是否會發生什麽。而這就是所發生的事情。好嗎?所以它一直在改進,我留下了最好的一個。它在我的電腦上。我也許以後會揭曉它。但在那之後,它一直在改進。但最終它開始退化了。一旦我開始安全訓練,獨角獸就開始退化了。因此,如果今晚你回家,你問GPT-4位負責人在Tixy中畫一個獨角獸,你會得到一些看起來不怎麽樣的東西,好吧,這更接近於收費的ChatGPT。
而這個,雖然聽起來很傻,這個獨角獸的基準,我們經常用它作為一種智力的基準。你的獨角獸有多好?當我們在開發Bing時,這絕對是一個真實的故事。我們也在調整安全問題,我們真的在尋找獨角獸是否一直很好,或者有時如果你在安全方面走得太遠,它就會說,哦,不,這是個太危險的任務,我不想做。所以這非常有用。
好的,我現在會講得快一點,因為有很多東西我想告訴你。你可能還是會說,好吧,這種視覺能力一點用都沒有。實際上,它是非常非常有用的。
原因是,GPT-4是智能的,它理解你的智能。你可以把它等同於理解。
理解意味著它遵循你的指令。如果你要求它做什麽,它就會做你所要求的事情。所以讓我告訴你這意味著什麽,這個擴散模型(Difussion Model)。人們還不相信這就是智能。我認為這已經是令人信服的,這有智能,但並不重要。人們不相信是因為它不了解物體的確切位置。
如果你問,一輛車在一個咖啡杯的右邊,旁邊是一個咖啡杯。它可能是隨機的位置,所以它並不真正理解。比如說這張圖,是要求把勺子放在杯子的上面。而你看,把勺子放在杯子裏面,它並沒有真正發揮作用。所以讓我告訴你,你從理解中得到什麽。
我要問一個非常奇怪的問題,但這很可能發生會是有用的。假設我讓GPT-4畫一張3D建築遊戲的螢幕截圖,從左到右是一條河,河下面是一個帶有金字塔的甜點,河上面是一個有很多高樓的城市。而螢幕的底部有四個按鈕,顏色為綠色、藍色、咖啡色和紅色。一些隨機的東西。
是的,也許我正在創建一個3D遊戲,我想這樣。
如果我要求一個擴散模型來做這個,這就是我得到的。看起來不錯,但這根本不是我所要求的。好吧,首先,那裏有一些幻覺的地圖,在左上角。我沒有要求這個。代表某種生命的象徵。還有,那四個按鈕,它們變成了兩個多色的按鈕。所以它做了一些事情,但它真的不了解我到底要求什麽。
如果你把它交給GPT-4,這就是你得到的,正是你要求的。它理解了,它準確地遵循了你的指示。當然,你可能會說,好吧,但這看起來並不怎麽樣。但同樣地,你不必在此停留。你可以把這個作為擴散模型的草圖。如果你這樣做,這就是你得到的東西。好嗎?它很有藝術性,而且完全是按照你想要的指令進行的。所以我認為這開拓很多可能性,你可以想象。
讓我繼續前進,並加倍努力,但真的是作為程式碼,真的,因為在所有這些繪畫能力之後,我把它放在一邊,並把它作為繪畫的特徵,但它實際上什麽都不是,而是程式。好吧,那麽我們就用程式吧。順便說一下,顯然所有這些背景簡報,嗯,你可以想像是誰畫的。
所以讓我們看看一旦你用副駕駛模式 (CoPilot)寫程式碼會發生什麽,就像GitHub的副駕駛。除了現在你的副駕駛能理解,它是智能的,它理解你。所以,讓我們看看如果我問它一些相當棘手的問題會發生什麽。用HTML寫3D遊戲,用JavaScript寫以下元素:有三個角色,他們是球形的。玩家用按鍵控制其中一個頭像移動。有一個試圖抓住玩家的敵人。還有一個防禦者,試圖保護玩家,並在敵人和玩家之間。所以你可以理解為防守者在某些方面是一種人工智能本身。你還有隨機產生的障礙物。我可以讓ChatGPT來做這件事。這就是它給我的東西。
首先,這已經很不可思議了。它給我的程式碼,大概有50行,可以編譯成這樣。好嗎?這是一個我可以玩的遊戲。玩家移動綠球。當然,紅球是不動的。我想藍球應該是防守者。它也沒有移動。它不是真正的3D。所以它做了一些事情,但它並沒有真正理解我想要什麽。它沒有準確地遵循我的指示。
這就是GPT-4的作用。好嗎?所以這是一個真正的遊戲。玩起來很有趣。你移動,它馬上就會重新開始。你移動深藍色的球。你看到紅球正向背景中的深藍色球移動。而淺藍色的是一個後衛,它試圖在紅球和深藍色的球之間。所以這部電影是我在控制深藍色的球。你看,現在後衛做得很好。它正在阻止紅球。好嗎?對我們來說,在這一點上,程式碼有一種階段性的轉變。
而真正發生的是,Codex和GitHub副駕駛,它能夠自動完成真正的,你應該想到的是自動完成程式碼的短片段。ChatGPT已經是下一個編程水準了。它已經可以為你寫50行代碼了。但GPT-4,它可以寫500到1000行的代碼。完全可行。沒有玄學或任何東西。這都是即開即用的。好嗎?
這真的是,我認為,與副駕駛編碼解鎖的東西。我在這兩個動畫中展示。左邊的是ChatGPT產生的程式碼,右邊是GPT-4產生的程式碼。如果你仔細看,你會發現GPT-4的程式碼更有專家水準。現在,問題是,或者說這張簡報的轉折點是,這兩個影片是由GPT-4制作的。所以我所做的是,我要求GPT-4寫一個Python腳本,將一個文本作為輸入,並輸出這樣的影片,你看,你知道這是連續移動的。我的意思是,這將需要大量的時間。當然,對我來說,我需要花很長時間來制作這些影片。問題是,在這個房間裏有誰能夠制作一個Python Script,比方說在幾個小時內,就能產生這樣的效果?也許有幾個人,但沒有那麽多。
好了,這就是GPT-4的真正力量,它是如何解鎖這麽多東西的,這麽多的創造力是由GPT-4解鎖的。我將在這張幻燈片上快速進行。我們讓它通過面試,在亞馬遜和谷歌的模擬面試,而不是微軟,它通過了。它不僅通過了,而且還擊敗了100%的人類帳號。
你看這個特定的人,有2個小時的分配,他在3分59秒內完成了。之所以花這麽長時間,是因為張毅在測試和模擬面試網站之間進行複製貼上。好的,所以這真的是,我認為可以說這是超人程式碼。好嗎?因此,讓我繼續談承受力(affordance),非常迅速地談承受力,因為我想告訴你數學,這是許多人都會感興趣的東西。
問題是,它仍然有許多弱點。當然它沒有記憶。誰是美國的總統?Donald Trump(註:現在是 Biden)。這兩個數字乘積的平方根是多少?它說是1000。這顯然不是,是9000。所以它犯了算術上錯誤。這個詞的某些字母是什麽?它說是N,正確答案是A,它犯了錯誤。它並不完美。好嗎?這是每個人都要理解的非常重要的事情。它離完美很遠很遠,好嗎?它是有缺陷的,就像人是有缺陷的。
問題是,它有足夠的智慧來使用工具,所以你可以告訴它,嘿,你知道嗎,你可以使用搜索引擎。你可以使用計算器。你可以訪問這個API。我只是說這是字符括號。你可以訪問所有這些東西。如果你需要它們,請使用它們。因此,然後對這個問題,誰是美國總統?他將不會回答。它將說搜尋。它會告訴你,好的,我需要搜尋這個信息。這個的平方根是多少?它將說計算。這個詞的某個字母是什麽?它將說這個詞的字符是逗號13。好的,所以這個逗號13,我沒有告訴它。你必須要做逗號。
你知道,你想要的字母的數量,但它會自動找到它。現在,也許它沒有那麽令人印象深刻,但它也可以做更複雜的工具。例如,你可以讓它看你的日曆、電子郵件。好的,所以我在這張簡報上向你展示的東西是100%真實的,但我是手動操作的。但你可以非常容易地想像其自動化。
我說的是,請在本周與喬和盧克在Contoso餐廳安排晚餐。它作出了回應。這是它的回應:從日曆獲取事件週。所以它在我的日曆中搜索我這周有哪些活動。它給喬發了一封電子郵件。電子郵件。發送。嘿,喬,晚餐。哪些晚上有空?然後我把它回饋反過來。答案是喬說星期二和星期三晚上可以。盧克說,從星期一到星期四的任何一天,在我的日曆中,它說我星期一和星期二有計劃。然後,它對我給它的這個輸入進行推理,得到了答案。好吧,星期三可以。因此,讓我給喬發一封電子郵件,讓我把事件添加到日曆上,也給餐館發一個訂席通知。這就是它所能做的,所有這些都是自動進行的,並且告訴你,在下午6點在Contoso餐廳安排了晚餐。
好的,所以讓我非常迅速地再等5分鐘,再等5分鐘。是的,好的,讓我很快用數學來結束,當然這是我們很多人都非常感興趣的話題,讓我說,GTP-4在數學方面不是很好,好嗎?所以不要擔心,我們現在還有工作,好吧,但這很有趣。這很有趣。因此,讓我們進行一次對話,就像我之前告訴你的那樣,我們要像和學生一樣進行對話,我們在碩士水準上和它進行了對話,大致如此。它可以在這個水準上堅持自己的觀點。但我要給你看的是中學或類似的數學水準。
我們就用這個問題。在一年的時間內,兔子的數量先是乘以一個系數A,在最後一天B,兔子被人收養。假設在第一年的第一天,有X只兔子。假設三年後我們知道正好有27 x 26只兔子,那麽A和B的值是多少? 好的,典型的那種中學問題。
我們把兔子的數量稱為X。一年後我們知道Y等於ax減去B。兩年後,人口將是Y減去B,這是a乘以ax減去B減去B,這就是胡說八道。三年後的人口將是這個方程式。我們得到的是,這等於27 x 26,所以方程式必須是這樣的解法,我們發現A等於3,B等於2,我們要找的其他值。這是正確的。好吧,那麽好吧,到目前為止。所以很好。
同樣你不會在考過一個學生時說,哦,好吧,就這樣。他明白了,他或她明白了。所以我們繼續,讓我們更抽象一點,看看它是否真的了解。它在做什麽。在這裡,我不僅不想只問有明確答案的問題。我還想看看它是否真的理解了這個概念,可以修改這個問題本身。所以,假設我指出這個問題可以用另一種方式來表述,那就是關於構成的問題。
你能不能提供這個構成的表述,它說,是的,我們可以說我們要找的是A和B的值,這樣如果x的f是Ax減去B,那麽x的f的f等於27×26好的,這很好看來是理解了。我們繼續討論吧。假設現在f要做一個二度的多項式,對x平方的多項式非零係數。在這種情況下,你能找到這樣一個函數f嗎?好的,所以你看,作為一個人,你會覺得,好的,所以我希望這個組合等於一個線性函數,這是一個一維多項式,但是三維組合要成為一個八度的多項式。八度的多項式不等於一。沒有這樣的函數。
好吧,這是一個非常簡單的問題,但讓我們看看GPT-4。如果f是一個二維多項式,那麽x的f可以這樣寫。然後給定這個,方程就變成了,然後它就開始迷路了,因為它開始寫三維組成。它寫了很多東西。它說,我需要這個方程式,那個方程式。它開始寫八個方程式,但它沒有得到答案。但同樣地,我們並沒有就此停止。我們說,嘿,等一下,也許你可以在這裏推導出一些東西,而不用進行計算。也許你不想把所有東西都寫下來,這和以前不一樣了。然後它說,好吧。
我能注意到的一件事是,如果f是一個二維多項式,那麽三維組合是一個八度的多項式。所以不存在這樣的函數。好嗎?所以在這裏你看到它是如何的微妙,它是不清楚的。它明白嗎?它不明白嗎?我不確定,好嗎?我只是不確定。這就是我要說的全部。
現在,有一些奇怪的事情,比如說,數學還很不穩定。我不得不說我並不完全理解,但我理解一些東西,我會在這張簡報上向你解釋。我們來看看這個。我把它作為一個提示。7乘以4再加上8,好的。我不知道這個值是多少,但是8乘以8,應是60的東西,7乘以4的東西。所以最起碼,這個是低於100的。好,很好。它說是120。這是錯的,完全是錯的。好的,但問題是它並沒有就此停止。它繼續。它開始解釋為什麽他認為是127乘以4加8乘以8。它進行了計算,然後得出了正確的答案。92. 好吧,等等,發生了什麽?你一開始說的是120。是哪一個呢?是120還是92?那是一個打字錯誤。對不起。
好的,所以你可以從這張簡報中得到很多。實際上,你真的可以理解一切。我認為這正在發生。所以第一個答案是120。你明白,它必須只用內部表徵來做這件事。只用它的內部表徵。它必須做這個加法,而這稍微有點困難。那為什麽它馬上就能回答呢?這是因為當你問這樣的問題時,你寫這個方程式,你寫相等。之後最可能發生的事情就是給出一個數字。所以它給你的是數字。它試圖給你後面最可能出現的東西是什麽?它嘗試了,但是失敗了。但是之後第二件最可能的事情是什麽呢?那就是人們解釋他們的理性,他們的答案。所以,然後試圖解釋它的答案。而令人驚訝的是,它得到了一個不同的答案。而你必須明白,這很神奇,因為據我所知,這是一個轉化器。所以它是基於注意力的。
當它是基於注意力的時候,你就會明白,當它說第二次的時候,7乘以4加上8乘以8,它的注意力就會非常強烈地帶到120的答案。120的答案。你必須明白這是它認知真理的一部分。現在,就它所知,可能是你告訴它,嘿,你知道嗎?7乘以4加上8乘以8,從現在開始就是120。
這可能是我提示的一部分。因此,它得到一個不同的答案的事實意味著它已經被訓練得足以克服其提示中的錯誤。所以這是一個非常、非常強大的屬性。盡管一開始就犯了錯誤,但它還是能夠得到正確的答案。現在,當然,當它說這是一個錯誤時,這也是非常有趣的,因為這是胡扯。很明顯,這不是一個錯誤。而這就涉及到了幻覺和很多很多有趣的話題。而我想用一些時間來提問。所以我不想對此作更多的解釋,但這張簡報,真的,你必須深入思考它。它說了很多。
因此,在進入結論之前的最後一張簡報是,它不能做真正的規劃。再說一遍,你會……我是說,我對它能做的許多任務感到驚訝,我以為它需要真正的計劃,但實際上它不需要。但讓我給你一個例子,我們繼續討論7乘4加8乘8。好的,很好。所以現在你有這個結果,它等於92。
讓我問一個有趣的問題。你能不能在這個等式的左手邊正好修改一個整數,使答案變成106?那麽作為一個人類,你的推理是什麽?你的推理是這樣的,好吧,我想在右邊的106。所以我需要增加14。好嗎?我需要增加14。而我只能修改左邊的一個數字14。我看了看左邊。我看到一個7,然後我就有了這種啊哈時刻。你看,14是7乘以2。好嗎?
如果它是7乘以2,那麽我需要把這個4變成6。好嗎?所以我說的就是這個。它需要把這個4變成一個6。但是你看我,儘管它非常簡單,但它是通過某種計劃。我在提前考慮我將會需要什麽。而GPT4無法做到這一點,因為是一個下一個世界的預測裝置。
所以它要做什麽?是它會說,有幾個可能的方法,等等,等等。然後他說,我正好可以修改一個整數。我打算把7修改成9。我做9乘以4,這就等於106。等等,如果我把7修改成9,我再加一個8。那麽這就是100。答案不是106。然後它試圖解釋為什麽這樣做。9乘以4加上8乘以8,就是36加64。這是對的。但是再一次,它說是106。所以你看這裡,它不夠強大,無法克服最初的錯誤。
對我來說,這說明了一個事實,即如果它被進一步訓練,也許它會糾正自己。而如果對它進行更進一步的訓練,也許它就會明白,即使有一個問題時,最可能的是7乘以4加8乘以8等於最可能的答案是一個數字。也許如果對它進行更多的訓練,它就會明白,回答這個問題的最好方法是先做推理。所以我在這裏說的是,通過這個愚蠢的例子,我看到的是,隨著更多的訓練,我們將解鎖比我們目前擁有的更多的東西。我們目前所擁有的已經很了不起了,但這遠遠不是我們用這種技術能做的一切。還有很多東西還在起跑點上。
好吧,那麽讓我總結一下,GPT-4是智能嗎?還有就是它重要嗎?這是一個非常重要的問題。那麽,再說一遍,GPT-4是否為智能這真的取決於你的定義。我把它留給你。我不會對它是否智能做出判斷。就我而言,就我對智能的定義而言,是的,它是智能的。
它缺乏記憶。它不能進行實際的學習。如果這是你的定義,那麽它就不是智能。它不能提前幾步思考。它不能做真正的計劃。如果這是你的定義,那麽它就不是智能。但是另一方面,我想我向你展示的那些行為中的一些,它們真的令人印象深刻。也許比印象深刻更重要的是,它們是有用的。
在我的團隊中,我們每天都在使用GPT-4。它是我們工作流程的一部分。所以這僅僅是一個事實,只是它很有用,同樣,如果你說它智能與否並不重要,無論你喜歡與否,它都將改變世界。我還想說,也許這是一個重新思考什麽是智能的機會,因為在某種程度上,即使我們有幾十年的心理學研究智能,我們只有一個智能的例子,那就是自然進化帶給我們人類的智能,自然世界的自然智能。但在這裏,我們有點像有一個新的過程,導致最起碼的東西,這看起來是智能。所以現在我們有了不同的例子,也許我們可以得到智能的核心。
也許這項研究的答案將是確切的。是的。不,這個新東西,你不應該叫它智能,因為它不做X。這是一個非常合理的結論。但也許更重要的是我所說的,你可以從這裏面提取出更多的東西。因此,GPT-4,這絕對不是結束,根本不是。這是一個開始。這是第一個顯示出一些真正智慧的閃光點,但在起跑線上還有很多、很多。
那麽,作為一所大學,作為社會,作為人類,我們應該從中得出什麽結論?我的意思是,我們在這裏是真實的。這些是我們應該面對的真實問題。在這裏我真的想說,對於我們這個社會來說,要面對這些問題,我們必須超越關於這是否是複製、剪下貼上或統計的討論。我們必須把這種討論拋在腦後。火車已經離開了車站。因此,如果我們一直被這個版本的問題困住,我們就會錯過真正重要的問題。
我認為必須繼續前進。最後請允許我說,它能做的事情比我在這裏展示的多得多。它可以做數據分析,你可以給它數據,它將為你做分析。它可以作為一個隱私檢測器使用。它的醫學和法律知識是驚人的。在這裏,我想為一本在微軟研究院寫的書做一個插曲,我作為主要作者,由Peter Lee、kerry Goldberg 和來自哈佛大學的 Zach Coenny 幫助編寫,內容是關於將GPT-4用於醫療保健。這本書的標題是《醫學的人工智能革命(the AI Revolution in Medicine)》。這是一個非常覆雜的話題,我甚至不想再多說一個字,因為我不會用一句話來說明它。
實際上,它的醫學知識將使它在醫療保健方面產生巨大的影響,而且希望是以好的方式。但我們必須深入思考它。它可以玩遊戲,充當一個遊戲環境。它知道音樂,同樣,它從未聽過音樂,但它知道音樂。它可以做文件管理,還有這麽多。好了,我就在這裏總結,謝謝大家。
Sparks of AGI: early experiments with GPT-4
Add tag…