測(cè)量人工智能的「智慧」是計(jì)算機(jī)科學(xué)領(lǐng)域中最棘手但最重要的問(wèn)題之一。如果你不明白你今天制造的機(jī)器是否比昨天更聰明,那你怎么知道你在進(jìn)步?
乍一看,這似乎不是問(wèn)題。其中一個(gè)回答是:「顯然人工智能越來(lái)越聰明」。僅從所有涌入這一領(lǐng)域的資金和人才就可以看出來(lái)。也可以回顧一下 AI 領(lǐng)域?qū)崿F(xiàn)的一系列里程碑,例如 AI 在圍棋上打敗人類(lèi),以及像圖像識(shí)別等在十年前根本不可能落地的應(yīng)用現(xiàn)在開(kāi)始變得無(wú)處不在。我們?cè)趺茨苷f(shuō) AI 這個(gè)領(lǐng)域不是在進(jìn)步?
另一個(gè)回答是,這些成就并不是衡量「智慧」的良好標(biāo)準(zhǔn)。AI在國(guó)際象棋和圍棋中擊敗人類(lèi)確實(shí)令人印象深刻,但是如果在解決一般的問(wèn)題時(shí),一個(gè)正在蹣跚學(xué)步的孩子甚至一只老鼠都能讓最聰明的計(jì)算機(jī)「不知所措」,AI 又有什么用?
這是人工智能研究人員、谷歌軟件工程師、機(jī)器學(xué)習(xí)界知名人士François Chollet 對(duì)當(dāng)下的 AI 做出的評(píng)論。Chollet 是 Keras 庫(kù)的作者,而 Keras 則是一個(gè)被廣泛應(yīng)用的開(kāi)發(fā)神經(jīng)網(wǎng)絡(luò)的程序,是當(dāng)代人工智能的脊柱。他還編寫(xiě)了大量關(guān)于機(jī)器學(xué)習(xí)的教科書(shū),并在 Twitter 開(kāi)設(shè)了專(zhuān)欄分享自己對(duì)于 AI 領(lǐng)域的觀點(diǎn),廣受歡迎。
在最近一篇題為《測(cè)量智慧》的論文中,Chollet 還提出了一個(gè)論點(diǎn),即人工智能世界需要重新定義什么是「智慧」以及什么不是「智慧」。Chollet 指出,如果研究人員想在通用人工智能方面取得進(jìn)展,他們需要回顧過(guò)去流行的基準(zhǔn),如電子游戲和棋類(lèi)游戲,并開(kāi)始思考讓人類(lèi)變得聰明的技能,比如我們所具有的概括和適應(yīng)的能力。
在接受
The Verge 雜志的電子郵件采訪時(shí),Chollet 闡述了他對(duì)這個(gè)問(wèn)題的看法,談到了他為什么認(rèn)為人工智能目前的成就被「歪曲了」,以及我們將來(lái)如何衡量「智慧」,為什么關(guān)于超級(jí)人工智能的恐怖故事(如 Elon Musk 和其他人所說(shuō))會(huì)毫無(wú)根據(jù)地把控住公眾的想象力。

為了將Chollet 的觀點(diǎn)表述得更為清晰,本文對(duì)采訪做了一定編輯。
問(wèn):在您的論文中,您描述了塑造人工智能領(lǐng)域的兩個(gè)不同的「智慧」概念:一種「智慧」表現(xiàn)為能夠勝任廣泛的任務(wù)的能力,另一種則優(yōu)先考慮適應(yīng)能力和泛化能力,即人工智能應(yīng)對(duì)新挑戰(zhàn)的能力。現(xiàn)在哪個(gè)框架的影響力更大,帶來(lái)了什么樣的影響?
Chollet:該領(lǐng)域發(fā)展的頭 30 年里,最有影響力的觀點(diǎn)是前者:「智慧」是一套靜態(tài)的程序和顯性的知識(shí)庫(kù)。現(xiàn)在,觀點(diǎn)則向另一個(gè)相反的方向偏倚:AI 社區(qū)定義「智慧」的主流方法還是一張「白紙」,或者用一個(gè)更確切的比喻來(lái)說(shuō),是「新初始化的深層神經(jīng)網(wǎng)絡(luò)」。然而不幸的是,這是一個(gè)基本上沒(méi)有受過(guò)挑戰(zhàn)、甚至幾乎沒(méi)有經(jīng)過(guò)檢驗(yàn)的框架。這些問(wèn)題有著很長(zhǎng)的學(xué)術(shù)歷史(確切地說(shuō)是幾十年的歷史),我認(rèn)為即便是現(xiàn)在,AI 領(lǐng)域?qū)Α钢腔邸挂矝](méi)有太多認(rèn)識(shí),也許是因?yàn)楝F(xiàn)在在做深度學(xué)習(xí)的人,大多數(shù)都是在 2016 年之后才加入這個(gè)領(lǐng)域的。
這種知識(shí)壟斷現(xiàn)象從來(lái)都不是什么好事,尤其是在回答這些理解尚不足的科學(xué)問(wèn)題時(shí)。它對(duì)于領(lǐng)域內(nèi)的研究者提出一系列的問(wèn)題帶來(lái)了很大的限制,也限制了人們追求的思想空間。我認(rèn)為現(xiàn)在研究者們逐漸開(kāi)始意識(shí)到了這個(gè)現(xiàn)象。
問(wèn):在您的論文中,您還提出,人工智能需要更好地定義「智慧」才能進(jìn)步。您提到,現(xiàn)在研究人員專(zhuān)注于在靜態(tài)測(cè)試(例如在電子游戲和棋類(lèi)游戲中獲勝)中對(duì)性能進(jìn)行基準(zhǔn)測(cè)試。為什么您覺(jué)得這種測(cè)量「智慧」的方式是不足夠的呢?
Chollet:是這樣的,一旦你選擇了一個(gè)衡量標(biāo)準(zhǔn),你將會(huì)為了實(shí)現(xiàn)這一標(biāo)準(zhǔn)而采取任何可以采用的捷徑。例如,如果你把下棋作為衡量「智慧」的標(biāo)準(zhǔn)(我們從 20 世紀(jì) 70 年代到 90 年代都是這么做的),你最終會(huì)得到一個(gè)下棋的系統(tǒng),僅此而已。而根本沒(méi)有理由去思考這個(gè)系統(tǒng)到底對(duì)其他事情有什么益處。你最終讓系統(tǒng)實(shí)現(xiàn)了樹(shù)狀搜索和極小化極大算法,但這并不能教會(huì)系統(tǒng)任何關(guān)于人類(lèi)智能的知識(shí)。如今,研究者們?cè)?Dota 或 StarCraft 等電子游戲中追求高超技能,將此作為實(shí)現(xiàn)了通用「智慧」的典型代表,則陷入了完全相同的智力陷阱。
這也許并不明顯,因?yàn)樵谌祟?lèi)看來(lái),技能和「智慧」是密切相關(guān)的。人類(lèi)的大腦可以利用它的通用「智慧」來(lái)獲得完成特定任務(wù)的技能。一個(gè)真正擅長(zhǎng)象棋的人可以被認(rèn)為是相當(dāng)聰明的,因?yàn)椋覀冸[約知道他們必須用自己的通用「智慧」來(lái)從零開(kāi)始學(xué)習(xí)下棋。他們不是為下棋而生的。所以我們知道,他們可以把這種通用「智慧」指向許多其他任務(wù)上,并學(xué)會(huì)同樣很高效地完成這些任務(wù)。這就是所謂的「通用性」。
但是機(jī)器沒(méi)有這樣的限制,機(jī)器完全可以為下棋而設(shè)計(jì)。因此,我們對(duì)人類(lèi)所做的推論——「會(huì)下棋,因此一定很聰明」,就失效了,我們的擬人假設(shè)不再適用。通用「智慧」可以產(chǎn)生完成特定任務(wù)的技能,但絕對(duì)不能反過(guò)來(lái)說(shuō),完成特定任務(wù)的技能可以產(chǎn)生通用「智慧」。所以對(duì)于機(jī)器而言,技能和智慧是完全正交的。你可以獲得針對(duì)任何特定任務(wù)的特定技能,只要你可以用無(wú)限數(shù)據(jù)作為這種任務(wù)的樣例(或者花費(fèi)無(wú)限的工程資源),但這仍然不能讓機(jī)器更接近通用「智慧」。
我最主要的觀點(diǎn)是,在任何一項(xiàng)任務(wù)中獲得超高技能,都不能作為「智慧」的標(biāo)志。除非這項(xiàng)任務(wù)實(shí)際上是一項(xiàng)元任務(wù),它涉及讓機(jī)器在一系列以前未知的問(wèn)題上獲得新技能。這正是我所提倡的「智慧」的基準(zhǔn)。
人工智能實(shí)驗(yàn)室的研究人員在《星際爭(zhēng)霸2》中觀察他們的人工智能AlphaStar如何對(duì)付人類(lèi)玩家。圖片來(lái)自DeepMind
問(wèn):如果當(dāng)前的這些基準(zhǔn)無(wú)法幫助我們發(fā)展擁有更通用、更靈活的「智慧」的人工智能,那么為什么它們?nèi)绱耸軞g迎?
Chollet:毫無(wú)疑問(wèn),AI在特定的知名電子游戲中擊敗人類(lèi)冠軍的成就很大程度上是由報(bào)道這些項(xiàng)目的媒體所推動(dòng)的。如果公眾對(duì)這些浮躁的,而且很容易被誤解為通往超人類(lèi)通用人工智能的重要進(jìn)步的「里程碑」不感興趣,那么研究人員將做些別的事情。
我覺(jué)得這有點(diǎn)可悲,因?yàn)檠芯繎?yīng)該回答開(kāi)放的科學(xué)問(wèn)題,而不是產(chǎn)生公關(guān)效應(yīng)。如果我開(kāi)始用深度學(xué)習(xí)以超人類(lèi)的水平「解決」《魔獸爭(zhēng)霸 3》,你可以肯定的是,只要我有足夠的工程人才和計(jì)算能力(對(duì)于這樣的任務(wù)來(lái)說(shuō),這大約需要幾千萬(wàn)美元),我就一定能達(dá)到目的。然而一旦我做到了,我能學(xué)到關(guān)于「智慧」和泛化能力的什么東西嗎?坦白說(shuō),什么也學(xué)不到。充其量,我會(huì)掌握有關(guān)擴(kuò)展深度學(xué)習(xí)的工程知識(shí)。所以,我并不真正將其視為科學(xué)研究,因?yàn)樗鼪](méi)有教給我們?nèi)魏挝覀儾恢赖臇|西,也沒(méi)有回答任何開(kāi)放性的問(wèn)題。如果問(wèn)題是,「我們能在超人類(lèi)的水平上玩 X 游戲嗎?」答案是肯定的:「可以,只要你能夠生成足夠密集的訓(xùn)練環(huán)境的樣本,并將其輸入到一個(gè)有效表達(dá)的深度學(xué)習(xí)模型中」,早在前一段時(shí)間,我們就已經(jīng)知道了這一點(diǎn)。(事實(shí)上,在 AIs 達(dá)到 DOTA2 和 StarCraft II 的冠軍級(jí)別之前的一段時(shí)間,我就表達(dá)過(guò)這樣的觀點(diǎn)。)
問(wèn):您認(rèn)為這些項(xiàng)目的實(shí)際成果是什么?這些項(xiàng)目的結(jié)果在多大程度上被誤解或歪曲?
Chollet:我看到的一個(gè)明顯錯(cuò)誤的陳述是,這些高技能的游戲系統(tǒng)代表著「可以處理現(xiàn)實(shí)世界的復(fù)雜性和不確定性的人工智能系統(tǒng)的真正進(jìn)步」。(正如 OpenAI 在給用來(lái)玩 DOTO2 的程序 OpenAI 5 發(fā)布的新聞稿中所宣稱(chēng)的那樣)。它們并不能代表人工智能的進(jìn)步。如果它們真的可以,這將是一個(gè)非常有價(jià)值的研究領(lǐng)域,但事實(shí)并非如此。以 OpenAI 5 為例,它最初不能處理 Dota2 的復(fù)雜性,因?yàn)樗怯?16 個(gè)字符來(lái)訓(xùn)練的,不能泛化到整個(gè)游戲中,整個(gè)游戲有超過(guò) 100 個(gè)字符。它經(jīng)過(guò)了 45,000 年的游戲訓(xùn)練,然后再一次注意到對(duì)于訓(xùn)練數(shù)據(jù)的需求如何隨著任務(wù)的復(fù)雜度增長(zhǎng)。而即便經(jīng)過(guò)這么長(zhǎng)時(shí)間的訓(xùn)練,得到的模型依舊被證明是非常脆弱的:在這種 AI 對(duì)外發(fā)布能供人類(lèi)與之對(duì)戰(zhàn)后,即便是非冠軍的人類(lèi)玩家,也能夠找到能十拿九穩(wěn)地打敗它的策略。
如果你希望有一天能夠處理現(xiàn)實(shí)世界的復(fù)雜性和不確定性,你就必須開(kāi)始問(wèn)一些問(wèn)題,比如什么是泛化?如何衡量和最大化學(xué)習(xí)系統(tǒng)的泛化能力?這與向一個(gè)大的神經(jīng)網(wǎng)絡(luò)投入 10 倍的數(shù)據(jù)并進(jìn)行計(jì)算完全是正交的,這樣它的技能就能提高一點(diǎn)點(diǎn)。
問(wèn):那么,對(duì)于這個(gè)領(lǐng)域來(lái)說(shuō),什么是更好的測(cè)量「智慧」的標(biāo)準(zhǔn)呢?
Chollet:簡(jiǎn)而言之,我們需要停止評(píng)估針對(duì)事先已知的任務(wù)的技能(比如象棋、Dota 或 StarCraft),而是開(kāi)始評(píng)估「技能獲得能力」。這是指只使用系統(tǒng)事先不知道的新任務(wù),來(lái)測(cè)量系統(tǒng)開(kāi)始執(zhí)行任務(wù)的先驗(yàn)知識(shí)并測(cè)量系統(tǒng)的樣本效率(即完成任務(wù)所需的數(shù)據(jù)量)。系統(tǒng)需要的信息(先前的知識(shí)和經(jīng)驗(yàn))越少,它就越聰明,而今天的人工智能系統(tǒng)真的一點(diǎn)也不聰明。
此外,我認(rèn)為我們對(duì)「智慧」的衡量應(yīng)該使「似人性」更加明確,因?yàn)榭赡艽嬖诓煌?lèi)型的「智慧」,而我們實(shí)際上就是在隱含地談?wù)擃?lèi)人的「智慧」,這包括試圖理解人類(lèi)與生俱來(lái)的先驗(yàn)知識(shí)。人類(lèi)的學(xué)習(xí)是極其高效的,他們只需要很少的經(jīng)驗(yàn)就可以獲得新技能,但他們并不是從頭開(kāi)始學(xué)習(xí):除了一生積累的技能和知識(shí)外,他們還利用與生俱來(lái)的先驗(yàn)知識(shí)來(lái)學(xué)習(xí)。
我最近的論文提出了一個(gè)新的基準(zhǔn)數(shù)據(jù)集 ARC(「Abstraction and Reasoning Corpus」,意為「抽象和推理語(yǔ)料庫(kù)」),它看起來(lái)很像智商測(cè)試。ARC 是一組推理任務(wù),其中每個(gè)任務(wù)都通過(guò)一小段演示(通常是三個(gè)演示)進(jìn)行解釋?zhuān)銘?yīng)該從這幾個(gè)演示中學(xué)習(xí)如何完成任務(wù)。ARC 采取的立場(chǎng)是,你的系統(tǒng)所評(píng)估的每一項(xiàng)任務(wù)都應(yīng)該是全新的,而且應(yīng)該只涉及符合人類(lèi)先天知識(shí)的知識(shí)。例如,它不能以語(yǔ)言作為特征。目前,ARC 完全可以在沒(méi)有任何口頭解釋或先前訓(xùn)練的前提下由人類(lèi)完成,但它完全不能被任何我們已經(jīng)嘗試過(guò)的人工智能技術(shù)所解決。這是一個(gè)巨大且明顯的信號(hào),表明了有一些事情正在發(fā)生,也表明我們需要新的想法。
Chollet 為他的新 ARC 基準(zhǔn)數(shù)據(jù)集提出的「智慧」測(cè)試的一個(gè)例子。圖片來(lái)自 François Chollet
問(wèn):您認(rèn)為只通過(guò)在這些問(wèn)題上投入更多的計(jì)算能力,人工智能世界能夠繼續(xù)進(jìn)步嗎?有人認(rèn)為,從發(fā)展歷史上看,這是提高績(jī)效的最成功的方法,而其他人則認(rèn)為,如果我們沿著這條路走下去,我們很快就會(huì)看到收益遞減。
Chollet:如果你在做一個(gè)特定的任務(wù),這種觀點(diǎn)是絕對(duì)正確的:在垂直任務(wù)上投入更多的訓(xùn)練數(shù)據(jù)和計(jì)算能力將提高針對(duì)該任務(wù)的能力。然而在幫助你理解如何實(shí)現(xiàn)人工智能的通用性方面,它會(huì)讓你一無(wú)所獲。
如果你有一個(gè)足夠大的深度學(xué)習(xí)模型,并且針對(duì)一個(gè)特定任務(wù)在跨輸入輸出空間的密集采樣上訓(xùn)練它,那么它將學(xué)習(xí)解決這個(gè)任務(wù),不管是什么——不論是 Dota 還是 StarCraft,凡是你能想到的。這是非常有價(jià)值的,并且在機(jī)器感知問(wèn)題中有著幾乎無(wú)限的應(yīng)用。這里唯一的問(wèn)題是,你需要的數(shù)據(jù)量是一個(gè)任務(wù)復(fù)雜度的組合函數(shù),所以即使是稍微復(fù)雜的任務(wù),計(jì)算也會(huì)變得非常昂貴。
以自動(dòng)駕駛汽車(chē)為例。數(shù)以百萬(wàn)計(jì)的訓(xùn)練環(huán)境也不足以讓一個(gè)端到端的深度學(xué)習(xí)模型學(xué)會(huì)安全駕駛汽車(chē)。首先,這就是L5 自動(dòng)駕駛還沒(méi)有完全實(shí)現(xiàn)的原因。其次,最先進(jìn)的自動(dòng)駕駛系統(tǒng)主要是符號(hào)模型,它們使用深度學(xué)習(xí)將這些人工設(shè)計(jì)的模型與傳感器數(shù)據(jù)連接起來(lái)。所以如果深度學(xué)習(xí)可以泛化的話(huà),我們?cè)?2016 年就應(yīng)該擁有了 L5 自動(dòng)駕駛,并且它采用一種大型神經(jīng)網(wǎng)絡(luò)的形式。
自動(dòng)駕駛汽車(chē)的發(fā)展比許多人預(yù)測(cè)的要慢得多。圖片來(lái)自Vjeran Pavic / The Verge
問(wèn):最后,考慮到您所說(shuō)的當(dāng)前人工智能系統(tǒng)的限制,似乎有必要問(wèn)一下對(duì)于「一個(gè)非常強(qiáng)大的 AI 在未來(lái)將會(huì)給人類(lèi)帶來(lái)毀滅性的傷害」的「超級(jí)智能恐懼論」,您認(rèn)為這種擔(dān)憂(yōu)合理嗎?
Chollet:不,我認(rèn)為關(guān)于超級(jí)智能的論述是沒(méi)有根據(jù)的。我們從未創(chuàng)造過(guò)一個(gè)自主的智能系統(tǒng),也絕對(duì)沒(méi)有跡象表明我們能夠在不遠(yuǎn)的將來(lái)創(chuàng)造一個(gè)。(這也并不是當(dāng)前人工智能的發(fā)展方向。)而且如果我們真的在遙遠(yuǎn)的未來(lái)創(chuàng)造了一個(gè)這樣的系統(tǒng),我們也完全沒(méi)有辦法推測(cè)它會(huì)具備什么特征。用一個(gè)比喻來(lái)說(shuō),這有點(diǎn)像在 1600 年問(wèn):「彈道學(xué)進(jìn)展很快!所以,如果我們有一門(mén)可以摧毀整個(gè)城市的大炮會(huì)怎么樣呢,我們?nèi)绾未_保它只會(huì)殺掉壞人?」這是一個(gè)相當(dāng)畸形的問(wèn)題,在對(duì)我們所討論的系統(tǒng)尚缺乏任何知識(shí)的情況下進(jìn)行辯論,這個(gè)問(wèn)題充其量只是一個(gè)哲學(xué)爭(zhēng)論。
這種「超級(jí)智能恐懼論」有一個(gè)很大的問(wèn)題是它們掩蓋了今天人工智能有可能變得相當(dāng)危險(xiǎn)這一事實(shí)。并非AI 系統(tǒng)實(shí)現(xiàn)了超級(jí)智能才能證實(shí) AI 應(yīng)用潛藏著危險(xiǎn)。我此前寫(xiě)過(guò)關(guān)于使用人工智能來(lái)實(shí)現(xiàn)算法宣傳系統(tǒng)的文章,也有其他人寫(xiě)過(guò)算法偏見(jiàn)、在武器系統(tǒng)中使用人工智能,或者把人工智能當(dāng)作極權(quán)主義的控制工具的文章。
有一個(gè)關(guān)于 1453 年君士坦丁堡被圍困的故事,講的是當(dāng)這座城市與奧斯曼軍隊(duì)作戰(zhàn)時(shí),它的學(xué)者和統(tǒng)治者卻在爭(zhēng)論天使的性別。這個(gè)故事告訴我們,我們投入越多的精力和注意力討論天使的性別,或者假設(shè)超級(jí)人工智能的價(jià)值取向時(shí),我們處理人工智能技術(shù)當(dāng)下存在的現(xiàn)實(shí)而緊迫的問(wèn)題的精力和注意力就越少。現(xiàn)在,有一個(gè)出名的技術(shù)領(lǐng)導(dǎo)者喜歡把超級(jí)人工智能描繪成對(duì)人類(lèi)生存的威脅。好吧,雖然這些想法能夠極大地吸引媒體的注意,但卻并沒(méi)有討論在我們的道路上那些部署不夠準(zhǔn)確的、會(huì)導(dǎo)致交通事故和生命損失的自動(dòng)駕駛系統(tǒng)所引發(fā)的道德問(wèn)題。
問(wèn):如果一個(gè)人接受這些評(píng)論,即目前這些恐懼還沒(méi)有技術(shù)基礎(chǔ)作為支撐,那么您認(rèn)為為什么超級(jí)智能的論述如此受歡迎呢?
Chollet:最后我只能說(shuō),這是一個(gè)好故事,而人們往往會(huì)被好故事所吸引。它與末世宗教的故事相似并不是巧合,因?yàn)樽诮坦适聲?huì)隨著時(shí)間的推移而不斷演變并且會(huì)經(jīng)過(guò)人們一再挑選,以與人們產(chǎn)生強(qiáng)烈的共鳴并有效傳播。出于同樣的原因,你也可以在科幻電影和小說(shuō)中找到這種論述。這種論述被用在小說(shuō)里,與它跟宗教故事相似以及作為一種理解人工智能發(fā)展方向的方式而流行起來(lái)的原因都是一樣的:它是一個(gè)好故事,而人們需要故事來(lái)理解這個(gè)世界。人們對(duì)這些故事的需求,遠(yuǎn)遠(yuǎn)超過(guò)對(duì)理解「智慧」的本質(zhì)或理解推動(dòng)技術(shù)進(jìn)步的因素的需求。
via
https://www.theverge.com/2019/12/19/21029605/artificial-intelligence-ai-progress-measurement-benchmarks-interview-francois-chollet-google