金榕
(阿里巴巴達(dá)摩院副院長、原密歇根州立大學(xué)終身教授)
“ 如果從達(dá)特茅斯會議起算,AI已經(jīng)走過65年歷程,尤其是近些年深度學(xué)習(xí)興起后,AI迎來了空前未有的繁榮。但實際上AI目前還處于初級階段,還未能從技術(shù)上升為科學(xué)。
在AI的探索道路上,我認(rèn)為有三個方向值得重點(diǎn)探索和突破:深度學(xué)習(xí)的根本理解、自監(jiān)督學(xué)習(xí)和小樣本學(xué)習(xí)、知識與數(shù)據(jù)的有機(jī)融合。
從90年代到美國卡耐基梅隆大學(xué)讀博開始,我有幸成為一名AI研究者,見證了這個領(lǐng)域的一些起伏。通過這篇文章,我將試圖通過個人視角回顧AI的發(fā)展,審視我們當(dāng)下所處的歷史階段,以及探索AI的未來究竟在哪里。”
01AI的歷史階段:手工作坊
雖然有人把當(dāng)下歸為第三波甚至是第四波AI浪潮,樂觀地認(rèn)為AI時代已經(jīng)到來,但我的看法要謹(jǐn)慎一些:AI無疑具有巨大潛力,但就目前我們的能力,AI尚處于比較初級的階段,是技術(shù)而非科學(xué)。
這是全球AI共同面臨的難題。
這幾年深度學(xué)習(xí)的快速發(fā)展,極大改變了AI行業(yè)的面貌,讓AI成為公眾日常使用的技術(shù),甚至還出現(xiàn)了一些令公眾驚奇的AI應(yīng)用案例,讓人誤以為科幻電影即將變成現(xiàn)實。但實際上,技術(shù)發(fā)展需要長期積累,目前只是AI的初級階段,AI時代才剛開始。
如果將AI時代和電氣時代類比,今天我們的AI技術(shù)還是法拉第時代的電。法拉第通過發(fā)現(xiàn)電磁感應(yīng)現(xiàn)象,從而研制出人類第一臺交流電發(fā)電機(jī)原型,不可謂不偉大。
法拉第這批先行者,實踐經(jīng)驗豐富,通過大量觀察和反復(fù)實驗,手工做出了各種新產(chǎn)品,但他們只是拉開了電氣時代的序幕。電氣時代的真正大發(fā)展,很大程度上受益于電磁場理論的提出。麥克斯維爾把實踐的經(jīng)驗變成科學(xué)的理論,提出和證明了具有跨時代意義的麥克斯維爾方程。
如果人們對電磁的理解停留在法拉第的層次,電氣革命是不可能發(fā)生的。試想一下,如果刮風(fēng)下雨打雷甚至連溫度變化都會導(dǎo)致斷電,電怎么可能變成一個普惠性的產(chǎn)品,怎么可能變成社會基礎(chǔ)設(shè)施?又怎么可能出現(xiàn)各種各樣的電氣產(chǎn)品、電子產(chǎn)品、通訊產(chǎn)品,徹底改變我們的生活方式?
這也是AI目前面臨的問題,局限于特定的場景、特定的數(shù)據(jù)。
AI模型一旦走出實驗室,受到現(xiàn)實世界的干擾和挑戰(zhàn)就時常失效,魯棒性不夠;一旦換一個場景,我們就需要重新深度定制算法進(jìn)行適配,費(fèi)時費(fèi)力,難以規(guī)?;茝V,泛化能力較為有限。
這是因為今天的AI很大程度上是基于經(jīng)驗。AI工程師就像當(dāng)年的法拉第,能夠做出一些AI產(chǎn)品,但都是知其然,不知其所以然,還未能掌握其中的核心原理。 那為何AI迄今未能成為一門科學(xué)? 答案是,技術(shù)發(fā)展之緩慢遠(yuǎn)超我們的想象。
回顧90年代至今這二十多年來,我們看到的更多是AI應(yīng)用工程上的快速進(jìn)步,核心技術(shù)和核心問題的突破相對有限。一些技術(shù)看起來是這幾年興起的,實際上早已存在。
以自動駕駛為例,美國卡耐基梅隆大學(xué)的研究人員進(jìn)行的Alvinn項目,在80年代末已經(jīng)開始用神經(jīng)網(wǎng)絡(luò)來實現(xiàn)自動駕駛,1995年成功自東向西穿越美國,歷時7天,行駛近3000英里。
在下棋方面,1992年IBM研究人員開發(fā)的TD-Gammon,和AlphaZero相似,能夠自我學(xué)習(xí)和強(qiáng)化,達(dá)到了雙陸棋領(lǐng)域的大師水平。
1995年穿越美國項目開始之前的團(tuán)隊合照
不過,由于數(shù)據(jù)和算力的限制,這些研究只是點(diǎn)狀發(fā)生,沒有形成規(guī)模,自然也沒有引起大眾的廣泛討論。今天由于商業(yè)的普及、算力的增強(qiáng)、數(shù)據(jù)的方便獲取、應(yīng)用門檻的降低,AI開始觸手可及。
但核心思想并沒有根本性的變化。我們都是試圖用有限樣本來實現(xiàn)函數(shù)近似從而描述這個世界,有一個input,再有一個output,我們把AI的學(xué)習(xí)過程想象成一個函數(shù)的近似過程,包括我們的整個算法及訓(xùn)練過程,如梯度下降、梯度回傳等。
同樣的,核心問題也沒有得到有效解決。90年代學(xué)界就在問的核心問題,迄今都未得到回答,他們都和神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)密切相關(guān)。
比如非凸函數(shù)的優(yōu)化問題,它得到的解很可能是局部最優(yōu)解,并非全局最優(yōu),訓(xùn)練時可能都無法收斂,有限數(shù)據(jù)還會帶來泛化不足的問題。我們會不會被這個解帶偏了,忽視了更多的可能性?
02深度學(xué)習(xí):大繁榮后遭遇發(fā)展瓶頸
毋庸諱言,以深度學(xué)習(xí)為代表的AI研究這幾年取得了諸多令人贊嘆的進(jìn)步,比如在復(fù)雜網(wǎng)絡(luò)的訓(xùn)練方面,產(chǎn)生了兩個特別成功的網(wǎng)絡(luò)結(jié)構(gòu),CNN和transformer。
基于深度學(xué)習(xí),AI研究者在語音、語義、視覺等各個領(lǐng)域都實現(xiàn)了快速的發(fā)展,解決了諸多現(xiàn)實難題,實現(xiàn)了巨大的社會價值。
但回過頭來看深度學(xué)習(xí)的發(fā)展,不得不感慨AI從業(yè)者非常幸運(yùn)。
首先是隨機(jī)梯度下降(SGD),極大推動了深度學(xué)習(xí)的發(fā)展。隨機(jī)梯度下降其實是一個很簡單的方法,具有較大局限性,在優(yōu)化里面屬于收斂較慢的方法,但它偏偏在深度網(wǎng)絡(luò)中表現(xiàn)很好,而且還是出奇的好。
為什么會這么好?迄今研究者都沒有完美的答案。
類似這樣難以理解的好運(yùn)氣還包括殘差網(wǎng)絡(luò)、知識蒸餾、BatchNormalization、Warmup、LabelSmoothing、GradientClip、LayerScaling……尤其是有些還具有超強(qiáng)的泛化能力,能用在多個場景中。
再者,在機(jī)器學(xué)習(xí)里,研究者一直在警惕過擬合(overfitting)的問題。當(dāng)參數(shù)特別多時,一條曲線能夠把所有的點(diǎn)都擬合得特別好,它大概率存在問題,但在深度學(xué)習(xí)里面這似乎不再成為一個問題……雖然有很多研究者對此進(jìn)行了探討,但目前還有沒有明確答案。
更加令人驚訝的是,我們即使給數(shù)據(jù)一個隨機(jī)的標(biāo)簽,它也可以完美擬合(請見下圖紅色曲線),最后得出擬合誤差為0。如果按照標(biāo)準(zhǔn)理論來說,這意味著這個模型沒有任何偏差(bias),能幫我們解釋任何結(jié)果。請想想看,任何東西都能解釋的模型,真的可靠嗎,包治百病的良藥可信嗎?
Understandingdeep learningrequiresrethinkinggeneralization.ICLR,2017.
說到這里,讓我們整體回顧下機(jī)器學(xué)習(xí)的發(fā)展歷程,才能更好理解當(dāng)下的深度學(xué)習(xí)。
機(jī)器學(xué)習(xí)有幾波發(fā)展浪潮,在上世紀(jì)80年代到90年代,首先是基于規(guī)則(rulebased)。從90年代到2000年代,以神經(jīng)網(wǎng)絡(luò)為主,大家發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)可以做一些不錯的事情,但是它有許多基礎(chǔ)的問題沒回答。
所以2000年代以后,有一批人嘗試去解決這些基礎(chǔ)問題,最有名的叫SVM(supportvectormachine),一批數(shù)學(xué)背景出身的研究者集中去理解機(jī)器學(xué)習(xí)的過程,學(xué)習(xí)最基礎(chǔ)的數(shù)學(xué)問題,如何更好實現(xiàn)函數(shù)的近似,如何保證快速收斂,如何保證它的泛化性?
那時候,研究者非常強(qiáng)調(diào)理解,好的結(jié)果應(yīng)該是來自于我們對它的深刻理解。研究者會非常在乎有沒有好的理論基礎(chǔ),因為要對算法做好的分析,需要先對泛函分析、優(yōu)化理論有深刻的理解,接著還要再做泛化理論……大概這幾項都得非常好了,才可能在機(jī)器學(xué)習(xí)領(lǐng)域有發(fā)言權(quán),否則連文章都看不懂。
如果研究者自己要做一個大規(guī)模實驗系統(tǒng),特別是分布式的,還需要有工程的豐富經(jīng)驗,否則根本做不了,那時候沒有太多現(xiàn)成的東西,更多只是理論,多數(shù)工程實現(xiàn)需要靠自己去跑。
但是深度學(xué)習(xí)時代,有人做出了非常好的框架,便利了所有的研究者,降低了門檻,這真是非常了不起的事情,促進(jìn)了行業(yè)的快速發(fā)展。
今天去做深度學(xué)習(xí),有個好想法就可以干,只要寫上幾十行、甚至十幾行代碼就可以跑起來。成千上萬人在實驗各種各樣的新項目,驗證各種各樣新想法,經(jīng)常會冒出來非常讓人驚喜的結(jié)果。
但我們可能需要意識到,時至今日,深度學(xué)習(xí)已遇到了很大的瓶頸。那些曾經(jīng)幫助深度學(xué)習(xí)成功的好運(yùn)氣,那些無法理解的黑盒效應(yīng),今天已成為它進(jìn)一步發(fā)展的桎梏。
03 下一代AI的三個可能方向
AI的未來究竟在哪里?下一代AI將是什么?目前很難給出明確答案,但我認(rèn)為,至少有三個方向值得重點(diǎn)探索和突破。
第一個方向是尋求對深度學(xué)習(xí)的根本理解,破除目前的黑盒狀態(tài),只有這樣AI才有可能成為一門科學(xué)。具體來說,應(yīng)該包括對以下關(guān)鍵問題的突破:
對基于DNN函數(shù)空間的更全面刻畫;
對SGD(或更廣義的一階優(yōu)化算法)的理解;
重新考慮泛化理論的基礎(chǔ)。
第二個方向是知識和數(shù)據(jù)的有機(jī)融合。
人類在做大量決定時,不僅使用數(shù)據(jù),而且大量使用知識。如果我們的AI能夠把知識結(jié)構(gòu)有機(jī)融入,成為重要組成部分,AI勢必有突破性的發(fā)展。
研究者已經(jīng)在做知識圖譜等工作,但需要進(jìn)一步解決知識和數(shù)據(jù)的有機(jī)結(jié)合,探索出可用的框架。之前曾有些創(chuàng)新性的嘗試,比如MarkovLogic,就是把邏輯和基礎(chǔ)理論結(jié)合起來,形成了一些有趣的結(jié)構(gòu)。
第三個重要方向是自監(jiān)督學(xué)習(xí)和小樣本學(xué)習(xí)。
我雖然列將這個列在第三,但卻是目前值得重點(diǎn)推進(jìn)的方向,它可以彌補(bǔ)AI和人類智能之間的差距。 今天我們經(jīng)常聽說AI在一些能力上可以超越人類,比如語音識別、圖像識別。最近達(dá)摩院AliceMind在視覺問答上的得分也首次超過人類,但這并不意味著AI比人類更智能。
谷歌2019年有篇論文ontheMeasureofintelligence非常有洞察力,核心觀點(diǎn)是說,真正的智能不僅要具有高超的技能,更重要的是能否快速學(xué)習(xí)、快速適應(yīng)或者快速通用?
按照這個觀點(diǎn),目前AI是遠(yuǎn)不如人類的,雖然它可能在一些方面的精度超越人類,但可用范圍非常有限。這里的根本原因在于:人類只需要很小的學(xué)習(xí)樣本就能快速達(dá)到結(jié)果,聰明的人更是如此——這也是我認(rèn)為目前AI和人類的主要區(qū)別之一。
有一個很簡單的事實證明AI不如人類智能,以翻譯為例,現(xiàn)在好的翻譯模型至少要億級的數(shù)據(jù)。如果一本書大概是十幾萬字,AI大概要讀上萬本書。我們很難想象一個人為了學(xué)習(xí)一門語言需要讀上萬本書。
另外有意思的對比是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和人腦。目前AI非常強(qiáng)調(diào)深度,神經(jīng)網(wǎng)絡(luò)經(jīng)常幾十層甚至上百層,但我們看人類,以視覺為例,視覺神經(jīng)網(wǎng)絡(luò)總共就四層,非常高效。而且人腦還非常低功耗,只有20瓦左右,但今天GPU基本都是數(shù)百瓦,差了一個數(shù)量級。
著名的GPT-3跑一次,碳排放相當(dāng)于一架747飛機(jī)從美國東海岸到西海岸往返三次。再看信息編碼,人腦是以時間序列來編,AI是用張量和向量來表達(dá)。
也許有人說,AI發(fā)展不必一定向人腦智能的方向發(fā)展。
我也認(rèn)為這個觀點(diǎn)不無道理,但在AI遇到瓶頸,也找不到其他參照物時,參考人腦智能可能會給我們一些啟發(fā)。
比如,拿人腦智能來做對比,今天的深度神經(jīng)網(wǎng)絡(luò)是不是最合理的方向?今天的編碼方式是不是最合理的?這些都是我們今天AI的基礎(chǔ),但它們是好的基礎(chǔ)嗎?
應(yīng)該說,以GPT-3為代表的大模型,可能也是深度學(xué)習(xí)的一個突破方向,能夠在一定程度上實現(xiàn)自學(xué)習(xí)。
大模型有些像之前惡補(bǔ)了所有能看到的東西,碰到一個新場景,就不需要太多新數(shù)據(jù)。但這是一個最好的解決辦法嗎?我們目前還不知道。還是以翻譯為例,很難想象一個人需要裝這么多東西才能掌握一門外語。大模型現(xiàn)在都是百億、千億參數(shù)規(guī)模起步,沒有一個人類會帶著這么多數(shù)據(jù)。
所以,也許我們還需要繼續(xù)探索。
04AI的機(jī)會:AIforScience
說到這里,也許有些人會失望。既然我們AI還未解決上面的三個難題,AI還未成為科學(xué),那AI還有什么價值?
技術(shù)本身就擁有巨大價值,像互聯(lián)網(wǎng)就徹底重塑了我們的工作和生活。AI作為一門技術(shù),當(dāng)下一個巨大的機(jī)會就是幫助解決科學(xué)重點(diǎn)難題(AIforScience)。AlphaFold已經(jīng)給了我們一個很好的示范,AI解決了生物學(xué)里困擾半個世紀(jì)的蛋白質(zhì)折疊難題。
我們要學(xué)習(xí)AlphaFold,但沒必要崇拜。AlphaFold的示范意義在于,DeepMind在選題上真是非常厲害,他們選擇了一些今天已經(jīng)有足夠的基礎(chǔ)和數(shù)據(jù)積累、有可能突破的難題,然后建設(shè)一個當(dāng)下最好的團(tuán)隊,下決心去攻克。
我們有可能創(chuàng)造比AlphaFold更重要的成果,因為在自然科學(xué)領(lǐng)域,有著很多重要的openquestions。AI還有更大的機(jī)會,可以去發(fā)掘新材料、發(fā)現(xiàn)晶體結(jié)構(gòu),甚至去證明或發(fā)現(xiàn)定理……AI可顛覆傳統(tǒng)的研究方法,甚至改寫歷史。
比如現(xiàn)在一些物理學(xué)家正在思考,能否用AI重新發(fā)現(xiàn)物理定律?過去數(shù)百年來,物理學(xué)定律的發(fā)現(xiàn)都是依賴天才,愛因斯坦發(fā)現(xiàn)了廣義相對論和狹義相對論,海森堡、薛定諤等人開創(chuàng)了量子力學(xué),這些都是個人行為。
如果沒有這些天才,很多領(lǐng)域的發(fā)展會推遲幾十年甚至上百年。但今天,隨著數(shù)據(jù)越來越多,科學(xué)規(guī)律越來越復(fù)雜,我們是不是可以依靠AI來推導(dǎo)出物理定律,而不再依賴一兩個天才?
以量子力學(xué)為例,最核心的是薛定諤方程,它是由天才物理學(xué)家推導(dǎo)出來的。但現(xiàn)在,已有物理學(xué)家通過收集到的大量數(shù)據(jù),用AI自動推導(dǎo)出其中規(guī)律,甚至還發(fā)現(xiàn)了薛定諤方程的另外一個寫法。這真的是一件非常了不起、有可能改變物理學(xué)甚至人類未來的事情。
我們正在推進(jìn)的AIEARTH項目,是將AI引入氣象領(lǐng)域。天氣預(yù)報已有上百年歷史,是一個非常重大和復(fù)雜的科學(xué)問題,需要超級計算機(jī)才能完成復(fù)雜計算,不僅消耗大量資源而且還不是特別準(zhǔn)確。
我們今天是不是可以用AI來解決這個問題,讓天氣預(yù)報變得既高效又準(zhǔn)確?如果能成功,將是一件非常振奮人心的事情。當(dāng)然,這注定是一個非常艱難的過程,需要時間和決心。
05 AI從業(yè)者:多一點(diǎn)興趣,少一點(diǎn)功利
AI的當(dāng)下局面,是對我們所有AI研究者的考驗。
不管是AI的基礎(chǔ)理論突破,還是AI去解決科學(xué)問題,都不是一蹴而就的事情,需要研究者們既聰明又堅定。如果不聰明,不可能在不確定的未來抓住機(jī)會;如果不堅定,很可能就被嚇倒了。
但更關(guān)鍵的是興趣驅(qū)動,而不是利益驅(qū)動。既然AI還不是一門科學(xué),我們要去探索沒人做過的事情,很有可能失敗。這意味著我們必須有真正的興趣,靠興趣和好奇心去驅(qū)動自己前行,才能扛過無數(shù)的失敗。我們也許看到了DeepMind做成了AlphaGo和AlphaFold兩個項目,但可能還有更多失敗的、無人聽聞的項目。
在興趣驅(qū)動方面,國外研究人員值得我們學(xué)習(xí)。像一些獲得圖靈獎的頂級科學(xué)家,天天還在一線做研究,親自推導(dǎo)理論。還記得在CMU讀書的時候,當(dāng)時學(xué)校有多個圖靈獎得主,他們平常基本都穿梭在各種seminar(研討班)。
我認(rèn)識其中一個叫ManuelBlum,因為密碼學(xué)研究獲得圖靈獎,有一次我參加一個seminar,發(fā)現(xiàn)ManuelBlum沒有座位,就坐在教室的臺階上。他自己也不介意坐哪里,感興趣就來了,沒有座位就擠一擠。
我曾有幸遇到過諾貝爾經(jīng)濟(jì)學(xué)獎得主托馬斯·薩金特,作為經(jīng)濟(jì)學(xué)者,他早已功成名就,但他60歲開始學(xué)習(xí)廣義相對論,70歲開始學(xué)習(xí)深度學(xué)習(xí),76歲還和我們這些晚輩討論深度學(xué)習(xí)的進(jìn)展……也許這就是對研究的真正熱愛吧。
中國AI在工程方面擁有全球領(lǐng)先的實力,承認(rèn)AI還比較初級并非否定從業(yè)者的努力,而是提醒我們需要更堅定地長期努力,不必急于一時。電氣時代如果沒有法拉第這些先行者,沒有一個又一個的點(diǎn)狀發(fā)現(xiàn),不可能總結(jié)出理論,讓人類邁入電氣時代。
同樣,AI發(fā)展有賴于我們以重大創(chuàng)新為憧憬,一天天努力,不斷嘗試新想法,然后才會有一些小突破。當(dāng)一些聰明的腦袋,能夠?qū)⑦@些點(diǎn)狀的突破聯(lián)結(jié)起來,總結(jié)出來理論,AI才會產(chǎn)生重大突破,最終上升為一門科學(xué)。
我們已經(jīng)半只腳踏入AI時代的大門,這注定是一個比電氣時代更加輝煌、激動人心的時代,但這一切的前提,都有賴于所有研究者的堅定不移的努力。
編輯|宗華
/END/