剛剛,全球數(shù)據(jù)科學(xué)領(lǐng)域頂級會(huì)議KDD 2022大獎(jiǎng)公布,阿里巴巴達(dá)摩院團(tuán)隊(duì)斬獲應(yīng)用科學(xué)方向“最佳論文獎(jiǎng)”,這是中國企業(yè)首次獲得該重磅獎(jiǎng)項(xiàng)。
阿里巴巴達(dá)摩院獲獎(jiǎng)?wù)撐摹禙ederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》聚焦聯(lián)邦學(xué)習(xí)中應(yīng)用廣泛且技術(shù)復(fù)雜的聯(lián)邦圖學(xué)習(xí)方向,針對現(xiàn)有框架及算法庫對圖數(shù)據(jù)支持有限的情況,提出了包含豐富數(shù)據(jù)集及創(chuàng)新算法的易用平臺(tái),為該領(lǐng)域后續(xù)研究奠定堅(jiān)實(shí)基礎(chǔ)。
KDD評價(jià),該工作推動(dòng)了圖聯(lián)邦學(xué)習(xí)的發(fā)展,并樹立了優(yōu)秀平臺(tái)工作的榜樣。
01:需求廣泛但技術(shù)復(fù)雜的“聯(lián)邦圖學(xué)習(xí)”
圖(graph)是一種用于描述對象間關(guān)系的數(shù)據(jù)類型,它由節(jié)點(diǎn)(node)和邊(edge)兩部分組成,在表示復(fù)雜關(guān)系方面具有很大優(yōu)勢。
近年來,基于圖結(jié)構(gòu)的深度學(xué)習(xí)方法——圖神經(jīng)網(wǎng)絡(luò)(graph neural networks),得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注并取得了顯著的成功。
而聯(lián)邦學(xué)習(xí)是隱私保護(hù)計(jì)算主流技術(shù)之一,它實(shí)現(xiàn)了“數(shù)據(jù)不動(dòng)模型動(dòng)”,能讓用戶在數(shù)據(jù)不出本地的基礎(chǔ)上,通過交換模型參數(shù)或中間結(jié)果的方式,在云端聯(lián)合訓(xùn)練,讓多方用戶都能完成模型訓(xùn)練。
聯(lián)邦圖學(xué)習(xí)是聯(lián)邦學(xué)習(xí)領(lǐng)域最前沿的方向之一,研究在保護(hù)各方圖數(shù)據(jù)隱私的前提下,共同進(jìn)行復(fù)雜的圖神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,相關(guān)技術(shù)在科學(xué)探索、知識(shí)表示、互聯(lián)網(wǎng)、金融等科研及工業(yè)領(lǐng)域有廣闊需求:
研究機(jī)構(gòu)可以融合各自擁有的知識(shí)圖譜來更準(zhǔn)確地補(bǔ)全缺失的知識(shí);
銀行可以在賬戶信息相互不公開的基礎(chǔ)上,依靠轉(zhuǎn)賬的點(diǎn)邊關(guān)系共同訓(xùn)練反洗錢模型。
不同的藥企基于各自擁有的分子標(biāo)注聯(lián)合訓(xùn)練用于新藥發(fā)現(xiàn)的圖神經(jīng)網(wǎng)絡(luò);
藥企聯(lián)合訓(xùn)練新藥分子式預(yù)測模型
但現(xiàn)有聯(lián)邦學(xué)習(xí)框架和庫對圖數(shù)據(jù)的支持相對有限,提供的現(xiàn)成圖數(shù)據(jù)集、圖神經(jīng)網(wǎng)絡(luò)架構(gòu)、專門針對圖學(xué)習(xí)設(shè)計(jì)的聯(lián)邦學(xué)習(xí)算法等也還不夠全面,難以基于已有工作建立聯(lián)邦圖學(xué)習(xí)的基準(zhǔn)。
02:FederatedScope-GNN:為聯(lián)邦圖學(xué)習(xí)建立豐富基準(zhǔn)
關(guān)注到外界對聯(lián)邦圖學(xué)習(xí)的需求后,阿里巴巴達(dá)摩院智能計(jì)算實(shí)驗(yàn)室提出并基于聯(lián)邦學(xué)習(xí)框架FederatedScope實(shí)現(xiàn)了針對圖學(xué)習(xí)的庫FederatedScope-GNN,并以此工作形成了本次獲獎(jiǎng)?wù)撐摹?/span>
首先,F(xiàn)ederatedScope-GNN針對圖學(xué)習(xí)提供了DataZoo和ModelZoo,分別為用戶提供了豐富多樣的聯(lián)邦圖數(shù)據(jù)集和相應(yīng)模型與算法。
DataZoo:既包含若干新引入的數(shù)據(jù)集,也實(shí)現(xiàn)了大量不同類型的splitters,用于通過單機(jī)圖數(shù)據(jù)集來構(gòu)造聯(lián)邦圖數(shù)據(jù)集。DataZoo提供的數(shù)據(jù)集涵蓋了不同領(lǐng)域、不同任務(wù)類型、不同統(tǒng)計(jì)異質(zhì)性的聯(lián)邦圖數(shù)據(jù),方便了使用者對所關(guān)注算法進(jìn)行全面評估。
ModelZoo:提供了豐富的圖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),既包含傳統(tǒng)的GCN, GIN, GAT, GraphSage等架構(gòu),也提供了最新的GPRGNN等拆分了特征變換與消息傳播的架構(gòu)。
同時(shí),ModelZoo中也包含了像FedSage+和GCFL+這樣最新的聯(lián)邦圖學(xué)習(xí)算法的實(shí)現(xiàn)。其中,得益于底層框架事件驅(qū)動(dòng)(event-driven)的編程范式,參與者間多樣的消息交換和豐富的行為得以模塊化地進(jìn)行拆分實(shí)現(xiàn)。ModelZoo給研究人員復(fù)現(xiàn)相關(guān)工作以及建立新的基準(zhǔn)帶來了更多便利。
基于事件驅(qū)動(dòng)的底層框架來實(shí)現(xiàn)聯(lián)邦圖學(xué)習(xí)算法FedSage+
其次,針對聯(lián)邦圖學(xué)習(xí)對超參數(shù)敏感的現(xiàn)象,F(xiàn)ederatedScope-GNN還實(shí)現(xiàn)了模型調(diào)優(yōu)相關(guān)的模塊,包括多保真度的Successive Halving Algorithm和新近提出的聯(lián)邦超參優(yōu)化算法FedEx,以及針對聯(lián)邦異質(zhì)任務(wù)的個(gè)性化。
一個(gè)個(gè)性化圖神經(jīng)網(wǎng)絡(luò)示例,其中各參與方僅共享模型的一部分參數(shù)
最后,考慮到FedSage+這類聯(lián)邦圖學(xué)習(xí)算法交換節(jié)點(diǎn)嵌入式表示等信息的特點(diǎn),F(xiàn)ederatedScope-GNN提供了豐富的隱私評估算法對算法在隱私保護(hù)方面的能力進(jìn)行檢驗(yàn)。
基于上述功能和特性,該獲獎(jiǎng)?wù)撐慕⒘巳尕S富的聯(lián)邦圖學(xué)習(xí)基準(zhǔn),包含不同圖上任務(wù)、不同圖神經(jīng)網(wǎng)絡(luò)架構(gòu)、不同的聯(lián)邦優(yōu)化算法等,為該領(lǐng)域后續(xù)的研究奠定了堅(jiān)實(shí)基礎(chǔ)。
KDD(ACM SIGKDD)是數(shù)據(jù)挖掘領(lǐng)域歷史最悠久、規(guī)模最大的國際頂級學(xué)術(shù)會(huì)議,也是全球錄取率最低的計(jì)算機(jī)頂會(huì)之一,在知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘、人工智能等領(lǐng)域具有重大影響力。
KDD會(huì)議分為研究和應(yīng)用科學(xué)兩個(gè)方向,本年度共收到2448篇投稿,僅接受449篇。阿里巴巴今年共有34篇論文入選,是全球入選論文數(shù)量最多的企業(yè)之一,并獲得了大會(huì)應(yīng)用科學(xué)方向唯一的“最佳論文獎(jiǎng)”。
歷年榮摘該桂冠的包括來自谷歌、亞馬遜、卡內(nèi)基梅隆大學(xué)等海外知名機(jī)構(gòu)的研究團(tuán)隊(duì),國內(nèi)企業(yè)此前從未獲得該獎(jiǎng)。