(CWW)人工智能是引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù)。多項(xiàng)研究結(jié)果和數(shù)據(jù)表明,美國(guó)在人工智能基礎(chǔ)科研、技術(shù)創(chuàng)新、產(chǎn)業(yè)應(yīng)用等方面全球領(lǐng)先,人工智能高水平論文、頂尖學(xué)者數(shù)量、人工智能企業(yè)數(shù)量、投資規(guī)模等指標(biāo)均領(lǐng)先于其他國(guó)家。
(資料圖片)
美國(guó)政府高度重視人工智能技術(shù)創(chuàng)新和發(fā)展。根據(jù)2020年美國(guó)《國(guó)家人工智能倡議法案》(NationalAIInitiativeActof2020),國(guó)會(huì)要求國(guó)家科學(xué)基金會(huì)(NSF)與白宮科學(xué)和技術(shù)政策辦公室(OSTP)組建工作組,2023年1月研究制定美國(guó)國(guó)家人工智能研究資源(NAIRR)基礎(chǔ)設(shè)施建設(shè)路線圖,鞏固美國(guó)在人工智能領(lǐng)域的競(jìng)爭(zhēng)優(yōu)勢(shì),擴(kuò)大美國(guó)各方獲取人工智能關(guān)鍵資源和教育資源的機(jī)會(huì),進(jìn)一步帶動(dòng)美國(guó)人工智能創(chuàng)新和經(jīng)濟(jì)繁榮。
美國(guó)NAIRR建設(shè)的背景和意義
建設(shè)背景
美國(guó)政府認(rèn)為其在人工智能領(lǐng)域的領(lǐng)先優(yōu)勢(shì)正在受到挑戰(zhàn),競(jìng)爭(zhēng)優(yōu)勢(shì)有被削弱的風(fēng)險(xiǎn),主要存在以下兩方面問題。一是人工智能研發(fā)投資、教育資源分布不均衡。研究數(shù)據(jù)顯示,從投資看,2020至2021年美國(guó)來自私營(yíng)部門的人工智能投資金額增長(zhǎng)超過一倍,但新增人工智能企業(yè)數(shù)量卻在下降;從人才看,美國(guó)人工智能博士畢業(yè)生的人口種族分布、性別分布與人口實(shí)際比例差異較大,將對(duì)人工智能創(chuàng)新與發(fā)展產(chǎn)生限制。二是科研類機(jī)構(gòu)可用算力資源和數(shù)據(jù)資源不足。從算力看,當(dāng)前最先進(jìn)的算力平臺(tái)由行業(yè)領(lǐng)先私營(yíng)機(jī)構(gòu)所有,科研機(jī)構(gòu)缺乏支持人工智能研發(fā)的算力平臺(tái);從數(shù)據(jù)資源看,人工智能模型訓(xùn)練的主要數(shù)據(jù)資源由私營(yíng)機(jī)構(gòu)和大型互聯(lián)網(wǎng)平臺(tái)所有,盡管美國(guó)政府持續(xù)開放數(shù)據(jù),但對(duì)于人工智能研究而言仍顯不足。
工作組指出,缺少充足的人工智能研究資源將限制美國(guó)人工智能創(chuàng)新生態(tài),導(dǎo)致頂尖人才由學(xué)術(shù)研究機(jī)構(gòu)向少部分資源豐富的企業(yè)集中,此趨勢(shì)如長(zhǎng)期形成將影響美國(guó)的競(jìng)爭(zhēng)力與創(chuàng)新。2023年1月,經(jīng)過18個(gè)月公開征集意見和討論,工作組正式提出建設(shè)方案,擬申請(qǐng)26億美元建設(shè)及運(yùn)維資金,計(jì)劃分四期,在6年內(nèi)完成NAIRR建設(shè)工作,重點(diǎn)實(shí)現(xiàn)四大目標(biāo):匯聚資源促進(jìn)研究創(chuàng)新、增強(qiáng)人才多樣化、提升基礎(chǔ)資源能力、促進(jìn)可信人工智能發(fā)展。
重要意義
NAIRR作為人工智能研究基礎(chǔ)設(shè)施,面向美國(guó)研究院校、學(xué)生和非營(yíng)利組織等機(jī)構(gòu)開放,提供算力資源、高質(zhì)量數(shù)據(jù)、教育工具等基礎(chǔ)研究資源,平臺(tái)有望成為美國(guó)人工智能研究合作的關(guān)鍵樞紐,鞏固其國(guó)際競(jìng)爭(zhēng)優(yōu)勢(shì)。
在生態(tài)建設(shè)方面,美國(guó)政府將依托NAIRR聯(lián)合政府內(nèi)部相關(guān)部門和科研機(jī)構(gòu),共同開展人工智能領(lǐng)域的合作研究、資源建設(shè),形成廣泛的合作生態(tài)。NAIRR服務(wù)和功能如圖1所示。
在數(shù)據(jù)方面,NAIRR將匯聚聯(lián)邦政府部門數(shù)據(jù),并且與產(chǎn)業(yè)界各類機(jī)構(gòu)開展數(shù)據(jù)服務(wù)合作。一是促進(jìn)人工智能大規(guī)模數(shù)據(jù)資源的匯聚和開發(fā)利用,將匯聚、對(duì)接美國(guó)聯(lián)邦機(jī)構(gòu)、學(xué)術(shù)科研機(jī)構(gòu)和科技巨頭已開源開放的大規(guī)模數(shù)據(jù)資源,成為美最大的人工智能數(shù)據(jù)資源服務(wù)平臺(tái)。如美國(guó)國(guó)立衛(wèi)生研究院開放超過36PB基因測(cè)序數(shù)據(jù),美國(guó)海洋與大氣管理局開放超過10PB天氣與環(huán)境數(shù)據(jù)。二是促進(jìn)人工智能數(shù)據(jù)管理和治理能力提升。人工智能數(shù)據(jù)集具有高度碎片化特征,每一個(gè)數(shù)據(jù)集支撐對(duì)應(yīng)專門任務(wù)和研究領(lǐng)域,數(shù)據(jù)標(biāo)注、數(shù)據(jù)治理缺乏統(tǒng)一標(biāo)準(zhǔn),數(shù)據(jù)管理難度大。NAIRR將推動(dòng)建立數(shù)據(jù)匯聚統(tǒng)一標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)描述格式,促進(jìn)多方數(shù)據(jù)資源匯聚。三是推動(dòng)多方協(xié)作的數(shù)據(jù)資源開發(fā)利用。運(yùn)營(yíng)實(shí)體將運(yùn)營(yíng)人工智能數(shù)據(jù)集社區(qū),激勵(lì)社區(qū)主動(dòng)開發(fā)、建設(shè)有價(jià)值的數(shù)據(jù)資源,提供給NAIRR使用。運(yùn)營(yíng)實(shí)體還將提供數(shù)據(jù)搜索服務(wù),方便查詢聯(lián)邦機(jī)構(gòu)開放數(shù)據(jù)和第三方服務(wù)商的數(shù)據(jù)資源。
在算力方面,NAIRR將聯(lián)合美國(guó)主要人工智能計(jì)算云平臺(tái)企業(yè)共同建設(shè)算力平臺(tái),計(jì)劃對(duì)接谷歌、微軟、亞馬遜等科技巨頭云平臺(tái),以及美國(guó)自然科學(xué)基金、美國(guó)國(guó)立衛(wèi)生研究院等聯(lián)邦機(jī)構(gòu)的云平臺(tái)。平臺(tái)面向大學(xué)、研究機(jī)構(gòu)、學(xué)生、初創(chuàng)企業(yè)提供不同等級(jí)的服務(wù)模式和內(nèi)容,包含數(shù)據(jù)、算力、測(cè)試床、軟件工具等多種服務(wù)和資源。建成后NAIRR算力資源將包括至少支撐一萬億參數(shù)規(guī)模機(jī)器學(xué)習(xí)模型訓(xùn)練的超級(jí)計(jì)算機(jī),以及云計(jì)算資源、CPU、GPU和高速網(wǎng)絡(luò)。
NAIRR基礎(chǔ)設(shè)施建立并穩(wěn)定運(yùn)營(yíng)后,一方面將不斷拓展與政府部門和私營(yíng)機(jī)構(gòu)的合作關(guān)系,擴(kuò)展平臺(tái)服務(wù)范圍和用戶范圍,宣傳成功經(jīng)驗(yàn);另一方面,平臺(tái)推進(jìn)制定相關(guān)標(biāo)準(zhǔn)和規(guī)范,參加國(guó)際交流與合作,作為美國(guó)與其盟國(guó)、合作伙伴的基礎(chǔ)平臺(tái),促進(jìn)合作研究、數(shù)據(jù)共享。
美國(guó)NAIRR建設(shè)方案
美國(guó)計(jì)劃通過系統(tǒng)性方法調(diào)動(dòng)聯(lián)邦政府及私營(yíng)機(jī)構(gòu)共同協(xié)作,建立面向?qū)W術(shù)科研的人工智能研究資源基礎(chǔ)設(shè)施。
一是規(guī)劃構(gòu)建多方參與的平臺(tái)治理體系。NAIRR建議治理結(jié)構(gòu)如圖2所示。方案建議建立政府部門多方參與的治理體系,成立指導(dǎo)委員會(huì)、管理委員會(huì)、項(xiàng)目管理辦公室、運(yùn)營(yíng)實(shí)體、顧問委員會(huì)等系列責(zé)任機(jī)構(gòu),協(xié)同合作。設(shè)立指導(dǎo)委員會(huì),由聯(lián)邦政府各部門、機(jī)構(gòu)代表組建,是國(guó)家層面對(duì)NAIRR進(jìn)行總體規(guī)劃、制定戰(zhàn)略目標(biāo)的最高決策機(jī)構(gòu),代表各部門推動(dòng)國(guó)家在人工智能領(lǐng)域的資源投入。設(shè)立管理委員會(huì)負(fù)責(zé)對(duì)平臺(tái)運(yùn)營(yíng)實(shí)體進(jìn)行指導(dǎo)、管理,以及提供資金和相關(guān)資源。方案建議由NSF承擔(dān)管理委員會(huì)的職責(zé)。設(shè)立項(xiàng)目管理辦公室,配合指導(dǎo)委員會(huì)對(duì)運(yùn)營(yíng)實(shí)體進(jìn)行日常性管理與評(píng)估。美國(guó)國(guó)會(huì)為項(xiàng)目管理辦公室批復(fù)資金,支持相關(guān)項(xiàng)目管理、門戶開發(fā)和部署、聯(lián)合支持、培訓(xùn)和用戶支持等費(fèi)用。設(shè)立獨(dú)立于政府部門的運(yùn)營(yíng)實(shí)體機(jī)構(gòu),負(fù)責(zé)制定NAIRR具體發(fā)展目標(biāo)、組織平臺(tái)建設(shè)和日常運(yùn)營(yíng)管理,負(fù)責(zé)制定透明、公平且合理的資源分配制度,滿足各類人工智能研究機(jī)構(gòu)和用戶的使用需求。成立由多領(lǐng)域?qū)<医M成的科學(xué)委員會(huì)、技術(shù)委員會(huì)、倫理委員會(huì)、用戶委員會(huì),為NAIRR建設(shè)提供決策支撐。
二是為NAIRR基礎(chǔ)設(shè)施運(yùn)營(yíng)和建設(shè)提供專門資金。建設(shè)方案提出6年申請(qǐng)26億美元資金,其中22.5億美元用于向服務(wù)提供商采購(gòu)平臺(tái)算力、軟件工具和數(shù)據(jù)資源,運(yùn)營(yíng)機(jī)構(gòu)日常費(fèi)用為3.7億美元,此外3000萬美元用于基礎(chǔ)設(shè)施運(yùn)行情況評(píng)估。聯(lián)邦機(jī)構(gòu)中涉及人工智能研發(fā)的均應(yīng)參與到NAIRR的項(xiàng)目管理中。聯(lián)邦各部門在人工智能領(lǐng)域的研發(fā)投資仍可由各機(jī)構(gòu)獨(dú)自或合作采購(gòu)、開發(fā)相應(yīng)的資源,但應(yīng)納入管理,并通過NAIRR基礎(chǔ)設(shè)施提供。
三是NAIRR基礎(chǔ)設(shè)施分階段建設(shè),按需擴(kuò)充算力資源,推動(dòng)數(shù)據(jù)資源匯聚。平臺(tái)建設(shè)分為項(xiàng)目啟動(dòng)、建設(shè)、試運(yùn)行和持續(xù)運(yùn)行4個(gè)階段。試運(yùn)行階段將可支撐5萬用戶的規(guī)模,能夠匯聚使用現(xiàn)有聯(lián)邦機(jī)構(gòu)數(shù)據(jù)和私營(yíng)機(jī)構(gòu)數(shù)據(jù)。穩(wěn)定運(yùn)行后將支撐15萬用戶使用,建立更廣泛的數(shù)據(jù)資源合作社區(qū)。NAIRR將通過制定數(shù)據(jù)匯聚標(biāo)準(zhǔn)、數(shù)據(jù)合作開發(fā)、提供數(shù)據(jù)搜索服務(wù)等方式開發(fā)數(shù)據(jù)資源,方便數(shù)據(jù)利用。
新形勢(shì)下人工智能基礎(chǔ)研究資源建設(shè)重要性愈發(fā)凸顯
當(dāng)前,人工智能新技術(shù)、新應(yīng)用不斷涌現(xiàn),以大型語言模型ChatGPT為代表的新一代人工智能大模型的研究和訓(xùn)練,需要更大規(guī)模算力資源和數(shù)據(jù)資源的支撐,且單次研發(fā)投入大幅增長(zhǎng)。人工智能大模型訓(xùn)練的算力平臺(tái)門檻極高,普通機(jī)構(gòu)無法承擔(dān)巨額研發(fā)費(fèi)用和運(yùn)營(yíng)費(fèi)用。OpenAI研究指出,人工智能模型訓(xùn)練所需要的算力增速呈指數(shù)級(jí)增長(zhǎng),從2012年到2018年,訓(xùn)練AI模型所消耗的算力增長(zhǎng)了30萬倍。訓(xùn)練GPT3需要的算力達(dá)到3640pfsday(即1PetaFLOP/s效率運(yùn)行3640天),訓(xùn)練成本預(yù)計(jì)達(dá)140萬美元/次,有機(jī)構(gòu)估算ChatGPT初始投入成本約8億美元。
在人工智能數(shù)據(jù)集方面,伴隨預(yù)訓(xùn)練大模型的研究與發(fā)展,其訓(xùn)練所需的數(shù)據(jù)集規(guī)模進(jìn)一步大幅增長(zhǎng),數(shù)據(jù)規(guī)模從以前的百萬、千萬條,增長(zhǎng)到上億條。當(dāng)前大模型訓(xùn)練所應(yīng)用的數(shù)據(jù)集主要來自互聯(lián)網(wǎng),包括維基百科、社交網(wǎng)站、公開期刊、書籍、論文、代碼等方面的數(shù)據(jù)庫(kù)。有研究指出,“訓(xùn)練數(shù)據(jù)將成為大模型產(chǎn)業(yè)化的最大掣肘之一。從更深層次考慮,大模型在訓(xùn)練數(shù)據(jù)方面還存在各種治理問題,比如數(shù)據(jù)采集標(biāo)注費(fèi)時(shí)費(fèi)力成本高、數(shù)據(jù)質(zhì)量較難保障、數(shù)據(jù)多樣化不足難以覆蓋“長(zhǎng)尾”和邊緣案例、特定數(shù)據(jù)在獲取與使用分享等方面存在隱私保護(hù)和數(shù)據(jù)偏見等問題?!眹?guó)外學(xué)者研究認(rèn)為,總體語言數(shù)據(jù)規(guī)模以7%的速度增長(zhǎng);高質(zhì)量語言數(shù)據(jù)的增長(zhǎng)受制于人口規(guī)模、經(jīng)濟(jì)發(fā)展等因素影響,以4%~5%的速度增長(zhǎng)。用于訓(xùn)練大語言模型的高質(zhì)量數(shù)據(jù)將會(huì)在2027年之前“耗盡”。
小結(jié)
算力和數(shù)據(jù)資源是人工智能技術(shù)研究的基礎(chǔ)支撐要素。在人工智能技術(shù)進(jìn)入“大模型”時(shí)代下,算力和數(shù)據(jù)能力不足將成為算法模型研究和訓(xùn)練的短板。美國(guó)正在籌建的NAIRR基礎(chǔ)設(shè)施有利于解決當(dāng)前人工智能技術(shù)創(chuàng)新發(fā)展面臨的新挑戰(zhàn),對(duì)我國(guó)具有一定的參考意義,我國(guó)應(yīng)加強(qiáng)統(tǒng)籌協(xié)調(diào),加快算力基礎(chǔ)設(shè)施和數(shù)據(jù)基礎(chǔ)資源建設(shè),發(fā)展數(shù)據(jù)要素市場(chǎng),鼓勵(lì)數(shù)據(jù)資源匯聚流通,推動(dòng)人工智能基礎(chǔ)技術(shù)研究與應(yīng)用創(chuàng)新。
關(guān)鍵詞: