騰訊優(yōu)圖: 多模態(tài)融合是計(jì)算機(jī)視覺技術(shù)發(fā)展的重要趨勢(shì)

發(fā)布時(shí)間:2020-12-21 15:16:49  |  來源:壹點(diǎn)網(wǎng)  

12月19日-20日,由騰訊發(fā)起的2020 Techo Park開發(fā)者大會(huì)于北京順利召開。作為面向全球開發(fā)者和技術(shù)愛好者的年度盛會(huì),本次開發(fā)者大會(huì)針對(duì)行業(yè)開發(fā)者、ISV、科研機(jī)構(gòu)、高校師生、創(chuàng)業(yè)公司、開源社區(qū)工程師等設(shè)置了很多的亮點(diǎn)內(nèi)容和創(chuàng)新活動(dòng),來自國內(nèi)外200多位技術(shù)大咖為大家?guī)硪粓?chǎng)年度的技術(shù)嘉年華。騰訊優(yōu)圖實(shí)驗(yàn)室總監(jiān)黃小明出席大會(huì)并在AI分論壇上做了主題為《視覺AI技術(shù)的探索與實(shí)踐:"新基建時(shí)代"下的生產(chǎn)力》致辭分享。

騰訊優(yōu)圖實(shí)驗(yàn)室總監(jiān) 黃小明

計(jì)算機(jī)視覺是機(jī)器認(rèn)知世界的基礎(chǔ),也是最重要的人工智能技術(shù)之一。黃小明認(rèn)為,計(jì)算機(jī)視覺將機(jī)器學(xué)習(xí)應(yīng)用于視覺領(lǐng)域,構(gòu)成人工智能的感知基礎(chǔ),加速人工智能在相關(guān)行業(yè)應(yīng)用落地。

黃小明表示,面對(duì)不同場(chǎng)景需求,計(jì)算視覺的準(zhǔn)確度正在不斷提高。隨著視覺技術(shù)精度不斷提升,已經(jīng)廣泛應(yīng)用在零售及金融民生等領(lǐng)域。制造業(yè)中的質(zhì)量檢查和控制,成為工業(yè)視覺的重要應(yīng)用場(chǎng)景。中國是世界最大的制造業(yè)國家,它的生產(chǎn)力價(jià)值正在顯現(xiàn)。

"在未來的計(jì)算機(jī)視覺研究中,多模態(tài)融合、多技術(shù)融通是一個(gè)重要的趨勢(shì)。"黃小明表示,人工智能正在從語音、文字、視覺等單模態(tài)智能,向著多種模態(tài)融合發(fā)展,結(jié)合分布式平臺(tái)的計(jì)算能力,實(shí)現(xiàn)更高精度的場(chǎng)景構(gòu)建,和對(duì)動(dòng)態(tài)場(chǎng)景的處理能力。

以下為黃小明演講實(shí)錄:

各位嘉賓:

我是騰訊優(yōu)圖實(shí)驗(yàn)室的黃小明, 非常榮幸在這個(gè)場(chǎng)合有機(jī)會(huì)跟各位同仁就一些技術(shù)問題進(jìn)行探討。

視覺AI技術(shù)是我研究的主要領(lǐng)域之一。近年來,深度學(xué)習(xí)技術(shù)、GPU算力以及海量數(shù)據(jù),作為AI技術(shù)發(fā)展的三大催化劑,加速了視覺技術(shù)在各行各業(yè)應(yīng)用落地,助力產(chǎn)業(yè)互聯(lián)網(wǎng)升級(jí)。計(jì)算機(jī)視覺的廣闊應(yīng)用前景,為我們展開了前所未有的壯麗圖景。

目前,計(jì)算機(jī)視覺已經(jīng)在工業(yè)視覺、OCR以及內(nèi)容理解等領(lǐng)域獲得重大突破,隨著計(jì)算機(jī)視覺技術(shù)精度和成熟度的提高,正不斷滲透到娛樂、醫(yī)療、零售行業(yè)等更多重點(diǎn)應(yīng)用場(chǎng)景,推動(dòng)技術(shù)變革和用戶體驗(yàn)提升。例如,在泛娛樂領(lǐng)域,以計(jì)算機(jī)視覺為基礎(chǔ)的人臉檢測(cè)技術(shù)、人臉關(guān)鍵點(diǎn)定位技術(shù)、人臉融合以及人像分割技術(shù)等AI視覺技術(shù),通過對(duì)泛娛樂場(chǎng)景各類基礎(chǔ)人臉研究和挖掘整合,打造出多項(xiàng)泛娛樂人像特效應(yīng)用,為泛娛樂行業(yè)用戶提供各類新奇酷炫的AI視覺特效和娛樂體驗(yàn)。

疫情期間,由優(yōu)圖提供視覺AI技術(shù)支持的騰訊"防疫健康碼",讓民眾通過申請(qǐng)涵蓋自身健康信息的二維碼,獲得電子出行憑證,方便民眾在疫情期間出入公共場(chǎng)所,也利于為政府部門統(tǒng)一管理。在各地復(fù)工復(fù)產(chǎn)的高峰期,各地健康碼互通,民眾出入不同省市都只用進(jìn)行一次健康狀況的認(rèn)證,加快復(fù)工復(fù)產(chǎn)進(jìn)度,也使國家在疫情期間對(duì)信息的統(tǒng)一管理更加精準(zhǔn)有效。騰訊"防疫健康碼"是服務(wù)用戶最多、增長速度最快的健康碼。截至目前,騰訊防疫健康碼服務(wù)9億用戶、累計(jì)亮碼150億人次,累計(jì)訪問量500億次。背后都有我們的視覺AI在發(fā)揮作用。

在未來的計(jì)算機(jī)視覺研究中,多模態(tài)融合、多技術(shù)融通是一個(gè)重要的趨勢(shì)。人工智能正在從語音、文字、視覺等單模態(tài)智能,向著多種模態(tài)融合發(fā)展,結(jié)合分布式平臺(tái)的計(jì)算能力,實(shí)現(xiàn)更高精度的場(chǎng)景構(gòu)建,和對(duì)動(dòng)態(tài)場(chǎng)景的處理能力。

當(dāng)然我們的工作還面臨著諸多挑戰(zhàn)。目前還無法建立一個(gè)通用的"視覺機(jī)器",無法做到統(tǒng)一模型同時(shí)滿足不同場(chǎng)景要求。這意味著當(dāng)下機(jī)器學(xué)習(xí)的訓(xùn)練成本較高,也沒有達(dá)到產(chǎn)業(yè)化應(yīng)用的理想狀態(tài)。要解決這個(gè)問題,需要從端到端打通各個(gè)模態(tài)之間的關(guān)系,形成可以真正多維度交互的智能機(jī)器,讓感知智能升級(jí)為認(rèn)知智能。

計(jì)算機(jī)視覺的技術(shù)前景是令人興奮的,還有很多未抵達(dá)的神奇地域等著我們?nèi)ヌ剿?。阿蘭·圖靈曾說過:"這不過是將來之事的前奏,也是將來之事的影子。"從人類開辟出人工智能領(lǐng)域,到今天真正的應(yīng)用落地,時(shí)光只不過是歷史一瞬。未來,讓我們仰望星空,腳踏實(shí)地,共同創(chuàng)造中國計(jì)算機(jī)視覺的新輝煌,期待各位的分享。

免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。

關(guān)鍵詞:

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com