在HumanEval 基準(zhǔn)測(cè)試中

發(fā)布時(shí)間:2023-08-29 09:03:42  |  來源:品玩  

大模型資訊:

WizardCoder 34B 在HumanEval 基準(zhǔn)測(cè)試中擊敗 GPT-4

WizardLM 近日宣布,旗下代碼生成模型 WizardCoder 34B 近日在HumanEval 基準(zhǔn)測(cè)試中戰(zhàn)勝了 GPT-4。


(相關(guān)資料圖)

WizardCoder 34B 是一款在 Code Llama 基礎(chǔ)上改進(jìn)的代碼模型。WizardCoder 34B 在基準(zhǔn)測(cè)試中獲得%的通過率,而 GPT-4在今年3月的成績(jī)?yōu)?7%。編程模型 WizardCoder 由微軟和香港浸會(huì)大學(xué)于 6 月推出,即將推出經(jīng)過微調(diào)的 13B/7B 版本。

此外,WizardCoder 34B 的性能還超過了最新迭代的 和 Claude 2。

OpenAI官宣與Scale合作 支持企業(yè)微調(diào)模型

OpenAI今天宣布,將與Scale合作,幫助更多公司從模型微調(diào)中受益。

OpenAI 在官方聲明中表示,鑒于 Scale 在幫助企業(yè)安全、有效地利用人工智能數(shù)據(jù)方面擁有豐富的經(jīng)驗(yàn),OpenAI將其作為首選合作伙伴,擴(kuò)大OpenAI 模型微調(diào)功能的優(yōu)勢(shì)。Scale 的客戶現(xiàn)在可以像通過 OpenAI 一樣對(duì) OpenAI 模型進(jìn)行微調(diào),同時(shí)還能受益于 Scale 的企業(yè)人工智能專業(yè)知識(shí)和數(shù)據(jù)引擎。

OpenAI 表示,他們最近為 Turbo 推出了微調(diào)功能,今年秋天還將為 GPT-4 帶來微調(diào)功能。

國(guó)內(nèi)首個(gè)大模型數(shù)據(jù)標(biāo)注基地落地???

據(jù)百度官方消息, 日前 , 位于??谑行阌^(qū)的百度智能云(??冢┤斯ぶ悄芑A(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地正式啟動(dòng)運(yùn)營(yíng) , 這 是 百度智能云與??谑姓献鞴步ǖ膰?guó)內(nèi)首個(gè)大模型數(shù)據(jù)標(biāo)注中心。

百度智能云方面表示,目前已經(jīng)在全國(guó)與各地政府合作,共建了十多個(gè)數(shù)據(jù)標(biāo)注基地,累計(jì)為當(dāng)?shù)靥峁┏^萬個(gè)穩(wěn)定就業(yè)崗位,間接帶動(dòng)5萬人就業(yè)。

浪潮信息發(fā)布大模型智算軟件棧 OGAI

據(jù)浪潮服務(wù)器官方消息,浪潮信息近日正式發(fā)布大模型智算軟件棧 OGAI。

OGAI為大模型業(yè)務(wù)提供AI算力系統(tǒng)環(huán)境部署、算力調(diào)度保障及模型開發(fā)管理能力的全棧全流程的智算軟件棧。OGAI由浪潮信息基于大模型自身實(shí)踐與服務(wù)客戶的專業(yè)經(jīng)驗(yàn)而開發(fā),旨在為大模型研發(fā)與應(yīng)用創(chuàng)新全力打造高效生產(chǎn)力,加速生成式AI產(chǎn)業(yè)創(chuàng)新步伐。

OGAI是浪潮信息從當(dāng)前大模型算力建設(shè)、模型開發(fā)和應(yīng)用落地的實(shí)際需求出發(fā),秉承全棧全流程、算力充分釋放、實(shí)戰(zhàn)驗(yàn)證提煉的設(shè)計(jì)原則打造而成。

代碼生成模型 Code Llama-34B 已在 HumanEval 測(cè)試中擊敗 GPT-4

據(jù) phind官方消息,研究團(tuán)隊(duì)在Phind 內(nèi)部數(shù)據(jù)集上對(duì) CodeLlama-34B 和 CodeLlama-34B-Python 進(jìn)行微調(diào)之后發(fā)現(xiàn),這兩款模型微調(diào)之后在 HumanEval 測(cè)試中的通過率均已超過GPT-4在今年3月份的成績(jī)。

Code Llama 是Meta發(fā)布的一款代碼生成大模型,擁有7B、13B和34B三個(gè)尺寸,同時(shí)包含基礎(chǔ)模型、Python專用版本等多款模型。 HumanEval 測(cè)試顯示,未經(jīng)過微調(diào)的CodeLlama-34B 和 CodeLlama-34B-Python 的通過率分別為%和%。

在經(jīng)過測(cè)試之后發(fā)現(xiàn),訓(xùn)練后的 CodeLlama-34B 通過率達(dá)到% ,CodeLlama-34B-Python 的通過率達(dá)到% 。而 GPT-4在今年3月份的成績(jī)?yōu)?7%。

航旅縱橫上線民航大模型千穰 ,現(xiàn)已面向 Plus 會(huì)員開啟公測(cè)

據(jù)航旅縱橫官方消息,航旅縱橫近日正式發(fā)布民航領(lǐng)域垂直大模型,千穰大模型。

據(jù)航旅縱橫表示,千穰大模型是融合了視覺大模型、語言大模型、多模態(tài)大模型和計(jì)算大模型的 圖文計(jì)算多智體。千穰支持多模態(tài)交互、實(shí)時(shí)信息獲取、民航知識(shí)精準(zhǔn)理解、復(fù)雜推理能力、高精度計(jì)算優(yōu)化等功能,可為消費(fèi)者服務(wù)領(lǐng)域行業(yè)服務(wù)領(lǐng)域提供面對(duì)不同場(chǎng)景的解決方案。

千穰出行助手已在航旅縱橫App落地,但目前僅供航旅縱橫Plus會(huì)員申請(qǐng)使用。

軟銀計(jì)劃下月安排印度團(tuán)隊(duì)前往硅谷學(xué)習(xí) AI 技術(shù)

據(jù) Tech In Asia 報(bào)道,軟銀集團(tuán)計(jì)劃下月帶領(lǐng)一支由印度初創(chuàng)企業(yè)創(chuàng)始人組成的團(tuán)隊(duì)前往美國(guó)硅谷進(jìn)行 AI 技術(shù)的考察餐館。

據(jù)軟銀旗下愿景基金高管Sumer Juneja 表示,愿景基金正在幫助投資的企業(yè)采用人工智能技術(shù),并一直在為其支持的創(chuàng)始人安排與該領(lǐng)域領(lǐng)先企業(yè)的面對(duì)面交流的機(jī)會(huì)。據(jù)悉,這支參觀學(xué)習(xí)團(tuán)隊(duì)有20人,不過具體名單尚未透露。

重點(diǎn)論文:

清華大學(xué)聯(lián)手多所高校,推出FlexKBQA 框架

據(jù) Arxiv 頁面顯示,來自清華大學(xué)、俄亥俄州立大學(xué)、中國(guó)科學(xué)院大學(xué)和山東大學(xué)等多所高校的研究者們近日發(fā)表論文,介紹了一款可用于解決知識(shí)庫(kù)問答問題的框架FlexKBQA 。

論文表示,F(xiàn)lexKBQA利用大型語言模型作為程序翻譯器,可以解決少樣本知識(shí)庫(kù)問答任務(wù)中固有的挑戰(zhàn)。FlexKBQA利用自動(dòng)算法從知識(shí)庫(kù)中抽取多樣的程序,然后通過大語言模型將其轉(zhuǎn)化為自然語言問題。這個(gè)合成的數(shù)據(jù)集有助于訓(xùn)練一個(gè)專門的輕量級(jí)模型用于知識(shí)庫(kù)問答。

研究顯示,F(xiàn)lexKBQA在少數(shù)標(biāo)注的情況下取得了令人印象深刻的結(jié)果,相對(duì)于全監(jiān)督模型的性能達(dá)到了93%的水平。

論文地址:點(diǎn)此前往

關(guān)鍵詞:

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營(yíng)業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com