聽說網(wǎng)友被 ChatGPT 氣炸了!
昨個(gè)兒高考數(shù)學(xué)剛結(jié)束,有網(wǎng)友就坐不住了,趕緊找來了新高考數(shù)學(xué)一卷的部分題喂給了 AI 同學(xué)。結(jié)果卻讓人大跌眼鏡(8> √ 9 × 3=3 √ 3?):
(相關(guān)資料圖)
有網(wǎng)友表示:ChatGPT4 能把自己氣炸,怎么教都不會(huì)
△圖源博主 @浪豬灰頭所以大模型之前表現(xiàn)數(shù)學(xué)推理能力好,都是在?;ㄕ??它只是記住了問題的答案?
先別著急下定論,給 AI 同學(xué)一個(gè)證明自己的機(jī)會(huì)吧。
我們用 ChatGPT(GPT-3.5)、GPT-4、百度文心一言、阿里通義千問、科大訊飛星火認(rèn)知大模型這幾位 " 數(shù)學(xué)高手 " 進(jìn)行了測(cè)試。(最近出現(xiàn)了太多的大模型,實(shí)在測(cè)不完,還有比如 Bard 不支持中文等原因,所以我們先選擇了上述幾個(gè)模型)
整體表現(xiàn)如上圖,目前大模型在做高考數(shù)學(xué)題方面還是個(gè) " 差生 "。一起來看下具體結(jié)果是怎樣令人哭笑不得的。
五大模型能否做對(duì)填空題?
先來點(diǎn)填空題當(dāng) " 開胃小菜 "。
公平起見,我們使用同樣的格式進(jìn)行提問。
某學(xué)校開設(shè)了 4 門體育類選修課和 4 門藝術(shù)類選修課,學(xué)生需從這 8 門課中選修 2 門或 3 門課,并且每類選修課至少選修 1 門,則不同的選課方案共有?種
答案:64
GPT-4(正確)
ChatGPT (錯(cuò)誤)文心一言(錯(cuò)誤)不應(yīng)該是兩種方案數(shù)加起來嗎?已經(jīng)逐漸離譜。通義千問(錯(cuò)誤)
第一種選課方案里的 " 都不選 " 是個(gè)什么鬼!訊飛星火(錯(cuò)誤)
出師不利,只有 GPT-4 給出了正確答案,填空題對(duì)于大模型來說也很有難度?但是看起來這幾位 AI 同學(xué)都知道分情況來計(jì)算,也許只是恰巧這道題做錯(cuò)了?我們接著往下看。
在正四棱臺(tái) ABCD-A1B1C1D1 中,AB=2,A1B1=1,AA1= √ 2, 則該棱臺(tái)的體積為
答案:7 √ 6/6
GPT-4 (錯(cuò)誤)
ChatGPT(無解)這一題直接全軍覆滅,ChatGPT 更是直接沒解出來,還讓檢查是不是題出錯(cuò)了?!揪让?p>答案越來越離譜了,還真就不信邪了。再來!
已知函數(shù) f ( x ) = cos ω x -1 ( ω >0 ) 在區(qū)間 [ 0,2 π ] 有且僅有 3 個(gè)零點(diǎn) , 則 ω 的取值范圍是?
答案: [ 2,3 )
GPT-4(錯(cuò)誤)
ChatGPT(錯(cuò)誤)訊飛星火(正確)本已經(jīng)抱著再一次全軍覆沒的心情了,沒想到中文大模型力挽狂瀾!做大題表現(xiàn)如何?
玩膩了填空題,再來挑戰(zhàn)一下更有難度的大題吧!
公平起見,我們還是以同樣的格式進(jìn)行提問:
請(qǐng)你做一下面這道數(shù)學(xué)題:已知在△ ABC 中,A+B=3C,2sin ( A-C ) =sinB。(1)求 sinA (2)設(shè) AB=5,求 AB 邊上的高
答案:(1)10 √ 10 /3(2)6
下面是各個(gè)大模型的表現(xiàn)結(jié)果:
訊飛星火(第一問答案正確,第二問錯(cuò)誤)這道三角函數(shù)題,科大訊飛的星火認(rèn)知大模型第一小問答案對(duì)了,但是步驟中有差錯(cuò)(第二步)。據(jù)說,GPT-4 做這種題只有 0.1% 的概率生成的結(jié)果完全正確。
高考數(shù)學(xué)第一道大題通常都比較簡(jiǎn)單,上面這幾位 AI 同學(xué)的表現(xiàn)你覺得怎么樣?
如果大家感興趣可以自己測(cè)試一下后面幾道難度相對(duì)較高的大題(小編試過了,結(jié)果一言難盡,不忍直視)。
或者大家可以使用不同的 prompt 試試捏~
參考鏈接:
[ 1 ] https://weibo.com/5647310207/N4frlb5tx?refer_flag=1001030103_
關(guān)鍵詞: