文科考上一本理科不及格,大模型“高考”為啥偏科?

肖芳2024-06-28 08:02

隨著(zhù)各地高考出分,各家大模型回答高考題的能力也有了一個(gè)更加客觀(guān)的衡量標準。

根據極客公園使用高考新課標Ⅰ卷的評測,GPT-4o以562分排名文科總分第一。國內產(chǎn)品中,字節跳動(dòng)旗下的豆包拔得頭籌,成績(jì)是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小應”的521分。本次大模型高考評測與河南省考卷完全相同,而河南高考錄取分數線(xiàn)顯示,文科本科一批錄取分數線(xiàn)為521分,上述三款國產(chǎn)AI成功沖上一本線(xiàn)。

相比之下,大模型的理科成績(jì)要差很多,最高分還不到480分,多數大模型的理科總分在400分以下。

從具體的科目來(lái)看,英語(yǔ)是大模型表現最優(yōu)異的學(xué)科,九個(gè)大模型的平均分高達132分(滿(mǎn)分 150),大部分大模型都可以做到客觀(guān)題接近滿(mǎn)分。其次是語(yǔ)文,但不論中外大模型語(yǔ)文的得分都要略差于英語(yǔ),得分較高的大模型分數能夠達到120分。

在數學(xué)試卷中,9款大模型產(chǎn)品中,僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(jì)(滿(mǎn)分150分)。重點(diǎn)考查實(shí)驗探究能力的化學(xué)和物理試卷,各模型平均分更是只有34分和39分(滿(mǎn)分為100和110)。

而在另一個(gè)機構司南評測體系對高考全國新課標I卷“語(yǔ)數外”三個(gè)科目的評測也呈現類(lèi)似的趨勢,7款參與評測的大模型英語(yǔ)和語(yǔ)文的成績(jì)較高,數學(xué)成績(jì)均不及格。

雖然不同評測機構的標準有所差異,但一個(gè)非常明顯的趨勢是,大模型更擅長(cháng)回答文科試題,而不太擅長(cháng)回答數學(xué)、物理等理科題目。

在一些人的印象中,數學(xué)一直都是計算機的強項,大模型在數學(xué)等理科試題上表現糟糕讓他們有些意外。但一位大模型技術(shù)專(zhuān)家告訴界面新聞,這可能是普通人對大模型最大的誤解,因為大模型和計算機完全是兩個(gè)不同的體系。

這位大模型技術(shù)專(zhuān)家表示,大模型理科表現不好,本質(zhì)上都來(lái)源于數學(xué)能力的欠缺。這個(gè)和大模型本身的next-token prediction(下一個(gè)詞預測)有關(guān)。

據界面新聞了解,在大語(yǔ)言模型中,next-token prediction是非常關(guān)鍵的一個(gè)環(huán)節。當模型處理輸入的文本序列時(shí),它會(huì )基于已有的信息和學(xué)習到的語(yǔ)言知識,對下一個(gè)最可能出現的詞(token)進(jìn)行預測。模型通過(guò)對大量文本數據的學(xué)習,理解了不同詞之間的概率分布和關(guān)聯(lián)關(guān)系。在預測時(shí),模型會(huì )計算每個(gè)可能的下一個(gè)詞出現的概率,并選擇概率較高的詞作為預測結果。

這種逐詞預測的方式使得模型能夠生成連貫的文本輸出。通過(guò)不斷地進(jìn)行下一個(gè)詞預測,模型可以生成一段完整的文本內容。為了提高預測的準確性,模型的訓練過(guò)程會(huì )不斷調整參數,以更好地捕捉語(yǔ)言的模式和規律。同時(shí),模型也會(huì )考慮上下文信息,包括前面已經(jīng)生成的詞以及整個(gè)輸入文本的語(yǔ)義和語(yǔ)法結構,來(lái)更精準地進(jìn)行下一個(gè)詞預測。這有助于生成更符合邏輯和語(yǔ)義的文本,增強語(yǔ)言模型的表現和生成能力。

當大語(yǔ)言模型學(xué)習了海量知識數據,天然就適應考驗記憶能力和語(yǔ)言運用的文科考試。但理科考試主要考驗推理和計算,比如一道數學(xué)題包含5步推理和5步計算,假設大語(yǔ)言模型每一步預測準確的概率都有90%,綜合下來(lái)的準確率就只有35%。

高考試題評測非常直觀(guān)地顯示出大模型的上述能力特點(diǎn)。如果是文科題目,回答是一段話(huà),閱卷評分的時(shí)候其實(shí)主要看的還是整段話(huà)的意思是否符合要求,可能有一兩次不準確,或者用了一些同義詞,都不影響評分。但如果是數學(xué)題目,假設模型前面輸出了32103,下一個(gè)token輸出一個(gè)2還是小數點(diǎn),都會(huì )對最終結果造成決定性的影響。

目前的大模型回答理科試題時(shí)只能正確推理步驟相對簡(jiǎn)單的問(wèn)題。比如,在高考新課標Ⅰ卷的評測中,豆包大模型能準確運用求導公式和三角函數定理,但是面對較為復雜的推導和證明問(wèn)題就很難繼續得分。而在物理試題中,有一道送分題是選擇位移隨時(shí)間變化的正確圖像,人類(lèi)考生根據“時(shí)間不會(huì )倒流”可以排除所有錯誤選項,但大模型則幾乎全軍覆沒(méi)。

理科語(yǔ)料比較稀缺也是大模型在理科答題能力上不如文科的重要原因之一。另一位大模型技術(shù)專(zhuān)家告訴界面新聞,理科語(yǔ)料稀缺的問(wèn)題從普通人日常的感知中也能理解。在日常生活中,普通人接觸的語(yǔ)料較大比例是文字語(yǔ)料,數學(xué)、物理等數字、符號語(yǔ)料較少,而用于大模型訓練的語(yǔ)料同樣是這種分布。

上述大模型技術(shù)專(zhuān)家表示,在普通人認知中很厲害的計算軟件和大模型是完全不同的技術(shù)原理。計算軟件并不是基于概率預測下一個(gè)token,而是基于提前寫(xiě)好的專(zhuān)家規則,專(zhuān)門(mén)用于計算某類(lèi)數學(xué)問(wèn)題。

看起來(lái),要學(xué)會(huì )像人類(lèi)一樣思考和解決問(wèn)題,大模型還有很長(cháng)的路要走。在上述大模型技術(shù)專(zhuān)家看來(lái),即使在文本推理上,大模型目前也只是達到了勉強能用的水平,還有非常大的提升空間。比如,在研報、技術(shù)文檔分析等準確度要求更高的場(chǎng)景下,大模型的能力還很難達到正常使用的水平。

目前,各家大模型都在努力提升智能水平,一方面在提升文本生成能力,另一個(gè)目標就是提高推理和計算能力。

但學(xué)界對大模型的推理和計算能力還存在爭議。有觀(guān)點(diǎn)認為,next-token prediction本身就包含了推理,計算也是一種推理。只要scaling law(規模法則)生效,大模型性能持續提升,推理和計算能力就能夠提升;但也有反對者認為,大語(yǔ)言模型缺乏真正的規劃推理能力,其涌現能力實(shí)際上是上下文學(xué)習的結果,主要體現在簡(jiǎn)單任務(wù)和事先知道答案的情境中。大語(yǔ)言模型未來(lái)是否能夠真正實(shí)現AGI?對于這個(gè)問(wèn)題,目前還沒(méi)有定論。

轉載來(lái)源:界面新聞 作者:肖芳

版權與免責:以上作品(包括文、圖、音視頻)版權歸發(fā)布者【肖芳】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù),不代表經(jīng)觀(guān)的觀(guān)點(diǎn)和構成投資等建議

熱新聞