中新網(wǎng)上海新聞7月10日電(李佳佳)中文大模型測評基準(zhǔn)SuperCLUE 近日發(fā)布2024上半年報(bào)告,披露針對國內(nèi)外33個大模型的綜合測評結(jié)果。阿里通義千問的開源模型Qwen2-72B成為排名第一的中國大模型,也是全球最強(qiáng)的開源模型,SuperCLUE報(bào)告認(rèn)為通義千問“超過眾多國內(nèi)外閉源模型”“引領(lǐng)全球的開源生態(tài)”。
CLUE(The Chinese Language Understanding Evaluation)是發(fā)起于2019年的中文語言理解測評基準(zhǔn),致力于開展科學(xué)、客觀、中立的語言模型評測,SuperCLUE聚焦于通用大模型的綜合性測評。
本次半年度測評針對國內(nèi)外33個大模型的6月份版本進(jìn)行,由理科、文科和Hard三大維度構(gòu)成。理科任務(wù)包括計(jì)算、邏輯推理、代碼測評;文科任務(wù)分為知識百科、語言理解、長文本、角色扮演、生成與創(chuàng)作、安全和工具使用七大測評;Hard任務(wù)主要是精確指令遵循測評,未來還將推出復(fù)雜多步推理和高難度問題解決等測評。
從代表通用能力的一級總分來看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet與通義千問開源模型Qwen2-72B-Instruct并列第二,得分均為77。通義千問既是排名最高的中國大模型,也是排名最高的開源大模型,性能超越文心一言4.0、訊飛星火V4.0、Llama-3-70B等開閉源大模型。
具體到理科、文科、Hard三個維度來看,國內(nèi)外大模型的理科能力存在一定差距,GPT-4o以絕對優(yōu)勢領(lǐng)跑,Qwen2-72B的理科測試比GPT-4o少5分;文科任務(wù)上,大模型之間的區(qū)分度不明顯,GPT-4o與Qwen2-72B等模型的得分均為76;精確指令遵循能力方面,僅有GPT-4o和Claude 3.5 Sonnet得分超過80,國內(nèi)表現(xiàn)最好的Qwen2-72B比GPT-4o低6分。
報(bào)告同時公布了端側(cè)小模型測評榜單,通義千問70億參數(shù)開源模型Qwen2-7B排名第一,打敗了上一代版本的Qwen1.5-32B(320億參數(shù))和Llama-3-8B-Instruct(130億參數(shù)),展現(xiàn)了更小尺寸的模型的極致性能。報(bào)告認(rèn)為,2024年上半年端側(cè)小模型進(jìn)展迅速、表現(xiàn)驚艷,極大提升了落地的可行性。
據(jù)悉,Qwen2是阿里在今年6月推出的通義千問第二代開源模型,已先后登頂國內(nèi)外多個權(quán)威榜單,引領(lǐng)中國開源模型強(qiáng)勢崛起。Qwen系列開源模型下載量已經(jīng)突破2000萬次。SuperCLUE報(bào)告點(diǎn)評:“綜合來看,Qwen2-72B 整體能力不俗,引領(lǐng)全球的開源生態(tài),是一個非常有競爭力的通用開源大模型,可應(yīng)用于推理、數(shù)理分析、信息處理或相對專業(yè)復(fù)雜場景,重點(diǎn)推薦應(yīng)用于工業(yè)、金融、醫(yī)療、汽車等垂直專業(yè)場景!
注:請?jiān)谵D(zhuǎn)載文章內(nèi)容時務(wù)必注明出處!
編輯:李佳佳