123,123

　　中新網(wǎng)上海新聞7月10日電(李佳佳)中文大模型測評基準(zhǔn)SuperCLUE 近日發(fā)布2024上半年報(bào)告，披露針對國內(nèi)外33個大模型的綜合測評結(jié)果。阿里通義千問的開源模型Qwen2-72B成為排名第一的中國大模型，也是全球最強(qiáng)的開源模型，SuperCLUE報(bào)告認(rèn)為通義千問“超過眾多國內(nèi)外閉源模型”“引領(lǐng)全球的開源生態(tài)”。

　　CLUE(The Chinese Language Understanding Evaluation)是發(fā)起于2019年的中文語言理解測評基準(zhǔn)，致力于開展科學(xué)、客觀、中立的語言模型評測，SuperCLUE聚焦于通用大模型的綜合性測評。

　　本次半年度測評針對國內(nèi)外33個大模型的6月份版本進(jìn)行，由理科、文科和Hard三大維度構(gòu)成。理科任務(wù)包括計(jì)算、邏輯推理、代碼測評；文科任務(wù)分為知識百科、語言理解、長文本、角色扮演、生成與創(chuàng)作、安全和工具使用七大測評；Hard任務(wù)主要是精確指令遵循測評，未來還將推出復(fù)雜多步推理和高難度問題解決等測評。

　　從代表通用能力的一級總分來看，OpenAI的GPT-4o以81分高居榜首，Claude-3.5-Sonnet與通義千問開源模型Qwen2-72B-Instruct并列第二，得分均為77。通義千問既是排名最高的中國大模型，也是排名最高的開源大模型，性能超越文心一言4.0、訊飛星火V4.0、Llama-3-70B等開閉源大模型。

　　具體到理科、文科、Hard三個維度來看，國內(nèi)外大模型的理科能力存在一定差距，GPT-4o以絕對優(yōu)勢領(lǐng)跑，Qwen2-72B的理科測試比GPT-4o少5分；文科任務(wù)上，大模型之間的區(qū)分度不明顯，GPT-4o與Qwen2-72B等模型的得分均為76；精確指令遵循能力方面，僅有GPT-4o和Claude 3.5 Sonnet得分超過80，國內(nèi)表現(xiàn)最好的Qwen2-72B比GPT-4o低6分。

　　報(bào)告同時公布了端側(cè)小模型測評榜單，通義千問70億參數(shù)開源模型Qwen2-7B排名第一，打敗了上一代版本的Qwen1.5-32B(320億參數(shù))和Llama-3-8B-Instruct(130億參數(shù))，展現(xiàn)了更小尺寸的模型的極致性能。報(bào)告認(rèn)為，2024年上半年端側(cè)小模型進(jìn)展迅速、表現(xiàn)驚艷，極大提升了落地的可行性。

　　據(jù)悉，Qwen2是阿里在今年6月推出的通義千問第二代開源模型，已先后登頂國內(nèi)外多個權(quán)威榜單，引領(lǐng)中國開源模型強(qiáng)勢崛起。Qwen系列開源模型下載量已經(jīng)突破2000萬次。SuperCLUE報(bào)告點(diǎn)評：“綜合來看，Qwen2-72B 整體能力不俗，引領(lǐng)全球的開源生態(tài)，是一個非常有競爭力的通用開源大模型，可應(yīng)用于推理、數(shù)理分析、信息處理或相對專業(yè)復(fù)雜場景，重點(diǎn)推薦應(yīng)用于工業(yè)、金融、醫(yī)療、汽車等垂直專業(yè)場景�！�

注：請?jiān)谵D(zhuǎn)載文章內(nèi)容時務(wù)必注明出處!

編輯：李佳佳