】 【打 印】 
刷榜跑分?AI評測不應走偏路線
http://www.CRNTT.com   2024-03-22 15:53:03


  中評社北京3月22日電/據新華每日電訊報導,“百模大戰”以來,AI大模型的部分榜單上出現了一個奇怪現象:長期盤踞在榜單前列的,經常是一些名不見經傳的國產大模型,它們竟然以接近滿分的優勢碾壓了ChatGPT、Gemini和其他知名的AI大模型。

  之所以令人大跌眼鏡,是因為這與大眾的實際體驗嚴重不符。不少AI大模型分數名列前茅,實力卻不及格。如果說“聽不懂答不對、動不動就崩潰”司空見慣,那麼更諷刺的是,有的大模型根本沒對業界開放,就算大家想感受一下“第一名”的風采都找不到門路。

  有人可能會好奇:一些AI大模型“高分低能”是怎麼做到的?原因其實很簡單,那就是評測中出現了數據污染和洩露。簡單來說,榜單排名類似於有第三方“考官”出了一個題庫,題庫中大量考題針對性測評大模型各個方面的能力,而有的“考生”提前拿到題庫,並把答案逐一背了下來。

  “考高分”的目的也很明確,那就是投機取巧、炒作包裝。業內人士告訴記者,在國內眾多大模型激烈競爭、良莠不齊的當下,許多大模型還未在用戶之間形成過硬的口碑,離產生世界級影響還有較遠的一段路。而評測是直觀體現大模型能力的關鍵方式之一,學術化榜單和市場化榜單都得到了廣泛重視,刷榜跑分因此成為一些企業快速吸引眼球的手段。

  當然,榜單失真的背後,不衹有作弊的“考生”,也可能有徇私的“考官”。業界需要客觀、公正、高水準的優質榜單幫助大家慧眼識珠、去偽存真,“考官”如果協助“考生”作弊,無疑會擾亂AI大模型的評測環境。所幸我們看到,部分榜單在遇到刷榜跑分問題後,及時推出補救措施,例如將公開大模型和非公開大模型區分為兩張榜單,成功擠出大量非公開大模型的水分。

  是金非金焰烈而曉,部分大模型企業一心撲在刷榜跑分上顯然走偏了路線。說到底AI大模型的發展還是那句老話,關鍵核心技術要不來、買不來、討不來,更包裝不來,唯有一步一個腳印,扎扎實實地向前走。

掃描二維碼訪問中評網移動版 】 【打 印掃描二維碼訪問中評社微信  

 相關新聞: