刷榜跑分？AI評測不應走偏路線

【大中小】【打印】

	刷榜跑分？AI評測不應走偏路線
	http://www.CRNTT.com 2024-03-22 15:53:03

　　中評社北京3月22日電／據新華每日電訊報導，“百模大戰”以來，AI大模型的部分榜單上出現了一個奇怪現象：長期盤踞在榜單前列的，經常是一些名不見經傳的國產大模型，它們竟然以接近滿分的優勢碾壓了ChatGPT、Gemini和其他知名的AI大模型。

　　之所以令人大跌眼鏡，是因為這與大眾的實際體驗嚴重不符。不少AI大模型分數名列前茅，實力卻不及格。如果說“聽不懂答不對、動不動就崩潰”司空見慣，那麼更諷刺的是，有的大模型根本沒對業界開放，就算大家想感受一下“第一名”的風采都找不到門路。

　　有人可能會好奇：一些AI大模型“高分低能”是怎麼做到的？原因其實很簡單，那就是評測中出現了數據污染和洩露。簡單來說，榜單排名類似於有第三方“考官”出了一個題庫，題庫中大量考題針對性測評大模型各個方面的能力，而有的“考生”提前拿到題庫，並把答案逐一背了下來。

　　“考高分”的目的也很明確，那就是投機取巧、炒作包裝。業內人士告訴記者，在國內眾多大模型激烈競爭、良莠不齊的當下，許多大模型還未在用戶之間形成過硬的口碑，離產生世界級影響還有較遠的一段路。而評測是直觀體現大模型能力的關鍵方式之一，學術化榜單和市場化榜單都得到了廣泛重視，刷榜跑分因此成為一些企業快速吸引眼球的手段。

　　當然，榜單失真的背後，不衹有作弊的“考生”，也可能有徇私的“考官”。業界需要客觀、公正、高水準的優質榜單幫助大家慧眼識珠、去偽存真，“考官”如果協助“考生”作弊，無疑會擾亂AI大模型的評測環境。所幸我們看到，部分榜單在遇到刷榜跑分問題後，及時推出補救措施，例如將公開大模型和非公開大模型區分為兩張榜單，成功擠出大量非公開大模型的水分。

　　是金非金焰烈而曉，部分大模型企業一心撲在刷榜跑分上顯然走偏了路線。說到底AI大模型的發展還是那句老話，關鍵核心技術要不來、買不來、討不來，更包裝不來，唯有一步一個腳印，扎扎實實地向前走。

【大中小】【打印】掃描二維碼訪問中評社微信

相關新聞：

借AI“慧眼”鑒別可疑論文圖片 (2024-03-21 11:25:31)
全球科技公司加速布局AI芯片 (2024-03-20 15:17:27)
藍委葛如鈞關注生成式AI在繁體中文的優化 (2024-03-20 14:29:06)
藍委推人工智慧基本法　廖俊智盼以人為本 (2024-03-20 14:20:04)
港醫療界訪粵歸來　贊AI應用增效率 (2024-03-20 11:30:58)
藍委秀AI影片猜真假　陳建仁答錯怒批你詐騙 (2024-03-19 17:02:57)
已逝明星被“AI復活”引熱議 (2024-03-19 16:04:56)
葛如鈞指台灣AI人才不足　缺口2.6萬 (2024-03-19 12:53:55)
迄今最快AI芯片擁有4萬億個晶體管 (2024-03-18 12:43:46)
歌迷追憶音容　AI“復活”李玟 (2024-03-17 16:19:23)