警惕數據瓶頸與算力浪費
數據、算力與算法是人工智能快速發展依賴的三個核心要素。大模型的發展則建立在龐大數據和超高算力的基礎之上。數據瓶頸與算力浪費是人工智能產業發展過程中不容忽視的問題。
“如果把大數據比喻為礦產資源,那麼其還有多少可以‘挖掘’的新知識有待分析考量。”中國工程院院士、同濟大學校長鄭慶華分析。
在高文看來,我國人工智能發展過程中還存在一個問題——高質量中文語料不足。“數據和算力是人工智能快速發展的兩條腿,二者缺一不可。我國人工智能在高質量數據方面相對薄弱。放眼世界,中文語料在所有數據中占比較小。雖然中國的數據總量很大,數據資源也豐富,但數據市場的規模化產業化尚待培育。”要想打通目前存在的數據壁壘,政府要發揮好指引作用,為數據的安全性、可用性提供制度保障。
目前,大模型的參數已經達到萬億級別。鄭慶華指出,這類大模型存在過度消耗數據和算力的問題。“沒有深度學習時,算力對電力的依賴每20個月翻一番;大模型時代,算力對電力的依賴,每年都要翻10到100倍。可見,算力對電力的消耗呈幾何指數增長。”
由此可見,大模型不僅要消耗大量算力、依賴大量數據,還要投入大量資本。目前來看,這個領域還沒有明確的營利模式,如何實現可持續發展,有待進一步分析和考量。鄭慶華說:“我們不僅需要在人工智能領域實現高水平科技自立自強,還需要建立起一套具有自主知識產權的人工智能發展生態。”
讓人工智能賦能新質生產力
大模型和具身智能引領下的新一代人工智能,在發展進程中如何應對機遇與挑戰?
|