|
| 清華大學中國電子數據治理工程研究院院長孟慶國在“2025人民數據大會”發表主旨演講。(圖片來源:人民網) |
中評社北京8月26日電/據人民網報導,8月26日,清華大學中國電子數據治理工程研究院院長孟慶國在“2025人民數據大會”發表主旨演講時表示,人工智能的每一次發展和進步都與數據有關,沒有數據的支撐,人工智能將寸步難行。在大模型時代,有沒有成規模、高質量、多模態的數據,成為行業發展的基礎。
高質量數據集是什麼?
孟慶國表示,高質量數據集需要具備以下要素:有一定規模、準確性高和擁有足夠多樣性,同時還包括數據的時效性,數據是否合規、合法,以及數據和訓練模型之間的匹配程度。
數據標注作為將原始數據轉化為可識別、可訓練、可計算的關鍵環節,其質量直接決定了數據集的應用價值。培育壯大數據標注產業對於提升數據供給質量,推動人工智能創新發展具有重要支撐作用。
孟慶國表示,近年來,我國數據標注產業鏈發展迅速,市場規模達800多億,但依然存在高質量行業數據規模較小、數據治理的能力不足、復合型標注人才存在缺口、數據質量的評價體系不完善等現象。
如何開展數據標注?
在國家戰略布局和大模型技術突破的雙重驅動下,數據標注產業正在經歷從勞動密集型向知識密集型的深刻轉型。孟慶國表示,從歷史維度來看,過去的數據更多依賴人工,如今是以工具和平台作為標注手段,未來,依靠人工智能自身去進行數據標注將成為趨勢。在做好布局和探索過程中要把握以下幾方面路徑:
要進行需求牽引,通過挖掘人工智能的場景,來釋放標注的需求。要因地制宜,通過構建一些特色產業的場景,來發展具有特色性的數據標注產業。要夯實基礎支撐,在數據質量、數據倫理、數據安全得到保障的前提下,構建數據可信的標注空間,助力數據價值釋放。要打造產業聚集,通過產業聚集推動數據產業的發展。要帶動就業,通過數據標注,發展具有專業領域知識的專門性標注人才。要營造良好產業生態,特別是在政策、制度、標準、公共服務平台建設等方面進一步營造好數據標注的發展環境。 |