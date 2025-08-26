清華大學中國電子數據治理工程研究院院長孟慶國在“2025人民數據大會”發表主旨演講。（圖片來源：人民網） 中評社北京8月26日電／據人民網報導，8月26日，清華大學中國電子數據治理工程研究院院長孟慶國在“2025人民數據大會”發表主旨演講時表示，人工智能的每一次發展和進步都與數據有關，沒有數據的支撐，人工智能將寸步難行。在大模型時代，有沒有成規模、高質量、多模態的數據，成為行業發展的基礎。



高質量數據集是什麼？



孟慶國表示，高質量數據集需要具備以下要素：有一定規模、準確性高和擁有足夠多樣性，同時還包括數據的時效性，數據是否合規、合法，以及數據和訓練模型之間的匹配程度。



數據標注作為將原始數據轉化為可識別、可訓練、可計算的關鍵環節，其質量直接決定了數據集的應用價值。培育壯大數據標注產業對於提升數據供給質量，推動人工智能創新發展具有重要支撐作用。



孟慶國表示，近年來，我國數據標注產業鏈發展迅速，市場規模達800多億，但依然存在高質量行業數據規模較小、數據治理的能力不足、復合型標注人才存在缺口、數據質量的評價體系不完善等現象。



如何開展數據標注？



在國家戰略布局和大模型技術突破的雙重驅動下，數據標注產業正在經歷從勞動密集型向知識密集型的深刻轉型。孟慶國表示，從歷史維度來看，過去的數據更多依賴人工，如今是以工具和平台作為標注手段，未來，依靠人工智能自身去進行數據標注將成為趨勢。在做好布局和探索過程中要把握以下幾方面路徑：



要進行需求牽引，通過挖掘人工智能的場景，來釋放標注的需求。要因地制宜，通過構建一些特色產業的場景，來發展具有特色性的數據標注產業。要夯實基礎支撐，在數據質量、數據倫理、數據安全得到保障的前提下，構建數據可信的標注空間，助力數據價值釋放。要打造產業聚集，通過產業聚集推動數據產業的發展。要帶動就業，通過數據標注，發展具有專業領域知識的專門性標注人才。要營造良好產業生態，特別是在政策、制度、標準、公共服務平台建設等方面進一步營造好數據標注的發展環境。