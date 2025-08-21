中評社香港8月21日電／中文數據在中國國內AI大模型的訓練性能提升方面發揮著重要作用。國家數據局近日發佈的數據顯示，目前中國國內多數AI模型訓練使用的中文數據佔比已經超過60%，有的模型達到80%。中文高質量數據的開發和供給能力持續增強，推動中國人工智能模型性能快速提升。



新華社報導，國家數據局局長劉烈宏表示，中國人工智能的快速發展，與中國高度重視數據工作是密不可分的。作為人工智能發展的核心要素之一，數據在推動“人工智能+”過程中發揮著關鍵作用，高質量數據集的建設至關重要。



“在人工智能時代，Token，也就是大家通常所說的詞元，是處理文本的最小數據單元，如同互聯網時代大家所說的‘流

量’。”劉烈宏介紹，2024年初，中國日均Token的消耗量為1000億，到今年6月底，日均Token消耗量已經突破30萬億，一年半時間增長了300多倍，反映了中國人工智能應用規模的快速增長。



據介紹，截至今年6月底，中國已經建設高質量數據集超過3.5萬個，總體量超過了400PB（1PB可存儲約5億張2MB大小的高清照片），400PB的總量相當於中國國家圖書館數字資源總量的140倍左右。



人工智能模型的訓練也推動了數據交易需求的攀升。截至今年6月底，各地高質量數據集累計交易額近40億元，數據交易機構掛牌的高質量數據集總規模達到了246PB。



下一步，國家數據局將通過體系化佈局持續推進高質量數據集建設，加快打造具身智能、低空經濟、生物製造等重點領域數據高地，推動全社會強化數據要素價值認同，加快推進數據要素價值共創，培育“為優質數據買單”的市場共識。