中評社北京2月23日電/據新華網報導,美國斯坦福大學等機構研究團隊近日宣布,在基座大模型基礎上,僅耗費數十美元就開發出相對成熟的推理模型。儘管其整體性能尚無法比肩美國開放人工智能研究中心(OpenAI)開發的o1、中國深度求索公司的DeepSeek-R1等,但此類嘗試意味著企業可以較低成本研發出適合自身的AI應用,AI普惠性有望增強。同時,其所應用的“測試時擴展”技術或代表一條更可持續的AI研發路徑。
低成本玩轉高級推理
美國斯坦福大學和華盛頓大學研究團隊近日宣布研發出名為s1的模型,在衡量數學和編碼能力的測試中,可媲美o1和DeepSeek-R1等。研究團隊稱,訓練租用所需的計算資源等成本只需約幾十美元。
s1的核心創新在於採用了“知識蒸餾”技術和“預算強制”方法。“知識蒸餾”好比把別人釀好的酒進一步提純。該模型訓練數據是基於谷歌Gemini Thinking Experimental模型“蒸餾”出的僅有1000個樣本的小型數據集。
“預算強制”則使用了AI模型訓練新方法——“測試時擴展”的實現方式。“測試時擴展”又稱“深度思考”,核心是在模型測試階段,通過調整計算資源分配,使模型更深入思考問題,提高推理能力和準確性。
“預算強制”通過強制提前結束或延長模型的思考過程,來影響模型的推理深度和最終答案。s1對阿里雲的通義千問開源模型進行微調,通過“預算強制”控制訓練後的模型計算量,使用16個英偉達H100 GPU僅進行26分鐘訓練便達成目標。
美國加利福尼亞大學伯克利分校研究團隊最近也開發出一款名為TinyZero的精簡AI模型,稱復刻了DeepSeek-R1 Zero在倒計時和乘法任務中的表現。該模型通過強化學習,實現了部分相當於30億模型參數的大語言模型的自我思維驗證和搜索能力。團隊稱項目訓練成本不到30美元。 |