已有“狡猾”的智能體成功規避了現有的安全措施。相關專家指出,如果一個智能體足夠先進,它就能夠識別出自己正在接受測試。目前已發現一些智能體能夠識別安全測試並暫停不當行為,這將導致識別對人類危險算法的測試系統失效。
專家認為,人類目前需盡快從智能體開發生產到應用部署後的持續監管等全鏈條著手,規範智能體行為,並改進現有互聯網標準,從而更好地預防智能體失控。應根據智能體的功能用途、潛在風險和使用時限進行分類管理。識別出高風險智能體,對其進行更加嚴格和審慎的監管。還可參考核監管,對生產具有危險能力的智能體所需的資源進行控制,如超過一定計算閾值的AI模型、芯片或數據中心。此外,由於智能體的風險是全球性的,開展相關監管國際合作也尤為重要。 |