中評社北京4月14日電/馬雲曾說,“我們還沒搞懂PC互聯網的時候,移動互聯網來了。我們還沒搞懂移動互聯網的時候,大數據來了。”作為近幾年來最熱門的網絡概念之一,大數據在多個領域的落地顯示出其巨大優勢,如出行類APP在城市中為用戶提供快速的車輛調度,又如谷歌智能系統阿爾法圍棋在人機圍棋大戰中獲勝。然而大數據應用喜憂參半亦是事實,曾作為大數據具備革命性潛力證明的谷歌流感趨勢近幾年的預測結果並不盡如人意。
大數據是否被過度熱炒?現行大數據分析是否可靠?這些疑問在大數據已作為國家戰略被寫進“十三五”規劃綱要的當下迫切需要得到解答。北京大學國家發展研究院教授沈艶在接受海外網專訪時強調,在明確大數據局限性和可行性的基礎上,大數據產業才能夠扎實發展。
警惕大數據應用陷阱
儘管大數據的定義見仁見智,但其海量的數據規模、動態的數據體系、多樣的數據類型等是業界的共識。沈艶表示,大數據能夠以前所未有的精細度描畫世界,如運用得當,能夠幫助人們快速刻畫新舊經濟更替,給予產業發展方向以可視化指導,並為政府決策提供參考。
但是,大數據應用也面臨陷阱,沈艶表示,“有一種看法認為,有了大數據就有了總體,就不再需要科學抽樣了。”這種“大數據自大”傾向之所以值得警惕,一方面在於,數據反映的信息可能只是總體的一部分;另一方面,總體可能會在時間推移中發生變化。例如,“使用谷歌搜索流感相關信息的用戶”和“美國流感人群”這個總體並不完全重合,因此用後者預測流感趨勢存在先天不足。
陷阱的出現與大數據的收集方式息息相關。沈艶指出,傳統數據或者來自問卷調查,或者即便是經營活動留下的數據,也往往有規範標準,使得數據含義前後可比。而大數據更多是生產經營等各類活動的附屬產品,當服務於主營業務的系統架構不斷變化,數據生成規律將隨之變化。而數據分析方很可能對此全然不知或不能深刻體會,沿用以往的分析方法,就很容易產生結論的偏差。
|