大數(shù)據(jù),這樣采這樣用
發(fā)布時間:2015-04-20雖然大數(shù)據(jù)早已不是什么新鮮詞,而且大家都能說上兩句自己心中大數(shù)據(jù)的模樣,可一旦細究起來,到底什么是大數(shù)據(jù),大數(shù)據(jù)從何而來,如何應用,相信不少人就說不清楚了。
由東北大學、沈陽市政府及戰(zhàn)略投資者共同投資成立的東北大學東網(wǎng)科技有限公司,其超算中心和云計算中心擁有1170萬億次/秒計算能力、30PB云存儲空間。目前,東網(wǎng)科技與沈陽市環(huán)保局合作,正在通過大數(shù)據(jù)技術開展大氣環(huán)境監(jiān)測預報。懷揣著對大數(shù)據(jù)的好奇,記者走訪了這家公司。
獲取10%的信息量,預測剩余90%,這是小數(shù)據(jù);而掌握90%的信息量,預測余下的,則是大數(shù)據(jù)
在一片尚未平整完畢的荒野中,矗立著一座極具現(xiàn)代科技感的建筑物:深藍色的圓形玻璃幕墻、航空級別的安保設施。此種場景,和美國科幻大片中看到的場景倒有幾分相似。
經(jīng)過一系列安保檢查,記者得以進入東網(wǎng)科技的超算中心和云計算中心,一臺臺超過2米的黑色機柜密密麻麻地排列在機房中?!白笫诌吺浅売嬎銠C,右手邊是云存儲器”,東網(wǎng)科技工作人員許冕介紹說。
這和大數(shù)據(jù)有什么關系?“超算能力和云存儲就相當于大數(shù)據(jù)的大腦,是大數(shù)據(jù)必備的硬件條件”,東網(wǎng)科技總經(jīng)理楊寶衛(wèi)打了個比喻。對于東網(wǎng)科技擁有的1170萬億次/秒的超算能力,楊寶衛(wèi)說,這在目前國內(nèi)的超級計算機中名列前茅,而30PB則是一個存儲容量,相當于約50萬個容量為64GB智能手機存儲容量總和。
那到底什么是大數(shù)據(jù)?從網(wǎng)絡上查詢,答案五花八門?!搬槍δ骋皇挛?,如果了解了10%的信息量,預測剩余的90%,這是小數(shù)據(jù),需要抽樣然后概率分析;而掌握80%―90%的信息量,預測余下的10%―20%,則是大數(shù)據(jù)。也就是說,大數(shù)據(jù)是對某一事物的樣本空間的覆蓋,通過智能分析,對事物進行預測預報”,楊寶衛(wèi)試圖用最簡單的話來說明他所理解的大數(shù)據(jù)。
對于大數(shù)據(jù),楊寶衛(wèi)趣稱為“經(jīng)驗主義的復活”。過去我們是通過觀察和經(jīng)驗,經(jīng)過大腦的分析總結后,指導人類活動,比如一些天象的觀察等。后來,人類發(fā)展到一定階段后,信息越來越多,人腦計算不過來,就發(fā)明了電腦來幫助處理信息?,F(xiàn)在的超算就能夠幫助處理更多的信息,而大數(shù)據(jù)下的超算,就是通過大量可信賴樣本提供的經(jīng)驗,對復雜事件進行計算和預測。
天氣預報就是個直觀的例子。人類能夠進行天氣預報,是因為一個事物通過足夠的數(shù)據(jù)完全可以在數(shù)字世界里進行虛擬的演化。那么對天氣預報來說,我們把今天的天氣數(shù)據(jù)放到電腦里,在虛擬世界里模擬天氣的變化?;蛟S超算只需要10分鐘,就可以預測某地3天后的天氣狀況。
大數(shù)據(jù)技術包括數(shù)據(jù)采集―傳輸―集中存儲―再處理―再應用等過程,其中采集是關鍵
大數(shù)據(jù)來自何方,通過什么途徑我們可以獲取這些數(shù)據(jù)?不少人直觀的感受是:數(shù)據(jù)主要來自于互聯(lián)網(wǎng)。
楊寶衛(wèi)認為,獲取數(shù)據(jù)目前有三個渠道:第一,來自于互聯(lián)網(wǎng)的數(shù)據(jù)。比如阿里巴巴的交易數(shù)據(jù)、百度的查詢數(shù)據(jù)、騰訊的交流溝通數(shù)據(jù),“這些還都是外圍的”。
第二,來源于政府的數(shù)據(jù)。這才是真正的核心數(shù)據(jù)。比如經(jīng)濟運行數(shù)據(jù)、人口數(shù)據(jù)、地理數(shù)據(jù)、政府服務數(shù)據(jù)、公共服務數(shù)據(jù)。
第三,對原有世界的數(shù)據(jù)再次采集,這源于我們更多更先進的技術手段采集到更多的數(shù)據(jù),這就是如日中天的物聯(lián)網(wǎng)。我們要讓每一個物體都是傳感器,時刻在回傳數(shù)據(jù),物聯(lián)網(wǎng)的發(fā)展會極大地豐富數(shù)據(jù)。
然而,大數(shù)據(jù)真正的核心數(shù)據(jù)――政府所掌握的數(shù)據(jù)目前大多都處于“死機”狀態(tài),如何激活還有待探索。業(yè)內(nèi)許多專家呼吁,在保證信息安全的基礎上,政府可開放一些并不敏感的數(shù)據(jù),實行數(shù)據(jù)的可交易、資產(chǎn)化,據(jù)了解,上海已經(jīng)開始建設數(shù)據(jù)交易所。
楊寶衛(wèi)認為,大數(shù)據(jù)技術包括數(shù)據(jù)的采集―傳輸―集中存儲―再處理―再應用等一系列過程。其中,數(shù)據(jù)的采集是關鍵。
“大數(shù)據(jù)并不是今天做,明天就有,它是臺階式的發(fā)展。我們目前就在某些領域里進行數(shù)據(jù)收集和智能分析,讓它能夠預測預報”,楊寶衛(wèi)介紹說,比如目前中心與沈陽、本溪合作建設智慧城市,就是把一些相關信息進行集中,同時中心還從事互聯(lián)網(wǎng)的一些商業(yè)應用。這些都是數(shù)據(jù)的采集和集中。
采集之后,就是傳輸環(huán)節(jié),如何能夠快速地傳輸?這涉及運營商、基礎設施通訊等方面。接下來是數(shù)據(jù)存儲環(huán)節(jié),也就是云計算中心的價值所在。然后是數(shù)據(jù)的處理和再處理,這就要用到超算。最后就是數(shù)據(jù)的再應用,這是各個軟件公司、信息服務公司要做的事情。
隨著在醫(yī)療、環(huán)保、航空等更多領域的廣泛應用,大數(shù)據(jù)將實實在在地改變?nèi)藗兊娜粘I?/span>
業(yè)內(nèi)專家認為,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這個產(chǎn)業(yè)實現(xiàn)盈利的關鍵,在于對數(shù)據(jù)的高加工能力,通過加工實現(xiàn)數(shù)據(jù)的增值。簡單地說,就是大數(shù)據(jù)要實現(xiàn)高效應用。
“目前,東網(wǎng)科技已經(jīng)在大數(shù)據(jù)應用方面做出努力和嘗試”,據(jù)介紹,針對霧霾天氣,東網(wǎng)科技公司自2013年10月起就與沈陽市攜手創(chuàng)建了“環(huán)保云”。東網(wǎng)公司與沈陽市環(huán)保局就空間信息需求對接,為PM2.5監(jiān)測治理提供解決方案。公司首先啟動了沈陽市市轄區(qū)未來三天大氣污染狀況預報項目,利用自主研發(fā)的大氣成分反演模型和遙感數(shù)據(jù)處理軟件,進行沈陽市冬季供暖期大氣環(huán)境監(jiān)測預報,為排放管控和污染治理提供科學手段。
“大數(shù)據(jù)技術可以促進醫(yī)療、環(huán)保、教育等民生問題的解決”,楊寶衛(wèi)說,隨著大數(shù)據(jù)技術的進一步完善,其應用必將給人們的生活帶來實實在在的改變?!敖o早產(chǎn)兒戴上傳感器,可以分分秒秒收集他(她)身上的海量個人生理信息,通過數(shù)據(jù)分析就能找到這個嬰兒在將來出現(xiàn)感染的幾率從而及早預防;收集飛機飛行時的空氣信息,以實現(xiàn)飛機的自動飛行?!边@些場景都將逐步實現(xiàn)。城市將更聰明,生活將更智慧。
據(jù)介紹,基于大數(shù)據(jù)技術,還可模擬基因的演化,藥廠也可以用計算機進行成千上萬的病例與藥物的作用演化。水稻種植實驗,一個品種在種下去一年后,才能看得到結果。未來只要把基因數(shù)據(jù)放入計算機,很快就能看到結果,這樣可以大大加快科研進程。
大數(shù)據(jù)技術的發(fā)展也引發(fā)了人們對于信息和隱私安全問題的擔憂。楊寶衛(wèi)對此持樂觀態(tài)度:通過發(fā)展技術、加強管理、完善法律等多方面的努力,問題將逐步得到解決。