到了2020年,人類一年所產生的數據將是1000個谷歌或10000個百度,在數據化生存時代,企業要做哪些準備?

在大數據啟蒙階段,《大數據時代》作者、牛津大學教授維克托·邁爾·舍恩伯格曾應邀去多家中國著名企業宣講過大數據帶來的變革;最近一年,各類大數據方案企業也開始越來越多地談論大數據技術的實現。

今年夏季,在騰訊舉辦的大數據論壇上,騰訊高管與來自全球最頂尖的學者熱烈地討論著大數據的各種迷思——隱私、互聯互通和數據交易。在最近一個大數據的活動中,大數據開源技術Hadoop之父Doug Cutting以及大數據鏈條上掌握著命脈的「原油型」公司——英特爾和Cloudera的牛人們再次聚首。

數據化生存

IT行業的「指數效應」威力驚人,比如,IT的基石晶元行業有個摩爾定律,每18個月晶元上集成的晶體管數會翻番,由此會帶來一系列指數式連鎖反應——CPU的性能翻番,晶元的成本折半,功耗也會折半。這也就是大家為什麼看到電子產品快速降價的根本原因。

市場調研公司IDC認為,大數據行業也有「摩爾定律」。英特爾中國研究院院長吳甘沙非常認同這個說法,他曾是英特爾中國研究院首位「首席工程師」,主持大數據研究。「如果說摩爾定律是我們所在的指數社會的基因,那麼大數據就是指數社會的蛋白質。」吳甘沙說。

有人說大數據是新的原材料、新的原油、新的資產,甚至是新的貨幣,而吳甘沙認為,人類現在的生存就是一場數據化生存。人類社會的各類設備在不停地感知、傳輸、存儲數據。今天,人們認為谷歌可能是最大的數據擁有者之一,但按照指數增長規律,到2020年,一年所產生的數據將是1000個今天的谷歌或10000個百度。

「我們看到數據和計算能力在過去15年間一直呈現指數級增長,這種增長給我們帶來了根本性變化——不能再看單獨的數據,而是把全部數據放在一起來考慮,來描繪出對人、企業或是業務的高清晰圖像。」大數據之父Doug Cutting說,「這件事是一個革命性、階段性的變化。」Doug Cutting是開源技術世界中一個很具影響力的人物,他打造了目前在雲計算和大數據領域裡如日中天的開源技術Hadoop。他是Apache 基金會主席,也是大數據平台企業Cloudera的首席技術官。

大量、快速增長的數據需要實時儲存、整合和分析,過去的IT架構已經無法應付,這就促成了一種名為Hadoop開源新架構的誕生,這是個可以無限擴容的分布式計算結構。

在這個無限擴容開放式架構的發展大勢下,IT業界才倡導了「軟體定義基礎設施」的趨勢,把計算、存儲和網路做成開放式的標準模塊,降低設施的門檻;在基礎設施之上,推動開放、可信數據處理平台Hadoop;在此之上,推動整個生態圈的創新,實現各類分析應用,把高級分析功能平民化,使得它能邁入主流市場,實現規模經濟。

數據咖啡館

騰訊高級副總裁湯道生曾請教歐洲信息哲學創始人、牛津大學教授Luciano Floridi一個困擾騰訊大數據應用的問題——數據如何互聯互通,這對於發揮數據的價值至關重要。

現在,數據已成為各個組織的商業資產,數據交換成為一個挑戰。Luciano以人類早先對石油資源的應對方式進行類比:挪威當年建立了複雜的綜合體系去處理自然資源,從而讓整個人群受益。現在,政府和手握數據的企業也有責任去摸索一個綜合體系,把數據的價值擴大到廣泛的人群。

在英特爾,吳甘沙他們也正在開展「數據安全流通以及定價」這樣的研究。英特爾有一個研究平台,叫做「數據咖啡館」,意思是希望這個平台能像咖啡館那樣起到「匯聚」作用,匯聚不同領域、不同企業的數據,一起來產生新的價值。這裡面需要大量的核心技術,例如,頂層的多方安全計算、數據審計及定價等。

英特爾與美國癌症研究機構開展合作。癌症是一個典型的長尾病症。過去50年來,癌症的治癒率僅僅提升了約8%,這是因為研究機構擁有的基因組樣本太少了。如果通過「數據咖啡館」把基因組樣本聚合起來,就能期待癌症技術獲得突破。而聚合就需要數據交易。

在某種程度上,目前的數據是論斤按兩來交易的,因為數據的價格很難衡量與預測。「在這樣一種數據不易定價的情況下,我們的理念是先用起來,在使用過程中去發現它的價值。」吳甘沙說。

在英特爾宏大的願景中,希望在2020年之前,一天之內能完成三件事:對病人進行全基因組測序,鎖定癌症的相關基因,形成個性化的用藥以及修復方案。現在癌症很難治癒的原因是新葯更新速度趕不上癌細胞的變化速度,有了大數據技術,癌症治癒率將指日可待。

數據交易只是英特爾在大數據研究上的重要方向之一。英特爾的其他重要研究領域還涵蓋兩個重要領域:數據與機器的關係——什麼樣的可擴展架構能更好地存儲和處理數據;人和數據之間的關係——什麼樣的分析工具能增強人的分析能力。

以往,在英特爾,1~3年的事由產品部門來做,3~5年的由英特爾研究院來做,5~8年的與大學合作研究。但在這樣一個不可預測的時代下,英特爾把對「大數據」的研發周期進一步縮短,與大學合作研究的技術也希望儘快推向市場,像Spark、集成了數據分析及交換的Datahub,內存資料庫H-Store、可視化、深度學習(Deep learning)等。

大數據之星

今年3月,英特爾以7.4億美元收購了Cloudera18%的股份,成為Cloudera的戰略投資者。一家IT巨頭的高管評論說:「英特爾佔領了大數據領域的制高點。」

Cloudera是一家在大數據領域起著關鍵作用的創新企業。它由來自Facebook、谷歌、雅虎和甲骨文的高管和工程師在2008年創建,其商業模式類似Linux領域的開源軟體企業紅帽公司(Red Hat)。

Cloudera中國專區>>>

開源技術的開發類似今天互聯網世界的眾籌模式——成千上萬背景不同的技術愛好者聚集在一個「開源社區」中,一起創造一個他們熱愛的軟體技術,人們可以自由使用。在此過程中,紅帽創造了一種名為「訂閱」的商業模式,它基於開源社區的軟體,通過更多測試和驗證,開發出更穩定、更易用的「企業版」。用戶可以免費使用它,但如果需要技術支持和諮詢服務就要付費。Cloudera仿照紅帽模式,提供企業級Hadoop平台的服務。

如今,Cloudera已經帶頭形成全球最大的大數據生態鏈,有1200個合作夥伴。在美國,每天70%的智能手機數據都是在Cloudera平台上進行處理的。同時,Cloudera對新興大數據領域進行普及,在全球培訓了5萬多名Hadoop專家。

9月,Cloudera落戶中國。苗凱翔成為其在中國的第一個員工,擔任該公司中國區副總裁。之前,他在英特爾負責大數據業務,參與了中國第一個Hadoop項目——2011年中國移動的通話詳單查詢項目。

苗凱翔發現,美國的大數據業務發展要比中國早兩年,美國很多集群規模都已是上千個節點,中國才幾十個,他預計明年中國企業會部署更大的集群。

「中國的企業,如運營商、銀行在大數據的規划上越來越務實,設想也越來越大。目前他們要先想清楚大數據的商業價值。」苗凱翔說,「還要考慮清楚用大數據的目的是節省成本,還是創造價值,這是大數據的兩個主題。」

苗凱翔用全球最大在線支付公司的實踐來說明 財務報表數據的意義。這家企業本來用小型機做數據存儲,在備份系統建設中,如果使用同樣的小型機,一套就要上千萬美元,太昂貴。最後,它們購買了Hadoop平台。Hadoop已經足夠穩定、容量非常龐大,成本只是小型機的幾十分之一甚至幾百份之一,可以為企業節省可觀的成本。這是企業使用大數據技術的第一步。之後,這家企業又基於Hadoop平台開展新業務,例如,給自己的客戶提供各種報表,僅這項業務就為企業創造了百億美元的銷售額。

Hadoop非常複雜,苗凱翔認為,Cloudera的意義是能在中國把它構架起來、跑起來。他希望把Cloudera在金融、電信、零售、製造、政府和醫療領域的實踐帶到中國。

伴隨Cloudera 在中國落地,其全球性合作夥伴Oracle、HP、DELL、SAS等會與Cloudera有更多在中國的合作。同時,它也在找尋本土合作夥伴,像博康智能這樣在一個細分市場做得出色的系統集成商。明年第一季度,Cloudera也會在中國開展培訓業務。目前,苗凱翔團隊在與中國客戶溝通,探討Cloudera在中國的商業模式。

未來之路

近些年,Doug Cutting一直推進Hadoop在企業級市場的實踐。讓他欣慰的是Hadoop在各行業中開展的實踐。

讓他印象最深的是一家信用卡公司。之前,這家企業檢驗欺詐行為需要3個月,當它採用Hadoop分析過往5年的交易歷史後,發現了一個欺詐模式,這個模式在多年中會連續出現。於是,這家信用卡公司採用了Hadoop技術,不僅節省了很多成本,效果也非常好。

Doug Cutting也曾拜訪過一家位於亞特蘭大的兒童醫院。在醫院的一間急診室中,有幾十個早產兒。嬰兒身上有很多監測器,醫護人員可以通過屏幕來看這些數據。一開始,這些數據隨時就被扔掉了。後來,人們把 報表軟體數據從那些老式電腦中取出來,存儲起來並進行分析。他們發現,為了檢測孩子的身體狀況,護士每天都要在孩子腳底扎針取血,一開始孩子們會哭,過了幾天他們就不哭了。可是,當人們看到這些數據時會發現,實際上,在扎針取血後30分鐘內,嬰兒的心跳和呼吸都特別快,他們非常緊張,這對他們的健康不利。這幫助醫護人員了解了很多情況,並改進了他們對嬰兒的護理。

「我們看到越來越多的行業,正在利用大數據分析來提升業績。」Doug Cutting說,「這些企業並不僅局限於高科技產業,它們還來自其他行業,比如採礦業、交通業。」

目前,大企業是最早採用大數據分析平台的,Doug Cutting觀察到,這些企業通常是從個別部門開始使用Hadoop,然後擴展到其他部門。Doug Cutting認為,未來會有越來越多的中小企業使用Hadoop。在美國,一些小型農場主甚至農民,現在也是大數據的生產者——他們有GPS定位設備,他們的拖拉機和其他機械設備也收集了大量數據,通過這些數據可以更好地分析土壤狀況,提高播種效率和產量。

「我們看到這個趨勢正在在很多行業不斷蔓延開來。」 Doug Cutting說,「一些規模更小的公司,也將在接下來的5~10年中越來越多地去使用大數據。」

Doug Cutting還提到一個業界認同的大趨勢——企業會越來越多地使用數據中心,把數據中心作為自己的「默認平台」,使用上面不同的應用程序。「智能手機既是手機,也是照相機、遊戲機、電子書……因為它就在那兒,你知道怎麼使用它,而且它上面也集成了所有的生活工具。」 Doug Cutting 說,「未來企業數據中心的作用也類似,所有的工具都集成在上面,企業可以選擇使用。」

FineRepor報表免費下載——零編碼做報表、多維圖表、多源填報、許可權管理,完美兼容excel。官網:http://www.finereport.com/tw/

arrow
arrow
    全站熱搜

    leohope 發表在 痞客邦 留言(0) 人氣()