擁抱大數據走近大數據分析工具

★★★★★【文章導讀】：擁抱大數據走近大數據分析工具具體內容是：大數據的好處嚴格地說，大數據并非一個新詞...

來源：日期：2013-11-3 17:28:00 人氣：標簽：

大數據的好處

嚴格地說，大數據并非一個新詞，被譽為“數據倉庫之父”的bill inmon早在上世紀90年代就經常將“big data”掛在嘴邊了。大數據之所以在近一兩年迅速走紅，要歸結于互聯網、移動設備、物聯網和云計算的迅猛發展，它們使得人類每分每秒都在產生巨量數據——從出現文明到2003年，人類總共才創造 5 eb(5 exabytes)的數據，但現在全世界僅數天內就可創造出相同的數據量。來自idc全球存儲及大數據研究項目副總裁benjamin woo表示，到2020年，全球數據使用量預計暴增44倍，達到35.2zb。35zb是什么概念呢?(1zb=1024eb=1048576pb=1073741824tb，1073741824tb×35=37580963840tb)，也就是說全球大概需要376億個1tb的硬盤來存儲這些數據。

但是大數據并非單指數據量大，對于大數據，idc的定義是：“大數據是為了更經濟地從高頻率獲取的、大容量的、不同結構和類型的數據中獲取價值，而設計的新一代架構和技術。”人們普遍將該定義概括為四個“v”，即更大的容量(volume，從tb級躍升至pb級，甚至eb級)、更高的多樣性(variety，包括結構化、半結構化和非結構化數據)，以及更快的生成速度(velocity)。前面三個“v”的組合推動了第四個因素——價值(value),而關于大數據所蘊含的價值，有許多被人所津津樂道的故事可以佐證。

大數據的4v特性

早在19世紀，“百貨商店之父”約翰·沃納梅克便提出了：“我在廣告上的投資有一半是無用的，但是問題是我不知道是哪一半?”這也是對經典商業模式下供需不對稱的典型描述。而現在依靠大數據的分析預測能力，一些精明的零售商正在收集和挖掘消費大數據，針對顧客在網上的購買行為，投其喜好進行銷售與推廣，實現社交電子商務和庫存優化。

例如，大數據分析軟件有可能使零售商進行直接相關的促銷和營銷活動，激勵消費者進行網購，并跟蹤由此產生的銷售交易，大限度地提高消費，提高盈利能力，在短時間內產生大收益。比如trident marketing是一家營銷企業，其客戶包括directv等品牌，通過ibm大數據分析軟件的幫助，他們甚至可以預計客戶佳聯系時間以及客戶是否會取消購買服務。其營收在短短4年間增長了10倍，產品部署后頭兩個月的銷售額增長10%，而且其客戶流失率降低了50%。

去年，西班牙電信推出了名為“智慧足跡”的大數據服務，通過向數據挖掘公司等合作方提供定向人流的移動數據，為零售客戶開店選址和促銷提供借鑒。另一個典型的案例是，2012年成功獲得連任的美國總統奧巴馬背后，有一個幾十人的數據分析與挖掘團隊，幫助他在獲取有效選民、投放廣告、募集資金等方面發揮作用。

從以上的例子不難看出，大數據的價值和重要性已經毋庸置疑。不過現在關鍵的問題是，每個企業如何才能獲取大數據中的“寶藏”呢?

hadoop，大數據分析利器

　　對于較大的公司來說，海量數據處理已經不是什么新鮮的東西了。例如，twitter和linkedin已經是大數據的著名用戶了，這兩家公司已經奠定了明顯的競爭優勢，通過挖掘他們的大規模數據倉庫來判斷發展趨勢。那么，中型企業的cio該怎么辦呢?幸運的是，手邊就有可用的工具。這些工具中有一款是免費的，那就是hadoop，它基于java的apache hadoop編程框架。hadoop是一個分布式系統基礎架構，由apache基金會開發，用戶可以在不了解分布式底層細節的情況下開發分布式程序。簡單來說，hadoop是一套開源的、以java為基礎的、可對pb級別的大數據進行存儲和計算的軟件平臺，它能夠讓數千臺x86服務器組成一個穩定的、強大的集群。而對那些想充分利用大數據的it專業人員，hadoop解決了與大數據相關聯的常見的問題：高效的存儲和訪問海量數據。

利用hadoop可進行高效存儲和訪問海量數據

hadoop主要由hdfs、mapreduce和hbase組成，其內在設計讓它能夠在大量不共享任何內存和磁盤的計算機平臺上運行。考慮到這一點，就能很容易看到hadoop提供的價值——網絡管理員可以購買許多商品服務器，將它們放在機架上，然后在每臺服務器上運行hadoop軟件，hadoop有助于減少大型數據集相關聯的管理開銷。在操作上，一旦企業的數據加載到hadoop平臺，軟件就會把數據分解成可管理的段，然后自動將這些數據分配給不同的服務器。同時hadoop跟蹤數據駐留的位置，并通過創建多個存儲副本進一步保護這些信息。這樣，系統的伸縮性增強了，如果某個服務器脫機或者失敗了，數據可以自動復制已知的正常副本。

hadoop的工作原理

　　hadoop在過去一年半時間里在大數據領域獲得了極大的肯定。調查顯示，以hadoop為代表的分布式存儲與計算技術成為受關注的數據分析管理新技術，市場比例達到29.86%；其次是以sap hana為代表的內存數據庫技術，市場比例達到23.30%；以google cloud sql為代表的云數據庫排名第三，市場比例為16.29%。考慮到apache hadoop1.0版是在2011年11月底發布的這一事實，hadoop獲得這么多企業的認可確實令人驚訝。作為大數據分析方面的一項重要技術，大規模使用hadoop已是必然趨勢。目前谷歌、雅虎、亞馬遜、facebook，以及國內的淘寶、百度等都采用了hadoop技術來處理海量數據。hortonworks公司的ceo eric baldeschwieler預測：在2017年hadoop將處理全世界數據的半數之多，而全球的行業專家和用戶們都把hadoop稱為事實上的數據分析標準。

it巨頭借hadoop發力大數據

盡管hadoop是開源軟件，但英特爾、ibm、cloudera等廠商都推出了他們各自的hadoop特別發行版本。這些特別發行版本一般都會有一些附加特性，比如高級管理工具及相關的支持維護服務，主要適合企業用戶使用。畢竟絕大多數企業用戶都和互聯網公司一樣具有強大的技術實力，采用具有商業支持的開源hadoop技術能夠快速切入到大數據應用中去。

如針對企業大數據方向開發者，ibm就推出了多款產品和技術。其新版本企業級hadoop產品infosphere biginsights可以利用現有的sql技術，更便捷地開發應用組件。兼具安全性強和高可用性的特點，新版的infosphere biginsights能夠更加契合企業部署需求。惠普則在接連收購vertica和autonomy后，也推出了與vertica 6實現高級集成的大數據應用平臺——hp appsystem for apache hadoop。而英特爾針對大數據的開放架構核心產品線，也推出了英特爾hadoop分發版，讓用戶可以實現“軟硬協同、體驗至上”的創新效果。例如，利用英特爾至強處理器平臺對網絡和i/o技術所做的優化，與英特爾hadoop分發版進行強力組合，以往分析1tb的數據需要4個多小時才能完全處理完，現在僅需要短短的7分鐘即可完成，極大地提升了大數據分析的速度。

英特爾推出的hadoop分發版

當然，微軟也不會缺陣這場大數據的盛宴。結合對大數據本身的認知和自身強大的產品組合，微軟正在為用戶提供一個端到端的大數據解決方案。簡單來說，就是后端以新一代sql server 2012為基準平臺，將大數據“管“起來，然后在中端以數據集市為依托，配以豐富的數據應用，后在前端以豐富的界面形式展現數據分析的結果，完成數據的匯總→應用與分析→結果呈現的完整流程。為幫助企業快速應用其大數據解決方案，微軟將同時在windows azure平臺和windows server平臺上提供hadoop(在前者上用作基于云的服務，在后者上用作內部部署的分布)。此外，cloudera、splunk 、clustrix、1010data等一些新興的大數據企業異軍突起，它們力爭在未來龐大的市場需求中搶占一定的份額。不過，令人遺憾的是，國內類似的大數據創新企業還比較少，希望這一局面能夠盡早得到改變。

小結：大數據的角逐已經開始了。今年大數據市場規模將進一步膨脹，一些新的細分市場將會出現。例如，以數據分析和處理為主的高級數據服務，將出現以數據分析作為服務產品提交的分析即服務業務；將多種信息整合管理，創造對大數據統一的訪問和分析的組件產品；基于社交網絡的社交大數據分析。不過，從大的環境來看，目前大數據發展還處于起步階段，無論是軟件技術、硬件技術還是軟硬件一體化的技術，國內企業要想在大數據發展中搶到更多的話語權，現在就必須高度重視并著手在大數據應用實踐中找準切入點。要知道，忽略數據分析大勢的cio們實際上是在拿自己的職業冒險。

【看看這篇文章在百度的收錄情況】