大數據時代存儲所面對的問題
瀏覽量: 次 發布日期:2023-08-11 21:12:45
大數據時代存儲所面對的問題
大數據是指無法在一定時間內用常規軟件工具對其內容實行抓取、經營管理和處理的數據集合。大數據技術,是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用于大數據的技術,包含大規模并行處理(MPP)數據庫,數據挖掘電網,分布式文件系統,分布式數據庫,云計算平臺,互聯網,和可擴展的存儲系統。
大數據由巨型數據集組成,這些數據集大小常超出人類在可接受時間下的收集、庋用、經營管理和處理能力。大數據的大小經常改變,截至2012年,單一數據集的大小從數太字節(TB)至數十兆億字節(PB)不等。
在一份2001年的研究與相關的演講中,麥塔集團(META Group,現為高德納)解析員道格·萊尼(Doug Laney)指出數據增長的挑戰和機遇有三個方向:量(Volume,數據大小)、速(Velocity,數據輸入輸出的速度)與多變(Variety,多樣性),合稱“3V”或“3Vs”。高德納與現在大部分大數據產業中的企業,都繼續使用3V來描述大數據。高德納于2012年修改對的定義:“大數據是大量、高速、及/或多變的信息資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最優化處理。”另外,有機構在3V之外定義第4個V:真實性(Veracity)為第四特點。
大數據必須借由計算機對數據實行統計、比對、解析方能得出客觀結果。美國在2012年就開始著手大數據,奧巴馬更在同年投入2億美金在大數據的開發中,更強調大數據會是之后的未來石油。數據挖掘(data mining)則是在探討用以解析大數據的方式。
具體來說,大數據具備4個基本特征:
一是數據體量巨大。百度資料表明,其新首頁導航每天需要提給的數據超過1.5PB(1PB=1024TB),這些數據如果打印出來將超過5千億張A4紙。有資料證實,到目前為止,人類出產的所有印刷材料的數據量僅為200PB。
二是數據類型多樣。現在的數據類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數據,個性化數據占絕對多數。
三是處理速度快。數據處理遵循“1秒定律”,可從各種類型的數據中快速獲得高價值的信息。
四是價值密度低。以視頻為例,一小時的視頻,在不間斷的監控歷程中,可能有用的數據僅僅只有一兩秒。
第一,對大數據的處理解析正成為新一代信息技術融合應用的結點。移動互聯網、物聯網、社交網絡、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。云計算為這些海量、多樣化的大數據提給存儲和運算平臺。通過對區別來源數據的經營管理、處理、解析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。
大數據具備催生社會變革的能量。但釋放這種能量,需要嚴謹的數據治理、富有洞見的數據解析和激發經營管理創新的環境(Ramayya Krishnan,卡內基·梅隆大學海因茲學院院長)。
第二,大數據是信息產業持續高速增長的新引擎。面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬件與集成設備領域,大數據將對芯片、存儲產業產生重要影響,還將催生一體化數據存儲處理服務器、內存計算等市場。在軟件與服務領域,大數據將引發數據快速處理解析、數據挖掘技術和軟件產品的進展。
第三,大數據利用將成為提高核心競爭力的關鍵因素。各行各業的決策正在從“業務驅動” 轉變“數據驅動”。
對大數據的解析可以使零售商實時掌握市場動態并迅速做出應對;可以為商家制定更加精準有效的營銷策略提給決策支持;可以幫助企業為消費者提給更加及時和個性化的服務;在醫療領域,可提高診斷準確性和藥物有效性;在公共事業領域,大數據也開始發揮促進經濟進展、維護社會穩定等方面的重要作用。
第四,大數據時代科學研究的方式手段將發生重大改變。例如,抽樣調查是社會科學的基本研究方式。在大數據時代,可通過實時監測、跟蹤研究對象在互聯網上產生的海量行為數據,實行挖掘解析,揭示出規律性的東西,提出研究結論和對策。
眾所周知,大數據已經不簡簡單單是數據大的事實了,而最重要的現實是對大數據實行解析,只有通過解析才能獲取很多智能的,深入的,有價值的信息。那么越來越多的應用涉及到大數據,而這些大數據的屬性,包含數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,所以大數據的解析方式在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基于如此的認識,大數據解析普遍存在的方式理論有哪些呢?
1. 可視化解析。大數據解析的使用者有大數據解析專家,同時還有普通用戶,但是他們二者對于大數據解析最基本的要求就是可視化解析,因為可視化解析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
2. 數據挖掘算法。大數據解析的理論核心就是數據挖掘算法,各種數據挖掘的算法基于區別的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統計學家所公認的各種統計方式(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的算法才能更快速的處理大數據,如果一個算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3. 預測性解析。大數據解析最終要的應用領域之一就是預測性解析,從大數據中挖掘出特點,通過科學的建立模型,之后便可以通過模型帶入新的數據,從而預測未來的數據。
4. 語義引擎。非結構化數據的多元化給數據解析帶來新的挑戰,我們需要一套工具系統的去解析,提煉數據。語義引擎需要設計到有足夠的人工智能足以從數據中主動地提取信息。
5.數據質量和數據經營管理。大數據解析離不開數據質量和數據經營管理,高質量的數據和有效的數據經營管理,無論是在學術研究還是在商業應用領域,都能夠保證解析結果的真實和有價值。
大數據解析的基礎就是以上五個方面,當然更加深入大數據解析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據解析方式。
數據采集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后實行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機解析處理、數據挖掘的基礎。
數據存取:關系數據庫、NOSQL、SQL等。
基礎架構:云存儲、分布式文件存儲等。
數據處理:自然語言處理(NLP,Natural Language Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,Natural Language Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
統計解析:假設檢驗、顯著性檢驗、差異解析、相關解析、T檢驗、方差解析、卡方解析、偏相關解析、距離解析、回歸解析、簡單回歸解析、多元回歸解析、逐步回歸、回歸預測與殘差解析、嶺回歸、logistic回歸解析、曲線估計、因子解析、聚類解析、主成分解析、因子解析、快速聚類法與聚類法、判別解析、對應解析、多元對應解析(最優尺度解析)、bootstrap技術等等。
數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測:預測模型、機器學習、建模仿真。
結果呈現:云計算、標簽云、關系圖等。
1. 大數據處理之一:采集
大數據的采集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的數據,并且用戶可以通過這些數據庫來實行簡單的查詢和處理工作。比如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。
在大數據的采集歷程中,其緊要特點和挑戰是并發數高,因為同時有可能會有成千上萬的用戶來實行訪問和操作,比如火車票售票網站和淘寶,它們并發的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間實行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二:導入/預處理
雖然采集端本身會有很多數據庫,但是如果要對這些海量數據實行有效的解析,還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據實行流式計算,來滿足部分業務的實時計算需求。
導入與預處理歷程的特點和挑戰緊要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。
3. 大數據處理之三:統計/解析
統計與解析緊要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據實行普通的解析和分類匯總等,以滿足大多數常見的解析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。
統計與解析這部分的緊要特點和挑戰是解析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。
4. 大數據處理之四:挖掘
與前面統計和解析歷程區別的是,數據挖掘一般沒有什么預先設定好的主題,緊要是在現有數據上面實行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據解析的需求。比較典型算法有用于聚類的Kmeans、用于統計學習的SVM和用于分類的NaiveBayes,緊要使用的工具備Hadoop的Mahout等。該歷程的特點和挑戰緊要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。
一、數據不等于信息
經常有人把數據和信息當作同義詞來用。其實不然,數據指的是一個原始的數據點(無論是通過數字,文字,圖片還是視頻等等),信息則直接與內容掛鉤,需要有資訊性(informative)。數據越多,不一定就能代表信息越多,更不能代表信息就會成比例增多。有兩個簡單的例子:
備份。很多人如今已經會定期的對自己的硬盤實行備份。這個沒什么好多解釋的,每次備份都會創造出一組新的數據,但信息并沒有增多。
多個社交網站上的信息。我們當中的很多人在多個社交網站上活躍,隨著我們上的社交網站越多,我們獲得的數據就會成比例的增多,我們獲得的信息雖然也會增多,但卻不會成比例的增多。不單單因為我們會互相轉發好友的微博(或者其他社交網站上的內容),更因為很多內容會十分類似,有些微博雖然具體文字區別,但表達的內容十分相似。
二、信息不等于智慧(Insight)
現在我們去除了數據中所有重復的部分,也整合了內容類似的數據,現在我們剩下的全是信息了,這對我們就一定有用嗎?不一定,信息要能轉化成智慧,至少要滿足一下三個標準:
可破譯性。這可能是個大數據時代特有的問題,越來越多的企業每天都會出產出大量的數據,卻還沒想好怎么用,因此,他們就將這些數據暫時非結構化(unstructured)的存儲起來。這些非結構化的數據卻不一定可破譯。比如說,你記錄了某客戶在你網站上三次翻頁的時間間隔:3秒,2秒,17秒,卻忘記標注這三個時間到底代表了什么,這些數據是信息(非重復性),卻不可破譯,因此不可能成為智慧。
關聯性。無關的信息,至多只是噪音。
新穎性。這里的新穎性很多時候無法僅僅根據我們手上的數據和信息實行判斷。舉個例子,某電子商務企業通過一組數據/信息,解析出了客戶愿意為當天送貨的產品多支付10塊錢,然后又通過另一組完全獨立的數據/信息得到了同樣的內容,這樣的狀況下,后者就不具備新穎性。不幸的是,很多時候,我們只有在處理了大量的數據和信息以后,才能判斷它們的新穎性。
隨著大數據應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網絡以及計算技術的進展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬件的進展最終還是由軟件需求推動的,就這個例子來說,我們很明顯的看到大數據解析應用需求正在影響著數據存儲基礎設施的進展。
從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及解析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基于塊和文件的存儲系統的架構設計以適應這些新的要求。在這里,我們會討論哪些與大數據存儲基礎設施相關的屬性,看看它們如何迎接大數據的挑戰。
容量問題
這里所說的“大容量”通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機。基于這樣的需求,客戶現在越來越青睞Scale-out架構的存儲。Scale-out集群結構的特點是每個節點除了具備一定的存儲容量之外,內部還具備數據處理能力以及互聯設備,與傳統存儲系統的煙囪式架構完全區別,Scale-out架構可以實現無縫平滑的擴展,避免存儲孤島。
“大數據”應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何經營管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基于對象的存儲架構就不存在這個問題,它可以在一個系統中經營管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據經營管理的困擾。基于對象的存儲系統還具備廣域擴展能力,可以在多個區別的地點部署并組成一個跨區域的大型存儲基礎架構。
延遲問題
“大數據”應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。舉個例子來說,網絡成衣銷售行業的在線廣告推廣服務需要實時的對客戶的瀏覽記錄實行解析,并準確的實行廣告投放。這就要求存儲系統在必須能夠支持上述特性同時保持較高的響應速度,因為響應延遲的結果是系統會推送“過期”的廣告內容給客戶。這種場景下,Scale-out架構的存儲系統就可以發揮出優勢,因為它的每一個節點都具備處理和互聯組件,在增加容量的同時處理能力也可以同步增長。而基于對象的存儲系統則能夠支持并發的數據流,從而進一步提高數據吞吐量。
有很多“大數據”應用環境需要較高的IOPS性能(IOPS (Input/Output Operations Per Second),即每秒實行讀寫(I/O)操作的次數,多用于數據庫等場合,衡量隨機訪問的性能),比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在服務器內部做高速緩存,大到全固態介質的可擴展存儲系統等等都在蓬勃進展。
并發訪問一旦企業認識到大數據解析應用的潛在價值,他們就會將更多的數據集納入系統實行比較,同時讓更多的人分享并使用這些數據。為了創造更多的商業價值,企業往往會綜合解析那些來自區別平臺下的多種數據對象。包含全局文件系統在內的存儲基礎設施就能夠幫助用戶解決數據訪問的問題,全局文件系統允許多個主機上的多個用戶并發訪問文件數據,而這些數據則可能存儲在多個地點的多種區別類型的存儲設備上。
安全問題
某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對于IT經營管理者來說這些并沒有什么區別,而且都是必須遵從的,但是,大數據解析往往需要多類數據相互參考,而在過去并不會有這種數據混合訪問的狀況,因此大數據應用也催生出一些新的、需要考慮的安全性問題。
成本問題
“大”,也可能意味著代價不菲。而對于那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一臺設備都實現更高的“效率”,同時還要減少那些昂貴的部件。目前,像重復數據刪除等技術已經進入到主存儲市場,而且現在還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投入回報。此外,自動精簡配置、快照和克隆技術的使用也可以提升存儲的效率。
很多大數據存儲系統都包含歸檔組件,尤其對那些需要解析歷史數據或需要長期保存數據的機構來說,歸檔設備必不可少。從單位容量存儲成本的角度看,磁帶仍然是最經濟的存儲介質,事實上,在許多企業中,使用支持TB級大容量磁帶的歸檔系統仍然是事實上的標準和慣例。
兆柏數據恢復公司對成本控制影響最大的因素是那些商業化的硬件設備。因此,很多初次進入這一領域的用戶以及那些應用規模最大的用戶都會定制他們自己的“硬件平臺”而不是用現成的商業產品,這一舉措可以用來平衡他們在業務擴展歷程中的成本控制戰略。為了適應這一需求,現在越來越多的存儲產品都提給純軟件的形式,可以直接安裝在用戶已有的、通用的或者現成的硬件設備上。此外,很多存儲軟件企業還在銷售以軟件產品為核心的軟硬一體化裝置,或者與硬件廠商結盟,推出合作型產品。
數據的積累
許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的解析大都是基于時間段實行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續實行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。
靈活性
大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用解析軟件一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種區別的應用類型和數據場景。
應用感知
最早一批使用大數據的用戶已經開發出了一些針對應用的定制的基礎設施,比如針對政府項目開發的系統,還有大型互聯網服務商創造的專用服務器等。在主流存儲系統領域,應用感知技術的使用越來越普遍,它也是改善系統效率和性能的重要手段,所以,應用感知技術也應該用在大數據存儲環境里。
小用戶怎么辦?
依賴大數據的不僅僅是那些特殊的大型用戶群體,作為一種商業需求,小型企業未來也一定會應用到大數據。我們看到,有些存儲廠商已經在開發一些小型的“大數據”存儲系統,緊要吸引那些對成本比較敏感的用戶。 1. 大數據應用案例之:醫療行業
[1] Seton Healthcare是采用IBM最新沃森技術醫療保健內容解析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療信息,通過大數據處理,更好地解析病人的信息。
[2] 在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鐘有超過3000次的數據讀取。通過這些數據解析,醫院能夠提前知道哪些早產兒出現問題并且有針對性地采取措施,避免早產嬰兒夭折。
[3] 它讓更多的創業者更方便地開發產品,比如通過社交網絡來收集數據的健康類App。也許未來數年后,它們搜集的數據能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中藥劑已經代謝完成會自動提醒你再次服藥。 2. 大數據應用案例之:能源行業
[1] 智能電網現在歐洲已經做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多余電的時候還可以買回來。通過電網收集每隔五分鐘或十分鐘收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網大概需要多少電。有了這個預測后,就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴。通過這個預測后,可以降低采購成本。
[2] 維斯塔斯風力系統,依靠的是BigInsights軟件和IBM超級計算機,然后對氣象數據實行解析,找出安裝風力渦輪機和整個風電場最佳的地點。利用大數據,以往需要數周的解析工作,現在僅需要不足1小時便可完成。 3. 大數據應用案例之:通信行業
[1] XO Communications通過使用IBM SPSS預測解析軟件,減少了將近一半的客戶流失率。XO現在可以預測客戶的行為,發現行為趨勢,并找出存在缺陷的環節,從而幫助企業及時采取措施,保留客戶。此外,IBM新的Netezza網絡解析加速器,將通過提給單個端到端網絡、服務、客戶解析視圖的可擴展平臺,幫助通信企業制定更科學、合理決策。
[2] 電信業者透過數以千萬計的客戶資料,能解析出多種使用者行為和趨勢,賣給需要的企業,這是全新的資料經濟。
[3] 中國移動通過大數據解析,對企業運營的全業務實行針對性的監控、預警、跟蹤。系統在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內獲知市場行情。
[4] NTT docomo(日本最大的移動通信運營商,擁有超過6千萬的簽約用戶)把手機位置信息和互聯網上的信息結合起來,為顧客提給附近的餐飲店信息,接近末班車時間時,提給末班車信息服務。 4. 大數據應用案例之:零售業
[1] "我們的某個客戶,是一家領先的專業時裝零售商,通過當地的百貨商店、網絡及其郵購目錄業務為客戶提給服務。企業希望向客戶提給差異化服務,如何定位企業的差異化,他們通過從Twitter 和 Facebook 上收集社交信息,更深入的理解化妝品的營銷模式,隨后他們認識到必須保留兩類有價值的客戶:高消費者和高影響者。希望通過接受免費化妝服務,讓用戶實行口碑宣傳,這是交易數據與交互數據的完美結合,為業務挑戰提給了解決方案。"Informatica的技術幫助這家零售商用社交平臺上的數據充實了客戶主數據,使他的業務服務更具備目標性。
[2] 零售企業也監控客戶的店內走動狀況以及與商品的互動。它們將這些數據與交易記錄相結合來展開解析,從而在銷售哪些商品、如何擺放貨品以及何時調整售價上給出意見,此類方式已經幫助某領先零售企業減少了17%的存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例。