虛擬化和開源讓數據庫與數據云和諧共存 |
發布時間: 2012/8/11 9:43:05 |
在2012年8月8日下午舉行的VMware &EMC大數據云高峰論壇上,VMware全球高級副總裁范承工分享數據管理技術的變遷時表示,數據、云及云的使用者的變化帶來的三大趨勢催生了將與傳統數據庫長期共存的數據云,而虛擬化技術和開源軟件則將架起兩方共同和諧生存的橋梁。
在當前大數據如火如荼的背景下,VMware和EMC雙方聯手舉辦此次論壇,共同就把握云計算與大數據技術的發展趨勢,結合Hadoop等大數據技術與云計算所具有的諸多優勢,介紹了其完整的大數據云解決方案,并分享了諸多客戶成功案例。 范承工從技術角度,分析了數據管理技術變遷的五大趨勢,數據獲取、分析方式的轉變,以及VMware在云計算與大數據方面的解決方案。本文將為您介紹這五大趨勢,以及五大趨勢可能帶來的市場格局變化。 三大趨勢催生數據云 數據庫是現在最領先的一個數據管理模式,它可以把數據進行很好的歸類,關系型數據庫可以把數據組織起來,進行很快的檢索,而且能夠進行交易型的處理。正因為關系型數據庫的產生,使得現在很多的應用都能夠非常順利的進行開發。 而在過去10幾年里,數據倉庫有了非常快的發展,可以以比較大的數量進行深層次的技術發掘,在數據庫技術底下,為客戶提供更高的價值。 這些意味著,用戶很難把數據庫換掉而不換掉上面的應用,如果把數據從一種數據庫遷移到另外一種數據庫,不是很容易的事情。 不過,范承工認為,在過去5年里面,這種情況有一些改變。他表示,有五個比較大的趨勢,使得一家獨大的數據庫統一數據管理的狀況會有一個比較根本的顛覆。 第一是數據本身的改變。 過去的數據大多是人為產生的,它的數據是一條條記錄式的,比較容易轉化成關系型數據庫形式。對它的處理往往不是實時的,可以等待數據產生,而要應用它的時候,往往已經過了一段時間。在這種情況下,關系型數據庫是一個很好的數字化。舉一個很簡單的例子,我在年初去滑雪,然后去租雪橇,去了一家夫妻店,是一個很小的雪橇店,他們還沒有電腦,沒有數據庫,完全是靠紙和筆記錄每一筆交易。我看到他們有一盒子的卡片,每一筆交易就是一張卡片。還有另外一個盒子是他所有客戶的信息,中間通過客戶的信息可以查每個交易的信息。 我再一看,這是用紙做的關系型的數據庫,而這個夫妻店如果生意好,規模大了,就無法用紙和筆來完成,就必須要做成電腦上的數據庫。這樣的數據庫有幾個特點,大家都知道CRUD,需要能夠保證有數據的產生,有數據的讀和寫以及更改,也要保證可以把數據刪除,這是過去所謂的記錄型的數據。而對這種數據的管理,數據庫是一個非常優秀,非常完美的技術。而現在產生數據的源更多了,我們很多的數據不再是由人產生了,而是由機器產生的。 隨著物聯網的發展,各種各樣的探測器,各種各樣的RFID,各種各樣移動的手機,各種各樣的器件以及很多電腦、服務器會自動產生大量的數據,而這些數據往往是以流的形式產生的。即使是人為的,包括我們剛才提到的社交網絡、微博,數據的形式和過去的形式也有些不一樣。 我們看到新型的數據往往很少改變過去已經產生的東西,這些數據往往是產生一次,以后就再也不會更改。一個服務器的日志不會再改變昨天的日志,我昨天放上一個微博,也不會再進行改變,往往數據產生一次就不會改變。而這些數據很多時候是不會被刪除,即使用戶把它刪除,在背后的基礎架構里面往往也是不刪除的。 新興的數據底下我們注意到是CRAP的數據模式,是產生、重復、復制,是可以添加的,還必須要進行整合。是這樣一個有流模式大規模數據的產生,但是同時要對它進行一個很好的歸納和整合。 對于這樣的數據來說,我們大家熟悉的關系型數據庫已經不再是最優秀的技術能夠滿足他的需要了。在處理這樣大型的 CRAP的數據,我們需要新型的數據管理技術和產品來幫助客戶解決這個問題。這也是現在為什么包括Hadoop這樣的技術這樣熱門的原因,是因為過去的數據已經滿足不了新型大數據CRAP數據的需求。 第二是云所帶來的副作用。 云就在于你的應用不止是在你的防火墻之后。隨著軟件即服務的產生,我們會生活在一個生活云的時代。對于很多的企業來說,我們很多的應用會是在私有云里面,是在自己的數據中心當中。 但是同時我們有越來越多的應用會由公有云進行提供,包括客戶管理,包括人事管理,甚至以后包括財務管理,都會通過公有云來提供這樣的應用。而這產生一個副作用,就在于數據往往是跟應用在一起的。當你的應用在你的防火墻之外了,它的數據也在防火墻之外。我作為一個軟件即服務的提供商,提供給你應用,而數據都會在我這里。 我作為一個企業來說,第一次面對這種情況,企業的數據已經不完全由我來掌控,我不可能把所有的數據都放在甲骨文的數據庫當中。即使我作為CIO有這樣的愿望,也無法達成這個現實。因為到底這個應用采用哪個數據庫,已經不是由我這個IT部門說了算了。 在這么一個多地點、多來源的數據時代,怎么樣對這些不同的數據方式、不同的數據材料進行統一的分析和處理,從它上面能夠得到智能是新一代的挑戰。在過去要做一個新的應用,只要連接到已有的數據庫上就行了。而現在必須要有一個全球的云數據統一系統,才能夠在上面開發出新的應用程序,使它能夠提取到你私有云里面的數據,也能夠提取到公有云的數據。所以這是另外一個云帶來的趨勢,使得數據管理模式會有一個比較根本的改變。 第三是云的使用者在進行的改變。 云使用者的改變也是數據的使用者的改變,在中國很多公司里面,最富有的最有實力的500家公司里面,可能都會有比較好的數據倉庫系統可以對他的數據進行分析。但是,現在對于數據的需求已經不止是這500家最有實力的公司了,我覺得任何一家公司,任何一個規模的公司,或者任何公司里的任何一個部門,任何一個小組其實都有需要。 為了他能夠在商業上取勝,為了他能夠更好地完成日常工作,都必須從數據當中提取他的智能。而我們現在所熟悉的數據倉庫系統,能夠為數據提供智能的系統是非常昂貴的系統,需要幾百萬美元,幾千萬人民幣的投入,需要專業的團隊,需要很長的時間才能夠得到需要的智能,而并不是所有的公司都能夠有這么多的錢、人力和專家來達到這個結果。 我們的需求就在于怎么樣能夠有一個低門檻的系統,使得無論是大公司還是小公司,無論是公司里面大團隊還是小團隊,都能很容易的從數據當中看到你想看到的信息。 我們需要使這個數據的分析系統低門檻,能夠實時的產生這些智能,能夠更加平民化,提供更多的可視性,這也是一個非常大的趨勢。相信在將來的幾年里面,我們會發現更多的解決方案,而現在已有的解決方案并不能滿足這方面的需要。 范承工表示,這三大趨勢產生一個新的數據云的時代,從過去數據庫一家獨大到新的數據云,會產生新的需求,產生更大的數據,更快的數據,分布更廣,更多樣的數據,同時這些數據能夠為千家萬戶,為所有的用戶提供服務。 虛擬化和開源讓數據庫與數據云和諧共存 盡管相信數據云時代的到來,范承工認為,數據庫并不會消失,仍舊有它非常重要的作用。亦即在很長的時間里,這兩邊的技術會是共存的。還有兩個非常重要的趨勢——虛擬化和開源軟件的趨勢,會幫助在更好的管理數據庫的同時,能夠迎接這個數據云時代的到來,而且使兩邊能夠共同和諧的生存。 第四是虛擬化的技術。 虛擬化技術使得底層架構更加的靈活,更加的業績化,使得你很容易有資源池。一方面能夠減低管理數據庫的開支,能夠使更多的資金用于數據云時代。另一方面,可以使得同樣一個基礎架構,同樣一個資源池,可以既滿足數據庫的需求,也能滿足數據云的需求,來降低運營成本。所以產生虛擬化、混合云的基礎架構,對于數據庫和數據云能夠并存,是一個非常關鍵的技術。 第五是更加重要和根本的,是開源軟件的趨勢。 大家都知道,數據庫是一個非常好的技術,但是它同時也是一個非常成熟的技術,所以開源軟件在數據庫這邊有一個降低成本的好處,任何一個成熟的技術,它都會使得最好的解決方案以及這個開源的解決方案中間的差距會越來越少。大家在用數據庫的時候,可能一方面非常有用,另一方面會感到真貴,要維護一個大型的數據庫系統需要很多的人力物力,需要給這些廠家很多的錢。 但是隨著開源這個軟件的出現,或者基于開源軟件,包括一些關系型的數據庫,他們之間的差距離市場領先數據庫的差距會越來越小,會給客戶更多的選擇來部署你的數據庫。 更重要的開源效果,范承工認為是對于數據云時代的幫助,數據管理云系統,現在走過一個分久必合到合久必分這么一個轉型的時代。 顛覆“老皇帝”? 分久必合到合久必分。在過去的30年的數據庫時代里,從最初的群雄爭霸,有很多種不同的關系型數據庫以及其他的數據管理模式,到現在已經是一個非常穩定的市場。在這個市場里面,有一些市場的領先者,包括我們大家熟悉的甲骨文公司,包括IBM公司,包括微軟公司,他們都有很好的數據庫技術滿足客戶的需要。 前面也說到,數據庫的更換是困難的事情。不過,范承工認為,這五大趨勢的出現,使得一家獨大的數據庫統一數據管理的狀況會有一個比較根本的顛覆。 范承工表示,在30年前可能是群雄混戰,有很多的數據庫產生,而在過去的20年、15年逐漸的甲骨文一家做大,成為業界的領袖。但是現在這個時代,我們的皇帝也老了,新一代的技術產生,我們又進入一個群雄混戰的時代。 范承工說,現在大家熟悉的大數據技術,包括Hadoop,包括新的為開發者所歡迎的技術已經產生,而這樣的技術大多數是以開源技術的形式出現的。以開源技術的形式,就使得作為客戶可以非常低門檻的能夠應用到這個技術,不需要很多的初始投資,可以嘗試這個新的技術到底是否滿足自己的需求,鼓勵這么一種百花齊放的形式,開源就給這個百花齊放提供了一片土壤,看最后到底哪一朵花最投其所好。 本文出自:億恩科技【www.laynepeng.cn】 |