盤點IT廠商們“大數據”的那點事兒 |
發布時間: 2012/8/15 18:31:57 |
IBM的BigInsights、BigSheets和BigCloud
IBM號稱是最早提出大數據概念的廠商,開始在其實驗室嘗試使用Hadoop,但是它在去年將相關產品和 服務納入到商業版,甲骨文和微軟在其之后才宣布各自也將積極接受該平臺。IBM在去年5月推出了InfoSphere BigInsights軟件。該軟件包包括Apache Hadoop發行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數據庫的連接件以及IBM BigSheets,后者是一種基于瀏覽器的、使用電子表格隱喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的數據。 IBM提供了一系列平臺應對大數據帶來的三方面挑戰——大量化(Volume)、多樣化(Variety)和快速化(Velocity)。無論是能源公司分析氣象數據,還是司法機構在眾多視頻資料中分析有價值信息,亦或是銀行為審查資產判別客戶級別分析多年的交易數據。IBM大數據平臺,都可以幫助企業將數據當成戰略資產進行管理。IBM研究機構在大數據領域工作有超過3年時間,目前已經擁有100個大數據項目客戶。在商業分析領域IBM已經投入巨資140億美元——其中包括24項收購以及集聚了8000名分析顧問。 Oracle數據庫+大數據機 Oracle的大數據策清晰而直接。NoSQL數據庫和Big Data Appliance組合為客戶直接擁有處理非結構化海量數據的能力。甲骨文大數據機(Oracle Big Data Appliance)將甲骨文-Sun分布式計算平臺與Cloudera的Apache Hadoop發行版、Cloudera管理器管理控制臺、R分析軟件的開源發行版以及甲骨文NoSQL數據庫結合起來。甲骨文還包括連接件,因而讓數據能 夠在大數據機與甲骨文Exadata或傳統的甲骨文數據庫部署環境之間來回傳送。甲骨文為這套綜合的軟硬件"工程一體化系統"提供了一線支持;但是即使出 現棘手的Hadoop難題,甲骨文也可以利用Cloudera的專長,它還可以介紹客戶使用Cloudera的Hadoop培訓和咨詢服務。 Oracle大數據機集成了硬件、存儲和軟件,包括Apache Hadoop軟件的開源代碼分發、新的甲骨文NoSQL數據庫和用于統計分析的R語言開源代碼分發。該產品被設計為能夠與甲骨文Database 11g、Oracle Exadata數據庫云服務器,以及針對商業智能應用的新的Oracle Exalytics商業智能云服務器一起協同工作。 微軟面對開放的懸疑 微軟將會推出與Windows兼容的基于Hadoop的大數據解決方案(Big Data Solution),這是微軟SQL Server 2012版本的一部分。微軟宣布推出了兩個基于Hadoop的大數據處理的社區技術預覽版連接器組件,一個用于SQL Server,另一個用于SQL Server并行數據倉庫(PDW)。該連接器是一個部署在Linux環境中的命令行工具。 SQL Server Hadoop連接器在微軟大數據之路上最重要的一步。但由于Hadoop、Linux和Sqoop都是開源技術,這意味著微軟要對開源世界大規模地敞開胸懷,這一點值得用戶關注。另外,微軟還宣布將推出LINQ Pack、LINQ to HPC、Project"Daytona"以及Excel DataScope,這些產品都將專為研究人員和業務分析師打造,用以在Windows Azure上做大數據分析。 EMC單一的數據分析平臺 Greenplum在大數據方面有43000萬美元營收,目前由EMC公司所有。EMC Greenplum統一分析平臺(UAP)是一款單一軟件平臺,數據團隊和分析團隊可以在該平臺上無縫地共享信息、協作分析,沒必要在不同的孤島上工作, 或者在不同的孤島之間轉移數據。正因為如此,UAP包括ECM Greenplum關系數據庫、EMC Greenplum HD Hadoop發行版和EMC Greenplum Chorus,而后者是一種協作式、類似社交網絡的界面,可供數據分析團隊處理,無論團隊成員是有博士頭銜的數據科學家、數據集成專家和商業智能分析員, 還是數據庫管理員和業務部門的用戶及管理人員。 EMC為大數據開發的硬件是模塊化的EMC數據計算設備(DCA),它能夠在一個設備里面運行并擴展Greenplum關系數據庫和 Greenplum HD節點。DCA提供了一個共享的指揮中心(Command Center)界面,讓管理員可以監控、管理和配置Greenplum數據庫和Hadoop系統性能及容量。UAP軟件將數據訪問、管理和工作流統一起 來,并與其他數據源和數據處理方法聯系起來;隨著Hadoop平臺日趨成熟,預計分析功能會急劇增加。 亞馬遜深入了解用戶需求 亞馬的遜彈性MapReduce(Amazon Elastic MapReduce),對Hadoop的需求和應用可謂了若指掌,這包括了運行試點項目的新手,內部部署的預置型系統遇到需求過載的難題,或是利用彈性MapReduce來獲取額外容量的專業人士。 彈性MapReduce是一項能夠迅速擴展的Web服務,運行在亞馬遜彈性計算云(Amazon EC2)和亞馬遜簡單存儲服務(Amazon S3)上。面對數據密集型任務,比如互聯網索引、數據挖掘、日志文件分析、機器學習、金融分析、科學模擬和生物信息學研究,用戶需要多大容量,立即就能配置到多大容量。除數據處理外,用戶還可以使用Karmasphere Analyst的基于服務的版本,Karmasphere Analyst是一種可視化工作區,用于在亞馬遜彈性MapReduce上分析數據。Karmasphere提供了可視化工具,以便使用SQL及其他語言,針對在亞馬遜S3、亞馬遜彈性MapReduce作業流或本地文件系統上的結構化數據和非結構化數據,執行即席查詢和分析。用戶還可以提取結果文件, 以便在數據庫或者微軟Excel或Tableau等工具中使用。 SAP HAHA內存計算技術加速計算 SAP基于內存計算的高性能分析應用軟件(SAP HANA)將構建一個公開的平臺,開放給不同領域、不同行業的合作伙伴,聯手合作伙伴共同運作,讓更多用戶通過HANA得到真正的收益。國內一家快消品企業完成9500萬條信息的數據分析在采用新的SAP內存計算分析技術后,響應時間僅需四秒鐘。目前,SAP已與包括英特爾、IBM、惠普、戴爾、富士通、思科等在內的多家伙伴達成合作共識。 Sybase用SQL數據庫應對大數據 Sybase并沒有推出類似Oracle的NoSQL數據庫功能,但是據了解,他們在最新版本的數據庫中,已經將大數據提到了一個非常重要的位置。在Sybase ASE 15.7當中,新增的一個重要特性就是對大對象(LOB)的管理增強,包括LOB壓縮、行內LOB、復制機制以及LOB的讀取與運算方面都進行了特別的改進。LOB中包含了非結構化數據,因此Sybase ASE 15.7新增的這些功能都使得DBA在應對大數據時更加輕松。 另外在他們的分析數據庫Sybase IQ 15.4中,還添加了如MapReduce API、對預測模型語言的支持、集成的Hadoop以及擴展數據挖掘算法函數庫等功能。很明顯,這一系列新特性與大數據的關系密切,是新版本中最大的亮點。 Informatica不拒絕任何格式 Informatica推出的HParser是一種針對Hadoop而優化的數據轉換環境。軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發人員提供了即開即用的解析功能,以便處理復雜而 多樣的數據源,包括日志、文檔、二進制數據或層次式數據,以及眾多行業標準格式(如銀行業的NACHA、支付業的SWIFT、金融數據業的FIX和保險業 的ACORD)。正如數據庫內處理技術加快了各種分析方法,Informatica同樣將解析代碼添加到Hadoop里面,以便充分利用所有這些處理功 能,不久會添加其他的數據處理代碼。 Informatica希望能夠借助統一的環境和方法,全面滿足數據管理和數據集成方面的要求。這家公司的企業客戶超過 4300個,它估計10%以上的客戶正進入到大數據領域(大數據的容量超過100TB)。市場地位和技術創新使得Informatica成為值得關注的一家Hadoop專業廠商。 Cloudera提供Hadoop的企業安全 Cloudera公司自2008年以來就一直致力于將開源Apache Hadoop打造成一款供企業使用的可靠平臺。這家公司有100多個客戶,不過鑒于Cloudera最近與IT業界老大的數據庫供應商甲骨文結為合作伙伴,今年其客戶數量有望大幅增加。 Cloudera為其Apache Hadoop軟件發行版增添了兩個重要部分:一個是用于控制和管理Hadoop部署環境的Cloudera管理器控制臺,另一個是企業級支持。 Cloudera管理器提供了基于向導的安裝和配置菜單,以便部署Hadoop.另外,它還提供了一些工具,幫助系統管理人員監控平臺的運行狀況、診斷問題、優化性能,以及在配置和安全方面作出所需的變更。 Cloudera支持服務分每天8小時每周五天或每天24小時每周七天這兩種,服務包括配置檢查、問題逐級上報和解決、與第三方系統集成以及知識庫、文章及其他技術資源。除了現有的這些服務外,還有培訓和咨詢服務。Cloudera 企業解決方案包括Hadoop軟件發行版、Cloudera管理器及支持,標價為每年每個節點4000美元(不包括硬件)。 惠普用大數據換的新生 大數據時代來臨,老牌巨頭惠普也不甘落后。不久前惠普企業服務事業部宣布推出全新服務,幫助客戶更快部署惠普子公司Vertica的Vertica Analytics Platform ,從而迅速洞悉關鍵的業務信息,輔助決策過程。 Vertica Analytics Platform 讓用戶能夠大規模實時分析物理、虛擬和云環境中的結構化、半結構化和非結構化數據,從而深入洞悉“大數據”。 Advanced Information Services for Vertica 幫助客戶最大化實現 Vertica 分析平臺性能,并構建企業分析專用環境;萜仗峁⿵脑u估到實施的一系列服務,與客戶共同定義多種交付方式組合,并找出匹配其現有基礎設施的最佳解決方案。 Datameer將商業智能運用到大數據上 Datameer公司宣稱其Datameer分析解決方案(DAS)是一款面向Hadoop、針對企業用戶的商業智能(BI)平臺。但是DAS并不將Hadoop當作信息孤島:它可以通過JDBC、Hive、HTTP或其他標準,連接到任何數據源。它包含了一個由向導驅動的集成平臺,讓用戶可以安排調度負載,并且轉換來自任何這些數據源的龐大的結構化、半結構化或非結構化數據集。用戶可以通過類似電子表格的DAS界面,運用180多項分析功能中的任何一項功能。企業用戶可以獲得拖放式報告和儀表板功能。DAS可以在私有云或公共云上運行,而且有一套代表性狀態傳輸(REST)應用編程接口(API),用于數據導入和導出。 GOOGLE推出BigQuery服務 谷歌一直是科技行業的領軍者,近年來幾乎在任何一項互聯網科技項目你都能看到谷歌的身影,大數據時代谷歌自然不會錯過。何況如果對其擁有的海量數據進行深入挖掘,這對于提升谷歌搜索乃至所有谷歌服務的價值無可估量。 BigQuery是Google推出的一項Web服務,用來在云端處理大數據。該服務讓開發者可以使用Google的架構來運行SQL語句對超級大的數據庫進行操作。 BigQuery允許用戶上傳他們的超大量數據并通過其直接進行交互式分析,從而不必投資建立自己的數據中心。Google曾表示BigQuery引擎可 以快速掃描高達70TB未經壓縮處理的數據,并且可馬上得到分析結果。大數據在云端模型具備很多優勢,BigQuery服務無需組織提供或建立數據倉庫。而BigQuery在安全性和數據備份服務也相當完善。 本文出自:億恩科技【www.laynepeng.cn】 |