HadoopとRDBMSを統合し、真のリアルタイムビッグデータ分析を実現する「Hadapt」

 

ビッグデータの分散処理技術の代表格と言えば、言わずもがなHadoopですが、弱点も多くあります。最大の弱点と言えば「リアルタイム処理には向かない」ということです。Hadoopはレイテンシ(データ転送などを要求してから結果が得られるまでの所要時間)が大きく、主にRDBMSでは取り扱いきれないような大容量データのバッチ処理に使われています。

ビッグデータのリアルタイム処理が必要な場合には、KVSなどのようなNoSQLや、SAP HANANetezzaなどのようなNoSQLやインメモリ処理技術を取り入れ、ソフトウェアとハードウェアを統合したDWHアプライアンスなどを導入しなければいけません。

DWHアプライアンスは高価なため大企業向きであり、NoSQLを扱える技術者のいない、または育てる余裕のない中小企業(SMB)はビッグデータのリアルタイム処理への対応がなかなか進みません。

今回ご紹介する「Hadapt」は、SQL-likeにHadoopを操作できる言語であるHiveやPigなどではなく、SQLをそのまま操作クエリとして使え、尚且つレイテンシがHiveよりも数十倍低いという、双方の良いとこ取りをした特徴を持っています。

(追記※ こちらのハンドアウトpdfによると、社内ベンチマークで40ノードのクラスタでの結果として、クエリレイテンシがHiveより50倍、HBaseより600倍とのこと。)

そんなHadaptが10月16日にversion 2.0を発表しました(version 1.0は2011年11月に発表)。

2.0の大きな特徴としては、まずは実行クエリの高速化です。Hadaptのクエリ処理方法は、SQLクエリをRDBMSとHadoop MapReduce用に分割して変換し処理をする仕組みになっているそうで、2.0ではそのクエリ処理をこれまで以上に最適化し高速化が実現できたそうです。

もう一つの特徴として、クエリ処理のレスポンスが上がったことによって、海外では評価が高く、データジャーナリストにも使われるBIツールのTableauとの統合が可能になったそうです。

GigaOMの記事によれば、下の画像にあるようにTableauのインタラクティブな可視化表現ができることはもちろん、その値はHadoopの機械学習ライブラリであるMahoutによって処理されたセンチメント分析の結果となっています。Mahoutの分析結果がリアルタイムにBIツール上で表現されるということは、これまでの常識では考えられないことです。

以前ご紹介した、BIツールのBimeとGoogle BigQueryの統合もそうですが、今後のビッグデータの流れとしては、データ処理と分析結果の可視化をどれだけシームレスに出来るのか、という方向に向かうと私は考えます。

BIツールも包含したDWHアプライアンスを提供するOracleやIBM、Microsoftだけでなく、Hadapt×Tableauの様なビッグデータ分析と可視化ツールのスタートアップ同士の提携にも注視していくべきでしょう。

Leave a Reply

Your email address will not be published. Required fields are marked *