Category - データ分析

モバイルファーストの次世代リアルタイムデータビジュアライゼーションツール「Zoomdata」がローンチ

Zoomdata

題名だけ見るとカタカナだらけで逆によくわからなくなってしまっていますが、本当にこの題名が示す通り、”モバイルデバイスに最適化され、リアルタイムにストリームデータを可視化できるツール”となっているのが、今回ご紹介する「Zoomdata」です。

11月13日に、このツールのローンチと同時に110万ドルをシードファンディングとして調達したことを発表しました。

インフラとしての仕組みは、オンプレミスの基幹システムやクラウド上のデータ、ソーシャルメディアデータ、HDFS上のデータなどマルチソースのデータを統合し、リアルタイムにストリームデータを可視化・分析が可能となっており、分析結果を他のメンバーに共有するソーシャル機能もあります。

ちなみにGigaOMの記事によると、このリアルタイム分散処理システムは去年9月にTwitterがオープンソース化したStormを活用しているとのことです。

ヒストリカルデータを保持しながら別のリアルタイムのストリームデータを処理できるため、過去とのリアルタイム比較が可能となっています。

Zoomdataの特徴であり強みとなっているのは、パレット上でお絵かきをするようなモバイル端末での直感的な操作感とビジュアライゼーションです。

データ可視化スクリプトとして注目を集めているD3.jsから多くのインスピレーションを受けており、なおかつモバイル端末らしくスワイプやピンチ、ドラッグ&ドロップなどを使い直感的に操作・分析可能で、ユーザーエクスペリエンスを追求したデータ分析ツールとなっています。

残念ながらデモ動画は公開されておらず、実際にはどのように動くのかを見ることが出来ません。その操作感を早く動画で見てみたいですね。

果たしてこのツールが成功するのか・失敗するのかの議論はさておき、近年のBI関連スタートアップ(例えばRoambiandaraなど)は明らかにモバイルファーストもしくはモバイル特化型で機能も絞って特化した企業が増えてきており、これまでムダに高機能で高価なデスクトップ型BIツールに手が出せなかったSMBsをターゲットにしていることがよくわかります。

先月、タッチパネルに最適化されたWindows 8が発売され、モバイルBI市場は更に拡大していくでしょう。ただ単にモバイル端末にデータを表示出来るだけでない付加価値にレガシーBIベンダーがどのように対応してくるのかに注目です。

オンラインとオフラインデータを統合・分析可能な次世代Google Analytics「Universal Analytics」を発表

Universal Analytics

 

先月末に開催されたGoogle Analytics Summit 2012にて、次世代のGoogle Analyticsの革新的な新機能が発表されました。

既にMarkezineが本日公開した記事にて日本語で概要が説明されており、ソーシャルメディア上でも情報が拡散されていることから、その注目度が伺えます。こちらの記事には載っていないその他のスライド画像は、こちらのDigital Marteting Blogの記事を御覧ください。

本日、ビデオリサーチもWebサイトのアクセスログにプロフィールデータを付与する新サービスを発表していますが、正直このUniversal Analyticsの発表によって多少影が薄くなってしまった感は否めないでしょう。

Universal Analyticsの新機能は大きく分けて4つですが、詳細は上記のMarkezineの記事を参照していただくのが良いと思います。

  • Simple Open Measurement Protocol 
  • User ID Control
  • Offline Conversions
  • Dimension Import & Joining

全体を一文で説明すると、以下のようになります。

「PC・モバイル・ゲーム機・テレビ・実店舗など、オンライン・オフライン問わず消費者の全てのタッチポイント(接点)での行動データを一つのユニークIDで紐付けることが可能になり、様々な分析軸からデータ分析が出来るようになる。」

Google Analyticsはこれまで、WebサイトやECサイトの運営者などが主な利用者でしたが、今回の発表により今後デジタルマーケターだけでなく、実店舗のマーケティング担当者にも拡大していくことになります。

このようなツールが増えてくることによって、デジタルマーケティングとアナログマーケティングの部署もしくは担当者が分かれているような企業では、今後連携や統合されていくことになるでしょう。

Universal Analyticsは、まず大手企業からクローズドに試験導入を始め、2013年にオープンβ、正式ローンチしていく予定となっています。

オフラインでの行動からオンライン広告のターゲティングが出来るようになる!?

このUniversal Analiticsによって、オンラインでの行動とオフラインでの行動が統合できるとどのようなマーケティングが出来るようになるのか。その一つシナリオを考えてみました。

Googleは今年の7月に「リマーケティング」機能をGoogle Analyticsに統合しました。この「リマーケティング」機能の仕組みの説明については、Web担当者Forumのこちらの記事が理解しやすいです。

簡単に説明すると、”特定のページに訪れたユーザーを「リスト化」し、リスト化されたユーザーだけを対象に、ディスプレイネットワーク内で広告を表示できるという仕組み”なのですが、このリスト化をオフラインでの行動まで含められたらどうなるでしょう。以下のようなターゲティング広告ができるようになります。

  • 実店舗でシャンプーを購入した消費者に、シャンプーが切れそうなタイミングでオンライン広告を配信し、商品を再想起させる。
  • そのネット広告を見た消費者が、オンラインショップで購入したか、実店舗で購入したかをトラッキングできる。

といった様な、「Offline → Online  → Offline」の行動を一元管理し分析できるようになり、次世代のCRMデータ分析サービスと言えるでしょう。

Googleは今年の5月に開催した「Think with Google-マルチスクリーン時代のマーケティング-」で、オフラインとクロスメディアでの広告・キャンペーン効果測定のプロジェクトである「SSP(シングル・ソース・パネル) Initiative」に関する日本での取り組みを発表しており、今後のGoogleのオフラインを絡めた動向には目を離せません。

 
 

「Platfora」がHadoopとインメモリを組み合わせた次世代BIプラットフォームをローンチ

flatfora_eyecatch

 

ビッグデータ関連のスタートアップとして注目されている「Platfora」が23日、ニューヨークで開催中のStrata Conferenceにおいて、これまでコンセプトのみ公表していた自社の製品を正式に発表しました。

この製品はHadoopとインメモリ技術を組み合わせ、DWHやETLツールを使わずにビッグデータをローデータのまま格納し、インタラクティブに分析・可視化することが可能となっています。

Cloudera、MapR、AWS、Hortonworksといった様々なHadoopディストリビューション上での動作がサポートされており、格納された様々なローデータをETLツールを使用せずに、データの正規化や集計、列の追加などはPlatfora上に用意されたインターフェイスで行うことが出来ます。

そのローデータをインメモリ上に構築された多次元データモデルから”Fractal Cache”と”Lenz”と呼ばれる機能によってクエリを高速処理し、Vizboardsと呼ばれるHTML5で描画されたキャンバス上で様々なグラフ・チャート表現や、クロス表でのドラッグ&ドロップによる軸の入れ替え、ドリルダウンと言ったBI機能を持っています。

また、最近のBIツールのトレンドとなっているソーシャルBIと呼ばれる組織によるコラボレーション機能まであり、現段階では弱点が見当たりません。

他のHadoopを使ったビッグデータ分析製品(DWH+HadoopやBIツール+Hadoopコネクターなど)とどう異なるのかというページがありますが、実際のベンチマーク結果などがないので、”高速”という点ではどこまでのものかわかりませんが、ペタバイトサイズのローデータをそのまま可視化まで出来るという点では革新的な製品であることに間違いはありません。

Hadoopベースのビッグデータ分析・可視化ツールと言えばDatameerKarmasphereであったり、先週ご紹介したHadapt、その他にもDataheroClearStoryのようにまだ正式に製品が発表されていないが注目されているビッグデータ関連スタートアップが多く存在しています。

それぞれアプローチ方法は異なるも、解決したい課題は同じで、Hadoopエンジニアや”データサイエンティスト”を必要とせず、誰でもビッグデータ分析・可視化することを可能にする製品となっています。

彼らに対し、IBMやSAPなどの大手企業はどう対抗していくのかも含めて、ビッグデータ分析・可視化市場には要注目です。

HadoopとRDBMSを統合し、真のリアルタイムビッグデータ分析を実現する「Hadapt」

hadapt_logo

 

ビッグデータの分散処理技術の代表格と言えば、言わずもがなHadoopですが、弱点も多くあります。最大の弱点と言えば「リアルタイム処理には向かない」ということです。Hadoopはレイテンシ(データ転送などを要求してから結果が得られるまでの所要時間)が大きく、主にRDBMSでは取り扱いきれないような大容量データのバッチ処理に使われています。

ビッグデータのリアルタイム処理が必要な場合には、KVSなどのようなNoSQLや、SAP HANANetezzaなどのようなNoSQLやインメモリ処理技術を取り入れ、ソフトウェアとハードウェアを統合したDWHアプライアンスなどを導入しなければいけません。

DWHアプライアンスは高価なため大企業向きであり、NoSQLを扱える技術者のいない、または育てる余裕のない中小企業(SMB)はビッグデータのリアルタイム処理への対応がなかなか進みません。

今回ご紹介する「Hadapt」は、SQL-likeにHadoopを操作できる言語であるHiveやPigなどではなく、SQLをそのまま操作クエリとして使え、尚且つレイテンシがHiveよりも数十倍低いという、双方の良いとこ取りをした特徴を持っています。

(追記※ こちらのハンドアウトpdfによると、社内ベンチマークで40ノードのクラスタでの結果として、クエリレイテンシがHiveより50倍、HBaseより600倍とのこと。)

そんなHadaptが10月16日にversion 2.0を発表しました(version 1.0は2011年11月に発表)。

2.0の大きな特徴としては、まずは実行クエリの高速化です。Hadaptのクエリ処理方法は、SQLクエリをRDBMSとHadoop MapReduce用に分割して変換し処理をする仕組みになっているそうで、2.0ではそのクエリ処理をこれまで以上に最適化し高速化が実現できたそうです。

もう一つの特徴として、クエリ処理のレスポンスが上がったことによって、海外では評価が高く、データジャーナリストにも使われるBIツールのTableauとの統合が可能になったそうです。

GigaOMの記事によれば、下の画像にあるようにTableauのインタラクティブな可視化表現ができることはもちろん、その値はHadoopの機械学習ライブラリであるMahoutによって処理されたセンチメント分析の結果となっています。Mahoutの分析結果がリアルタイムにBIツール上で表現されるということは、これまでの常識では考えられないことです。

以前ご紹介した、BIツールのBimeとGoogle BigQueryの統合もそうですが、今後のビッグデータの流れとしては、データ処理と分析結果の可視化をどれだけシームレスに出来るのか、という方向に向かうと私は考えます。

BIツールも包含したDWHアプライアンスを提供するOracleやIBM、Microsoftだけでなく、Hadapt×Tableauの様なビッグデータ分析と可視化ツールのスタートアップ同士の提携にも注視していくべきでしょう。

”Hadoop for everyone.”を掲げる「Mortar Data」、Twitter Gardenhose(Twitterの全ツイートの1%)をS3に格納するスクリプトを公開

mortar_data

 

Mortar Dataについては、まだサービスが一般リリースされていないため情報が少なく、紹介する良いタイミングが無かったのですが、今回面白いオープンソーススクリプトをリリースしたので、その紹介を兼ねて書きたいと思います。

上の画像を見てピンと来た方もいると思いますが、Mortar Dataが提供するサービスとは、Hadoop(象)をPython(蛇)で操作できるようにするクラウド環境です。実際にはPythonだけでなく、SQL-likeな記法でMapReduceを書けるPigを使って操作することもできます。

今のところデータはAmazon S3に格納していることが前提となっているようで、そこからMortar Dataの提供する環境上にデータを読み込み、ジョブを実行した結果をS3に書き込むという仕組みになっています。

現在はPigとPythonしか使えませんが、今年5月にボストンで行われたTechStarsで、CEOのK Young氏は「Pythonは始まりに過ぎず、あらゆる言語でHadoopを動かせるようになることが、手の届くところまで来ている。」と言っています、パートナー企業によってこのMortarプラットフォームにBI機能やAnalytics機能が提供される予定もあるということで、今後に期待しています。

TechStarsでの彼のプレゼン動画は以下です。

[vimeo width=”500″ height=”281″]http://vimeo.com/41993563[/vimeo]

 

Twitter Gardenhose(Twitterの全ツイートの1%)をS3に格納するスクリプトを公開

そんなMortar Dataが先日、Twitterの全ツイート(Firehoce)の1%を取得出来るStreaming APIであるGardenhoseのデータを、JSON形式でS3のバケットに流し込むnode.js スクリプトをgithubにて公開しました。

手段としては2通りありますが、サーバーを持っていない場合は後者のHerokuを使う方法をオススメします。

  • ローカルで実行
  • PaaSのHerokuで実行

セットアップ方法についてはREADMEを読んでもらったほうが早いですが、それほど難しくなく、ある程度の知識を持っている方であれば簡単にできると思います。

あとはスクリプト内で、一つのJSONファイルのサイズ設定(初期値は20MB)やツイートのフィルタリングなどができるので、色々と試してみてください。

恐らく一つ不安があるとすれば、従量課金制のS3にこの1%のツイートデータを蓄積していくのにどのくらいの料金がかかるのか、というところではないでしょうか。放っておいたら、いつの間にかものすごい金額になってしまっていたら困りますからね。

Mortar Dataのブログで、全ツイート(Firehose)をS3と最近サービスが開始されたアーカイブストレージサービスのGlacierに格納した場合の料金を試算した記事を書いています。

もちろん今後も加速度的にツイート数が増えていくことが考えられますが、Firehoseの1%であるGardenhoseであれば、企業の場合はほとんど負担にならない金額になるでしょう。あとはどのくらいデータを利用するかで転送量が計算できるでしょう。

 

Hadoopを使うための技術的ハードルは、このようなサービスが次々に登場してきており、確実に下がってきていると言えるのではないでしょうか。