Googleのビッグデータ分析サービス「BigQuery」が正式リリース。早くもBigQueryを使ったコンテスト「Github Data Challenge」がスタート!

 

Googleは、一部の顧客にプレビュー版を限定して提供していたクラウド型ビッグデータ分析サービスの「BigQuery」を正式リリースしました。

BigQueryはTB(テラバイト)級のデータをOLAP(オンライン分析処理)で分析できます。BigQueryと相性が良いのが従来のBIツールで行われていたようなスライシング・ダイシング・ドリリングなど様々な切り口から分析するようなケースで、これまでのBIツールでは扱えなかったような数億件(ニュース記事ではそう言っていますが、恐らく数百億件でも大丈夫)のデータをリアルタイムに処理することができます。

そのため、OLTP(オンライン・トランザクション処理)用途には向かず、データ更新を行う必要がある場合には、従来型のリレーショナルDBと同じようにQL構文およびテーブルをサポートするクラウド型DBサービスの「Google Cloud SQL」を使用することをGoogleは奨めています。

BigQueryを使ったBIツールの例は既にあり、去年ご紹介したクラウドBIツールのBimeは、同社の顧客である中東の某通信事業者向けに15TBもの顧客データをBimeを使って分析ができるようにBigQueryのプレビュー版で試験的に導入しました。

そのことに関しては、今年3月に米国ニューヨークで開催されたカンファレンス「Structure:Data 2012」(GigaOM主催)で同社CEOのRachel Delacour氏が講演しています。(以下、講演時の動画です)

これまで、TB級のデータをBIツールで分析する場合は高価なDWHコンプライアンスの導入などが必要でしたが、BimeのようなクラウドBIツールとBigQueryのよなクラウドのビッグデータ処理サービスがあれば、中小企業でも安価にビッグデータの分析が出来るようになります。

実はBigQueryはGoogle Spreadsheetsとも連携することができ、Spreadsheets上でクエリを実行し分析結果を表示させることができます。(参考

以下はBigQueryを発表したGoogle I/O 2010の動画で、ちょうどSpreadsheetsを使ったデモから始まるようにしています。

今後、Google Prediction API(当ブログでの紹介記事)との連携が簡単に出来るようになれば、ClearStory Dataが構想するように、ビッグデータの高度分析は大企業だけのものではなくなるかもしれません。

BigQueryを使ったデータ可視化コンテスト「Github Data Challenge」がスタート

そして、早くもBigQueryを使ったデータ可視化コンテストが開催されます。

プログラマーならご存知、バージョン管理システム「git」のホスティングサービスでソーシャルコーディングサービスの「GitHub」がGitHub Public Timelineのデータを可視化するコンテスト「GitHub Data Challenge」の開催を発表しました。

Github Public Timelineとは、Ilya Grigorik氏が公開したプロジェクト「GitHub Archive」のデータで、ユーザーデータやレポジトリデータなどを自由にクエリを使って取得することができます。これがBigQueryで分析可能になっており、詳細はこちらのページを参考ください。

簡単な例として、「Objective-Cを書くプログラマーがどのくらいJavaも書くのか」ということがわかるそうで、結果としては31%だそうです。

実際にBigQuery上で、GitHub Archiveで紹介されているクエリを実行してみました。

794MB(全データサイズではなく処理に使用したカラムのデータサイズ)処理するのに9.4秒かかりました。このテーブルの件数もカウントしてみると、636万件を7.6秒で処理ということで、そんなに早くない気がするのですが、データサイズがGB・TBにならないとあまり実感できないのでしょうか。

その後、サンプルにあるwikipediaの件数をカウントしてみると、3億1379万件を4.2秒で処理したので、github timelineのスキーマが多かったことなどが影響しているのではと思います。(というか3億1379万件を4.2秒で処理ってヤバい早いですね)

100GB/月までは処理が無料なので、まずはサンプルデータを使ってその速さを実感してみてはいかがでしょうか。100GB超えてもたったの$0.035/GBという激安なんですけどね。

 

      

Leave a Reply

Your email address will not be published. Required fields are marked *