Blog

”Hadoop for everyone.”を掲げる「Mortar Data」、Twitter Gardenhose(Twitterの全ツイートの1%)をS3に格納するスクリプトを公開

mortar_data

 

Mortar Dataについては、まだサービスが一般リリースされていないため情報が少なく、紹介する良いタイミングが無かったのですが、今回面白いオープンソーススクリプトをリリースしたので、その紹介を兼ねて書きたいと思います。

上の画像を見てピンと来た方もいると思いますが、Mortar Dataが提供するサービスとは、Hadoop(象)をPython(蛇)で操作できるようにするクラウド環境です。実際にはPythonだけでなく、SQL-likeな記法でMapReduceを書けるPigを使って操作することもできます。

今のところデータはAmazon S3に格納していることが前提となっているようで、そこからMortar Dataの提供する環境上にデータを読み込み、ジョブを実行した結果をS3に書き込むという仕組みになっています。

現在はPigとPythonしか使えませんが、今年5月にボストンで行われたTechStarsで、CEOのK Young氏は「Pythonは始まりに過ぎず、あらゆる言語でHadoopを動かせるようになることが、手の届くところまで来ている。」と言っています、パートナー企業によってこのMortarプラットフォームにBI機能やAnalytics機能が提供される予定もあるということで、今後に期待しています。

TechStarsでの彼のプレゼン動画は以下です。

[vimeo width=”500″ height=”281″]http://vimeo.com/41993563[/vimeo]

 

Twitter Gardenhose(Twitterの全ツイートの1%)をS3に格納するスクリプトを公開

そんなMortar Dataが先日、Twitterの全ツイート(Firehoce)の1%を取得出来るStreaming APIであるGardenhoseのデータを、JSON形式でS3のバケットに流し込むnode.js スクリプトをgithubにて公開しました。

手段としては2通りありますが、サーバーを持っていない場合は後者のHerokuを使う方法をオススメします。

  • ローカルで実行
  • PaaSのHerokuで実行

セットアップ方法についてはREADMEを読んでもらったほうが早いですが、それほど難しくなく、ある程度の知識を持っている方であれば簡単にできると思います。

あとはスクリプト内で、一つのJSONファイルのサイズ設定(初期値は20MB)やツイートのフィルタリングなどができるので、色々と試してみてください。

恐らく一つ不安があるとすれば、従量課金制のS3にこの1%のツイートデータを蓄積していくのにどのくらいの料金がかかるのか、というところではないでしょうか。放っておいたら、いつの間にかものすごい金額になってしまっていたら困りますからね。

Mortar Dataのブログで、全ツイート(Firehose)をS3と最近サービスが開始されたアーカイブストレージサービスのGlacierに格納した場合の料金を試算した記事を書いています。

もちろん今後も加速度的にツイート数が増えていくことが考えられますが、Firehoseの1%であるGardenhoseであれば、企業の場合はほとんど負担にならない金額になるでしょう。あとはどのくらいデータを利用するかで転送量が計算できるでしょう。

 

Hadoopを使うための技術的ハードルは、このようなサービスが次々に登場してきており、確実に下がってきていると言えるのではないでしょうか。

 

アウトソーシングはデータ分析だけに留まらず。データビジュアライゼーションのアウトソーシングも主流に!?

Data_Visualization

 

先週、The Economistにデータビジュアライゼーションのアウトソーシングに関する記事が書かれました。

これまでのデータビジュアライゼーションに関するコンテストといえば「The Information is Beautiful Award」や「Data Journalism Award」のように、各組織や個人がそれぞれの目的のために作成したものを投稿する形が主流となっています。

visual.ly」のようなインフォグラフィックを投稿するサイトでも、それらはやはり自分たちが作成したもので、確かにこれまでデータビジュアライゼーションに関するアウトソーシングのことはあまり聞きませんでした。

それを考えると、以前行われたニールセンのデータヴィジュアライゼーションコンテスト(記事)は先進的事例だったのかもしれません。

ニールセンは、冒頭記事に書かれているように次の取り組みとして、The Economistと組んでINNOCENTIVEでのプロジェクトとして「The Economist-Nielsen Data Visualization Challenge」を開催しています。これも以前のコンテストと同じように、ニールセンが定期的に調査している「Global Consumer Confidence Report」(ニールセンが作成したレポート)のデータを使ったものになっています。

 

恐らく、データに関するアウトソーシングと言えば、データ分析のアウトソーシングプラットフォームであるKaggleが最初に思い浮かぶ方が多いのではないでしょうか。

Kaggleと言えばオープンした2010年当初、理系の科学者・数学者向けの予測モデル構築やアルゴリズム生成に関するコンテストが多いという印象が強かったですが、近頃はデータマイニングハッカソンや、予測モデルの中でも「EMI Music Data Science Hackathon」や「Million Song Dataset Challenge」のようなレコメンデーションエンジン構築に似たコンテスト、はたまた「Facebook Recruiting Competition」のような複雑ネットワークを使ったデータ解析など、多種多様なコンテストが増えています。

そして、更に最近になると「Harvard Business Review ‘Vision Statement’ Prospect」のような、データ解析だけでなくデータの可視化まで含めたコンテストが出てきています。

 

データ分析のプロフェッショナルであるデータサイエンティストだけでなく、そこから導き出したシナリオ(ストーリー)を可視化するインフォメーションデザイナーの人材不足も、やはり顕在化してきているようです。

このようなことから、The Economistの記事に書かれているように、データビジュアライゼーションのアウトソーシングは今後増えていくのではないでしょうか。

 

『Datameer 2.0』個人でもビッグデータを統合〜分析〜可視化できるツールに革新的進化!

img-devices

 

Apache Hadoopをベースとしたビッグデータ分析サービスを提供するDatameerが、2010年に公開した製品のメジャーバージョンアップとなるDatameer 2.0のリリースを発表しました。

恐らくビッグデータに関心がある方であればDatameerの名前は聞いたことがあるでしょう。

これまで(version 1.4まで)はエンタープライズ版のみ提供しており、Cloudera、EMC、MapR、AWSなど様々なHadoopディストリビューションに対応し、プログラミング能力を必要としないためコンピュータエンジニアの経験がほとんどないユーザでも大量のデータを取り扱えるビッグデータ分析ツールとして知られています。

そして今回発表されたバージョン2.0では、3つの大きなアップデートがありました

個人向け・小規模組織向けのエディションを追加

まず1つ目が、これまでのエンタープライズ版に加え、パーソナル版とワークグループ版の追加です。

パーソナル版はその名の通り、一つのローカルPCで動作する個人向けの製品で、ワークグループ版は一つのサーバーで動作する小グループ向けの製品となっています。

ユーザーはDatameerのソフトウェアをダウンロードしインストールするだけで、ローカルPC上で製品に実装されているhadoopが動くようになります。

企業向けのサービスが個人でも使えるようになるということで、データはあるけど管理したり分析したりという時間が取れないというような小規模組織は多いと思いますので、企業向けで成功しているこうしたプロダクトが個人向けのエディションを追加してくれることは嬉しいですね。

データ可視化が大幅アップグレード。”WYSIWYG Infographic Designer”

2つ目が、データビジュアリゼーションに関することです。

これまでもダッシュボードでグラフやチャートを作成することができましたが、種類が限定的でそれぞれのグラフがただ並んでいるようなデザインしかできませんでした。

Datameerは今回のデザイン面での追加機能を”WYSIWYG (What You See Is What You Get) Infographic Designer”と表現しており、インフォグラフィックのような可視化をアプリケーション内で自由に作成・配置し、データが更新される度に自動的にインフォグラフィックも更新される、いわゆる”Live Infographics”を実現しています。

最近のソフトはグラフやチャート自体はキレイになってきていますが、あるボックスの中でしか位置を動かせないなど配置の自由がないものが多いですが、Datameer 2.0では自分が置きたいと思ったところに置けるようになっています。 

HTML5により、あらゆる端末から操作・分析が可能に

そして3つ目はインターフェイスについてです。

FlashからHTML5になったことよってFlash未対応端末でも操作・閲覧可能で、Windows、Mac OS、Linux、VMWareはもちろんiOSとandroidにも対応し、ほぼ全てのPC、スマートフォン、タブレットから利用出来るようになりました。

 

その他にも、サポートするデータソースも拡充され、TwitterやFacebookなどのソーシャルメディアからNetezzaやTeradataなどのDWHアプライアンスとの連携も出来るようになるなど、これ以上ないほどの進化を遂げています。

これにより、様々なデータの統合・データマネジメント・ビルトインされた200以上のアナリティクス機能・グラフィカルな可視化までを、このツール一つで出来るようになりました。

料金は、(どうやら期間限定で)パーソナル版がデータサイズが100GBまでで$299/年。ワークグループ版はユーザーが50人、データサイズが1TBまでで$2999/年。エンタープライズ版は要相談となっています。

トライアルしてみないとどのぐらい使えるものかわかりませんが、まだ限定公開のため、サインアップ後に招待が来るまで待つ必要があります。

登録させるほどすぐに招待が来るそうなので、もしサインアップする方がいれば、こちらからしていただけると嬉しいです。

Datameer 2.0の紹介動画は以下です。(製品画面があまり出ないですが。)

[vimeo width=”500″ height=”281″]http://vimeo.com/43651176[/vimeo]

クラウドBIの進化 ー『Bime』がBigQueryにも対応し”Data-Warehouse as a Service”としてパワーアップ!

bime-v4

 

SaaSのBIツールとしてBimeを最初に当ブログで紹介したのが去年の7月です。その際のBimeの特徴としては、①様々なデータソースに対応し、②インポートから分析までクラウド上で完結でき、③月額料金も安い、ということでした。

その時点では、下のグラフのように「ビッグデータ」という言葉がアメリカ本国でもバズワードになってきていましたが、メジャーなBIベンダーであってもビッグデータ(今回は大量データの意)には対応していませんでした。

しかし、昨年の後半から今年にかけてhadoop対応やDWHアプライアンスとの連携などによりビッグデータ対応を謳ったバージョンアップが続々と行われ、BimeのようなクラウドBIのスタートアップは一足遅れを取っていた感は否めませんでした。

そんな今年の3月、GoogleのBigQueryのプレビュー版においてBimeがBIツールとしては唯一の試験導入を行い、ビッグデータ対応に向けテストしていることがわかりました。

Version 4.0でビッグデータに正式対応。DWHaaSとしてパワーアップ!

そしてついに、Version 4.0のメジャーバージョンアップでビッグデータに正式に対応し、BigQueryはもちろん、中規模ほどのデータサイズである数千万件ほどのデータを高速に処理できるように列志向型データベースのInfiniDBエンジンを組み込んだBimeDBというラインアップも充実させました。

[vimeo width=”550″ height=”309″]http://vimeo.com/41286704[/vimeo]

 

ちらにVersion 4.0の詳細なリリースノートがあり、実際に4億件のデータをBigQueryを使ってBime上でデータ分析をしている動画もあります。

気になる料金設定は、BigQueryはサービスに準じてデータ処理サイズに応じての課金となっており、BimeDBが1時間あたりの利用料か月額での契約を選択できるようになっています。

今回のメジャーバージョンアップでは、ビッグデータ対応の他にも、Facebook Insight ConnectorによるBime上でのFacebookページ分析やネットワーク分析などの可視化機能の追加、ローカルファイルの大容量対応・高速化など盛りだくさんとなっています。

 

クラウドBIは初期投資が少なくインフラ資産も持たずに済み、SMBs(Small and Medium Business)にとっては導入がしやすいというメリットがあります。その上、様々なローカルファイルフォーマット・DBやネット上のデータソースに接続でき、大容量データ処理にまで対応したBimeを使えば、ビッグデータの専門家などを必要とせず限られた人的リソースでデータ分析ができる環境をすぐに構築することが出来ます。

今後も、更なる大容量データ対応はもちろんですが、今回のFacebook対応といった非構造化データのVarietyも増やしていって欲しいですね。

App Storeでも販売可能でインタラクティブなビジネスレポートを作成できる新プラットフォーム『Roambi ESX』

Roambi-ESX

 

昨年の6月に、モバイルBIツールで注目を浴びていたRoambiをご紹介しました。

その後、MeLLmo社は記事にもあるインタラクティブなビジネスドキュメントを作成できる「Roambi Flow」、そしてインタラクティブなプレゼン資料を作成できる「Roambi Presentと続々とモバイルビジネスシーンに変革を起こすソリューションをリリースしてきました。

そして今回、Roambi Flowが強化(KPIの比較が可能なRoambi Pulseが追加)され、更に作成したドキュメントをレポートとしてApp Storeで販売することができる新プラットフォーム「Roambi ESX」が発表されました。

これにより、アプリケーションデベロッパーを雇うことなく、テキスト情報や高品質な画像、動画やRoambi Analysticsのグラフやチャートを取り入れたマガジンスタイルの高品質なビジネスレポートを安価に作成することができるようになります。

一つで完結するレポートを販売することはもちろん、シリーズ購読レポートとして配信することも出来ます。マーケティングレポートや調査レポート、メルマガやニュスレター配信など用途も色々と考えられますし、これまで大量の印刷物を郵送していたりpptやpdfファイルを送付していたようなレポートの選択肢の一つとして考えられるでしょう。

最終的にどのような形になるのかは、こちらのRoambiの最新動画をご覧になるか、自分で実際に動かしてみたい場合は、App StoreからRoambi Flow Viewerをダウンロードしてみてください。他にも既にIMS World Pharma Market Surveyなどが実験的に作成されダウンロードできるようになっています。