Category - BIツール・BIベンダー

クラウドBIの進化 ー『Bime』がBigQueryにも対応し”Data-Warehouse as a Service”としてパワーアップ!

bime-v4

 

SaaSのBIツールとしてBimeを最初に当ブログで紹介したのが去年の7月です。その際のBimeの特徴としては、①様々なデータソースに対応し、②インポートから分析までクラウド上で完結でき、③月額料金も安い、ということでした。

その時点では、下のグラフのように「ビッグデータ」という言葉がアメリカ本国でもバズワードになってきていましたが、メジャーなBIベンダーであってもビッグデータ(今回は大量データの意)には対応していませんでした。

しかし、昨年の後半から今年にかけてhadoop対応やDWHアプライアンスとの連携などによりビッグデータ対応を謳ったバージョンアップが続々と行われ、BimeのようなクラウドBIのスタートアップは一足遅れを取っていた感は否めませんでした。

そんな今年の3月、GoogleのBigQueryのプレビュー版においてBimeがBIツールとしては唯一の試験導入を行い、ビッグデータ対応に向けテストしていることがわかりました。

Version 4.0でビッグデータに正式対応。DWHaaSとしてパワーアップ!

そしてついに、Version 4.0のメジャーバージョンアップでビッグデータに正式に対応し、BigQueryはもちろん、中規模ほどのデータサイズである数千万件ほどのデータを高速に処理できるように列志向型データベースのInfiniDBエンジンを組み込んだBimeDBというラインアップも充実させました。

[vimeo width=”550″ height=”309″]http://vimeo.com/41286704[/vimeo]

 

ちらにVersion 4.0の詳細なリリースノートがあり、実際に4億件のデータをBigQueryを使ってBime上でデータ分析をしている動画もあります。

気になる料金設定は、BigQueryはサービスに準じてデータ処理サイズに応じての課金となっており、BimeDBが1時間あたりの利用料か月額での契約を選択できるようになっています。

今回のメジャーバージョンアップでは、ビッグデータ対応の他にも、Facebook Insight ConnectorによるBime上でのFacebookページ分析やネットワーク分析などの可視化機能の追加、ローカルファイルの大容量対応・高速化など盛りだくさんとなっています。

 

クラウドBIは初期投資が少なくインフラ資産も持たずに済み、SMBs(Small and Medium Business)にとっては導入がしやすいというメリットがあります。その上、様々なローカルファイルフォーマット・DBやネット上のデータソースに接続でき、大容量データ処理にまで対応したBimeを使えば、ビッグデータの専門家などを必要とせず限られた人的リソースでデータ分析ができる環境をすぐに構築することが出来ます。

今後も、更なる大容量データ対応はもちろんですが、今回のFacebook対応といった非構造化データのVarietyも増やしていって欲しいですね。

App Storeでも販売可能でインタラクティブなビジネスレポートを作成できる新プラットフォーム『Roambi ESX』

Roambi-ESX

 

昨年の6月に、モバイルBIツールで注目を浴びていたRoambiをご紹介しました。

その後、MeLLmo社は記事にもあるインタラクティブなビジネスドキュメントを作成できる「Roambi Flow」、そしてインタラクティブなプレゼン資料を作成できる「Roambi Presentと続々とモバイルビジネスシーンに変革を起こすソリューションをリリースしてきました。

そして今回、Roambi Flowが強化(KPIの比較が可能なRoambi Pulseが追加)され、更に作成したドキュメントをレポートとしてApp Storeで販売することができる新プラットフォーム「Roambi ESX」が発表されました。

これにより、アプリケーションデベロッパーを雇うことなく、テキスト情報や高品質な画像、動画やRoambi Analysticsのグラフやチャートを取り入れたマガジンスタイルの高品質なビジネスレポートを安価に作成することができるようになります。

一つで完結するレポートを販売することはもちろん、シリーズ購読レポートとして配信することも出来ます。マーケティングレポートや調査レポート、メルマガやニュスレター配信など用途も色々と考えられますし、これまで大量の印刷物を郵送していたりpptやpdfファイルを送付していたようなレポートの選択肢の一つとして考えられるでしょう。

最終的にどのような形になるのかは、こちらのRoambiの最新動画をご覧になるか、自分で実際に動かしてみたい場合は、App StoreからRoambi Flow Viewerをダウンロードしてみてください。他にも既にIMS World Pharma Market Surveyなどが実験的に作成されダウンロードできるようになっています。

Googleのビッグデータ分析サービス「BigQuery」が正式リリース。早くもBigQueryを使ったコンテスト「Github Data Challenge」がスタート!

github_data_challenge

 

Googleは、一部の顧客にプレビュー版を限定して提供していたクラウド型ビッグデータ分析サービスの「BigQuery」を正式リリースしました。

BigQueryはTB(テラバイト)級のデータをOLAP(オンライン分析処理)で分析できます。BigQueryと相性が良いのが従来のBIツールで行われていたようなスライシング・ダイシング・ドリリングなど様々な切り口から分析するようなケースで、これまでのBIツールでは扱えなかったような数億件(ニュース記事ではそう言っていますが、恐らく数百億件でも大丈夫)のデータをリアルタイムに処理することができます。

そのため、OLTP(オンライン・トランザクション処理)用途には向かず、データ更新を行う必要がある場合には、従来型のリレーショナルDBと同じようにQL構文およびテーブルをサポートするクラウド型DBサービスの「Google Cloud SQL」を使用することをGoogleは奨めています。

BigQueryを使ったBIツールの例は既にあり、去年ご紹介したクラウドBIツールのBimeは、同社の顧客である中東の某通信事業者向けに15TBもの顧客データをBimeを使って分析ができるようにBigQueryのプレビュー版で試験的に導入しました。

そのことに関しては、今年3月に米国ニューヨークで開催されたカンファレンス「Structure:Data 2012」(GigaOM主催)で同社CEOのRachel Delacour氏が講演しています。(以下、講演時の動画です)

これまで、TB級のデータをBIツールで分析する場合は高価なDWHコンプライアンスの導入などが必要でしたが、BimeのようなクラウドBIツールとBigQueryのよなクラウドのビッグデータ処理サービスがあれば、中小企業でも安価にビッグデータの分析が出来るようになります。

実はBigQueryはGoogle Spreadsheetsとも連携することができ、Spreadsheets上でクエリを実行し分析結果を表示させることができます。(参考

以下はBigQueryを発表したGoogle I/O 2010の動画で、ちょうどSpreadsheetsを使ったデモから始まるようにしています。

今後、Google Prediction API(当ブログでの紹介記事)との連携が簡単に出来るようになれば、ClearStory Dataが構想するように、ビッグデータの高度分析は大企業だけのものではなくなるかもしれません。

BigQueryを使ったデータ可視化コンテスト「Github Data Challenge」がスタート

そして、早くもBigQueryを使ったデータ可視化コンテストが開催されます。

プログラマーならご存知、バージョン管理システム「git」のホスティングサービスでソーシャルコーディングサービスの「GitHub」がGitHub Public Timelineのデータを可視化するコンテスト「GitHub Data Challenge」の開催を発表しました。

Github Public Timelineとは、Ilya Grigorik氏が公開したプロジェクト「GitHub Archive」のデータで、ユーザーデータやレポジトリデータなどを自由にクエリを使って取得することができます。これがBigQueryで分析可能になっており、詳細はこちらのページを参考ください。

簡単な例として、「Objective-Cを書くプログラマーがどのくらいJavaも書くのか」ということがわかるそうで、結果としては31%だそうです。

実際にBigQuery上で、GitHub Archiveで紹介されているクエリを実行してみました。

794MB(全データサイズではなく処理に使用したカラムのデータサイズ)処理するのに9.4秒かかりました。このテーブルの件数もカウントしてみると、636万件を7.6秒で処理ということで、そんなに早くない気がするのですが、データサイズがGB・TBにならないとあまり実感できないのでしょうか。

その後、サンプルにあるwikipediaの件数をカウントしてみると、3億1379万件を4.2秒で処理したので、github timelineのスキーマが多かったことなどが影響しているのではと思います。(というか3億1379万件を4.2秒で処理ってヤバい早いですね)

100GB/月までは処理が無料なので、まずはサンプルデータを使ってその速さを実感してみてはいかがでしょうか。100GB超えてもたったの$0.035/GBという激安なんですけどね。

 

QlikView × QVSource は”無料で”最強のソーシャルメディア分析ができる!

QlikView×QVSource

 

※追記
残念ながら、2011年12月から有料(1年ごとにライセンス料が発生)となってしまいました。無償版のQlikViewでも使えるバージョンは年額数万円という設定金額ですので、これを高いと見るか安いと見るかは難しいですが、私はこれを払って現在色々と検証しています。

今後、またブログで取り上げようと思います。

 

以前、NPOがビジネスインテリジェンスを導入するのに最適なBIツールは「Excel 2010」と「PowerPivot for Excel」の組み合わせか、「QlikView」だと紹介しました。

理由としては、直感的でわかりやすいセルフサービスBIを無料(QlikViewはグレーかもしれませんが)で導入することができるからです。

今回、そのBIツールである「QlikView」とQlikView API Connectorの「QVSource」を組み合わせることによって、現時点で最強と言えるソーシャルメディア分析ができる、ということを紹介したいと思います。しかも無料です。

現時点と言っていますが、このQVSourceは開発が始まってまだ数ヶ月で、しかもかなりの速いペースでバージョンアップしているので、今後が更に楽しみです。

 

 QVSourceとは?

QVSourceは、QlikView専用のAPI Connectorです。

QVSourceを開発しているのは、Chris Brain氏(@Qlikster)を中心としたIndustrial CodeBoxという企業(恐らく数人規模)です。2006年にイギリスで創立され、QVSourceやQVExcelなどのQlikViewのアドオンに注力しているようです。どうやらQlikTech社と近い関係にあるようで、恐らく、これらの製品を各企業向けにカスタマイズしたQlikViewインテグレーションのコンサルティングが主な業務のようです。

 

QVSourceの理念は、様々なソーシャルメディアやビジネスアプリからQlikViewに取り込める形で簡単にデータを取得し、それらをマッシュアップしながら取り込み、QlikViewで誰でも分析ができるような最強のBIプラットフォームにしよう、というものです。

何よりもすごいのがその開発スピードです。まだ開発開始から2ヶ月しか経っていませんが、既に以下のAPIに対応しています。

NPOのソーシャルメディア分析支援という意味では、本当はFacebook Pagesの紹介をしたいのですが、Facebook Pagesはまだ限られたユーザにしか公開していないそうなので、Facebook Personalを例に紹介します。

Facebook Pagesも近いうちに公開されると思うので、その時にまた紹介します。

無償版QlikViewを入手する

まずはQlikTechの日本語公式HPから無償版のQlikViewをダウンロードし、インストールしましょう。他のBIツールと違い、QlikViewの無償版はトライアルではなく、試用期間もありません。全ての機能を制限なしに使うことができます。

ただ、インストーラーをダウンロードするには個人情報を入れる必要があります。もちろん、その連絡先に営業のメールや電話が来ることもあるかもしれませんので、自己責任でよろしくお願いします。

 

QVSource(Beta)を入手する

QVSourceはまだベータ版です。HP上から自由にダウンロードできるのではなく、ここ(QVSource Beta Request)からベータ版が欲しいというリクエストをします。

名前やメールアドレスを入力してリクエストを送信すると、24時間以内にQVSourceの最新版ダウンロード先リンクが書かれたメールが送られてきます。私の場合、8時間後ぐらいに送られきました。

送られてきたメールからQVSourceの圧縮ファイルをダウンロードし解凍します。解凍したフォルダはフォルダ内のディレクトリ構成を変えなければどこに置いても構いません。

 

QVSourceを起動し、データを取得する

フォルダの中に「QVSourceDesktopEdition.exe」という実行ファイルがあるので、これを起動します。初回起動時のみ「End User Licence Agreement」ウィンドウが表示されるので、チェックボックスにチェックを入れ、OKボタンを押します。

 今回はFacebookのデータを取得するので、「Facebook Connector」をダブルクリックするか、選んでConfigureボタンを押します。

 

Facebook Connectorの設定画面が表示されるので、自分のFacebookのAccess Tokenを取得するために「Authenticate」ボタンを押します。

 

 Facebookにログインします。

 

 QlikView Connectorを許可します。

すると、Access Tokenが取得されます。

 

Connector Dataタブを押すと、取得するデータテーブルの一覧画面があり、それぞれのテーブルをクリックするとデータをダウンロードします。最初のダウンロードには時間がかかります。(アクティブなFriendが多ければ多いほど時間がかかります。)

ダウンロードが完了すると、Dataタブにデータが表示されます。

正直、ここまでデータが取れてしまうのかと驚きました。個人情報がもりだくさんなので、ダウンロードしたファイル(「QVSourceDesktopEdition.exe」があるフォルダの「Data」→「IndustrialCodeBox_FacebookConnector」→「Cache」に保存されています)の取り扱いにはご注意ください。

 

全てのテーブルのデータ取得が終わったら、分析フェーズに移ります。 

 

データをQlikViewにロードし、データ分析する

通常であればデータのロード処理や分析画面を作成しなければいけません。

しかし、今回は既に完成度の高いFacebook Friend Analyzerと名付けられたデモがあるのでそちらをダウンロードして使います。こちらから、「Download(.QVW)」のリンクをクリックすると、既に分析画面が作成されたQlikViewのドキュメントファイルをダウンロードできます。(※.QVWはQlikViewのドキュメントの拡張子です。)

もし、無償版QlikVeiwのダウンロードを諦めた方がいたら、「Launch This Demo」ボタンか「Web Browser(AJAX)」のリンクをクリックすると、サンプルデータで作成されたデモをブラウザ上で操作できます。

ダウンロードした「Facebook Friend Analyzer.qvw」を実行すると、自動的にQlikViewが立ち上がり、上記のブラウザで見るデモと同じものが表示されます。

 

それでは、自分のデータをロードしてみましょう。データのロード元は既にQVSourceが設定されているので、このままロードすれば自分のデータに更新されます。

なぜか、デモの地図の縦横の長さがちゃんと設定されていないので、以下に修正してロードすると良いです。 ツールバーから[ファイル ]→[ロードスクリプトの編集]を実行し、「HomeTownGeoCode」と「Checkins」タブにある”geo_map_size_x”(横の長さ)を修正します。

それではロードします。ツールバーから[ファイル ]→[リロード]を実行するか「Ctrl+R」のショートカットを使うと、ロード処理が始まります。

 ロードが終了すると、「閉じる」ボタンがアクティブになります。それでは、分析結果を見ていきましょう。

操作方法については割愛しますが、シート左側にあるリスト項目を選択したり、チャートを選択範囲することによって絞り込みなどをすることができます。それらの選択を全てクリアするためには「Clear」ボタン を押します。これだけわかれば、ある程度いじれると思います。

  1.  Friends シート

友達の属性分析ができます。

デモでは基本的に性別を分析軸に持ってきています。

  1.  Groups シート

友達が所属しているグループについて分析できます。

私が知るかぎり、友達が所属しているグループって見ることができなかった気がするんですが。

  1. Likes シート

友達が「いいね!」しているFacebookページについて分析できます。

私の場合、ある一人の男性がすごい「いいね!」をしているので、男女比の割合が極端になっています。その場合、その男性を除いた分析というのも簡単にできます。

  1. Pages シート

Facebook全体の「いいね!」と友達の「いいね!」を比較分析できます。

  1. Status シート

友達が「今なにしてる?」にどれだけ書き込んだかを分析できます。

ここでも一人の男性がすごい更新数であることがわかります。もっと左下の方がどうなっているか見たい場合は、散布図上で範囲指定をドラッグ&ドロップするだけで絞り込みができます。

  1. Check Ins シート

友達がいつ何のアプリでどこにチェックインしたかを分析できます。

Foursquareのデータもマッシュアップできるようになれば、もっと色んな分析ができるようになりますね。

いかがだったでしょうか。このデモで出来ることは、取得したデータに比べれば本当に極一部です。QlikViewの画面作成の仕方を覚えれば、もっと詳細な分析ができるようになります。

 今のところ1つ改善点があるとすれば、このデータを差分更新できないことです。もし最新のデータを分析したい場合、Facebook Connectorからキャッシュを一度削除してから、再度全てのデータをダウンロードする必要があります。

今後について

今回はFacebookのみのデータを使用しましたが、今後は複数のAPIをマッシュアップすることによって、様々な分析ができるようになるでしょう。例えばTwitterとKloutの組み合わせなど(既にデモがあります→ここ)。

そして、様々なデータの統合・分析という点で、やはりBIツールは優れています。私の場合は、データ分析に予算を割けないNPOなどの組織にBIを導入したいという思いがあるのでQlikViewを使いましたが、最近のBIツールはどれもセルフサービス指向になってきているので、どのBIツールでもよいと思います。

QVSourceは短期間でどんどんアップデートされているので、気になるアップデートがあった場合はTwitterで随時報告していこうと思います。

今回の記事で興味を持ったNPOの方で、もっと詳細を聞きたいという方がいましたら、プロボノで出来る範囲でしかお役に立てませんが、遠慮なくご連絡ください。

 

次世代 (第四世代) SQL Server ”Denali”はセルフサービスBIを更に加速させる!

denali

ロサンゼルスで7月10日~14日に開催された「Worldwide Partner Conference」では、現在開発中の次世代 SQL Server Code Name “Denali”のデモンストレーションが多く行われました。

そして12日、ついにCTP3(Community Technology Preview)が公開され、これまで(CTP1で)は実際に使うことの出来なかったDenaliの新機能を試すことができるようになりました!日本語版も用意されているので、私もインストールして試してみようと思っています。

SQL ServerのBI機能については、2008 R2でPowerPivotが追加され、誰でも操作できるセルフサービスBIを掲げました。そしてDenaliでは、データの可視化だけでなく多くの点でBI機能が大幅に強化されます。

Denaliは以下3本の軸で機能が強化・改善されます。

それぞれの軸で、BI機能に絞ってどのように進化するのかを説明します。

まずは①MISSION-CRITICAL PLATFORMです。

この中で最も重要な新機能は、コードネーム”Apollo”と呼ばれるカラム(列)ベースのクエリアクセラレータです。カラムストア型データベースはBig Data時代のデータ処理高速化技術の一つとして、IBM NetezzaSAP HANASybase IQOracleExadataCassandraなど多くのDWHアプライアンスやDBに使われています。(カラムストア型DBやインメモリDBなどの技術については今後紹介していきたいと思っています。)

カラムストア型DBであることで、高い圧縮率とディスクI/Oの削減などによって、BIにとって大事なデータ処理の高速化を実現することが出来ます。これまで、もしSQL Server Analysis ServicesやReporting Servicesを使っていたとしてもSQL Serverでは大量データには対処できず、別のDWHアプライアンスなどを導入する必要がありました。今後はMicrosoft製品に一貫したBI環境を構築することができるようになります。

 

次に②DEVELOPER and IT CONDUCTIVITYです。

 コードネーム”Juneau”という新しい開発ツールが提供されます。2008 R2までは、SQL Server のインスタンスやデータベースへの管理・運用は SQL Server Management Studio で、Integration ServicesやAnalysis Services、Reporting ServicesはBusiness Inteligence Development Studio で作業するというように使い分けなければいけませんでしたが、DenaliからはこのJuneauというツールだけで管理などを一元化できるようになります。

また、テキストや画像ファイルなどのRDBには格納できない非構造化データをFileTableというところに格納することによって、ファイルシステムに直接アクセスするプログラムを修正せずにDB内外からシームレスにアクセスが出来るようになるそうです。

 

 

最後に③PERVASIVE INSIGHTです。

目玉はプロジェクト”Crescent”という、これまでのReporting Servicesを大幅に進化させた、Silverlightを利用したインタラクティブなレポーティング・プレゼンテーションツールです。

BIツールはデータ処理の高速化はもちろんですが、なによりもデータを簡単に見たいように操作・分析できることが重要です。では、このCrescentではこれまでの(結構静的だった)Reporting Servicesからどのような進化をするのか、18日に公開されたばかりの以下の動画をご覧ください。(720pまで解像度を上げられます。)

[youtube]http://www.youtube.com/watch?v=TURzIxZTFaY[/youtube]

 

見ていただいてわかるように、ドラッグ&ドロップによる簡単な操作でグラフなどが作成でき、クリックで複数のチャート・グラフなどが連動した直感的な絞り込みなど、本当に誰でも簡単にデータ分析ができそうなツールになりそうです。

また、PowerPivotもDenaliで進化し、一足先に「Microsoft SQL Server  コードネーム ‘Denali’ PowerPivot for Microsoft Excel (CTP 3)」として公開されています。Denaliでは、新しいDAX(Data Analysis Expressions)が追加されていたり、時間軸設定が簡単になったり、ドリルスルーができるようになったりと、色々な機能が追加されているようです。こちらも詳細がわかり次第、紹介したいと思います。

 

この次世代SQL Server “Denali”がいつ正式リリースになるかは未定ですが、PowerPivotで謳ったセルフサービスBIが更に進化するであろうということを、今回のCTP3の公開によってイメージしやすくなりました。

今後もリリースに向けてどんどんと情報が公開されてくると思いますので、また紹介したいと思います。

 

日本語でのSQL Server “Denali”についての記事:

EnterpriseZine

2008 R2、Denali、そしてSQL Azure… 日本マイクロソフトに聞くMicrosoft SQL Serverロードマップ
あたらしいSQL Server/Denaliの世界

MSDN Blogs > 雲のごとく
Next SQL Server ”Denali” CTP3 公開だん!!そろそろ新機能に触れてみよう。