Category - データ分析

『Datameer 2.0』個人でもビッグデータを統合〜分析〜可視化できるツールに革新的進化!

img-devices

 

Apache Hadoopをベースとしたビッグデータ分析サービスを提供するDatameerが、2010年に公開した製品のメジャーバージョンアップとなるDatameer 2.0のリリースを発表しました。

恐らくビッグデータに関心がある方であればDatameerの名前は聞いたことがあるでしょう。

これまで(version 1.4まで)はエンタープライズ版のみ提供しており、Cloudera、EMC、MapR、AWSなど様々なHadoopディストリビューションに対応し、プログラミング能力を必要としないためコンピュータエンジニアの経験がほとんどないユーザでも大量のデータを取り扱えるビッグデータ分析ツールとして知られています。

そして今回発表されたバージョン2.0では、3つの大きなアップデートがありました

個人向け・小規模組織向けのエディションを追加

まず1つ目が、これまでのエンタープライズ版に加え、パーソナル版とワークグループ版の追加です。

パーソナル版はその名の通り、一つのローカルPCで動作する個人向けの製品で、ワークグループ版は一つのサーバーで動作する小グループ向けの製品となっています。

ユーザーはDatameerのソフトウェアをダウンロードしインストールするだけで、ローカルPC上で製品に実装されているhadoopが動くようになります。

企業向けのサービスが個人でも使えるようになるということで、データはあるけど管理したり分析したりという時間が取れないというような小規模組織は多いと思いますので、企業向けで成功しているこうしたプロダクトが個人向けのエディションを追加してくれることは嬉しいですね。

データ可視化が大幅アップグレード。”WYSIWYG Infographic Designer”

2つ目が、データビジュアリゼーションに関することです。

これまでもダッシュボードでグラフやチャートを作成することができましたが、種類が限定的でそれぞれのグラフがただ並んでいるようなデザインしかできませんでした。

Datameerは今回のデザイン面での追加機能を”WYSIWYG (What You See Is What You Get) Infographic Designer”と表現しており、インフォグラフィックのような可視化をアプリケーション内で自由に作成・配置し、データが更新される度に自動的にインフォグラフィックも更新される、いわゆる”Live Infographics”を実現しています。

最近のソフトはグラフやチャート自体はキレイになってきていますが、あるボックスの中でしか位置を動かせないなど配置の自由がないものが多いですが、Datameer 2.0では自分が置きたいと思ったところに置けるようになっています。 

HTML5により、あらゆる端末から操作・分析が可能に

そして3つ目はインターフェイスについてです。

FlashからHTML5になったことよってFlash未対応端末でも操作・閲覧可能で、Windows、Mac OS、Linux、VMWareはもちろんiOSとandroidにも対応し、ほぼ全てのPC、スマートフォン、タブレットから利用出来るようになりました。

 

その他にも、サポートするデータソースも拡充され、TwitterやFacebookなどのソーシャルメディアからNetezzaやTeradataなどのDWHアプライアンスとの連携も出来るようになるなど、これ以上ないほどの進化を遂げています。

これにより、様々なデータの統合・データマネジメント・ビルトインされた200以上のアナリティクス機能・グラフィカルな可視化までを、このツール一つで出来るようになりました。

料金は、(どうやら期間限定で)パーソナル版がデータサイズが100GBまでで$299/年。ワークグループ版はユーザーが50人、データサイズが1TBまでで$2999/年。エンタープライズ版は要相談となっています。

トライアルしてみないとどのぐらい使えるものかわかりませんが、まだ限定公開のため、サインアップ後に招待が来るまで待つ必要があります。

登録させるほどすぐに招待が来るそうなので、もしサインアップする方がいれば、こちらからしていただけると嬉しいです。

Datameer 2.0の紹介動画は以下です。(製品画面があまり出ないですが。)

[vimeo width=”500″ height=”281″]http://vimeo.com/43651176[/vimeo]

R言語が2011年に全米で最も関連書籍販売が伸びたプログラミング言語に

state_of_the Computer_Book_Market_2011

 

統計解析・データマイニングのプログラミング言語であるRですが、R言語の学習がメインの書籍はそれほど多くはなく、「Rによる〜」といったようなRを使って統計やデータ解析を学ぶような書籍が多いです。

5月1日にO’ReillyがE-Bookとして無料公開した「State of the Computer Book Market 2011」によると、R言語が2011年に全米で最も関連書籍販売が伸びたプログラミング言語となったことがわかりました。

この結果はO’ReillyがNielsen Bookscanのデータを独自に加工し集計したものとなっています。このNielsen Bookscanでは全米の書店のPOSデータだけでなく、AmazonやBarnes & Noble、Bordersなどのインターネット販売のデータも含まれており、全書籍販売におけるカバー率は約70%となっています。(Walmartは含まれていないようです)

この結果についてはO’Reilly Rader全4回(1,2,3,4)に渡ってサマリーされており、今回はPart.4にある「The Languages」についての記事となります。

ここではプログラミング言語関連書籍市場についてのデータ集計がされており、その中の言語ごとの集計結果のグラフを2つご紹介します。

こちらは売上TOP20のプログラミング言語の販売数を2004年からの年次トレンドで集計したもので、R言語は右から4つ目にあります。

2006年に登場したPowersShellや2008年のiOS APIの登場によるObjective-Cの隆盛も見られますが、1996年に登場したR言語のここ数年での急上昇カーブは、絶対数は少ないものの目を見張るものがあります。

2010年からの前年比は約76%増加となっていますが、これを第4Qだけで見ると更に伸びていることがわかります。

上図のツリーマップは2011年第4Qのマーケットサイズを大きさで、前年からの増減率を色で表現しています。これを見ると右下にあるR言語が127%の増加となっており、2011年の中でも特に後半に伸びていることがわかります。

R言語関連書籍販売が伸びている背景には

このR言語関連書籍の販売数が急激に伸びている要因は、周知の通りビッグデータ分析の需要が大きくなってきているからでしょう。

これまでRのパッケージソフト単体では大量のデータには対応できませんでしたが、昨年からビッグデータ関連技術にオープンソースのRを連携させる動きがよく見られています。

以下、直近のベンダーやDWHアプライアンスのRとの連携に関するニュースです。

また、IBM Netezzaと同じくRevolution Analytics社のR Enterpriseを組み込むことによって、BIツールやExcelにもRを統合することが出来るようになっています。このWebinerでは、例としてQlikViewやJaspersoft、Excel上でRを動作させるデモを行なっています。

これらのことから、これまでデータ分析を生業としてきた人だけでなく、従来のDBエンジニアなどのデータハンドリングやDB管理を行なっていたシステム関連部署にまでデータ分析を習得する必要性が出てきているのです。

しかしその逆も然りで、分析対象となるデータ量が劇的に増えていることから、これまでデータ分析のみ行なってきたような人にも、大量データのハンドリングが出来る必要性が出てきているとも言えるでしょう。

予測分析が保険業界で使われる10の方法

health insurance policy and piggy bank

 

アクチュアリーとは、人間の生物学的レベルでのリスクを予測するために数学を使用する専門家です。日本では保険数理士とも呼ばれ、このアクチュアリーという職業は将来のリスクや不確実性を分析することが事業継続に必要な生命保険業界から生まれたそうです。

そんな分析が進んでいる保険業界であっても、マーケティングにはデータ分析がうまくできていないと指摘しているのが、Contemporary Analysis (CAN)のアウトバウンド販売担当役員であるEric Burns氏です。Contemporary Analysis (CAN)という会社は、マーケティング、販売、および運用ドメインでの人間の行動を予測するために数学(統計学)を利用する専門の会社です。

以下に保険業界が検討すべき課題を挙げていますが、これは保険業界に限ったことでなく、見方を変えればあらゆる業界にも当てはまるものだと思います。

CANは、刻々と変化するビジネス環境のための創造的ソリューションを開発するため、予測分析・人間の行動・データサイエンスを使用しています。ビジネスニーズは常に変化しているため、CANが開発したシステムは継続的発展に合わせて設計されています。
保険業界は、常に新製品やキャンペーンへの投資を行っています。適切な人に、適切なタイミングで適切な提供ができているか確認しなければいけません。適切なデータ、数学、理論を使うことによって、その決定は正しいものであるのかを確認する必要があります。
CANが保険業界のクライアントのために開発した次のリストを検討してみてください。もし保険業界でなくても、もしあなたのドメインであった場合を想像してみてください。

予測分析が保険業界で使われる10の方法

  1. コールド・リード(Cold Lead=購入意欲の低い見込み客)がどの商品を購入しそうか測定する
  2. ポートフォリオ、製品、需要や経済の見通しの変化を予測する
  3. 担当エリアに住んでいる保険契約者の動向を確認する
  4. 不正請求の検知と防止をする
  5. 団体保険のシフトを先導している経済的要因を特定する
  6. OneToOneマーケティング:適切な人に、適切な商品を、適切な時間に
  7. マーケティングキャンペーンの効果測定と予測をする
  8. 保険請求の傾向を分析し、保険と運用作業を最適化する
  9. プロバイダーネットワーク(契約している医師やカウンセラー)の相互作用を管理する
  10. 保険の購入を今必要としている個人を特定する

 

参考記事:
SmartData Collective
Top 10 Ways to Apply Predictive Analytics in the Insurance Industry — and Your Industry?

時系列での相関を調べることが出来る「Google Correlate」が公開

correlate-japan

Googleは5月25日に、時系列での相関を調べることが出来る「Google Correlate」をGoogle Labsで公開しました。

Googleは、どれくらい検索されたかを時系列グラフで表示できる「Googleトレンド」「Google Insights for Search」を提供していますが、「Google Correlate」は”Correlate”という通り、検索語や時系列の数値をアップロードすることによって、それと似た相関のあるものを見つけることが出来ます。この相関を見つける技術は、マンガ風に紹介していますが、Googleがインフルエンザ流行傾向を予測するために28か国で公開した「Google flu Trends」の技術を利用しています。

これまで、自社の商品やサービスの検索ワードと相関のある検索ワードを調べるためには、検索ワードを推測して探さなければ行けませんでした。もしかすると、予想外なワードが相関していると出てくるかもしれません。順番としては、Google Correlateで相関のあるワードを見つけ、そのワードをGoogle Insights for Searchで詳細に調べる、というようになるのではないでしょうか。

ユーザーが利用する方法は以下3つです。

  • 相関を見たい検索語を入力する
  • 時系列データをcsvでアップロードするか、値を直接入力する
  • 時系列のグラフをマウスで描く(Search By Drawing)

相関はピアソン相関係数で計算しているそうで、今のところ正の相関しか見ることはできませんが、逆相関を調べるためには入力する値に”× -1″をしてマイナス値にすることによって調べることが出来ます。

現在、Google Correlateで使用されているデータは、2003年以降のアメリカ全体とアメリカの各州ごとの検索結果のため、現時点では日本語の検索クエリーなどはほとんど使えません。(全く使えないと思いきや、いくつか試してみると時々結果が出る言葉もあります。)

ちなみに「japan」で検索してみると、震災のあった2011年3月当たりでドカンと急上昇していますが、相関結果の4つ目に「japan location」とあります。アメリカ人は日本が地図のどこにあるかあまり知らないと言うことなんでしょうね。


Google DocsのSpreadsheetsにピボットテーブル機能がようやく追加されました

google_spreadsheet_pivot

 

 

Microsoft Excelでデータ分析をされている方であれば、ピボットテーブル機能を使ったことがある方は多いと思います。そのピボット機能が、5月17日にGoogle DocsのSpreadsheetsに追加されました。

既に日本語にも対応していて、Google Docsのページから[新規作成] – [スプレッドシート]を選択すると以下のようなポップアップが表示されます。

注意点として、10万行までの対応ということと、Microsoft Excelで作成されたピボットテーブルは、アップロードしても反映されません。

以下↓が紹介ビデオです。

[youtube]http://www.youtube.com/watch?v=giuD7KSmock&feature=player_embedded[/youtube]

 

同じオンラインオフィススイートのZoho Sheet2008年8月にマクロ機能と共にピボットテーブル機能は追加されていますし、日本語化はされていませんがオンラインBIサービスのZoho Reportsではスタート時の2009年12月からピボットテーブル機能はサポートされています。そのため、Google Docsのピボットテーブル機能の追加は遅いと言わざるをえませんが、BIツールのクラウド化が始まっている中、Googleにもこの分野で頑張って欲しいです。