Archive - 5月 2012

クラウド型のオープンデータプラットフォーム『Junar』がローンチ

Junar-Open-Data-Platform

 

2010年にチリで設立され、去年からパルアトロに拠点を置くJunarは、同名のオープンデータプラットフォームを正式にローンチしました。

企業や政府機関はもちろん教育機関やNPOなどがこのプラットフォームを使うことによって、各組織が保有する情報を容易に収集・分析・可視化・公開・アクセス解析をすることが可能になります。

オープンガバメントの動きが加速している中、Data.govなどのようなオープンデータを公開する場所は各国で増えていますが、上記のような機関やNPOの数を考えると、これらはまだ氷山の一角で、それぞれのサイト上でExcelやPDFファイル、htmlテーブルなどで公開している組織が大多数だと思われます。

最初にも記しましたが、Junarのプラットフォームを利用することによって、上図のようにデータを収集・分析・可視化・公開・(Google Analyticsとの統合による)レポーティングまでのプロセスを容易に行うことができます。

もちろん、ダッシュボードを構築して各組織のサイトに統合し、組織内のみの閲覧も可能になっており、組織内でのデータ共有・一元管理するためのとしての機能も有しています。

また、公開にあたってもTwitterやFacebookなどのソーシャルメディアへの投稿はもちろん、csvなどのデータ加工が容易な形式でのエクスポート環境も用意することができます。

権限付与も柔軟に設定ができ、組織の管理者は各メンバーの権限をデータ閲覧のみの権限であったり、データ可視化(グラフ作成)権限、公開権限など自由に設定することができます。

Junarの競合となるのはTableauや Socrataなどのサービスとなりますが、これらはデータ可視化・公開にフォーカスを当てたものでJunarほどの機能はありません。

月額$290からと決して安くはないですが、システム部門を持たない組織やシステムへ多額の投資する余裕のない組織も多数あるので、そのような組織にはニーズがあると思われます。もちろんこのようなプラットフォームが他にもこれから出てくると考えられるので、注力してウォッチしていきます。

データジャーナリズムの先端を行くNYTimesのビジュアライゼーションが詰まったブログ『ChartsNThings』

The_First_Day_Pop

 

今月17日にFacebookのIPOが実施され、それに関する多くの記事が書かれました。

IPOの規模はハイテク企業で最大」「過去5年間の米大型IPOで最悪の出だし」「初週は過去10年間で(ほぼ)最悪」など、各紙それぞれの視点でその他のIPOと比較する記事が書かれています。

今回はその中で、The New York Timesがどのような視点でFacebookのIPOに関するデータ可視化を行ったのかを学びます。

過去にThe New York Timesのデータビジュアリゼーションについて取り上げた記事を書きましたが、その後もデータジャーナリズムの先駆者として多くのデータ可視化に取り組んでいます。個人的には英国ではThe Gurdian、米国ではThe New York Timesがデータジャーナリズムの先端を走っているように思います。

インフォグラフィック共有・作成サイトの「visual.ly」のブログでも1ヶ月前に「10 Things You Can Learn From the New York Times’ Data Visualizations」という記事が書かれており、データビジュアリゼーションに関わる多くの人達からも参考とされているよことがわかります。

そのThe New York Timesは今回のFacebookのIPOに関し、2400にも上る1980年以降のテック系企業のIPOとの比較を可視化しました。

このビジュアリゼーションでは5ステップで、以下のことがとてもわかり易く可視化されています。

  1. これまでのテック系IPOではGoogleが最大であった
  2. FacebookのIPOはGoogleの4倍もの規模で最大となった
  3. logスケールで表現し直し、他の企業と比較しやすくした
  4. IPO初日終了時はどうなる傾向にあるのか
  5. そして、3年後はどうなる傾向にあるのか

The New York Timesのビジュアリゼーションが詰まったブログ「ChartsNThings

このビジュアリゼーションはどのような過程で完成に至ったのでしょうか。その過程がブログ「ChartsNThings」で紹介されています。

実は、今回のFacebookのIPOに関するビジュアリゼーションに限らず、このブログ「ChartsNThings」ではThe New York Timesで記事となるビジュアリゼーションがどのような過程で作成されたのか事細かに説明されています。

スケッチのみの場合もあれば、チャートやグラフを使用する場合はRを使ったデータ分析や可視化をしたり、D3などのチャートライブラリなど利用したりと、目的に応じて多種多様な手法が使われていることがわかります。

今回の場合ですと、IPOから3年後どうなるかというビジュアリゼーションでは以下のものが最終形態として作成されています。

今回のビジュアリゼーションを担当されたAmanda Cox氏はこちらの方がスマートであるとしていますが、オンラインではブラウザのスペースも限られ、10秒でわかるようにということで今回のものを作成されたということです。

このように、このブログではデータジャーナリズムの先端を行くThe New York Timesのデータ可視化の様々なTipsが満載です。常に読者のことを考えたデータ可視化は大変勉強になるので、是非こちらのブログを購読してみてはいかがでしょうか。

1年の天気情報とソーシャルメディア上の感情を1枚に可視化したチャート「Weather chart C°F」

Weather_Chart

 

オランダにあるデザインスタジオ「CLEVER°FRANKE」は、アニュアルレポートとして毎年この時期になると、全てのクライアントとのプロジェクトを止め、このレポート「Weather chart C°F」の制作に集中して取りかかります。今年で3回目のレポートとなり、過去2年のアウトプットも彼らのworkから見ることができ、今年のものと共にポスターとして販売されています。

このデータ可視化のアイデアが浮かんだきっかけは、このデザインスタジオが初めに入居した建物のすぐ隣りにオランダ気象研究所があったことからだそうです。

今年は過去2年のレポートと毛色がガラっと代わり、天気とソーシャルメディアの感情の相関を可視化することが目的となりました。

そして、先ほど名前の出たオランダ気象研究所からの公式レポートと、天気について語られていたソーシャルメディア上の714,843個ものメッセージを比較し、この1つのラジアル図(放射状チャート図)で可視化しています。

下図の凡例にあるように、この360度の円に日々の気温、降水量、日照時間、風速、10段階の天気評価(Weather Rating)、ソーシャルメディア上の総量とArtificial Intelligence Appliedで分析したポジネガをプロットし表現しています。

この1枚では詳細な相関がわかりにくいため、それぞれの凡例とソーシャルメディア上の感情の相関を見た結果などがこちらの詳細PDFにあります。

結果として、以下の様なインサイトが言えることがわかりました。

  • 天気に関してのつぶやきはウィークデイ(月~金)で朝の7時~8時が最も多い
  • 天気に対してポジティブな時より、ネガティブな時の方が圧倒的に多く反応がある
  • ソーシャルメディア上の感情と一番強い相関があるのは日照時間である

こちらはオランダでの結果ですので、日本での天気とその期間のソーシャルメディアデータを分析してみると、また違った結果が出るかもしれません。

結果としてはそれほど衝撃的なものではありませんが、もし当然の結果が出たとしても、それは実際にデータを分析して可視化したからわかったことで、説得力を持っています。また、自分にとっての当たり前も他人にとっては当たり前ではないかもしれません

このような分析結果は、二次情報ではありますが蓄積しておくと役に立つ日が来るかもしれません。特に自分の興味範囲のデータはEvernoteなどの外部脳を使って、イザという時に検索できるようにしておくことをオススメします。

最も生まれた人が多い日はいつ?生まれた人の多い誕生日ランキングをヒートマップにしてみた

How_Common_Is_Your_Birthday-_Japan_ver.

 

※追記。先程知ったのですが、ロケットニュースさんでもIDEA*IDEAさんでも取り上げられていてバズってますね。この記事はその日本版です。

先週、データジャーナリストのMatt Stiles氏が、アメリカで生まれた人の多い誕生日ランキングをヒートマップで可視化したものをブログ「The Daily Biz」で公開したところ、TwitterやFacebookで話題となりました。

日本でも7月~9月生まれが多いという話をよく聞くので、月別に見た傾向はさほど違いがないのかな、と思いましたが日別に見るとどのような違いがあるのでしょうか。

既にまとめられた情報がないかなと探したところ、テレビ朝日「シルシルミシル」が2011年5月4日に厚生労働省の統計データ(1981年~2010年)を使った誕生日ランキングを放送したそうで、それをまとめたブログ記事を書かれた方がいたので、そのデータを参考に私もヒートマップを作成してみました。

Matt Stiles氏はRとIllustratorを使って可視化していますが、BIコンサルタントのAndy Kriebel氏がインスパイアされてTableau Publicで作成したものをブログで公開し、同じく話題となりました。

今回は、私も先ほどの厚生労働省のデータを使いTableau Publicでヒートマップを作成しました。マウスカーソルを日にちの上に持っていくとその日のランクが表示されます。もっと大きくキレイに見たい場合はこちらをどうぞ。

やはりランクが高い日は7月〜9月に集中しているところはアメリカと近い傾向が出ていますが、ランクが高い日の間にランクが低い日が入っている場所がアメリカと比べて多いことがわかります。

アメリカは7月4日が独立記念日のため、ランクが高い日の多い7月の中でもこの近辺だけが低くなっています。アメリカでは全州が休みとなるナショナルホリデーが少なく、州ごとに異なっていたり、月曜固定のために毎年日にちが異なっているために、このような傾向が少なっています。

一方、日本はハッピーマンデー制度によって2000年以降は曜日固定の祝日が増えていますが、まだ日にち固定の祝日が多く存在しています。

ヒートマップを見てみると、明らかに国民の祝日や、休みがよく取られる正月三が日や8月15日前後のお盆休みでの出産が避けられ、その前後での出産が多いことがわかります。

また、4月1日のランクが低いことも、4月2日生まれから学年が変わるために出産を遅らせているという日本特有の特徴ではないでしょうか。

その他にも、ヒートマップで可視化したことによってテキストで見るよりもわかることが多くあります。もちろんヒートマップではなく別の見せ方にするとまた新しいことがわかるかもしれません。

日本版Data.govが本格的に始まれば、このようなデータを簡単に取得し可視化することができるようになるので、このような情報がどんどんインターネットで共有されるようになるでしょう。

クラウド型データ可視化プラットフォームもここまで来た!ビジュアルプログラミング環境『Quadrigram』がローンチ

quadrigram

 

スペインのバルセロナに拠点を置くBestiario社は今月、ブラウザ上でビジュアルプログラミング言語(VPL:Visual Programming Language)を使い、データのロード・加工・分析・可視化・共有まで可能なプラットフォーム「Quadrigram」をローンチしました。

[vimeo width=”550″ height=”309″]http://vimeo.com/41136214[/vimeo]

Bestiario社は2005年の設立以降、アートと科学の概念を組み合わせ、グラフ理論、幾何学的アルゴリズム、物理モデルや地理的表現などに基づいたフレームワークを使い複雑なデータセットを可視化し、データ理解を可能にするソリューションを提供しており、その経験がこの「Quadrigram」の開発に結実した、ということです。

データ可視化だけを目的としたサービスは最近多くリリースされていますが、最初に列挙した通り、下記のフローをこのプラットフォーム上で直感的なVPL(詳細はこちら)で一貫して行うことができ、完成度がかなり高いツールとなっています。

  1. データロード
  2. データハンドリング
  3. 探索的データ分析・解析
  4. データ可視化
  5. アウトプット共有

このVPLについては実際に動画を見ていただくと、どんなものかわかるでしょう。

[vimeo width=”550″ height=”309″]http://vimeo.com/36892914[/vimeo]

ワークスペース上にモジュールライブラリーというタブが並んでおり、このライブラリーから必要なモジュールをドラッグ&ドロップで自由に配置し、モジュール同士を接続してインフォメーションフローを作成していきます。

ライブラリーには以下の種類のモジュール(詳細はこちらがあります。

  • Data Strucures
    StringやNumberなどのデータフォーマットの宣言や変換を行います。

  • Operators
    単純な計算から、データ抽出やカラーパレット作成などの様々な機能を実行します。

  • Controls
    ボタンやテキストボックス、スクロールバーなどの作成からユーザーシステムのプロパティ取得などのコントロール部分を作成します。
     
  • Visualizers
    基本的なパイチャートや棒グラフから複雑ネットワークなどでデータを可視化します。

  • Resources
    ローカルファイルやデータベース、ソーシャルメディアからAPIで取得、その他のデータ分析ツールなど、ロードするデータソースを指定します。

上記それぞれのリンク先を見て頂ければわかりますが、それぞれのライブラリーには既に多数のモジュールがあり、かなり高度な分析や表現ができるようになっています。

データ解析についても、RやGephiなどのOSSがサーバーサイドで統合されており、テキストマイニングや複雑ネットワークもこの中だけで完結させることができます。両方とも私が日常的に利用しているツールなので個人的にはこれだけでも、とても魅力的です。

サイトではチュートリアルも用意され始めており、今後更に増やす予定となっています。

 

ローカルアプリケーションではなく、ブラウザ上で行うクラウドアプリケーションでここまでのことが出来ることに驚きました。

料金プランを見てみると、ストレージ容量やCPUが心もとないため、ビッグデータ分析には向かないと思われるでしょうが、Quadrigram側としてはビッグデータの定義でいうVolume(容量)ではなく構造化データ・非構造化データのVariety(種類)を解決するサービスとして開発したことをブログ記事でも言っています。

まだローンチしたばかりで登録すれば誰でもすぐに試用できるわけではないため、ネット上でもまだそれほど話題になっていません。

コンセプトとしてはとても素晴らしいツールだと思いますが、実際に利用したユーザからの評価が集まり始めてから、本当に使えるツールかどうかわかってくるでしょう。