Category - データ可視化

データビジュアライゼーションの第一人者Moritz Stefaner氏から学ぶデータ可視化

mymuesli_full

 

まだまだ日本には、データビジュアリゼーションで生計を立てているようなフリーランサーはほとんどいない(育つ土壌もまだない)と思いますが、世界を見ると、このデータ可視化を職業としたフリーランサーは存在します。今後、このブログでもそのようなフリーランサーとその方々の”作品”を紹介していこうと思います。

今回取り上げるのは、ドイツでデータビジュアリゼーションの第一人者であるMoritz Stefaner氏です。学歴としては、認知科学の学士とインターフェイスデザインの修士を取得しています。

彼の作品に関する情報を得る方法としては、Twitterアカウント(@moritz_stefaner)、更新は少ないですがWELL-FORMED DATAというブログと、彼が関わっているプロジェクトを紹介するホームページがあります。

ちなみにオススメのプロジェクトはOECDの50周年記念で作成された「OECD Better Life Index」(より良い暮らし指標)で、日本語の説明はこちらにありますが、生活に関する11の指標を重み付けして自分だけのLife Indexを作って共有することができます。

彼に関する詳細なプロフィールに関しては、データビジュアリゼーション界では有名なサイト「visualizing.org」のブログで彼へのインタビュー記事があります。また、ドイツのコンスタンツ大でデータビジュアリゼーションのリサーチャーをしているEnrico Bertini氏(同じくvisualizing.orgでの紹介)のブログ「Fell in Love with Data」では彼へのインタビュー動画があります。

そして、このMoritz Stefaner氏とEnrico Bertini氏は二人でデータビジュアリゼーションに関するPodcast「Data Stories」を隔週で配信していています。iTunesで登録される方はこちらからどうぞ。

それでは、5月1日にプロジェクトホームページで公開された彼の直近の作品をご紹介します。

Müsli Ingredient Network

スイスやドイツで朝食として食べられるミューズリーの材料を自由に組み合わせて注文できるサイトを持つドイツのスタートアップのMymuesliから、5周年記念として依頼され作成したのが「Müsli Ingredient Network」です。

お客さんからメールで来る注文データを分析し、どのような材料の組み合わせで購入されているのかということを可視化をすること目的として作成されました。

まず一つ目は、ラジアルネットワーク(放射状ネットワーク)での可視化です。材料を、ミューズリーのベースとなる穀物、果物、ナッツ、チョコレートなどのお菓子の4つのカテゴリーにグループ化し、それぞれの材料(ノード)の組み合わせを線で結び、頻度を線の太さで表しています。

このネットワーク図から以下のようなことがわかります。

  • 果物が最も人気があり、他のグループの材料ともよく組み合わされていて、果物内でもよく組み合わされている。
  • お菓子とナッツはあまり組み合わされない。
  • マンゴー(Mango)は、パイナップル(Ananas)とココナッツ(Kokoschips)とそれぞれよく組み合わされているが、パイナップルとココナッツはあまり組み合わされない。

もちろんこの図ではわからないこともあり、最も組み合わされているラズベリー(Himbeeren)とストロベリー(Erdbeeren)がこの図では隣接しているために目立たなくなってしまっています。

次はマトリックス図で組み合わせを可視化していて、頻度の多さをバブルの大きさで表しています。この図によって、先ほどのラジアルの配置位置によって生じるデメリットを解消し、ラズベリー(Himbeeren)とストロベリー(Erdbeeren)などの同グループ内での関連性もわかるようになっています。

Moritz Stefaner氏はここからもう一歩踏み込んだ分析をしています。その結果が以下のマトリックス図になります。

バブルの大きさは先ほどと同じ組み合わせの頻度、そしてバブルの彩度の濃淡はそれぞれの組み合わせの”unexpectedness”を表しています(いい訳語が思い浮かびませんでした)。これは確率の期待値を使ったもので、特定の組み合わせがどれくらいの頻度で起こるかを見たものではなく、それぞれの組み合わせを分離して、その二つの材料の組み合わせの”人気度”として表したものです。

例えば、2回の注文に1回アーモンドが入っていて、3回の注文に1回ストロベリーが入っていた場合、アーモンドとストロベリーに特別なことがなければ確率では6回に1回(1/2 ×1/3=1/6)はアーモンドとストロベリーが組み合わさることになります。

この、組み合わせが起こりうる確率より実際の組み合わせの頻度が高ければバブルが濃くなります。

すると、これまで二つの図でもわからなかった、お菓子を入れる人は他のお菓子も組み合わせる頻度が高いことがわかります(右下の青い部分)。そして、(どのバブルがどの材料かわかり辛いのが難点ですが、恐らく)Chocolate-Dreamとチョコクランチ(Schoko Crunch)はお菓子との組み合わせが人気が高いことがわかります。

 

もちろんこれらを数値で表した方が正確な情報がわかります。しかしながら、(クライアントがどこまで詳細な分析結果を求めているかにもよりますが)いきなり文章だけのサマリーや詳細な数値の報告から入るより、これらの可視化されたものを先に出すことによって、視覚的に分析結果の概要を理解することができ、その後に出てくる詳細な結果の情報も入りやすくなると思います。

このあたりはストーリーテリングのスキルも重要になってきますので、それに関する情報があればこのブログで取り上げていこうと思いますが、今後も当記事のように、世界で有名なデータビジュアリゼーションのフリーランサーもどんどん紹介していき、データの見せ方(魅せ方)についても学んでいこうと思います。

データジャーナリズムから学ぶ、データからのストーリーテリング。データジャーナリズムに関する初めての教科書「Data Journalism Handbook」がリリース!

djh

 

下記のITジャーナリストの佐々木俊尚さんの以下のツイートや、Wired.jpでのジャーナリストの津田氏による発言などにより、データジャーナリズムは欧米だけでなく、日本でも次第に知られるようになってきています。

 

前記事の日本版Data.govが2013年度に公開されれば、データジャーナリズムは更に日本で一般的になるでしょう。

データジャーナリズムはいつ生まれ、どのような経緯でここまで一般的な言葉になったのか、簡単に調べてみました。

 

以下はGoogle Insights for Searchで「Data Journalism」と「”Data Journalism”」を検索してみたものです。2008年7月と2010年8月に何かのきっかけがあったことがわかります。 

この2つの違いは、前者が”Data”と”Journalism”の語順などは関係なしに検索された場合で、後者が”Data Journalism”という一つの言葉として検索された場合です。要するに、前者は「ジャーナリズムとデータに関連すること」が検索されており、後者はデータジャーナリズムそのものについて検索されているものになります。

ということは2008年7月に、「ジャーナリズムにデータが必要だという何かのきっかけ」があり、2010年8月に「データジャーナリズムという言葉が広まったきっかけ」があったのではないかと考えました。

 

GeekによるジャーナリズムへのITの応用

まず、2008年7月に何があったのでしょうか。

元々はWeb Developerであり、2005年にGoogle Mapとシカゴ警察の犯罪データをマッシュアップしたサイト『chicagocrime.org』をローンチし、2005年の「 Batten Award for Innovations in Journalism」を受賞したAdrian Holovaty氏がinternal Guardian conferenceで以下のようなスピーチを行なっていたことがわかりました。

@ Future of Journalism: Adrian Holovaty’s vision for data-friendly journalists

データジャーナリズムという言葉はこの記事には出てきていませんが、「未来のジャーナリズム」と題して、データ志向のジャーナリスト「データジャーナリスト」について公共データにも触れながら語っています。

オープンガバメントの重要性についてはそれ以前から語られていましたが、特に政府・行政の保有するデータ公開の重要性については、この記事を書いているthe Gurdianは2006年からキャンペーンを行なっていた(参考記事)そうで、恐らくこのスピーチが「ジャーナリズム×オープンデータ」について広まったきっかけだったのではないかと推測します。

 

TED × データジャーナリストのDavid McCandles氏

そして「データジャーナリズムという言葉が広まった」2010年8月には何があったのでしょうか。

恐らく、データジャーナリストとして著名なDavid McCandless氏によるTEDでのスピーチ「The beauty of data visualization」により、情報の可視化がジャーナリズムにも必要だということを広めるきっかけとなりました。(日本語字幕もあります)

時折ユーモアを交えながら、大量のデータから重要な情報を抜き出し可視化をして伝えることの重要性を、例を交えて説明されています。

David McCandless氏はスピーチの始めに次のように述べています。

情報の可視化は重要なパターンや関連を見えるようにし、情報にデザインを与えることで意味が引き立ち、ストーリーが伝わり、重要な情報だけに集中できるようにする。

大量データの時代にあり、ビッグデータからどのように有意な情報を発見するか、という話題ばかり出ていますが、その情報から何が言えるのかを説得力を持って説明するためには、インフォメーションデザインは大事なスキルであると言えます。

動画を見る時間がない方は、こちらに動画に使われた画像とともにスピーチが日本語訳されたものがあるのでどうぞ。

 

「Data Journalism Handbook」がリリース!

そして、2011年12月から今日までグラフは急上昇し続けています。

以下2つの出来事もその要因であると思われます。

1つ目がGoogleが協賛しているGlobal Editors Networkによるデータジャーナリズムコンテスト「Data Journalism Award」の開催です。ジャーナリズムのニューカマー・新組織の発掘を目的として2011年12月に概要が発表され、4月27日に58のノミネートプロジェクトが発表されたばかりです。

そして2つ目が、今記事の目玉となる「Data Journalism Handbook」が作られるきっかけとなったMozilla Festival 2011の開催です。

データジャーナリストのリーダーが多数所属しているOpen Knowledge Foundationと欧州ジャーナリズムセンターのメンバーが、データジャーナリズムについての教科書である「Data Journalism Handbook」の作成を発表しました。これまでデータジャーナリズムに関する書籍はまだなく、データジャーナリズムの基本から学べる初めての書籍となります。

書籍は2012年4月待つに行われるInternational Journalism Festivalでリリースされ、後にWeb上で無料公開されることになりました。

[vimeo width=”550″ height=”400″]http://vimeo.com/31940484[/vimeo]

 

そして昨日、予定されていたとおりData Journalism Handbookインターネット上で無料公開されました。e-book形式で、改定される度にアップデートされるので、是非登録もされておくことをオススメします。

e-bookだけでなく、紙の書籍もO’REILLYから5月に出版され、O’REILLYAmazonでも予約が始まっています。

 

様々なデータが入手できる今、情報が多い分、報告書に全てを盛り込みたくなる気持ちは理解できます。分厚い報告書を前にして作成者は満足感を得られるかもしれません。しかし、本当に大事なことはそれらのデータから何が言え、どうするべきなのかということです。

おそらく、報告書にはサマリーとしてそれぞれの調査結果から言えるポイントを列挙しているでしょう。しかし、そのポイント同士を繋げ線にしなければ結局その報告書から何が言えるのかがわかりません。そこでストーリーテリングの要素が必要になります。

ジャーナリストでなくとも、様々な調査結果などから報告書を作成する機会のある社会人の方々は、「Data Journalism Handbook」でデータからのストーリーテリングを勉強してみてはいかがでしょうか。

 

世界最大のリサーチ会社が、初のデータ・ビジュアライゼーション(データ可視化)コンテストを開催する目的とは?

nielsen_dataviz2012

 


 欧米ではインフォグラフィックに限らず、様々な形式でのデータ・ビジュアライゼーション(データ可視化)コンテストが頻繁に開催されています。

そんな中、世界最大のリサーチ会社であるニールセンが、”実験”として当社として初のデータ・ビジュアライゼーションコンテストを開催しています。

様々な調査データや小売データ、消費者データ、メディア視聴データなどを持つ、(量ではなく)ある意味世界で最も質の高いデータを持つニールセンが、このコンテストを行う目的は何でしょうか?

今回のコンテストの素材となるデータは、消費者習慣に関するものとソーシャルメディアに関するもので、それぞれ既に以下のような質の高いレポートとして公開されています。

 それでは、これらの元データを使って、ニールセンはどのような”作品”が投稿されることを望んでいるのでしょうか?

3月29日の締め切りまであと一週間と迫った22日、ニールセンのブログ記事「Data and Design – Looking at Data Visualization」で、今回のコンテストを開催した目的が書かれました。

 「ビッグデータが更に大きくなるにつれ、人の脳は、複雑なデータがより簡潔に表現されることを望む。」

 記事の中ではその根拠として、急成長中の画像キュレーションサービスのPinterestで、インフォグラフィックが人気カテゴリーの一つであること、そしてマッキンゼーとの合弁会社NM Inciteの調査で、ネット上でのインフォグラフィックに関する話題が前年比107%成長している、ということを取り上げています。

しかしながら、ただグラフィックがキレイで視覚的に楽しめるものを求めているわけではありません。

ビッグデータという新たな世界の理解のために、このデータの海に飛び込んで、どのような「ストーリー」がそこにあるのかを探求し、クライアントにとって未知で価値ある貴重な情報・洞察を視覚的にストーリーテリングできる人を探している、ということです。

特に日本で言えることですが、企業・個人にかかわらず、取得できるデータの種類は明らかに増えているにもかかわらず、これらの表現方法はこれまでの手法を踏襲し、表やグラフを並べてコメントを付ける、といった原始的なケースが多いです。

リサーチ会社にいる方々は、このようなデータはこのように表現する、といった固定概念を持ってしまっている人が多いという印象があるので、外部の人間がそれらをどのように可視化できるかを考えた方が、ユニークなアイデアが出てくるのではないでしょうか。

(※もちろん、インフォグラフィックはデータ可視化手法の一つであり、どんなデータでもインフォグラフィックにした方がいい、というわけではなく、データ特性や目的によって様々なデータ可視化手法から適したものを選択するべきだと考えていますので、スプレッドシートで作成できるような表やグラフが最適なケースも多くあります。)

また、先ほどのニールセンのレポートについても、インフォグラフィックの要素を取り入れキレイで見やすいですが、結局は数字やグラフを並べたに過ぎず、見た人にとって「へ~」で終わってしまう可能性が高いです。

なぜそのような結果が出たのか、ストーリーに沿って説明することによって、その先のストーリーが想像しやすく、「では、そのストーリーに沿って行くと、今後このような展開が予測でき、そのステップとしてこのような戦略が考えられる」というところまで考えることが出来るようになるのではないでしょうか。

これも一種のPredictive Analysisといえるかもしれません。

ビッグデータと共に、データ・サイエンティスト(Data Scientist)というバズワードが出てきていますが、統計などによって大量データから導き出された有益な情報を、どのように表現しクライアントやユーザーに伝えるのか、それを考えるインフォメーション・デザイナー(Infomation Designer)という人材も必要になってくると考えます。

投稿された作品は特設ページで公開され、自由にコメント・投票ができるようになるとのことですので、是非締め切り後に訪問してみてください。

最後のパラグラフに、このような言葉が書かれています。

「今回の試みからデータとデザインについて学び、”再発明”する。そのために、みんなには既成概念にとらわれないで欲しい。」

インフォグラフィックの検索・共有・作成ができる「Visual.ly」はインフォグラフィックの未来を変える!

visual.ly

インフォグラフィックの未来を変えるかもしれないWebサービス、それが7月13日にローンチされたばかりのインフォグラフィックの検索・共有・作成が出来る「Visual.ly」です。まずは、かなりかっこいい紹介ビデオをどうぞ。

[youtube]http://www.youtube.com/watch?v=AiVKfNeRbPQ[/youtube]

 

既に2,000以上のインフォグラフィックが登録ユーザーやパートナーサイト・企業から共有されていて、検索することが出来ます。どれもレベルが高く、検索・共有だけのサービスであってもかなり魅力的なサービスです。

しかし、Visual.lyがインフォグラフィックの未来を変えると言える要因は、Webアプリのツールで作成までできるということです。しかもただの静的なものだけでなく、ニュースサイトでよく見られるデータをインタラクティブに見せるグラフやチャートも作ることができ、最近ではVisual.lyが作成したインタラクティブチャートがCNNの記事で使われています。

このWebベースの作成ツールは、最初のバージョンが今後数ヶ月で提供開始される予定ということです。どうやらフリーミアムモデルで無料会員には機能が限定されたものを、そして有料会員は全ての機能が使えるようになるそうです。

そしてプロフェッショナルな人たちであれば、自分が作成したテンプレートを販売することが出来るようになります。

ここでちょっと道を外れて問題提起したいことは、このツールで作成できるモノはInfographicなのかData Visualizationなのかということです。

海外ではData VisualizationとInfographicの分野は日本に比べてかなり進んでいますが、それが災いしてかよく混同されることがあるそうです。

それを表わすように、Quoraでは以下のような面白い議論が起きています。

What is the difference between a data visualization and an infographic?

  • Infographicは静的で、Data Visualizationは動的ではないか。
  • Infographicは社会的で、Data Visualizationは科学的ではないか。
  • InfographicはData Visualizationの一部ではないか。
  • 複数のData Visualizationが集まったものがInfographicではないか。

このような議論がされているわけですが、答えはなんなのでしょうか。これはDataとInformationをどのように定義するかによって変わってくると思いますが、私が少し近いと思ったのは以下です。

Data Visualizationは、既知の可視化アルゴリズムとプロセス(等値度面、折れ線グラフ、ラインなど)を通じて科学的なデータ(シミュレーションされたものや測定されたもの)を表わしたもの。
Infographicは、視覚的に満足のいく形(フローチャート、比較表)で非構造化情報を表わしたもの。

しかし、Infographicの中には折れ線グラフやラインチャートが組み込まれているものもあるからな、と考えているところにeagereyesがvisual.lyを「The Future of Data-Based Infographics」として紹介していることを見つけました。

Data-Based Infographicという言葉に、なるほど!と思いました。構造化データを自動的に取り入れたインフォグラフィックを作成できるのがvisual.lyなんだと。

既存のインフォグラフィックは、当たり前のごとく数値があったとしてもそれはテキスト情報として入っていますが、visual.lyでは自動的に計算された値を入れたインフォグラフィックを作成できようになるのでは、と考えています。

とにかくこの作成ツールがリリースされるのを、そんな想像をしながら待ちたいと思います。

参考記事:
TechCrunch
Visually Launches To Automate The Making Of Infographics
AllThingsD
visual.ly Wants to Bring Nifty Charts and Graphs to the Rest of Us
eagereyes
Visual.ly: The Future of Data-Based Infographics
search engine land
Data Visualization & Infographic Search Engine Visual.ly Launches

 

The New York TimesのData Visualizationがすごい

Housing's_Rise_and_Fall_in_20_Cities

 

 

米ニューヨークタイムズのData Visualizationはうまいことについてはご存じの方もいるかもしれませんが、画像だけでなく時にはFlashなどを使って、データをインタラクティブに見せるのが本当にうまいです。

まずは2011年5月の記事をいくつか紹介します。

Housing’s Rise and Fall in 20 Cities

まずは直近5月31日。S&P社が公開しているアメリカ主要20都市の住宅価格INDEXで、2000年1月を100とした場合の2011年3月31日までの遷移です。左側の都市を選択すると該当の線が青くなります。また、線上にカーソルを持って行くと、そこの日付とINDEXの数値がポップアップされます。

 

The Deadliest Years

5月23日、最近アメリカでトルネードが多発して死者が多く出ているというニュースをよく見ますが、1950年から毎年のトルネードで犠牲になった方の数などを表したのが以下です。水色の点はトルネードの発生場所で、点から出ている線がトルネードが通った跡です。黄色いバブルは、犠牲者の数によって大きくなります。上の年のつまみをドラッグ&ドロップするとそれぞれの年のデータが表示されます。また、左上の「Play」を押すと自動的に年が一定時間ごとに移動します。改めて今年はトルネードが多く発生し、犠牲者が多く出ていることがわかります。

 

Mapping the Nation’s Well-Being

5月5日、米Gallup社が2010年に毎日ランダムに1000人の成人に”健幸度”について聞いてINDEX化したものが以下です。左側の各種INDEXを選択すると地図が変化し、それぞれの地域にカーソルを持って行くと詳細なパーセンテージが表示されます。

 

The Death of a Terrorist: A Turning Point?

5月3日、オバマがビン・ラディン容疑者の殺害を発表した後、13,864人のリーダーの方に以下2つの質問をしました。①”彼の死は我々のテロに対する戦争において重要(Significant)か。” ②”この出来事に対してネガティブかポジティブどちらの意見を持っているか。” その結果を以下のようにプロットしています。それぞれのポイントにカーソルを持って行くと、そこにプロットされたコメントがポップアップされます。濃くなっているポイントは複数の人がそこのポイントでコメントをしていることを表しています。

データを可視化することによって、普段はそれほど見入らないニュースでも「おっ?これは。」となりませんか?特に最後のビン・ラディン殺害についての意見をVisualizationしたものは、ただの数字よりも一見して概要がわかり、更に多くのコメントも見ることができます。日本のニュースサイトでここまで可視化をしているサイトはないでしょう。これはやはり欧米の方がインフォグラフィックやBIが進んでいるからということも要因にあると思います。

もしこれらの記事が好きな方がいれば、定期的にThe New York Timesを覗いてみてはいかがでしょうか。

 

以下にその他過去のモノをご紹介します。

The Jobless Rate for People Like You

Stop, Question and Frisk in New York Neighborhoods

600 Club Gets a New Member

Paths to the Top of the Home Run Charts

President Map