「データ可視化」カテゴリーアーカイブ

各種指標から世界の似た国をマップしてくれる可視化サービス

Information is beautifulの世界データ可視化賞2019年のグランプリ(賞金が$25000(276万8920円))が、ニキータ・ロコチャン氏(Nikita Rokotyan)らによるもう一つのデータ駆動各国図(An Alternative, Data-Driven, Country Map)

t-SNEによる次元圧縮で、国を比較する際の様々な指標を2次元に落とし込み、クラスタ化させた地図です。指標は、人口、面積、ジニ係数、幸福度ランキング、平均寿命、教育予算、GDP、失業率、政府の腐敗度、租税負担率、国会議員女性率、など30以上のデータ。

ページを開くと、使い方のガイドが出てきて案内されます(閉じて、すぐに色々自分で試すこともできます)。点のサイズはその国の人口に応じて決まり、その国が所属する大陸によって色がわけられています。

案内にもありますが、デフォルトでオンになっている25ほどの指標を組み入れた時、日本は北米や欧州、オセアニアのいわゆる「先進国」と一団のクラスタを形成していることがわかります。

中国とインドという二つの人口大国が他と離れて双子のようになっていたり、シンガポールがアラブの産油国とクラスタを作っていたり、いろいろ興味深い組み合わせが見られます。

国を選んでクリックすると、その国における各指標がいくつで、全体から見てどういった位置にあたるかを見られます。そして、スライダーを左右に動かしてみることができます。つまり、「もし日本の人口が半分だったら」「失業率が10%を越えていたら」のような仮定の変更をすると、他のどの国と似た国とされるか、を見ることができるというわけ。

25もある指標の一つだけを変えても、なかなか大きな変化はないようですが、例えば、日本の腐敗認識指数(control of corruption)を-1.00程度に下げてみると、先進国の集団からズルズルっと移動して、東欧や他の東アジアの国が固まっているクラスタにくっついたりしました。

「もしこの国のこの部分がもっと(良く|悪く)なったら、これらの国と似た国になるかもしれない」という思考実験ができる、面白いウェブサービスかと思います。

via Maps Mania

ギレンホール実験 – 有名人のミススペルの傾向を分析

ギレンホール実験(Gyllenhaal experiment)は、スペルが難しい有名人の一人である俳優のジェイク・ギレンホール氏の名前を冠した、面白い調査結果です。

著者のラッセル・ゴールデンバーグ氏(Russell Goldenberg)とマット・ダニエルズ氏(Matt Daniels)はまず、2011年頃にグーグルが公開した、「ブリトニー・スピアーズのグーグル検索60万回のデータ」から、人々がどのように彼女のファーストネームを間違えているかを可視化します。

7文字ですが、正しく入力できた人の割合は8割強。2割弱の人はスペルを間違っているということです。

このようなスペルが怪しい可能性のある有名人を、巨大掲示板 reddit の書き込みデータから (sp?) = 「スペル違うかも」と添えられた単語を探すことで特定するという手法が最近提案されていて、それらを参考にした「よくスペルを間違えられている有名人」の名前クイズを遊ぶことができます。

ホームラン記録で日本でも有名になったマーク・マグワイヤ氏のスペルをうろ覚えで入れてみたのがこちら。

最大8種類の「正解」および「よくある間違い」、そして、”Your Path”として、自分が入れたものも表示されます。

クイズで出てくるその他の難しいスペルの有名人としては、マシュー・「マコノヒー」、スカーレット・「ヨハンセン」
、「マコーレ」・カルキン、コリン・「キャパニック」らが挙げられています。

中には、正解率が2割を切っているものや、正しい綴りよりも多くの人が答えている間違っている綴り、なんていうものもあります。

これらのデータは、JSON形式でこちらからダウンロードすることもできます。

名前のスペルについては、間違われようが気にしない、というか実害もそれほど無いかもしれませんが、大量のデータの間違いを分析することで面白い結果が取れるというのはいろいろ他にも実験できそうですね。

各種個人情報が(アメリカの)サービス経由で何度漏洩したか確認できるサイト by New York Times

ニューヨークタイムズが面白い可視化ページを作ってます。

これまで、様々な企業やサービスがユーザーから預かった個人情報を漏らしたり盗まれたりしています。ニューヨークタイムズはそのような事例のニュースを横断的に調べて、過去に何度ぐらい自分の情報が漏れたのかをカウントしてくれるというページを作ったのです。

「賃貸やクレジットカードの作成をしたか?」(クレジットレポート)、「政府系の求人に応募したか?」「これらのウェブサービス(AOLやeBayなどの超大手も)に登録したか?」「健康保険サービスを受けていたか」「(表示されている時期に)クレジットカードやデビットカードで、これらのホテルに泊まったり、これらの店舗でものを買ったりしたか?」などをクリックで答えると、左側には住所やクレジットカード、電話番号やパスワード、などが、それぞれ何回流出されたか、がカウントして表示されます。

対象はアメリカのサービスばかりですが、twitter や LinkedIn、Uber など日本からも多く使われているサービスも含まれていますし、マリオットやハイアットのホテルチェーンに日本やその他の旅行先で泊まり、カード払いした人もいるでしょう。

まあ、流出したことがわかっても、パスワードとかなら変えればいいですが、氏名や生年月日などは流出を無かったことにもできないんですけどね。

日本でも類似の個人情報流出は起こっているので、こんなようなまとめがあれば、素性のよく分からないサービスに色々な個人情報を入力したりする前に、ちょっと考えるようになるかもしれません。

Datawrapper で、複数地点を俯瞰で紹介できる地図 Locator Map を作る

ジャーナリストやビジネスパーソン向けのグラフ/地図作成サービス Datawrapper で、地図上の複数地点を示す Locator Map というタイプの地図を作る機能が追加されています

東京日本橋500円(5ドル)ランチガイドのお店で作ってみました。

広い範囲のどこに当たるかを差し挟んだりもできるので、意味なく地球上での位置など入れてみたりしました。

地図の方角を変えたり、斜めから見たように角度をつけることも自由にできます。

上のサンプルは手で入力しましたが、店舗のリストなど、データをまとめて渡して地図を生成することもできます。地図のベースとして使われているのは OpenStreetMap ですね。

Datawrapper はフリーミアムのサービスで、無料でも限定された形で利用できますが、多数のチャートや地図を作ったり、それらの図をサイト上で何万回も表示したり、画像やpdfにして配布したりする場合には月額制の有料プランに入る必要があります。

見栄えのよいグラフや地図を作るのもスキルが必要ですが、データを与えるだけでデザインされたものが出たり、インタラクティブな仕組みを持たせたりできるのであれば、お金を払ってもいいというユーザーがいて、こういったサービスが存在できているのかもしれません。

via Maps Mania

メジャーリーガーが多用する英語表現は?

ワシントンポスト紙が、過去21年間、7000本ものプロ野球選手へのインタビュー記事を解析して、選手がインタビューで多用する表現は何かを調べた記事が面白いです。

Python製の自然言語解析ライブラリNLTKを使い、4・5単語以上のフレーズで7回以上登場したものから抽出した「インタビューで良く出てくるフレーズ」。

何百回も出てくるフレーズは、記事中で解説されています。たとえばこういったもの

  • ここに立てて幸せです (I’m just happy to be here)
  • 一日一日やるだけです (we gotta play ’em one day at a time)

実はこれらは、映画「さよならゲーム」で、ケビン・コスナー演じるベテランが、若手投手に教える「これさえ言っておけばなんとかなる」というインタビュー用フレーズなのです。しかし、実際のメジャーリーガー達もこれらを何百回と使ってしまっているという。

また、以下のようなフレーズは、日常ではあまりないが野球では多用されるということ。

  • バットをボールに当てに行く (put the bat on the ball)
  • ストライクゾーンをぶちぬく (pound the strike zone)
  • いいピッチングはいいヒッティングに勝る (good pitching beats good hitting)
  • なんとかやりぬく道を見つける (find a way to get it done)

記事の末尾には、メジャーリーガーが良く使うフレーズが、「よくあるフレーズ」「慣用句」「野球用語」の三つにわけて紹介されています。

フレーズの上にマウスを置くと、実際にそのフレーズを使った野球選手のインタビュー抜粋が表示されるので、どんな風に使われるのかもわかるようになっています。

「よくあるフレーズ」「慣用句」は、たぶんアメリカで話す時にも良く使われているのでしょう。良く使われているフレーズを勉強することは、生きた英語を身に着けることにつながりそうです。

また、「野球用語」のところもしっかり勉強すれば、野球選手の通訳がうまくできるようになるかもしれませんね。

AgentMaps – 地図上で多数の人が動くシミュレーションを作るためのライブラリ

AgentMapsは、JavaScript 上で地図ベースの社会シミュレーターを作るためのライブラリです。

インタラクティブ地図作成のライブラリ Leaflet.js 上に構築されていて、

  • 道沿いに建物を建てる
  • エージェントを地図上に配置
  • エージェントの建物間の移動をスケジュールする
  • エージェントの見た目を変える

などができるということ。町の中を行き来する住人のモデルを作って、住人間でうつる病気とその伝染率を定義すれば、伝染病がどのように広まっていくか、あるいは一定の範囲でとどまるか、といったことをシミュレーションできます。

こちらのデモでは、人々の移動の速度や、病気の伝染しやすさのパラメーターをスライダーで変化させて、全体の様子がどうなるかを観察することができます。

ツールの使い道ですが、たとえば、イベントで多数の人が集まってきた時に出店や通路を人がどう動くか、とか、ゾンビ物のお話を作る時に、感染が広まる様子をシミュレートしてそれを基に書くとリアリティが高まったりするのかなあ、とか、どうでしょうね。