「データ可視化」カテゴリーアーカイブ

イギリスの交通違反の悪質な地域を可視化したインタラクティブ地図

イギリス交通違反多発地域(The UK's Driving Offence Hotspots)は、交通違反のデータを基に、どの地域(警察管轄)で交通違反が多いかを可視化した地図です。

上は、速度超過違反を選んだ場合。運転手1万人あたりの違反件数が多いほど、濃い赤色で表示されるようになっています。

7つのカテゴリー別の地図と、全部を合わせた総合の地図を選ぶことができます。総合で1位となったのは、南西部のエイボン・サマーセット地域。個別にみるとスピード違反で1位の地域のようですが、スピード違反の件数が他の違反よりも桁違いに大きいのが効いているように見えます。

免許不携帯と不注意運転の両方で1位なのはスコットランド。運転中の携帯電話利用はロンドンが1位、あたりは、なんとなくイメージからわかる気もします。信号無視の件数が2位以下を引き離して多いレスターシャーは、なんかあるんですかね。

2016-2017年度のデータを各警察署などから集めたということで、データも公開されています。公開データを使った可視化で、注意喚起としてもいいですね。

via Maps Mania

ロンドンで一番ひどいバス停を見つける – ビッグデータ活用事例

ビッグデータ解析サービスの英コグニシオ社(Kognitio)が公開している、ロンドン最悪のバス停(The worst bus stop in London)は、ロンドン交通局の運営するバス運行に関する膨大なデータを使って、運行状況に関して優秀なバスやひどいバスを見つけるというプロジェクトです。

対象となるデータの規模は以下。

  • データ数 4,938,534,706
  • バス停の数 19,687個
  • バス路線数 675本
  • バスの台数 9,641台

ロンドン交通局のオープンデータというページがあるので、ここから入手できるのでしょうね。

これらのデータから、たとえば、7つの運行ゾーン毎に、「バスがとても遅れるバス停」「時刻表より前にバスが来がちなバス停」などのランキングが求められています。

これは「ロンドンで最も出発が遅れる路線」。走ってて遅れるのではなく出発が遅れるってどういうこと? と思いますが、運転手が遅刻するとかそういうのもあるんでしょうか。

こちらなんかは良い方の結果で、最も時間に正確なルート。路線のバスのうち85%が時刻表から外れずに走っているそうです。

郵便番号でランキング

バスが正確な地域、不正確な地域をランキングするには、郵便番号(の上3桁)が使われています。

なんで郵便番号? と思うかもしれませんが、イギリス(や西洋の多く)の住所は通りの名前+番号なので、おおまかなエリアを示すには郵便番号が便利なのかもしれませんね。

ロンドンで最も使えないバス停は

すべてを総合した、ロンドンで最悪のバス停は、ヒースロー空港近くのリングウェイ(Ringway)バス停だそうです。時刻表通りに来るバスの割合は全体の4%、25本に1本しかないのだとか。

ロンドン交通局自身も、いろいろとデータ処理して同様の情報は持っているのかもしれませんが、こうやってオープンデータとして公開することで、第三者が検証したり改善提案してくれたりするのはいい感じです。

もし地球がバスケットボール大だったら? 地図上で太陽との距離を確認できるwebサービス

太陽系の大きさを、身近な地図上で実感するためのサイト Soalar System Maps

もし地球がバスケットボールの大きさだったとして、東京日本橋のサイボウズ本社に太陽があったとしたら、

太陽の大きさがこんなで、

バスケットボール大の地球は、国会議事堂あたりを回っているかもしれない、と。

サイトでは、他の惑星を選ぶこともでき、またバスケットボールだけでなく「もしテニスボール大だったら」も選択することができます。

天文学的な距離や大きな量を卑近な例に縮小することで感じる、という教材はよくありますが、自分の家や良く知っている場所を太陽にできることで、さらに理科への興味を持ってもらったりすることもできそうですね。

Angular で書かれたソースコードはこちらで公開されています

サイトの作者が「この動画からインスピレーションを得ました」と紹介している、もし太陽がサッカーボールだったら各惑星(存在の可能性が言われる第9惑星も)はどこ? も面白いです

[可視化] ヨーロッパ各国で「子供の恋人が○○人でも気にしないか?」を訊ねた結果の地図

reddit の地図セクションで bezzelford さん発表したヴィジュアライゼーション。

この地図は、「あなたの子供が黒人と付き合っていたとして、問題ない(comfortable)と思いますか?」に対する回答で、問題ない人の割合が高いほど緑に、低いほど赤に塗り分けられています。

緑が濃い国ほど、気にしていないということですね(あるいは「気にしてないように振る舞う」可能性もなくはないですが)。同じヨーロッパと言っても、8割は気にしないスウェーデンやイギリスの寛容さと、7割が気にするチェコ・スロバキア・ブルガリア等では大きく違うことが見て取れます。

ヨーロッパで黒人がどう扱われようと、日本人の自分には関係ない? ではこちらはどうでしょう

「あなたの子供がアジア人と付き合っていたとして、問題ない(comfortable)と思いますか?」への回答。

黒人とアジア人の許容度の差は平均で5%ぐらいなので、「子供の交際相手として黒人はだめだがアジア人ならOK」という人の割合は、ヨーロッパ人が20人いる中で1人ぐらいということなんでしょう。人種差別の少ない社会は、日本人にとっても助かる社会と言えるのでは。

reddit のコメント欄では、「国によってその国の言葉で訊ねただろうから、翻訳のニュアンスが違うせいでこんな差がついたのでは?」と言った意見も出ています。「さすがにこんなひどくないだろう」という人もいれば「私も○○人だが、○○人の多くはレイシストだ」みたいな人も。

また、「アジア人(Asian)と言っても国によってさまざまで、たとえばイギリス人ならインドやパキスタン人を最初に思い浮かべるのでは?」とか、「そんなことはない、中国人や日本人をまず思いつく」という議論もありました。

元の投稿では、イスラム教徒、ユダヤ教徒についての地図もあります。

元データについて

このデータ、適当なアンケート結果ではなく、EU が実施した「EU における差別 2015年」という大きな調査 [pdf] の中の一部のようです。

24ページ目に、地図を塗り分けた元データの表があります。

東欧諸国の方で興味深いのは、「子供の恋人が白人だったら?」という質問ですら、「問題ない」が90%を割るところがいくつもあるところで、仮定の質問でも子供の恋人なんて考えたくない、のかもしれません。(ちなみにEU平均でも92%)

トップ100万ウェブサイトのrobots.txtを解析した人とその結果

An Analysis of the World's Leading robots.txt Files(世界のリーダーたちの robots.txt ファイル)というブログで、世界の上位100万サイトの robots.txt を解析したベン・フレデリクソンさん(Ben Frederickson)の話が出ていました。

フレデリクソンさんは、解析結果から、3つの面白い気づきを紹介してくれています。

Googlebot にしか見せないサイト

Googleボット以外のすべてのボットを拒否する、という設定のサイトは意外に多いそうです。

大手サイトでは例えば、フェイスブック(robots.txt)が厳しいということ。実際に見ると Apple や Baidu など有名どころのクローラーはいくつか受け付けているのですが、基本的には「その他は不許可」という指定をしています。

アメリカ国勢調査のサイトも、Google, Yahoo, Microsoft の3社のbotしか受け付けておらず、例えば真剣にGoogle の対抗馬を目指しているような DuckDuckGo の bot はアクセスできません。

記事中に、主要言語ごとの人気サイトで DuckDuckGo のクローラを許すかどうかの表があるのですが、かなり多くのサイトがアクセスを禁止しています。DuckDuckGo を排除しているというわけではなく、よく知らないものやマイナーなものはすべて不許可、という態勢ですね。

今後、新しい検索エンジンや、その他のクローラーを使ったサービスが出てきても、多くのサイトはアクセスが禁止されているのが現状ということですね。

みんながブロックするクローラー上位ランキング

より多くのドメインで拒否されているクローラーは何だろう? という集計もしています。一番人気は MJ12bot 。続いて AhrefsBot, Baiduspider, Nutch… と続きます。

日本語のブログでも、このあたりの bot を止めたい、アクセスが多すぎて困る、という記事を見かけるので、いろいろなサイトの運営者が迷惑と思っているのでしょう。Google bot なら見に来ればその後の実ユーザーの来訪も見込めますが、ユーザーを連れてこないのにボットに絨毯爆撃のようにアクセスされても困るだけですからね。

サイトを丸ごとダウンロードするようなツールの bot も、禁止リストに入っていることが多いそうです。

robots.txt で求人

Pinterestなど、robots.txt のコメントで人間向けの勧誘をしているサイトも多いようです。

ピンタレストは採用中!(Pinterest is hiring!)

ロボット用のファイルを読んでいるあなたがもし人間なら、デジタルオーシャンで働くべきだ

私たちもロボットは好き。私たちとボットについて語り合いましょう(Angel.co)

HTMLのコメントにもこういうのありますが、実際これで採用につながることってあるんですかね?

ソースコード

Pythonで書かれた robots.txt クローラのコードは Github で公開されています。

via Hacker News

国別の旅行危険リスクを可視化した世界地図 Travel Risk Map

保険会社International SOSが公開した旅行リスク地図(Travel Risk Map)

保険会社として多くの事件事故データを持っていて、それを使って判定しているのでしょうね。OpenStreetMap ベースの世界地図の上で、医療(medical)、治安(security)、道路の安全(road security)の三つのリスクの多寡を切り替えて表示できます。

国によっては州や地域でさらに細かくリスクが分類されていたりもします。

さて、旅行先としての日本の安全性はどう判定されているのか、と見てみると、

  • 医療: リスク低(low)
  • 治安: リスク低(low)
  • 道路の安全: リスクとても低(very low)

と、ありがたいことに世界でもトップレベルのリスクの低さであることがわかります。

ただし、治安の地図で見ると上には上がいて、low の下に insignificant (とるにたりない。統計的に有意でない)、というカテゴリーがあります。この insignificant の黄緑色で表示されているのは、以下のような国々

  • ノルウェー
  • フィンランド
  • デンマーク
  • スイス
  • スロベニア

他にルクセンブルク、リヒテンシュタイン、サンマリノ、アンドラ、モナコ、なんかもこの「超安全」カテゴリでしたが、これらの小国はまあ小さいから可能なところはあるかと思います。

地図を紹介しているMaps Maniaでは、各国の政府が自国の旅行者向けにこういったリスク情報を流している(例: 英国)ので、それとの併用を勧めています。

日本の場合は、外務省の公開している海外安全ホームページがそう。より詳細な情報に日本語でアクセスできるので、目的国がはっきりしている場合はこれでもいいのですが、興味的につらつら見るには、冒頭のインタラクティブな地図の方が直観的で楽しそうです。

日本のサイトでは日本の危険情報は載せませんから、「世界の国や周辺の国と比べて日本の安全性はどうなんだろう」という興味が沸いた時は、前掲の地図や諸外国の政府の情報が役に立つかもしれないですね。

via Maps Mania