「データ」カテゴリーアーカイブ

イギリス中の自転車事故などを地図上で一望できるwebサービス

Bikedata は、イギリスにおける自転車に関するデータを地図上にプロットした、インタラクティブな情報地図です。

この画面では、道路のどの場所で自転車事故が発生したことがあるか、が、ピンクのマーカーで示されています。

通勤やツーリングの計画を立てる時に、事故が頻発するところを知って避ける、といった使い方もできるでしょうね。スマートフォンアプリなどで、事故の多い場所に近づいたら注意をうながす、みたいなものを作ったりもできるかもしれません。

サイトでは、事故の他にも、交通量、自転車の盗難、駐輪場、サイクルレーンの写真、など、様々な自転車に関するデータを表示することができます。

さらに、このサイトのソースはGPLv3 で公開されています。

元データは国によるもの

イギリス政府のデータ公開サイトに、道路の安全データ(Rode Safety Data)というのがあり、ここではSTATS19 という書類で報告された2005年から2014年までの事故のデータが公開されているようです。

100Mぐらいあるデータを見てみたら、こんな感じで緯度経度や日時、事故の状況を表すフラグを持つレコードが大量にあるCSVファイルでした。

こういったデータが公にされているのはいいですね。このデータを API 化して自転車事故について Cyclestreets.net が提供し、それを Google Maps APIなどを使って可視化したのが今回のサービス、ということになります。

via Maps Mania

「個人デイトレーダーの8割は赤字」 取引情報共有サイトのデータを解析した人の話

eToro というヨーロッパの株取引サービスは、「ソーシャル・トレーディング」サービスです。ユーザーが取引情報を公開・共有できるようになっていて、さらに他のユーザーの取引を「コピーする」ことができるそうです。うまい成績を上げている人の取引をコピーすることで自分も儲けられる(かもしれない)、というのがウリなんでしょうね。

多くのユーザーの取引の結果が公開されていることから、ブログCuriousGnuの中の人は、「では平均的なユーザーはデイトレードで儲かっているんだろうか?」と思い、データを集めてその平均を調べました。eToroでデータを公開していたユーザーは83300人。それをヒストグラムにしたものが以下です。

etoro-shared-trading-average-histogram

横軸の0のところがプラスマイナス0、トントンですね。この時のデータでは、79.5%のユーザーがマイナスとなり、中央値の人で36.3%のお金を失っていたということです。

これでデイトレードのリスクが高い、と言うにはいろいろと突っ込みどころもあります。たとえば以下のようなもの。

  • eToroのユーザー (デイトレードの下手なユーザーが集まるサイトだったかも)
  • 自分の取引を公開共有するようなユーザー (上手いユーザーは共有しないのかも)
  • ある過去12か月間のデータ (たまたまデイトレードの人に不利な環境の続いた12か月だったかも)
  • 3回以上取引した人をデイトレーダーとしている (デイトレーダーの定義に必ずしもあわない)

株の売買をどんどんやってほしいサービス側はこんなデータを出さないでしょうから、見える範囲のデータでできることを調べるとすればこれぐらいが限度なのかもしれません。

via Hacker News

ShootingTracker.com – アメリカの乱射事件データベース

ShootingTracker.com (射撃追跡.com)は、アメリカにおける大量射殺事件のデータベース(DB)です。

2013年からの銃を使った乱射事件のデータが、ネットユーザーからの報告ベースでまとめられています。

shootingtracker.com

巨大掲示板redditの中の「GunsAreCool(銃は素晴らしい)」という、名前からして明らかに活発な論争を巻き起こしているテーマコミュニティ(subreddit) の中で、提唱されてまとめられているこのデータは、「世界でただ一つのクラウドソース型銃乱射事件追跡サイト(the world’s only crowd sourced mass shooting tracker)」として、各メディアでも取り上げられているということです。

ニュースなどで報じられた銃による乱射や大量殺人事件を、ウェブのフォームやtwitterで知らせてもらい、それをまとめることで網羅的なデータベースができ、それを逆に参照して記事に使うメディアも出てきています。

そもそものDB化の動機は、メディアがよく使う”Mass Shooting”(大量射撃)という用語の定義がはっきりしないことにあったようです。

古いFBIの”Mass Murder”(大量殺人)の定義は、「一度の事件で4人以上を殺すこと」。この定義を銃での”Mass Shooting”にも援用するなら、途中に間隔を置いての4人以上の銃撃殺人や、実際に2012年に起きた18人に乱射したけれど死亡者は1人だった事件は、「大量射撃」ではない。ということにもなります。

DBの管理者はまた、アメリカでの大量銃撃事件のメディアでの報道は「十分でない」と考えているようです。メディア側には、報道することで真似をして同種の事件が増えるという主張もあるようなのですが。

このデータを実際に使って、ワシントンポストがインタラクティブな可視化ツールを公開しています。

mass-shootings-visualized-by-washington-post

あなたの考える”Mass Shooting”が、m人以上の死亡者とn人以上の負傷者なら「大量だ」と思うのであれば、それをこのフォームで選ぶと、2015年に発生した条件にあう乱射事件が、その件数とともにリストされます。

FBI式であれば、2015年にはこれまでで40件の”mass shooting”が起こっていた、ということになりますね。どんな定義で数えても、日本では考えられない件数ではありますが。

このようなまとめデータは、実際に起こっている問題の規模や、それがメディアや政治等で過剰・過小に扱われたりしていないかをチェックするためにも有用なように思います。

不倫サイトの流出データからわかった、人気の高い「嘘の誕生日」

不倫希望者マッチングサービスAshley Madisonの利用者データ流出がニュースを賑わしています。世界中の3600万人ユーザーの登録データがBitTorrentなどのファイル共有で流れているということで、この興味深いビッグデータを使った解析や評論などもぽつぽつと登場しています。

米ワシントンポストが取り上げたのが、登録者の誕生日情報。こちらのツイッターのメッセージでも表の部分が共有されています。

左の赤い表が、流出ユーザーの誕生日の設定の多寡。横軸が月、縦軸が日の一年間で、色の濃いところほど、平均よりも多くのユーザーが誕生日と指定している日となります。

人がいつ生まれるかはおおむね平均化されているとすれば、ある一日を見たときにその日が誕生日の人は全体の1/365の割合でいるはず。しかし、一番集中している元旦1月1日は、利用者全体の実に12分の1が誕生日と指定していたそうです。

他に赤色の濃いところを見ていくと、月を1月にしたまま日だけを変更したケース、日を1日にしたまま月だけを変更したケースとして、表の左端と上端が濃くなっています。また、2月2日、3月3日… と、ゾロ目の誕生日も登録者が多いです。

他に多いのが記念日系。2月14日のバレンタインデー、4月20日の大麻の日、7月4日のアメリカ独立記念日、なども、覚えやすい嘘の日として愛用している人がいるようで、うっすらと濃くなっていますね。日本人だと何の記念日を使うかもわかると面白そうです。

右の青い表は生まれ年の分布ですが、こちらは実際に利用者が多い1980年代を中心に分布しているものの、末尾が0や5とキリの良い年が少し多かったりします。一番多い生まれ年は1978年だったそうですが、これはもしかしたら登録時のデフォルトだったのかもしれません。

ワシントンポストも、「この統計からネットユーザー一般が同じ傾向で嘘の誕生日を使うとは断言できない。なんとなれば、このデータは(妻や夫に対しての)嘘つきを集めたものだからだ」とまとめているので、嘘の誕生日を使っている人の率は多少一般より高いかもしれません。

ただ、僕もそうですが、明らかに正確な生年月日を必要としないだろうwebサービスから生年月日を問われた時に、本当のものではない生年月日を使う人はそれなりにいるのではないかと思います。

ネットのサービスで本当の誕生日を入れるものなのか?

誕生日というのは結構プライバシー的に重要なデータで、役所でも企業サービスでも本人確認の為に求めらることがそれなりにあります。本名と誕生日、電話番号などだけで本人確認としてしまうようなサービスだと、他人に誕生日を知られてしまっただけで自分に成りすまされてしまうということもあるでしょう。

今となっては、「誕生日を知ってるから本人」なんて運用は危険この上ないとは思いますが、ソーシャルネットワークの流行などから後、多くのネットサービスで当然のように誕生日を尋ねてくるようになりました。ソーシャル系のサービスではつながっている友人に対して機械的に友人の誕生日を通知し、交流を活性化させようとしたりもしているので、誕生日の祝い祝われが大事なユーザーは本当の誕生日を入れがちになるかもしれません。

via The Verge

[アメリカ] 男女性別不明なユニセックス・ネーム

データ処理に関するブログ FlowingData で紹介されていたのは、聞いただけでは女性か男性かわからない、どちらの性別でもつけられることがあるファーストネームの統計結果です。

most-unisex-names-in-us-history-chart

1930年以降のデータで男性にも女性にもつけられてきた名前が、もっともどっちつかずだった順番に第1位のジェシー(Jessie)から並べられています。青いのが男性の、赤いのが女性の子供にその命名がされた割合を示しています。白い丸は、その名前の男女比が最も均衡していた、一番半々に近かった年を表しているそうです。

日本でいうと、「かおる」とか「ひろみ」、「あきら」、「しのぶ」といった名前にあたるでしょうか。英語の中性的な名前がどれか、なんて考えたこともなかったので、リストを順番に見るだけでも面白いです。

上から、ジェシー、マリオン、ジャッキー、アルバ、オリー、ジョディー、クレオ、ケリー、フランキー、グァダループ、キャリー、トミー、エンジェル、ホリス、サミー、ジェイミー、クリス、ロビー、トレーシー、メリル、ノエル、レネ、ジョニー、アリエル、ジャン、デボン、クルズ、ミシェル、ゲール、ロビン、ドリアン、ケーシー、ダナ、キム、シャノン。

このような両性的な名前の人は、すべて合わせてもアメリカ人全体からみれば1%にも満たないということですが、聞いたことがあるような名前も含まれていますね。

日常的にアメリカ人と多く接したりしてなければ、日本人が持つこれらの名前に対する性別の印象は、歌手や映画俳優などの外国の有名人に影響されるのではないでしょうか。僕だったら、「ジャッキー」は男、「ジョディー」は女、「マリオン」は女、「フランキー」は男、と思い込んでしまいそうですが、それぞれ、かなりの割合で、その名前で反対の性の人が存在することがわかります。他に、エンジェルは男性の方が多いとか、女性のサミーが半数近くになってきているとかも、僕の感覚とは違っています。

アメリカ人たち自身の子供の命名についても有名人の影響というのは同じようにあり、その名前を持った有名人の活躍で、これらのユニセックスな名前が、ある時突然一方の性別に偏っていくことがグラフからもわかるようです。グラフ中にも特記されていますが、陸上選手のマリオン・ジョーンズのオリンピック金メダル獲得は女の子のマリオンを増やしたし、初の黒人メジャーリーガー、ジャッキー・ロビンソンの登場は、男の子のジャッキーを増やしています。

24位のアリエル(Ariel)は、ディズニーの人魚姫から僕も女性の名前だと思い込んでいましたが、映画の公開までは男性の方がむしろ多く、映画から後に大きく女性の方に振れたのですね。40歳以上のアリエルさんは男性で、40歳以下のアリエルさんは女性が多い、ということのようです。

主要なウェブサービス支持者の政治的傾向を調べたチャート Politics of the Social Web

今年はアメリカ大統領選挙の年で、アメリカではこれから秋にかけて選挙の話・政治の話が盛り上がっていくと思われます。

そんな中、EngageがリリースしたPolitcs of the Social Web(ソーシャルウェブ上の政治)は、Facebookのデータの統計から作られた面白い情報です。

「eBayをよく使うユーザーはロムニー支持で政治にも積極的」とか、「Tumblrユーザーはオバマ支持だが政治にあまり興味が無い」といった傾向を見ることができます。

Facebookのプロフィールでは自身の政治的傾向を登録して公開できます(日本人はそんなに使ってないし見てもいないのではと思いますが)。それらのユーザーが、これらのwebサービスやオンラインゲームなどに対してFacebookで押した「イイネ!」と、政治的傾向の関連を数千人分集めてプロットしたところ、このような傾向が出たということ。

フェイスブックで好きだと表明することが、必ずしも本当に好きかどうか、良く使っているかを表すとは限らないですが、Engageの主張ではこのようなデータを知ることで、自陣営の支持者が多いサービスや少ないサービス、投票を働きかけて動いてくれそうなユーザーが多いサービスや少ないサービス、という傾向を知ることができ、オンライン広告の予算配分等を効率よくできるようになるはずだ、と言っています。

日本でも、2ちゃんねる利用者が保守的で、はてなユーザーはリベラル、といった政治的傾向が語られることがありますが、FacebookのイイネやMixiのコミュニティで表明された個人の嗜好を大量に集めると、そういった印象が本当に正しいのかどうか調べることができるのかもしれませんね。