「統計」タグアーカイブ

ギレンホール実験 – 有名人のミススペルの傾向を分析

ギレンホール実験(Gyllenhaal experiment)は、スペルが難しい有名人の一人である俳優のジェイク・ギレンホール氏の名前を冠した、面白い調査結果です。

著者のラッセル・ゴールデンバーグ氏(Russell Goldenberg)とマット・ダニエルズ氏(Matt Daniels)はまず、2011年頃にグーグルが公開した、「ブリトニー・スピアーズのグーグル検索60万回のデータ」から、人々がどのように彼女のファーストネームを間違えているかを可視化します。

7文字ですが、正しく入力できた人の割合は8割強。2割弱の人はスペルを間違っているということです。

このようなスペルが怪しい可能性のある有名人を、巨大掲示板 reddit の書き込みデータから (sp?) = 「スペル違うかも」と添えられた単語を探すことで特定するという手法が最近提案されていて、それらを参考にした「よくスペルを間違えられている有名人」の名前クイズを遊ぶことができます。

ホームラン記録で日本でも有名になったマーク・マグワイヤ氏のスペルをうろ覚えで入れてみたのがこちら。

最大8種類の「正解」および「よくある間違い」、そして、”Your Path”として、自分が入れたものも表示されます。

クイズで出てくるその他の難しいスペルの有名人としては、マシュー・「マコノヒー」、スカーレット・「ヨハンセン」
、「マコーレ」・カルキン、コリン・「キャパニック」らが挙げられています。

中には、正解率が2割を切っているものや、正しい綴りよりも多くの人が答えている間違っている綴り、なんていうものもあります。

これらのデータは、JSON形式でこちらからダウンロードすることもできます。

名前のスペルについては、間違われようが気にしない、というか実害もそれほど無いかもしれませんが、大量のデータの間違いを分析することで面白い結果が取れるというのはいろいろ他にも実験できそうですね。

Aileen – 周囲のWiFiデバイスをカウントしてその場の人数を記録するツール

Aileen は、WiFi の電波から周囲にあるスマートフォンなどのデバイスを数え、記録するためのツールです。

WiFi がオンになっているデバイスのMACアドレスを使って、周囲にあるデバイスの数を記録し、時系列データなどをダッシュボードでまとめて表示します。(MACアドレスはハッシュ値のみ保存されます)

Aileen は、利用者として NGO による人道的な活動を想定しているということ。たとえば、難民キャンプでの人の出入りや活動を見守る、といった使い方です。キャンプの中にいる難民の数の変化をより正確に計ることで、サービス提供側の人員計画などを立てやすくすることができるのだとか。

先月にはコードがオープンソースで公開されており、WiFi 情報を収集して利用するというセンシティブな目的に対し、正体不明の第三者のツールに頼らずに済むのが利点だということです。

また、難民キャンプなどでは常に安定したインターネット接続が使えるとは限りません。そのような利用シーンを考え、Aileen を動かすPC自体はインターネット接続が無くても動けるようになっています。複数台を設置してデータ収集している場合は、ネットに接続した時点で情報を送信するそうです。(ハッシュ化された個々のMACアドレスを送信するのではなく、集計した結果のみを送るそうです)

今月には、ギリシアのレスボス島にある実際の難民キャンプで、2セットが試験運用を開始しているそう。

難民といえども、今は普通にスマートフォンを持っているのだろうと思います。むしろ情報収集等のために無いと困るぐらいかもしれません。デバイスを持たない人もいますが、スマートフォンの存在から人数を計るというのは、人手を掛けずにすむ効率的な方法なのかもしれないですね。

日本に今難民キャンプはありませんが、プライバシーへの配慮がされていることや、オープンソースとして動作の仕組みが公開されていることから、NGO などで他の人道的な運営に転用したりすることもできるかもしれません。

HomeCourt – バスケットボールのシュート結果を画像認識で自動記録するアプリ

HomeCourtは、スマートフォンのカメラを使ったバスケットボールの練習支援アプリケーションです。打ったシュートをリアルタイムで追跡し、結果をまとめてくれます。

シュート練習が映っているアプリの画面の右上に、シュートの企図回数や成功数、コート内でのシュート位置がリアルタイムで更新されていますね。

このアプリ、コートの外側に三脚でスマートフォンを固定設置して、3ポイントラインやゴールなどを認識させると、その後に打ったシュートの位置や結果が判定されます。また、シュート時の動画をスローモーションで見返したり、それをコーチと共有する機能もあるそう。

こちらが統計結果の表示画面例。コートのどの地点からシュートを試みて、その結果がどうだったかがわかりやすく表示されていますね。距離や角度ごとの成功率や、成功率が経時でどう変化してきたかも出てくるので、得意・苦手の把握や自分の成長の度合いの確認に使えそうです。

ラインの線の色、背景に木などが無い屋内コートが良い、ボールは標準的な色、十分な明るさ、など、より良い認識のための条件はいくつもあるものの、こういった結果が画像/動画認識技術の進歩によってスマートフォンレベルで動くようになったのはすごいですね。

ウェブサイトには利用者として大学チームのロゴも多数表示されていて、実際の練習に使われているようです。効率よく上達を目指すために、こういった支援ツールが中高生の部活などにもどんどん普及していくかもしれないですね。

https://itunes.apple.com/app/apple-store/id1258520424?mt=8

via VentureBeat

英語で一番使われる(笑)はLOLじゃなかった – Facebookの統計データから

Facebook Research の Sarah Larson さんが発表したのが、メッセージやコメントなどで「笑っている状態」を表現する文字についての統計です。

英語で「笑っているよ」を表現する方法としては、LOL = laugh out loud = 大笑い、とか LMAO = laugh my ass off などが有名かと思います。でも、こんな略語が本当に良く使われているんでしょうか?

Larson さんは、5月最終週のFacebookの投稿・コメントを正規表現を使って集計し、全体の15%のユーザーがこういった(笑)表現を使っていたという結果を得ました。さらにその内訳はというと、

(chart image: Facebook Research)
(chart image: Facebook Research)

このグラフのようになります。一番多かったのは”ha”、そしてそれを繰り返した”haha”, “hahaha”などのグループ。日本語で言うなら、コメントした後に”ハハハ”と書くような感じですね。

次が絵文字系、そして”he”, “hehe”(ヘヘ)と続きます。

LOLは1.9% の使用で、50分の1ぐらい。見ないわけでもないけど、そんなにみんなLOLを使っているわけでもない、ということがわかりました。

Facebookだけのデータではありますが、Facebookの英語圏での普及率や使われ方を考えると、ネット一般で見てもそれほど傾向は違わないのではないかなと想像します。

via VentureBeat

絵文字合衆国アメリカ – 各州ごとに人気のある絵文字は何か?

iPhone向けテキスト入力支援アプリの SwiftKey が、自社アプリを使って入力された絵文字のデータをアメリカの州ごとに分析し、インタラクティブな地図 United States of Emoji にまとめました。

united-states-of-emoji
(Swiftkey)

SwiftKeyのページでは、地図上の各州を選び、その州での絵文字の使われ方の特徴を知ることができます。

たとえば、ハワイでどの州よりも使われている絵文字は以下の5個。

hawaii-emoji

波や虹の絵文字がアメリカのどこよりもハワイで使われている、と言われると、なるほど、という気もしますね。

ニューヨークの自由の女神やアリゾナのサボテン、ワシントンのコーヒーカップなどは、なるほどその州でよく使われそうだ、とわかりますが、よくわからないものも多いですね。絵文字といえばいつも話題に出てくるウンコマークは、バーモント州で一番良く使われているのだとか。何でだ。

「どの州よりもこの州で使われている絵文字」だけでなく、

emoji-in-new-york

* この州でより多く使われている絵文字
* この州でより使われていない絵文字
* この州でより使われている絵文字のジャンル
* この州でより使われていない絵文字のジャンル

なども見ることができます。

SwiftKey のユーザーが入力した絵文字、という前提はありますが、それなりに各州の特徴のようなものが出ていて面白い地図ですね。

via The Next Web

あなたがチェスの駒だったとして、生き残るには何になればいいか?

質問サイト Quora での、「平均的なチェスの対局での、個々のコマの生き残る確率は?」(What are the chances of survival of individual chess pieces in average games?)という質問に対するOlivere Brennanさんの素晴らしい回答。

chess-survival-rate

マスターレベル(レーティング2200以上)の棋譜220万局を集計して作られたのが上の図。チェスの初期配置図のコマのある場所に、そのコマが最後まで生き残る確率が書かれています。

480px-AAA_SVG_Chessboard_and_chess_pieces_03.svg

キングは半分ぐらいの生存率かと思ったら、詰んだ時点で終わりで100%生存という風に見るのですね。

一兵士として死ぬ確率が高いのは、中央あたりのポーンや、ナイトやビショップということです。女王も半分の確率で居なくなってしまいます。

王様の次に生き残りやすいのは、キング側の端の、h列のポーンが70%を超える高い生存率です(なお、今回の確率は、プロモーションした場合も生存、として集計しているそうです)。

王様だと必ず生き残るので、王様になれるなら王様になるのも一つの手ですが、戦後に敗戦の責任を負って生きるのもたいへんでしょう。一兵士(ポーン)になって戦場から離れた端っこの方にいるのも、生き残るための一つの方策と言えるかもしれません。

# あくまでチェスの話ですよ

220万局を集計したC#のコードはGithubで公開されています

将棋だったら誰も死なずに投降して裏切るだけですし、取られた時点で最初にどこにあった駒かわからなくなってしまうので同じような統計は取れなさそうですね。