「統計」タグアーカイブ

英語で一番使われる(笑)はLOLじゃなかった – Facebookの統計データから

Facebook Research の Sarah Larson さんが発表したのが、メッセージやコメントなどで「笑っている状態」を表現する文字についての統計です。

英語で「笑っているよ」を表現する方法としては、LOL = laugh out loud = 大笑い、とか LMAO = laugh my ass off などが有名かと思います。でも、こんな略語が本当に良く使われているんでしょうか?

Larson さんは、5月最終週のFacebookの投稿・コメントを正規表現を使って集計し、全体の15%のユーザーがこういった(笑)表現を使っていたという結果を得ました。さらにその内訳はというと、

(chart image: Facebook Research)
(chart image: Facebook Research)

このグラフのようになります。一番多かったのは”ha”、そしてそれを繰り返した”haha”, “hahaha”などのグループ。日本語で言うなら、コメントした後に”ハハハ”と書くような感じですね。

次が絵文字系、そして”he”, “hehe”(ヘヘ)と続きます。

LOLは1.9% の使用で、50分の1ぐらい。見ないわけでもないけど、そんなにみんなLOLを使っているわけでもない、ということがわかりました。

Facebookだけのデータではありますが、Facebookの英語圏での普及率や使われ方を考えると、ネット一般で見てもそれほど傾向は違わないのではないかなと想像します。

via VentureBeat

絵文字合衆国アメリカ – 各州ごとに人気のある絵文字は何か?

iPhone向けテキスト入力支援アプリの SwiftKey が、自社アプリを使って入力された絵文字のデータをアメリカの州ごとに分析し、インタラクティブな地図 United States of Emoji にまとめました。

united-states-of-emoji
(Swiftkey)

SwiftKeyのページでは、地図上の各州を選び、その州での絵文字の使われ方の特徴を知ることができます。

たとえば、ハワイでどの州よりも使われている絵文字は以下の5個。

hawaii-emoji

波や虹の絵文字がアメリカのどこよりもハワイで使われている、と言われると、なるほど、という気もしますね。

ニューヨークの自由の女神やアリゾナのサボテン、ワシントンのコーヒーカップなどは、なるほどその州でよく使われそうだ、とわかりますが、よくわからないものも多いですね。絵文字といえばいつも話題に出てくるウンコマークは、バーモント州で一番良く使われているのだとか。何でだ。

「どの州よりもこの州で使われている絵文字」だけでなく、

emoji-in-new-york

* この州でより多く使われている絵文字
* この州でより使われていない絵文字
* この州でより使われている絵文字のジャンル
* この州でより使われていない絵文字のジャンル

なども見ることができます。

SwiftKey のユーザーが入力した絵文字、という前提はありますが、それなりに各州の特徴のようなものが出ていて面白い地図ですね。

via The Next Web

あなたがチェスの駒だったとして、生き残るには何になればいいか?

質問サイト Quora での、「平均的なチェスの対局での、個々のコマの生き残る確率は?」(What are the chances of survival of individual chess pieces in average games?)という質問に対するOlivere Brennanさんの素晴らしい回答。

chess-survival-rate

マスターレベル(レーティング2200以上)の棋譜220万局を集計して作られたのが上の図。チェスの初期配置図のコマのある場所に、そのコマが最後まで生き残る確率が書かれています。

480px-AAA_SVG_Chessboard_and_chess_pieces_03.svg

キングは半分ぐらいの生存率かと思ったら、詰んだ時点で終わりで100%生存という風に見るのですね。

一兵士として死ぬ確率が高いのは、中央あたりのポーンや、ナイトやビショップということです。女王も半分の確率で居なくなってしまいます。

王様の次に生き残りやすいのは、キング側の端の、h列のポーンが70%を超える高い生存率です(なお、今回の確率は、プロモーションした場合も生存、として集計しているそうです)。

王様だと必ず生き残るので、王様になれるなら王様になるのも一つの手ですが、戦後に敗戦の責任を負って生きるのもたいへんでしょう。一兵士(ポーン)になって戦場から離れた端っこの方にいるのも、生き残るための一つの方策と言えるかもしれません。

# あくまでチェスの話ですよ

220万局を集計したC#のコードはGithubで公開されています

将棋だったら誰も死なずに投降して裏切るだけですし、取られた時点で最初にどこにあった駒かわからなくなってしまうので同じような統計は取れなさそうですね。

東京人が一番眠りが短い – 腕輪センサーのJawboneが公開した各国の生活時間データがおもしろい

腕輪方のセンサーと、そのデータを使ったライフ・トラッキングのwebサービスを提供している Jawbone 社が、ユーザーから集まったデータを集計して世界各国の生活パターンの違いをまとめています

jawbone-sleep-pattern-around-the-world

上のチャートは一日のそれぞれの時間で、寝ている人の割合を都市ごとにプロットしたものです。

オレンジ色の線が東京のユーザーのものなのですが、他の都市の人たちと比べて、あきらかに寝ている時間帯が内側に寄っている=睡眠時間が短い、のがわかります。

平均して5時間46分、は、最も長いオーストラリア・メルボルンの6時間58分よりも1時間以上短いことになります。

5時間46分の睡眠は、いくらなんでも短すぎるようにも思えますが、これらの睡眠時間は、実際にベッドに入ってから出るまでの時間ではなく、Jawbone のリストバンドが検知した、ベッドの中で本当に寝入ってから目が覚めるまでの時間だということ。ベッドに入ってからもなかなか寝られない、という人は短めに出てしまうのですね。

明け方の4時半、東京では寝ている人の割合が一番高く、93%になります。7%の人はその時間に起きているということですが、ドバイはもっとすごくて、常に全体の10%以上の人は起きているそうです。

昼寝(シエスタ)のイメージがあるスペインで、マドリードの3%の人しか実際には昼寝していないのに、北京では6%の人が昼食のあとに昼寝しているとかも興味深いですね。

リンク先のブログでは、チャートで表示する都市をインタラクティブに選択できるので、興味のある方は自分でいろいろ触って比較すると楽しいかと思います。

「Jawbone のようなセンサーデバイスを使って自分の睡眠や活動を管理しようとする人」だけのデータなので、多少は偏っているかもしれないのですが、それでもお国柄の違いのようなものが見えてきて面白い可視化ではないかと思います。

via Flowing Data

アメリカ人の学歴・性別・専攻と生涯収入の関係を可視化したインタラクティブ・グラフ

Fusionによるこのインタラクティブグラフでは、最終学歴や性別、専攻などに応じて、アメリカ人の収入がどのように変化していくかを、給与比較サービスPayScaleが利用者から集めたデータを基に見せてくれます。

以下は、高校を卒業してすぐ働いた場合と、4年制大学を出た場合の比較。高校を出て15年目あたりで、生涯賃金が逆転しています。

degree-and-lifetime-income-in-us

学部卒と修士や博士卒では? 学校に長くいるほど年収は高くなるのですが、累計では最初の学費の分のマイナスがなかなか埋まらないことがわかります。

degree-and-income-in-us

MBAやロースクール、医学部の効果は? これらの専攻は生涯賃金を押し上げていますね。

mba-law-medicine-and-lifetime-income

男性と女性で比較することも。日本よりは差が少なそうですが、それでも男性であることが大きく給与に影響していますね。

lifetime-income-male-and-female

via Featured Charts – Should You Take the Plunge? – Fusion.net

自前のメールサーバーを使っていても多くのメールはGmailユーザーの友人経由でGoogleに捕捉されている、という話

自分の電子メールは自分のサーバで管理し、プライバシーを守りたいとしてきた ベンジャミン・ヒル(Benjamin Marko Hill)さんが、Gmailのサービスが開始した2004年からの10年間の自分のプライベート用メールアドレスのメールボックスを解析してみたところ、近年では1/3から半分近くのメールがGmailのサービスにも知られている、という結果が出たそうです。

ヒルさんは、ネットの検閲に反対するなどの活動で知られる電子フロンティア財団(EFF)のディレクターでもある友人のピーター・エカーズリーさんがGmailを使っていることを知って驚き、「Googleにすべてのメールデータを持たれていてもいいのか?」と尋ねたところ、エカーズリーさんが「友人が全員Gmailユーザーなら、結局自分のメールもGmailに把握されてしまっているから」と答えたことをきっかけに、自分の過去のメールがはたしてGmailを経由しているかどうかを調べる気になったということです。

メールボックス内のメールのFromやToを解析し可視化するPythonとRのコードは公開されています。

emails_gmail_over_time

毎週受け取ったメールの総数(赤)と、そのうちヘッダからGoogleのサーバーを経由していたとわかったメールの総数(青)をプロットしたものが上のグラフです。毎週の変動が多いですが、グレイでプロットされた移動平均を見ると、Googleに知られているメールの割合が年を追うごとに少しずつ増えて、最近では1/3のメールがGmailに絡んでいることがわかります。銀行やオンラインショップからの案内メール等はGmailから発信されていないことが多いだろうことを考えると、それ以外の普通のメールではGmailから発信されている割合はさらに高くなるのではということ。

また、自分が返答したメールについて、返答した元のメールの発信がGmailからであれば、返事もGmailを経由して返っていると仮定してカウントしたところ、今は半数ぐらいのメールはGmailのサーバに向けて送っている = 自分の返事したメールの半数はGoogleに読まれ得る、という数字が出たとのこと。ヒルさんがGmailを選んだのは彼の周囲でGmailユーザーが多いだろうと考えてのことで、HotmailやYahoo! Mailなど他のメールサービスでも同じような話はありますし、それらのどこからも見えていないメールの割合はだいぶ小さくなるのかもしれません。

メールがソーシャルなコミュニケーションのツールである限り、自分が自前のメールサーバーを建てたところで、友達がみんな大企業のメールサービスを使えば、自分のメールの多くも大企業の入手するところとなってしまうわけですね。以前ご紹介した、友達が多数ソーシャルネットワークに参加していると、参加していなくても自分の交友関係が把握され得る、という研究と通じるところがありますね。

自分も私用のメールではGmailを重用していますし、このような状況で手間を掛けて自前メールサーバーを構築・維持したいとも思わないので、これらの大手の業者が自分のメールの中身を万が一にも悪用しないことを期待するしかないですが。

via @HackerNews