「データ」カテゴリーアーカイブ

米Yahoo!の株価/為替APIが停止

アメリカの株価や各通貨の交換レートが取得できる、米Yahoo! の finance API が、エラーを返すようになっていました。どうやら 2017-10-31 からこの状態になっているようです。

止まったのは REST API と、CSV によるダウンロードの両方。こういうエラーメッセージが帰ってきます。

このサービスは利用規約に違反して使われていたことにわたしたちは気づきました。そのため、サービスは終了しました。今後の市況や株価データのリサーチには finance.yahoo.com をお使いください

It has come to our attention that this service is being used in violation of the Yahoo Terms of Service. As such, the service is being discontinued. For all future markets and equities data research, please refer to finance.yahoo.com.

株価や為替のデータが無料で参照できる API として、オープンソースのツールなどもこの API を多く使っていたため、遮断から後で動かなくなったサイトや、困っているエンドユーザーが多いようです。Github で CSV ダウンロードのURLを検索すると、2万件以上ヒットしました。

ニュースサイトでも、「Yahoo のAPIが返事しないので…」というエラーを出してるところがありました。こんな感じで、API を使って表示しているサイトでエラーやデータ無しの状況が広がっていそうです。

米Yahoo のユーザーサポートページでは、APIの復活を望むコメントが寄せられ、それへの投票が呼びかけられています。

リアルタイム性の高い株価データは、高価な元データをYahoo! が購入し、それを無料で10年以上も配っていたわけで、メディアとしてAOLと統合された Yahoo! には維持が難しかったのかもしれません。

予告なしに突然止まったことに憤る人も多いですが、ビジネスとして仕方が無かったのかもしれません。

代替

reddit や Hacker News でいくつか替わりに使えそうな、無料あるいは無料枠のあるサービスやAPIが紹介されています。

株価に関しては、

為替に関しては、

などの名前が上がっています。呼び出し回数の上限があったり、数分前のデータだったりと、無料なだけにいろいろ制約があるかもしれません。まあ、それほど重要な使い方をしているなら、有料のAPIを購読しなさいということですね。

# 本当に取れるかは確認してません

イギリス中の自転車事故などを地図上で一望できるwebサービス

Bikedata は、イギリスにおける自転車に関するデータを地図上にプロットした、インタラクティブな情報地図です。

この画面では、道路のどの場所で自転車事故が発生したことがあるか、が、ピンクのマーカーで示されています。

通勤やツーリングの計画を立てる時に、事故が頻発するところを知って避ける、といった使い方もできるでしょうね。スマートフォンアプリなどで、事故の多い場所に近づいたら注意をうながす、みたいなものを作ったりもできるかもしれません。

サイトでは、事故の他にも、交通量、自転車の盗難、駐輪場、サイクルレーンの写真、など、様々な自転車に関するデータを表示することができます。

さらに、このサイトのソースはGPLv3 で公開されています。

元データは国によるもの

イギリス政府のデータ公開サイトに、道路の安全データ(Rode Safety Data)というのがあり、ここではSTATS19 という書類で報告された2005年から2014年までの事故のデータが公開されているようです。

100Mぐらいあるデータを見てみたら、こんな感じで緯度経度や日時、事故の状況を表すフラグを持つレコードが大量にあるCSVファイルでした。

こういったデータが公にされているのはいいですね。このデータを API 化して自転車事故について Cyclestreets.net が提供し、それを Google Maps APIなどを使って可視化したのが今回のサービス、ということになります。

via Maps Mania

「個人デイトレーダーの8割は赤字」 取引情報共有サイトのデータを解析した人の話

eToro というヨーロッパの株取引サービスは、「ソーシャル・トレーディング」サービスです。ユーザーが取引情報を公開・共有できるようになっていて、さらに他のユーザーの取引を「コピーする」ことができるそうです。うまい成績を上げている人の取引をコピーすることで自分も儲けられる(かもしれない)、というのがウリなんでしょうね。

多くのユーザーの取引の結果が公開されていることから、ブログCuriousGnuの中の人は、「では平均的なユーザーはデイトレードで儲かっているんだろうか?」と思い、データを集めてその平均を調べました。eToroでデータを公開していたユーザーは83300人。それをヒストグラムにしたものが以下です。

etoro-shared-trading-average-histogram

横軸の0のところがプラスマイナス0、トントンですね。この時のデータでは、79.5%のユーザーがマイナスとなり、中央値の人で36.3%のお金を失っていたということです。

これでデイトレードのリスクが高い、と言うにはいろいろと突っ込みどころもあります。たとえば以下のようなもの。

  • eToroのユーザー (デイトレードの下手なユーザーが集まるサイトだったかも)
  • 自分の取引を公開共有するようなユーザー (上手いユーザーは共有しないのかも)
  • ある過去12か月間のデータ (たまたまデイトレードの人に不利な環境の続いた12か月だったかも)
  • 3回以上取引した人をデイトレーダーとしている (デイトレーダーの定義に必ずしもあわない)

株の売買をどんどんやってほしいサービス側はこんなデータを出さないでしょうから、見える範囲のデータでできることを調べるとすればこれぐらいが限度なのかもしれません。

via Hacker News

ShootingTracker.com – アメリカの乱射事件データベース

ShootingTracker.com (射撃追跡.com)は、アメリカにおける大量射殺事件のデータベース(DB)です。

2013年からの銃を使った乱射事件のデータが、ネットユーザーからの報告ベースでまとめられています。

shootingtracker.com

巨大掲示板redditの中の「GunsAreCool(銃は素晴らしい)」という、名前からして明らかに活発な論争を巻き起こしているテーマコミュニティ(subreddit) の中で、提唱されてまとめられているこのデータは、「世界でただ一つのクラウドソース型銃乱射事件追跡サイト(the world’s only crowd sourced mass shooting tracker)」として、各メディアでも取り上げられているということです。

ニュースなどで報じられた銃による乱射や大量殺人事件を、ウェブのフォームやtwitterで知らせてもらい、それをまとめることで網羅的なデータベースができ、それを逆に参照して記事に使うメディアも出てきています。

そもそものDB化の動機は、メディアがよく使う”Mass Shooting”(大量射撃)という用語の定義がはっきりしないことにあったようです。

古いFBIの”Mass Murder”(大量殺人)の定義は、「一度の事件で4人以上を殺すこと」。この定義を銃での”Mass Shooting”にも援用するなら、途中に間隔を置いての4人以上の銃撃殺人や、実際に2012年に起きた18人に乱射したけれど死亡者は1人だった事件は、「大量射撃」ではない。ということにもなります。

DBの管理者はまた、アメリカでの大量銃撃事件のメディアでの報道は「十分でない」と考えているようです。メディア側には、報道することで真似をして同種の事件が増えるという主張もあるようなのですが。

このデータを実際に使って、ワシントンポストがインタラクティブな可視化ツールを公開しています。

mass-shootings-visualized-by-washington-post

あなたの考える”Mass Shooting”が、m人以上の死亡者とn人以上の負傷者なら「大量だ」と思うのであれば、それをこのフォームで選ぶと、2015年に発生した条件にあう乱射事件が、その件数とともにリストされます。

FBI式であれば、2015年にはこれまでで40件の”mass shooting”が起こっていた、ということになりますね。どんな定義で数えても、日本では考えられない件数ではありますが。

このようなまとめデータは、実際に起こっている問題の規模や、それがメディアや政治等で過剰・過小に扱われたりしていないかをチェックするためにも有用なように思います。

不倫サイトの流出データからわかった、人気の高い「嘘の誕生日」

不倫希望者マッチングサービスAshley Madisonの利用者データ流出がニュースを賑わしています。世界中の3600万人ユーザーの登録データがBitTorrentなどのファイル共有で流れているということで、この興味深いビッグデータを使った解析や評論などもぽつぽつと登場しています。

米ワシントンポストが取り上げたのが、登録者の誕生日情報。こちらのツイッターのメッセージでも表の部分が共有されています。

左の赤い表が、流出ユーザーの誕生日の設定の多寡。横軸が月、縦軸が日の一年間で、色の濃いところほど、平均よりも多くのユーザーが誕生日と指定している日となります。

人がいつ生まれるかはおおむね平均化されているとすれば、ある一日を見たときにその日が誕生日の人は全体の1/365の割合でいるはず。しかし、一番集中している元旦1月1日は、利用者全体の実に12分の1が誕生日と指定していたそうです。

他に赤色の濃いところを見ていくと、月を1月にしたまま日だけを変更したケース、日を1日にしたまま月だけを変更したケースとして、表の左端と上端が濃くなっています。また、2月2日、3月3日… と、ゾロ目の誕生日も登録者が多いです。

他に多いのが記念日系。2月14日のバレンタインデー、4月20日の大麻の日、7月4日のアメリカ独立記念日、なども、覚えやすい嘘の日として愛用している人がいるようで、うっすらと濃くなっていますね。日本人だと何の記念日を使うかもわかると面白そうです。

右の青い表は生まれ年の分布ですが、こちらは実際に利用者が多い1980年代を中心に分布しているものの、末尾が0や5とキリの良い年が少し多かったりします。一番多い生まれ年は1978年だったそうですが、これはもしかしたら登録時のデフォルトだったのかもしれません。

ワシントンポストも、「この統計からネットユーザー一般が同じ傾向で嘘の誕生日を使うとは断言できない。なんとなれば、このデータは(妻や夫に対しての)嘘つきを集めたものだからだ」とまとめているので、嘘の誕生日を使っている人の率は多少一般より高いかもしれません。

ただ、僕もそうですが、明らかに正確な生年月日を必要としないだろうwebサービスから生年月日を問われた時に、本当のものではない生年月日を使う人はそれなりにいるのではないかと思います。

ネットのサービスで本当の誕生日を入れるものなのか?

誕生日というのは結構プライバシー的に重要なデータで、役所でも企業サービスでも本人確認の為に求めらることがそれなりにあります。本名と誕生日、電話番号などだけで本人確認としてしまうようなサービスだと、他人に誕生日を知られてしまっただけで自分に成りすまされてしまうということもあるでしょう。

今となっては、「誕生日を知ってるから本人」なんて運用は危険この上ないとは思いますが、ソーシャルネットワークの流行などから後、多くのネットサービスで当然のように誕生日を尋ねてくるようになりました。ソーシャル系のサービスではつながっている友人に対して機械的に友人の誕生日を通知し、交流を活性化させようとしたりもしているので、誕生日の祝い祝われが大事なユーザーは本当の誕生日を入れがちになるかもしれません。

via The Verge

[アメリカ] 男女性別不明なユニセックス・ネーム

データ処理に関するブログ FlowingData で紹介されていたのは、聞いただけでは女性か男性かわからない、どちらの性別でもつけられることがあるファーストネームの統計結果です。

most-unisex-names-in-us-history-chart

1930年以降のデータで男性にも女性にもつけられてきた名前が、もっともどっちつかずだった順番に第1位のジェシー(Jessie)から並べられています。青いのが男性の、赤いのが女性の子供にその命名がされた割合を示しています。白い丸は、その名前の男女比が最も均衡していた、一番半々に近かった年を表しているそうです。

日本でいうと、「かおる」とか「ひろみ」、「あきら」、「しのぶ」といった名前にあたるでしょうか。英語の中性的な名前がどれか、なんて考えたこともなかったので、リストを順番に見るだけでも面白いです。

上から、ジェシー、マリオン、ジャッキー、アルバ、オリー、ジョディー、クレオ、ケリー、フランキー、グァダループ、キャリー、トミー、エンジェル、ホリス、サミー、ジェイミー、クリス、ロビー、トレーシー、メリル、ノエル、レネ、ジョニー、アリエル、ジャン、デボン、クルズ、ミシェル、ゲール、ロビン、ドリアン、ケーシー、ダナ、キム、シャノン。

このような両性的な名前の人は、すべて合わせてもアメリカ人全体からみれば1%にも満たないということですが、聞いたことがあるような名前も含まれていますね。

日常的にアメリカ人と多く接したりしてなければ、日本人が持つこれらの名前に対する性別の印象は、歌手や映画俳優などの外国の有名人に影響されるのではないでしょうか。僕だったら、「ジャッキー」は男、「ジョディー」は女、「マリオン」は女、「フランキー」は男、と思い込んでしまいそうですが、それぞれ、かなりの割合で、その名前で反対の性の人が存在することがわかります。他に、エンジェルは男性の方が多いとか、女性のサミーが半数近くになってきているとかも、僕の感覚とは違っています。

アメリカ人たち自身の子供の命名についても有名人の影響というのは同じようにあり、その名前を持った有名人の活躍で、これらのユニセックスな名前が、ある時突然一方の性別に偏っていくことがグラフからもわかるようです。グラフ中にも特記されていますが、陸上選手のマリオン・ジョーンズのオリンピック金メダル獲得は女の子のマリオンを増やしたし、初の黒人メジャーリーガー、ジャッキー・ロビンソンの登場は、男の子のジャッキーを増やしています。

24位のアリエル(Ariel)は、ディズニーの人魚姫から僕も女性の名前だと思い込んでいましたが、映画の公開までは男性の方がむしろ多く、映画から後に大きく女性の方に振れたのですね。40歳以上のアリエルさんは男性で、40歳以下のアリエルさんは女性が多い、ということのようです。