「データ」タグアーカイブ

地名に強く関係した有名人で描いたアメリカ地図

アメリカ合衆国人物マップ(A People Map of the US) は、Wikipedia のデータと地名を組み合わせた、アイデアもののインタラクティブ地図です。

作成手順としては、ウィキペディアの膨大なテキストから、都市名を抜き出し、全米のそれぞれの都市に絡んで言及されている人物のページを探します。人物ページの一定期間中のページビューを使って、その都市に関係した、もっとも有名な人物を抽出し、都市名に替えて表示した結果がこの地図ということ。

出身地、現住所、出演した映画の舞台、対戦したスポーツチームのホームやスタジアム、死亡した場所、などなど、いろいろな関係でウィキペディアでは有名人たちが言及されています。それらを総合すると、「この市で有名人と言えば?」というのが大量に出てくると。面白いですね。

たとえば、こちらサンフランシスコ周辺。さすが、スティーブ・ジョブズ氏の名前が付いた都市が多いです。トム・ハンクス氏やドゥエイン・ジョンソン氏(ザ・ロック)らは、出身がその市なんですね。

日本語のWikipediaで同様の地図を作ることもできそうですし、人以外の切り口でも、地名の上に別の関連を表示することで新たな視点を楽しめる地図が作れるかもしれません。

via Maps Mania

AWSの日本サーバのIPアドレスのリストを得る

ツールのインストールなしで。

EC2サーバーなどのIPアドレスの範囲については、AWS公式がJSON形式で最新の情報を公開しています。

AWSのサーバ「からのアクセスを禁止したい」とか「からだけアクセスを許可したい」という時は、ここから対象となるサーバのリストを抽出することになります。

公式ドキュメントでは jq を使ってフィルタするといいよ、と言っています

jq をオンラインで実行できるサービス jq playがあるので、これをブラウザで開き、JSON のところに先ほどの公式のJSON の中身を貼りつけます。

フィルタとして、たとえば、「東京と大阪リージョンのEC2のアドレスを絞りこむ」だと、以下を入れます。

.prefixes[] | select(.region=="ap-northeast-1" or .region=="ap-northeast-3") | select(.service=="EC2") | .ip_prefix

ダブルクオートが不要であれば、Raw Output にチェックを入れましょう。

[訂正] はてブでご指摘いただきました。大阪は ap-northeast-3 ですね。ごめんなさい

jq play の結果は、permalink 化して共有できます。右上の”Share snippet” から。

今日の時点でのIPアドレスの範囲は、こんな風にでました。

# 今回は、公開されているデータを絞り込んだだけなので問題ないと思います。社外に漏れたら困るようなJSONを、こういったサイトに突っ込むのはやめましょう。念のため

中国版ツイッターWeiboで”N”が検閲される

中国数字時代(中国数字时代, China Digital Times)によれば、中国版マイクロブログのWeibo(新浪微博)でアルファベットの”N”が発信できない状況が発生していたということです。

中国国家主席の任期制限撤廃が、現在の国家主席習近平氏の専制化につながるのではないか、というニュースが中国以外の各国のメディアで報じられています。中国国内のネットでは、習氏を揶揄する「ディズニー」「くまのプーさん」などの単語が検閲され書き込めなくなったり、法改正とか皇帝即位とか終身制とかにあたる単語も使えなくなっているそうです。

米国カリフォルニアで活動する中国数字時代は、Weiboなどでのこの検閲の実態をウォッチしているメディアです。最新の記事
微妙な言葉: 習氏は王座へ登る」では、新たに検閲対象となった多くの単語の中に、アルファベットの”N”が含まれていると報告しています。

上は、中国数字時代のSeverdia氏による、Weiboのスクリーンショット。「移民」、「N」、「終身制」などと打とうとすると、「コンテンツは違法です」というエラーが出ています。

なぜ「N」とつぶやけなかったか、本当の理由はわかっていないのですが、こちらのブログでは、今回3選や多選に道を開いた変更に関連して、「在任n期」(连任n届)という表現が(出る|出た)ことを嫌って起こったのでは、という推理をしています。

# だったら 3期, 4期… と具体的な数字を入れて規制すればいい気もするのですが

ただ、この”N”の検閲は観測してから半日以内で解除になったということ。単に検閲プログラムの設定を間違えた可能性もありますね。

今回この記事から知ったのですが、中国数字時代ではGoogle Spreadsheet で Weibo で検閲対象になっている言葉を収集したデータベースを作成・公開しています。

古くは2011年からのデータがあり、”N”のように二度目の観測で検閲が解除されたようなものもごく少数ありますが、マイクロブログでつぶやけない単語はかなり多くあり、それが最近も増加を続けているというのがわかりますね。

イギリス中の自転車事故などを地図上で一望できるwebサービス

Bikedata は、イギリスにおける自転車に関するデータを地図上にプロットした、インタラクティブな情報地図です。

この画面では、道路のどの場所で自転車事故が発生したことがあるか、が、ピンクのマーカーで示されています。

通勤やツーリングの計画を立てる時に、事故が頻発するところを知って避ける、といった使い方もできるでしょうね。スマートフォンアプリなどで、事故の多い場所に近づいたら注意をうながす、みたいなものを作ったりもできるかもしれません。

サイトでは、事故の他にも、交通量、自転車の盗難、駐輪場、サイクルレーンの写真、など、様々な自転車に関するデータを表示することができます。

さらに、このサイトのソースはGPLv3 で公開されています。

元データは国によるもの

イギリス政府のデータ公開サイトに、道路の安全データ(Rode Safety Data)というのがあり、ここではSTATS19 という書類で報告された2005年から2014年までの事故のデータが公開されているようです。

100Mぐらいあるデータを見てみたら、こんな感じで緯度経度や日時、事故の状況を表すフラグを持つレコードが大量にあるCSVファイルでした。

こういったデータが公にされているのはいいですね。このデータを API 化して自転車事故について Cyclestreets.net が提供し、それを Google Maps APIなどを使って可視化したのが今回のサービス、ということになります。

via Maps Mania

Listly – ウェブページからデータを抽出してExcelファイルにしてくれるサービス

Listly は、ウェブページのスクレイピングをお手軽にしてくれるサービスです。

フォームに抽出したいサイトのURLを入れて、Listyボタンを押すと、

ページ内の構造から、リストを抽出してくれます。抽出に使ったCSSセレクタを表示してくれてるので、これをコピーして使うもよし、”Excel”ボタンを押すと、エクセルファイルでダウンロードもできます。

何回も繰り返すような作業ならプログラム化すると思いますが、一度しかやらないとわかっている抽出作業などでは、特に便利なのではないでしょうか。

また、未実装ですが”Scraper”というボタンを見ると、繰り返し抽出を行うためのブックマークレットか何かを生成してくれる予定があるようです。APIも開発中とか。

同様のものにImport.ioというサービスが先行であり、機能的にも強力なのですが、こちらは月$199(2万1890円) からの有料サービスとなっています。Listly もユーザーが増えればいずれはお金を取りそうではありますが、今のところは登録等なく利用できます。

via Hacker News

「個人デイトレーダーの8割は赤字」 取引情報共有サイトのデータを解析した人の話

eToro というヨーロッパの株取引サービスは、「ソーシャル・トレーディング」サービスです。ユーザーが取引情報を公開・共有できるようになっていて、さらに他のユーザーの取引を「コピーする」ことができるそうです。うまい成績を上げている人の取引をコピーすることで自分も儲けられる(かもしれない)、というのがウリなんでしょうね。

多くのユーザーの取引の結果が公開されていることから、ブログCuriousGnuの中の人は、「では平均的なユーザーはデイトレードで儲かっているんだろうか?」と思い、データを集めてその平均を調べました。eToroでデータを公開していたユーザーは83300人。それをヒストグラムにしたものが以下です。

etoro-shared-trading-average-histogram

横軸の0のところがプラスマイナス0、トントンですね。この時のデータでは、79.5%のユーザーがマイナスとなり、中央値の人で36.3%のお金を失っていたということです。

これでデイトレードのリスクが高い、と言うにはいろいろと突っ込みどころもあります。たとえば以下のようなもの。

  • eToroのユーザー (デイトレードの下手なユーザーが集まるサイトだったかも)
  • 自分の取引を公開共有するようなユーザー (上手いユーザーは共有しないのかも)
  • ある過去12か月間のデータ (たまたまデイトレードの人に不利な環境の続いた12か月だったかも)
  • 3回以上取引した人をデイトレーダーとしている (デイトレーダーの定義に必ずしもあわない)

株の売買をどんどんやってほしいサービス側はこんなデータを出さないでしょうから、見える範囲のデータでできることを調べるとすればこれぐらいが限度なのかもしれません。

via Hacker News