「データ」タグアーカイブ

Listly – ウェブページからデータを抽出してExcelファイルにしてくれるサービス

Listly は、ウェブページのスクレイピングをお手軽にしてくれるサービスです。

フォームに抽出したいサイトのURLを入れて、Listyボタンを押すと、

ページ内の構造から、リストを抽出してくれます。抽出に使ったCSSセレクタを表示してくれてるので、これをコピーして使うもよし、”Excel”ボタンを押すと、エクセルファイルでダウンロードもできます。

何回も繰り返すような作業ならプログラム化すると思いますが、一度しかやらないとわかっている抽出作業などでは、特に便利なのではないでしょうか。

また、未実装ですが”Scraper”というボタンを見ると、繰り返し抽出を行うためのブックマークレットか何かを生成してくれる予定があるようです。APIも開発中とか。

同様のものにImport.ioというサービスが先行であり、機能的にも強力なのですが、こちらは月$199(2万1939円) からの有料サービスとなっています。Listly もユーザーが増えればいずれはお金を取りそうではありますが、今のところは登録等なく利用できます。

via Hacker News

「個人デイトレーダーの8割は赤字」 取引情報共有サイトのデータを解析した人の話

eToro というヨーロッパの株取引サービスは、「ソーシャル・トレーディング」サービスです。ユーザーが取引情報を公開・共有できるようになっていて、さらに他のユーザーの取引を「コピーする」ことができるそうです。うまい成績を上げている人の取引をコピーすることで自分も儲けられる(かもしれない)、というのがウリなんでしょうね。

多くのユーザーの取引の結果が公開されていることから、ブログCuriousGnuの中の人は、「では平均的なユーザーはデイトレードで儲かっているんだろうか?」と思い、データを集めてその平均を調べました。eToroでデータを公開していたユーザーは83300人。それをヒストグラムにしたものが以下です。

etoro-shared-trading-average-histogram

横軸の0のところがプラスマイナス0、トントンですね。この時のデータでは、79.5%のユーザーがマイナスとなり、中央値の人で36.3%のお金を失っていたということです。

これでデイトレードのリスクが高い、と言うにはいろいろと突っ込みどころもあります。たとえば以下のようなもの。

  • eToroのユーザー (デイトレードの下手なユーザーが集まるサイトだったかも)
  • 自分の取引を公開共有するようなユーザー (上手いユーザーは共有しないのかも)
  • ある過去12か月間のデータ (たまたまデイトレードの人に不利な環境の続いた12か月だったかも)
  • 3回以上取引した人をデイトレーダーとしている (デイトレーダーの定義に必ずしもあわない)

株の売買をどんどんやってほしいサービス側はこんなデータを出さないでしょうから、見える範囲のデータでできることを調べるとすればこれぐらいが限度なのかもしれません。

via Hacker News

一年中快適な気温21℃で暮らしつつアメリカを周るための地図

天気ブログ Brian B’s Climate Blogのブライアンさんがデータから作って公開した北アメリカの地図は、「華氏70度(摂氏21度)の場所を辿りつつ旅行できる地図」(70°F Road Trip)

70f_road_trip_map

人が一番快適な温度を21℃と(仮に)決めて、快適な温度を外れずに移動すると、たとえばこんな旅程になる、というわけです。冬のテキサス、夏のアラスカはいい気候なんでしょうね。

気温が21℃の地域をアメリカの地図にプロットして、一年を見せた動画がこちら。

もうちょっと高い気温が好きな人のために、記事の最後では80℉(27℃)版の地図も追加公開されています。

日本は南北に長いので、例えば「桜の咲いている場所を追いかける」とかやれば同じ気温の土地を北上して暮らすことはできそうです。南下の時に桜のようにわかりやすい目印って何かあるでしょうかね。

旅館などを渡り歩くにしても、キャンピングカーなどを使うにしても、とてもお金の掛かりそうな話ですが。

via FlowingData

サインフェルドのアパートをDOOM上で再現したファン

アメリカのシトコム史上1,2を争う人気だったというコメディドラマ「サインフェルド」の主人公ジェリー・サインフェルドのアパートを、DOOM2 上で再現した人が現れました。

seinfeld-apartment

このアパートね。

4人のメインキャストも忠実に再現しているのですが、なにぶん元が殺伐としたシューティングゲームなので、その扱いはひどいことになっています。

作るのに100時間掛かった、というデータは、こちらからダウンロードできます

フィクションの中の建物や風景をファンが再現する、というのは、VRの普及とあわせてこれからも増えそうですね。日本でフィクションだけど誰もが知っている家、とかはどこにあたるんでしょうか。

JOHN ROMERO

レンブラントの「新作」?が公開。データが描くプロジェクト The Next Rembrandt

The Next Rembrandtが、データ解析とコンピューターで作った「次のレンブラント(The Next Rembrandt)」の発表会を行いました。

the-next-rembrandt

「17世紀にレンブラント本人が描いたものです」と言われても素人には反論できないこの絵画ですが、多数のレンブラントの絵画データを基にしてコンピューターが作った「新作」です。

オランダ発(レンブラントの出身地)の巨大金融グループINGにマイクロソフトが協力したという、この The Next Rembrandt プロジェクト、18か月を掛けて、データ・サイエンティスト、エンジニア、美術史家らが結集し進められたということです。

サイトでは、大きく4つのフェーズに分けて、この「次のレンブラント」が作られたと解説されています。

1. データの収集

レンブラントのすべての作品を、高解像度3Dスキャナなどを使ってピクセル単位で精査し、データ化します。

2. 主題の決定

レンブラントが最も多く遺した絵画のジャンルは肖像画で、その内訳は女性49%、男性51% なんだそうです。

再現する内容として、これらが最も描かれたとされる1632年からの10年の間に最も描かれた主題が以下のように選ばれました。

  • 白人男性
  • ヒゲ
  • 30代から40代
  • 黒い服に白いカラー
  • 帽子
  • 右を向いている

3. 特徴を生成

プロジェクトでは、「光と影の達人」と呼ばれたレンブラント本人の独特なスタイルを再現することが必須とされました。

彼の配置・構図・画材を再現すべく、顔認識アルゴリズムを使って目鼻の角度や離れ方などの配置や、顔のそれぞれのパーツの描き方を集積しています。

# 顔・表情の認識や特徴抽出は、今回のプロジェクトを支援しているマイクロソフトが最近いろいろ(1), (2)と発表している分野ですね。

the-next-rembrandt-face-parts

最期にそれらを一つにまとめて、レンブラントと同様の比率で配置。最後に、光と影を、これも集めたデータからの結果に従って描き入れます。

4. 命を吹き込む

ここまでは2Dのデータですが、筆致や塗りの層を、3Dで、これもまた元データから取ったのと同じように、与えます。

the-next-rembrandt-height-map

二つの異なるアルゴリズムでオリジナルから採取したパターンを基に、この3次元マップは作成されているということ。最終的には13層のインクが重ねられ、筆で描いたような絵が完成するということでした。

英ガーディアン紙の取材に対して、広報担当者は、レンブラントの新作を作ろうとしているわけではない、と答えています。「我々はレンブラントの成果から何か新しいものを作ろうとしています。レンブラントを作れるのはレンブラントだけです」と。

via The Guardian

ShootingTracker.com – アメリカの乱射事件データベース

ShootingTracker.com (射撃追跡.com)は、アメリカにおける大量射殺事件のデータベース(DB)です。

2013年からの銃を使った乱射事件のデータが、ネットユーザーからの報告ベースでまとめられています。

shootingtracker.com

巨大掲示板redditの中の「GunsAreCool(銃は素晴らしい)」という、名前からして明らかに活発な論争を巻き起こしているテーマコミュニティ(subreddit) の中で、提唱されてまとめられているこのデータは、「世界でただ一つのクラウドソース型銃乱射事件追跡サイト(the world’s only crowd sourced mass shooting tracker)」として、各メディアでも取り上げられているということです。

ニュースなどで報じられた銃による乱射や大量殺人事件を、ウェブのフォームやtwitterで知らせてもらい、それをまとめることで網羅的なデータベースができ、それを逆に参照して記事に使うメディアも出てきています。

そもそものDB化の動機は、メディアがよく使う”Mass Shooting”(大量射撃)という用語の定義がはっきりしないことにあったようです。

古いFBIの”Mass Murder”(大量殺人)の定義は、「一度の事件で4人以上を殺すこと」。この定義を銃での”Mass Shooting”にも援用するなら、途中に間隔を置いての4人以上の銃撃殺人や、実際に2012年に起きた18人に乱射したけれど死亡者は1人だった事件は、「大量射撃」ではない。ということにもなります。

DBの管理者はまた、アメリカでの大量銃撃事件のメディアでの報道は「十分でない」と考えているようです。メディア側には、報道することで真似をして同種の事件が増えるという主張もあるようなのですが。

このデータを実際に使って、ワシントンポストがインタラクティブな可視化ツールを公開しています。

mass-shootings-visualized-by-washington-post

あなたの考える”Mass Shooting”が、m人以上の死亡者とn人以上の負傷者なら「大量だ」と思うのであれば、それをこのフォームで選ぶと、2015年に発生した条件にあう乱射事件が、その件数とともにリストされます。

FBI式であれば、2015年にはこれまでで40件の”mass shooting”が起こっていた、ということになりますね。どんな定義で数えても、日本では考えられない件数ではありますが。

このようなまとめデータは、実際に起こっている問題の規模や、それがメディアや政治等で過剰・過小に扱われたりしていないかをチェックするためにも有用なように思います。