「スクレイピング」タグアーカイブ

Listly – ウェブページからデータを抽出してExcelファイルにしてくれるサービス

Listly は、ウェブページのスクレイピングをお手軽にしてくれるサービスです。

フォームに抽出したいサイトのURLを入れて、Listyボタンを押すと、

ページ内の構造から、リストを抽出してくれます。抽出に使ったCSSセレクタを表示してくれてるので、これをコピーして使うもよし、”Excel”ボタンを押すと、エクセルファイルでダウンロードもできます。

何回も繰り返すような作業ならプログラム化すると思いますが、一度しかやらないとわかっている抽出作業などでは、特に便利なのではないでしょうか。

また、未実装ですが”Scraper”というボタンを見ると、繰り返し抽出を行うためのブックマークレットか何かを生成してくれる予定があるようです。APIも開発中とか。

同様のものにImport.ioというサービスが先行であり、機能的にも強力なのですが、こちらは月$199(2万2584円) からの有料サービスとなっています。Listly もユーザーが増えればいずれはお金を取りそうではありますが、今のところは登録等なく利用できます。

via Hacker News

中世から現代まで、21万枚の絵画に使われている色の変化をRで可視化したグラフ

過去から現在までの大量の絵画データを使い、「時代の色遣い」があるかどうかを調べようとしたマーティン・ベランダーさん(Martin Bellander)のブログから。

大量の絵画データの取得先は、グーグルのアート・プロジェクトWikiアートなどいくつか候補があったのですが、英BBCのサイト Your Paintings を選んだということです。このBBCのサイトにはイギリスを中心にヨーロッパ絵画が収められていると思われます。

paintings-bbc

21万枚を越える絵画データが閲覧できるということで、Windows上のR言語スクリプトで全絵画ファイルのURLを取得し、そこから、画像ファイル、描かれた年(年代で示されているものは最初の年)、油彩かアクリルかテンペラか混合技法か、などの情報を取得保存しています。

ファイルが壊れているものなどを自動・手動で除去した後で、描かれた年ごとにまとめ、各絵画から100個の点をランダムにサンプリングし、色相・彩度・明度を調べ足しこみます。

colors-history-of-paintings

グラフの左側にある白い部分は、その年代の絵画が無かったからですね。全体的に、絵画に使われている色の多くが赤・オレンジ・黄色で占められているというのがわかります。

また、20世紀に入ってから青や緑の量が増えていることがわかります。これについてもベランダーさんは考察し、いくつか仮説を立てています。

  • 「青」という色や名前が他の色と比べ新しい概念・認識である(Business Insiderの記事)
  • (グラフでカウントしてない)暗い色・黒を、青として取ってしまっている
  • 古い絵画ほど、経年変化で青色の樹脂が失われている
  • 昔は青い絵の具が高価だったが安くなって使われるようになった

他にも、全体的な絵画界の流行としてそうなった要素もあるかもしれませんね。どれも決め手というほどの理由でもなさそうで、コメント欄では議論が続いています。

コメント欄では1914年からの映画ポスターの色を分析したという2012の記事も紹介されていて、絵画だけでなく、20世紀は青色の利用が増えた時代と言えるかもしれません。

via Flowing Data