「言語」タグアーカイブ

Iconspeak World – 世界旅行者のためのWebアイコンTシャツ

Iconspeak World は、言葉もジェスチャーも通じない海外旅行でサバイバルする助けになるようにデザインされた服のシリーズです。

travel-shirt-iconspeak-world-15

たとえばこのTシャツ。旅行先で必要になりそうな場所や物事が、モダンなwebアイコンの形で表一面に印刷されています。

travel-shirt-iconspeak-world-11

自分のTシャツのアイコンを指させば、言葉がわからなくても「ホテルどこ?」と訊ねることができる、というわけです。

iconspeak-motorbike

「オートバイ」 +「工具」の二つのアイコンで「バイク修理」

iconspeak-scenery

「山」+「カメラ」+「ビル」では「街の写真が取れる高いところ」

など、サイトでは利用例がたくさん紹介されています。

Tシャツ以外にも、長袖やタンクトップ、トートバッグ版などあるので、気温や状況に併せて使い分けられるでしょう。

webの広がりによって、良く使われるwebアイコンの認知度は国境を超え、英語や中国語よりもずっとグローバルになっているのかもしれません。

ガイドブックやスマートフォンを活用することで、現地語がまったくわからなくてもかなりどこにでもいける時代にはなっているでしょうけど、それでも盗難とか電池切れとか、困ることもあるかもしれません。

服として身に着けていれば、最後のコミュニケーション手段として使えることもあるのかもしれないですね。

iconspeak-ramen

この「成功例」はちょっと微妙なんじゃないか、とも思いますが。

via Bored Panda

なんでも特許文書に置換するジェネレーター

特許書類の文書って、読み進めるのが苦痛な独特の文体ですね。日本語だけの現象かと思っていたら、英語でもやはり特許の文章は独特なようです。

Sam Lavigneさん作成したのは、どんな文章でも特許の申請書のように変換してしまうというコンバーター Patent Generator

http://commons.wikimedia.org/wiki/File:Middlebrook_paperclip_machine_patent2.gif

Python で作成され、GitHub上で公開されているツールは、4つのスクリプトに分かれます。

  • 特許を生成する “machine.py”
  • 元の文章の単語から、口語や上位語などを検索する “search.py”
  • Bing検索から特許の画像を取得する “get_illustrations.py”
  • キーワードを含む特許文を全文検索しダウンロードする “scraper.py”

Patternライブラリを使って、特許文書に特有の文法構造を見つけ出し、お題として与えられた文章からその構造に似た文章を抽出することで、与えられた小説などにある言葉遣いを保ちながら、特許的な文章を作り上げている、ということ。

ツールを使って生成されたサンプルとしては、以下のものなどが公開されています。(図の画像は含まれていません)

例えば、「共産党宣言」というタイトルは、「理解可能で理論的な、歴史的活動のための手法と機器」となり、特許の概要や詳細も同様に自動生成されています。

ジョークツールとしては面白いですが、むしろ反対に、特許のわかりにくい文章を普通の文章に変換してくれるツールこそ、有用かもしれないですね。

ヨーロッパのそれぞれの言語はどれぐらい似ているのか、の図

スペイン語が母語の友人によると、イタリア語は、しゃべることはできなくても、ずっと聴いているとなんとなく言うことがわかるんだそうです。それぐらい二つの言語は似ているのだという話。もしかすると東京弁と関西弁みたいなものなのでしょうか。

etymologikon-lexical-distance-among-the-languages-of-europe

Teresa Elms さんが、ロシアの1999年の論文”Metatheory of Linguistics”の研究結果を2008年に図にしたのが、このヨーロッパ言語距離チャート。

ヨーロッパに多数ある言語の間の、「語彙」の類似性を元に、似ている言語の間をより太い線で繋いでいます。(文法が似てる、ではありません)

それぞれの丸の大きさは、その言語を話す人口の大きさを示します。同じ言語グループに属している言語は、同じ色が塗られています。

フランス語・イタリア語・スペイン語などを擁するオレンジのロマンス語、ドイツ語・英語・北欧諸語の青いゲルマン語、ロシア語や東欧諸語の赤のスラブ語の大きな3つのグループに、ケルト諸語(緑)、ギリシア語(薄紫)、アルバニア語(薄緑)、バルト諸語(紫)、フィン・ウゴル語(黄色)の少し間を置いた勢力。黄色のフィン・ウゴル語以外はすべてインド・ヨーロッパ語族に属します。

英語は、ノルマンコンケストの結果、ドイツ語に近い文法を持ちながら、75%の語彙はフランス語・ラテン語から取り入れており、グループを超えた語彙の近さは、たとえば、図から読み取れるように、同じロマンス語のルーマニア語よりも英語のほうがフランス語に近い、と言えるのだそうです。

図から、英語を学んだ人が比較的簡単に学べそうな次の言語はどのあたりか、とか、同じヨーロッパ人といっても、どの国の出身者がより英語が下手そうな可能性があるか、とか、予想がつけられそうですね。

via Flowing Data

ツイッターのつぶやきの言語と座標から作られた、世界の生きた言語地図

ツイッターのつぶやきの言語と座標情報を集めて、言語ごとに異なる色でプロットした世界地図
Language communities of Twitter
作者はEric Fischerさん。この人は、2010年にデジカメ画像の位置情報を集めて「旅行者」と「現地人」をプロットし、世界各都市の観光地を可視化する、というのをやって話題になった人ですね。
ヨーロッパの様子。言語の切れ目でぼんやりと国境が見えてきます。
Twitterbylanguageseurope
カタランとかスイスとか旧ユーゴとか、面白いですね。
こちらが日本周辺を切り出したもの。
Twitterbylanguagesjapanese
海上の座標でつぶやかれた日本語のツイートがけっこうあるような。GPSの精度の問題か、漁船やフェリーとかからつぶやく人がそんなにいるのか、理由はわかりませんが。
あと台湾の中国語の色が日本語の色と似てるのがまぎらわしいです。
つぶやきの言語を判定するには、言語判定のライブラリを使っているそうです。
ちなみに、文字列からそれがどの言語かを推定する言語判定ライブラリとしては、サイボウズ・ラボでも中谷さんが開発しているLanguage Detectionライブラリがあり、これ検出精度もかなり高いようです。もし上記のような地図など作ってみたい方がいたらぜひ試してみてください。
via Language communities of Twitter