「自然言語処理」タグアーカイブ

メジャーリーガーが多用する英語表現は?

ワシントンポスト紙が、過去21年間、7000本ものプロ野球選手へのインタビュー記事を解析して、選手がインタビューで多用する表現は何かを調べた記事が面白いです。

Python製の自然言語解析ライブラリNLTKを使い、4・5単語以上のフレーズで7回以上登場したものから抽出した「インタビューで良く出てくるフレーズ」。

何百回も出てくるフレーズは、記事中で解説されています。たとえばこういったもの

  • ここに立てて幸せです (I’m just happy to be here)
  • 一日一日やるだけです (we gotta play ’em one day at a time)

実はこれらは、映画「さよならゲーム」で、ケビン・コスナー演じるベテランが、若手投手に教える「これさえ言っておけばなんとかなる」というインタビュー用フレーズなのです。しかし、実際のメジャーリーガー達もこれらを何百回と使ってしまっているという。

また、以下のようなフレーズは、日常ではあまりないが野球では多用されるということ。

  • バットをボールに当てに行く (put the bat on the ball)
  • ストライクゾーンをぶちぬく (pound the strike zone)
  • いいピッチングはいいヒッティングに勝る (good pitching beats good hitting)
  • なんとかやりぬく道を見つける (find a way to get it done)

記事の末尾には、メジャーリーガーが良く使うフレーズが、「よくあるフレーズ」「慣用句」「野球用語」の三つにわけて紹介されています。

フレーズの上にマウスを置くと、実際にそのフレーズを使った野球選手のインタビュー抜粋が表示されるので、どんな風に使われるのかもわかるようになっています。

「よくあるフレーズ」「慣用句」は、たぶんアメリカで話す時にも良く使われているのでしょう。良く使われているフレーズを勉強することは、生きた英語を身に着けることにつながりそうです。

また、「野球用語」のところもしっかり勉強すれば、野球選手の通訳がうまくできるようになるかもしれませんね。

Text Teaser – 長い英文を短くまとめてくれるサービス

長い英文を読むのは、特にネイティブではない我々にとってはたいへんな作業です。ウェブサービスText Teaserは、そんな長い英語の文章を、箇条書きで(みたところ5項目以内で)まとめてくれるというサービスです。

使い方は、英文のあるwebページのURLを渡すか、タイトル・本文のテキストをフォームに貼り付けるかで、要約させたい文章を与えます。

英文のサンプルとしては、ジャパンタイムズで連載している自分のコラムを喰わせてみました。(自分の書いたものなので、要約が合ってるか確認しやすそうということで)

ちなみに、元記事は、アルバイトがチェーン店の職場で遊んだ写真をソーシャルネットワークに投稿したことによる炎上が続いている、という、日本語のwebでは相当話題となった一連の事件を解説したものです。

textteaser-1

混み具合によっても時間は変わるでしょうが、10秒そこらでこのような要約を表示してくれました。生成された要約は、以下のようにサイトに埋め込むこともできます。

要約、といっても、文章の中身はほとんどいじられていません。元の文中にある文章がそのまま切り出されている場合が多いです。多数の文章の中から、重要なことを言っている文を抜き出す、という形の要約なのでしょう。

元の記事の結びに関しては、要約に出てきていません。他にもいくつか要約してみましたが、何かを主張する一文は、必ずしも要約には出てこないようです。

それでは使えないか、というとそうでもなく、単にランダムに5つの文を抜きだしているようでもないですね。それなりに、文章の大意がつかめそうなところを抜き出してくれているようなので、多数の英文を斜め読みするような時には、助けになるかもしれないなと感じました。

大きなニュースであれば、数時間から数日のうちには国内のメディアがプロの人力翻訳で伝えてくれますので、日本でこのような英文要約のニーズがあるとすれば、誰も翻訳していないうちにいち早く新しいニュースを流し読みしたいとか、ニュースではなく、個人間のメールのやりとりとか論文読みとかで英語の長文を急いで読む必要がある人とかでしょうかね。

APIもMashape経由で提供されていて、月間1000回までなら無料で使えます。

via ProgrammableWeb and TechCrunch