「機械学習」タグアーカイブ

BugBug – 機械学習によるバグの自動トリアージ by Mozilla/Firefox

Mozilla Hacks で、2月から導入された BugBug というバグレポートの自動分類ツールの紹介が読めます。

Mozilla の様々な製品/コンポーネントに対して発行されたバグ報告を、とりあえずどの製品のどのコンポーネントに属するものかを分類して、そのコンポーネントの担当者に早く届くようにする、というのか今回のツール導入の目的だそうです。

大災害時などに負傷者の治療作業の順番をつける「トリアージ」と同様のことをバグに対して行う「バグトリアージ」というわけ。

“Teaching machines to triage Firefox bugs” より、概念図

これまではというと、ボランティアや開発者が人手でバグを分類し設定することで担当者に届けられていたのですが、ここの分類に日数が掛かっていて、バグが解消されるまでの期間が長くなっていた、と。

機械学習で分類させるには、どんなバグレポートがどのコンポーネントに対するものか、という過去の正しいデータが必要ですが、Mozilla でこれまで発行されたバグレポートは20年以上の期間での153万件を越えるそう。

これが人力でおおむね正しく分類されているので、これをXGBoostに食わせることで、新たに到着したバグレポートが属するコンポーネントの予測が自動的にできるのだそうです。

2月末に一部のプロダクトに対して導入運用を始め、350件のバグを自動分類し、そのチケットの解決までの日数の(外れ値を除いた)中央値は2日間と改善されたそう。ちなみに、今は60%の信頼度で分類して、80%以上の適合率を達成しているそうです。

今後の計画としては、重複チケットの検出、バグレポートに欠けている内容(たとえばバグの再現方法)を見つけて報告者に追加してもらう、リリース版での重要なバグを素早く発見する、などを検討しているということ。

大きな製品になるとバグレポートも膨大に届き、切り分けだけでたいへんな人的リソースを必要とするのでしょうけれど、その部分の自動化は開発側にも利用者側にも大きな恩恵を与えそうですね。

via VentureBeat

Gamedetect.io – ゲーム画面の画像からゲーム名を当てるサービス

GameDetect.io のフォームにビデオゲームの画面写真を与えると、JSON でそれがどのゲームに似ているかを返してくれます。

適当な画像をアップロードすると、以下のような形でゲームタイトルとそのゲームである確からしさを戻してきます。


{
"filename":"dragonquest5.jpg",
"predictions":[
{
"label":"stardew valley",
"probability":0.568226
},
{
"label":"the legend of zelda a link to the past",
"probability":0.15813187
},
{
"label":"super mario maker",
"probability":0.031073814
},
{
"label":"factorio",
"probability":0.027034273
},
{
"label":"don t starve together",
"probability":0.020903632
}
],
"speed_ms":1113
}

Tensorflow と Golang によって実装されており、学習データとしてはTwitch のゲーム配信画面をスクレイプしたものを使っています。ゲーム実況にはゲームのタイトル情報とゲーム画面があるので、これを正答として学習させ、モデルを作っているのですね。

そのような作りなので、回答で出てくる候補のゲームはTwitch で今最も多く中継されているゲームトップ100 からだけとなっています。(冒頭で試したドラクエ5 の画面では、Stardew Valley やゼルダなど画面の似ているものが出てしまっていますね。)

Gmail の文章サジェスト機能、ジェンダーバイアスの強化を避け性別の人称代名詞を(当面は)避けることに

次を予測して文章を提案してくれるスマートコンポーズ機能

Gmail の実験機能の一つに、スマートコンポーズ(Smart Compose)という機能があり、Gmail の言語設定を英語にした上で設定でオンにすると使えるようになります。

この機能は、途中まで入力した文章を基に、全文を予測してグレーの文字で提案してくれるという機能です。

日ごろから日本語入力でIMEを使っている我々にしてみれば、入力時にある程度先を提案してくれる(たとえば、「おは」と書いたら「おはようございます」が候補に出る)のは英語圏の人たちよりもなじみ深い仕組みかと思います。Gmail の Smart Compose は、それを文の終わりまで拡張したようなものになります。

実験機能でオンにしないと使えないとはいえ、Gmail から送られるメッセージの11% でこの機能がオンにされているということで、英語圏のヘビーユーザーは結構使っているのかもしれません。

データ学習から提案される ‘he’ や ‘she’ のバイアス

ところが、Gmail の担当チームは、このサジェストが ‘he’ や ‘she’ といった三人称の人称代名詞を、既存データのバイアスに影響されて選んでしまうことに気づいてしまったそう。

「私は来週投資家に会うつもりだ。君も…」 と書こうとすると「…に会うかい?」と、必ず「彼」が出てきたというのです(「投資家」の場合)。

Google が持っている膨大な文章データから自動生成するとそうなる、ということで、特定の職業の性別を男女どちらかに推定しまうことに Google 自体の罪があるわけではありません。多くの人々が内包しているバイアスなのでしょう。

しかし、このようなサジェスト機能をみなが使い続けると、サジェストがまた次に生み出される文章のバイアスを強化してしまう可能性がありますね。バイアスの無い she/he の提案が今は難しいと考えたチームは、さしあたりこのような提案になる場合は提案そのものをしないという決定を下したそうです。

via Reuters via TheNextWeb

履歴書の機械学習が女性差別になってしまい、Amazonが止めたというニュース

ロイターの記事 “Amazon scraps secret AI recruiting tool that showed bias against women

アマゾン社の中の人による匿名の情報ということだけれど、2014年に組まれたチームが、求職者からの履歴書を機械学習して(アマゾンレビューのように)星5つでランク付けをしたら、ソフトウェア開発者や他の技術者の高評価が男性に偏ってしまうことに気づいた、ということです。

学習に使った過去10年の求職者に占める男性の割合が多かったために、男性的な言葉を多く使った履歴書が優秀とされてしまったそうです。入力にバイアスが掛かってれば、結果にも掛かるのはある意味当たり前ですね。アマゾンに限らず、アメリカのIT企業で社員の男女比や有色人種比率が公表されたり比較されたりしている中で、これまでのやり方をベストとして強化すれば、属性にこだわらず優秀な人を取るということができなくなってしまいそうです。

記事によれば、結局、このチームは解散となったということ。今は別のチームで、重複したデータを削除するとか、多様性が保たれるようにスクリーニングするとか、よりマイルドな使い方を追及しているということです。

顔認識がアジア系男性を「目が開いてない」と拒絶 ニュージーランド

Facebook上でニュージーランド人のリチャード・リーさんが公開したメッセージがこれ。

パスポートの更新をしようとオンライン手続きをする際に、自分の顔写真をアップロードしたところ、「被写体の目が閉じています」というエラーになって受け付けてくれなかった、という事件です。

多数の既存の顔写真を機械学習させた結果で、目を閉じている写真をエラーにしているのだと思いますが、教師データとして世界中の顔写真ではなく、ヨーロッパ系やマオリ系が多数というニュージーランドの顔データを使ったのかもしれません。

アジア人の目をことさら取り上げたり強調して描いたりすることは、人種差別として厳しい批難を受けるようになってきています。10月に欧州連合の委員が巻き起こした事件は記憶に新しいところ。

欧州連合(EU)のギュンター・エッティンガー欧州委員(デジタル経済・社会担当)=ドイツ=が、中国人を「つり目」と呼ぶなど差別的な発言を繰り返していたことが暴露され、批判にさらされている。

差別発言に批判=欧州委員、中国人を「つり目」:時事ドットコム

上の記事がYahoo!ニュースに転載されていた時に寄せたコメントが掲載終了で見えなくなっているので、こちらに転記しておきます。

つり目(slant-eyes)は、西洋において東アジア人の顔面の特徴を揶揄する際に使われる典型的な差別表現になっています。2008年にはスペインのバスケットボール・ナショナルチーム、2009年には歌手のマリー・サイラス、2013年にはスペインのバイクレーサー、マルク・マルケスがこの表現で炎上しています。

今回は中国人を指してのものですが、マルク・マルケスの時は日本人が対象でした。

今回のリーさんは、笑い話として共有して世界中に広まりましたが、そのコメント欄でやはり差別的な書き込みをするような人も出てくるわけです。

ニュージーランドのパスポートセンターも、悪気があってシステムを作ったわけではないと思いますが、機械学習のための元データの選定についても学習させるデータのセットが本当にそれでいいのか、というのを考えないといけないのでしょうね。

via Bored Panda

山道を自動で飛んで遭難者を発見するドローンの研究

チューリッヒ大学などのグループによる、無人ドローンを飛ばして山で遭難した人を探す研究が進んでいるそうです。

drone-follows-trails-1

山の中の道がどちらに続いているか、は、これまでは自動で判断できなかったということですね。

スイス国内だけでも、山での怪我や迷子による救援要請は毎年1000件以上あるということ。安価なドローンを同時に多数飛ばし、山道を捜索させることで、発見・救助までの時間を大きく短縮できる可能性があるのだとか。

森の中の小道を自動的に判断して飛んでいかせるためには、人工知能の技術が使われています。森の中を飛ぶには、枝や葉などの障害物をうまく避けて飛ぶ必要があり、また道がどちらに続いているかは時として人間でも間違うこともあります。

drone-follows-trails-2

ヘルメットをつけた人間がアルプスの中の山道を歩き回り、2万枚の写真を撮影し、そのデータを基にディープラーニングをさせたところ、まったく知らない新しい場所においても、85%の確率で正しい方向を当てられるようになったそうです。85%が高いかどうかですが、人間による判断では82%ということで、人間並みかそれ以上の能力と言えます。

drone-follows-trails-3

人間の捜索隊には二次遭難の危険もあります。遭難が起こった状況では天候などの状況も悪いケースも多いでしょうし、ドローンによって遭難した人を素早く見つけられるとすれば、これまでは助からなかった遭難者も多くが助かるようになったりするのかもしれません。また、山での捜索の話で良く出てくる、多数の人間を長期間動員したために遭難者や家族が大金を支払わなければならなくなった、というような問題も減らせるかもしれません。

ドローンでピザを配達する研究もいいですが、人命救助ができるドローンも、ドローンの活用法として良いアイデアだし、早く実用レベルになって普及するといいですね。

via Trackimo