「技術」カテゴリーアーカイブ

GrandType – キータイプの間隔データを機械学習させ、ユーザーを特定するプロジェクト

GradTypeは、英文を入力する際のキータイピングの癖を使って、今誰がタイプしているのかを特定しようという実験プロジェクトです。

まず、GitHub で認証した状態で、出てくる英文を入力することを繰り返します。すべて小文字で良く、正しい文字とスペースキーを打った時しか先へは進みません。打ち間違えたとしても間違えた文字は入らないのでそのまま続けます。

この時、サービスの裏側ではキーと次のキーが打たれる間の時間を記録し、RNNで学習させているそうです。

文章のバリエーションはそれほど多くありません。数十回入力した後で、ログアウトし、ユーザーとして認識していない状態で同じように英文をタイプすると、

RNNでより「似ている」と判定されたユーザー5名が表示されます。

多数のユーザーが試しているためか、なかなか当ててくれませんでした。(一回は自分のユーザー名が当てられたのを見ましたが、スクリーンショットを撮っていませんでした)

実用的にはスペルを打ち間違えたり直したりするデータを使った方が、より個人の特定はしやすいだろうと思いますが、研究としてはキーとキーの間隔時間だけでどこまでやれるかというのを見ているようです。

匿名で入力できる、と思われているようなサイトにおいても、個人の癖を収集して人物の同定を行うなんてことも、より簡単にできるようになっていくかもしれませんね。

Hacker News では、それへの対策として、キータイプの癖を攪乱するというツールも紹介されていました。匿名個人の特定ではなく、認証にタイピングの癖を使うといった研究もあるようです。

ソースコードが公開されています。

via Hacker News

css-only-chat CSSだけで動くブラウザチャット

ケビン・クッチャさん(Kevin Kuchta)のkkuchta/css-only-chat は、JavaScript を使わない非同期ウェブチャットサーバーです。

二つ(以上)のブラウザからこのサーバに接続し、アルファベットをクリックしてメッセージを作り送信すると、同じサーバに接続した他のブラウザでも即時表示される、いわゆるブラウザチャットです。しかし面白いのは、このページで JavaScript は使われていないというところ。

送信側

CSS の :active 疑似クラスを使うことで、ある領域をクリックした際に、はじめて画像ファイルを読み込ませることができます。つまり、ボタンが押されたタイミングを画像ファイルの読み込みでサーバ側から検知できるということ。

「同じボタンが2度目押された時は(画像はもうブラウザ側にロード済なので)サーバはわからないのでは?」となりますが、たとえば “a””a” と押した時は、接続しっぱなしの状態で、元のボタンを隠し、新たに「”a”を押した」という情報を持った別の画像ファイル名を持つボタンを表示しているようです。これをすべてのボタンに対して行うことで、ボタンが持つ画像ファイルのパスが、過去のすべてのタイプ内容を保持することになります。

受信側

表示はどうやって更新してるのか、も解説されています。接続しっぱなしの状態で、これまで送った html が不要になったら、style タグを送って過去の要素を display:none で隠し、新たにページ内容を追記します。

これを、自身か他のブラウザから新たなデータが届くまで待機しながら繰り返しているということ。じゃあソースコードはとても長くなるのでは、と思って Chrome でソースを表示しようとしましたが、何も表示されません。Firefox では何千桁もある一行のソースコードを確認できました。

今のところデモサイトは用意されていないので、試すには自分で動かす必要があります。

via Hacker News

BugBug – 機械学習によるバグの自動トリアージ by Mozilla/Firefox

Mozilla Hacks で、2月から導入された BugBug というバグレポートの自動分類ツールの紹介が読めます。

Mozilla の様々な製品/コンポーネントに対して発行されたバグ報告を、とりあえずどの製品のどのコンポーネントに属するものかを分類して、そのコンポーネントの担当者に早く届くようにする、というのか今回のツール導入の目的だそうです。

大災害時などに負傷者の治療作業の順番をつける「トリアージ」と同様のことをバグに対して行う「バグトリアージ」というわけ。

“Teaching machines to triage Firefox bugs” より、概念図

これまではというと、ボランティアや開発者が人手でバグを分類し設定することで担当者に届けられていたのですが、ここの分類に日数が掛かっていて、バグが解消されるまでの期間が長くなっていた、と。

機械学習で分類させるには、どんなバグレポートがどのコンポーネントに対するものか、という過去の正しいデータが必要ですが、Mozilla でこれまで発行されたバグレポートは20年以上の期間での153万件を越えるそう。

これが人力でおおむね正しく分類されているので、これをXGBoostに食わせることで、新たに到着したバグレポートが属するコンポーネントの予測が自動的にできるのだそうです。

2月末に一部のプロダクトに対して導入運用を始め、350件のバグを自動分類し、そのチケットの解決までの日数の(外れ値を除いた)中央値は2日間と改善されたそう。ちなみに、今は60%の信頼度で分類して、80%以上の適合率を達成しているそうです。

今後の計画としては、重複チケットの検出、バグレポートに欠けている内容(たとえばバグの再現方法)を見つけて報告者に追加してもらう、リリース版での重要なバグを素早く発見する、などを検討しているということ。

大きな製品になるとバグレポートも膨大に届き、切り分けだけでたいへんな人的リソースを必要とするのでしょうけれど、その部分の自動化は開発側にも利用者側にも大きな恩恵を与えそうですね。

via VentureBeat

ThisPersonDoesNotExist.com – 「実在しない人物」の写真を作ってくれるサイト

thispersondoesnotexist.com にアクセスすると、ページいっぱいに一枚の顔写真が出てきます。リロードするとまた別の人の顔が出てきます。

これだけだといったい何のサイトかわかりませんが、実は、この表示された顔写真、実在する人物ではなくプログラムで合成されたものだそうです。

Phillip Wangさんが、NVidia の研究チームがSylte-Based GAN の論文で発表し、オープンソースで実装を公開したStyleGANの利用例として作ったデモです。

リロードすると、たまにアクセサリー周りや肩のあたりなどに変なところが出てきますが、ほとんどは驚くほど自然で、これを例えばアイコンにしても、実在の人物だと信じさせることができてしまうでしょう。

これは、左顎のところに不自然さが出た例

論文紹介の動画はこちら。

複数の特徴量を増減させることで、写真と写真を掛けあわせたような新しい写真、それも自然な写真を作る様子が見られます。

顔写真以外のデータで遊んでみている人も多いようです。

via reddit/technology

テレビから”Alexa”と流れてもAlexaが反応しない技術をAmazonがスーパーボウルに向け投入

4日に行われるスーパーボウルでは Amazon もスマートスピーカー アレクサのTVCMを流すようですが、それに先がけて「テレビが “Alexa” という言葉を流しても家の Alexa 機器が反応しない技術」を配備したと Amazon の開発者ブログで明かされています。

この技術、基本的には、発話された”Alexa”に対する指紋のようなデータ(acoustic fingerprint)を使い、家庭でユーザーが発した”Alexa”ではないということを判定するもの。

既知のCM中の”Alexa”については、あらかじめ音声指紋を計算しておき、Echo デバイスがその場で突合せをして撥ねているそうです。なので、今回のCMに出てくる”Alexa”を無視するだけであれば、サーバ側の処理は不要ということになります。

ただ、それだけではなく、同時に広い地域の多数のEchoデバイスから、同じ発声の”Alexa”が届いた時に、これをテレビやラジオの放送によるものだとリアルタイムに判定して無視することもできるのだそうです。事前に知らされてない状態でラジオのDJがリスナー達のAlexaを起動しようとしても、防げるようになった、ということになります。

スーパーボウルで流される予定の動画は、YouTube で既に公開されています。ハリソン・フォード氏が出演。過去の「うまくいかなかった Alexa 組み込みデバイス」を紹介するという面白動画になっています。

テレビ・ラジオだけでなく、世の中に広く存在する”Alexa”に対処してるとすると、例えば Google Home が喋る”Alexa”にも反応しなくなってるかもしれませんね。そうすると過去にご紹介したこういう遊びは動かなくなるのかな。

履歴書の機械学習が女性差別になってしまい、Amazonが止めたというニュース

ロイターの記事 “Amazon scraps secret AI recruiting tool that showed bias against women

アマゾン社の中の人による匿名の情報ということだけれど、2014年に組まれたチームが、求職者からの履歴書を機械学習して(アマゾンレビューのように)星5つでランク付けをしたら、ソフトウェア開発者や他の技術者の高評価が男性に偏ってしまうことに気づいた、ということです。

学習に使った過去10年の求職者に占める男性の割合が多かったために、男性的な言葉を多く使った履歴書が優秀とされてしまったそうです。入力にバイアスが掛かってれば、結果にも掛かるのはある意味当たり前ですね。アマゾンに限らず、アメリカのIT企業で社員の男女比や有色人種比率が公表されたり比較されたりしている中で、これまでのやり方をベストとして強化すれば、属性にこだわらず優秀な人を取るということができなくなってしまいそうです。

記事によれば、結局、このチームは解散となったということ。今は別のチームで、重複したデータを削除するとか、多様性が保たれるようにスクリーニングするとか、よりマイルドな使い方を追及しているということです。