「音声認識」タグアーカイブ

Speech2Face – 声からあなたの顔つきを当てる研究

声から、喋っている人がどんな顔なのかを推定する、という研究です。

上に並んでいるのが、短文の音声メッセージの話者です。これ左端はダニエル・クレイグ氏(007)ですよね。他はわかりませんが。

サイトで再生ボタンを押すと、推定に使われた音声データが聴けます。10秒も無いぐらいの短い文章です。

そして、下に並んでいるのが、その音声から深層ニューラルネットワークを利用して推定した話者の顔。

学習データとしては、インターネット/YouTube 上の数百万の人が喋っている動画を使ったそうです。「こんな風貌の人は、こんな風に話す」というデータを大量に食わせることで、「こんな風に話す人は、こんな見た目なことが多い」という変換を得たということですね。

推測結果には性別・ジェンダー・人種など繊細な問題が絡むことから、倫理的な注意書きが添えられています。学習データは全人類の平均的な喋り方を集めたのではなく、YouTube などから動画を集めたことから、データには当然バイアスがあります、と。YouTube に出ているような人の喋り方、に偏っているかもしれないし、喋っている言語のサンプルが少なかったりする言語の場合も偏りがあるかもしれない、などなど。

また、話者本人を特定したり、話者のファッション(髪の色やメガネ等)を特定したりは当然できません。(メガネをかけた人特有の話し方、とかない限り)

アプリやブラウザに対して喋ると顔写真を出してくれたり、というお遊びサービスは面白そうですが、その先にどのような実用的な応用がありうるのか。何か面白いことができそうな研究ではありますね。

via Futurism

テレビから”Alexa”と流れてもAlexaが反応しない技術をAmazonがスーパーボウルに向け投入

4日に行われるスーパーボウルでは Amazon もスマートスピーカー アレクサのTVCMを流すようですが、それに先がけて「テレビが “Alexa” という言葉を流しても家の Alexa 機器が反応しない技術」を配備したと Amazon の開発者ブログで明かされています。

この技術、基本的には、発話された”Alexa”に対する指紋のようなデータ(acoustic fingerprint)を使い、家庭でユーザーが発した”Alexa”ではないということを判定するもの。

既知のCM中の”Alexa”については、あらかじめ音声指紋を計算しておき、Echo デバイスがその場で突合せをして撥ねているそうです。なので、今回のCMに出てくる”Alexa”を無視するだけであれば、サーバ側の処理は不要ということになります。

ただ、それだけではなく、同時に広い地域の多数のEchoデバイスから、同じ発声の”Alexa”が届いた時に、これをテレビやラジオの放送によるものだとリアルタイムに判定して無視することもできるのだそうです。事前に知らされてない状態でラジオのDJがリスナー達のAlexaを起動しようとしても、防げるようになった、ということになります。

スーパーボウルで流される予定の動画は、YouTube で既に公開されています。ハリソン・フォード氏が出演。過去の「うまくいかなかった Alexa 組み込みデバイス」を紹介するという面白動画になっています。

テレビ・ラジオだけでなく、世の中に広く存在する”Alexa”に対処してるとすると、例えば Google Home が喋る”Alexa”にも反応しなくなってるかもしれませんね。そうすると過去にご紹介したこういう遊びは動かなくなるのかな。

voicecoder.net – Alexaの音声でカスタマイズできるゲーム

Voice Coder、「音声でコーディングを学ぼう」とあるこのプロジェクトは、Amazon Alexa を使って初歩のプログラミングを学べる、というサービス/スキルです。

Alexa スキルと連動させたブラウザゲームにおいて、横スクロールゲームで背景画像を切り替えたり、自機が地面や障害物、アイテムと衝突した際に起こるイベントを切り替えたり(ライフが減る、音が鳴る、ポイントが増える、など)を、音声で指示することができます。

と、動画のデモでは動いているのですが、実際に自分で使おうとすると、Alexaスキルがうまく動いていないのか、アクセスコードを話してくれず、自分でプログラミングを試すことはできませんでした。

元のゲームのパラメータを音声で変えられる、と言ってしまえばそれだけで、「音声でプログラミング」は言い過ぎかもしれません。ですが、スマートフォンで文字を書いたり、パソコンでキーボードを打ったりすることが身についてない小さな子供でも、このような音声インタフェースなら使うことができます。ゲームもプログラムで動いていて、それを変更することができるんだ、という体験をさせるにはいいのかもしれません。

via Hacker News

iPhoneの音声認識、トロンボーンの演奏を妻にメッセージしてしまう

ジャズ・トロンボーン奏者のポールさん(@JazzTrombonist)のツイートが話題を読んでいます。

音声入力を使って妻にメッセージを送ったポールさん、「あとで買い出しに行かなきゃね」と書いた後にトロンボーンの練習を続けたそうですが、妻の方には「ウーウーウーウー フーフーフーフー ウーウーウーウー」という謎のメッセージが大量に届いたということ。

いいねが20万件もついたことを受けて、ポールさんはツイッターで紹介したことが起こった様子を動画で再現しています。

こういった日常音も、音声認識技術が学習を続けて進化すれば、メッセージとしては取り込まず無視したり、映画のクローズドキャプションみたいに、「(トロンボーンの演奏)」など情景として説明してくれたりしそうではあります。

それまでは、いろんな楽器を音声認識に食わせてみて、どんな結果になるか試すと面白いかもしれないですね。逆に、人間の言葉でないものを与えて、ちゃんと言葉に認識させる、という遊びもあるかもしれません。

via Geekologie

強い訛りの英語がSiri, アマゾン, グーグルの音声認識にどれぐらい伝わるか実験した動画

変わったアクセントの英語に、各社の音声認識はどれだけ対応できるのか、という実験動画です。

挑戦したのはこちらの8人。英語圏の5つの方言(アメリカ、スコットランド、アイルランド、英国、オーストラリア)に、非ネイティブの日本・ドイツ・イタリア語話者。

アップルの Siri, アマゾンの Alexa, グーグル Home に、それぞれのお題を自分の訛りで話しかけて、認識されるかどうかを見ています。

最初のお題は「ウスターソース(Worcestershire sauce)を買い物リストに入れて」。非英語圏の3人でAlexa が苦戦していますね。(結果 2:09頃) 1:55頃、日本語担当の人がすごい日本語訛り英語で話しても、Google は拾っています。

あとの3問は「ベネディクト・カンバーバッチの生まれた日は?」「ワガドゥグはどこの国の首都?」「Westworldの作者は?」

普通の英語で話せる人たちが、自分の訛りをわざと強調して話しているというところもあるし、たった8人での実験なので個人差によるものも多いだろうと思います。ここで出た結果を見て Google Home が一番、というのは早計過ぎると思いますが、3つのアシスタントといろいろな国の出身者が集まったところで遊びとしてやるのは面白いかもしれません。

これらの会話アシスタントの開発企業はずっと多くのいろいろな訛った話者を使って日夜改善作業をしていることでしょうね。いずれは人間がわからないような強い訛りでも拾えるようになることでしょう。

via Likecool

SpeakEmoji – 音声→絵文字変換アプリ

SpeakEmojiは、音声で入力した言葉から、それにマッチした絵文字への翻訳ツールです。ブラウザ・iPhone・Android アプリが提供されています。

マイクから英語のセンテンスをしゃべると、うまくいけば対応する(?)絵文字のテキストを返してくれます。これをツイッターやフェイスブックに張り付けて送れば、絵文字で会話できますね。

speak-emoji-pc

こちら説明動画

わざとらしいイギリス英語ですが、ドメインもco.uk だしイギリスの会社ということをアピールしているのでしょう。絵文字を使うとクールになれて、子供たちに無視されることもなくなるそうですよ。

via TheNextWeb