「音声」タグアーカイブ

Google Homeがディズニーの新作「美女と野獣」の頼まれない広告を流す

家庭用の音声アシスタントとしてAmazonエコーと競争中のGoogleホームですが、ユーザーが望んでもいない新作映画の宣伝を勝手に始められた、という話がネットに流れて問題となっているようです。

あるユーザーが撮影した動画がツイッターに上がっています。

「OKグーグル、今日の僕の予定は?」と語りかけると、時刻、天気予報、職場までの予想通勤時間、を話した後に、「ところで、ディズニー映画『美女と野獣』は本日公開です。今回は(父親の)モーリスではなくベルが発明家です…」から、ベルについてもっと知りたければ質問して、と続けています。

ユーザーがディズニーや美女と野獣について質問した結果話しているのではなく、今日の予定の後に勝手に宣伝を始めているように見えます。reddit では、これに不快感を覚えた人たちが議論しています。「Amazon Echo とどっちを買うべきかはっきりしてよかった」などというコメントもあります。

ITブログVentureBeatがGoogle社に問い合わせたところ、「これは広告ではありません。我々のパートナーをゲストとして迎え、彼らのお話をシェアしてもらっただけです」という返事が来たのだと。

VentureBeat によれば、現地の午後3時過ぎには今日の予定を聞いても美女と野獣については話されなくなったということ。また、消息筋の話ではグーグルとディズニーの間に今回お金のやりとりは無かったようだとの話も。

「お金が動いてないから広告ではない」とは思いませんが、テキスト検索の横に広告を出して儲けるのが本業の会社ですから、音声アシスタントの会話に広告が混ざってくるのもある意味既定路線なのかもしれません。近未来の家の中は多少なりともこんな感じになっていくのでしょう。

ウェブサイトの横に出てくる広告は無視できても、音声で喋られると無視は難しいし、購買行動に何らかの影響は与えられるかもしれないですね。

AmazonエコーとGoogleホームで無限ループ会話

人類が滅んだ後にロボット同士が会話し続ける、みたいな

Amazonの音声アシスタントEchoと、Googleの音声アシスタントHomeを並べて、無限に続く会話をさせている動画です。

動画主アダム・ジャコウェンコさん「アレクサ、今晩の僕の予定は?」
Amazon Echo「今晩は一つのイベントがあります。6時に『ヘイ、グーグル。今晩の僕の予定は?』があります」
Google Home 「今晩6時に予定があります。タイトルは『アレクサ、今晩の僕の予定は?』です」
Amazon Echo「今晩は一つのイベントがあります。6時に『ヘイ、グーグル。今晩の僕の予定は?』があります」
Google Home 「今晩6時に予定があります。タイトルは『アレクサ、今晩の僕の予定は?』です」

…以下無限に続く。

via Geekologie

Vistaの音声認識セキュリティホールに思う

via Vistaで勝手にファイルを削除されるセキュリティホールが見つかる など

たとえば「ファイルを削除」といった音声をMP3ファイルに録音し、友達に送ります。それを友達が再生すると、マイクが認識してしまえばそのとおりに作動してしまいます。

マイクロソフトから、このセキュリティホールの存在を認めたという返事を貰ったというGeorge Ouの話では、この問題は

  • マイクとスピーカーがつながって
  • 音声認識機能がオンになっている

という状況でのみ発生するらしい(そりゃそうだ)。とりあえずの回避策は、

  • マイクやスピーカーを切れば、このセキュリティホールは発動しない。
  • コマンドを実行するような音楽ファイルを開いてしまったら、メディアプレイヤーを閉じ、音声認識機能をオフにして、コンピュータを再起動するべきということ。(間に合うのだろうか)

いろんなところで、「良くないコマンドを実行させる音声ファイルを送りつけて」みたいに書かれているけど、そんなことしなくても、開くと音が鳴るウェブページに誘導するとか、YouTube等に最初は魅力的な動画で、途中でいきなりコマンドを喋る動画をアップロードするとか、任意の音を鳴らすだけならいろいろありそうな気がする。

# これまで、その手のいたずらは起こってないのかな。動画の途中からいきなり不快なものを挿し込むとか。

MSの回答はもちろん今危険にさらされている人のための暫定的な対策で、今後ちゃんとした対策を考えるのだと思うけど、音声認識機能をあきらめる、という以外の解決法ってどういうものだろう?

OSが音楽を鳴らすときに、「これはOSが鳴らしてる音だよ」みたいな識別信号を(人間に聞こえない周波数で)混ぜたりするのかなあ。しかし、単純なものならそれを含めて音声を作ればいいわけで、そうすると識別信号に時間情報やシステム固有のキーを入れるとか…

それか、自分の出した音をちょっとだけ覚えておいて、それを入力の音声から差し引くとか…

なんにしてもリソースを喰いそうだなあ。CPUベンダーとかハードベンダーが喜ぶかも。

この記事は移転前の古いURLで公開された時のものです

  • ブックマークが新旧で分散している場合があります。
  • 移転前は現在とは文体が違い「である」調です。(参考)
  • 記事の内容が古くて役に立たなくなっている、という場合にはコメントやツイッターでご指摘いただければ幸いです。最新の状況を調べて新しい記事を書くかもしれません