「音声認識」タグアーカイブ

iPhoneの音声認識、トロンボーンの演奏を妻にメッセージしてしまう

ジャズ・トロンボーン奏者のポールさん(@JazzTrombonist)のツイートが話題を読んでいます。

音声入力を使って妻にメッセージを送ったポールさん、「あとで買い出しに行かなきゃね」と書いた後にトロンボーンの練習を続けたそうですが、妻の方には「ウーウーウーウー フーフーフーフー ウーウーウーウー」という謎のメッセージが大量に届いたということ。

いいねが20万件もついたことを受けて、ポールさんはツイッターで紹介したことが起こった様子を動画で再現しています。

こういった日常音も、音声認識技術が学習を続けて進化すれば、メッセージとしては取り込まず無視したり、映画のクローズドキャプションみたいに、「(トロンボーンの演奏)」など情景として説明してくれたりしそうではあります。

それまでは、いろんな楽器を音声認識に食わせてみて、どんな結果になるか試すと面白いかもしれないですね。逆に、人間の言葉でないものを与えて、ちゃんと言葉に認識させる、という遊びもあるかもしれません。

via Geekologie

強い訛りの英語がSiri, アマゾン, グーグルの音声認識にどれぐらい伝わるか実験した動画

変わったアクセントの英語に、各社の音声認識はどれだけ対応できるのか、という実験動画です。

挑戦したのはこちらの8人。英語圏の5つの方言(アメリカ、スコットランド、アイルランド、英国、オーストラリア)に、非ネイティブの日本・ドイツ・イタリア語話者。

アップルの Siri, アマゾンの Alexa, グーグル Home に、それぞれのお題を自分の訛りで話しかけて、認識されるかどうかを見ています。

最初のお題は「ウスターソース(Worcestershire sauce)を買い物リストに入れて」。非英語圏の3人でAlexa が苦戦していますね。(結果 2:09頃) 1:55頃、日本語担当の人がすごい日本語訛り英語で話しても、Google は拾っています。

あとの3問は「ベネディクト・カンバーバッチの生まれた日は?」「ワガドゥグはどこの国の首都?」「Westworldの作者は?」

普通の英語で話せる人たちが、自分の訛りをわざと強調して話しているというところもあるし、たった8人での実験なので個人差によるものも多いだろうと思います。ここで出た結果を見て Google Home が一番、というのは早計過ぎると思いますが、3つのアシスタントといろいろな国の出身者が集まったところで遊びとしてやるのは面白いかもしれません。

これらの会話アシスタントの開発企業はずっと多くのいろいろな訛った話者を使って日夜改善作業をしていることでしょうね。いずれは人間がわからないような強い訛りでも拾えるようになることでしょう。

via Likecool

SpeakEmoji – 音声→絵文字変換アプリ

SpeakEmojiは、音声で入力した言葉から、それにマッチした絵文字への翻訳ツールです。ブラウザ・iPhone・Android アプリが提供されています。

マイクから英語のセンテンスをしゃべると、うまくいけば対応する(?)絵文字のテキストを返してくれます。これをツイッターやフェイスブックに張り付けて送れば、絵文字で会話できますね。

speak-emoji-pc

こちら説明動画

わざとらしいイギリス英語ですが、ドメインもco.uk だしイギリスの会社ということをアピールしているのでしょう。絵文字を使うとクールになれて、子供たちに無視されることもなくなるそうですよ。

via TheNextWeb

Windows Phoneで、まだ日本に来てないCortanaを使ってみた(ただし英語で)

# この記事長いです

Windows Phone買った

日本で最初の Windows Phone IS12T 以来、ひさしぶりに Windows Phone を入手しました。

4年近く日本で出てなかった Windows Phone ですが、OS自体は日本語も問題なく対応していますし、Twitter や Facebook など超大手のアプリはそれなりに揃っています。iOS や Android に比べればだいぶ少ないですが、毛色の違う独特のアプリもあり、それなりに楽しめます。

# 地図には困ってますが

Cortana、そういうのもあるのか

iOS や Android にあるような音声アシスタント機能も使ってみたいな、と思ったら、Windows の音声アシスタント機能 Cortana は、まだ日本語に対応していないんですね。デスクトップの Windows では、近いうちに日本語Cortana のテストが始まるというニュースが出たので、テスト期間の後にはデスクトップ/モバイルの両方で日本対応もしてくれるとは思うのですが。

こちらはマイクロソフトによる Cortana 紹介動画

日本語は対応してないにしても、日本からでも英語でだったら使えるのか、というのを試してみました。結論から言うと使えます。

wp_ss_20150722_0003

まず Cortana に既に対応しているかを確認

どういうWindows Phoneをどういう設定で使っているかわからないので、まずは既に設定ができているかどうかを確認しましょう。

虫眼鏡ボタン(検索ボタン)を押したときにCortanaの画面が起動するなら、既にそのケータイはCortana対応しています。

押してもBing Vision (Bing検索)の画面が出てきた場合は、Cortana に(まだ)対応していません。

Windows Phone システム全体を英語モードにする

設定の地域をCortanaが対応している地域に変更することで、使っている場所が日本でもCortanaが動くようになります。

たとえば地域を USA にセット(して再起動)すると、Cortana が使えるようになります。(後述の理由により United Kingdom の方がオススメ)

wp_ss_20150722_0002

もしこれで使えない場合は、Windows Phone 8.1 のバージョンが古いということです。OSの更新をしてなければしてみてください。更新しても出てこない場合は、新し目の更新が降りてこない(=対応していない) Windows Phone だったということで、将来の更新を祈りましょう。

Cortana に話しかけての起動は機種を選ぶ

僕がメインで使ってる Android 機では、”OK Google”で音声認識が起動できるのですが、手元のWindows Phone に”Hey Cortana!”と呼びかけても Cortana は起動しません。

話しかけによる起動ができない理由を調べたところ、どうもこの機能は Windows Phone 機のハードウェアがSnapdragon 800系のCPUを積んでいないと使えないようです。Lumia 930 とか Lumia 1520 とかのハイエンド機がこれにあたるということ。

これはソフトウェアではどうにもならないようなので断念。しょうがないので虫眼鏡ボタン長押しで起動することにします。

米国設定だと天気予報が華氏に固定されてしまう

さてEnglish(米国)にして、Cortana に天気を尋ねます(例: Will it rain?)と、予報を喋ってくれるのはいいですが、華氏で答えてきます。

wp_ss_20150722_0005

その後にすぐ”convert to Celsius”と頼むと、摂氏に変換してはくれるのですが、次に起動した時にはまた華氏で答えるので、毎回毎回2度喋らないといけません。

設定で regional format を Japan にしても変わりません。これは日付や通貨の形式にしか影響しないようです。

MSN Weather アプリのSettings でCelciusに変更しても、システム側のソフトウェアであるCortanaの動作は変わりません。

結局、地域設定を”United Kingdom”にするしかありませんでした。これで英語+摂氏表示になります。

wp_ss_20150722_0001

アメリカよりは後でしたが、Cortana は現在イギリスでも提供されています。なのでこれでも Cortana は作動します。

アメリカとイギリスでは、Cortana が答えるジョークや歌などが違ってしまう場合があるかもしれません。他にも国ごとにカスタマイズしている部分が違うのでしょう。

各アプリの言語設定も英語に変えられてしまう

あと副作用として、システムの言語設定を変更して再起動すると、MSNニュースやMSNマネーの言語が、英語に変えられてしまいます。

これらを日本語で表示したければ、一つ一つアプリを開いて設定で日本語に戻すしかありません。

Cortana に訊ける事

用意された回答がなければ Bing 検索の結果を表示してくれるのですが、やはり喋って訊いたら喋って答えてくれるのが嬉しいですね。そういう答えの返ってくる質問の例が以下です。

ちゃんと通じなかった時は発音が悪かったということで。英語発音矯正ギプスでもあります。

挨拶する

“Good afternoon”

wp_ss_20150724_0002

軽いなオイ

時間を尋ねる

“Give me the time”

wp_ss_20150724_0001

人名を尋ねる

有名人の年齢、生没日、身長、などの項目は、データがあれば答えてくれます。

“How old is Haruki Murakami?”, “When did Akira Kurosawa die?”, “How tall is Hayao Miyazaki?”

身長はフィート・インチで喋りますね。表示ではメーター表記も併記されますが。

“Who is the father of ~”(~の父親は誰?)では、著名人の父や母、夫や妻を教えてくれます。

“Who is the father of Richard the lion heart?”, “Who was the wife of John Lennon?”

wp_ss_20150722_0006

英語風の名前はうまく聞き取ってくれるのですが、日本人の名前はかなり失敗します。固有名詞ではなく普通の英単語だと思ってしまうので。もしうまく認識してくれた場合には、日本人でもそれなりに回答が出てきます。

一番高い山を訊く

国や大陸で一番高い山は教えてくれます。二番目に高い山とか一番長い川は(いまのところは)教えてくれません。

“Highest mountain in Japan?”, “What is the highest mountain in South America?”

wp_ss_20150722_0007

元首を尋ねる

“Who is the prime minister of Japan?”, “Who is the president of Russia?”

wp_ss_20150724_0007

首都を尋ねる

“What is the capital of Sri Lanka?”

wp_ss_20150724_0008

為替を尋ねる

“What is one US dollar in yen?”

“Japanese yen” というとなぜか喋ってくれません…

店を探す

“Find McDonald’s”

wp_ss_20150724_0009

冗談を言ってもらう

“Tell me a joke”, “Knock, knock?”

wp_ss_20150724_0003

冗談(joke)やお話(story)は何パターンもあります。

歌ってもらう

“Sing for me”, “Sing a song”等で、著作権の切れた(と Cortana が自分で言ってた)童謡をメインに歌ってくれます。

wp_ss_20150724_0005

頼むたびに違う歌が出てくるので何曲かは知っているみたい。

ジャンケンする

“Rock Paper Scissors”

wp_ss_20150724_0006

画面見ちゃうと相手の手がわかっちゃうので、見ないで自分の出す手を決めましょう。

Cortana はお遊び要素が多い

先行する Siri や Google との差別化のためか、Cortana にはひょうきんなキャラクターという味付けがされているそうです。

“Who is your father?”(あなたの父親は?)

wp_ss_20150724_0004

“Do you like Nintendo?”(任天堂は好き?)

wp_ss_20150722_0008

Sony, Apple, Android, Siri, Linux等の競合については、答えたりはぐらかしたりと専用の回答が用意されているようです。

Steve Ballmer(前社長)、Satya Nadella(現社長)、Clippy(MS-Officeのクリップ型アシスタント。日本語版 Cortana が出たらイルカのカイル君になるかどうか)などマイクロソフトゆかりの人物などにも反応します。

スターウォーズ、スタートレック、2001年宇宙の旅、銀河ヒッチハイクガイド、等からのネタも仕込まれています。

“Do an impersonation”(モノマネして) でも、ターミネーターなどいくつかの声マネを披露してくれます。

その他の面白回答についてはこのあたりでも多数紹介しています。

Funny Cortana commands – PC Advisor

131 questions to ask Cortana

使える質問

もちろん、実用的な質問/命令もあります。自分がよく使うのはこのあたり

“Wake me up at quarter to 6″(目覚ましのセット)

“Will it rain?”

“Play all music” (“play Green Day”とか、特定の曲名でもOK)

スケジュール、飛行機、位置情報、などを活用するとアメリカやイギリスではもっと色々できることが増えるようなのですが、英語のままでは日本では使い物になりません。きっと日本語対応を作ってる人たちが今頃がんばっていることでしょう。

Windows Phone の中の「ファイルを探せ」もあるのですが、これもファイル名が英語で揃っていないと今はまだ使えませんね。

“headline news”, “turn on WiFi”, “turn on airplane mode” あたりは、音声で Cortana を起動できるなら使いそうなんですけどね。ボタンを手で押してる時点で、だったら直接それらを呼び出すよ、となってしまいます。

“Latest Marines score”。イギリス版だからか”Latest Aston Villa score”も反応します。パ・リーグに対応してくれたら毎日使っちゃうかも

通信専用SIMじゃなくて通話用SIMだったら、名前で電話やSMSを送ったりもしてたでしょう。これも日本語の名前を正しく検索するのは英語モードでは難しいのかも。

公式マニュアルのサンプルにもまだまだ発見はありそうです。

オマケ: QRコードの読み取り機能はどこへいったの?

Windows Phone にはQRコードリーダーがデフォルトでついてきていて、それは Bing Vision の画面から目のアイコンを押すだけで起動できました。

しかし、Cortana を入れると虫眼鏡で Cortana が起動してしまいます。QRコードをスキャンしようとして、機能にアクセスできなくなってしまったことに気づきました。

それでは、と、Cortana に”Scan QR Code”と話してみても、その文字をBingで検索するだけで何も起こりません。”Run Bing Vision”とかもダメ。

Cortana 化してしまったWindows PhoneでQRコードを読み取るには、カメラアプリを起動して、設定-General-Lensesで追加のレンズを探し、そこに出てくるBing Visionをタップする必要があります。

3アクションで出来ていたQRコード撮影が5アクション必要になり、とても面倒…

QRコードの普及は日本がダントツらしいので、日本が後回しのWindows Phone ではこの変更はしょうがないのかな。今までが謎の厚遇だったのかもしれません。

トヨタ、ラジオCMから運転手のiPhone Siriに命令する – スウェーデン

以前とあるポッドキャストでキャスターが「ヘイ、Siri」と喋ったところ、聴いていたリスナーのiPhoneが反応して困った、という話を聞いたことがあります。

「ヘイ、シリ」でも「オーケー、グーグル」でも「ヘイ、コルタナ」でも「アレクサ」でも、音声で命令を受け取るこれらのサービスは誰の声でも反応してしまうため、近くのスピーカーから流れてくれば起動しますし、それが適切な命令になっていればそれを実行してしまうでしょう。

という前提で、スウェーデンのトヨタが仕掛けたのが、ラジオを通して運転中のドライバーの iPhone を機内モードにしてしまうというCM

最初の20秒は、過去に運転中のテキスト送信で交通事故に遭い、後遺症に悩んでいる人の体験談。

「もしドライバー自身が運転中の危険なスマートフォン操作を止められないなら、我々がそれをしてあげればどうだろう?」

「Siri がオンになっていて充電されているなら、『ヘイ、シリ』と叫べばiPhone を制御できる。誰でも。そう、ラジオでさえも」

「もし運転中のメッセージ送信やウェブサーフィンがたいへんなリスクだと聞いてもあなたが電話を置かないなら、この広告がそれをやりましょう」

「ヘイ、シリ!」

ダッシュボードに置かれた iPhone が反応します。

「機内モードをオンにしてくれ」

Siri 「本当に機内モードをオンにしていいんですね?」

toyota-radio-cm-controls-siri

「そうだ。携帯電話がついた状態で運転することは非常に危険だ」

Siri 「わかりました。機内モードをオンにします」

と、ラジオからの命令で iPhone は機内モードにされてしまいました。

運転中じゃなくて、家でラジオを聴いてる人はいなかったんですかね?

トヨタ・スウェーデンが公開しているこの動画は、「スウェーデンのラジオでこんなことをしたよ」という報告の動画で、いわば再現ビデオです。

# 言葉もスウェーデン語じゃなくて英語ですしね。

実際にラジオCMがどこの局でどれぐらいの対象を相手に流れたのかは書いてないのですが、実際に広くこのCMを流したら、各所から文句が来そうだなあ、と思いました。啓発CMとしてインパクトは高いけど。

本人の声を登録して本人じゃないと動かない、とするのは技術的にはかなり大変そうです。ラジオや録音した自動メッセージを使って他人のスマートフォンを勝手に操作する、という事例は今後もどんどん増えてきそうですね。

電話を切る、ぐらいなら危害は加えられないでしょうけど、音声認識で操作できる対象が増えれば、推理小説のトリックになりそうな悪意のある使われ方もいずれ目にするようになるかもしれません。

via The Verge

Vistaの音声認識セキュリティホールに思う

via Vistaで勝手にファイルを削除されるセキュリティホールが見つかる など

たとえば「ファイルを削除」といった音声をMP3ファイルに録音し、友達に送ります。それを友達が再生すると、マイクが認識してしまえばそのとおりに作動してしまいます。

マイクロソフトから、このセキュリティホールの存在を認めたという返事を貰ったというGeorge Ouの話では、この問題は

  • マイクとスピーカーがつながって
  • 音声認識機能がオンになっている

という状況でのみ発生するらしい(そりゃそうだ)。とりあえずの回避策は、

  • マイクやスピーカーを切れば、このセキュリティホールは発動しない。
  • コマンドを実行するような音楽ファイルを開いてしまったら、メディアプレイヤーを閉じ、音声認識機能をオフにして、コンピュータを再起動するべきということ。(間に合うのだろうか)

いろんなところで、「良くないコマンドを実行させる音声ファイルを送りつけて」みたいに書かれているけど、そんなことしなくても、開くと音が鳴るウェブページに誘導するとか、YouTube等に最初は魅力的な動画で、途中でいきなりコマンドを喋る動画をアップロードするとか、任意の音を鳴らすだけならいろいろありそうな気がする。

# これまで、その手のいたずらは起こってないのかな。動画の途中からいきなり不快なものを挿し込むとか。

MSの回答はもちろん今危険にさらされている人のための暫定的な対策で、今後ちゃんとした対策を考えるのだと思うけど、音声認識機能をあきらめる、という以外の解決法ってどういうものだろう?

OSが音楽を鳴らすときに、「これはOSが鳴らしてる音だよ」みたいな識別信号を(人間に聞こえない周波数で)混ぜたりするのかなあ。しかし、単純なものならそれを含めて音声を作ればいいわけで、そうすると識別信号に時間情報やシステム固有のキーを入れるとか…

それか、自分の出した音をちょっとだけ覚えておいて、それを入力の音声から差し引くとか…

なんにしてもリソースを喰いそうだなあ。CPUベンダーとかハードベンダーが喜ぶかも。

この記事は移転前の古いURLで公開された時のものです

  • ブックマークが新旧で分散している場合があります。
  • 移転前は現在とは文体が違い「である」調です。(参考)
  • 記事の内容が古くて役に立たなくなっている、という場合にはコメントやツイッターでご指摘いただければ幸いです。最新の状況を調べて新しい記事を書くかもしれません