Tag Archives: 音声

Speech2Face – 声からあなたの顔つきを当てる研究

声から、喋っている人がどんな顔なのかを推定する、という研究です。

上に並んでいるのが、短文の音声メッセージの話者です。これ左端はダニエル・クレイグ氏(007)ですよね。他はわかりませんが。

サイトで再生ボタンを押すと、推定に使われた音声データが聴けます。10秒も無いぐらいの短い文章です。

そして、下に並んでいるのが、その音声から深層ニューラルネットワークを利用して推定した話者の顔。

学習データとしては、インターネット/YouTube 上の数百万の人が喋っている動画を使ったそうです。「こんな風貌の人は、こんな風に話す」というデータを大量に食わせることで、「こんな風に話す人は、こんな見た目なことが多い」という変換を得たということですね。

推測結果には性別・ジェンダー・人種など繊細な問題が絡むことから、倫理的な注意書きが添えられています。学習データは全人類の平均的な喋り方を集めたのではなく、YouTube などから動画を集めたことから、データには当然バイアスがあります、と。YouTube に出ているような人の喋り方、に偏っているかもしれないし、喋っている言語のサンプルが少なかったりする言語の場合も偏りがあるかもしれない、などなど。

また、話者本人を特定したり、話者のファッション(髪の色やメガネ等)を特定したりは当然できません。(メガネをかけた人特有の話し方、とかない限り)

アプリやブラウザに対して喋ると顔写真を出してくれたり、というお遊びサービスは面白そうですが、その先にどのような実用的な応用がありうるのか。何か面白いことができそうな研究ではありますね。

via Futurism

電動キックスクーター シェアリングの LIME、案内音声をハックで差し替えるイタズラに遭う

オーストラリア、ブリスベンのカンガルーポイントで、LIME 社のシェアリング電動スクーターが複数台同時にハックされるという事件が発生しています。

ステーションに並んだスクーターが、一斉に「一緒に乗りましょう」「私を連れまわして」などと喋っています。

オリジナルの内蔵音声が、何者かの手によって書き換えられたのではということです。

こちらの動画では、スクーターを勝手に持ち去った際の警告が差し替えられています。

ニュースでも「差別的」と言っていますが、移民風の喋り方などがそれにあたると感じられているのでしょう。

LIME や競合の Bird の電動キックスクーターについては、無料で解錠して乗るハックや、リモートから突然ブレーキを掛けるハックも出ていて、YouTube を検索すれば多数出てきます。

欧州中心に電動キックスクーターのシェアが爆発的に広がっているようですが、本体の電子部分が Bluetooth で簡単にアクセスできるタイプのものが有ったり、セキュリティ面で心配な事件も多いようです。

via Brisbane Times via Reddit

Q – 性別のない合成音声=ジェンダーレス・ボイスを各社音声アシスタントに採用呼びかけ

Q は、グーグル/アップル/アマゾン/マイクロソフトなどIT大手のスマートスピーカーや音声アシスタントに向けて提案された、男性でも女性でもない合成音声です。

サイトトップでクリックすると、その男女どちらでもない合成音声を聴いてみることができます。

デンマーク・コペンハーゲンのLGBTパレード団体やAIのバイアス問題に対処しようという団体らによって制作されたこの音声は、GoogleアシスタントやAmazonアレクサなどの音声アシスタントの音声が「男性声」「女性声」からの選択を強いていることに対する問題提起だということ。

言われてみれば、機械で合成しているのだから人工音声で男性か女性の声を選ばないといけない理由はないわけです。

「テクノロジー企業は、合成音声の性別を選択できることで人々がより快適になると信じ、性別をテクノロジーに持ち込んでいます」

「残念なことに、これらによって性別が必ずはっきりどちらかの2つに分かれる、というステレオタイプの永続化が補強されてしまうのです」

なるほど。応答ができて情報が返せればいいのですから、機械の合成音声にわざわざ性別を与える必要はないのかもしれません。男性声・女性声が今すぐ無くなるとは思えませんが、中性声を追加することはそれほど抵抗なく採用してもらえる可能性もあるのではないでしょうか。

このQの音声モデルは、数千の候補者から数人を選び、その人たちに話してもらった声のピッチを変換することで作ったと、紹介動画にありました。

「世界初のジェンダーレス音声」とサイトでは言っています。これまでも中性的な音声合成はいろいろ存在していたと思うので、世界初は言い過ぎではないかとも思いますが、ジェンダー中立を訴えて作成されたという意味ではこれまでになかったものでしょうか。

via Hacker News

voicecoder.net – Alexaの音声でカスタマイズできるゲーム

Voice Coder、「音声でコーディングを学ぼう」とあるこのプロジェクトは、Amazon Alexa を使って初歩のプログラミングを学べる、というサービス/スキルです。

Alexa スキルと連動させたブラウザゲームにおいて、横スクロールゲームで背景画像を切り替えたり、自機が地面や障害物、アイテムと衝突した際に起こるイベントを切り替えたり(ライフが減る、音が鳴る、ポイントが増える、など)を、音声で指示することができます。

と、動画のデモでは動いているのですが、実際に自分で使おうとすると、Alexaスキルがうまく動いていないのか、アクセスコードを話してくれず、自分でプログラミングを試すことはできませんでした。

元のゲームのパラメータを音声で変えられる、と言ってしまえばそれだけで、「音声でプログラミング」は言い過ぎかもしれません。ですが、スマートフォンで文字を書いたり、パソコンでキーボードを打ったりすることが身についてない小さな子供でも、このような音声インタフェースなら使うことができます。ゲームもプログラムで動いていて、それを変更することができるんだ、という体験をさせるにはいいのかもしれません。

via Hacker News

子供の歌声を腕のイレズミにした母親

腕の刺青に対してスマートフォンをかざすと、スマートフォンから子供のかわいらしい歌声が再生される、という動画がありました。

見た目のインパクトはあるし、音声波形らしき入れ墨なのでイレズミとして実際の声の波形を彫り込んだのかと最初思ったのですが、どうもそうではなさそう。これは、Skin Motionというサービスが生成した「波形風のバーコード」で、このサービスのスマートフォンアプリを使って認識させて、サーバ側にアップロードしておいた音楽/音声を再生させているということのようです。

二次元バーコードの刺青で参照先のコンテンツを再生する、という話だとそれほど珍しいわけでもなくて、QRコードのイレズミが5,6年も前のものがいくつも見つかります。

普通の一次元バーコード刺青となると、それこそスマートフォン以前からありますし。

この手の「実体はインターネット上などにあって、そこをポイントしているだけ」の情報の体への埋め込みは、リスクが高そうな気がしますねえ。サービス提供者が停止したらどうするんだ、とか。イレズミの場合は、皮膚に傷がついたり、シミやシワが増えたりしただけで、読み取りできなくなりそう、というのもありますし。

さらに、このSkin Motion、アプリの登録に39.99ドル(4290)、毎年のサービス料も9.99ドル(990)掛かるようです。

背中のイレズミに財宝のありかが隠されている、だと伝奇小説によくありそうな話ですが、毎年お金を払って維持するようなもの、となると刺青を彫るのが普通という文化の人にとっても、賢い選択とは言いにくいのではないかなあ…

via Geekologie

AutoMute – ブラウザの音声再生を全部デフォルトオフにできるChrome拡張

AutoMute は、Chrome ブラウザからとにかく音が出ないようにできるブラウザ拡張です。

インストール直後の設定は、あらゆるサイトでの音声がオフになっています。すべてのタブにミュートのマークが表示され、マークをクリックしたり、拡張アイコンのメニューから選択したりすることで、個別に再生を許可することもできます。

YouTube など、サイト側で用意しているミュート機能とは別のレイヤで止まっているため、場合によっては拡張でアンミュートして、動画側でのアンミュートして、としないと聴こえないこともあります。

音楽等が突然再生されたりすると非常に困る、といった職場で働いているような人たちは、保険のために入れるといいのかもしれませんね。絶対にどんな音も鳴らなくていい、ということなら、OSのドライバを止めるとかイヤホンジャックを埋めるとかもありですが、この拡張であれば、音がしても大丈夫なサイトだけ許可したり、どうしても音を聴かなければいけない時だけ設定を変えて聴いたりすることができます。

via LifeHacker via TheNextWeb