Steady assimilation: [biz] 新製品が相次ぐ音声操作端末に見る機能と技術の齟齬、コンセプトの破綻

何と言うこともない話なんですが。最近、音声に特化した据え置き型端末の新製品が立て続けに目に止まりまして。あれです。ホームコントローラとかパーソナルアシスタント等と称される、部屋に設置しておいて、音声で会話したり天気予報を検索したり、オーディオや各種家電を操作したりする類の端末です。どれも中身が技術的に殆ど同じような感じで、今は音声関連技術のトレンド的に一種の製品化ラッシュが起きやすいタイミングにあるのかなと、ちょっと気になった次第なのです。

特に目を引いたのが、米AKAStudy社のMusio。人型のロボット然とした外観の製品で、中身はAndroidOSを採用したスマホ類とほぼ同じ。人型と言っても機械的な動作は一切せず、ただ顔にあたる部分にモニタが入っていて、表情等を変化させる機能がついています。有り体に言えば、タブレットを人形の顔部分に突っ込んだものとほぼ等価ですね。価格はCPU等のグレードや機能の有無により、$159(basic)から$599(genius)まで。これに開発キットやアドオンボード等のオプションが色々設定されているようです。

機能は概ねその中身から当然に予想される通りで、概ね文単位の簡単な音声入力を認識し、Siriライクな応答を返す会話ロボットとしての機能を持ち、その延長として各種家電の制御や外食等のレコメンデーション機能等が実装されています。

これらの機能は、デモ映像を見る限り、それなりに動作はしているようです。一昔前までの音声認識ロボットと言えば、機能面の謳い文句は似たようなものながら、その実は特定の予め登録された個々人の音声による、少数のコマンドにしか応答しない、しかもその精度も著しく低いという、はっきり言ってお粗末で話にならない詐欺そのものの代物だったわけですが、それを思えば隔世の感がありますね。

ですが一方で、まだとても実用に耐えるとは言えないとも思うのです。理由は色々と思い浮かびますが、何よりも致命的だろうのはそのレスポンスの悪さ。音声を発し終えてから、各種応答をするまでに数秒以上のラグが生じるのです。その上、認識に失敗して誤った応答をする事も少なくないようです。これはちょっと。。。音声入力の終わりを検出して、それを認識し、その内容に応じた処理を行って、応答音声を作成する、とここまでやって初めて応答が開始出来るわけで、そのラグにもある程度致し方ない面がある事は理解出来なくもありません。ですが、それはあくまで作る側の事情に過ぎず、ユーザが使えるか否かとは関係ない話なわけで。それでも我慢強く使うという人もいないわけではないかもしれませんが、大多数がそうだとはとても考えられません。残念ながらこれでは一般向けの会話ロボットとしては成立しないでしょう。

会話ロボとしては使えないだろう以上、それでも売るというのなら、その他の機能すなわち家電コントローラやネット用の端末として利用するしかないでしょう。しかし、こちらにも看過し難い問題があります。精度の低さです。このため、努めてゆっくり話しかけ、応答まで何秒も待つ必要があるのですが、その挙句にやり直しを強いられる事もしばしば。これでは思うように操作出来ず、多くの人に取って我慢ならない欠陥品との烙印を押されるだろう事は確実です。また、デモでは殆ど確認出来なかったものの、その構造から推測される不安点もあります。雑音等、周囲に他の音がある場合にエラーが増える可能性が極めて高く、通常の利用シーンでこれが問題になる可能性が非常に高いものと思われるのです。

如何にも置物らしい外観を持ち、音声により接触せずに操作出来る事を売りにするこの種の端末を、タブレットのように一々持ち歩いたりする人はおそらくいないでしょう。通常、室内の何処か、棚の中等に設置され、その室内中の任意の場所から操作されるべきものと捉えられる筈です。しかし、室内で人が発する声は、必ずしも端末へのコマンドばかりではありません。むしろコマンドの方が少ないだろう事は明らかです。然るに、ある程度離れた場所から、また様々な方向から届く声の中から、どうやってその端末へのコマンドを選別するのか。まさか端末を置いた部屋では電話も独り言もするな、とでも言うつもりでしょうか。そして、ここでさらに問題になるのは、そもそも当然ながら室内は無音ではないという事です。客人等、複数人が居れば会話もなされますし、テレビや各種オーディオから音声が飛び交って当然の環境なわけです。この中から、端末へのコマンドをどう判別するのでしょうか。

これは従来から音声入力を操作に用いるデバイスでは問題になって来た点で、例えばGoogle Glassでは、操作者からの距離で環境音との区別を図り、かつ入力前に"Ok,Google"とトリガーを発声する仕様にして本人の発する声の中からコマンドを判別する仕様となっていましたが、それでも誤認識は解消出来なかったそうです。今のところ、音声のみによる操作を採用したデバイスで、この問題を十分に解決する方法を発見し得たという話は聞きません。必ず、音声以外の情報による補助、離れた位置からの音声は除外し、マイクアレイ等によって方向を限定し、さらに画面等のタッチによるトリガーを加える等、何重もの限定処理を加えてなお誤りを排除し得ない、というのが現状と言います。要するに、任意の位置から任意のタイミングで発せられる音声には対応出来ないというわけです。ここ最近のデバイスも、おそらく例外ではないのでしょう。

これはすなわち、そういうコントローラやネット端末としても、そのコンセプトに沿った使用には到底耐えないだろうという事になるわけです。そりゃそうです。何らかのコマンドを入力しようとする度にその場の全員が声を潜め、テレビやBGMを全てミュートにしなければならないコントローラなど、誰が使うというのでしょう。しかもそれがラグまみれのうすのろで、声を発する度に無音の状態を何秒も待たされるというのですから論外です。従来通り、ボタン等の確実に動作するリモコンやスマホを取り上げて操作する方がよほどスムーズかつ確実で、合理的なわけですから。

もし、周りでどのような声や音が飛び交おうとも、その全てを適切に認識し、自身へのコマンドや呼びかけを適切に拾い、応答を返す事が出来るというのならば、遅延は酷くとも全く使えないという事もないのでしょう。しかし、実際の所それは技術的にあまりに困難である事は明らか、watsonレベルのデータベースとプロセッサが当たるならまだしも、一般向け程度の端末にそのような処理能力があろう筈もないわけで。

おそらくはむしろ逆、すなわちそういう処理能力の低さ、精度の悪さが拭い難いものであるが故に、頻繁に誤りがあっても許されうる用途として"会話"を主機能に出しているのではないかとも思うのです。そう考えると、何とも残念というか姑息というか。本来、会話というのは十分な知性、言い換えれば認識の精度や速度といった能力が基礎としてあって初めて成立するものであって、簡単な文を機械的に認識し、応答を返すだけで成立するとはとても考えられないのですが。。。要するに、製品のコンセプトが矛盾を来し、もはや破綻していると思うのです。

なお、中のハードはじめ技術的には殆ど同じと言えるだろうAmazonのEchoは会話を排し、というか外観からしてロボットというより音声認識機能を付けたスピーカーというべき代物で、機能面もネットショッピング等コントローラ端末に特化しているため大分毛色が違いますが、それはそれでやはり音声認識等の速度・精度面で難がある事には変わりなし。特に誤認識率の高さについては、そんな不安定なものを買い物に使うのは怖いと思う人は多かろうし、こちらもコンセプト自体に齟齬があるんじゃないかなとも思うのですが、Amazonはどう考えているのでしょうね。

あと、何かタカラトミーが20000位で似たような機能の会話ロボを子供向けに投入するって話も聞こえてきましたが、価格からして、おそらくMusio以上のものでは有り得ないでしょう。子供向けにしては高い価格と、その酷く舐めた感のある嘘満載の機能・性能が広く受け入れられるとはとても想像出来ないのですが、果たしてどうなるやら。

そんな感じで、一見洗練されているように見えなくもないものの、どれもやはり技術的にまだ実用になっているとはとても言えず、コンセプトが破綻しているだろうものばかりでがっかり、なのです。Siriに始まったボイスアプリがスマホ上でそれなりに定着した事を受け、これを使って次のビジネスを生み出したい、という意図はよく分かるのですけれども、作ればいいってものではないでしょうと。こういうシーズ先行でニーズ無視、かつ過大広告で失敗した例は数しれず、とりわけロボットで言えばペットロボは、失望の果てに跡形もなく消えました。汎用技術を基盤に採用している分安価になったものの、基本的な性質は同じもののように見える本件、結果も同じになるのか否か。さて。

Adorable AI-powered robot Musio just wants to be your friend
タカラトミー、会話ロボを家庭へ　ドコモと連携

Steady assimilation

6/05/2015

[biz] 新製品が相次ぐ音声操作端末に見る機能と技術の齟齬、コンセプトの破綻

Search This Blog

Blog Archive

author