無料ブログはココログ

« 山崎豊子氏、死去 | Main | ドラマ松本清張「顔」2013年松雪版 »

October 01, 2013

音声認識検索

CETECの季節ですね。
アマサイは今年も行けそうにありません。

今年はどんなものが目玉なのかしら。

クラリオンがクラウド音声認識検索機能対応のカーナビ、Googleの技術を活用

 クラリオンは2013年10月1日、「CEATEC JAPAN 2013」(2013年10月1~5日、幕張メッセ)の会場においてクラウド・サービスによる音声認識検索に対応したカーナビ「NX713」を発表した。例えば、「近くのガスステーション」や「銀座のおいしいイタリア料理店」といった発話による検索ができる。同製品は、同社のブースで展示しており、同年10月下旬に販売を開始する。

 クラウドの音声認識技術および店舗検索は米Google社の技術を活用する。具体的には、スマートフォンとNX713をBluetoothで接続。スマートフォンのマイクに対して検索語を話しかけると、この音声データをクラリオンのサーバーに送信し、自動車ならではの雑音を取り除いた上で、Googleの音声認識サーバーに渡す。音声認識結果の文字列は再度、クラリオンのサーバーに渡され、これを使ってGoogleプレイス情報による検索が行われる。そして、結果がスマートフォンを経由してカーナビに送信される。


クラリオンってまだあったんですね。カーナビが主力製品の某社はかなりぼろぼろらしいですが、ここはがんばってるみたいです。

音声認識技術は近年格段に高まったと言われています。
それとクラウドサービスがつながればいろんなことができますね。

端的に言えば記事にある図の通りですが、もう少し詳しく見てみましょう。

特開2013-068532
【発明の名称】情報端末、サーバー装置、検索システムおよびその検索方法
【出願日】平成23年9月22日(2011.9.22)
【出願人】クラリオン株式会社

[動作の説明]次に、ナビゲーション装置100、中継サーバー装置500、音声特定サーバー装置900およびPOI提供サーバー装置950を含む検索システム1000において実施されるPOI検索処理の動作について説明する。図6は、POI検索処理を示すフロー図である。このフローは、ナビゲーション装置100が起動している状態において、所定のPTT(Push To Talk)ボタン等による音声入力の開始指示を受け付けることで開始される。
【0061】
まず、入力受付部102は、音声入力の待ち受けを開始する(ステップS001)。そして、入力受付部102は、PTTボタンの開放等により音声待ち受けを終了する(ステップS003)まで、音声区間を検出し、入力された音声情報を圧縮して音声情報を作成する(ステップS002)。なお、ここで、雑音レベル判定部104が、入力された音声情報の雑音レベルを判定する。そして、雑音レベルが所定よりも高い場合、すなわち雑音が多い環境では、入力受付部102は、圧縮率を低く設定して圧縮することとし、圧縮による音質劣化を最小限に留めるようにしてもよい。また、雑音レベルがさらに高く所定の閾値を超える場合、すなわち雑音が大きすぎて到底正常に音声認識を行うことができない程度に大きい環境においては、入力受付部102は、音声情報の作成を行わず、以降の処理を実施しないようにしてもよい。
【0062】
そして、入力受付部102は、中継サーバー通信部105を介して、中継サーバー装置500へ音声情報を送信する。そして、中継サーバー装置500の雑音除去処理部521は受信した音声情報に対して、所定のアルゴリズムを実現する雑音除去処理を実施する(ステップS004)。具体的には、雑音除去処理部521は、雑音除去処理時に適用することをあらかじめ定められた一または複数のアルゴリズムにより、受信した音声情報に対して雑音除去処理を実施して、雑音を除去された一または複数の音声情報を生成する。
【0063】
そして、POI提示部522は、雑音を除去された一または複数の音声情報を音声特定サーバー装置900へ送信する。そして、音声特定サーバー装置900は、各音声情報に所定の音声認識処理を実施して認識した結果である候補の一または複数の文字列情報を中継サーバー装置500へ送信する(ステップS005)。なお、当該音声認識処理においては、既存の音声認識等の処理が行われ、N-best検索等により一または複数の認識結果の候補となる文字列がその確度とともに出力される。例えば、使用者が発話した音声情報が「ピザ」に該当するものである場合、「ピザ」、「Pizza」、「膝」、「いか」等の候補となる文字列が音声情報ごとに出力される。
【0064】
そして、POI提示部522は、出力された認識結果の文字列情報を受け取ると、認識結果に対して重みづけを行う(ステップS006)。具体的には、出力された認識結果の文字列情報は、雑音除去のアルゴリズムに応じて一または複数の候補が挙げられており、その中で重複する候補があれば一つに統合し、統合された候補についてはその確度をより高いもの(例えば、確度に所定の割合を上乗せする)として補正し、確度の順に候補の文字列を順位付けする。なお、POI提示部522は、当該重みづけ処理において、音声情報に適用された雑音除去のアルゴリズムに応じて重みづけを行うようにしてもよい。すなわち、適切な雑音除去のアルゴリズムが適用された音声情報は認識精度が高いものと考えられるため、認識精度が高いと考えられる候補を重視するようにしてもよい。また、施設に該当しない可能性が高いPOIについての候補があれば、これを除去してもよい。
【0065】
POI提示部522は、順位付けした候補の文字列をナビゲーション装置100へ送信する。そして、ナビゲーション装置100のPOI提示情報作成部106は、受信した順位付けされた認識結果の候補の文字列を、選択可能にリスト出力する画面情報を作成し、出力処理部103へ指示してディスプレイ2へ表示させる(ステップS007)。なお、ここで、順位付けした文字列の候補の数が所定の数に満たない場合、あるいは、ステップS002にて受け付けた音声情報に含まれる雑音のレベルが所定よりも低い場合、すなわち音声の認識結果にあいまいさが少ない場合には、後述するステップS008の処理を省略して、ステップS009のPOIの検索依頼を送信する処理を実施するようにしてもよい。
2013068532

雑音処理が結構たいへんみたいですね。

音声認識を正確に行うにはかなりむずいようです。

しかし、カーナビであれば単語レベルでかなり限定されるので実用化は見込みありといえるでしょう。

シミュレーションなんかできるのでしょうか。
実験してみたいですね。

最近やっとクラウドがわかってきたアマサイです。人気blogランキング・自然科学にぷちっとな。【押す】≪応接室、ちょっと不具合が出ています。少々お待ちください≫

« 山崎豊子氏、死去 | Main | ドラマ松本清張「顔」2013年松雪版 »

「自然科学・工学」カテゴリの記事

TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/61116/58304224

Listed below are links to weblogs that reference 音声認識検索:

« 山崎豊子氏、死去 | Main | ドラマ松本清張「顔」2013年松雪版 »

サイト内検索
ココログ最強検索 by 暴想

更新情報

June 2017
Sun Mon Tue Wed Thu Fri Sat
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30