無料ブログはココログ

« 音と色の商標 | Main | 第35回 2015 年猿橋賞受賞者 鳥居啓子 »

April 21, 2015

音声認識向け深層学習

三菱電機が音声認識向け深層学習、間違い傾向を再学習

 三菱電機は、音声認識における言語モデルにディープラーニング(深層学習、DNN)技術の一種である「Reccurent Neural Network(RNN)」を用い、さらに音声認識器の認識誤り傾向を再学習させることで、認識精度を向上させる技術を開発した。オーストラリアのブリスベーンで開催中の音声認識技術の国際学会「International Conference on Acoustics、Speech and Signal Processing(ICASSP)」(2015年4月19日~24日)で詳細を発表する。

 音声認識の言語モデルとは、ある単語列が発話された場合に次に続く単語を予測する技術を指す。これまで、「n-gram」と呼ばれる言語モデルが長く用いられてきた。これは、(N-1)個の単語列の次にある単語が続く確率のデータベースを基に次の単語を予測する手法である。ただし一般には、N=3、すなわち“文脈”の情報は2つの単語しか使わない例がほとんどだった。文脈情報に用いる単語数を増やせば、予測はより正確になる。しかし、計算量が、想定する辞書の単語数(例えば10万語)のN乗で増大するために、少ない計算資源しかない場合は利用できなかった。

Deeplerning

 2004年ごろからはこのn-gramを基に、認識誤りの傾向を出力結果の重みに反映させることで、認識性能の向上を図る「識別的n-gram言語モデル」と呼ばれる手法も開発された。ただし、長い文脈はやはり考慮できず、単語間の類似性(similarity)も考慮できない課題があった。単語間の類似性とは、例えば「私」と「彼」という単語を似ているとする評価軸である。


最近ディープラーニングに興味を持っているアマサイです。
ディープラーニングの学習とアマサイの研究を結びつけること自体長い距離がありそうですが。

ぼちぼち研究めいたことを始めました。人気blogランキング・自然科学にぷちっとな【押す】。ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

« 音と色の商標 | Main | 第35回 2015 年猿橋賞受賞者 鳥居啓子 »

「自然科学・工学」カテゴリの記事

TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/61116/61471798

Listed below are links to weblogs that reference 音声認識向け深層学習:

« 音と色の商標 | Main | 第35回 2015 年猿橋賞受賞者 鳥居啓子 »

サイト内検索
ココログ最強検索 by 暴想

更新情報

August 2017
Sun Mon Tue Wed Thu Fri Sat
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31