PR TIMES

人名等の誤り率を30%改善、新音声認識エンジンを自社開発

株式会社ソフトフロントホールディングス

日本語特有の課題に挑戦、AIボイスボット「commubo」に6月末搭載予定

 株式会社ソフトフロントホールディングス(本社:東京都千代田区、代表取締役社長:二通宏久)は、この度新しい音声認識エンジンを自社開発し、子会社である株式会社ソフトフロントジャパン(本社:東京都千代田区、代表取締役社長:高須英司、以下 ソフトフロントジャパン)が提供する、自然会話 AI ボイスボット「commubo(コミュボ)」に6月末より搭載することを発表します。
 End-to-End方式という新しい技術を採用しつつ、リアルタイム性を維持した新エンジンでは、従来のエンジンと比較し、人名・住所・短文の平均誤り率が30%以上改善されました(当社比)。これにより、今までボイスボットでは対応が難しいとされていた業務への拡大が期待されます。

■開発の背景
 ボイスボットで最も重要となる「お客様が発話する内容の正確な認識」のため、commubo では、お客様自身で編集可能な「音声認識辞書機能」や、会話の場面に応じて動的に認識辞書を切り替える「シーンセレクタ機能」を提供し、優れた会話業務を実現してきました。
 しかしながら、2018年10月のcommubo 販売開始以降、ボイスボットがさまざまな業界、業種、業務で導入され始め、応対するお客様の層が増えるに従って、改めて音声認識精度の限界がボイスボットの応対クオリティを左右する課題として浮かび上がっています。

 ソフトフロントは、音声のリアルタイム処理技術という自社の強みを活かし、「自然に会話でき、業務利用に耐えうるボイスボット」というcommuboの思想に沿って、この課題を解決すべく、新音声認識エンジンの開発に取り組んできました。

■新技術の「End-to-End 方式」を採用しつつ、日本語特有の“読み”の課題に対応
 これまでの commubo では、実績の優れた DNN-HMM方式 (ディープニューラルネットワーク・隠れマルコフモデル) による音声認識技術を用い、高速な日本語音声認識処理を行ってきました。
 一方で、ここ数年において、世の中に新たな音声認識技術として「End-to-End方式」が登場し、更にLLM (大規模言語モデル) と組み合わせることによって、優れた音声認識精度が実現できるようになりました。
 このEnd-to-End方式は、音声とテキストを直接学習させたAI処理を行うことが特徴ですが、一方で「表音文字」 (ひらがなやカタカナ、アルファベットなど) と「表意文字」 (漢字) が組み合わされる日本語特有の言語処理に対応できないことが課題でした。

 ソフトフロントホールディングスでは、日本語LLMによるEnd-to-End方式の音声認識エンジンの研究に取り組み、この度、この日本語特有の課題である、言語処理に対応した音声認識エンジンの開発に成功しました。

■従来の音声認識エンジンと比較し、人名・住所・短文において誤り率が30%以上改善
 従来のエンジンと新エンジンを比較した自社性能評価の結果、新エンジンでは平均誤り率が大幅に改善されました。特に「人名」「住所」「短文」の3シーンで、30%以上の誤り率改善※を確認できています。


※当社比、自社性能評価結果より

■ボイスボットへの搭載にあたり、自社の技術力を活かし、自然な会話を実現
 さらに、新エンジンをボイスボットに搭載するにあたり、電話応対業務にスムーズに対応すべく、下記の自社技術を活かした自然な会話を実現しています。
日本語特有の「よみ」を同時出力する技術音声認識の「東」という出力とともに、実際の発話が「あずま」か「ひがし」を出力し、ボイスボットが正しくお客様に復唱。
膨大な演算量を軽量化し、リアルタイム性を実現する技術日本語言語処理を組み合わせたLLM/End-to-End音声認識によって膨大となった演算量を、軽量化し、ボイスボットがスムーズに会話するリアルタイム性を実現。
呼量に応じて、サーバー装置を動的にスケーラブルする技術高価な演算装置 (GPU) を必要とする新エンジンのサーバーを、呼量に応じて動的に増減させ、低価格で提供。

 従来のエンジンと新エンジンの比較はこちらの動画もご覧ください。また、近日中に体験デモを公開予定です。

-->