音声認識API「AmiVoice® API」にEnd to End採用の次世代音声認識エンジン搭載で、認識精度が向上
2025/03/26
(株)アドバンスト・メディア
~複数言語を認識できる多言語対応エンジンも追加~
株式会社アドバンスト・メディア(本社:東京都豊島区、代表取締役会長兼社長:鈴木清幸 以下、アドバンスト・メディア)は、開発者向けボイステックプラットフォーム「AmiVoice Cloud Platform(アミボイス クラウド プラットフォーム)」にて提供している、国内シェアNo.1※のAI音声認識AmiVoiceを活用した音声認識API「AmiVoice API(アミボイス エーピーアイ)」に、End to Endを採用した次世代音声認識エンジンを搭載し、3月26日(水)よりリリースします。
この度、当社ユーザーによる日本語版のEnd to Endを採用した次世代音声認識エンジンのトライアル利用において、従来のエンジンを上回る音声認識精度が高く評価され、「AmiVoice API」への正式搭載が決定しました。さらに、複数言語の話者がいる会議において、それぞれの言語を正確に音声認識しテキスト化を行いたいという要望を受け、次世代音声認識エンジンを活用した多言語対応エンジンの提供も同時に開始します。
「AmiVoice API」に新たに搭載するEnd to Endを採用した次世代音声認識エンジンは、日本語・中国語・多言語(日・英・中を単一エンジンで認識)の3つの汎用向け音声認識エンジンに対応し、それぞれリアルタイム認識・バッチ認識(音声ファイル認識)でご利用いただけます。
多言語対応エンジンは、言語ごとの音声認識エンジンの切り替えが不要で、日本語・英語・中国語の3つの言語を単一エンジンで認識し、それぞれ適切な言語でテキスト化することが可能です。これにより、国際会議など複数言語の話者が参加する会議においても、スムーズな音声認識を実現します。
End-to-Endは、音声認識エンジンの仕組みの一種です。「言語モデル」「音響モデル」「発音辞書」を活用して音声認識をする従来のハイブリッド型エンジンと比較すると、単一のニューラルネットワークで音声認識を行うシンプルな構造です。AIが最適な手法を選定し、一貫してEnd-to-Endモデル内で音声認識を行うため、認識精度の向上や処理速度の高速化が期待されています。
今後は、「AmiVoice Cloud Platform」にて提供している音声認識APIサービス「AmiVoice API Private」と音声認識開発キット 「AmiVoice SDK」も、End to Endを採用した次世代エンジンに対応していく予定です。
アドバンスト・メディアでは、引き続き音声認識技術の進化を追求し、さまざまな業界・用途でご利用いただける音声認識エンジンの開発・提供をしてまいります。
■リリース詳細はこちら
※ 出典:合同会社ecarlate「音声認識市場動向2024」音声認識ソフトウェア/クラウドサービス市場
株式会社アドバンスト・メディア(本社:東京都豊島区、代表取締役会長兼社長:鈴木清幸 以下、アドバンスト・メディア)は、開発者向けボイステックプラットフォーム「AmiVoice Cloud Platform(アミボイス クラウド プラットフォーム)」にて提供している、国内シェアNo.1※のAI音声認識AmiVoiceを活用した音声認識API「AmiVoice API(アミボイス エーピーアイ)」に、End to Endを採用した次世代音声認識エンジンを搭載し、3月26日(水)よりリリースします。
この度、当社ユーザーによる日本語版のEnd to Endを採用した次世代音声認識エンジンのトライアル利用において、従来のエンジンを上回る音声認識精度が高く評価され、「AmiVoice API」への正式搭載が決定しました。さらに、複数言語の話者がいる会議において、それぞれの言語を正確に音声認識しテキスト化を行いたいという要望を受け、次世代音声認識エンジンを活用した多言語対応エンジンの提供も同時に開始します。
「AmiVoice API」に新たに搭載するEnd to Endを採用した次世代音声認識エンジンは、日本語・中国語・多言語(日・英・中を単一エンジンで認識)の3つの汎用向け音声認識エンジンに対応し、それぞれリアルタイム認識・バッチ認識(音声ファイル認識)でご利用いただけます。
多言語対応エンジンは、言語ごとの音声認識エンジンの切り替えが不要で、日本語・英語・中国語の3つの言語を単一エンジンで認識し、それぞれ適切な言語でテキスト化することが可能です。これにより、国際会議など複数言語の話者が参加する会議においても、スムーズな音声認識を実現します。
End-to-Endは、音声認識エンジンの仕組みの一種です。「言語モデル」「音響モデル」「発音辞書」を活用して音声認識をする従来のハイブリッド型エンジンと比較すると、単一のニューラルネットワークで音声認識を行うシンプルな構造です。AIが最適な手法を選定し、一貫してEnd-to-Endモデル内で音声認識を行うため、認識精度の向上や処理速度の高速化が期待されています。
今後は、「AmiVoice Cloud Platform」にて提供している音声認識APIサービス「AmiVoice API Private」と音声認識開発キット 「AmiVoice SDK」も、End to Endを採用した次世代エンジンに対応していく予定です。
アドバンスト・メディアでは、引き続き音声認識技術の進化を追求し、さまざまな業界・用途でご利用いただける音声認識エンジンの開発・提供をしてまいります。
■リリース詳細はこちら
※ 出典:合同会社ecarlate「音声認識市場動向2024」音声認識ソフトウェア/クラウドサービス市場
