人が話した声を認識して、テキストに変換する音声認識。文字起こしや検索など、さまざまな場面で使用されています。
音声認識に力を入れている企業の一つにGoogleが挙げられますが、どのようなサービスを展開しているのか知らない人も多いのではないでしょうか。
今回は、Gppgleの音声認識の概要や、どのような機能があるのかなどを解説します。
Googleの音声認識サービスとは?
Googleの音声認識サービスは、「Speech-To-Text」という名称で展開されています。
Speech-To-Textは、膨大な音声データをAIが学習して、文字起こしの精度が日々向上しています。
普段から音声認識サービスを利用している人は、一昔前と比べて精度の向上を実感しているのではないでしょうか。
Speech-To-Textは、音声ファイルだけでなくマイクから入力される音声の文字起こしも可能です。
Googleの音声認識は、Androidの「Googleアシスタント」にも使われているので、身近にある存在と言えるでしょう。
Googleの音声認識サービスの機能
Googleの音声認識は、複数の学習モデルやオフラインでの使用など、さまざまな機能があります。
ここでは、Googleの音声認識サービスの機能を紹介します。
複数の学習モデルから選択できる
- Speech-To-Textは、使用する環境に合わせてトレーニングされた学習モデルを選択可能です。学習モデルには次のようなものがあります。
- 動画:複数の話者が存在する動画やポッドキャストなどに向いている
- 通話:電話を利用した通話の文字起こし向け
- ASR(コマンドと検索):音声検索などの短い音声向け
- 医療ディクテーション:医療専門家の指示の文字起こし向け
- 医療会話:医療従事者と患者の会話向け
さまざまな環境に対応した学習モデルがあるため、各分野において精度の高い文字起こしが可能です。
オフラインで使用できる
Speech-To-TextはGoogle Cloud Platformのサービスですが、インターネット接続に関係なく、デバイス上でローカルに実行できます。
音声データが外部に送信されることもないので、セキュリティ面でも安心です。
複数の言語に対応している
Speech-To-Textは世界110以上の言語や方言に対応していて、日本語に翻訳しながらの文字起こしも可能です。
Speech-To-Textは世界中で使用されていて、膨大なデータが集まるため、日本語だけでなく各国の言語も正確に文字起こしできます。
今後、より音声認識サービスが発展すれば、外国語を学ぶ必要は無くなるかもしれません。
Googleの音声認識の沿革
Googleの音声認識は、2007年にサービスが提供された「GOOG-411」から始まりました。
GOOG-411は、レストランやショップなどの名前を伝えると、AIが自動で電話を繋いでくれます。
現在はサービスが終了していますが、Googleの音声認識の基礎になったことは間違いありません。
2008年には、モバイル用音声検索アプリが提供されました。音声検索アプリはスマートフォンだけでなく、Webブラウザの「Chrome」でも使用可能。
移動中で文字の入力が難しい場面など、音声入力を活用する機会が飛躍的に増えました。
日本では2009年に「Google音声検索」が開始され、徐々に市場に浸透していきました。
その後もGoogleの音声認識は進化を続け、YouTubeの自動キャプションや会話式音声検索など、さまざまなサービスに活用されています。
音声認識サービスをビジネスに活用しよう
音声認識サービスは、コールセンターや医療現場・会議の議事録作成など、さまざまなビジネスで使用されています。
しかし、GoogleのSpeech-To-Textは、プログラムを組んでカスタムして使用するのが基本です。そのため、プログラミングの知識を持っていないと、機能を活用できません。
そのため、音声認識を利用するには、一般向けに開発されたサービスを利用しましょう。
AI文字起こしサービスの「SACSCRIBE(サクスクライブ)」は、直感的に操作できるUIで、誰でも簡単に使用可能です。
クラウド上で利用するサービスなので、スマートフォンやPCなどから音声データをアップロードするだけで、すぐに文字起こしが完了します。
句読点の自動入力や豊富なショートカットキーにより、作業効率が飛躍的に向上します。初回は1時間分の音声を、無料で文字起こしできるのも嬉しいポイント。
進化を続ける音声認識サービスをビジネスに活用して、日々の仕事を効率化させてください。