テープ起こしは非常に時間がかかる作業のため、音声認識を利用した作業の効率化が進んでいます。
しかし、音声認識に対して、「精度が低く使い物にならない。」と考えている人も多くいます。
そこで今回は、本当に音声認識の精度は低いのかについて、身近に使われている音声認識を挙げながら解説します。
テープ起こしに使われる音声認識とは
ここでは、音声認識とはどのような技術なのか、身近な例を交えて解説します。
身近に使われている音声認識
音声認識は人が発した言葉を、AIが自動で認識してテキストに変換する技術のことです。
何やら難しそうに感じるかもしれませんが、実は音声認識は身近なものにも使われています。
例えば、iPhoneの「Siri」やAndroidの「Googleアシスタント」は、もっとも身近にある音声認識と言えます。これらは、「タイマーを5分に設定して。」と呼びかけると、自動で声を認識してタイマーを設定してくれるなど、声だけでスマートフォンを操作可能です。
また、ソフトバンクが販売しているロボット「Pepper(ペッパーくん)」にも音声認識が搭載されています。
Pepperは教育現場や各種店舗、介護など幅広い現場に設置されています。話しかけられた言葉を認識して、予約受付や案内などその場に応じた会話を繰り広げます。
その他にも、外国人と話をするときに使用する「翻訳アプリ」、コールセンターでの会話を文字で記録するシステムなど、多くのシーンで音声技術は活躍しています。
テープ起こしに使われる音声認識
いろいろな場面で使用される音声認識ですが、テープ起こしは特に音声認識の需要が高い作業です。
テープ起こしアプリに搭載されている音声認識自体は、他の用途で使用されている音声認識と同じような技術ですが、テープ起こしに特化した機能があることが特徴です。
例えば、音声を認識してテキストにするだけでなく、話者を認識してテープ起こしができるアプリがあります。
話者の区別ができないと、二人が挨拶をした場面の音声データは以下のようにテープ起こしされます。
「こんにちは。こんにちは。」
話者を区別してテープ起こしができるアプリは、以下のようになります。
「Aさん:こんにちは。」
「Bさん:こんにちは。」
話者区別機能は、人数の多い会議や講演会のテープ起こしをする際に役に立つ機能です。
その他にも、外国語を自動で日本語に翻訳してテキストにする機能や、アプリ上でテキストを編集できる機能など、テープ起こしの音声認識は独自の進化をしています。
自動でテープ起こしができる音声認識アプリ
音声認識を利用したテープ起こしアプリは数多く提供されていて、その機能や価格もさまざまです。ここでは、主なテープ起こしアプリを紹介します。
Googleドキュメント
無料で利用できるGoogleドキュメントは、「音声入力」という機能を利用してテープ起こしができます。
無料で利用できるため、その分機能はシンプルです。基本的には、認識した言葉をそのままテキストにするだけで、話者の認識や句読点の入力などには対応していません。
テープ起こしの作業量が少なく、無料でテープ起こしをしたいという方におすすめです。
SACSCRIBE
SACSCRIBEはクラウド型のテープ起こしサービスです。
クラウド型のため外出先で録音した音声データをスマートフォンからテープ起こしをスタートして、自宅に戻ったらパソコンですぐに編集を始めるということもできます。
パソコンのブラウザ上で音声のアップロードから編集・校正、データの保管まで完結できるので、アプリをダウンロードする必要が無いことも特徴の一つです。
会議の議事録作成やインタビュー記事の作成など、幅広い用途で使用できます。
Texter
Texterは、iPhoneでのテープ起こしに特化したアプリです。
音声からのテープ起こしはもちろんのこと、画像や動画などからもテープ起こしができます。
iPhoneアプリならではの機能として、テープ起こしをしたテキストをSlackへの自動投稿などSNS投稿が簡単になります。フリック入力よりも素早く入力できるので、Twitterなどへの投稿頻度が高い方におすすめです。
テープ起こしに使われる音声認識の精度は?
テープ起こしをする際に気になるのが、音声認識の精度ではないでしょうか。
せっかく音声認識を利用してテープ起こしをしても、誤字脱字が多くて修正に時間がかかり過ぎてしまうのでは意味がありません。
実際に一昔前までは「音声認識は精度が低くて使い物にならない。」と言われていました。
しかし、技術の進歩により最近は急速に音声認識の精度が上がっています。例えば、2017年にMicrosoftが発表した内容によると、同社の音声認識システムの単語誤り率が5.1%に達しました。
この5.1%という数値は、プロの速記者に匹敵するレベルであり、テープ起こしとして使用する場合に修正にほとんど手間がかからなくなります。
スマートフォンなどの音声認識を利用している方は、数年前と比べて認識精度の向上を体感しているのではないでしょうか。
テープ起こしの精度は音声認識技術だけでなく、録音の環境にも影響されます。
音声データに雑音が入っていたり、複数の人が同時に発言していたりすると、テープ起こしの精度が下がります。
そのため、音声認識の精度を上げるために、外部マイクで録音する・静かな環境を準備する、など録音状態に配慮することが大切です。
まとめ
音声認識は人が話す声をテキストに自動変換する技術であり、スマートフォンやテープ起こしアプリなど身近なシーンで利用されています。
テープ起こしの音声認識は、話者を区別してテキストにするなど独自の機能が盛り込まれています。
数年前と比べると音声認識の精度は格段に向上しているため、修正の手間が削減でき、使い勝手の良いアプリに変化しました。
テープ起こしに時間を取られている方は、一度試してみてはいかがでしょうか。