仕事で議事録を頼まれた、講演会の記録を残したい、インタビュー原稿を作りたい、動画の字幕をつけたいなど、さまざまな理由で使われる「文字起こし」。
自分で文章を考える必要がないので、一見簡単な仕事に見えますが、実際にやってみるとかなり大変な作業です。
そんな時に役立つのが「文字起こしに使えるAI」です。今回は「リアルタイムで文字起こしができるAI」2つ、「音声・動画から文字起こしできるAI」4つを実際に使い、その料金や精度、使用感を比較してみました。
文字起こしAIは2種類ある
文字起こしのAIには、リアルタイムで文字起こしをするものと、既にデータとして存在している音源や動画から文字起こしをしてくれるもの、2種類あります。用途に応じて選んでください。
リアルタイム文字起こし
- ちょっとしたメモがわり
- パソコンを持ち込める会議やセミナーでの議事録作成
リアルタイム文字起こしは、主にパソコンや集音マイクを持ち込めるシーンで活躍します。ひとりでメモがわりに使ったり、軽いインタビューくらいならスマートフォンも活用できます。
音声・動画データからの文字起こし
- パソコンが持ち込めず、テープレコーダーだけ持ち込める会議やセミナーの議事録作成
- 過去に録音した音源から文字起こしがしたい場合
- ZOOM会議の文字起こし
- 動画コンテンツに字幕をつけるための補助的利用
リアルタイムでなくていい分、音声・データからの文字起こしの方が利用できる幅が広いです。ただ、リアルタイムの文字起こしに比べてノイズが混じりやすく、精度が落ちる場合が多いようです。
検証に用いた音源
5種類のAIの精度を比較するため、それぞれの媒体で「東京の天気予報」の原稿を読み上げ、精度を比較してみました。
読み上げ原稿
けさの東京地方は、冬型の気圧配置で、強い寒気に覆われています。
午前7時30分までの最低気温は、都心でマイナス0.5℃、練馬区でマイナス1.8℃、府中市でマイナス2.4℃、八王子ではマイナス0.9℃まで下がり、久しぶりに強い冷え込みになりました。
きょう日中も寒気の影響で気温があまり上がらず、都心の最高気温は、きのうより4℃ほど低い9℃くらいにとどまりそうです。暖かくして、お過ごし下さい。
空気が乾燥していますので、火の元や火の取扱いにも、ご注意ください。
お部屋の加湿にも心がけましょう。
上の文面をできるだけハキハキと、50秒程度で読み上げました。
リアルタイム文字起こしができるAI2選
リアルタイム文字起こし用のAIとしてよく用いられる「Googleドキュメント」と「Word」の音声入力を紹介します。
Googleドキュメントの音声入力
Googleのアカウントをお持ちの方なら誰でも使える文章入力ソフト「Googleドキュメント」に、音声入力機能がついています。
使い方も非常に簡単で、メニューの「ツール」から「音声入力」を選択するだけ。クリックするとマイクのアイコンが表示されるので、クリックすると音声入力が開始されます。
Googleドキュメントの音声入力精度
今朝も東京地方は冬型の気圧配置で強い寒気に覆われています午前7時30分までの最低気温は都心で-0.5°練馬区で-1.8°府中市で-2.4°八王子では-0.9°まで下がり久しぶりに強い冷え込みになりました今日日中も寒気の影響で気温があまり上がらず都心の最高気温は昨日より4度ほど低いほどぐらいに止まりそうです暖かくしてお過ごしください空気が乾燥していますので日の本家火の取り扱いにご注意くださいお部屋の加湿にも心がけましょう
かなりの精度です。今回紹介する中では堂々の1位といっていいでしょう。
周りに雑音が多い時は自動入力が勝手に止まってしまうトラブルが起こることもありますが、話者が1人の場合や数名のインタビュー形式の音声では、最高の精度で文字起こしをしてくれます。
Googleドキュメントの音声入力の料金
無料
Googleドキュメントの音声入力の使用感
パソコンでもスマートフォンアプリでも同じように使用でき、しかも精度が高いので、とても使いやすいです。
Wordの音声入力
ビジネスマンにはおなじみのソフト、Microsoft Word。買い切りのOffice 365とWeb版の2タイプありますが、どちらでも音声入力が可能になっています。
こちらも操作は簡単で、メニューの「ディクテーション」をクリックするだけで音声入力開始になります。
Wordの音声入力精度
けさの東京地方は冬型の気圧配置でしい換気におわれています 午前7時30分迄の最低気温は都心で-0.5°練馬区で-1.8°府中市で-2.4°八王子では-0.9°まで下がり久しぶりにしい冷え込みになりました 今日日中も寒気の影響で気温があまり上がらず都心の最高気温は昨日より4°ほど低い9°ぐらいにとどまりそうです暖かくしてお過ごしください 空気が乾燥していますので日本や火の取り扱いにもご注意くださいお部屋の加湿にも心がけましょう
漢字や記号のの変換ミスはあるものの、なかなかの精度です。
Wordの音声入力の料金
無料
Wordの音声入力の使用感
特に「メニュー」を開く必要もなく、開いたその場にマイクの形をしたボタンがあるので、とても使いやすい印象です。スマートフォンアプリの「Word」からも同様に音声入力ができます。
音声・動画から文字起こしするAI4選
音声・動画から文字起こしができるAIでは、Googleの「Cloud Speech-to-Text」、Amazonの「amazon transcribe」、IBSの「Watson Speech to Text」、Microsoftの「Speech to Text」の4つを紹介します。
Cloud Speech-to-Text(Google)
今回はSpeach-to-Textのデモ版を利用して文字起こしを行いました。
Cloud Speech-to-Textの文字起こし精度
今朝の東京地方は冬型の気圧配置で強い寒気に覆われています午前7時30分までの最低気温は都心で-0.5°練馬区で-1.8摂氏温度府中市でマイナス2.4摂氏温度八王子では-0.9°まで下がり、久しぶりに強い冷え込みになりました。
今日日中も寒気の影響で気温があまり上がらず都心の最高気温は昨日より4度ほど低いことぐらいに終わりそうです暖かくしてお過ごしください空気が乾燥していますので日の本家火の取り扱いにもご注意くださいお部屋の加湿にも心がけましょう
とても高い精度で文字起こしができました。
Cloud Speech-to-Textの料金
無料枠 1ヶ月あたり60分
超過すると、15秒あたり0.006USD
Cloud Speech-to-Textの使用感
デモ版ならその場ですぐに文字起こしできて便利なのですが、正規版がとにかく使いづらいです。
あらかじめ音声ファイルを別サービスのストレージファイルにUPしておく必要があったり、文字変換する前にコードを利用する場面があったりと、かなりの手間がかかります。一般向けではなく技術者向けのツールといえそうです。
amazon transcribe(Amazon)
Amazonが行っているサービス、「amazon transcribe」。AWS(amazon web servis)に登録することで使える様になります。
amazon transcribeの文字起こし精度
黄 さん を 東京 地方 は 冬型 の 気圧 配置 で 強い 歓喜 に 覆わ れ て い ます 午前 七 時 三 十 分 まで の 最低 気温 は 都心 で マイナス 零 五 度、 練馬 区 で マイナス 一 八戸 府中 市 で マイナス に 四 度。 八王子 で は マイナス 零 九 度 まで 下がり 久しぶり に 強い 冷え込み に なり まし た 今日 日 中 も 歓喜 の 影響 で 気温 が あまり 上がら ず 都心 の 最高 気温 は 昨日 より 四 度 ほど 低い 九 度 ぐらい えーっと と 終わり そう です 暖かく し て お 過ごし ください 空気 が 乾燥 し て い ます ので 日本 や 火 の 取り扱い に も ご 注意 ください お 部屋 の 加湿 に も 心 ガキ 魔性
今までの物に比べ、少し精度が落ちた印象です。半角スペースがたくさん入っているのが気になったり、「けさの」が「黄さんを」に変換されていたりと不思議な変換が目立ちますが、じゅうぶん手直しして使える範囲です。
amazon transcribeの料金
無料枠 1ヶ月あたり60分
超過すると、1秒あたり0.0004USD
amazon transcribeの使用感
今回紹介した録音・録画からの文字起こしAIの中では一番使いやすいですが、あらかじめ別サービスのストレージボックスに音声ファイルをアップロードしておく必要があったり、説明が全文英語になったりする場面があったりで、使いづらさを感じます。
料金設定も「円」ではなくすべて「USD」で表示されています。
Watson Speech to Text(IBS)
IBSの文字起こしソフト、「Watson Speech to Text」。
こちらも英語表記になっている部分が多く、コードを扱わなければならない場面もあり、Cloud Speech-to-Textと同様技術者向けと考えていいでしょう。
精度はCloud Speech-to-Textと同程度ですが、一般人が扱うのはなかなか大変な印象です。
Watson Speech to Textの料金
無料評価版 1ヶ月あたり10,000字
標準プラン 1000字あたり$0.02 USD
Speech to Text(Microsoft)
Microsoftの文字起こしAI「Speech to Text」。現在はブラウザ上で扱えますが、ファイル形式が.wavしか使えなかったり、マニュアルの日本語が怪しかったりと、なかなか不便です。
いずれはMicrosoft Wordの機能のひとつとして実装予定とのことです。
Speech to Textの精度
前述した「Wordの音声入力」と同程度で、なかなかの高精度です。
Speech to Textの料金
公式サイトには「1 か月あたり 5 音声時間は無料」と表記されています。
全て日本語表記のSACSCRIBE
前述の4つのAIは、英語表記が多かったり、プログラミングの知識がないと動かせなかったりと、不便さが目立ちます。
全てきちんとした日本語表記で、編集画面もシンプルで直感的に使いやすいクラウド文字起こしプラットフォーム「SACSCRIBE」もぜひお試しください。
料金は初めてご利用になる方は1時間まで無料、超過すると35円/分になります。
文字起こしにAIを使って、文字起こしを簡略化しよう
リアルタイム文字起こしAIは高性能のものが多く、話した内容がほぼそのまま原稿にできる精度を誇ります。無料でハイクオリティのものが使えるのも嬉しいです。
音声・動画から文字起こしをする文字起こしAIは、日本語対応できるソフトが出たのがごく最近であり、まだまだ発展途上の技術であるといえそうです。高精度でもソフトの使用感が悪かったり、かなりの手直しを要する精度のものがまだまだ多い状態です。
議事録やインタビュー原稿の作成、動画の字幕つけなど、意外に必要になることが多い技術「文字起こし」。どんどん進化している技術なので、これからの動向に注目が集まりそうです。