自動文字起こしの精度は?Googleドキュメントの音声入力と比較検証

会議の議事録やインタビューの文字起こしをされた経験はあるでしょうか。

簡単な作業だと思って始めたら、タイピングのスピードが思った以上に間に合わなかったり、聞き取りにくい部分を何度も聞き直したりすることになり、思った以上に時間がかかってしまったということはないでしょうか。

そんなときの強い味方となるのが、自動文字起こしサービスです。

今回は自動文字起こしサービス「SACSCRIBE」の精度を複数の音源で使い、精度を検証してみたいと思います。

 

検証の音源データについて

検証には夏目漱石「吾輩は猫である」の冒頭を朗読したものを用いました。

  1. 静かな部屋で普通に録音したもの
  2. レコーダーをポケットに入れて録音したもの
  3. TVをつけ、雑音がある状態で録音したもの

音源にはこの3パターンを用意しました。

1は良好な録音状態のモデルを想定しています。

2は発言者がマスクをしていたり、離れたところで話しているために声がくぐもっている状態を想定しています。

3は頻繁に人が動き回っているオフィスや、カフェなどざわざわした空間で録音した時を想定しています。

 

「SACSCRIBE」と、頻繁に使われる無料ソフト「Googleドキュメント」の音声入力機能を用いて書き起こした文章で文字起こしを行いました。

 

元文章

 吾輩は猫である。名前はまだ無い。

 どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕つかまえて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始めであろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶だ。その後猫にもだいぶ逢ったがこんな片輪には一度も出会した事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙けむりを吹く。どうも咽せぽくて実に弱った。これが人間の飲む煙草というものである事はようやくこの頃知った。

引用:青空文庫「吾輩は猫である」(夏目漱石)

この全文を1分15秒程度で読み上げた音声データを検証に用いました。

 

1. 静かな部屋で普通に録音したもの

まずは一番精度が高くなるであろう、静かな部屋で普通に録音した音源を使用しました。

SACSCRIBE

吾輩は猫である名前はまだないどこで生まれたか担当検討を扱う何でも薄暗いじめじめしたところで試合に穴が開いていたことだけは記憶している我が輩はここで初めて人間というものを見たしかもなどで聞くとソレは書生という人間中で一番道はこの種族であったそうだこの書生というのは時々我々を捕まえて似てくるという話であるしかしその当時は何?という考えもなかったから別段恐ろしいとも思わなかったまた彼の手のひらに乗せられてずっと持ち上げられたときなんだかふわふわした感じがあったばかりである手のひらの上で少し落ち着いて不正の顔を見たのがいわゆる人間というものも見始めであろうこの時のようなものだと思った感じが今でも残っている第一期を持って装飾されるべきはずの顔がつるつるしてまるで夜間だその子ネコにもだいぶあったがこんな片側には一生も出くわしたことがないのみならず顔の真ん中あわりに時しているそうしてこの穴の中時々クープ決まり洋服どうもむせっぽくて父に終わったこれが人間の飲むたばこというものであることはようやくこの頃知った

句読点がなく読みにくい印象で、「ニャーニャー鳴いていた」が「試合に穴が開いていた」に変換されていたりと妙なミスも目立ちますが、文章の抜け漏れなどはないようです。

 

Google音声入力

吾輩は猫である名前はまだないどこで生まれたかととんと見当は付か何でも薄暗いじめじめした所でニャーニャー鳴いていた事だけは記憶している吾輩はここで初めて人間というものを見たしかも後で聞くとそれは女性という人間中で一番道はこの種族だったそうだこの女性というのは時々我々を捕まえて煮て食うという話であるしかしその当時は何という考えもなかったからいつでも恐ろしいと思わなかったただ彼の掌に乗せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである手のひらの上で少し落ち着いて女性の顔を見たのがいわゆる人間という間に始めであろうほど奇妙なものだと思った感じが今でも残っている第1期を守って装飾されるべきはずの顔がつるつるしてあんだこの子にもだいぶあったがそんな方には一度も出くわしたこと都内のみならず顔の真ん中があまりに突起しているそしてその穴の中時々マリオ服どうも息子で実に困ったこれが人間のものタバコというものであることはようやくこの頃知った 

句読点はありませんが、精度が高く、読みやすい印象を受けます。

ひとりで話した時の自動音声入力の精度はGoogleに軍配が上がりそうです。

 

2. レコーダーをポケットに入れて録音したもの

次はレコーダーをポケットに入れて録音したもので自動音声入力を試しました。

モゴモゴと音がくぐもっている上に、ポケットの中なのでゴソゴソという衣ずれの音もかなり混じっています。

 

SACSCRIBE

分のところにある名前はまだないどこで生まれたからとんと見当が付かないね何?でも薄暗いじめじめしたところでみんな泣いていたことだけは記憶しているのは灰はここで初めて人間ていうものだったしかもあって聞くとソレは書生という年中でする本当の不足だったそうの女性というのは時々我々を捕まえてみてくれという話であるしかしその当時は考えなかったからって男とも思わないやっぱりお金ぐらいにされてずっと持って言われた時なんだ僕はした感じがあったばかりであるこの日やの上で少し落ち着いて姿勢なのはいわゆる人っていうのは君だこの時のようなものだと思った感じが今でも残っている大事件を持って装飾されるべきはずの顔がつるつるしてあれでやったんだこの猫にもだいぶがたがこんな方はにはいつでも出くわしたことはないそうならず顔の真ん中あまり毒気しているそうしてそのから時々部と煙をドームセッコク実に良かったこれがに飲むたばこというものであることはこの子を予約した。

音声がくぐもっているため、かなり文字起こしの精度が落ちている印象を受けます。

 

Google音声入力 

おはよう猫である名前はまだないどこで生まれたのかとんと見当がつかぬ何でも薄暗いじめじめした所でニャンニャン泣いていたことだけは記憶している吾輩はここで始めて人間というものを見たしかもあとで聞くとそれは所詮と言う人間中で一番同枠な種族であったそうだこの書生というのは時々われわれをつかまえて煮て食うという話であるしかしその当時は何と言う考えはなかったから明日も忙しいとは思わなかったただ彼を開いて開いて数と間違えた時なんだかふわふわした感じがあったばかりであるこの膝の上で少し落ち着いた所生和香ちゃんのいわゆる人間と言うものが一だろうこの時ようなもんだと思った感じが今でも残っている大地家を持って装飾されるべきはずの顔がツルツルした。家神田その後横にもらいはあったがそんな方はには1度も出くわした事は無いのみならず

こちらもさきほどよりは精度が落ちていますが、読める範囲と言えるでしょう。

ただ問題なのが、途中で音声データが途切れています。大きめの衣ずれの音が入ったせいか、自動入力が自動で止まってしまったようです。

これは大きな減点ポイント。ポケットに入れた状態では、引き分けといったところでしょう。

 

3. TVをつけ、雑音がある状態で録音したもの

最後はTVをつけ、雑音がある状態で録音した音声を使って自動文字起こしを行いました。

TVの音量はかなり大きく、話している内容が読み上げ音声にかぶってはっきりと聞き取れる状態で、普通に耳で聞いても気が散って聞き取りにくいほどのものを使いました。

 

SACSCRIBE

吾輩は猫である名前はまだないどこで生まれだから本当均等は使うな何?でも薄暗いじめじめした道で親に開いていたことだから記憶している吾輩はここで初めて人間ていうものを見たしかも後で聞くとソレは守勢という人間の中で一番トワークなし毒であったそうだこの書生というのは時々我々をつかまえて聞いてくれという話であるしかしその当時は何?という考えもなかったから別段恐ろしいとも思わなかったただそれでも手のひらに乗せられて数とも伝えられたときなんだかふわふわした感じがあったばかりである手のひらの上で少し落ち着いでしょそういうの顔を見たのがいわゆる人間っていうの源である並列なもんだと思った感じが今でも残っています第一期を持って装飾される揮発の活発流布して安全なんだその意向にもだいぶあったからそんな方がないなって思って暮らしたことがそんなこんな真ん中が上がりの時しているそしてこのあのーなんかどきどきキャンプ無理を拭くどういうも先輩だって自信に終わったこれが人間の事嫁のであることは予約されました

かなり精度は落ちていますが、なんとか最初から最後まで音声入力できています。

TVの音声もかなり大きかったはずですが、こちらはまったく拾っていません。

一見デタラメなようですが、「ソレは守勢という人間の中で一番トワークなし毒であったそうだ」が「それは書生という人間の中で一番獰悪な種族であったそうだ」に対応していたりと、もとの文面を知っていればなんとか予想することができます。音声を耳で聴きながら文字起こしをする補助としては、なんとか使えそうです。

 

Google音声入力

猫である名前はどこで生まれたかとんと見当がつかなんでも薄暗いじめじめした所で聞いた事だけは記憶しているが初めて見たしかも後で聞くとそれは女性というで一番得な種族がいるというのは我々を捕まえてみてしかしその当時は何という考え方

Google音声入力の方は、TVの音に混乱したのか途中で停止してしまいました。

Googleの音声入力では、複数の話者が同時に話したりすると止まるエラーがあるようです。ほかにも途中でしばらく音声が途切れたり、ひとりの話者が長々と話していると、途中で入力が停止するエラーがあるようです。

TVがついているなど、ザワザワした状況ではSACSCRIBEに軍配が上がりました。

 

総評

ひとりの話者が話す場合は、Googleドキュメントの音声入力の方がリアルタイムで入力でき、精度も高く、利便性がいいといえるでしょう。

しかし会議など複数人が話し合っている場合や、音声が小さい場合では、勝手に途中で入力が止まるという最悪の事態を招く恐れがあります。

 

SACSCRIBEのいいところは、最後まで確実に文字起こしができることといえます。どれほど音声が悪くても、とにかく何かしらの文字としては出してくれます。これが文字起こしをするときは大切になってきます。

意味不明瞭になっている、変換が間違っているものは、文字起こしをする時に見ればわかります。しかし抜けや漏れがあるのは、出来上がった文章を見ただけではまったくわかりません。

SACSCRIBEは発言が不明瞭でも、なにかしらの文字として上げてくれます。意味がわからない文字列になっていたとしても、そこに何かしらの文言があると分かれば対処のしようがあります。抜け漏れを未然に防いでくれるのが大きな利点であるといえます。

 

手元にメモがないときのメモがわりにするならGoogleの音声入力をそのまま、複数人の会議の議事録を作るならSACSCRIBEを文字起こしの補助として使うのがおすすめといえます。

 

クラウド文字起こしプラットフォーム【SACSCRIBE】

SACSCRIBEで面倒な文字起こしを時短しませんか?

AI文字起こしサービス「SACSCRIBE」は今なら初回1時間無料でお試しできます。

無料で1時間文字起こしを体験する