Google Docsでの音声入力機能を試してみた

ここ数年、音声を認識して文字にしてくれる音声入力機能が、どんどん実用的になっています。

短い文章であれば、意外と間違いなく認識してくれるケースも多いです。

ですが、少し長い文章になると、話者の話し方、アクセント、文章の語彙などで認識しきれない部分があり、まだパーフェクトになるには話者・ソフトウェア側双方の慣れ、精度向上が必要と感じます。

また、Wordも新しいバージョンではディクテーション機能に対応したようですが、見たところ日本語での聞き取り機能はないようです。

それでは、音声認識をすることを意識した、ゆっくりめの、区切りをつけた話し方で音声入力を行うと、どうなるのでしょうか。

Google Docsに、専用のマイクを使わず、ノートPC内蔵のマイクに直接話しかけながら認識させると、このような文章になります。

Google ドッグドッグスやバードなど最近の新しいアプリでは音声認識機能が備わっています改行これはマイクに向かって話した言葉をそのままグーグルドックスやワードに入力してくれる機能です改行ただこの機能がどれぐらい必要になるのかという点ではまだ認識の精度も含めて100%ではないというのは現状です改行しかし認識の精度自体は年々向上しておりある程度のレベルで言葉を認識してくれるレベルには来ていますこれが Google ドッグスの音声入力のテストの結果です

点や丸、改行のところをうまく入れていなかったので、読みにくかったり、改行の言葉がそのまま残っていたりしますが、数年前と比べると精度は向上しているなと感じます。

ただ、通常の話し言葉ではなく、機会に言葉を認識させる感覚で話さないと、認識精度は落ちます。

少し早口で、機械の音声認識であることを意識せずにしゃべったばあい

後で抜根 Google 認識とか認識してあまり考えずに適当に喋ってこれを日本語してくれるかって言ったらあんまり的が日本語にならない理由で親とやっぱり機械翻訳を意識して話さないといけないと言うなんとか村独特の曲を掴むことをしないとちゃんとその音声認識機能を使って日本語に訳すのはまだまだとかぬと感じかなと思う

・・・・と、まったく意味不明の文章ですよね。

もともとの大意としてはこうでした。

あと、Ｇｏｏｇｌｅ認識を、（音声）認識としてあまり考えずに、これを日本語にしてくれるかというと、あまり（適切な）日本語にならない。利用時にはやはり機械翻訳を意識して（くせのない文章を）話さないといけないし、なんというか独特のくせをつかむことをしないと、ちゃんと音声認識機能を使って日本語に訳すのはまだまだかなと感じる。

これを、話し言葉で速めのスピードでしゃべった結果、上記のような結果になったわけです。

特にGoogle Docsの場合は、クラウド上で音声を日本語化する処理をおこなっているようなので、認識精度の進化はまだこれからも進むと思います。