リアルタイム字幕、翻訳の今

先日、会議で他の言語で話されるため、何を言っているのか理解するのが大変だというお話を聞きました。学習している英語でさえもビジネスや専門用語が出てきたり、早い会話では聞き取れなかったり、理解することは難しいです。

ただ現在はリアルタイムですぐに話した言葉を自動で文章化してくれたり、またそれをさらに翻訳してくれる機能など実用として既にあります。
今回は音声認識機能を利用したシステムについて、簡単にいくつかまとめます。
画像認識機能を利用したシステムについては「Google Drive_画像認識で文字抽出」を参考にしてみてください。

 

UDトーク

本来は聴覚障害者のために作成したアプリです。一般利用であれば、無料で使用することができます。

 UDトーク

ちょうど良い記事があったので、参考にしてみてください。

 会話が見える! 世界最速の「リアルタイム字幕」にびっくり

 

Microsoft Translator

プレゼンテーションをするときにMicrosoftのPowerPointを使用して行うことが多いのではないでしょうか。そのPowerPointにもリアルタイムで字幕、翻訳する機能が追加できるようになっています。PowerPointに記載されている文字も翻訳してくれます。

 Presentation Translator

その他にも、Skypeなど様々なアプリで利用できるようになってきています。

 

 

 

あとはMacになってしまいますが「SoundFlower」という無料ソフトで、PC内での音を録音する方法もあります。それに「Google Docs」などを併用して、自動で文字を起こすことなどもできます。

音声認識に関しましては、だいぶ精度が上がってきましたので、様々な方法で利用することができるようになっています。
しかし100%とまではいきません。それは上記のUDトークの記事にも記載されていますが、単語だけでは複数の意味が取れてしまい、どれが最善の意味か判断できないことがあります。アナウンサーのように主語があり、文法も正しければ、文章の前後関係などから認識できる可能性が高いですが、単語のみを急に発せられた場合、機械はその場のディスカッションの議題など人間が本来無意識に考慮することまでは把握しきれないので、識別することは難しいです。
そのため、英語の自動翻訳など発展していますが、英語自体のニュアンスや微妙なずれをケアするために、英語自体の学習などの必要性は失われないと考えています。これ自体は話が逸れてしまいますが、別記事の「英語の必要性」にも違う観点からも記載していますので、気になる方は見てください。
補助ツールとしてこれらの機能を上手く利用していければ良いですね。

 

今回は音声からの認識、翻訳機能について、簡単にまとめました。
しかしそれ以外にも画像からでも自動で文字を書き起こすことが可能です。それについては次の別記事「Google Drive_画像認識で文字抽出」にまとめましたので、宜しければ、ご覧ください。