Google Drive_画像認識で文字抽出

2018年5月24日

前回の記事で音声認識による文字の書き起こしから翻訳まで行える「リアルタイム字幕、翻訳の今」を記載しました。
今回は画像認識でも同様なことが行えるので、そちらについて簡単にまとめました。

 

Google Drive

Google Driveとはオンラインストレージサービスで、15GBまでは無料で写真や資料などを保管できます。

 Google Drive

この機能の一つに保存した画像やPDFなどの文字を識別し、テキストとして抽出してくれる機能があります。

手順はGoogle Driveにアクセスし、文字を抽出したい画像をアップロードします。
その後、下記画像のように対象のファイルを右クリックして「Googleドキュメント」を使用して開きます。

 

これで画像を開くと画像の下に、文字認識をして抽出したテキストが表示されます。これにより、例えば「Google翻訳」にコピーして貼り付ければ簡単に訳すことができます。

 

今回の説明では画像から始まりましたが、これの便利なことは紙媒体などの資料しかないときでも利用できることです。
紙媒体の資料を一度写真などで画像としてコンピュータに読み込むことで、上記説明した機能を利用し、簡単に文字として書き起こすことができます。これにより、書き写すための相当な時間や労力を減らすことができます。

 

また「Google Keep」というメモアプリでも画像から文字を抽出することができます。

 

OCR(Optical Character Recognition/Reader

今回の技術はOCRという昔から研究されていた技術になります。
OCR(光学的文字認識)とは、手書きや印刷された文字を識別し、コンピュータが利用できるデジタルの文字コードに変換する技術のことになります。
それがディープラーニングなどによって、精度が上がってきました。AIやディープラーニングに興味があれば「AI」を参照してください。

 

開発者向けの話にはなりますが、これらの技術を利用することができます。下記に参考記事をあげておきます。

 Google Cloud Vision
  「Google Cloud Vision APIのOCR(画像認識)を検証する
 Microsoft Cognitive Services「Computer Vision API」
  「Microsoft Cognitive ServicesのOCR API を試す(Computer Vision API)

【2018/5/25追記】
実際に「Computer Vision API」を利用して文字抽出機能を作成しました。

 「画像から文字抽出するチャットボット作ってみた

 

上手くこれらの機能を補助ツールとして利用することで、より効率的な作業を行っていけますね。

今回は画像認識からの文字抽出について、まとめました。
音声認識からは前回記事の「リアルタイム字幕、翻訳の今」を参考にしてください。

【2018/5/24追記】
同じような機能のある「改めて注目される「Office Lens」とは」の記事を追加しました。