この PHP コードで示されているように ( http://code.google.com/p/gdata-samples/source/browse/trunk/doclist/OCRDemo/ocr.php?r=194 )
自動的にテキストに変換される画像を Google ドキュメントにアップロードできます。Pythonでこれを行う方法を考えています。「アップロード」方法がありますが、OCR機能を有効にする方法がわかりません。
この PHP コードで示されているように ( http://code.google.com/p/gdata-samples/source/browse/trunk/doclist/OCRDemo/ocr.php?r=194 )
自動的にテキストに変換される画像を Google ドキュメントにアップロードできます。Pythonでこれを行う方法を考えています。「アップロード」方法がありますが、OCR機能を有効にする方法がわかりません。
ここから始めたと仮定します: http ://code.google.com/apis/documents/docs/3.0/developers_guide_python.html
認証client
されたオブジェクトがすでに作成されています。
f = open('/path/to/your/test.pdf')
ms = gdata.data.MediaSource(file_handle=f, content_type='application/pdf', content_length=os.path.getsize(f.name))
folder = "https://docs.google.com/feeds/default/private/full" # folder in google docs.
entry = client.Upload(ms, f.name, folder_or_uri= folder + '?ocr=true') # ?ocr=true is the kicker
末尾のパラメーターでfolder_or_uriを指定する?ocr=true
と、変換が発生します。
作成後、txtドキュメントとしてエクスポートできるようになりました。