python - Python を使用して、Google ドキュメントからプレーンテキストを読み取るにはどうすればよいですか?

Question

Pythonスクリプト内からGoogleドキュメントの生のテキスト/コンテンツ（スプレッドシートやプレゼンテーションではなく、単なるドキュメント）を読み込もうとしていますが、これまでのところほとんど成功していません.

これが私が試したことです：

import gdata.docs.service
client = gdata.docs.service.DocsService()
client.ClientLogin('email', 'password')
q = gdata.docs.service.DocumentQuery()
q.AddNamedFolder('email', 'Folder Name')
feed = client.Query(q.ToUri())
doc = feed.entry[0] # extract one of the documents

ただし、gdata.docs.DocumentListEntry 型のこの変数 doc にはコンテンツが含まれていないようで、ドキュメントに関するメタ情報のみが含まれています。

ここで何か間違ったことをしていますか？誰かが私を正しい方向に向けることができますか? ありがとうございました！

score 2 · Accepted Answer

ADocumentQueryは、すべてのドキュメントとその内容を返すわけではありません。これには永遠に時間がかかります。それぞれに関するメタデータを含むドキュメントのリストを返すだけです。（実際、IIRCではこの方法でプレビューページを取得できるため、ドキュメントが1ページしかない場合は十分かもしれません…）

次に、別のリクエストでコンテンツをダウンロードする必要があります。content要素には（typeMIMEタイプ）とsrc（実際のデータへのURL）があります。それをダウンロードしてsrc解析するだけです。ただし、パラメータを追加することでデフォルトのタイプをオーバーライドできるexportFormatため、解析を行う必要はありません。

ドキュメントをダウンロードして形式を指定する方法を示す例がある、ドキュメント内のドキュメントとファイルのダウンロードのセクションを参照してください。（Pythonではなく.NETであり、プレーンテキストではなくHTMLを使用しますが、理解できるはずです。）

python - Python を使用して、Google ドキュメントからプレーン テキストを読み取るにはどうすればよいですか?

2 に答える 2

Related

Reference

python - Python を使用して、Google ドキュメントからプレーンテキストを読み取るにはどうすればよいですか?