python - gdata-python-client を使用して Google サイトページのコンテンツフィードをダウンロードする

Question

私の最終的な目標は、Google サイトのページからいくつかのデータをインポートすることです。gdata-python-client (v2.0.17) を使用して特定のコンテンツフィードをダウンロードしようとしています。

self.client = gdata.sites.client.SitesClient(source=SOURCE_APP_NAME)
self.client.client_login(USERNAME, PASSWORD, source=SOURCE_APP_NAME, service=self.client.auth_service)     
self.client.site = SITE
self.client.domain = DOMAIN

uri = '%s?path=%s' % (self.client.MakeContentFeedUri(), '[PAGE PATH]')
feed = self.client.GetContentFeed(uri=uri)
entry = feed.entry[0]
...

結果の entry.content には、xhtml 形式のページコンテンツが含まれます。しかし、このツリーには、ページのプランテキストデータは含まれていません。HTMLページ構造とリンクのみ。

たとえば、私のテストページには

 <div>Some text</div>

ContentFeed エントリには、 text=Noneのdivノードのみがあります。

gdata-python-client リクエスト/レスポンスをデバッグし、サーバーからの解決されたデータを raw バッファでチェックしました - コンテンツ内のプランテキストデータ。したがって、これは Google API のバグです。

いくつかの回避策があるかもしれませんか？一般的なリクエストパラメータを使用できますか? ここで何がうまくいかないのですか？

score 0 · Accepted Answer

このコードは、Google Apps ドメインと gdata 2.0.17 に対して機能します。

import atom.data
import gdata.sites.client
import gdata.sites.data

client = gdata.sites.client.SitesClient(source='yourCo-yourAppName-v1', site='examplesite', domain='example.com')
client.ClientLogin('admin@example.com', 'examplepassword', client.source);

uri = '%s?path=%s' % (client.MakeContentFeedUri(), '/home')
feed = client.GetContentFeed(uri=uri)
entry = feed.entry[0]
print entry

与えられたものはあなたのものとほとんど同じですが、何かを証明または反証するのに役立つかもしれません. 幸運を！

python - gdata-python-client を使用して Google サイト ページのコンテンツ フィードをダウンロードする

1 に答える 1

Related

Reference

python - gdata-python-client を使用して Google サイトページのコンテンツフィードをダウンロードする