私の最終的な目標は、Google サイトのページからいくつかのデータをインポートすることです。gdata-python-client (v2.0.17) を使用して特定のコンテンツ フィードをダウンロードしようとしています。
self.client = gdata.sites.client.SitesClient(source=SOURCE_APP_NAME)
self.client.client_login(USERNAME, PASSWORD, source=SOURCE_APP_NAME, service=self.client.auth_service)
self.client.site = SITE
self.client.domain = DOMAIN
uri = '%s?path=%s' % (self.client.MakeContentFeedUri(), '[PAGE PATH]')
feed = self.client.GetContentFeed(uri=uri)
entry = feed.entry[0]
...
結果の entry.content には、xhtml 形式のページ コンテンツが含まれます。しかし、このツリーには、ページのプラン テキスト データは含まれていません。HTMLページ構造とリンクのみ。
たとえば、私のテストページには
<div>Some text</div>
ContentFeed エントリには、 text=Noneのdivノードのみがあります。
gdata-python-client リクエスト/レスポンスをデバッグし、サーバーからの解決されたデータを raw バッファでチェックしました - コンテンツ内のプラン テキスト データ。したがって、これは Google API のバグです。
いくつかの回避策があるかもしれませんか?一般的なリクエストパラメータを使用できますか? ここで何がうまくいかないのですか?