python - Python から Tumblr 投稿のすべてのメモを表示するにはどうすればよいですか?

Question

score 7 · Accepted Answer

残念ながら、Tumblr API にはいくつかの制限 (リブログに関するメタ情報の欠如、メモが 50 までに制限されている) があるようで、すべてのメモを取得することはできません。

利用規約により、ページのスクレイピングを行うことも禁止されています。

「サービスへのアクセス中またはサービスの使用中に、次のことを行うことはできません。(...) サービスをスクレイピングし、特に、Tumblr の明示的な事前の書面による同意なしに、サービスからコンテンツ (以下に定義) をスクレイピングすること。」

ソース：

score 5 · Accepted Answer

JS を使用しないと、メモのみを含む別のページが表示されます。上記のブログ投稿の場合、最初のページは次のようになります。

http://ronbarak.tumblr.com/notes/40692813320/4Y70Zzacy

次のページは下部にリンクされています。

これで、さまざまなツールを使用してデータをダウンロード/解析できるようになりました。

次の wget コマンドは、その投稿のすべてのメモページをダウンロードする必要があります。

wget --recursive --domains=ronbarak.tumblr.com --include-directories=notes http://ronbarak.tumblr.com/notes/40692813320/4Y70Zzacy

score 3 · Accepted Answer

Fabio が示唆するように、API を使用することをお勧めします。

なんらかの理由でそれができない場合、使用するツールは、投稿内のデータで何をしたいかによって異なります。

Tumblr の URL スキームは単純です: url/scheme/1、url/scheme/2、url/scheme/3 など... 投稿の最後に到達し、サーバーがデータを返さなくなるまで。

したがって、強引にスクレイピングを行う場合は、コンテンツタグなどのデータが空になるまで、ハードドライブ上のすべてのデータをダンプするようスクリプトに簡単に指示できます。

最後のアドバイスとして、Tumblr サーバーに負荷をかける可能性があるため、スクリプトに小さなスリープ (1000) を入れることを忘れないでください。

score 0 · Accepted Answer

tumblrにすべてのメモをロードする方法は? もトピックをカバーしていますが、 unor の応答 (上記) は非常にうまく機能しています。

4 に答える 4