4

Lucene/Hadoop ( http://mail-archives .apache.org/mod_mbox/lucene-java-user/ )。(Apache) メーリング リスト アーカイブ用にカスタマイズされたクローラー/ダウンローダーを特に探しています (Scrappy などの一般的なクローラーではありません)。どんな指針も高く評価されます。ありがとうございました。

4

1 に答える 1

10

通常、mbox ファイルをダウンロードするための機能があります。あなたが提供したリンクでは、たとえば、mbox 名を追加して、メール アーカイブを直接取得できます。例、2012 年 10 月の mbox:

http://mail-archives.apache.org/mod_mbox/lucene-java-user/201210.mbox

したがって、アーカイブをプログラムで取得するのは非常に簡単です。それらを取得したら:

import mailbox
mails = mailbox.mbox(filename.mbox)
for message in mails: print message['subject']
于 2012-10-27T06:47:41.553 に答える