私は、オンラインにある数万ページの政府データ (数千のフォルダーにある) を集めて、すべてを 1 つのファイルにまとめたいと考えています。プロセスを高速化するために、まずサイトをハード ドライブにダウンロードしてから、アネモネ + ノコギリなどでクロールすることにしました。政府サイトのオンライン URL でサンプル コードを試したところ、すべて正常に動作しましたが、URL をローカル ファイル パスに変更すると、コードは実行されますが、何も出力されません。コードは次のとおりです。
url="file:///C:/2011/index.html"
Anemone.crawl(url) do |anemone|
titles = []
anemone.on_every_page { |page| titles.push page.doc.at
('title').inner_html rescue nil }
anemone.after_crawl { puts titles.compact }
end
そのため、ローカル ファイル名では何も出力されませんが、対応するオンライン URL をプラグインすると正常に動作します。Anemone はどうにかしてローカル ディレクトリ構造をクロールできませんか? そうでない場合、このクロール/スクレイピングを行うための他の提案された方法はありますか?それとも、サイトのオンライン バージョンで Anemone を実行するだけでよいでしょうか? ありがとう。