0

複数の URL からリンクをスクレイピングするためのツールを作成しています。この情報を保存してから、スクレイピングされたリンクのステータスをテストします。

約 60,000 の多くのリンクをテストする必要があると予想しています。したがって、私が抱えている問題は、テストするリンクを保存する方法を決定することです。

私が考えているのは、スクレイピングする URL のテキスト ファイルを作成することです。スクレイピングする URL 用に約 40 個のテキスト ファイルを作成する必要があります (スクレイピングする URL は同じ URL で、地域化されているだけです)。

  • 大量のテキスト ファイルを作成すると、パフォーマンスの問題が発生しますか?
  • URL を配列に格納してから配列をテキスト ファイルに書き込むのが最善でしょうか、それとも URL をそのままテキスト ファイルに書き込むべきでしょうか? それとももっと良い方法がありますか?
  • テキストファイルに保存するよりも良い方法はありますか? (私はデータベースを使いたくないのですが、良いケースがあれば納得できます)
4

1 に答える 1

1

最も簡単な方法は、シリアル化を使用して情報を保存することです。たとえば、Map<String, Set<String>>URL のシリアライズ。パフォーマンスに深刻な影響を与えることなく、複数のファイルも機能するはずです。ただし、実装には少し時間がかかります

別のアプローチ - mongolabに登録し、無料アカウントを使用します。(広告ではありません。私はこのサービスが好きです) 何もインストールする必要はありません。mongo ドライバーをダウンロードするだけです。

于 2012-04-20T12:53:40.183 に答える