複数の URL からリンクをスクレイピングするためのツールを作成しています。この情報を保存してから、スクレイピングされたリンクのステータスをテストします。
約 60,000 の多くのリンクをテストする必要があると予想しています。したがって、私が抱えている問題は、テストするリンクを保存する方法を決定することです。
私が考えているのは、スクレイピングする URL のテキスト ファイルを作成することです。スクレイピングする URL 用に約 40 個のテキスト ファイルを作成する必要があります (スクレイピングする URL は同じ URL で、地域化されているだけです)。
- 大量のテキスト ファイルを作成すると、パフォーマンスの問題が発生しますか?
- URL を配列に格納してから配列をテキスト ファイルに書き込むのが最善でしょうか、それとも URL をそのままテキスト ファイルに書き込むべきでしょうか? それとももっと良い方法がありますか?
- テキストファイルに保存するよりも良い方法はありますか? (私はデータベースを使いたくないのですが、良いケースがあれば納得できます)