c# - Web サイトをクロールする方法/データベース C# および SQLSERVER にデータを抽出する方法

Question

組織のユーザーがさまざまな目的で 10 以上のサイトを使用するのではなく、1 つのサイトのみを使用できる単一の累積的な Web アプリケーションを構築したいと考えています。私の組織には、出席、アカウント、HR などのさまざまなサイトがあります。これらすべてのサイトをクロールしたいと考えています。、データを読み取り、c# を使用して sqlserver に保存すると、ユーザーはシステムからそのデータを直接使用/検索できます。

How would that work?
What tools/libraries can/should I use?
Are there good tutorials on that?
How do I best deal with binary data (e.g. images)?
Are there already good solutions for that?

score 0 · Accepted Answer

問題が発生した場合に進む道。私はそれを試みることはありません。次の課題を検討してください。

適切に形成されているかどうかに関係なく、HTMLを解析する必要があります
データには、あらゆる種類の非データ (広告、ナビゲーション、ホバーテキスト、JavaScript、コメントなど) が散在している可能性があります。
データの年齢がわからない
特定のサイトの HTML の形式は日ごとに変化する可能性があり、以前のスクレイピング戦略が崩れる可能性があります
重要な情報は、承認手順を満たした後にのみアクセスされるページに存在する可能性があります
以前は 1 つの URL に存在していたデータが移動され、現在は別の URL に存在しているか、複数の異なる URL に分割されている可能性があります。
一部のデータは、特定の検索パラメーターが入力された場合、または特定のユーザーがログインしている場合にのみ検出される場合があります
サイトのユーザーは、他のサイトから取得したデータを表示する権限がない (?) 可能性があります

データウェアハウスを構築し、これらのシステムのプロバイダーと協力して、ルートデータベースからデータフィードにアクセスすることをお勧めします (ただし、REST URL、ダイレクト SQL、Web サービス、夜間のデータダンプなど)。ETL を使用して、これらのシステムの背後にある生のデータベースからデータを抽出、変換、およびロードします。

c# - Web サイトをクロールする方法/データベース C# および SQLSERVER にデータを抽出する方法

1 に答える 1

Related

Reference