0

組織のユーザーがさまざまな目的で 10 以上のサイトを使用するのではなく、1 つのサイトのみを使用できる単一の累積的な Web アプリケーションを構築したいと考えています。私の組織には、出席、アカウント、HR などのさまざまなサイトがあります。これらすべてのサイトをクロールしたいと考えています。 、データを読み取り、c# を使用して sqlserver に保存すると、ユーザーはシステムからそのデータを直接使用/検索できます。

How would that work?
What tools/libraries can/should I use?
Are there good tutorials on that?
How do I best deal with binary data (e.g. images)?
Are there already good solutions for that?
4

1 に答える 1

0

問題が発生した場合に進む道。私はそれを試みることはありません。次の課題を検討してください。

  • 適切に形成されているかどうかに関係なく、HTMLを解析する必要があります
  • データには、あらゆる種類の非データ (広告、ナビゲーション、ホバー テキスト、JavaScript、コメントなど) が散在している可能性があります。
  • データの年齢がわからない
  • 特定のサイトの HTML の形式は日ごとに変化する可能性があり、以前のスクレイピング戦略が崩れる可能性があります
  • 重要な情報は、承認手順を満たした後にのみアクセスされるページに存在する可能性があります
  • 以前は 1 つの URL に存在していたデータが移動され、現在は別の URL に存在しているか、複数の異なる URL に分割されている可能性があります。
  • 一部のデータは、特定の検索パラメーターが入力された場合、または特定のユーザーがログインしている場合にのみ検出される場合があります
  • サイトのユーザーは、他のサイトから取得したデータを表示する権限がない (?) 可能性があります

データ ウェアハウスを構築し、これらのシステムのプロバイダーと協力して、ルート データベースからデータ フィードにアクセスすることをお勧めします (ただし、REST URL、ダイレクト SQL、Web サービス、夜間のデータ ダンプなど)。ETL を使用して、これらのシステムの背後にある生のデータベースからデータを抽出、変換、およびロードします。

于 2013-06-10T04:38:25.563 に答える