1

正確な方法がわからないものを探しています。クローリングやスクラップなどの深い知識はありませんが、私が求めている技術はこれらだと思います。

  1. 常に監視したい約 100 の Web サイトのリストがあります。少なくとも 3 ~ 4 日に 1 回。これらの Web サイトでは、次のような論理的な一致を探します。

テキストに「ABC」が含まれていて「BCZ」が含まれていない、またはテキストに「XYZ」が含まれていて「ATM」が含まれていない、など

  1. このツールは、次の Web サイトを調べる必要があります。

    • ウェブページ
    • DOC ファイル
    • DOCX ファイル
    • XLSファイル
    • XLSX ファイル
    • TXT ファイル
    • RTF ファイル
    • PDFファイル
    • RAR および ZIP ファイル
  2. 一致は増分する必要があります(過去のX日間からの最新のものだけが必要です)

  3. 最も重要なことは、これらの 100 の Web サイトのうち、約 40 がユーザー認証を必要とすることです (私は既に取得しています)。

  4. 試合があるときはいつでもダウンロードしたい:

    • ファイル
    • リンク
    • 日付時刻
    • 試合報告

import.io などのツールで遊んでいますが、適切に行う方法がわかりません。

私が探しているテクノロジーの種類を正確に知っている人はいますか? 誰 (どのようなスペシャリスト、プログラマー) が私のためにこれを構築できますか? データクロールを理解しているプログラマーが構築するのは難しすぎますか?

長文すみません

4

1 に答える 1