正確な方法がわからないものを探しています。クローリングやスクラップなどの深い知識はありませんが、私が求めている技術はこれらだと思います。
- 常に監視したい約 100 の Web サイトのリストがあります。少なくとも 3 ~ 4 日に 1 回。これらの Web サイトでは、次のような論理的な一致を探します。
テキストに「ABC」が含まれていて「BCZ」が含まれていない、またはテキストに「XYZ」が含まれていて「ATM」が含まれていない、など
このツールは、次の Web サイトを調べる必要があります。
- ウェブページ
- DOC ファイル
- DOCX ファイル
- XLSファイル
- XLSX ファイル
- TXT ファイル
- RTF ファイル
- PDFファイル
- RAR および ZIP ファイル
一致は増分する必要があります(過去のX日間からの最新のものだけが必要です)
最も重要なことは、これらの 100 の Web サイトのうち、約 40 がユーザー認証を必要とすることです (私は既に取得しています)。
試合があるときはいつでもダウンロードしたい:
- ファイル
- リンク
- 日付時刻
- 試合報告
import.io などのツールで遊んでいますが、適切に行う方法がわかりません。
私が探しているテクノロジーの種類を正確に知っている人はいますか? 誰 (どのようなスペシャリスト、プログラマー) が私のためにこれを構築できますか? データクロールを理解しているプログラマーが構築するのは難しすぎますか?
長文すみません