artificial-intelligence - ウェブサイトのコンテンツをクロールすることで、ウェブサイトのコンポーネントをプログラムで判断できますか?

Question

ウェブサイトのコンテンツをクロールすることで、ウェブサイトのコンポーネントをプログラムで判断できますか?

これはちょっと不可能に思えることは理解していますが、コードでは何でも可能だと思います。Web サイトのすべてのデータをクロールした場合に、その Web サイトの個々のコンポーネントを判断できるアイデアに基づいてブレインストーミングを試みています。

などのコンポーネントの決定に関心があります。たとえば、e コマース Web サイトの場合、決定または識別したいもの: 1. ログイン URL 2. 登録 URL 3. ダッシュボード URL 4. 注文 URL を追加 5. ショッピングカート URL 6 .ログアウトURLなど

1. セッション、Cookie、メタデータ、2. バックリンク (内部および外部) 3. ページ内のフォーム、ページ内のフィールドなど

どんなアイデアや指針も大いに役に立ちます。

score 1 · Accepted Answer

ドメインをクロールすることで、生のHTML結果を取得できます。そして、あなたのURLに質問があります：はい、あなたはログイン、登録などを決定することができます。URLは、いくつかの実験で設計できるシステムによって、URLとHTML要素に従って決定されます。

オンラインショップからの贈り物の写真や価格などをクロールして、それは実行可能でした。相対性ポイントを与えました。たとえば、価格の場合、テキストに「価格」が含まれていると2ポイント、「$」または「€」が含まれていると3ポイントになります。データを実験する必要があると言っています。私が知っているように、フォームやJavascript行などを取得でき、それらも試すことができます。

Javaを使用する場合は、 Crawler4jを使用することをお勧めします。Apache Nutchも優れています。プロファイルの質問から、「生のhtmlをNutchで保存する」に関する情報を得ることができますが、これは非常に大きなプロジェクトであり、状況に応じて、これらすべてに対処する価値はないと思います。

artificial-intelligence - ウェブサイトのコンテンツをクロールすることで、ウェブサイトのコンポーネントをプログラムで判断できますか?

1 に答える 1

Related

Reference