ドキュメントのキーワードをチェックし、キーワードが含まれる html ドキュメント ノードを指定するスクリプトを作成したいと考えています (おそらく一意の識別子を割り当てます)。
私はプロのプログラマーではなく、低水準言語の強みや PLO などのことを知りません。非常に悪いことやサポートされていないことをするのが怖いです。
目的のノードを分離するにはどうすればよいですか?
私の経験 - js と php - php は非常に単純なもののみです。また、js ノードを操作する機会を利用したくありません。私の考え:
- htmlの文字列を作る
- ページ上の単語の存在を確認する
- ページ上の単語が存在する場合: body 要素の foreach ノードの最初と最後の位置を取得します (たとえば、最初に位置を知っている各文字の開始タグが表示されるため、タグが開始された最初の位置と閉じられた最後の位置を計算します。すべてのノードについても同様です)。
単語の位置 (例: 192、199) を把握し、それが取得した範囲 (この場合、これらのバンド - ノード html ドキュメント) をチェックします。
経験豊富なプログラマーからのアイデアが必要です。プログラミングしている言語は関係ありません (Web 指向を除く)。すべての意見が私にとって重要です。このような問題を解決するライブラリが存在する可能性があります。あなたが私を理解してくれることを願っています。英語は私の母国語ではありません。