parsing - HTML ページからスマートに情報を抽出するにはどうすればよいですか?

Question

私は、任意の Web サイトから多かれ少なかれ重要な情報を抽出できるものを構築しています。たとえば、マクドナルドのページをクロールして、マクドナルドの開店時間と閉店時間をプログラムで把握したい場合、それを行うための賢い方法は何ですか?

一般的なケースでは、マクドナルドが手羽先を販売しているかどうか、またはマクドナルドの住所も知りたいと思うかもしれません。

私が考えているのはtime、、wings、およびの特定のケースがaddressあり、これらの 3 つのケースのそれぞれに固有のコードがあるということです。

しかし、どうすればこれにアプローチできるかわかりません。サイトをクロールし、HTML と関連情報を既に JSON に解析しています。私の現在のアプローチは、タグを見つけて、タグにやなどのキーワードが含まれているかどうかを確認するようなものです。にtitleそれらが含まれている場合は、現在のページを調べて、アドレスに似たコンテンツのチャンクを特定します。または内部という言葉を含む都市、国、またはコンテンツ。titleaddresslocationtitlekey wordsStStreet

重要なデータを探すためのより良いアプローチがあるかどうか疑問に思っています. または、これについて読むべき良い記事があるとしても、同様に素晴らしいでしょう.

これが不明な場合はお知らせください。

助けてくれてありがとう。

parsing - HTML ページからスマートに情報を抽出するにはどうすればよいですか?

1 に答える 1

Related

Reference