私は、任意の Web サイトから多かれ少なかれ重要な情報を抽出できるものを構築しています。たとえば、マクドナルドのページをクロールして、マクドナルドの開店時間と閉店時間をプログラムで把握したい場合、それを行うための賢い方法は何ですか?
一般的なケースでは、マクドナルドが手羽先を販売しているかどうか、またはマクドナルドの住所も知りたいと思うかもしれません。
私が考えているのはtime
、 、wings
、およびの特定のケースがaddress
あり、これらの 3 つのケースのそれぞれに固有のコードがあるということです。
しかし、どうすればこれにアプローチできるかわかりません。サイトをクロールし、HTML と関連情報を既に JSON に解析しています。私の現在のアプローチは、タグを見つけて、タグに や などのキーワードが含まれているかどうかを確認するようなものです。にtitle
それらが含まれている場合は、現在のページを調べて、アドレスに似たコンテンツのチャンクを特定します。または内部という言葉を含む都市、国、またはコンテンツ。title
address
location
title
key words
St
Street
重要なデータを探すためのより良いアプローチがあるかどうか疑問に思っています. または、これについて読むべき良い記事があるとしても、同様に素晴らしいでしょう.
これが不明な場合はお知らせください。
助けてくれてありがとう。