レストランのメニューに関する情報を抽出して構造化することに興味があります。必要なのは、メニューからフォームの項目を抽出することですcategory / name / price
たとえば、次のWeb サイトがあります。ここには飲み物のセクションがあり、いくつかのアイテムがあります。そのWebサイトについて、抽出できるようにしたい
Drink / Cappuccino / € 1,50
SANDWICHES / filled sandwich, pistolet (round roll) or emperor roll / € 1,30
etc ...
もちろん、このサイトだけに限ったことではありません。
それを処理するために私が見ることができる唯一の方法は、たくさんの正規表現を適用することですが、可能なすべての料理名をリストすることは現実的ではないと思います.
トピックが広すぎて質問できないことは承知していますが、関連する記事や書籍への提案や参照は大歓迎です。