0

レストランのメニューに関する情報を抽出して構造化することに興味があります。必要なのは、メニューからフォームの項目を抽出することですcategory / name / price

たとえば、次のWeb サイトがあります。ここには飲み物のセクションがあり、いくつかのアイテムがあります。そのWebサイトについて、抽出できるようにしたい

Drink / Cappuccino / € 1,50
SANDWICHES / filled sandwich, pistolet (round roll) or emperor roll / € 1,30
etc ...

もちろん、このサイトだけに限ったことではありません。

それを処理するために私が見ることができる唯一の方法は、たくさんの正規表現を適用することですが、可能なすべての料理名をリストすることは現実的ではないと思います.

トピックが広すぎて質問できないことは承知していますが、関連する記事や書籍への提案や参照は大歓迎です。

4

1 に答える 1

0

これはかなり可能性のようです。すべての可能な料理をリストすることはできませんが、可能なすべてのカテゴリをリストすることはできます

すべてのメニューで、カテゴリ名の後に料理名が続き、価格が続くと仮定すると、料理名を特定できます。

アルゴリズムは次のようになります。

foreach(category: category_list):
    foreach(word:document):    
        if(category == word):
            dish = Read next(if data is structures with table read next row or col)
            price = Read next and check it format to see if its Currency or a price

ポイントは、さまざまな Web サイトを分析して、情報がどのように構造化されているかを理解し、考えられるすべての構造を処理するアルゴリズムを準備する必要があるということです。

于 2014-01-24T07:39:44.020 に答える