物事のいくつかの説明を含むリストがあるとします。説明は、カンマ区切りの単語で構成されます。例として次のリストを見てみましょう (各行は個別の説明です)。
white, leather, round
black, plastic, rectangular
wood, rectangular, brown
...
それらを次の構造に解析したい: (色、素材、形状)
最初の 2 つの説明は、構造に直接マッピングできます。しかし、3人目はできませんでした。値は、材料、形状、色の順序が異なるためです。
実際の問題は、このような不規則なエントリをどのように検出して解析するかということです。
それぞれの単語がどの部分を表しているかを何らかの方法で検出する必要があると思います。しかし、どこから、どのように始めればよいかさえわかりません。また、ヒント、アルゴリズム、および論文(関連するアルゴリズムに関する)も本当に感謝しています。
編集:既知の固定語彙がないことを忘れて申し訳ありません。そして、異なるカテゴリに同じ単語が存在する可能性があります。しかし、おそらく私が見逃したと思う最も重要なことは、ほとんどのエントリが定期的であることです。ですから、それを何らかの形で使用して辞書を作成できると思います。