半規則的な形式のドキュメントのセットがあります。行は通常、改行文字で区切られ、各行の主要コンポーネントはスペースで区切られます。いくつかの例は、家具の組み立て手順のセット、目次のセット、レシピのセット、および銀行取引明細書のセットです。
問題は、各セットの各標本が、正規表現の解析を実行不可能にする方法でピアメンバーと異なることです。アイテムの数量がアイテム名の前後に来る可能性があり、同じアイテムが標本間で異なる名前を持つ可能性があります。行の間にメモが存在する場合などがあります。
分類子(ニューラルネット、ベイジアン、GA、GP)を使用して、ドキュメント全体またはデータセットを処理しましたが、ドキュメントからアイテムを抽出してコンテキスト内で分類することはしませんでした。これはできますか?より実行可能なアプローチはありますか?