「Canon D1000 4MP Camera 2X Zoom LCD」のような非構造化製品タイトルを のような構造化データに解析しようとしています{brand: canon, model number: d1000, lens: 4MP zoom: 2X, display type: LCD}
。
これまでのところ、私は持っています:
- ストップワードを削除し、クリーンアップしました (のような文字を削除します
-
;
:
/
) - 長い文字列を単語にトークン化します。
どんなテクニック/ライブラリ/メソッド/アルゴリズムも大歓迎です!
編集: 製品タイトルにはヒューリスティックはありません。売り手はタイトルとして何でも入力できます。例: 「Canon D1000」は単にタイトルにすることができます。また、この演習はカメラ データセットだけでなく、タイトルはどの製品でもかまいません。