11

「Canon D1000 4MP Camera 2X Zoom LCD」のような非構造化製品タイトルを のような構造化データに解析しようとしています{brand: canon, model number: d1000, lens: 4MP zoom: 2X, display type: LCD}

これまでのところ、私は持っています:

  1. ストップワードを削除し、クリーンアップしました (のような文字を削除します- ; : /)
  2. 長い文字列を単語にトークン化します。

どんなテクニック/ライブラリ/メソッド/アルゴリズムも大歓迎です!

編集: 製品タイトルにはヒューリスティックはありません。売り手はタイトルとして何でも入力できます。例: 「Canon D1000」は単にタイトルにすることができます。また、この演習はカメラ データセットだけでなく、タイトルはどの製品でもかまいません。

4

5 に答える 5

1

タイトルのみを取得している場合 (Amazon 製品など)、これを文として表示し、順次ラベル付けを検討できます。

属性が指定されているか不明であるか (属性はブランド、モデルなど) に応じて、いくつかの問題があります。

1: これが与えられたものである場合、問題は「簡単」であり、「順次ラベル付け」方法を使用して解決できます。メソッドには、CRF (条件付きランダム フィールド) とマルコフ モデル (HMM、MEMM など) が含まれます。

2: そうでない場合は、解析 (依存関係解析、完全解析) と同じ方法で (属性、値) ペアを抽出する必要があります。しかし、事前に属性に関する知識がほとんどないため、これが実現可能かどうか疑問に思っています。もう 1 つの可能性は、多くの外部情報 (レビューと製品の説明のいずれか) が与えられると、それらの属性を把握し、タイトルからペアを抽出できる可能性があるということです。元。レビューで「ブランド」と「キヤノン」の相関関係をたくさん見つけて、どこかのカメラでタイトルから「キヤノン」という単語を見つけると、これが「ブランド」の価値であることがわかります。

于 2013-08-28T20:23:25.750 に答える
0

このようなフリー テキストを解析するには、ニューラル ネットワークを使用するとより成功する可能性がありますが、プレーン テキストの解析だけでは失敗します。単語の多くは、ユーザーが持っていないコンテキストを必要とするためです。

ただし、達成したい精度のレベルによっては、部分的な解決策を考え出すことができます (その後、人間による後処理が必要になります)。または、入力に少なくとも最小限の構造を強制します (製品名は常に特定のパターンに従わなければならないなど)。このようにして、残りの入力を理解するのに十分なコンテキスト情報を提供する製品をより適切に特定できるため、より良いスタートを切ることができます.

100% の解決策は絶対にありません (ニューラル ネットワークを使用しても) と思います。

于 2013-08-29T07:20:56.177 に答える