4

私は電化製品のカタログを持っています。Title、Mfg Part Nr、UPCなどのフィールド/列のSQL DBにそれらがあります。次に、Amazonなどの電子製品をリストする外部Webサイトをクロールします。ほとんどの場合、これにより HTML テキストが生成されますが、たとえばタイトルはわかります。この HTML テキスト(外部 Web サイトの Web ページの結果) が、所有している製品を説明しているかどうかを比較する必要があります。

私は、この比較が正確ではないことを理解しています。つまり、これが 100% の確率で修正されるとは思っていません。とにかくこれを行うことはありますか?

完全な例を提供することは困難ですが、比較対象を 2 つの製品のタイトルのみに限定してみましょう。

私が持っているタイトル: Motorola Talkabout MH230R Portable - 双方向ラジオ - FRS/GMRS 22 チャンネル - 黄色 (3 パック)

Amazon のタイトル: Motorola MH230TPR Giant 充電式双方向ラジオ 3 パック、FRS/GMRS

これらは同じ製品を表します。これらが類似/同じかどうかを判断する方法はありますか? 単純なテキスト比較では不十分です。

この問題を処理するためのツールがあれば、それは素晴らしいことです。そうでない場合は、この分野をさらに調査するために使用できるアルゴリズムまたはいくつかのポインターをいただければ幸いです。

私は C# と Java を知っています。画像を比較して最適なポイントを見つける際に、数値解析、特に逆伝播法と遺伝的アルゴリズムに関連して、AI/ニューラル ネットワークを少し使用しました。ただし、テキストデータを処理する方法がわかりません。

この質問が不明確な場合はお知らせください。説明を明確にするよう努めます。皆さん、ありがとうございました。

4

1 に答える 1

1

もちろん、文字列内のテキストの類似性と距離測定を処理するアルゴリズムはたくさんあります (それらの短いリストについては、ウィキペディアを参照してください)。その問題に具体的にアプローチするためのいくつかのアイデアを次に示します。

  • ブランド名で辞書を設定し、2 つの製品文字列が同じブランド名を共有している場合、全体的な類似度関数でそれを重視します。
  • より長い数が一致する場合、高い類似値を与えます。
  • ハイフンなどを取り除く方法で入力テキスト文字列を正規化します。
  • 複数の類似度を使用します。

通常、一般的なアプローチを使用する代わりに、そのような文字列に関する知識を記述したコードに組み込むことができれば、より良い結果が得られます...しかし、AI /ニューラルネットのバックグラウンドから来ているので...何を見つけることができますか入力文字列の有用な記述子を生成すると、機械学習技術によって文字列が類似します。そのためには、すでに正しく割り当てられた一致する製品文字列の十分に大きなベースが必要です。

しかし、おそらくあなたは非常に単純なものが必要ですか?次に、agrepを調べます

于 2013-05-06T17:22:45.390 に答える