私は電化製品のカタログを持っています。Title、Mfg Part Nr、UPCなどのフィールド/列のSQL DBにそれらがあります。次に、Amazonなどの電子製品をリストする外部Webサイトをクロールします。ほとんどの場合、これにより HTML テキストが生成されますが、たとえばタイトルはわかります。この HTML テキスト(外部 Web サイトの Web ページの結果) が、所有している製品を説明しているかどうかを比較する必要があります。
私は、この比較が正確ではないことを理解しています。つまり、これが 100% の確率で修正されるとは思っていません。とにかくこれを行うことはありますか?
完全な例を提供することは困難ですが、比較対象を 2 つの製品のタイトルのみに限定してみましょう。
私が持っているタイトル: Motorola Talkabout MH230R Portable - 双方向ラジオ - FRS/GMRS 22 チャンネル - 黄色 (3 パック)
Amazon のタイトル: Motorola MH230TPR Giant 充電式双方向ラジオ 3 パック、FRS/GMRS
これらは同じ製品を表します。これらが類似/同じかどうかを判断する方法はありますか? 単純なテキスト比較では不十分です。
この問題を処理するためのツールがあれば、それは素晴らしいことです。そうでない場合は、この分野をさらに調査するために使用できるアルゴリズムまたはいくつかのポインターをいただければ幸いです。
私は C# と Java を知っています。画像を比較して最適なポイントを見つける際に、数値解析、特に逆伝播法と遺伝的アルゴリズムに関連して、AI/ニューラル ネットワークを少し使用しました。ただし、テキストデータを処理する方法がわかりません。
この質問が不明確な場合はお知らせください。説明を明確にするよう努めます。皆さん、ありがとうございました。