私はいくつかの自動車のウェブサイトをクロールし、これらのサイトから情報を抽出しようとしました。次の情報が必要です-Vin、走行距離、価格、場所。正規表現のアプローチを試しましたが、抽出するWebサイトが約20000あるため、拡張できません。抽出のために機械学習を試してみたいです。
いくつかのコンテキスト:私がダウンロードしたすべてのWebページにはvinsがあります。それを見つけるために正規表現を使用しました。一部のWebページでは、価格は次の単語のいずれかとして表されます-価格、市場価格、eprice、インターネット価格、MSRP。値引きされた価格テキストがいくつかあり、割引の場合と同様に別のより低い価格が提供されています。私のプログラムではこれを考慮し、線引きされた価格を無視して他の価格を考慮してください。マイレージは、マイレージまたはマイルとして表されます。
ラッパー誘導を使用することを考えましたが、Webサイトがサイトのテンプレートを変更した場合、そのアプローチは機能しないことを読んでください。さらに、そのアプローチでは、Webサイトごとのパターンごとに分類器をトレーニングするのに時間がかかります。
それで、ウェブページから価格マイレージと場所を抽出するためにどのようなアプローチまたはアルゴリズムを使用する必要がありますか。