-2

私はいくつかの自動車のウェブサイトをクロールし、これらのサイトから情報を抽出しようとしました。次の情報が必要です-Vin、走行距離、価格、場所。正規表現のアプローチを試しましたが、抽出するWebサイトが約20000あるため、拡張できません。抽出のために機械学習を試してみたいです。

いくつかのコンテキスト:私がダウンロードしたすべてのWebページにはvinsがあります。それを見つけるために正規表現を使用しました。一部のWebページでは、価格は次の単語のいずれかとして表されます-価格、市場価格、eprice、インターネット価格、MSRP。値引きされた価格テキストがいくつかあり、割引の場合と同様に別のより低い価格が提供されています。私のプログラムではこれを考慮し、線引きされた価格を無視して他の価格を考慮してください。マイレージは、マイレージまたはマイルとして表されます。

ラッパー誘導を使用することを考えましたが、Webサイトがサイトのテンプレートを変更した場合、そのアプローチは機能しないことを読んでください。さらに、そのアプローチでは、Webサイトごとのパターンごとに分類器をトレーニングするのに時間がかかります。

それで、ウェブページから価格マイレージと場所を抽出するためにどのようなアプローチまたはアルゴリズムを使用する必要がありますか。

4

2 に答える 2

1

HTMLサイトを解析するさまざまな方法があります。

  1. 正規表現を使用できます

  2. XPathを使用してコンテンツを選択することもできます

  3. ただし、最善の方法はHTMLAgilityPackを使用することです。

HTMLの敏捷性の例:

var doc = new HtmlWeb().Load(url);
var comments = doc.Descendants("div")
                  .Where(div => div.GetAttributeValue("class", "") == "comment");

ここでは、C#を介してHTMLフィールドを解析するためのさまざまな方法の概要を見つけることができます(例を含む)

于 2012-05-31T11:51:21.343 に答える
0

HtmlAgilityPackをご覧ください。HTML を解析し、CSS セレクターを使用して必要な情報を抽出することができます。これにより、Web サイトのデザインや構造の変更に対するコードの回復力が向上する可能性があります。

于 2012-05-31T11:48:42.513 に答える