-1

Webリッパーを使用して、クライアントサイトから情報を取得し、求人サイトに投稿しています。私が抱えている問題は、年のモデルとメーカーがすべて1つのラインにあり、それらを分離する必要があるということです。

例2005アキュラMDXツーリング私は4つの別々のフィールドにそれを持っている必要があります

  • 2005年
  • アキュラを作る
  • モデルmdx
  • スタイルツーリング

Webリッパーを使用してコンテンツ変換で正規表現コードを使用できます

だから私が入力すると

  • \w+ 2005年になります
  • \w(?<!\d)[\w'-]* アキュラをゲット

私が必要とし、大いに感謝するのは、3番目の単語と4番目の単語を取得するための適切な正規表現コードです

どうもありがとうございます

4

1 に答える 1

1

私はWebリッパーに精通していませんが、キャプチャグループを利用してこれをかなり簡単にすることができるはずです。

(\w+)[ \t]+(\w+)[ \t]+(\w+)[ \t]+(\w+)

これで、年はキャプチャグループ1(多くの場合\1または$1)になり、makeはキャプチャグループ2になります。

私は[ \t]+代わりに、\s+改行を取得しないようにするために使用しました。それが間違いなく単一のスペースである場合は、これを単純化できます。

于 2012-07-30T17:42:03.233 に答える