1

住宅、自動車、賃貸、賃貸、フラットなどを販売する傾向がある非 HTML 形式 (紙、テキスト、書面など) で表示されるクラシファイド広告が多数あります。たとえば、クラシファイド広告には、サイズ、エリア、地域、価格、連絡先情報などの機能がいくつか含まれています。。等

私の質問は、広告が存在する、または以前の記事で言及されている番地 (記事 /LOCALITY で言及されている住所) を抽出する方法です。

NLTK と python を使用してこの問題の解決策はありますか?? 記事のソースが通常のテキスト ファイル (.txt) にあるとします。

4

1 に答える 1

-1

ソースが .txt 形式の場合、正規表現がおそらく最適なソリューションです。すべての任意の種類の広告の正規表現を作成するのは簡単ではありません (または可能でさえあります) と思いますが、例が多ければ多いほど、検索がうまく機能します。

于 2013-08-26T12:22:27.987 に答える