住宅、自動車、賃貸、賃貸、フラットなどを販売する傾向がある非 HTML 形式 (紙、テキスト、書面など) で表示されるクラシファイド広告が多数あります。たとえば、クラシファイド広告には、サイズ、エリア、地域、価格、連絡先情報などの機能がいくつか含まれています。。等
私の質問は、広告が存在する、または以前の記事で言及されている番地 (記事 /LOCALITY で言及されている住所) を抽出する方法です。
NLTK と python を使用してこの問題の解決策はありますか?? 記事のソースが通常のテキスト ファイル (.txt) にあるとします。