住所を抽出したい 30 万以上の html ドキュメントがあります。データは異なる構造であるため、正規表現は機能しません。
Python の NLP と NLTK についてたくさん読んできましたが、どこから始めればよいかまだ悩んでいます。
このアプローチは、品詞のタグ付けまたはチャンキング/部分解析と呼ばれますか? 実際にページにタグを付けてモデルをトレーニングできるようにする方法や、何をトレーニングする必要があるかについてのドキュメントが見つかりません。
私の質問です。
- このアプローチは何と呼ばれますか?
- トレーニングするドキュメントにタグを付けるにはどうすればよいですか