python - NLP を介して HTML からアドレスを抽出することを何と呼びますか

Question

住所を抽出したい 30 万以上の html ドキュメントがあります。データは異なる構造であるため、正規表現は機能しません。

Python の NLP と NLTK についてたくさん読んできましたが、どこから始めればよいかまだ悩んでいます。

このアプローチは、品詞のタグ付けまたはチャンキング/部分解析と呼ばれますか? 実際にページにタグを付けてモデルをトレーニングできるようにする方法や、何をトレーニングする必要があるかについてのドキュメントが見つかりません。

私の質問です。

score 2 · Accepted Answer

Qn：このタスクと密接に関連しているNLPタスクはどれですか？

回答：住所を検出するタスクは、固有表現抽出（NER）タスクと見なすことができます。ただし、タスクをhtml（つまり入力データ）の単純なシーケンスラベルとして表示してから、標準的な機械学習分類を実行することをお勧めします。

Qn：トレーニングデータとして使用するドキュメントにタグを付けるにはどうすればよいですか？

An：あなたができることは次のとおりです。

score 1 · Accepted Answer

Apple は、これを行う自社のソフトウェアを「データ検出器」と呼んでいます (注意してください。これは特許を取得しています。これにより、HTC Android 携帯に対して差し止め命令を勝ち取りました)。より一般的には、このアプリケーションはInformation Extractionと呼ばれていると思います。

score 1 · Accepted Answer

HTML ページからテキストを取り除き (特定のクラスで div などのアドレステキストを HTML から識別する方法がない限り)、使用されるアドレス形式に一致する一連のルールを作成します。

複数の国に住所がある場合、形式が著しく異なる可能性がありますが、国内では形式が同じ (若干の調整あり) であるか、有効ではありません。

たとえば、米国内では、住所は 3 行または 4 行 (人物を含む) です。通常、郵便番号があります (オプションで 5 桁の後にさらに 4 桁が続きます)。他の国では、さまざまな形式の郵便番号があります。

目標がすべての住所で 100% の精度である場合を除き、タスクの予算内でできるだけ多くの住所を抽出することを目指す必要があります。

Named Entity ID を使用して都市や国などを検索する場合を除き、NLP のタスクのようには見えません。

score 1 · Accepted Answer

あなたの仕事は情報抽出と呼ばれますが、それは非常に広い概念です。幸いなことに、あなたの仕事はより限定されています (住所) が、多くの情報を提供することはありません:

住所はどの国にありますか? 東京の住所は、クリーブランドの住所とは大きく異なります。限られた数の国からのアドレスに関心がある場合、成功する確率ははるかに高くなります。それぞれの国からソリューションを開発できます。非常に限られた数について話している場合は、認識エンジンを手動でコーディングできます。
どのような種類の Web ページについて話しているのですか? それらはランダムなコレクションですか、それとも限られた数の Web サイトとフォーマットにグループ化できますか? アドレスはどこに表示されますか? （つまり、それらに焦点を合わせるために使用できる文脈上の手がかりはありますか？）

質問 2 では、最悪のシナリオを取り上げます。ページが完全にバラバラで、アドレスがどこにでもある可能性があります。最先端技術が何であるかはわかりませんが、チャンクの問題としてアプローチします。

まともな結果を得るには、トレーニングセットが必要です。少なくとも、抽出する住所と同じ場所で、同じスタイル (非公式、不完全、完全) の住所の大規模なコレクション。次に、チャンカーから適切なパフォーマンスを引き出すことを試みることができます (おそらく後処理を使用して)。

PS。html マークアップを破棄するだけではありません。ドキュメント構造に関する有用な情報が含まれています。html タグを捨てる前に、構造的なマークアップ (段落、強調、見出し、リスト、表示) を追加します。

4 に答える 4