2

住所を抽出したい 30 万以上の html ドキュメントがあります。データは異なる構造であるため、正規表現は機能しません。

Python の NLP と NLTK についてたくさん読んできましたが、どこから始めればよいかまだ悩んでいます。

このアプローチは、品詞のタグ付けまたはチャンキング/部分解析と呼ばれますか? 実際にページにタグを付けてモデルをトレーニングできるようにする方法や、何をトレーニングする必要があるかについてのドキュメントが見つかりません。

私の質問です。

  • このアプローチは何と呼ばれますか?
  • トレーニングするドキュメントにタグを付けるにはどうすればよいですか
4

4 に答える 4

2

Qn:このタスクと密接に関連しているNLPタスクはどれですか?

回答:住所を検出するタスクは、固有表現抽出(NER)タスクと見なすことができます。ただし、タスクをhtml(つまり入力データ)の単純なシーケンスラベルとして表示してから、標準的な機械学習分類を実行することをお勧めします。

Qn:トレーニングデータとして使用するドキュメントにタグを付けるにはどうすればよいですか?

An:あなたができることは次のとおりです。

  1. 各単語または各行BeginInsideまたはOutsideのラベルを付けます
  2. 教師あり分類方法を選択します
  3. 機能とは何かを決定します(ここにいくつかのヒントがあります:機能の選択
  4. モデルを構築します(基本的には、構成された機能を使用して分類ソフトウェアを実行するだけです)
  5. 出来上がり、出力はBIOを与えるはずです、そしてOとラベル付けされたすべてのインスタンスを削除するだけ で、アドレスである行/単語が残ります
于 2013-01-17T09:15:33.697 に答える
1

Apple は、これを行う自社のソフトウェアを「データ検出器」と呼んでいます (注意してください。これは特許を取得しています。これにより、HTC Android 携帯に対して差し止め命令を勝ち取りました)。より一般的には、このアプリケーションはInformation Extractionと呼ばれていると思います。

于 2012-12-23T11:19:18.703 に答える
1

HTML ページからテキストを取り除き (特定のクラスで div などのアドレス テキストを HTML から識別する方法がない限り)、使用されるアドレス形式に一致する一連のルールを作成します。

複数の国に住所がある場合、形式が著しく異なる可能性がありますが、国内では形式が同じ (若干の調整あり) であるか、有効ではありません。

たとえば、米国内では、住所は 3 行または 4 行 (人物を含む) です。通常、郵便番号があります (オプションで 5 桁の後にさらに 4 桁が続きます)。他の国では、さまざまな形式の郵便番号があります。

目標がすべての住所で 100% の精度である場合を除き、タスクの予算内でできるだけ多くの住所を抽出することを目指す必要があります。

Named Entity ID を使用して都市や国などを検索する場合を除き、NLP のタスクのようには見えません。

于 2012-12-29T21:08:43.730 に答える
1

あなたの仕事は情報抽出と呼ばれますが、それは非常に広い概念です。幸いなことに、あなたの仕事はより限定されています (住所) が、多くの情報を提供することはありません:

  1. 住所はどの国にありますか? 東京の住所は、クリーブランドの住所とは大きく異なります。限られた数の国からのアドレスに関心がある場合、成功する確率ははるかに高くなります。それぞれの国からソリューションを開発できます。非常に限られた数について話している場合は、認識エンジンを手動でコーディングできます。

  2. どのような種類の Web ページについて話しているのですか? それらはランダムなコレクションですか、それとも限られた数の Web サイトとフォーマットにグループ化できますか? アドレスはどこに表示されますか? (つまり、それらに焦点を合わせるために使用できる文脈上の手がかりはありますか?)

質問 2 では、最悪のシナリオを取り上げます。ページが完全にバラバラで、アドレスがどこにでもある可能性があります。最先端技術が何であるかはわかりませんが、チャンクの問題としてアプローチします。

まともな結果を得るには、トレーニングセットが必要です。少なくとも、抽出する住所と同じ場所で、同じスタイル (非公式、不完全、完全) の住所の大規模なコレクション。次に、チャンカーから適切なパフォーマンスを引き出すことを試みることができます (おそらく後処理を使用して)。

PS。html マークアップを破棄するだけではありません。ドキュメント構造に関する有用な情報が含まれています。html タグを捨てる前に、構造的なマークアップ (段落、強調、見出し、リスト、表示) を追加します。

于 2013-01-02T22:49:35.867 に答える