machine-learning - 機械学習 - ウェブページをアドレスあり、アドレスなしで内容別に分類

Question

現在、私は紺碧の機械学習を使用しています.2つのタイプのデータセットを使用してMLをトレーニングしています.

トレーニング入力:

i.e)
this is a address no 24/5    address
this is no address    no-address

2クラスのベイジアン分類を使用して分類していますが、他の方法を使用する必要があります

与えられた入力:

i.e)
This a address 12/4

得られた出力:

i.e)
content    score    probability
This a address 12/4    no-address    0.54

期待される出力:

i.e)
content    score    probability
This a address 12/4    address    with higher probability

私の実験は次のようになります：

ここに画像の説明を入力

score 2 · Accepted Answer

テキストを単語の特徴に変換するには、特徴ハッシュモジュールを使用する必要があります。ただし、単語は問題に適した機能ではないため、これでは不十分な場合があります。テキストを処理して、より便利な機能を作成したい場合があります (おそらく、郵便番号の存在、番号の位置などを検出するなど...)。

編集：生のテキスト列を1つの機能として使用しても、どこにも行きません。モデルが記述されている方法でアドレスを学習することは望ましくありません。代わりに、アドレスインスタンスと非アドレスインスタンスの証拠を提供するテキストのパターンを学習する必要があります。特徴ハッシュを使用すると、テキスト列は複数の単語 (または n-gram) 列に変換され、値は各テキスト入力内のそれらの単語の数を表します。ここでの問題は過適合です。たとえば、「100 Broadway st, GA」と「200 main rd, NY」の 2 つの住所には共通語はありませんが、構造が似ていることは明らかです。「便利な機能」を作成する 1 つの方法は、単語をタグ「#NUM #TXT, #STATE」に置き換え、機能ハッシュ (バイグラム) を使用して「#NUM #TXT」や「, #STATE」などの機能を作成することです。」。ご覧のように、これらのバイグラムは、両方の住所の証拠としてカウントされ、それらの間のある種の類似性を示唆しています (他の非住所インスタンスと比較して)。もちろん、これは問題を単純化しすぎたものですが、生のテキストや単純な機能のハッシュを使用できない理由がわかると思います。
トレーニング前にテキスト処理を行うための 'Execute R' モジュールに加えて、特徴のハッシュ、トレーニング、およびスコアリングのために Azure ML モジュールを引き続き使用できます。

編集:機能ハッシュの使用例: http://gallery.azureml.net/Details/cf65bf129fee4190b6f48a53e599a755

machine-learning - 機械学習 - ウェブページをアドレスあり、アドレスなしで内容別に分類

1 に答える 1

Related

Reference