regex - ヘルプ：テキストからデータタプルを抽出しています...正規表現または機械学習？

Question

次の問題への最善のアプローチについて、あなたの考えを本当に感謝します。私はアイデアを与えるために本質的に類似している車分類リストの例を使用しています。

問題：指定されたテキストからデータタプルを抽出します。

データのいくつかの特徴は次のとおりです。

本文中の語彙（単語）は特定のドメインに限定されています。せいぜい100〜200語としましょう。
解析する必要のあるテキストは、以下に示す自動車広告データのような見出しです。したがって、各レコードは1つのタプル（行）に対応します。
場合によっては、一部の属性が欠落している可能性があります。したがって、たとえば、生データでは、年の下の行＃5が欠落しています。
いくつかの単語が一緒になります（バイグラム）。「ローマイル」のように。
利用可能な履歴データ=10,000レコード
着信する新しいデータの量=1000〜1500レコード/週

期待される出力は、（Year、Make、Model、feature）の形式である必要があります。したがって、出力は次のようになります。

1->（2009、Ford、Fusion、SE）
2->（1997、Ford、Taurus、Wagon）
3->（2000、Mitsubishi、Mirage、DE）
4->（2007、Ford、Expedition、EL Limited）
5 ->（、ホンダ、アコード、EX ）
.......。

生のヘッドラインデータ：

1-> 2009 Ford Fusion SE-$ 7000
2-> 1997 Ford Taurus Wagon-$ 800（san jose east）
3-> '00 Mitsubishi Mirage DE-$ 2499（saratoga）pic
4-> 2007 Ford Expedition EL Limited-$ 7800（x）
5->ホンダアコードexローマイル-$2800（ダブリン/プレジャーオン/リバモア）写真
6-> 2004 HONDA ODASSEY LX68Kマイル-$10800（ダンビル/サンラモン）
7->93リンカーンマーク-$2000（オークランド東部）写真
8- > ####### 2006 LEXUS GS 430 BLACK ON BLACK 114KMI #######-$ 19700（san rafael）pic
9-> 2004 Audi A4 1.8T FWD-$ 8900（Sacramento）pic
10-> ## ##### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 #######-$ 10575（サンラファエル）pic
11-> 1990トヨタカローラはうまくいく！ガスセーバー！5SPEED CLEAN！REG 2011 OBO-$ 1600（ヘイワード/カストロバレー）pic img
12-> HONDA ACCORD EX 2000-$ 4900（ダブリン/プレザントン/リバモア）pic
13-> 2009 Chevy SilveradoLTクルーキャブ-$23900（ダブリン/プレザントン/リバモア）pic
14 -> 2010 Acura TSX-V6-TECH-$ 29900（ダブリン/プレザントン/リバモア）写真
15->2003日産アルティマ-$1830（SF）写真

可能な選択肢：

機械学習テキスト分類器（ナイーブベイズなど）
正規表現

私が理解しようとしているのは、正規表現が仕事に対して複雑すぎて、テキスト分類子がやり過ぎであるかどうかです。

テキスト分類子を使用することを選択した場合、実装するのが最も簡単だと思いますか。

よろしくお願いします。

score 4 · Accepted Answer

これは、情報抽出と呼ばれるよく研究されている問題です。やりたいことを実行するのは簡単ではありませんし、口で言うほど単純でもありません (つまり、機械学習はやり過ぎではありません)。いくつかの手法がありますが、研究領域の概要を読む必要があります。

score 3 · Accepted Answer

このIEライブラリをチェックして、抽出ルールを記述してください<問題に最適だと思います。また、高速辞書マッチングを作成する方法の例もあります。

score 0 · Accepted Answer

すでに注釈付きのデータと各フィールドに関連付けられた単語のリストがある場合は、ARXまたはPhoebusシステムがニーズに合うと思います。彼らのアプローチは、情報抽出と情報統合を組み合わせたものです。

score 0 · Accepted Answer

いくつかの優れたエンティティ認識ライブラリがあります。Apache opennlpをご覧になりましたか？

score 0 · Accepted Answer

車の特定のモデルを探しているユーザーとして、タスクは簡単です。正規表現で何を探すべきかを知っているので、たとえば、ほとんどのフォードレンジャーを分類できると確信しています。

あなたの最善の策は、タイプString->MaybeTupleで各車種の関数を書くことだと思います。次に、これらすべてを各入力で実行し、それらの入力を破棄すると、タプルがゼロまたは多すぎます。

regex - ヘルプ：テキストからデータタプルを抽出しています...正規表現または機械学習？

6 に答える 6

Related

Reference