次の問題への最善のアプローチについて、あなたの考えを本当に感謝します。私はアイデアを与えるために本質的に類似している車分類リストの例を使用しています。
問題:指定されたテキストからデータタプルを抽出します。
データのいくつかの特徴は次のとおりです。
本文中の語彙(単語)は特定のドメインに限定されています。せいぜい100〜200語としましょう。
解析する必要のあるテキストは、以下に示す自動車広告データのような見出しです。したがって、各レコードは1つのタプル(行)に対応します。
場合によっては、一部の属性が欠落している可能性があります。したがって、たとえば、生データでは、年の下の行#5が欠落しています。
いくつかの単語が一緒になります(バイグラム)。「ローマイル」のように。
利用可能な履歴データ=10,000レコード
着信する新しいデータの量=1000〜1500レコード/週
期待される出力は、(Year、Make、Model、feature)の形式である必要があります。したがって、出力は次のようになります。
1->(2009、Ford、Fusion、SE)
2->(1997、Ford、Taurus、Wagon)
3->(2000、Mitsubishi、Mirage、DE)
4->(2007、Ford、Expedition、EL Limited)
5 ->(、ホンダ、アコード、EX
)
.......。
生のヘッドラインデータ:
1-> 2009 Ford Fusion SE-$ 7000
2-> 1997 Ford Taurus Wagon-$ 800(san jose east)
3-> '00 Mitsubishi Mirage DE-$ 2499(saratoga)pic
4-> 2007 Ford Expedition EL Limited-$ 7800(x)
5->ホンダアコードexローマイル-$2800(ダブリン/プレジャーオン/リバモア)写真
6-> 2004 HONDA ODASSEY LX68Kマイル-$10800(ダンビル/サンラモン)
7->93リンカーンマーク-$2000(オークランド東部)写真
8- > ####### 2006 LEXUS GS 430 BLACK ON BLACK 114KMI #######-$ 19700(san rafael)pic
9-> 2004 Audi A4 1.8T FWD-$ 8900(Sacramento)pic
10-> ## ##### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 #######-$ 10575(サンラファエル)pic
11-> 1990トヨタカローラはうまくいく!ガスセーバー!5SPEED CLEAN!REG 2011 OBO-$ 1600(ヘイワード/カストロバレー)pic img
12-> HONDA ACCORD EX 2000-$ 4900(ダブリン/プレザントン/リバモア)pic
13-> 2009 Chevy SilveradoLTクルーキャブ-$23900(ダブリン/プレザントン/リバモア)pic
14 -> 2010 Acura TSX-V6-TECH-$ 29900(ダブリン/プレザントン/リバモア)写真
15->2003日産アルティマ-$1830(SF)写真
可能な選択肢:
- 機械学習テキスト分類器(ナイーブベイズなど)
- 正規表現
私が理解しようとしているのは、正規表現が仕事に対して複雑すぎて、テキスト分類子がやり過ぎであるかどうかです。
テキスト分類子を使用することを選択した場合、実装するのが最も簡単だと思いますか。
よろしくお願いします。