parsing - データ抽出-アイデアが必要

Question

以下のようなテキストがn行あると考えてください。

「SonyKDL46NX720BRAVIA46」3DLEDバックライト付きHDTV-1080p、1920 x 1080、16：9、120Hz、HDMI、USB、WiFi対応»TigerDirectで$1148.99
「SamsungNV4010.5MPデジタルカメラ-シルバー-3倍ズームレンズ»eBayで64.99ドル」
「ゲートウェイNV57H27u15.6」ノートブック、Intel Core i3-2310M（2.10GHz）、4GB DDR3メモリ、500GB HDD、DVDスーパーマルチドライブ、Windows 7 Home Premium 64ビット（ピンク）-LX.WZF02.002»$ 399.99 at Buy.com」

これらの文字列を解析して、それぞれを「テレビ、カメラ、ラップトップ」などに分類したいと思います。

テキスト属性は類似している場合と類似していない場合があります。

これを包括的に行うにはどうすればよいですか？

どのコード/ツールを使用する必要がありますか？

何語？

キーワード検索はしたくない。この文字列は、クラス/属性ロジックを使用して分類できますか？

Protegeを使用してクラス/サブクラス階層を構築できますか？

私はこのデータマイニングの分野にまったく慣れていません。だから私の無知を許しなさい！

前もって感謝します。

score 0 · Accepted Answer

通常の表現、JavaScriptでも作業を行うことができます

編集：

   var基準={
      カメラ：{
         識別子：/。*camera。*/、
         解像度：/.*(\d+)\s*x\s*(\d*).*/、
         値：/.*$(\d+).*/、
         ..。
      }、
      ノートブック：{
         識別子：/。*notebook。*/、
         ram：/.*(d+)GB\s*(DDR.).*/
         ..。
      }
      ..。
   }

次に、この構造を使用して各行を分析する単純なエンジンを作成します

編集2：

ある種の知識データベースをフィードする必要があるため、これはまったく簡単ではありませんが、可能です。このようなページでフィードすることができます。

http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation

ただし、コードに必要なインテリジェンスの量に応じて、複数の人または1日以上の作業になります。

parsing - データ抽出-アイデアが必要

1 に答える 1

Related

Reference