テキストの新聞広告のセットがあり、販売されている商品やその価格などの情報を抽出したいと考えています。これらの広告は、構造化されたフォーマットに従っていません。私は何千ものこれらの広告にアクセスできます。
このプロジェクトはどこから始めればよいですか? 役立つライブラリはありますか?
ありがとう
テキストの新聞広告のセットがあり、販売されている商品やその価格などの情報を抽出したいと考えています。これらの広告は、構造化されたフォーマットに従っていません。私は何千ものこれらの広告にアクセスできます。
このプロジェクトはどこから始めればよいですか? 役立つライブラリはありますか?
ありがとう
最も単純なアプローチは、規則と辞書を使用するようです。たとえば、単純な正規表現を使用して価格を解析し、アイテムの大きな辞書を使用して取得できます。
コーディングの経験やテキスト ファイルの形式にもよりますが、1 つの方法として、それらを Excel にインポートし、[テキストを列に変換] 機能を使用して、広告のフィールドを個別のセルに分割する方法があります。
たとえば、名前が黒い車で価格が $1000.00の場合、Excel では、コロンで分割するように設定された [テキストを列に変換] 関数を使用して簡単に分割できます。
おそらく、テキストファイルがどのようにフォーマットされているかをより詳細に説明してください.
この概念に慣れていない場合は、 IBM Big Insight Text Analyticsのビデオに従ってみてください。彼らのプロジェクトは、あなたのプロジェクトと同様に、IBM 株式に関する価格情報を抽出しています。彼らはこのプロジェクトから始まり、一連のビデオでほぼ完成しました。途中で、彼らは正規表現についてさらに教えます。
このビデオは、このタイプのプロジェクトのワークフローを理解するのに役立つことに注意してください。正規表現を適切にサポートするプログラミング言語、perl、ruby、python、groovy に習熟している場合は、簡単に実験を繰り返すことができます。
また、私はこの製品を使用したことはありませんが、テキスト マイニングについてもっと学びたいと思って、このビデオをすべて見ました。繰り返しますが、この製品がなくてもこれらすべてを行うことができますが、もちろん簡単ではありません.