parsing - 情報検索/テキストマイニングアプリケーションまたはライブラリを探しています

Question

フライト、レンタカー、ホテルなど、さまざまな情報をメールから抽出します。この方法は、メールの本文を抽出することです。通常はHTML形式ですが、テキストである場合や、PDF / Word/RTF添付ファイルの情報を使用する場合もあります。次に、表形式（フライトテーブル、ホテルテーブルなど）で提供される情報を取得するために、正規表現を（場合によってはいくつかのステップで）適用します。HTMLを解析しますが、これはWebスクレイピングではないことに注意してください。

現在、QL2のWebQLエンジンを使用していますが、ビジネス上の理由から置き換えることを検討しています。別のエンジンでお勧めできますか？Linuxで実行され、Javaからアクセスできる必要があります（Java APIが最適ですが、Webサービスも優れたソリューションです）。また、HTML構造に基づくだけでなく、テキスト抽出の正規表現をサポートする必要があります。

score 3 · Accepted Answer

Rをご覧になることをお勧めします。膨大な数のテキストマイニングパッケージがあります。自然言語処理ビューをご覧ください。特に、tmパッケージを見てください。関連するリンクは次のとおりです。

Journal of Statistics Computingのパッケージに関する論文：http://www.jstatsoft.org/v25/i05/paper。このペーパーには、 2006年のR-develメーリングリスト（https://stat.ethz.ch/pipermail/r-devel/ ）ニュースグループの投稿の分析の良い例が含まれています。
パッケージのホームページ：http ：//cran.r-project.org/web/packages/tm/index.html
紹介ビネットを見てください：http：//cran.r-project.org/web/packages/tm/vignettes/tm.pdf

さらに、RはHTMLまたはXMLを解析するための多くのツールを提供します。およびパッケージを使用した例については、この質問を参照してRCurlXMLください。

編集：JRIを使用してRとJavaを統合できます。これは非常に広く使用されているパッケージであり、多くの例があります。これらの関連する質問も表示されます。

score 2 · Accepted Answer

見て：

LingPipe - LingPipeは、人間の言語の言語分析のためのJavaライブラリのスイートです。
Lucene - Apache Luceneは、完全にJavaで記述された高性能のフル機能のテキスト検索エンジンライブラリです。

score 0 · Accepted Answer

更新したかっただけです-私たちの最終的な決定は、Groovyで解析を実装し、サードパーティのライブラリに依存してJava otで実装することにより、必要な機能（htmlをテキストに、pdfをテキストに、空白を削除するなど）を追加することでした。。

score 0 · Accepted Answer

同様の目的で、FlexとC++で作成されたカスタムパーサーを使用します。java（javaCC .jjファイル）のパーサジェネレータを見てみることをお勧めします。javacc- faqNutchはこの方法でそれを行います。（NutchAnalysis.jj）

parsing - 情報検索/テキストマイニングアプリケーションまたはライブラリを探しています

4 に答える 4

Related

Reference