1

フライト、レンタカー、ホテルなど、さまざまな情報をメールから抽出します。この方法は、メールの本文を抽出することです。通常はHTML形式ですが、テキストである場合や、PDF / Word/RTF添付ファイルの情報を使用する場合もあります。次に、表形式(フライトテーブル、ホテルテーブルなど)で提供される情報を取得するために、正規表現を(場合によってはいくつかのステップで)適用します。HTMLを解析しますが、これはWebスクレイピングではないことに注意してください。

現在、QL2のWebQLエンジンを使用していますが、ビジネス上の理由から置き換えることを検討しています。別のエンジンでお勧めできますか?Linuxで実行され、Javaからアクセスできる必要があります(Java APIが最適ですが、Webサービスも優れたソリューションです)。また、HTML構造に基づくだけでなく、テキスト抽出の正規表現をサポートする必要があります。

4

4 に答える 4

3

Rをご覧になることをお勧めします。膨大な数のテキストマイニングパッケージがあります。自然言語処理ビューをご覧ください。特に、tmパッケージを見てください。関連するリンクは次のとおりです。

さらに、RはHTMLまたはXMLを解析するための多くのツールを提供します。およびパッケージを使用した例については、この質問を参照してRCurlXMLください。

編集:JRIを使用してRとJavaを統合できます。これは非常に広く使用されているパッケージであり、多くの例があります。 これらの関連する質問も表示されます

于 2009-10-01T03:45:30.023 に答える
2

見て:

  • LingPipe - LingPipeは、人間の言語の言語分析のためのJavaライブラリのスイートです。
  • Lucene - Apache Luceneは、完全にJavaで記述された高性能のフル機能のテキスト検索エンジンライブラリです。
于 2009-10-01T12:30:27.303 に答える
0

更新したかっただけです-私たちの最終的な決定は、Groovyで解析を実装し、サードパーティのライブラリに依存してJava otで実装することにより、必要な機能(htmlをテキストに、pdfをテキストに、空白を削除するなど)を追加することでした。 。

于 2009-10-06T09:10:22.330 に答える
0

同様の目的で、FlexとC++で作成されたカスタムパーサーを使用します。java(javaCC .jjファイル)のパーサジェネレータを見てみることをお勧めします。javacc- faqNutchはこの方法でそれを行います。(NutchAnalysis.jj)

于 2009-10-16T05:58:17.820 に答える