0

多くのテキストから日付を抽出する必要があります。言語が多ければ多いほどよい。最低でも英語、スペイン語、ポルトガル語。そのようなツールは存在しますか?Java と Mavenized で?これが私が見つけたものです:

他にどこを見ればいいですか?

4

2 に答える 2

0

Apache Tikaが役に立つかもしれません。

于 2013-06-21T18:51:10.730 に答える
0

私は同様のトピックを研究してきました。ドキュメントはあまりありませんが、私が発見したことを共有します。

UIMA は基本的に、分析パイプラインでプログラム (「アノテーター」) を結合するフレームワークです。非構造化データがパイプラインを流れると、アノテーターは有用なビットを抽出し、共通分析構造 (CAS) と呼ばれるデータ オブジェクトに書き込みます。

UIMA パイプラインは Java で実装されるため、JVM で実行されます。Perl などの他の言語で記述されたツールは、適切なラッパーを使用してパイプラインに取り込むことができます。

パイプラインは、MapReduce マップ タスクで実行できます。digitalPebble Behemoth プロジェクトは、これを処理する便利な方法を提供します。

于 2013-08-26T19:38:07.660 に答える