java - Hadoop で実行できる多言語の時間表現タガーはありますか?

Question

多くのテキストから日付を抽出する必要があります。言語が多ければ多いほどよい。最低でも英語、スペイン語、ポルトガル語。そのようなツールは存在しますか？Java と Mavenized で？これが私が見つけたものです：

http://code.google.com/p/heideltime/多くの言語と印象的なオンラインデモがありますが、奇妙な外部依存関係が必要であり、クラスタの展開が困難または不可能になると思われます
http://nlp.stanford.edu/software/sutime.shtmlよく文書化されていますが、英語のみです。トレーニングしやすい？
http://natty.joestelmach.com/英語のみ
https://github.com/samtingleff/jchronic英語のみ
http://code.google.com/p/nltk/source/browse/trunk/nltk_contrib/nltk_contrib/timex.py英語のみ

他にどこを見ればいいですか？

score 0 · Accepted Answer

0

Apache Tikaが役に立つかもしれません。

于 2013-06-21T18:51:10.730 に答える

score 0 · Accepted Answer

私は同様のトピックを研究してきました。ドキュメントはあまりありませんが、私が発見したことを共有します。

UIMA は基本的に、分析パイプラインでプログラム (「アノテーター」) を結合するフレームワークです。非構造化データがパイプラインを流れると、アノテーターは有用なビットを抽出し、共通分析構造 (CAS) と呼ばれるデータオブジェクトに書き込みます。

UIMA パイプラインは Java で実装されるため、JVM で実行されます。Perl などの他の言語で記述されたツールは、適切なラッパーを使用してパイプラインに取り込むことができます。

パイプラインは、MapReduce マップタスクで実行できます。digitalPebble Behemoth プロジェクトは、これを処理する便利な方法を提供します。

2 に答える 2