hadoop - Behemoth を使用して Hadoop で UIMA ジョブを実行する

Question

簡単な注釈を行う完全に機能する UIMA ジョブがあります。ローカルの CAS GUI から正常に起動できます。

Apache Behemoth を使用して Hadoop で UIMA ジョブを実行しようとしています。誰かがこれに取り組んだのだろうか？ジョブは正常に実行されますが、hadoop 出力ディレクトリで実行されます。UIMA ジョブからの出力はありません。Hadoop ジョブトラッカーの出力で、ジョブが正常に完了し、入力データが最終的な出力ディレクトリにコピーされたことを確認できます。

ここで何が起こっているのか誰か教えてもらえますか? また、UIMA コードに追加の変更を加える必要はありますか?

ありがとう

score 1 · Accepted Answer

Here are the steps that work for a small pipeline that I put together:

Export your UIMA pipeline as a jar (Your-pipeline.jar)
Copy to HDFS

Generate Behemoth Corpus (** remember all the paths below are hdfs paths **)

hadoop jar tika/target/behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver -i /user/blah/ -o /user/blah/

Process using your-pipeline

 hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver /user/blah/ /user/blah/ /apps/Your-pipeline.pear

List Annotations:

hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader -i -a /user/blah/

Convert your annotations to text:

hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter -a -i /user/blah/ -o /user/blah/

score 0 · Accepted Answer

このシナリオを試してください：

1）ベヒーモスコーパスを生成する

2）Behemothコーパスに対してTikaジョブを実行する=>Tikaコーパス

3）TikaコーパスでUIMAジョブを実行する=>UIMAコーパス

4）-aオプションを指定してBehemothのCorpusReaderを介してUIMA出力コーパスを確認します。これは、/ hadoop/confのbehemoth-site.xmlで定義した確立されたUIMAアノテーションを表示します。

しかし、Behemoth（UIMA）コーパスから確立された注釈を抽出する方法がわからないという問題。

また、ローカルファイルシステム（HDFSではない）のファイルにUIMA注釈を書き込むCASコンシューマー（PEARファイル内）がありますが、ファイルシステムでこのファイルが見つかりません（（

hadoop - Behemoth を使用して Hadoop で UIMA ジョブを実行する

2 に答える 2

Related

Reference