2

簡単な注釈を行う完全に機能する UIMA ジョブがあります。ローカルの CAS GUI から正常に起動できます。

Apache Behemoth を使用して Hadoop で UIMA ジョブを実行しようとしています。誰かがこれに取り組んだのだろうか?ジョブは正常に実行されますが、hadoop 出力ディレクトリで実行されます。UIMA ジョブからの出力はありません。Hadoop ジョブ トラッカーの出力で、ジョブが正常に完了し、入力データが最終的な出力ディレクトリにコピーされたことを確認できます。

ここで何が起こっているのか誰か教えてもらえますか? また、UIMA コードに追加の変更を加える必要はありますか?

ありがとう

4

2 に答える 2

1

Here are the steps that work for a small pipeline that I put together:

  • Export your UIMA pipeline as a jar (Your-pipeline.jar)
  • Copy to HDFS
  • Generate Behemoth Corpus (** remember all the paths below are hdfs paths **)
    hadoop jar tika/target/behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver -i /user/blah/ -o /user/blah/
    
  • Process using your-pipeline
     hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver /user/blah/ /user/blah/ /apps/Your-pipeline.pear 
  • List Annotations:
    hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader -i -a /user/blah/
    
  • Convert your annotations to text:
    hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter -a -i /user/blah/ -o /user/blah/
    
于 2013-12-19T16:25:35.797 に答える
0

このシナリオを試してください:

1)ベヒーモスコーパスを生成する

2)Behemothコーパスに対してTikaジョブを実行する=>Tikaコーパス

3)TikaコーパスでUIMAジョブを実行する=>UIMAコーパス

4)-aオプションを指定してBehemothのCorpusReaderを介してUIMA出力コーパスを確認します。これは、/ hadoop/confのbehemoth-site.xmlで定義した確立されたUIMAアノテーションを表示します。

しかし、Behemoth(UIMA)コーパスから確立された注釈を抽出する方法がわからないという問題。

また、ローカルファイルシステム(HDFSではない)のファイルにUIMA注釈を書き込むCASコンシューマー(PEARファイル内)がありますが、ファイルシステムでこのファイルが見つかりません((

于 2012-10-05T18:54:15.857 に答える