0

私はhadoopとbehemothを初めて使用し、 https://github.com/DigitalPebble/behemoth/wiki/tutorialのチュートリアルに従って、次のコマンドを使用してテキストドキュメントの巨大なコーパスを生成しました。

sudo bin / hadoop jar /home/madhumita/behemoth/core/target/behemoth-core-*-job.jar com.digitalpebble.behemoth.util.CorpusGenerator -i /home/madhumita/Documents/testFile -o / home / madhumita / behemoth / testGateOpCorpus

エラーが発生しました:

エラーutil.CorpusGenerator:入力が存在しません:/ home / madhumita / Documents / testFile

コマンドを実行するたびに、パスが正しいことをgeditで確認しました。同様の問題をオンラインで検索しましたが、見つかりませんでした。なぜそれが起こっているのかについてのアイデアはありますか?.txtファイル形式が受け入れられない場合、必要なファイル形式は何ですか?

4

2 に答える 2

1

さて、私は問題を解決することができました。必要な入力パスは、ローカル マシン上ではなく、hadoop 分散ファイル システム上のファイルへのパスでした。

まず、ローカル ファイルを HDFS の /data/test.txt にコピーし、このパスを入力パラメーターとして指定しました。コマンドは次のとおりです。

    sudo bin/hadoop fs -copyFromLocal /home/madhumita/Documents/testFile/test.txt /docs/test.txt

    sudo bin/hadoop jar /home/madhumita/behemoth/core/target/behemoth-core-*-job.jar com.digitalpebble.behemoth.util.CorpusGenerator -i /docs/test.txt -o /docs/behemoth/test

これで問題は解決します。問題を解決しようとしたすべての人に感謝します。

于 2013-03-18T14:54:40.197 に答える
0

Behemoth コーパスをローカル ファイルシステムから直接生成するには、ファイル プロトコルを使用して参照します。(file:///)

hadoop jar core/target/behemoth-core-*-job.jar com.digitalpebble.behemoth.util.CorpusGenerator -i "file:///home/madhumita/Documents/testFile/test.txt" -o "/docs/behemoth/test"
于 2014-12-04T11:02:56.470 に答える