0

oozie scheduler を使用して mahout コマンド - sequence2sparse を実行しようとしていますが、エラーが発生しています。oozie - shell タグを使用して mahout コマンドを実行しようとしましたが、何も機能しませんでした。

以下は、oozie のワークフローです。

 <action name="mahoutSeq2Sparse">
      <shell xmlns="uri:oozie:shell-action:0.1">
        <job-tracker>${jobTracker}</job-tracker>
        <name-node>${nameNode}</name-node>
        <configuration>
            <property>
              <name>mapred.job.queue.name</name>
              <value>${queueName}</value>
            </property>
        </configuration>
        <exec>mahout seq2sparse</exec>
         <argument>-i</argument>
         <argument>${nameNode}/tmp/Clustering/seqOutput</argument>
         <argument>-o</argument>
         <argument>${nameNode}/tmp/Clustering/seqToSparse</argument>
         <argument>-ow</argument>
         <argument>-nv</argument>
         <argument>-x</argument>
         <argument>100</argument>
         <argument>-n</argument>
         <argument>2</argument>
         <argument>-wt</argument>
         <argument>tf</argument>
         <capture-output/>
     </shell>
 <ok to="brandCanopyInitialCluster" />
    <error to="fail" />
</action>

また、シェルスクリプトを作成してoozieで実行してみました

 <action name="mahoutSeq2Sparse">
       <shell xmlns="uri:oozie:shell-action:0.1">
        <job-tracker>${jobTracker}</job-tracker>
        <name-node>${nameNode}</name-node>
        <configuration>
            <property>
              <name>mapred.job.queue.name</name>
              <value>${queueName}</value>
            </property>
        </configuration>
        <exec>${EXEC}</exec>
        <file>${EXEC}#${EXEC}</file>
     </shell>

    <ok to="brandCanopyInitialCluster" />
    <error to="fail" />
</action>

job.properties を

nameNode=hdfs://abc02:8020
jobTracker=http://abc02:8050/
 clusteringJobInput=hdfs://abc02:8020/tmp/Activity/000000_0
queueName=default
oozie.wf.application.path=hdfs://abc02:8020/tmp/workflow/
oozie.use.system.libpath=true
EXEC=generatingBrandSparseFile.sh

そして、GenerateBrandSparseFile.sh は

    export INPUT_PATH="hdfs://abc02:8020/tmp/Clustering/seqOutput"
export OUTPUT_PATH="hdfs://abc02:8020/tmp/Clustering/seqToSparse"


sudo -u hdfs hadoop fs -chmod -R 777     "hdfs://abc02:8020/tmp/Clustering/seqOutput"

mahout seq2sparse -i ${INPUT_PATH} -o ${OUTPUT_PATH} -ow -nv -x 100  -n 2 -wt tf
sudo -u hdfs hadoop fs -chmod -R 777 ${OUTPUT_PATH}

しかし、どのオプションも機能していません。後者のエラーは -

SLF4J:説明については、http: //www.slf4j.org/codes.html#multiple_bindingsを参照してください。SLF4J: 実際のバインディングのタイプは [org.slf4j.impl.Log4jLoggerFactory] ​​sudo: tty が存在せず、askpass プログラムが指定されていません 15/06/05 12:23:59 WARN driver.MahoutDriver: クラスパスに seq2sparse.props が見つかりません。コマンドライン引数のみを使用してください 15/06/05 12:24:01 INFO vectorizer.SparseVectorsFromSequenceFiles: 最大 n-gram サイズ: 1

このエラーについてsudo: no tty presentは、/etc/sudoers - Defaults !requiretty をコメントアウトしました。

Mahout は、oozie サーバーがインストールされているノードにインストールされます。

また、次の Oozie ワークフローは無効です。

<workflow-app xmlns="uri:oozie:workflow:0.4" name="map-reduce-wf">
<action name="mahoutSeq2Sparse">
       <ssh>
        <host>rootUserName@abc05.ad.abc.com<host>
        <command>mahout seq2sparse</command>
        <args>-i</arg>
        <args>${nameNode}/tmp/Clustering/seqOutput</arg>
        <args>-o</arg>
        <args>${nameNode}/tmp/Clustering/seqToSparse</arg>
        <args>-ow</args>
        <args>-nv</args>
        <args>-x</args>
        <args>100</args>
        <args>-n</args>
        <args>2</args>
        <args>-wt</args>
        <args>tf</args>
         <capture-output/>
      </ssh>

    <ok to="brandCanopyInitialCluster" />
    <error to="fail" />
</action>

エラー-Error: E0701 : E0701: XML schema error, cvc-complex-type.2.4.a: Invalid content was found starting with element 'ssh'. One of '{"uri:oozie:workflow:0.4":map-reduce, "uri:oozie:workflow:0.4":pig, "uri:oozie:workflow:0.4":sub-workflow, "uri:oozie:workflow:0.4":fs, "uri:oozie:workflow:0.4":java, WC[##other:"uri:oozie:workflow:0.4"]}' is expected.

mahout をすべてのノードにインストールすることは役に立ちますか?- (oozie は任意のノードでスクリプトを実行できます)。Hadoop クラスターで mahout を使用できるようにする方法はありますか?

他のソリューションも大歓迎です。

前もって感謝します。

編集:アプローチを少し変更し、seq2sparse クラスを直接呼び出しています。ワークフローは -

 <action name="mahoutSeq2Sparse">
    <java>
      <job-tracker>${jobTracker}</job-tracker>
      <name-node>${nameNode}</name-node>

       <configuration>
            <property>
                <name>mapred.job.queue.name</name>
                <value>${queueName}</value>
            </property>

        </configuration>
            <main-class>org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles</main-class>
            <arg>-i</arg>
         <arg>${nameNode}/tmp/OozieData/Clustering/seqOutput</arg>
         <arg>-o</arg>
         <arg>${nameNode}/tmp/OozieData/Clustering/seqToSparse</arg>
         <arg>-ow</arg>
         <arg>-nv</arg>
         <arg>-x</arg>
         <arg>100</arg>
         <arg>-n</arg>
         <arg>2</arg>
         <arg>-wt</arg>
         <arg>tf</arg>

    </java>
    <ok to="CanopyInitialCluster"/>
    <error to="fail"/>
</action>

それでもジョブは実行されていません。エラーは

    >>> Invoking Main class now >>>

Main class        : org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles
Arguments         :
                    -i
                    hdfs://abc:8020/tmp/OozieData/Clustering/seqOutput
                    -o
                    hdfs://abc:8020/tmp/OozieData/Clustering/seqToSparse
                    -ow
                    -nv
                    -x
                    100
                    -n
                    2
                    -wt
                    tf

Heart beat
Heart beat
Heart beat
Heart beat
Heart beat
Heart beat
Heart beat
Heart beat
Heart beat
Heart beat
Heart beat
Heart beat
Heart beat
Heart beat
Heart beat

<<< Invocation of Main class completed <<<

Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.JavaMain], main() threw exception, java.lang.IllegalStateException: Job failed!
org.apache.oozie.action.hadoop.JavaMainException: java.lang.IllegalStateException: Job failed!
    at org.apache.oozie.action.hadoop.JavaMain.run(JavaMain.java:58)
    at org.apache.oozie.action.hadoop.LauncherMain.run(LauncherMain.java:39)
    at org.apache.oozie.action.hadoop.JavaMain.main(JavaMain.java:36)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.oozie.action.hadoop.LauncherMapper.map(LauncherMapper.java:226)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:450)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1628)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
Caused by: java.lang.IllegalStateException: Job failed!
    at org.apache.mahout.vectorizer.DictionaryVectorizer.startWordCounting(DictionaryVectorizer.java:368)
    at org.apache.mahout.vectorizer.DictionaryVectorizer.createTermFrequencyVectors(DictionaryVectorizer.java:179)
    at org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles.run(SparseVectorsFromSequenceFiles.java:288)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:84)
    at org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles.main(SparseVectorsFromSequenceFiles.java:56)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.oozie.action.hadoop.JavaMain.run(JavaMain.java:55)
    ... 15 more

Oozie Launcher failed, finishing Hadoop job gracefully

Oozie Launcher, uploading action data to HDFS sequence file: hdfs://vchniecnveg02:8020/user/root/oozie-oozi/0000054-150604142118313-oozie-oozi-W/mahoutSeq2Sparse--java/action-data.seq

Oozie Launcher ends
4

1 に答える 1

0

Oozie でのこれらのエラーは非常にイライラさせられます。私の経験から、それらのほとんどは xml またはパラメーターの順序のタイプミスによって生成されます。

最後のワークフローでは、ホスト タグを閉じていませんでした。

<host>rootUserName@abc05.ad.abc.com<host>

する必要があります

<host>rootUserName@abc05.ad.abc.com</host>

シェル エラーについては、まずバージョン 0.2 (ここで定義: https://oozie.apache.org/docs/4.0.0/DG_ShellActionExtension.html#AE.A_Appendix_A_Shell_XML-Schema ) を使用し、すべてのパラメーターとアクションを開始するのに役に立たないものすべて (結果は気にしないでください)。

使用する必要があります:

<shell xmlns="uri:oozie:shell-action:0.2">
于 2015-06-07T08:59:19.430 に答える