問題タブ [mongodb-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mongodb - MongoDB Hadoop エラー: スキームのファイルシステムがありません: mongodb
mongoDB hadoop コネクタを使用して基本的な Spark の例を実行しようとしています。Hadoop バージョン2.6.0を使用しています。mongo-hadoop のバージョン1.3.1を使用しています。この Hadoop バージョンの jar を正確にどこに配置すればよいかわかりません。私が試した場所は次のとおりです。
- $HADOOP_HOME/libexec/share/hadoop/mapreduce
- $HADOOP_HOME/libexec/share/hadoop/mapreduce/lib
- $HADOOP_HOME/libexec/share/hadoop/hdfs
- $HADOOP_HOME/libexec/share/hadoop/hdfs/lib
コレクションを Hadoop にロードするために使用しているコードのスニペットを次に示します。
jar がどこに配置されていても、次のエラーが発生します。
Hadoop ログに他のエラーは表示されません。構成に何かが欠けているか、Hadoop 2.6.0 がこのコネクタと互換性がないのではないかと思います。どんな助けでも大歓迎です。
scala - Apache Spark Mongo-Hadoop コネクタ クラスが見つかりません
だから私はこの例を実行しようとしています https://github.com/plaa/mongo-spark/blob/master/src/main/scala/ScalaWordCount.scala
しかし、私はこのエラーが発生し続けます
クラスを見つけるのに苦労している理由がわかりません。私はmavenでプロジェクトを構築しましたが、うまく構築されているようです。
これは私がそれを実行するために使用しているコマンドです。ホームディレクトリ内で作業しています。前もって感謝します。
このチュートリアルhttps://github.com/crcsmnky/mongodb-spark-demoを使用して、Apache Sparkでmongodbをセットアップしました
PS iveは、新しいrealeseで修正されるクラスパスにバグがあることについてオンラインでいくつかのことを読みました...
mongodb - EMR で PIG MongoDB-Hadoop コネクタを使用すると、「エラー 6000、出力場所の検証に失敗しました」
EMR のピッグ スクリプトで「出力場所の検証に失敗しました」という例外が発生します。データを S3 に保存するときに失敗します。この単純なスクリプトを使用して、問題を絞り込みます。
これは、生成されたスタック トレースです。
MongoConnector をセットアップするには、次の Bootstrap スクリプトを使用しました。
scala - Apache Spark を使用して MongoDB データを parquet ファイル形式に保存する
私はApache SparkとScalaプログラミング言語の初心者です。
私が達成しようとしているのは、ローカルの mongoDB データベースからデータを抽出し、Apache Spark と hadoop-connector を使用して寄木細工の形式で保存することです。
これまでの私のコードは次のとおりです。
問題は、データを寄木細工のファイル形式に保存するには、最初に mongoRDD 変数を Spark DataFrame に変換する必要があるということです。私はこのようなことを試しました:
私が得るエラーはこれです:
Exception in thread "main" scala.MatchError: java.lang.Object (of class scala.reflect.internal.Types.$TypeRef$$anon$6)
データをparquet形式で保存できるように、RDDをDataFrameに変換する方法について他に何か考えはありますか?
mongoDB コレクション内の 1 つのドキュメントの構造は次のとおりです: https://gist.github.com/kingtrocko/83a94238304c2d654fe4
python - Python を使用して AWS EMR で MongoDB を処理する
MongoDB データベースに対して mrjob と Python を使用してマップを削減しようとしています。mongodb-hadoop コネクタには、AWS EMR を使用する方法の例がありますが、mrjob を使用する方法はありません。すべてのビットをまとめているわけではありません。mrjob.confに関する限り、私がすでに持っているものは次のとおりです。
mrjob Python マッパー/リデューサーを使用する場合、次のようなコードを使用しました。
mongodb-hadoop コネクタを使用するようにこれを変更するには、次のようにします。
問題は、メソッドを BSONMapper と BSONReducer に正しく渡していないことです。BSONMapper クラスは、init () で 1 つの引数を想定していますが、2 つ取得しています。