問題タブ [mapr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
docker - Docker - ホストから mapr UI にアクセス
CentOS マシンに docker をインストールしました。今、私はその上で MapR サンドボックスを実行しようとしています。開始後、私はこれを取得します:
しかし、CentOS マシンと同じネットワーク内の Windows マシンからこの URL にアクセスできません。
hadoop - 単一ノード クラスタで MapR のインストールが失敗する
単一ノード クラスタのクイック インストール ガイドを参照していました。このために、MaprFS に 20GB のストレージ ファイルを使用しましたが、インストール中に「ディスクが見つかりません: /maprfs/storagefile」というメッセージが表示されます。
ここに私の設定ファイルがあります。
以下は私が得ているエラーです。
ここで私を助けてください。
ありがとうシャシ
hadoop - Spark で MapFile を作成してアクセスする方法は?
Spark RDD から MapFile を作成しようとしていますが、十分な情報が見つかりません。これまでの私の手順は次のとおりです。
私は、
rdd.saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)
MapFiles
ソートする必要があるため、例外がスローされました。だから私は次のように変更しました:
rdd.sortByKey().saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)
これは正常に機能し、MapFile が作成されました。したがって、次のステップはファイルにアクセスすることでした。作成されたディレクトリ名を使用すると、ファイルparts
が見つからないと言って失敗しました。Google に戻ると、使用する必要のあるパーツにdata
アクセスするために次のことがわかりました。MapFile
素朴に、私はそのビットを無視し、HashPartioner
これでエントリが見つかると期待しましたが、うまくいきませんでした。したがって、私の次のステップは、リーダーをループしてget(..)
. このソリューションは機能しましたが、ファイルが 128 個のタスクによって作成され、結果として 128 個のファイルが作成されたため、非常に低速でしたpart
。
の重要性を調べたHashPartitioner
ところ、内部的に使用するリーダーを識別するために使用されていることがわかりましたが、Spark は同じパーティショニング ロジックを使用していないようです。だから私は次のように変更しました:
rdd.partitionBy(new org.apache.spark.HashPartitioner(128)).sortByKey().saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)
しかし、再び2HashPartioner
は一致しませんでした。では、質問の部分...
- 効率的に結合する方法はあり
MapFiles
ますか (これはパーティショニング ロジックを無視するため)。 MapFileOutputFormat.getReaders(new Path(file), new Configuration());
非常に遅いです。読者をより効率的に識別できますか?- 基盤となる DFS として MapR-FS を使用しています。これは同じ
HashParitioner
実装を使用しますか? - 再分割を回避する方法はありますか、それともデータをファイル全体でソートする必要がありますか? (パーティション内でソートされるのとは対照的)
- 例外も発生しています
_SUCCESS/data does not exist
。このファイルを手動で削除する必要がありますか?
これに関するリンクは大歓迎です。
PS。HashPartitioner
エントリがソートされている場合、を使用して正しい を見つけるにはどうすればよい Reader
ですか? parts
これは、データがHash Partitioned
キーでソートされていることを意味します。だから私も試してみrdd.repartiotionAndSortWithinPartitions(new HashPartitioner(280))
ましたが、やはり運がありませんでした。
mapreduce - Hive map-reduce クエリが失敗する
map-reduce ジョブを起動できる最初の Hive クエリを実行しようとしています。「 http://doc.mapr.com/display/MapR/Hive 」に記載されているすべての手順に従いました。
「web_log」テーブルが作成され、データの読み込みがエラーなしで完了しました。しかし、「SELECT web_log. FROM web_log WHERE web_log.url LIKE '%doc'*」を実行しようとすると、次の例外が発生します。
誰かが私を案内してくれませんか。
scala - Spark シェル エラー: エラー SparkDeploySchedulerBackend: 存在しないエグゼキューターを削除するように求められました 11
mapr Sandbox で spark-shell を起動するたびに、このエラーが発生し続けます
このエラーを解決するのを手伝ってください。
hadoop - Platfora と Datameer のディストリビューション
Platfora および Datameer 分析ツールのインストールに関心があります。私の疑問は、これらのツールの両方のドキュメントにあります。既存の Hadoop ディストリビューションについては、CDH、HDP、および MapR を含む互換性リストが提供されていることがわかります。しかし、これらを既存のプレーンな Hadoop にインストールしたかったのです。つまり、Apache Hadoop コンポーネントを 1 つずつダウンロードして Hadoop をインストールし、クラスターを準備しました。
この場合、これらのツールは機能しますか?
hadoop - MapR-DB と Hbase の違い
私は MapR の初心者ですが、hbase については知っています。Mapr-DB が MapR の NoSQL DB であり、Hbase に似ていることがわかったビデオの 1 つを見ていました。この Hbase に加えて、MapR でも実行できます。MapR-Db と Hbase の間で混乱しています。それらの正確な違いは何ですか?
Mapr-DB をいつ使用し、いつ Hbase を使用するか?
基本的に、MapR の Hbase でバルク ロードを行う Java コードが 1 つあります。ここで、Apache hadoop に使用したのと同じコードを使用すると、そのコードはここで機能しますか?
この混乱を避けるために私を助けてください。