問題タブ [sequencefile]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

159 問題

0 投票する

2 に答える

10458 参照

python - pysparkでRDDをシーケンスファイルとして保存

このスクリプトを実行してファイルをテキスト形式で保存することはできますが、saveAsSequenceFile を実行しようとするとエラーが発生します。RDDをシーケンスファイルとして保存する方法を知っている人がいる場合は、そのプロセスを教えてください. 「Learning Spark」と公式のSparkドキュメントで解決策を探してみました。

これは正常に実行されます

これは失敗します

エラー: z:org.apache.spark.api.python.PythonRDD.saveAsSequenceFile の呼び出し中にエラーが発生しました。: org.apache.spark.SparkException: タイプ java.lang.String の RDD 要素は使用できません

データは次のとおりです。

2015-12-28T10:15:57.770

0 投票する

2 に答える

743 参照

scala - キャッシュされた Spark RDD (シーケンスファイルから読み取る) に無効なエントリがあります。これを修正するにはどうすればよいですか?

Spark(v1.6.1) を使用して Hadoop シーケンスファイルを読み込んでいます。RDD をキャッシュした後、RDD の内容は無効になります (最後のエントリが重複nします)。

ここに私のコードスニペットがあります:

出力：

編集：将来の訪問者のために：上記のコードスニペットで行ったようにシーケンスファイルを読んでいる場合は、受け入れられた回答を参照してください。簡単な回避策は、HadoopWritableインスタンスのコピーを作成することです。

scala hadoop apache-spark hdfs sequencefile

2016-03-23T02:37:41.383

0 投票する

0 に答える

74 参照

cluster-analysis - Hadoop Mahout クラスタリング

Mahout でキャノピークラスタリングを適用しようとしています。テキストファイルをシーケンスファイルに変換しました。しかし、シーケンスファイルを表示できません。とにかく、次のコマンドを実行してキャノピークラスタリングを適用することを考えました。

hduser@ubuntu:/usr/local/mahout/trunk$ mahout canopy -i /user/Hadoop/mahout_seq/seqdata -o /user/Hadoop/clustered_data -t1 5 -t2 3

main(YarnChild.java:158) VMware Ubuntu を使用しています。段落を含む単純なテキストファイルを使用しました

cluster-analysis mahout hadoop2 sequencefile

2016-05-10T08:07:22.380

0 投票する

1 に答える

738 参照

hive - HDFS で sqoop によってインポートされたシーケンスファイルが Hive で読み取られない

--as-sequencefile オプションを使用して、MySql から HDFS にテーブルをインポートしました。次に、STORED AS SEQUENCEFILE 句と、Sqoop でインポートされたシーケンスファイルが存在する HDFS の場所を指す LOCATION 句を使用して Hive テーブルを作成しました。

Sqoop インポートコマンド:

ハイブテーブルの作成

テーブルをクエリしようとすると、例外で失敗します

私は何かが欠けていますか

hive hdfs sqoop sequencefile

2016-06-02T05:20:38.287

0 投票する

1 に答える

299 参照

hadoop - Flink で Hadoop の MapFileOutputFormat を使用するには?

Apache Flink を使用してプログラムを作成しているときに行き詰まりました。問題は、計算の結果としてHadoop の MapFileを生成しようとしているのに、Scala コンパイラが型の不一致について不平を言うことです。

問題を説明するために、2 種類の出力を生成しようとする以下のコードスニペットを示します。1 つはHadoop の SequenceFileで、もう 1 つは MapFile です。

上でコメントしたように、dataSet.output(mapfileOF) により、Scala コンパイラは次のように文句を言います: 参考までに、SequenceFile と比較して、MapFile は、キーが WritableComparable でなければならないというより強い条件を呼び出します。

Flink を使用してアプリケーションを作成する前に、以下のように Spark を使用して実装しましたが、正常に動作しました (コンパイルエラーは発生せず、エラーも発生せずに正常に実行されます)。

hadoop apache-flink sequencefile

2016-06-02T09:23:49.257

1 2 3 4 5 6 7 8 9 10

問題タブ [sequencefile]

python - pysparkでRDDをシーケンスファイルとして保存

scala - キャッシュされた Spark RDD (シーケンス ファイルから読み取る) に無効なエントリがあります。これを修正するにはどうすればよいですか?

cluster-analysis - Hadoop Mahout クラスタリング

hive - HDFS で sqoop によってインポートされたシーケンス ファイルが Hive で読み取られない

hadoop - Flink で Hadoop の MapFileOutputFormat を使用するには?

Reference

scala - キャッシュされた Spark RDD (シーケンスファイルから読み取る) に無効なエントリがあります。これを修正するにはどうすればよいですか?

hive - HDFS で sqoop によってインポートされたシーケンスファイルが Hive で読み取られない