問題タブ [sequencefile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pysparkでRDDをシーケンスファイルとして保存
このスクリプトを実行してファイルをテキスト形式で保存することはできますが、saveAsSequenceFile を実行しようとするとエラーが発生します。RDDをシーケンスファイルとして保存する方法を知っている人がいる場合は、そのプロセスを教えてください. 「Learning Spark」と公式のSparkドキュメントで解決策を探してみました。
これは正常に実行されます
これは失敗します
エラー: z:org.apache.spark.api.python.PythonRDD.saveAsSequenceFile の呼び出し中にエラーが発生しました。: org.apache.spark.SparkException: タイプ java.lang.String の RDD 要素は使用できません
データは次のとおりです。
scala - キャッシュされた Spark RDD (シーケンス ファイルから読み取る) に無効なエントリがあります。これを修正するにはどうすればよいですか?
Spark(v1.6.1) を使用して Hadoop シーケンス ファイルを読み込んでいます。RDD をキャッシュした後、RDD の内容は無効になります (最後のエントリが重複nします)。
ここに私のコードスニペットがあります:
出力:
編集:将来の訪問者のために:上記のコードスニペットで行ったようにシーケンスファイルを読んでいる場合は、受け入れられた回答を参照してください。簡単な回避策は、HadoopWritableインスタンスのコピーを作成することです。
cluster-analysis - Hadoop Mahout クラスタリング
Mahout でキャノピー クラスタリングを適用しようとしています。テキストファイルをシーケンスファイルに変換しました。しかし、シーケンスファイルを表示できません。とにかく、次のコマンドを実行してキャノピー クラスタリングを適用することを考えました。
hduser@ubuntu:/usr/local/mahout/trunk$ mahout canopy -i /user/Hadoop/mahout_seq/seqdata -o /user/Hadoop/clustered_data -t1 5 -t2 3
main(YarnChild.java:158) VMware Ubuntu を使用しています。段落を含む単純なテキスト ファイルを使用しました
hive - HDFS で sqoop によってインポートされたシーケンス ファイルが Hive で読み取られない
--as-sequencefile オプションを使用して、MySql から HDFS にテーブルをインポートしました。次に、STORED AS SEQUENCEFILE 句と、Sqoop でインポートされたシーケンス ファイルが存在する HDFS の場所を指す LOCATION 句を使用して Hive テーブルを作成しました。
Sqoop インポート コマンド:
ハイブ テーブルの作成
テーブルをクエリしようとすると、例外で失敗します
私は何かが欠けていますか
hadoop - Flink で Hadoop の MapFileOutputFormat を使用するには?
Apache Flink を使用してプログラムを作成しているときに行き詰まりました。問題は、計算の結果としてHadoop の MapFileを生成しようとしているのに、Scala コンパイラが型の不一致について不平を言うことです。
問題を説明するために、2 種類の出力を生成しようとする以下のコード スニペットを示します。1 つはHadoop の SequenceFileで、もう 1 つは MapFile です。
上でコメントしたように、dataSet.output(mapfileOF) により、Scala コンパイラは次のように文句を言います:
参考までに、SequenceFile と比較して、MapFile は、キーが WritableComparable でなければならないというより強い条件を呼び出します。
Flink を使用してアプリケーションを作成する前に、以下のように Spark を使用して実装しましたが、正常に動作しました (コンパイル エラーは発生せず、エラーも発生せずに正常に実行されます)。