問題タブ [sequencefile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - スペースで区切られたファイル (各行 = ベクター) を SequenceFile に変換します
次のように大きなテキスト ファイル (4 GB) を作成しました。
各行はベクトルを表し、各列はベクトルの各要素を表します。各要素は 1 つのスペースで区切られます。
今、Apache Mahout ですべてのベクトルに対して K-Means クラスタリングを実行したいのですが、エラーが発生しまし"not a SequenceFile"た。
mahout の要件を満たす形式のファイルを作成するにはどうすればよいですか?
hadoop - -text HDFS コマンドの出力を別のファイルにコピーする方法は?
HDFS コマンドを使用して、hdfs ファイルのテキスト コンテンツを別のファイル システムにコピーする方法はありますか。
-cat または任意の方法を使用して、-text の出力を別のファイルに出力できますか?:
hadoop - SequenceFiles と Hadoop ストリーミング
Hadoop ストリーミングを使用して実行可能ファイルをマップ プロセスとして実行するユース ケースがあります。入力側には、多数のシーケンス ファイルがあります。各 seq ファイルには、浮動小数点配列のリストである 8 つのキーと対応する値があります。1 つの map プロセスで 1 つの seq ファイルを処理する代わりに、seq ファイルのグループを 1 つの map プロセスに割り当てることを好みます。したがって、これらすべての seq ファイルを 1 つの大きなファイルにマージすることにしました。この大きな seq ファイルが 50,000 個の小さな seq ファイルで構成されているとします。
seq ファイルの一部を各マップ プロセスに割り当てるように Hadoop ストリーミング ユーティリティを構成することはできますか?
各マップ プロセスで、処理が必要なファイル名のリストを取得するにはどうすればよいですか? マップ実行可能ファイルでこれらの情報を取得するにはどうすればよいですか? 実行可能ファイルは、stdin を処理するように設計された単純な groovy スクリプトです。そのような場合、標準入力がどのように見えるか (キーと値のペアを決定する方法とその内容) または、シーケンス ファイルをマージしたため、それらは 1 つの大きなファイルになり、個々の ID が失われました。ファイル名とシーケンスファイルのキー/値の束で遊ぶ必要がありますか?
この大きな seq ファイルにはキーと値があり、キーはファイル名で、値はそのファイルの内容であり、8 つのキーと対応する値が含まれていると思いますか? この場合、hadoop が可能なマップの数に応じてこの大きなファイルを分割すると (私のクラスターで 10 個のマップが可能であるとします)、各マップは約 5000 個のキーと対応する値を取得しますか? 次に、マップ exec でこれらのキーと値にアクセスするにはどうすればよいでしょうか?
どんなヒントでも大いに役立ちます
hadoop - 既存のシーケンス ファイルへの追加
私の使用例では、キーと値のペアを既存のシーケンス ファイルに追加する方法を見つける必要があります。どうやってするの?手がかりは非常に役立ちます。Hadoop 2x を使用しています。
また、以下のドキュメントに出くわしました。これを使用して追加する方法を誰か教えてもらえますか?
public static org.apache.hadoop.io.SequenceFile.Writer createWriter(FileContext fc, Configuration conf, Path name, Class keyClass, Class valClass, org.apache.hadoop.io.SequenceFile.CompressionType compressionType, CompressionCodec codec, org.apache. hadoop.io.SequenceFile.Metadata メタデータ、EnumSet createFlag、org.apache.hadoop.fs.Options.CreateOpts... opts) が IOException をスローする
java - Mapreduce を使用した K-Means で困っています (変更)
私のコードは間違っていないと思いますが、正しく動作しません。これは mapreduce を使用した K-means クラスタリングです。( https://github.com/30stm/K-Means-using-mapreduce/tree/master )
DatasetWriter.java を使用してデータセットを作成し、CreateCentroids.java を使用してセントロイドを作成します。次に、KMeansClusteringJob.java を実行します。
このコードは最初の反復では機能しますが、2 回目の反復からは機能しません。map 関数と reduce 関数を確認しましたが、reduce 関数に問題があると思います。(Map 関数は各点から最も近い重心を見つけます。Reduce 関数は新しい重心を計算し、新しい重心を置き換えます。) 最初の反復の後、cen.seq (重心ファイル) は不完全です。
誰か助けてください ;)
ps : コードの削減について質問を書きました。私の元の問題はこれです。
hadoop - Pig で SequenceFile の書き込みに失敗する
外部 MapReduce ジョブを実行するために、いくつかの Pig 変数を Hadoop SequenceFile に保存したいと考えています。
データに (chararray, int) スキーマがあるとします。
私はこの保存関数を書きました:
そして、この豚のコード:
ただし、保存に失敗し、次のエラーが発生します。
それを修正する方法はありますか??
hadoop - Spark Java でテキスト ファイルをシーケンス形式に変換する
Spark Java で、テキスト ファイルをシーケンス ファイルに変換するにはどうすればよいですか? 以下は私のコードです:
そして、私は以下のエラーを受け取りました。
誰にもアイデアはありますか?ありがとうございました!