“sequencefile”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

60 参照

hadoop - スペースで区切られたファイル (各行 = ベクター) を SequenceFile に変換します

次のように大きなテキストファイル (4 GB) を作成しました。

各行はベクトルを表し、各列はベクトルの各要素を表します。各要素は 1 つのスペースで区切られます。

今、Apache Mahout ですべてのベクトルに対して K-Means クラスタリングを実行したいのですが、エラーが発生しまし"not a SequenceFile"た。

mahout の要件を満たす形式のファイルを作成するにはどうすればよいですか?

2014-08-19T12:52:29.950

0 投票する

4 に答える

7777 参照

hadoop - -text HDFS コマンドの出力を別のファイルにコピーする方法は?

HDFS コマンドを使用して、hdfs ファイルのテキストコンテンツを別のファイルシステムにコピーする方法はありますか。

-cat または任意の方法を使用して、-text の出力を別のファイルに出力できますか?:

hadoop hdfs sequencefile

2014-08-22T04:24:29.003

0 投票する

0 に答える

87 参照

hadoop - SequenceFiles と Hadoop ストリーミング

Hadoop ストリーミングを使用して実行可能ファイルをマッププロセスとして実行するユースケースがあります。入力側には、多数のシーケンスファイルがあります。各 seq ファイルには、浮動小数点配列のリストである 8 つのキーと対応する値があります。1 つの map プロセスで 1 つの seq ファイルを処理する代わりに、seq ファイルのグループを 1 つの map プロセスに割り当てることを好みます。したがって、これらすべての seq ファイルを 1 つの大きなファイルにマージすることにしました。この大きな seq ファイルが 50,000 個の小さな seq ファイルで構成されているとします。

seq ファイルの一部を各マッププロセスに割り当てるように Hadoop ストリーミングユーティリティを構成することはできますか?
各マッププロセスで、処理が必要なファイル名のリストを取得するにはどうすればよいですか? マップ実行可能ファイルでこれらの情報を取得するにはどうすればよいですか? 実行可能ファイルは、stdin を処理するように設計された単純な groovy スクリプトです。そのような場合、標準入力がどのように見えるか (キーと値のペアを決定する方法とその内容) または、シーケンスファイルをマージしたため、それらは 1 つの大きなファイルになり、個々の ID が失われました。ファイル名とシーケンスファイルのキー/値の束で遊ぶ必要がありますか?
この大きな seq ファイルにはキーと値があり、キーはファイル名で、値はそのファイルの内容であり、8 つのキーと対応する値が含まれていると思いますか? この場合、hadoop が可能なマップの数に応じてこの大きなファイルを分割すると (私のクラスターで 10 個のマップが可能であるとします)、各マップは約 5000 個のキーと対応する値を取得しますか? 次に、マップ exec でこれらのキーと値にアクセスするにはどうすればよいでしょうか?

どんなヒントでも大いに役立ちます

hadoop hadoop-streaming sequencefile

2014-08-24T13:47:29.747

0 投票する

2 に答える

1608 参照

hadoop - 既存のシーケンスファイルへの追加

私の使用例では、キーと値のペアを既存のシーケンスファイルに追加する方法を見つける必要があります。どうやってするの？手がかりは非常に役立ちます。Hadoop 2x を使用しています。

また、以下のドキュメントに出くわしました。これを使用して追加する方法を誰か教えてもらえますか?

public static org.apache.hadoop.io.SequenceFile.Writer createWriter(FileContext fc, Configuration conf, Path name, Class keyClass, Class valClass, org.apache.hadoop.io.SequenceFile.CompressionType compressionType, CompressionCodec codec, org.apache. hadoop.io.SequenceFile.Metadata メタデータ、EnumSet createFlag、org.apache.hadoop.fs.Options.CreateOpts... opts) が IOException をスローする

hadoop sequencefile

2014-09-15T10:09:19.390

0 投票する

1 に答える

293 参照

java - Mapreduce を使用した K-Means で困っています (変更)

私のコードは間違っていないと思いますが、正しく動作しません。これは mapreduce を使用した K-means クラスタリングです。( https://github.com/30stm/K-Means-using-mapreduce/tree/master )

DatasetWriter.java を使用してデータセットを作成し、CreateCentroids.java を使用してセントロイドを作成します。次に、KMeansClusteringJob.java を実行します。

このコードは最初の反復では機能しますが、2 回目の反復からは機能しません。map 関数と reduce 関数を確認しましたが、reduce 関数に問題があると思います。(Map 関数は各点から最も近い重心を見つけます。Reduce 関数は新しい重心を計算し、新しい重心を置き換えます。) 最初の反復の後、cen.seq (重心ファイル) は不完全です。

誰か助けてください ;)

ps : コードの削減について質問を書きました。私の元の問題はこれです。

java mapreduce k-means sequencefile

2014-10-27T14:46:10.927

0 投票する

1 に答える

740 参照

hadoop - Pig で SequenceFile の書き込みに失敗する

外部 MapReduce ジョブを実行するために、いくつかの Pig 変数を Hadoop SequenceFile に保存したいと考えています。

データに (chararray, int) スキーマがあるとします。

私はこの保存関数を書きました：

そして、この豚のコード:

ただし、保存に失敗し、次のエラーが発生します。

それを修正する方法はありますか??

hadoop apache-pig sequencefile

2014-10-28T14:38:56.577

0 投票する

1 に答える

1739 参照

hadoop - Spark Java でテキストファイルをシーケンス形式に変換する

Spark Java で、テキストファイルをシーケンスファイルに変換するにはどうすればよいですか? 以下は私のコードです：

そして、私は以下のエラーを受け取りました。

誰にもアイデアはありますか？ありがとうございました！

hadoop apache-spark hadoop2 sequencefile

2014-12-08T07:40:57.663

問題タブ [sequencefile]

Reference