問題タブ [sequencefile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
6152 参照

hadoop - Mahout の sequencefile API コードを使用するにはどうすればよいですか?

Mahout には、create sequence file as のコマンドが存在しますbin/mahout seqdirectory -c UTF-8 -i <input address> -o <output address>。このコマンドをコード API として使用したい。

0 投票する
0 に答える
481 参照

hadoop - APIを使用してHadoopでシーケンスファイルを作成するにはどうすればよいですか?

1台のマシンでhaddopのAPIを使用してファイルアドレスの配列リストからシーケンスファイルを作成したいと思います。次に、この出力をに渡しsparse-vector、次にclustering。スパースとクラスタリングを行うために、ここからコードを取得します。ReutersToSparseVectorsおよびKMeansClusteringここに書き込みシーケンスファイルのコードがあります。しかし、シーケンス出力をスパースに与えると、プログラムはエラーを出します。

0 投票する
3 に答える
10397 参照

hadoop - hdfsテキストファイルに対するシーケンスファイルの利点

HDFS フラット ファイル (テキスト) に対する Hadoop シーケンス ファイルの利点は何ですか? シーケンスファイルはどのように効率的ですか?

小さなファイルを結合してシーケンス ファイルに書き込むことができますが、HDFS テキスト ファイルに対しても同じことができます。2 つの方法の違いを知る必要があります。私はこれについてしばらくグーグルで調べてきましたが、これを明確にすれば役に立ちますか?

0 投票する
1 に答える
753 参照

vector - 以下のテキストをシーケンスファイルに変換する方法は?

皆さん、こんにちは。

私のデータは以下の形式です:

ID : VALUE(ユーザーが割り当てたタグ)

0001: "PC、THINKPAD、T500"

0002: "電話、携帯電話、IPHONE、APPLE、IPHONE5"

.......等々。

次のコードを作成するにはどうすればよいですか。

1) まず、これらをキー:値形式のシーケンス ファイルに変換します。

2) 次に、上記のシーケンス ファイルを、kmeans クラスタリングに使用されるベクトルに変換しますか?

SequenceFileFromdDirectory と SparseVectorFromSequenceFiles を調べていますが、これらは少し複雑で、今のところ読みにくいようです。

では、上記の 2 つの変換を行う方法について簡単なサンプル コードを誰か教えてもらえないでしょうか?

どうもありがとうございました!

0 投票する
1 に答える
7561 参照

hadoop - CSVをSequenceFileに変換する

SequenceFileに変換したいCSVファイルがあります。これを最終的に使用して、クラスタリングジョブで使用するNamedVectorsを作成します。私はseqdirectoryコマンドを使用してSequenceFileを作成しようとしており、その出力を-nvオプションを指定してseq2sparseにフィードし、NamedVectorsを作成しました。これは出力として1つの大きなベクトルを提供しているように見えますが、最終的にはCSVの各行をNamedVectorにします。どこが間違っているのですか?

0 投票する
0 に答える
904 参照

hadoop - 既存のベクトルを Mahout ベクトルに変換する

指定されたベクトルで LDA を使用できるように、単語頻度値を mahout ベクトル表現に変換しようとしています。 mahout wiki に従っています。コード スニペストは、既存のベクトルを mahout ベクトルに変換する方法を提案しています。

https://cwiki.apache.org/MAHOUT/creating-vectors-from-text.html

これが私のコードです。VectorWriter を作成する場所で NullPointerException を取得しています。apache cwiki では、次の使用が推奨されています。

しかし、org.apache.hadoop.io.SequenceFile に SequenceFile.createWriter が表示されません。

これは完全なコード セグメントです。

このエラー、

org.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73) でのスレッド「メイン」での例外 java.lang.NullPointerException org.apache.hadoop.io.SequenceFile$Writer.init(SequenceFile.java) :910) org.apache.hadoop.io.SequenceFile$Writer で。(SequenceFile.java:843) org.apache.hadoop.io.SequenceFile$Writer で。(SequenceFile.java:831) org.apache.hadoop で。 io.SequenceFile$Writer.(SequenceFile.java:823) at kbsi.ideal.LDATest.iterableTest(LDATest.java:161) kbsi.ideal.LDATest.main(LDATest.java:194)

これについてご協力いただき、誠にありがとうございます。ありがとう

0 投票する
2 に答える
4339 参照

serialization - Hadoopシリアライザーが見つからない例外

出力形式が。のジョブがありますSequenceFileOuputFormat

出力キーと値クラスを次のように設定します。

SplitInfoクラス_implements Serializable,Writable

io.serializationsプロパティを次のように設定します。

ただし、レデューサー側では、Hadoopがシリアライザーを見つけられなかったことを示すこのエラーが発生します。

誰か助けてもらえますか?

0 投票する
1 に答える
2459 参照

hadoop - SequenceFile.WriterのsyncとsyncFsはどういう意味ですか?

環境:Hadoop0.20.2-cdh3u5

SequenceFile.Writerを使用するカスタマイズされたツールを使用してログデータ(10G)をHDFSにアップロードしようとしています。

アップロードプロセス中に、ツールがクラッシュした場合(close()メソッドを明示的に呼び出さずに)、アップロードされたログは失われますか?

sync()またはsyncFs()をタイムリーに呼び出す必要がありますが、2つのメソッドはどういう意味ですか?

0 投票する
1 に答える
1528 参照

java - Hadoop シーケンスファイル サイズ

SequenceFile 内に格納されている Hadoop Vector のキーと値のペアの HashMap を作成しています。効率化のために、適切なサイズで HashMap を初期化できるように、キーと値のペアの Vector の長さを知りたいと考えています。

私は Mahout を使用seqdumperしており、ダンプされた各 Vector の最後に Count を追加します。私はそのコードを調べましたが、単純な反復カウンター (行ごとcounter++) を使用していたため、探しているものではありません。

こちらもSequenceFile.MetaData有望そうなので調べてみました。しかし、デバッガーは、エントリが含まれていないことを示しています。

.size()SequenceFile 内の Hadoop Vector のメソッドのようなものをすばやく取得する他の方法はありますか?

編集:これは、私がマップに変えようとしているものの seqdumper の出力です。具体的には、各 Key-Value ペアは IntWritable / NamedVector ペアです。キー番号から URI 文字列へのマッピングを作成したいと考えています。seqdumperファイルの最後に追加されているように、合計で 46599 個のキーと値のペアがあります。

0 投票する
1 に答える
4172 参照

java - Mahout: 1 つの大きなテキスト ファイルを SequenceFile 形式に変換する

私はこれについてウェブ上で多くの検索を行いましたが、それはいくらか一般的でなければならないと感じていますが、何も見つかりませんでした. 過去に、Mahout の seqdirectory コマンドを使用して、テキスト ファイル (各ファイルは個別のドキュメント) を含むフォルダーを変換したことがあります。しかし、この場合、非常に多くのドキュメント (100,000 単位) があるため、各行がドキュメントである 1 つの非常に大きなテキスト ファイルが作成されます。この大きなファイルを SequenceFile 形式に変換して、Mahout が各行を個別のドキュメントと見なす必要があることを理解するにはどうすればよいですか? 助けてくれてありがとう。