問題タブ [sequencefile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Mahout の sequencefile API コードを使用するにはどうすればよいですか?
Mahout には、create sequence file as のコマンドが存在しますbin/mahout seqdirectory -c UTF-8
-i <input address> -o <output address>
。このコマンドをコード API として使用したい。
hadoop - hdfsテキストファイルに対するシーケンスファイルの利点
HDFS フラット ファイル (テキスト) に対する Hadoop シーケンス ファイルの利点は何ですか? シーケンスファイルはどのように効率的ですか?
小さなファイルを結合してシーケンス ファイルに書き込むことができますが、HDFS テキスト ファイルに対しても同じことができます。2 つの方法の違いを知る必要があります。私はこれについてしばらくグーグルで調べてきましたが、これを明確にすれば役に立ちますか?
vector - 以下のテキストをシーケンスファイルに変換する方法は?
皆さん、こんにちは。
私のデータは以下の形式です:
ID : VALUE(ユーザーが割り当てたタグ)
0001: "PC、THINKPAD、T500"
0002: "電話、携帯電話、IPHONE、APPLE、IPHONE5"
.......等々。
次のコードを作成するにはどうすればよいですか。
1) まず、これらをキー:値形式のシーケンス ファイルに変換します。
2) 次に、上記のシーケンス ファイルを、kmeans クラスタリングに使用されるベクトルに変換しますか?
SequenceFileFromdDirectory と SparseVectorFromSequenceFiles を調べていますが、これらは少し複雑で、今のところ読みにくいようです。
では、上記の 2 つの変換を行う方法について簡単なサンプル コードを誰か教えてもらえないでしょうか?
どうもありがとうございました!
hadoop - CSVをSequenceFileに変換する
SequenceFileに変換したいCSVファイルがあります。これを最終的に使用して、クラスタリングジョブで使用するNamedVectorsを作成します。私はseqdirectoryコマンドを使用してSequenceFileを作成しようとしており、その出力を-nvオプションを指定してseq2sparseにフィードし、NamedVectorsを作成しました。これは出力として1つの大きなベクトルを提供しているように見えますが、最終的にはCSVの各行をNamedVectorにします。どこが間違っているのですか?
hadoop - 既存のベクトルを Mahout ベクトルに変換する
指定されたベクトルで LDA を使用できるように、単語頻度値を mahout ベクトル表現に変換しようとしています。 mahout wiki に従っています。コード スニペストは、既存のベクトルを mahout ベクトルに変換する方法を提案しています。
https://cwiki.apache.org/MAHOUT/creating-vectors-from-text.html
これが私のコードです。VectorWriter を作成する場所で NullPointerException を取得しています。apache cwiki では、次の使用が推奨されています。
しかし、org.apache.hadoop.io.SequenceFile に SequenceFile.createWriter が表示されません。
これは完全なコード セグメントです。
このエラー、
org.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73) でのスレッド「メイン」での例外 java.lang.NullPointerException org.apache.hadoop.io.SequenceFile$Writer.init(SequenceFile.java) :910) org.apache.hadoop.io.SequenceFile$Writer で。(SequenceFile.java:843) org.apache.hadoop.io.SequenceFile$Writer で。(SequenceFile.java:831) org.apache.hadoop で。 io.SequenceFile$Writer.(SequenceFile.java:823) at kbsi.ideal.LDATest.iterableTest(LDATest.java:161) kbsi.ideal.LDATest.main(LDATest.java:194)
これについてご協力いただき、誠にありがとうございます。ありがとう
serialization - Hadoopシリアライザーが見つからない例外
出力形式が。のジョブがありますSequenceFileOuputFormat
。
出力キーと値クラスを次のように設定します。
SplitInfo
クラス_implements Serializable,Writable
io.serializations
プロパティを次のように設定します。
ただし、レデューサー側では、Hadoopがシリアライザーを見つけられなかったことを示すこのエラーが発生します。
誰か助けてもらえますか?
hadoop - SequenceFile.WriterのsyncとsyncFsはどういう意味ですか?
環境:Hadoop0.20.2-cdh3u5
SequenceFile.Writerを使用するカスタマイズされたツールを使用してログデータ(10G)をHDFSにアップロードしようとしています。
アップロードプロセス中に、ツールがクラッシュした場合(close()メソッドを明示的に呼び出さずに)、アップロードされたログは失われますか?
sync()またはsyncFs()をタイムリーに呼び出す必要がありますが、2つのメソッドはどういう意味ですか?
java - Hadoop シーケンスファイル サイズ
SequenceFile 内に格納されている Hadoop Vector のキーと値のペアの HashMap を作成しています。効率化のために、適切なサイズで HashMap を初期化できるように、キーと値のペアの Vector の長さを知りたいと考えています。
私は Mahout を使用seqdumper
しており、ダンプされた各 Vector の最後に Count を追加します。私はそのコードを調べましたが、単純な反復カウンター (行ごとcounter++
) を使用していたため、探しているものではありません。
こちらもSequenceFile.MetaData
有望そうなので調べてみました。しかし、デバッガーは、エントリが含まれていないことを示しています。
.size()
SequenceFile 内の Hadoop Vector のメソッドのようなものをすばやく取得する他の方法はありますか?
編集:これは、私がマップに変えようとしているものの seqdumper の出力です。具体的には、各 Key-Value ペアは IntWritable / NamedVector ペアです。キー番号から URI 文字列へのマッピングを作成したいと考えています。seqdumper
ファイルの最後に追加されているように、合計で 46599 個のキーと値のペアがあります。
java - Mahout: 1 つの大きなテキスト ファイルを SequenceFile 形式に変換する
私はこれについてウェブ上で多くの検索を行いましたが、それはいくらか一般的でなければならないと感じていますが、何も見つかりませんでした. 過去に、Mahout の seqdirectory コマンドを使用して、テキスト ファイル (各ファイルは個別のドキュメント) を含むフォルダーを変換したことがあります。しかし、この場合、非常に多くのドキュメント (100,000 単位) があるため、各行がドキュメントである 1 つの非常に大きなテキスト ファイルが作成されます。この大きなファイルを SequenceFile 形式に変換して、Mahout が各行を個別のドキュメントと見なす必要があることを理解するにはどうすればよいですか? 助けてくれてありがとう。