hadoop - CSVをSequenceFileに変換する

Question

SequenceFileに変換したいCSVファイルがあります。これを最終的に使用して、クラスタリングジョブで使用するNamedVectorsを作成します。私はseqdirectoryコマンドを使用してSequenceFileを作成しようとしており、その出力を-nvオプションを指定してseq2sparseにフィードし、NamedVectorsを作成しました。これは出力として1つの大きなベクトルを提供しているように見えますが、最終的にはCSVの各行をNamedVectorにします。どこが間違っているのですか？

score 2 · Accepted Answer

seqdirectoryコマンドはすべてのファイルをドキュメントとして受け取るため、実際にはドキュメントが 1 つしかないため、取得できるベクトルは 1 つだけです。適切に機能させるには、CSV ファイルの各行をファイル自体にします。ドキュメントのキーはファイルの名前で、値はその内容です。それでも、コーパスが大きい場合、ディスクの読み取りと書き込みが非常に遅くなる可能性があるため、これは非常に実用的ではありません。

実際には、このコメントで共有しているリンクをたどったほうがよいでしょう

hadoop - CSVをSequenceFileに変換する

1 に答える 1

Related

Reference