5

SequenceFileに変換したいCSVファイルがあります。これを最終的に使用して、クラスタリングジョブで使用するNamedVectorsを作成します。私はseqdirectoryコマンドを使用してSequenceFileを作成しようとしており、その出力を-nvオプションを指定してseq2sparseにフィードし、NamedVectorsを作成しました。これは出力として1つの大きなベクトルを提供しているように見えますが、最終的にはCSVの各行をNamedVectorにします。どこが間違っているのですか?

4

1 に答える 1

2

seqdirectoryコマンドはすべてのファイルをドキュメントとして受け取るため、実際にはドキュメントが 1 つしかないため、取得できるベクトルは 1 つだけです。適切に機能させるには、CSV ファイルの各行をファイル自体にします。ドキュメントのキーはファイルの名前で、はその内容です。それでも、コーパスが大きい場合、ディスクの読み取りと書き込みが非常に遅くなる可能性があるため、これは非常に実用的ではありません。

実際には、このコメントで共有しているリンクをたどったほうがよいでしょう

于 2012-08-17T07:08:30.583 に答える