問題タブ [bz2]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

96 問題

0 投票する

1 に答える

380 参照

gensim - Latent Semantic Indexation with gensim

In order to use the Latent semantic indexation method from gensim, I want to begin with a small "classique" example like :

My question is : How to get the corpus iterator 'wiki_en_tfidf.mm' ? Must I download it from somewhere ? I have searched on the Internet but I did not find anything. Help please ?

2017-05-09T11:39:10.347

0 投票する

1 に答える

3123 参照

python - Pythonでメモリ内の.tar.bz2を解凍する方法

Pythonでメモリ内の* .bz2ファイルを解凍するには? bz2 ファイルは csv ファイルから取得されます。

以下のコードを使用してメモリ内で解凍しますが、動作しますが、csv ファイルのファイル名や作成者名などのダーティデータをもたらします。それを処理するための他の良い方法はありますか?

私はこの質問を見つけました、それはgzipにありますが、私のデータはbz2形式です。指示どおりに実行しようとしましたが、bz2はこの方法では処理できなかったようです.

編集：

@metatoasterまたは上記のコードの答えに関係なく、どちらも最終的な解凍ファイルにさらにダーティデータをもたらします。例: 私の元のデータは、res_test.csv という名前の csv 形式で以下に添付されています。

次に、ファイルがあるディレクトリにcdして圧縮しtar -cjf res_test.tar.bz2 res_test.csv、圧縮ファイルres_test.tar.bz2を取得します。このファイルは、インターネットから取得するbz2データをシミュレートでき、キャッシュせずにメモリで解凍したい最初にディスクに入れますが、取得するのは以下のデータであり、ダーティデータが多すぎます:

データはまだそこにありますが、ノイズに沈んでいます。元のデータとまったく同じ純粋なデータに解凍して、あまりにも多くのノイズから実際のデータを抽出するのではなく、解凍することは可能ですか?

python bz2

2017-09-19T03:55:01.350

1 2 3 4 5 6 7 8 9 10

問題タブ [bz2]

gensim - Latent Semantic Indexation with gensim

python - Pythonでメモリ内の.tar.bz2を解凍する方法

Reference