word2vec サイトから、GoogleNews -vectors-negative300.bin.gz をダウンロードできます。.bin ファイル (約 3.4GB) は、私には役に立たないバイナリ形式です。Tomas Mikolovは、「バイナリ形式をテキスト形式に変換するのはかなり簡単なはずです (ただし、より多くのディスク容量が必要になります)。距離ツールでコードを確認してください。バイナリ ファイルを読み取るのはかなり簡単です。」残念ながら、私はhttp://word2vec.googlecode.com/svn/trunk/distance.cを理解するのに十分な C を知りません。
おそらくgensimもこれを行うことができますが、私が見つけたすべてのチュートリアルは、テキストからの変換に関するものであり、他の方法ではないようです。
C コードの変更や、gensim がテキストを出力するための指示を誰かが提案できますか?