word2vec は単語ベクトルのデータセットにすぎません。ほとんどの場合、これはテキスト ファイルであり、各行には「単語」とその単語ベクトルがスペース (またはタブ) で区切られて含まれています。
この word2vec は、任意のプログラミング言語でトレーニングできます。テキスト ファイルの読み込みは問題になりません。
中国語に関しては、次の 3 つのツールをお勧めします。
1)文字拡張単語埋め込み (c++)
Xinxiong Chen、Lei Xu、Zhiyuan Liu、Maosong Sun、Huanbo Luan。文字と単語の埋め込みの共同学習。第 25 回人工知能に関する国際合同会議 (IJCAI 2015)。
CWE の出力はタブ (\t) で区切られていることに注意してください。
2) Facebook による高速テキスト (c++)
Fasttext は中国語でトレーニングできます。これは文字 n-gram で構築されています。私の論文では:
Aicyber の IALP 2016 共有タスクのシステム: 文字強化された単語ベクトルと強化されたニューラル ネットワーク
中国語の最小文字 n-gram を 1 に設定しました。
3) Gensim (パイソン)
@Howardyan は、トークナイザーを含む gensim を使用するためのコードを示していました。gensim のデフォルトのトレーニング方法は CBOW であることに注意してください。データによっては、スキップグラムの方が良い結果が得られる場合があります。gensim と Fasttextの比較を次に示します。
PS: 両方とも 1) 2) 元の word2vec のトレーニングをサポートします。