1

大規模な Wikipedia DataSet で word2vec を使用するチュートリアルを見つけました http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/
Daniel が持っているものと同様の yhat rest API を構築したいと思います彼のチュートリアルで示されています。

今日は、分析したいスペインの新聞記事をまとめました。私がデータを取得した Web サイトでは、記事が非常に定期的にフォーマットされているため、1000 件の記事が文字列として保存されています。

"Otros se dan a conocer por la simpleza, como Sonya Cortés, 
quien expresó que atesora compartir en familia y gozar de salud.   
En el ambiente del reggaeton, Khriz, del dúo Ángel & Khriz, 
aprovechará para estrenar su nueva piscina ya que por su agenda 
de trabajo no ha podido darse un chapuzón todavía. Mientras, 
Daddy Yankee se tomará un descanso con la familia luego de una larga gira."

私は Python に慣れており、チュートリアルに記載されている Python ラッパーを使用したいと考えていました: https://github.com/danielfrg/word2vec

コーパスを word2vec にロードするにはどうすればよいですか? 現在、文字列の配列があります。

現時点では、私のコーパスはメモリに収まります。word2vec は今でも適切なツールですか?

4

2 に答える 2