問題タブ [nltk-book]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1062 参照

python-3.x - gensim ライブラリでのみ単一のリストに表示される単語を含むコーパスの語彙にない「単語」

コミュニティメンバーの皆様、こんにちは。

現在、Word2Vec アルゴリズムを実装しています。

まず、データ (文) を抽出し、文を分割してトークン (単語) に分割し、句読点を削除して、トークンを 1 つのリストに格納します。リストには基本的に単語が含まれています。次に、単語の頻度を計算し、頻度で出現回数を計算しました。リストになります。

次に、gensim を使用してモデルをロードしようとしています。しかし、私は問題に直面しています。問題は約the word is not in the vocabularyです。私が試したコードスニペットは次のとおりです。

注: Windows OS で Python 3.7 を使用しています。から、syntax of gensim文を使用してトークンに分割し、同じものを適用してモデルを構築およびトレーニングすることが提案されています。私の質問は、単語のみを含む単一のリストを持つコーパスに同じことを適用する方法です。モデルのトレーニング中に、リスト、つまり [words] も使用して単語を指定しました。