0

1000個のトークンがある場合(トークンはデータセットを前処理した後の機能であると仮定します)、1000個のトークン(単語)からいくつのバイグラム機能が生成されますか? 各トークンは、語彙内の他のすべてのトークンとバイグラムの組み合わせを持つことになりますか?

wekaの語彙に保持する単語数を事前に入力する必要があるため、この質問をしています

4

1 に答える 1

0

トークンの数だけに基づいてこれを事前計算することはできません。バイグラムは、並んで発生するトークンのペアです (これは、シーケンスの概念を持つ n グラム モデルからの用語です)。したがって、バイグラムの数を計算するには、データを 2 トークン ウィンドウでスライドさせ、見つかった異なるペアの数を確認する必要があります。

いくつかのデータ X から N 個のトークンがある場合、バイグラム B の数は次のように制限されているとしか言えませんN <= B <= N^2が、正確な数には上記の手順が必要です。

于 2014-02-04T17:25:44.963 に答える