0

文字、バイグラム、単語などの項目についてドキュメントを分析し、ドキュメント内でのそれらの頻度と、ドキュメントの大規模なコーパスでの頻度を比較したいと考えています。

「if」、「and」、「the」などの単語はすべてのドキュメントで共通ですが、一部の単語はこのドキュメントではコーパスの典型よりもはるかに一般的です。

これはかなり標準的なはずです。それはなんと呼ばれていますか?明白な方法でそれを行うと、文書内の新しい単語に常に問題がありましたが、コーパスの評価では無限に重要ではありませんでした。これはどのように処理されますか?

4

2 に答える 2

1

これは、線形分類器の見出しの下にあり、単純ベイジアン分類器が最もよく知られている形式です (現実世界の分類問題を攻撃する際の非常に単純で堅牢であるため)。

于 2010-12-07T01:55:23.477 に答える
1

ほとんどの場合、すでにtf-idfまたはokapi_bm25ファミリー のその他のメトリックを確認済みです。

また、いくつかの準備が整ったソリューションについては、自然言語処理ツールキット nltkを確認できます

更新: 新しい単語については、平滑化を適用する必要があります: Good-Turing、 Laplace など。

于 2010-12-07T02:02:05.093 に答える