terminology - ドキュメント内のテキスト頻度とコーパス内の頻度の比較

Question

文字、バイグラム、単語などの項目についてドキュメントを分析し、ドキュメント内でのそれらの頻度と、ドキュメントの大規模なコーパスでの頻度を比較したいと考えています。

「if」、「and」、「the」などの単語はすべてのドキュメントで共通ですが、一部の単語はこのドキュメントではコーパスの典型よりもはるかに一般的です。

これはかなり標準的なはずです。それはなんと呼ばれていますか？明白な方法でそれを行うと、文書内の新しい単語に常に問題がありましたが、コーパスの評価では無限に重要ではありませんでした。これはどのように処理されますか？

score 1 · Accepted Answer

これは、線形分類器の見出しの下にあり、単純ベイジアン分類器が最もよく知られている形式です (現実世界の分類問題を攻撃する際の非常に単純で堅牢であるため)。

score 1 · Accepted Answer

ほとんどの場合、すでにtf-idfまたは okapi_bm25ファミリーのその他のメトリックを確認済みです。

また、いくつかの準備が整ったソリューションについては、自然言語処理ツールキット nltkを確認できます

更新: 新しい単語については、平滑化を適用する必要があります: Good-Turing、 Laplace など。

2 に答える 2