特定の入力テキストのキーワードを生成する単純なテキスト アナライザーがあります。これまで、私はテキストのキーワードを手動で選択し、アナライザーによって生成されたものと比較するなど、手作業で評価を行ってきました。
これを自動化する方法はありますか? この評価に役立ついくつかの無料のキーワード ジェネレーターをグーグルで検索してみましたが、今のところ見つかりませんでした。これについてどうすればよいかについての提案をいただければ幸いです。
特定の入力テキストのキーワードを生成する単純なテキスト アナライザーがあります。これまで、私はテキストのキーワードを手動で選択し、アナライザーによって生成されたものと比較するなど、手作業で評価を行ってきました。
これを自動化する方法はありますか? この評価に役立ついくつかの無料のキーワード ジェネレーターをグーグルで検索してみましたが、今のところ見つかりませんでした。これについてどうすればよいかについての提案をいただければ幸いです。
キーワード生成のテストは難しい問題です。以前は、以下の方法で評価を行っていました。
Confidence、Jaccard、Lift、Chi-Squared、Mutual Information などの一般的なアソシエーション ルール生成方法を特定します。このような測定値を比較する論文は多数あります。
これらの対策の実装は非常に簡単です。それらはすべて、用語頻度、文書頻度、および共起頻度の 1 つ以上を使用した単純な代数表現を伴います。
これらすべての測定値を使用して関連するキーワードを生成し、それらの結合を計算します。このセットを TOTAL と呼びます。
アルゴリズムによって生成されたキーワードと上記の TOTAL セットとの共通部分を計算します。分数 (交差/合計) として表示すると、測定値がどれほど強力かを示す大まかな指標になります。