任意のサイズの英語のテキストから、「意味のある」タグの削減されたコレクション(最大10個)を抽出したいと思います。
http://tagcrowd.com/は非常に興味深いですが、アルゴリズムは非常に基本的なようです(単語数だけ)
これを行うための他の既存のアルゴリズムはありますか?
任意のサイズの英語のテキストから、「意味のある」タグの削減されたコレクション(最大10個)を抽出したいと思います。
http://tagcrowd.com/は非常に興味深いですが、アルゴリズムは非常に基本的なようです(単語数だけ)
これを行うための他の既存のアルゴリズムはありますか?
このための既存の Web サービスがあります。2 つの3 つの例:
人的要素(タグ付け)を差し引くと、残っているのは頻度だけです。「一般的な英語の単語を無視する」は、包含ではなく除外を処理するため、次善のフィルターです。私はいくつかのサイトをテストしました、そしてそれは非常に正確です。「意味」を導き出す方法は他にありません。そのため、最近セマンティックWebが非常に注目されています。これは、HTMLで意味を暗示する方法です...もちろん、それには人間的な要素もあります。
テキスト分類では、この問題は次元削減として知られています。この主題に関する文献には、多くの有用なアルゴリズムがあります。
基本的に、これはテキスト分類問題/文書分類問題です。すでにタグ付けされた多数のドキュメントにアクセスできる場合は、どの (コンテンツ) 単語がどのタグをトリガーするかを分析し、この情報を使用して新しいドキュメントにタグを付けることができます。
機械学習アプローチを使用したくないが、ドキュメント コレクションがまだある場合は、tf.idfなどのメトリックを使用して興味深い単語を除外できます。
さらに一歩進んで、Wordnetを使用して同義語を検索し、同義語の頻度が高い場合は単語をその同義語に置き換えることができます。
Manning & Schützeには、テキストの分類に関するより多くの紹介が含まれています。
テキストの意味分析を行いたいとします。
単語頻度分析は、意味分析を行う最も簡単な方法の 1 つです。残念ながら (そして明らかに) これは最も精度の低いものです。特別な辞書(同義語や単語の形など)、一般的な単語を含む「ストップリスト」、他のテキスト(これらの「一般的な」単語を見つけて除外するため)を使用することで改善できます...
他のアルゴリズムについては、以下に基づいている可能性があります。
しかし...これらのアルゴリズムは意味分析のための単なるヒューリスティックであり、目標を達成するための厳密なアルゴリズムではないことを理解する必要があります。意味解析の問題は、最初のコンピューターが登場して以来、人工知能/機械学習の研究における主要な問題の 1 つです。
おそらく、「Term Frequency - Inverse Document Frequency」TF-IDFが役立つでしょう...
これは、次の 2 つの手順で使用できます。
1 - トピック モデリング アルゴリズムを試す:
2 - その後、各トピックの最も代表的な単語をタグとして選択できます