data-mining - テキストマイニングを使用した分類 - 値とキーワードによる分類

Question

都市ごとの経済学と高度に相関する分類問題があります。人口、収入の中央値、雇用などの非構造化データをフリーテキストで持っています。テキストマイニングを使用して、テキスト内の値を理解し、分類を行うことはできますか。ほとんどのテキストマイニング記事を読んだことがあれば、キーワードまたはフレーズカウントを使用して分類を行います。テキストの意味とテキストの頻度で分類できるようにしたいと思います。これは可能ですか？

ところで、私は現在 RapidMiner と R を使用しています。

前もって感謝します、ジョン

score 0 · Accepted Answer

これらは 2 つの別個の問題と考えることができます。

非構造化データから情報を抽出します。
分類

テキストから特定の機能をマイニングするには、いくつかのアプローチがあります。一方、バッグオブワードアプローチを直接使用して分類に直接使用し、結果を確認することもできます。問題によっては、分類子がテキストの特徴だけから学習する可能性があります。

また、PCA などを使用してすべての重要な機能を見つけ、マイニングプロセスを実行してそれらの機能を抽出することもできます。

これはすべて、広すぎて漠然とした問題に依存しています。

score 0 · Accepted Answer

はい、これはおそらく可能です。

しかし、いいえ、簡単な解決策を提供することはできません。多くの経験を積み、自分で実験する必要があります. 誰にでも効く、ボタンを押すだけの魔法のような解決策はありません。

あなたの質問は範囲が広すぎるため、「はい、可能かもしれません」よりも良い答えはないと思います。申し訳ありません。

data-mining - テキスト マイニングを使用した分類 - 値とキーワードによる分類

2 に答える 2

Related

Reference

data-mining - テキストマイニングを使用した分類 - 値とキーワードによる分類