2

特定のアカウントのツイートがあります。各ツイートを調べて、ビジネス、音楽、スポーツなどのクラス ラベルに分類したいと考えています。

トレーニング データを作成するための私のアプローチは、各クラス ラベルにいくつかのキーワードを割り当てることです。たとえば、

  1. 「ビジネス」のキーワードは、起業家、仕事、GDP などです。
  2. 「音楽」のキーワードは、曲、ジャンル、アルバムなどです。</li>

トレーニング データの .CSV ファイルには 2 つの列があります 1. キーワード 2. クラス

これは正しい方法ですか?

前もって感謝します!

4

1 に答える 1

2

あなたがやろうとしていることは、辞書の方法に似ているようです。テキストのコーパスに辞書を適用するのは非常に簡単ですが、ツイートを使用していることを考えると、Kenneth Bennoits の優れたQuantedaパッケージを使用することをお勧めします。

より具体的には、用語のリストからカスタム辞書 (私が信じている s3 クラス) を作成できます。

https://cran.r-project.org/web/packages/quanteda/quanteda.pdf

次に、applyDictionary を使用して辞書を適用します。次のように、テキストと辞書キーを含む素敵なテーブルが返されます。

docs    christmas opposition taxglob taxregex country
  text1         1          1       1        0       0
  text2         0          0       1        0       2
于 2016-03-26T16:32:59.037 に答える