私がやろうとしているのは、scikit.learn の Kmeans を使用して、純粋なテキスト ドキュメントを 2 つのカテゴリにクラスタ化することです。
これがユースケースのシナリオです。「重要」とタグ付けされるサンプル セットと「重要でない」とタグ付けされるサンプル セットをいくつか受け取ります。
scikit.learn の例からのデータセットは、ニュースグループの事前定義された形式です:
dataset = fetch_20newsgroups(subset='all', categories=categories,
shuffle=True, random_state=42)
私がやりたいのは、テキストファイルからデータを受け取ることです (20newsgroups はテキストファイルではないようです。解凍することさえできません)。
私がはっきりしていないのは、その fetch_20newsgroups のデータ構造とその仕組みです。そして、テキストファイルを必要な形式に変換するにはどうすればよいですか(fetch_20newsgroupsが提供するものなど)
ありがとう
ピヨ。