クラスAまたはクラスBに分類したいプレーンテキストファイルがたくさんあります。
トレーニングのために、ジャンルをクラス A またはクラス B として各ファイルに追加し、ファイルのジャンルを予測するいくつかの機能を識別しようと考えていました。プレーン テキスト コーパスを作成できますが、コーパス作成時にファイルのジャンルを追加する方法はありますか?
クラスAまたはクラスBに分類したいプレーンテキストファイルがたくさんあります。
トレーニングのために、ジャンルをクラス A またはクラス B として各ファイルに追加し、ファイルのジャンルを予測するいくつかの機能を識別しようと考えていました。プレーン テキスト コーパスを作成できますが、コーパス作成時にファイルのジャンルを追加する方法はありますか?
NLTK のCategorizedPlaintextCorpusReaderをお勧めします。テキスト ファイルは、カテゴリ/ジャンルに従って名前を付ける必要があり、どのファイルがどのカテゴリに属しているかを NLTK に伝える正規表現をコンストラクターに渡す必要があります。
ドキュメントには次のように記載されています。
各ファイル識別子のカテゴリを検索するために使用される正規表現パターン。パターンは各ファイル識別子に適用され、最初に一致したグループがそのファイルのカテゴリ ラベルとして使用されます。
パターンの代わりに、ファイル ID からカテゴリ名へのマッピングを含む辞書またはテキスト ファイルを渡すこともできます。各テキスト ファイルは複数のカテゴリに属することができることに注意してください。
コード例については、このブログ エントリを参照してください。