0

現在、コーパスを作成しようとしているときに、すべてのサブフォルダーにファイルを含めることに関して、いくつかのばかげた問題が発生しています。

CorpusList = CategorizedPlaintextCorpusReader('X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\', r'.*/.txt', cat_file='CAT.txt', cat_delimiter=',')

私の問題は、すべてのテキスト ファイルが 1 つのフォルダーにないことです。それらはすべてサブフォルダーにあります。このディレクトリとすべてのサブディレクトリにすべてのテキスト ファイルを含めるにはどうすればよいですか? 「TextForAnalysis」フォルダーにすべてのファイルがある場合、すべてがファイルだけで機能します。

4

1 に答える 1

1

cat_patternオプションを使用してみてください:

CorpusList = CategorizedPlaintextCorpusReader(
    'X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\',
    r'.*/.txt',
    cat_file='CAT.txt',
    cat_delimiter=',',
    cat_pattern='(.+)/*')
于 2013-04-03T23:19:33.467 に答える