NLTKで使用したいテキストを含むファイルが何百もあります。そのようなファイルの1つを次に示します。
বে、বচাইয়াণ্ঠা、র্চাঢার্বিততোখাটহ তবে 'এবংমুশায়েরা' পত্রিব্যায়প্রকাশিততিনটিলেখাইবইযে সংব্যজানব্যরারজনাবিশেষভাবেপরিবব পাচদাপনিকেব ড:বননিয়েএইবইতৈরিবাবারপরিব্যল্ সামন্তেরই。তারআরতারসহকারীদেবনিষ্ঠাছাডাঅল এইবইপ্রব্যাশিতহতেপারতনা।、তাঁদেদ নমস্কারজানাই。 বতাব্যাতাশ্রাবন্তাজ্জাণ্ণিক জানুয়ারি২ণ্টণ্ট৮ 総文字数:378
各行には新しい文が含まれていないことに注意してください。むしろ、文のターミネーター(英語のピリオドに相当)は「。」です。シンボル。
誰かが私のコーパスを作成するのを手伝ってくれませんか?変数MyDataにインポートする場合は、MyData.words()とMyData.sents()にアクセスする必要があります。また、最後の行はコーパスに表示されるべきではありません(単に文字数が含まれているだけです)。
すべてのファイルのデータに対して一度に操作を実行する必要があることに注意してください。
前もって感謝します!