Mysqlテーブルに大量のテキストがあります。NLTKツールキットを使用して、統計分析を行い、後でテキストのNLPを実行したいと思います。私には2つの選択肢があります:
- DBテーブルからすべてのテキストを一度に抽出し(必要に応じてファイルに入れる場合もあります)、NLTK関数を使用します
- テキストを抽出し、NLTKで使用できる「コーパス」に変換します。
後者は非常に複雑に見え、実際にその使用方法を説明する記事は見つかりませんでした。これだけを見つけました。 データベースとしてMongoDBを使用するMongoDBでバックアップされたコーパスリーダーを作成し、コードは非常に複雑で、MongoDBを知っている必要があります。一方、前者は本当に簡単に見えますが、DBからテキストを抽出するオーバーヘッドが発生します。
ここで問題となるのは、NLTKのコーパスの利点は何ですか?言い換えれば、私が挑戦して、MySQLデータベースから読み取ることができるようにNTLKメソッドを上書きすることを掘り下げた場合、それは面倒な価値がありますか?テキストをコーパスに変換すると、通常のNLTK関数では実行できない(または非常に困難な)何かが得られますか?
また、MySQLをNLTKに接続する方法についてご存知の場合は、お知らせください。ありがとう