python - NLTKで独自のコーパスを作成する利点

Question

Mysqlテーブルに大量のテキストがあります。NLTKツールキットを使用して、統計分析を行い、後でテキストのNLPを実行したいと思います。私には2つの選択肢があります：

DBテーブルからすべてのテキストを一度に抽出し（必要に応じてファイルに入れる場合もあります）、NLTK関数を使用します
テキストを抽出し、NLTKで使用できる「コーパス」に変換します。

後者は非常に複雑に見え、実際にその使用方法を説明する記事は見つかりませんでした。これだけを見つけました。データベースとしてMongoDBを使用するMongoDBでバックアップされたコーパスリーダーを作成し、コードは非常に複雑で、MongoDBを知っている必要があります。一方、前者は本当に簡単に見えますが、DBからテキストを抽出するオーバーヘッドが発生します。

ここで問題となるのは、NLTKのコーパスの利点は何ですか？言い換えれば、私が挑戦して、MySQLデータベースから読み取ることができるようにNTLKメソッドを上書きすることを掘り下げた場合、それは面倒な価値がありますか？テキストをコーパスに変換すると、通常のNLTK関数では実行できない（または非常に困難な）何かが得られますか？

また、MySQLをNLTKに接続する方法についてご存知の場合は、お知らせください。ありがとう

score 3 · Accepted Answer

よく読んだ後、私は答えを見つけました。NLTKにコーパスとして保存されるテキストで使用できる、collocations、search、common_context、similarなどの非常に便利な関数がいくつかあります。それらを自分で実装するにはかなりの時間がかかります。データベースからテキストを選択してファイルに入れてnltk.Text関数を使用すると、MySql.Hereに接続できるように、コードを何行も記述したり、メソッドを上書きしたりすることなく、前述のすべての関数を使用できます。詳細情報へのリンクです：nltk.Text

python - NLTKで独自のコーパスを作成する利点

1 に答える 1

Related

Reference