8

Mysqlテーブルに大量のテキストがあります。NLTKツールキットを使用して、統計分析を行い、後でテキストのNLPを実行したいと思います。私には2つの選択肢があります:

  1. DBテーブルからすべてのテキストを一度に抽出し(必要に応じてファイルに入れる場合もあります)、NLTK関数を使用します
  2. テキストを抽出し、NLTKで使用できる「コーパス」に変換します。

後者は非常に複雑に見え、実際にその使用方法を説明する記事は見つかりませんでした。これだけを見つけました。 データベースとしてMongoDBを使用するMongoDBでバックアップされたコーパスリーダーを作成し、コードは非常に複雑で、MongoDBを知っている必要があります。一方、前者は本当に簡単に見えますが、DBからテキストを抽出するオーバーヘッドが発生します。

ここで問題となるのは、NLTKのコーパスの利点は何ですか?言い換えれば、私が挑戦して、MySQLデータベースから読み取ることができるようにNTLKメソッドを上書きすることを掘り下げた場合、それは面倒な価値がありますか?テキストをコーパスに変換すると、通常のNLTK関数では実行できない(または非常に困難な)何かが得られますか?

また、MySQLをNLTKに接続する方法についてご存知の場合は、お知らせください。ありがとう

4

1 に答える 1

3

よく読んだ後、私は答えを見つけました。NLTKにコーパスとして保存されるテキストで使用できる、collocations、search、common_context、similarなどの非常に便利な関数がいくつかあります。それらを自分で実装するにはかなりの時間がかかります。データベースからテキストを選択してファイルに入れてnltk.Text関数を使用すると、MySql.Hereに接続できるように、コードを何行も記述したり、メソッドを上書きしたりすることなく、前述のすべての関数を使用できます。詳細情報へのリンクです:nltk.Text

于 2011-02-15T14:25:01.067 に答える