ばかげているように聞こえるかもしれませんが、テキストコーパスを構築する方法を知っていますか? あちこち探したところ、既存のコーパスがあるのですが、どうやって構築したのでしょう?たとえば、ポジティブなツイートとネガティブなツイートを含むコーパスを構築したい場合、2 つのファイルを作成するだけでよいのでしょうか? しかし、それらのファイルの内部はどうですか? (((( この例では、彼は pos と neg のツイートを RedisDB に保存します。
2445 次
1 に答える
4
しかし、それらのファイルの内部はどうですか?
これは主に、使用しているライブラリに依存します。XML (さまざまなタグを使用) が一般的で、1 行に 1 文です。トリッキーな部分は、最初にデータを取得することです。
たとえば、ポジティブなツイートとネガティブなツイートでコーパスを構築したい場合
これは、ツイートをポジティブまたはネガティブにマークする方法を知りたいということですか? もしそうなら、あなたが探しているのはテキスト分類または意味分析と呼ばれるものです。
たくさんのつぶやきを見つけたい場合は、これらのページのいずれかをチェックします (私自身のクイック検索から)。
Clickonf5: http://clickonf5.org/5438/download-tweets-pdf-xml-format-local-machine-server/
Google グループ: http://groups.google.com/forum/?fromgroups#!topic/twitter-development-talk/kfislDfxunI
コーパスの作成方法に関する一般的な学習については、Richard Xiao による自然言語処理 Wiki のハンドブックを参照してください。
于 2012-07-18T00:26:08.000 に答える