1

StackOverflow には豊富な質問とユーザー提供のタグが付属しているため、NLP (自然言語処理) タスク用の興味深い、豊富な注釈付きのテキスト コーパスと見なしています。

基本的には、質問の本文に基づいて質問タグを自動的に予測したいと考えています。これはある程度まで可能であると確信しており、タグの提案 (タグの使用法をより一貫性のあるものにするなど) など、いくつかの優れた使用例があります。

このためには、機械学習アルゴリズムを使用してタグ予測をトレーニングするために、すべての質問とその本文テキスト、およびユーザー タグが必要です。

StackOverflow API があることは知っていますが、取得できるデータの量は非常に限られているようです - もちろん正当な理由があります。

質問は次のとおりです。StackOverflowからすべての質問をユーザータグとともに取得/ダウンロードする方法はありますか?

4

1 に答える 1

1

http://www.clearbits.net/torrents/2076-aug-2012でデータ ダンプを取得できます。メタ サイトは含まれていません。マイナーな見落としは別のリリースで修正されていますが、お客様のリクエストには適用されません。

于 2012-12-19T21:17:30.447 に答える