5

小さなコーパスで使用する日常の英語のテキストのアーカイブまたはコレクションを見つける場所について誰か提案がありますか? 私はグーテンベルグ プロジェクトの書籍を作業プロトタイプに使用しており、より現代的な言語を取り入れたいと考えています。ここでの最近の回答は、ユーズネットの映画レビューの素晴らしいアーカイブを間接的に示しています、私には思いつかなかった、そしてとても良いです。この特定のプログラムの場合、技術的なユースネット アーカイブやプログラミング メーリング リストでは結果が傾いて分析が難しくなりますが、あらゆる種類の一般的なブログ テキスト、チャットのトランスクリプト、または他の人に役立つ可能性のあるものはすべて非常に役立ちます。また、あまりマークアップされていない部分的またはダウンロード可能な研究コーパス、またはウィキペディアの記事の適切なサブセットを見つけるためのヒューリスティック、またはその他のアイデアは非常に高く評価されています。

(ちなみに、私はダウンロードなしの善良な市民であり、そのような素材をホストするサーバーに要求しない故意に遅いスクリプトを使用しています.何か巨大なものを私に指摘することでモラルハザードを感じた場合に備えて.)

更新: ユーザー S0rin は、ウィキペディアがクロールを要求せず、代わりにこのエクスポート ツールを提供していると指摘しています。Project Gutenberg には、ここで指定されたポリシーがあります。つまり、クロールしないようにしてください。

UPDATE 2 ウィクペディアのダンプは、それらを指摘した回答者のおかげで、進むべき道です。ここから英語版を使用することになりました: http://download.wikimedia.org/enwiki/20090306/、および約半分のサイズのスペイン語のダンプ。それらはクリーンアップするのに多少の作業が必要ですが、それだけの価値があり、リンクには多くの有用なデータが含まれています.


4

7 に答える 7

8
  • ウィキペディアのダンプを使用する
    • 多くのクリーンアップが必要です
  • nltk-data の何かが役立つかどうかを確認します
    • コーパスは通常非常に小さい
  • 風変わりな人々には無料 のコーパスがあります
    • タグ付けされた
    • ツールキットを使用して独自のコーパスをスパイダーできます
  • Europarlは無料で、ほぼすべてのアカデミック MT システムの基礎となっています
    • 話し言葉、翻訳
  • Reuters Corporaは無料ですが、CD でのみ入手できます。

いつでも独自のものを取得できますが、注意が必要です。HTML ページは、多くの場合、大幅なクリーンアップが必要になるため、RSS フィードに限定してください。

これを商業的に行う場合、LDCは実行可能な代替手段になる可能性があります。

于 2008-09-26T08:32:24.643 に答える
4

ウィキペディアは行く方法のように聞こえます。役に立つかもしれない実験的なウィキペディアAPIがありますが、それがどのように機能するのか私にはわかりません。これまでのところ、私はウィキペディアをカスタムスパイダーまたはでさえ削っただけwgetです。

次に、RSSフィードで記事の全文を提供するページを検索できます。RSS、HTMLタグが邪魔にならないため。

メーリングリストやUsenetをスクレイピングすると、いくつかの欠点があります。AOLbonicsとTechspeakを入手することになり、コーパスがひどく傾いてしまいます。

古典的なコーパスはペンツリーバンクと英国国立コーパスですが、それらは有料です。コーパスリストのアーカイブを読んだり、質問したりすることもできます。おそらく、 Webをコーパスツールとして使用すると、有用なデータが見つかるでしょう。

私は実際に建設中の小さなプロジェクトを持っています。それは任意のウェブページでの言語処理を可能にします。今後数週間以内に使用できるようになるはずですが、これまでのところ、実際にはスクレーパーになることを意図したものではありません。しかし、そのためのモジュールを書くことはできたと思いますが、機能はすでにそこにあります。

于 2008-09-26T08:07:46.213 に答える
1

お金を払っても構わないと思っているなら、Penn Treebank などの言語データ コンソーシアムで入手できるデータを調べてみてください。

于 2008-10-10T22:32:32.513 に答える
0

ウィキペディアのデータを調べてみると、彼らがテレビや映画の台本について分析を行っていることに気づきました。私はそれが面白いテキストかもしれないが、すぐにアクセスできないかもしれないと思いました-それはどこにでもあることがわかりました、そしてそれはそれをきれいにすることができるはずであるのに十分に構造化されそして予測可能です。 このサイトは、「ネット上の1つの場所にある一連の映画の脚本と脚本」というタイトルで、同様の質問でこのスレッドに出くわした人にはおそらく役立つでしょう。

于 2008-09-27T00:37:29.617 に答える
0

あなたは明白なものをカバーしました。私が考えることができる他の唯一の領域は、補足しすぎます:

1)ニュース記事/ブログ。

2)雑誌は多くの無料の資料をオンラインで投稿しており、トピックの良い断面を得ることができます。

于 2008-09-26T04:24:06.907 に答える
0

見積もりの​​内容 (限定形式) は、http: //quotationsbook.com/services/で入手できます。

このコンテンツはたまたま Freebase にもあります。

于 2014-01-30T12:29:55.960 に答える