問題タブ [corpus]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
7 に答える
1122 参照

nlp - NLP: (小さな) コーパスの構築、または「あまり専門的でない英語のテキスト ファイルを大量に入手するには?」

小さなコーパスで使用する日常の英語のテキストのアーカイブまたはコレクションを見つける場所について誰か提案がありますか? 私はグーテンベルグ プロジェクトの書籍を作業プロトタイプに使用しており、より現代的な言語を取り入れたいと考えています。ここでの最近の回答は、ユーズネットの映画レビューの素晴らしいアーカイブを間接的に示しています、私には思いつかなかった、そしてとても良いです。この特定のプログラムの場合、技術的なユースネット アーカイブやプログラミング メーリング リストでは結果が傾いて分析が難しくなりますが、あらゆる種類の一般的なブログ テキスト、チャットのトランスクリプト、または他の人に役立つ可能性のあるものはすべて非常に役立ちます。また、あまりマークアップされていない部分的またはダウンロード可能な研究コーパス、またはウィキペディアの記事の適切なサブセットを見つけるためのヒューリスティック、またはその他のアイデアは非常に高く評価されています。

(ちなみに、私はダウンロードなしの善良な市民であり、そのような素材をホストするサーバーに要求しない故意に遅いスクリプトを使用しています.何か巨大なものを私に指摘することでモラルハザードを感じた場合に備えて.)

更新: ユーザー S0rin は、ウィキペディアがクロールを要求せず、代わりにこのエクスポート ツールを提供していると指摘しています。Project Gutenberg には、ここで指定されたポリシーがあります。つまり、クロールしないようにしてください。

UPDATE 2 ウィクペディアのダンプは、それらを指摘した回答者のおかげで、進むべき道です。ここから英語版を使用することになりました: http://download.wikimedia.org/enwiki/20090306/、および約半分のサイズのスペイン語のダンプ。それらはクリーンアップするのに多少の作業が必要ですが、それだけの価値があり、リンクには多くの有用なデータが含まれています.


0 投票する
4 に答える
4539 参照

nlp - CORPUSリソース

私は自動テキストサマライザーを設計しています。このプロジェクトの主要なモジュールの 1 つはTRAINING CORPUSを必要とします。TRAINING CORPUSを提供するか、リンクを参照してダウンロードしてください。期待して感謝

0 投票する
1 に答える
223 参照

nlp - 検索エンジン用ロシア語文書コーパス

私は、英語でクエリを受け取り、ロシア語でドキュメントを検索するクロスランゲージ情報検索に取り組んでいます。このシステムを評価するには、検索するロシア語のドキュメントのコレクションがあると便利です。私が検索できるドキュメントのコレクションや、(ウィキペディアは別として) ロシア語のドキュメントを簡単に収集できる Web サイトを知っている人はいますか?

ドキュメントは何でもかまいませんが、人間の知識の特定の領域 (CS、建築、工学、芸術、文献分析など) に含まれていればよいでしょう。

0 投票する
3 に答える
487 参照

text-processing - Google ブックスの人気のパッセージ機能はどのように開発されましたか?

Google が人気のパッセージ ブロック機能をどのように作成したかについて、誰かが理解しているか、知っているか、または包括的な文献やソース コードを教えてくれるかどうか知りたいです。ただし、同じことができる他のアプリケーションを知っている場合は、回答も投稿してください。

私が何について書いているのかわからない場合は、人気のあるパッセージの例へのリンクを参照してください。書籍 Modeling the legal decision process for information technology applications ... の概要を見ると、Georgios N. Yannopoulos によって次のように表示されます。

人気のパッセージ

...方向、不定。想定外のケースが発生したときに提起される問題については、予期していなかったため、解決していません。公園のある程度の平和が、これらのものを使用することに喜びや興味を持っている子供たちのために犠牲にされるか、それから守られるべきか. 想定外の事態が発生した場合、私たちは問題に直面し、競合する利益の中から最も満足できる方法を選択することで問題を解決することができます. 実行中...ページ86

1968年から2003年までの15冊の本に登場

これは、「機械的」法学に適した世界です。明らかに、この世界は私たちの世界ではありません。人間の立法者は、将来もたらされる可能性のある状況のすべての可能な組み合わせについて、そのような知識を持つことはできません。この予測不可能性は、目標の相対的な不確定性をもたらします。一般的な行動規則 (例えば、公園に車両を持ち込んではならないという規則) を大胆に構築するとき、この文脈で使用される言語は、すべてが満たさなければならない必要条件を修正します... 86 ページ

1968年から2000年にかけて8冊の本に登場

もっと

集中的なパターン マッチング プロセスである必要があります。n-gram モデル、テキスト コーパス、剽窃の自動検出しか思い浮かびません。しかし、n-gram はシーケンス内の次の項目を予測するための確率モデルであり、(私の知る限り) テキスト コーパスは手動で作成されます。そして、この特定の場合、人気のある文章では、大量の単語が存在する可能性があります.

私は本当に迷っています。そのような機能を作成したい場合、どのように、またはどこから始めればよいですか? また、この内容に最適なプログラミング言語を回答に含めてください: F# またはその他の関数型言語、PERL、Python、Java... (私自身が F# ファンになりつつあります)

PS: 誰かが自動剽窃検出タグを含めてくれませんか?

0 投票する
3 に答える
3302 参照

nlp - Project Gutenbergのテキストからヘッダー/フッターを削除するにはどうすればよいですか?

言語学習プロジェクトのコーパスとして使用するために、プロジェクトグーテンベルクのテキストからライセンスを取り除くためにさまざまな方法を試しましたが、教師なしで信頼できるアプローチを思い付くことができないようです。私がこれまでに思いついた最高のヒューリスティックは、最初の28行と最後の398行を削除することです。これは、多数のテキストで機能しました。テキストを自動的に削除する方法に関する提案(多くのテキストで非常に似ていますが、それぞれの場合にわずかな違いがあり、いくつかの異なるテンプレートもあります)、およびそれを確認する方法に関する提案テキストは正確に削除されているので、非常に便利です。

0 投票する
4 に答える
107 参照

regex - 正規表現の検索と置換の支援

テキスト ファイルがあり、各行の形式は次のとおりです。

TAB WORD TAB POS TAB FREQ#

正規表現ウィザードの 1 人が、ファイルから WORDS を分離するのを手伝ってくれませんか? 私は TextPad で検索と置換を行います。うまくいけば、それで済みます。複数の検索と置換は問題ありません。1 つ: 「動詞」を検索すると、品詞だけでなく「動詞」の WORD も表示されることに注意してください。最終的には、1 行に 1 語で終わりたいと思っています。

本当にありがとう!

0 投票する
3 に答える
2781 参照

mysql - 最終的に MySQL データベース用に、無料の英語辞書またはコーパスが必要

MySQL にインポートできる、無料でダウンロードできる辞書 (コーパスの方が適しているかもしれません) を探しています。タイプ (名詞、動詞、形容詞) を関連付ける単語が必要です。どこで見つけることができるかについてのヒントはありますか? 数年前にうまく機能するものを見つけましたが、もう手元にありません。

ありがとう!クリス

0 投票する
2 に答える
8791 参照

python - NLTK - Python 内からどのコーパスがインストールされているかを調べる方法は?

NLTKインストーラーでインストールしたコーパスを読み込もうとしていますが、次のようになりました:

しかし、ダウンロード マネージャー ( nltk.download()) では、パッケージ machado がインストール済みとしてマークされており、nltk_data/corpus/machadoフォルダーがあります。

インストールされているコーパスを Python インタプリタ内から確認するにはどうすればよいですか?

また、このハウツーを使用するには、どのパッケージをインストールすればよいですか? http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html

nltk.examplesハウツーで参照されているモジュールが見つかりません。

0 投票する
2 に答える
5296 参照

text - 固有名詞のリスト?

テキストブロブから名前を除外しようとしています。現在、単語リストを生成して手動でフィルタリングしていますが、まだ 8,000 個の単語が残っているため、より良い方法を探しています。辞書を引いてフィルターで除外することもできますが、それでは smith や Cliff などの名前が選別されてしまいます。

私が必要とするのは、次のいずれかです。

  • 一般的な名前のリスト (5k を超える最も一般的な名前が必要です)
  • 単語でもある名前のリスト

ブラックリストとホワイトリストを組み合わせて、必要なものを取得できます。

0 投票する
1 に答える
146 参照

archive - 昨年の生のニュース記事はどこで入手できますか?

単語の使用に関する特定の統計を計算するコードを書いています。

昨年の期間(たとえば)のさまざまなトピックからの生のニュース記事のデータベースをどこで見つけることができるか誰かが知っていますか?プレーンテキスト形式またはXMLのいずれかであることが望ましい。ランダムなWebサイトからコンテンツを取得しようとするのは良い選択肢ではありません。

将来的には、おそらく自分でアーカイブできると思います。しかし、私は既存の記事の束でプロセスを開始する必要があります...もっと楽しいです。

簡単に解析できる形式で簡単に利用できるコーパスデータセットに関する他のアイデアもありがたいです。