問題タブ [tagged-corpus]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
arabic - アラビア語のタグ付きコーパス
私は文法に取り組んでいて、それが必要なので、誰でも無料のアラビア語のタグ付きコーパスを知っていますか.
どうもありがとう。ハニ・アルムスリ……
nltk - 固有表現抽出のための無料のタグ付きコーパス
固有表現抽出のためにトレーニングするシステム用の無料のタグ付きコーパスを探しています。私が見つけたもののほとんど(ニューヨークタイムズのもののように)は高価で、開いていません。誰か助けてもらえますか?
nlp - NLP アプリケーションのセマンティック ロール タグを含むコーパス
そのため、文からセマンティック イベントの説明を抽出することを学習する NLP プログラムを作成しましたが、現時点では、私のトレーニング セットはセマンティック イベント コンポーネントに解析した文に限定されています。
この方法で作業は完了しますが、事前に解析された大量のテキスト コーパスに代わる適切な方法とは言えません。残念ながら、そのようなコーパスを見つけようとする私の試みはすべて無駄であることが証明されました.
私が具体的に必要としているのは、文中の各単語 (または単語のグループ) の意味的役割をタグ付けしたコーパスです。私が考えていた役割の例は次のようなものです。
- エージェント
- アクション
- 忍耐強い
- 楽器
- 共同代理人
- 共同患者
- 位置
- 副詞
さらに詳細が必要な場合は、お気軽にお問い合わせいただくか、私のものと同じ制約を持つおもちゃのコーパを使用するこのペーパーを参照してください。
python - Python と NLTK を使用して Penn Treebank から一連の文法規則を取得するにはどうすればよいですか?
私はNLTKとPythonにかなり慣れていません。私は例にあるおもちゃの文法を使用して文の解析を作成してきましたが、自分で書いたりおもちゃを使用したりするのではなく、ペン ツリーバンクの一部から学んだ文法を使用できるかどうかを知りたいです。文法?(私はMacでPython 2.7を使用しています)どうもありがとう
python - 「バイト スパン」をテキスト ドキュメントに一致させる、Python
2 セットの .txt ファイルを含む注釈付きコーパスを使用しています。最初のセットには注釈が付けられたドキュメント (つまり、記事、ブログ投稿など) が含まれ、2 番目のセットには実際の注釈が含まれます。注釈を注釈付きのテキストに一致させる方法は、「バイト スパン」を使用することです。readme ファイルから:
質問: ドキュメントの開始バイトと終了バイトにインデックスを付けて、元のドキュメントのテキストに注釈を一致させるにはどうすればよいですか? 何か案は?私はこれにPythonで取り組んでいます...
nlp - Wordnet(Word Sense Annotated)コーパス
私は自然言語処理のためにさまざまなコーパスを利用してきました。また、WordnetWordSensesで注釈が付けられたコーパスを探していました。
コーパスは手動で作成する必要があるため、この情報を含む大きなコーパスはおそらくないことを理解していますが、何かを取り除く必要があります。
また、コーパスが存在しない場合は、少なくとも意味の注釈が付けられたngramデータベースがあります(単語がその定義のそれぞれである時間の割合、または単語の意味がどれほど一般的であるかに応じて、各ワードネット定義の数値カウント)は)?
parsing - ツリーバンクの作成に使用される構文注釈ツール
優れた構文アノテーションツールをお勧めできますか?小さな(フレーズ構造)ツリーバンクを作成したいと思います。
依存関係ツリーバンクに使用されるツールがいくつかあることは知っていますが、その1つがガキです。 Stanford Parserには解析ツリービューアが付属していますが、私の知る限り、解析ツリーを作成または編集することはできません。
前もって感謝します!
PS:私もWorkFreakを試しましたが、これは問題ないように見えますが、いくつかのランタイム例外を除いて私を歓迎します:)
java - 注釈からテキスト ドキュメント、Python または Java へのバイト スパンを一致させる
注釈とドキュメントが別のファイルに保存されている MPQA オピニオン コーパスを使用しています。注釈ファイルには、ドキュメントへの文字オフセット (バイト スパン) が含まれています (
例: 850,861 )。
これらのバイト スパンをテキスト ドキュメントに一致させるにはどうすればよいですか? どんなアイデアにも感謝します!私は Python を使用することを好みますが、Java でのソリューションも問題ありません。