nltk - 固有表現抽出のための無料のタグ付きコーパス

Question

固有表現抽出のためにトレーニングするシステム用の無料のタグ付きコーパスを探しています。私が見つけたもののほとんど（ニューヨークタイムズのもののように）は高価で、開いていません。誰か助けてもらえますか？

score 2 · Accepted Answer

Python NLTKはコーパスにアクセスできますnltk.corpus.conll2000。呼び出すconll2000.iob_words()と、(単語、品詞、IOB) トリプルのリストが返されます。IOB は、Inside-entity/Outside-entity/Beginning-of-entity 形式のタグです。

ニュースワイヤースタイルのコンテキストには、合計約 250,000 の単語があります。

score 1 · Accepted Answer

dbPediaはオープンで無料です

dbPedia は WikiPedia から構築された、非常に大きなコーパスです。rdfs:labelすべてのdbPedia タイトル dumpを含むトリプルで Lucene インデックスを構築します。

nltk - 固有表現抽出のための無料のタグ付きコーパス

3 に答える 3

Related

Reference