固有表現抽出のためにトレーニングするシステム用の無料のタグ付きコーパスを探しています。私が見つけたもののほとんど(ニューヨークタイムズのもののように)は高価で、開いていません。誰か助けてもらえますか?
10505 次
3 に答える
2
Python NLTKはコーパスにアクセスできますnltk.corpus.conll2000
。呼び出すconll2000.iob_words()
と、(単語、品詞、IOB) トリプルのリストが返されます。IOB は、Inside-entity/Outside-entity/Beginning-of-entity 形式のタグです。
ニュースワイヤー スタイルのコンテキストには、合計約 250,000 の単語があります。
于 2011-03-20T23:00:12.130 に答える
1
dbPediaはオープンで無料です
dbPedia は WikiPedia から構築された、非常に大きなコーパスです。rdfs:label
すべてのdbPedia タイトル dumpを含むトリプルで Lucene インデックスを構築します。
于 2010-07-25T17:35:23.477 に答える