9

固有表現抽出のためにトレーニングするシステム用の無料のタグ付きコーパスを探しています。私が見つけたもののほとんど(ニューヨークタイムズのもののように)は高価で、開いていません。誰か助けてもらえますか?

4

3 に答える 3

2

Python NLTKはコーパスにアクセスできますnltk.corpus.conll2000。呼び出すconll2000.iob_words()と、(単語、品詞、IOB) トリプルのリストが返されます。IOB は、Inside-entity/Outside-entity/Beginning-of-entity 形式のタグです。

ニュースワイヤー スタイルのコンテキストには、合計約 250,000 の単語があります。

于 2011-03-20T23:00:12.130 に答える
1

dbPediaオープンで無料です

dbPedia は WikiPedia から構築された、非常に大きなコーパスです。rdfs:labelすべてのdbPedia タイトル dumpを含むトリプルで Lucene インデックスを構築します。

于 2010-07-25T17:35:23.477 に答える