同時期の英語ニュースドメインのテキストと音声(書き起こされた)のコーパスをタグ付けした名前付きエンティティを探しています。誰かがコーパスに関する情報を持っている場合は、リンクを送ってください。
ありがとうカダカ
Open American National Corpusが非常に役立つことがわかりました。彼らは、ニューステキストと転写されたスピーチの両方を含む名前付きエンティティのタグ付けされた部分を提供しますが、人々の軍隊ではなく、BBN NE Tagger を使用してタグ付けされていることに注意してください. ただし、この種のコーパスを使用して他のモデルをブートストラップすると、まともな結果が得られました。
幸運を祈ります。あなたの結果を知りたいです。