奇妙な問題があります。
スタンフォードの名前付きエンティティ認識 (ner) タグ付けを使用してタグ付けしたい文 (約 10 万件) のリストがあります。stanford ner デモ Web サイト (Java Demo Code) から提供されている次のコード行を使用してタグ付けしていました。
for (String str : List<sentences>) {
System.out.print(classifier.classifyToString(str, "slashTags", false));
}
タグ付けされているはずの、まったくタグ付けされていないいくつかの文を手動でチェックするまで、すべてがうまくいっていると思っていました。しかし、タグ付けされていないこれらの文がいくつかのサンプル リストに厳選され、上記のコードでテストされると、タグ付けされます。だから私はどこが間違っているのか混乱しています。正しくタグ付けされていない文章は 1000 文から 1500 文の範囲のようです。したがって、これらの誤ってタグ付けされた文を別のリストで実行すると、タグ付けされます。データセットのサイズ (10 万) は分類器に影響を与えていますか?
例: 次の文を考えてみましょう - "IBM Corporation Introduction" 上記のような文は、私の 10 万のデータセットにかなりの数存在します。したがって、10 万のデータセットに対して上記のコードを使用してタグ付けを行うと、これらのような文の多くにはタグ付けがまったくありません。しかし、それらを手で選んでリストに入れ、タグ付けを行うと、タグ付けされます。
私はすべてのアプローチを試しましたが、データセット全体にタグを付けると、上記のような文にタグが付けられないという同じ結果になります。
次の3つの異なる方法を試しました1.classifier.classifyToString(inputString、 "slashTags"、false)2.classifier.classify(inputString)3.classifier.classifyToCharacterOffsets(inputString)
私が間違っているアイデアや提案はありますか?
ありがとう