名前付きエンティティの検出に NLP を使用する Java アプリを作成しています。アプリケーションでスタンフォード大学の Named Entities コードを使用しています。名前を検出し、データベースと比較するアプリケーションを既に作成しました。しかし、私はテキスト自体に問題があります。
名前の言及があるテキスト内の文を分類して無視したい。
例:
'.... この作家は、ハーマン・メルヴィルと同じ文体を持っています。.. '
名前付き実体はハーマン・メルヴィルですが、テキストはハーマン・メルヴィルではなく、他の作家に関するものです。ハーマン・メルヴィルは真のネガティブです。
もう一つの例
オーブ。
アレックス・パターソンは、オーブがアルバムやコンサートで見分けがつかないほどあいまいなサンプルを操作していることを誇りに思っています。彼が他のアーティストの作品を無許可で使用したことは、ミュージシャン、特にリッキー・リー・ジョーンズとの論争につながりました。1990 年代のライブ ショーの間、オーブはラップトップやデジタル メディアに切り替える前に、ライブ ミキシングとサンプリング用に最適化されたデジタル オーディオ テープ マシンを使用して演奏しました。パフォーマンス方法の変更にもかかわらず、オーブはカラフルな光のショーとサイケデリックなイメージをコンサートで維持しました. これらの視覚的に集中的なパフォーマンスにより、批評家はグループをピンクフロイドと比較するようになりました。
検出されたアーティストは「The Orb」と「Pink Floyd」です。テキストはオーブに関するものですが、グループはピンク・フロイドと比較されています。そこで、NLP を使用して「Pink Floyd」を無視し、「The Orb」を Named Entity としてサブジェクトとして検出したいと考えています。
私はすでにサンプルテキストを含むデータベースを持っており、そこではライターがすでに検出されています。お試しセットとして使えそうです。そして、存在するすべてのライターのデータベースがあります。
この問題を解決する方法について、いくつかの例や資料を読みたいと思います。議論でもいいです。