ツイートのテキストに記載されている英国の大学名を特定する方法を探しています。
私は完全な大学名のリストを持っていますが、問題は "aber uni" (Aberystwyth Uni)、"staffs uni" (スタッフォードシャー大学)、または "portsmouth" (ポーツマス大学) などの短縮バージョンを扱っています。
Named Entity Recognition を試みるために Apache Stanbol と OpenNLP のルートを調べましたが、これらは完全な名前に一致しますが、名前のバリエーション (または実際には名前の小文字バージョン) を識別するためにそれらをトレーニングする手段を見つけることができないようです識別されていない)。