NLP / 情報抽出 (IE) メソッドを使用して、頭字語の意味 (拡張子) をどのように検出 / 見つけることができますか?
単語またはその頭字語が使用されているかどうかをフリー テキストで検出し、それを同じエンティティ/トークンにマップしたいと考えています。
オンラインで入手できるほとんどの論文は、医学の頭字語に関するものであり、このタスクを完了するためのライブラリを提供していません。
何か案は?
NLP / 情報抽出 (IE) メソッドを使用して、頭字語の意味 (拡張子) をどのように検出 / 見つけることができますか?
単語またはその頭字語が使用されているかどうかをフリー テキストで検出し、それを同じエンティティ/トークンにマップしたいと考えています。
オンラインで入手できるほとんどの論文は、医学の頭字語に関するものであり、このタスクを完了するためのライブラリを提供していません。
何か案は?
あなたの質問とコメントを読んで、頭字語からその拡張子へのマッピングを作成したいことがわかりました。
頭字語とその拡張の両方が発生するテキスト ドキュメントのコレクションがあると仮定すると、アルゴリズムを適用して (頭字語、拡張子) のペアを抽出できます。
AS Schwartz と MA Hearst によるBiomedical Text の略語定義を識別するための単純なアルゴリズムは、パターンを調べることで正確にこれを行います。Java の実装は、こちらから入手できます。
このアルゴリズムを英語版ウィキペディアに適用しました。結果はこちらで確認できます。ポルトガルの新しい記事のコレクションにも適用しました。結果はこちら.
Wordnet contains acronym for tons of words which you can use in variety of programming languages: http://wordnet.princeton.edu/wordnet/
Or get from Freebase. See this: What is one way to find related names using the web?