nlp - 頭字語の意味/拡張子を自動的に検出する方法

Question

NLP / 情報抽出 (IE) メソッドを使用して、頭字語の意味 (拡張子) をどのように検出 / 見つけることができますか?

単語またはその頭字語が使用されているかどうかをフリーテキストで検出し、それを同じエンティティ/トークンにマップしたいと考えています。

オンラインで入手できるほとんどの論文は、医学の頭字語に関するものであり、このタスクを完了するためのライブラリを提供していません。

何か案は？

score 6 · Accepted Answer

あなたの質問とコメントを読んで、頭字語からその拡張子へのマッピングを作成したいことがわかりました。

頭字語とその拡張の両方が発生するテキストドキュメントのコレクションがあると仮定すると、アルゴリズムを適用して (頭字語、拡張子) のペアを抽出できます。

このアルゴリズムを英語版ウィキペディアに適用しました。結果はこちらで確認できます。ポルトガルの新しい記事のコレクションにも適用しました。結果はこちら.

score 0 · Accepted Answer

Wordnet contains acronym for tons of words which you can use in variety of programming languages: http://wordnet.princeton.edu/wordnet/

2 に答える 2