みんな。
ここに問題とその背景があります。Web からたくさんの名前実体を収集します。長い用語がたくさんあります。そのため、名前実体 (またはコア ワード) の一般的なことわざを見つけたいと思います。
例えば、
私はロサンゼルスという言葉を持っていて、LAを手に入れたい.
または非常に正式な地名であり、その短い名前を取得したいと考えています。
OOV が多すぎて辞書引けない。
どうすれば問題を解決できますか? ありがとうございます。
みんな。
ここに問題とその背景があります。Web からたくさんの名前実体を収集します。長い用語がたくさんあります。そのため、名前実体 (またはコア ワード) の一般的なことわざを見つけたいと思います。
例えば、
私はロサンゼルスという言葉を持っていて、LAを手に入れたい.
または非常に正式な地名であり、その短い名前を取得したいと考えています。
OOV が多すぎて辞書引けない。
どうすれば問題を解決できますか? ありがとうございます。
ケースが THU = 清華大学のようなものであり、可能な限り正確にしたい場合、既存の知識源に頼る必要があると思います。指定された名前付きエンティティ (TU など)。
次のようなソースを試すことができます: http://acronyms.thefreedictionary.com、またはウィキペディアの鉱山で、括弧を探します。
100% の精度が必要ない場合は、Los Angeles - LA などのイニシャルに基づいて、文字の大文字と小文字を区別することができます。清華大学については、ガイドとして漢字を参照する必要があると思います: 清 - 清华 - 華大学 - 大学 -> 木。
しかし、イニシャルがすべてのケースの基礎となるわけではありません。たとえば、American Online = AOL
単なるAO
. おそらくGoogle検索を使用してクエリを使用して検証を行うことができます"American Online (AO)"
(頭字語を紹介するテキストは通常そのように書かれているため、引用符を含めます)、一致するリンクを見つけることはできませんが、クエリ"American Online (AOL)"
結果を使用していくつかの完全な一致を見つけることができます.