0

みんな。

ここに問題とその背景があります。Web からたくさんの名前実体を収集します。長い用語がたくさんあります。そのため、名前実体 (またはコア ワード) の一般的なことわざを見つけたいと思います。

例えば、

私はロサンゼルスという言葉を持っていて、LAを手に入れたい.

または非常に正式な地名であり、その短い名前を取得したいと考えています。

OOV が多すぎて辞書引けない。

どうすれば問題を解決できますか? ありがとうございます。

4

1 に答える 1

0

ケースが THU = 清華大学のようなものであり、可能な限り正確にしたい場合、既存の知識源に頼る必要があると思います。指定された名前付きエンティティ (TU など)。

次のようなソースを試すことができます: http://acronyms.thefreedictionary.com、またはウィキペディアの鉱山で、括弧を探します。

100% の精度が必要ない場合は、Los Angeles - LA などのイニシャルに基づいて、文字の大文字と小文字を区別することができます。清華大学については、ガイドとして漢字を参照する必要があると思います: 清 - 清华 - 華大学 - 大学 -> 木。

しかし、イニシャルがすべてのケースの基礎となるわけではありません。たとえば、American Online = AOL単なるAO. おそらくGoogle検索を使用してクエリを使用して検証を行うことができます"American Online (AO)"(頭字語を紹介するテキストは通常​​そのように書かれているため、引用符を含めます)、一致するリンクを見つけることはできませんが、クエリ"American Online (AOL)"結果を使用していくつかの完全な一致を見つけることができます.

于 2012-08-24T13:30:38.460 に答える