2

Academic Sinica の中国語 Wordnet を使用しています。Wordnet 1.6の翻訳です。残念ながら無料ではなく、購入する必要があり、マニュアルには基本的に Wordnet のマニュアルを参照すると書かれています。私が理解しようとしているのは、2 つの単語の類似性を比較する方法です。WordNetSynsetOffset で行われていると思いますが、Wordnet の Web サイトや、これを使用して 2 つの単語を比較する方法に関するドキュメントは見つかりませんでした。実際のアルゴリズムに関しては、これは良いスタートだと思いますhttp://marimba.d.umn.edu/similarity/measures.html

<Record Conut="65">  
    <EnglishLemma>exercise</EnglishLemma>  
    <POS>Noun</POS>  
    <WordNetSynsetOffset Version="1.6">00469856</WordNetSynsetOffset>  
    <EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank>  
    <ChineseTransList>  
        <ChineseTrans>  
            <ChineseLemma>例題</ChineseLemma>  
            <ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank>  
        </ChineseTrans>  
    </ChineseTransList>  
</Record>  
4

2 に答える 2

4

したがって、(コメントに基づいて) あなたが探しているのは WordNet API だと思います。

中国語の形式が同じであれば、インストールに同梱されている WordNet API を使用できる可能性があります。これは C ライブラリです。ドキュメントは次の場所にあります。

http://wordnet.princeton.edu/wordnet/documentation/

基本的に - これがどのように機能するかです。Synset は、識別された synset の同義語のグループであり、Synset Id (00469856) によって一意に識別されます。Synset は、さまざまな形式の意味関係を通じて他の synset に接続されます。ほとんどの類似性メトリックは、1 つの Synset を検索し (以下で参照した数によって、API がこれをサポートする必要があります)、さまざまなメトリックを使用して別の Synset がどれだけ離れているかを確認することによって機能します。

synset には、synset の意味的意味のテキスト記述も含まれています。これは、私たちが慣れ親しんでいる標準的な辞書定義です。場合によっては、いくつかの類似性メトリック (Lesk アルゴリズムなど) は、テキストの説明を使用して、2 つの synset が互いにどの程度「類似」しているかを比較します。

さまざまな言語で API を介して WordNet を検索およびアクセスできるようにする、他の API が利用可能です。

http://wordnet.princeton.edu/wordnet/related-projects/

たとえば、WordNet 3.0 辞書ファイルからの Synset 定義の例を次に示します。

00020671 29 v 04 hypnotize 0 hypnotise 0 mesmerize 0 mesmerise 0 (... さらに省略)...

一意の識別子 00020671 は、この synset を識別します。ここでは催眠術の同義語が 4 つあります。

于 2011-04-16T00:10:08.157 に答える
0

単語には、多くの可能な意味 (synset) が含まれる場合があります。2 つの感覚の類似性を比較したい場合は、まず各単語のあいまいさを解消する必要があります。比較している 2 つの感覚がわかったら、@bwalenz が提案したものを使用できます。

于 2011-06-18T20:19:40.353 に答える