問題タブ [ws4j]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
944 参照

java - 単語の類似性から文全体の類似性への行き方

WS4J を使用して文の類似性メソッドを実装しました。

2つの文の単語の類似性に基づく記事の文の類似性について読んだことがあります。しかし、単語の類似度に基づいて文全体の類似度を計算して単一の値を返すメソッドは見つかりませんでした。

同様の質問が、この Web サイト ( sentence-similarity-using-ws4j)で行われました。

ご覧のとおり、WS4J を使用して、文内の任意の単語が他の文で synset 一致を検出する (一致する値が 0.9 を超える) 場合に、一致メッセージを返すまでコーディングすることができました。しかし、これは良いアプローチではないと思います。

Yuhua et al [2] の記事を見つけました。すべて非常に便利ですが、全体的な文の類似性に使用した方法を理解できません。

コードを Java で作成したので、Java の実装を探していました。

[2]: Li, Y., McLean, D., Bandar, ZA, O'shea, JD, & Crockett, K. (2006). セマンティック ネットとコーパス統計に基づく文の類似性。知識とデータ工学、IEEE トランザクション、18(8)、1138-1150。

0 投票する
0 に答える
41 参照

java - jsoup を使用してテーブルからテキストとアンカー値を抽出する

実際には、ws4j を使用して意味的類似性を測定するために、すべてのテーブルからテキスト データとアンカー値 (ahref からのリンク テキストと URL) を抽出する必要があります。次のアドレスの Web ページから測定値を取得する必要があり ます。 =Finally%2C+a+massive+hurricane+attacked+my+home .

この問題について何か助けていただければ幸いです。

0 投票する
1 に答える
1445 参照

java - Web API で得られた値と ws4j のソースから得られた値の違いを解決するにはどうすればよいですか?

ws4j ライブラリを使用して、文のセマンティック マッチング用に次の API を開発しました。しかし、意味的な類似性を得ることができません。出力は、冗長または 0 の値を示すイメージとして添付されています。呼び出されないライブラリはありますか?

結果セット

0 投票する
0 に答える
345 参照

java - W-Palmer 関連性計算機は 1.33333 スコアを返します

WS4j を使用して、2 つの単語の類似性を見つけています。また、Wu-Palmer 関連性計算機を使用しています。多くの単語で問題なく動作していますが、'play' と 'playing' の類似性を見つけようとすると、スコア 1.3333 になりました。0 と 1 または -1 の間で返さなければならないため、これは不可能です。理由がわかりません。その Web インターフェイス ' http://ws4jdemo.appspot.com/?mode=w&s1=&w1=play&s2=&w2=playing ' を使用すると、0.875 が返されました。これが私のコードです:

0 投票する
0 に答える
135 参照

java - Porter Stemmer は、意味的類似性を計算するときに異なる結果を返します

ws4j ライブラリでいくつかのテストを行っています。特に、"university" と "teaching" という 2 つのテスト ワードの類似度を計算したいと考えています。ステミングを適用すると、類似度は 0 になります... ステミングを適用しないと、結果は 0 より高くなります。逆の影響: 使用すると、正の類似性が得られます。それ以外の場合、類似度は 0 です。

なぜそれが起こるのですか?両方の例で同様の結果が得られるより一般的なアプローチはどれですか?

0 投票する
1 に答える
269 参照

java - 一部の構成ファイルと WordNet (200Mb) に対する WS4J の依存関係

単語間の意味的類似性を計算するために WS4J API を使用しています。

問題は、この API が、プロジェクトのディレクトリに配置する必要がある次の構成ファイルに依存していることです (私/resourcesはこの目的で使用します)。

さらに、このライブラリが Maven リポジトリで利用できないのは残念です。

上記のファイルをローカル プロジェクトのフォルダーに配置しないようにする方法はありますか? これらのファイルは 100Mb 以上を占有します....

ライブラリ DISCO もチェックしましたが、WS4J ほど強力ではないようです。