問題タブ [sentence-similarity]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

184 問題

0 投票する

0 に答える

885 参照

apache-spark-mllib - テキスト文間の類似性を刺激する

テキストメッセージ (約 100 万件のテキストメッセージ) 間の類似性を見つけようとしています。私の実装では、各行がエントリを表します。

これらのテキスト間の類似性を計算するために、tfidfとcolumnSimilaritiesを採用します

以下はコードです：

問題は、ファイル内の類似メッセージの数が増えると、類似度が低下することです。

例えば

以下のファイルがあるとします。

前のコマンドの出力は次のとおりです。

%cat 出力/part-000*

出力の各行は、次のように 2 つの行の類似性を表します: "lineX -1"、"lineY -1"、"similarity"

最後の 2 行の類似性を示す出力は 5.0,6.0,0.7373482646933146 で、問題ありません。

2行は、

類似度は0.7373482646933146

ファイル入力が次の場合：

出力は次のとおりです。

最初の例でテストされた同じ行間の出力は次のとおりです: 7.0,8.0,0.5733398760974173

同じ行の類似度は 0.7373482646933146 から 0.5733398760974173 に減少しました

2行は次のとおりです。

類似度は0.5733398760974173

類似した行メッセージが入力で増加したときに、文間の類似性が低下しないようにするための解決策はありますか? （ここでtfidfが問題になる可能性がありますか？類似した文の数が増えると、tfidfにより類似度が低下しますか？）
同様のメッセージをクラスター化する解決策はありますか?

つまり、上記の入力には、次のような複数の文が含まれています。

こんにちは世界 123

次のような文についても同じです。

法人コード 123-234 このリンクをタップして、corporate.co/1234 を確認することもできます

類似性の出力に基づいてグループ化できますか?

2017-11-13T11:19:48.873

0 投票する

1 に答える

2520 参照

python - Keras は、レイヤ出力を分割するときに「''Tensor' object has no attribute '_keras_shape''」をスローします

次元の文ペアの文埋め込み出力 X があります2*1*300。この出力を形状の 2 つのベクトルに分割して1*300、その絶対差と積を計算します。

現在、私が行うx[:,0]と、というエラーがスローされますAttributeError: 'Tensor' object has no attribute '_keras_shape'。テンソルオブジェクトの分割の結果は、を持たないテンソルオブジェクトであると仮定します_keras_shape。

誰かがこれを解決するのを手伝ってくれますか? ありがとう。

python tensorflow keras word-embedding sentence-similarity

2017-12-03T08:21:28.263

1 2 3 4 5 6 7 8 9 10

問題タブ [sentence-similarity]

apache-spark-mllib - テキスト文間の類似性を刺激する

こんにちは世界 123

法人コード 123-234 このリンクをタップして、corporate.co/1234 を確認することもできます

python - Keras は、レイヤ出力を分割するときに「''Tensor' object has no attribute '_keras_shape''」をスローします

Reference