問題タブ [trigram]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Rの行の値で列を選択する方法
文字列内のトリグラムの出現をマークする大きなデータ フレームがあります。ここで、文字列は行、トリグラムは列、値はトリグラムが文字列内に出現するかどうかを示します。
このようなもの:
特定の行または特定の文字列が 1 であるすべての列/トリグラムを取得したいと考えています。
したがって、行 2 の文字列 'that' の場合、結果は次のようなデータ フレームになります。
どうすればこれを行うことができますか?
google-bigquery - Google BigQuery でトライグラム操作を実行するには?
私はpg_trgm
PostgreSQL のモジュールを使用して、トリグラムを使用して 2 つの文字列間の類似性を計算しています。特に私は使用します:
which returns は、2 つの引数がどの程度似ているかを示す数値を返します (0 から 1 の間)。
Google BigQuery で類似関数 (または同等の関数) を実行するにはどうすればよいですか?
python - バイグラムとトライグラムを元に戻すPython
バイグラムとトライグラムのリストがあります:
バイグラムとトリグラムを逆にする機能があるかどうか疑問に思っていましたa_list
か?すべての文字列を結合して重複を削除できることはわかっていますが、それでは文の構造が失われます。a_list
元の文字列に戻すことができるように、誰かがヒントを持っているかどうかを探しています。
望ましい出力は次のようになります。
nlp - トライグラム マルコフ モデルの実装
与えられた:
および次のとおりです。
為に :
これは1
:
q(runs | the, dog)
xi=runs , xi-2=the , xi-1=dog の場合とは異なる必要があります
確率は次のとおりです (wi は xi に置き換えられています)。
したがって :
ただし、上記の例では、値は 0.5 です。0.5 はどのようにして に到達したのですか?
http://files.asimihsan.com/courses/nlp-coursera-2013/notes/nlp.html#markov-processes-part-1に基づく
java - Java で「トライグラム」を取得する
私はtrigrams
Javaに入るのに少し問題があります。私のプログラムは現在bigrams
うまくいきますが、メソッドの同じ構造を実装して変更しようとするとtrigrams
、うまくいかないようです。trigrams
内の単語の可能なすべての組み合わせを取得したいarraylist
、例えば
数字は最初の単語と最後の単語の間の距離を決定し、 の 3 の単語のすべての組み合わせを取得する必要がありますarraylist
。これは現在、次の場合に正常に機能しbigrams
ます...
ここに方法があります
trigram()
メソッドを変更して、必要なものに適したものを作成するのを手伝ってくれる人はいtrigram
ますか? 助けてくれてありがとう。
postgresql - 内部でトリグラム類似度関数を呼び出す plpgsql 関数は、GIN または GIST インデックスを使用しません
PostgreSQL のレーベンシュタインとトライグラムの類似度関数を組み合わせたいと思いました。トライグラム類似度関数の主な利点は、GIN または GIST インデックスを利用できるため、あいまい一致の結果をすばやく返すことができることです。ただし、別の関数内で呼び出された場合、インデックスは使用されません。この問題を説明するために、元のトライグラムの「similarity」関数を呼び出す plpgsql 関数「trigram_similarity」を次に示します。
関数は実際にはトライグラムの類似関数を呼び出すだけですが、GIN インデックスの使用に関してはまったく異なる動作をします。クエリの WHERE 句内の元のトライグラムの類似度関数は GIN インデックスを使用するため、クエリは結果を迅速に返し、RAM をあまり消費しませんが、trigram_similarity を使用するとそうではありません。大規模なデータセットのあいまい一致分析では、RAM が完全に使用され、アプリケーションがフリーズします...説明のために、クエリの例を次に示します。
このクエリにより、RAM の詰まりが発生し、アプリケーションがフリーズします。「trigram_similarity」を「similarity」に置き換えると、クエリは RAM を過剰に消費することなく高速に実行されます。「trigram_similarity」と「similarity」の動作が異なるのはなぜですか? この「trigram_similarity」関数またはtrigramの類似関数を内部で呼び出す他の関数に対して、GINまたはGISTインデックスの使用を強制する方法はありますか?
「類似度」が使用される場合の分析について説明します。
postgresql - postgresql で n-gram を作成する方法
アプリケーションに検索機能が必要です。
それを達成するためにtrigramを使用しましたが、うまく機能しています。
問題は次のとおりです。
trigram は単語の 3 文字グループのシーケンスを作成しています。1 つのオブジェクトに 3 つ以上の文字が必要です。例えば:
これは以下を返します:{" a"," ab","abc","bcp","cpq","pqr","qrs","rs "}
私が欲しい{" a"," ab","abc","bcp","cpq","pqr","qrs","rs ","abcd","bcpq","cpqr"...}
どうすればこれを達成できますか?
string - トライグラム類似度演算子 % を使用した複数列の類似度比較
トリグラム類似度演算子 % を使用して、PostgreSQL で (WHERE 句で) あいまい一致フィルタリングを実行する必要があります。フィールド ペアの比較は単純table1.field1 % table2.field2
で、GIN または GIST インデックスを使用してパフォーマンスを大幅に向上させることができます。ただし、一度に多数のフィールドを比較する必要があり、最終的な結論は全体的な類似性に基づく必要があります。そのために、次のような連結式を使用できます。
ただし、この式は、個々のフィールドで GIN または GIST インデックスを利用できず、パフォーマンスが低下します。もちろん、明白な解決策は、両方のテーブルに新しい連結フィールドを作成し、それらに GIN インデックスを作成してから、連結フィールドを比較することです。
この場合、GIN または GIST インデックスが使用されています。しかし、さまざまな理由から、このソリューションには満足できず、個々のフィールド GIN または GIST インデックスが使用されるトライグラム演算子 (%) を使用して複数列の類似性比較を実行する別の方法があるのではないかと考えていました。