“trigram”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

3599 参照

r - Rの行の値で列を選択する方法

文字列内のトリグラムの出現をマークする大きなデータフレームがあります。ここで、文字列は行、トリグラムは列、値はトリグラムが文字列内に出現するかどうかを示します。

このようなもの：

特定の行または特定の文字列が 1 であるすべての列/トリグラムを取得したいと考えています。

したがって、行 2 の文字列 'that' の場合、結果は次のようなデータフレームになります。

どうすればこれを行うことができますか?

r subset trigram

2015-05-06T03:33:24.093

0 投票する

2 に答える

709 参照

google-bigquery - Google BigQuery でトライグラム操作を実行するには?

私はpg_trgmPostgreSQL のモジュールを使用して、トリグラムを使用して 2 つの文字列間の類似性を計算しています。特に私は使用します：

which returns は、2 つの引数がどの程度似ているかを示す数値を返します (0 から 1 の間)。

Google BigQuery で類似関数 (または同等の関数) を実行するにはどうすればよいですか?

google-bigquery similarity trigram

2016-01-15T16:09:16.803

0 投票する

2 に答える

832 参照

python - バイグラムとトライグラムを元に戻すPython

バイグラムとトライグラムのリストがあります：

バイグラムとトリグラムを逆にする機能があるかどうか疑問に思っていましたa_listか？すべての文字列を結合して重複を削除できることはわかっていますが、それでは文の構造が失われます。a_list元の文字列に戻すことができるように、誰かがヒントを持っているかどうかを探しています。

望ましい出力は次のようになります。

python trigram

2016-02-18T12:18:01.033

0 投票する

1 に答える

830 参照

nlp - トライグラムマルコフモデルの実装

与えられた：

および次のとおりです。

為に：

これは1: q(runs | the, dog)xi=runs , xi-2=the , xi-1=dog の場合とは異なる必要があります

確率は次のとおりです (wi は xi に置き換えられています)。

したがって：

ただし、上記の例では、値は 0.5 です。0.5 はどのようにしてに到達したのですか?

http://files.asimihsan.com/courses/nlp-coursera-2013/notes/nlp.html#markov-processes-part-1に基づく

nlp markov trigram

2016-02-21T22:06:33.227

0 投票する

2 に答える

2144 参照

java - Java で「トライグラム」を取得する

私はtrigramsJavaに入るのに少し問題があります。私のプログラムは現在bigramsうまくいきますが、メソッドの同じ構造を実装して変更しようとするとtrigrams、うまくいかないようです。trigrams内の単語の可能なすべての組み合わせを取得したいarraylist、例えば

数字は最初の単語と最後の単語の間の距離を決定し、の 3 の単語のすべての組み合わせを取得する必要がありますarraylist。これは現在、次の場合に正常に機能しbigramsます...

ここに方法があります

trigram()メソッドを変更して、必要なものに適したものを作成するのを手伝ってくれる人はいtrigramますか? 助けてくれてありがとう。

java analysis n-gram trigram

2016-02-25T14:19:52.320

0 投票する

2 に答える

287 参照

postgresql - 内部でトリグラム類似度関数を呼び出す plpgsql 関数は、GIN または GIST インデックスを使用しません

PostgreSQL のレーベンシュタインとトライグラムの類似度関数を組み合わせたいと思いました。トライグラム類似度関数の主な利点は、GIN または GIST インデックスを利用できるため、あいまい一致の結果をすばやく返すことができることです。ただし、別の関数内で呼び出された場合、インデックスは使用されません。この問題を説明するために、元のトライグラムの「similarity」関数を呼び出す plpgsql 関数「trigram_similarity」を次に示します。

関数は実際にはトライグラムの類似関数を呼び出すだけですが、GIN インデックスの使用に関してはまったく異なる動作をします。クエリの WHERE 句内の元のトライグラムの類似度関数は GIN インデックスを使用するため、クエリは結果を迅速に返し、RAM をあまり消費しませんが、trigram_similarity を使用するとそうではありません。大規模なデータセットのあいまい一致分析では、RAM が完全に使用され、アプリケーションがフリーズします...説明のために、クエリの例を次に示します。

このクエリにより、RAM の詰まりが発生し、アプリケーションがフリーズします。「trigram_similarity」を「similarity」に置き換えると、クエリは RAM を過剰に消費することなく高速に実行されます。「trigram_similarity」と「similarity」の動作が異なるのはなぜですか? この「trigram_similarity」関数またはtrigramの類似関数を内部で呼び出す他の関数に対して、GINまたはGISTインデックスの使用を強制する方法はありますか?

「類似度」が使用される場合の分析について説明します。

2016-05-04T14:07:26.100

0 投票する

1 に答える

1139 参照

postgresql - postgresql で n-gram を作成する方法

アプリケーションに検索機能が必要です。

それを達成するためにtrigramを使用しましたが、うまく機能しています。

問題は次のとおりです。

trigram は単語の 3 文字グループのシーケンスを作成しています。1 つのオブジェクトに 3 つ以上の文字が必要です。例えば：

これは以下を返します:{" a"," ab","abc","bcp","cpq","pqr","qrs","rs "}

私が欲しい{" a"," ab","abc","bcp","cpq","pqr","qrs","rs ","abcd","bcpq","cpqr"...}

どうすればこれを達成できますか？

postgresql n-gram trigram

2016-07-26T05:30:02.960

0 投票する

1 に答える

2837 参照

string - トライグラム類似度演算子 % を使用した複数列の類似度比較

トリグラム類似度演算子 % を使用して、PostgreSQL で (WHERE 句で) あいまい一致フィルタリングを実行する必要があります。フィールドペアの比較は単純table1.field1 % table2.field2で、GIN または GIST インデックスを使用してパフォーマンスを大幅に向上させることができます。ただし、一度に多数のフィールドを比較する必要があり、最終的な結論は全体的な類似性に基づく必要があります。そのために、次のような連結式を使用できます。

ただし、この式は、個々のフィールドで GIN または GIST インデックスを利用できず、パフォーマンスが低下します。もちろん、明白な解決策は、両方のテーブルに新しい連結フィールドを作成し、それらに GIN インデックスを作成してから、連結フィールドを比較することです。

この場合、GIN または GIST インデックスが使用されています。しかし、さまざまな理由から、このソリューションには満足できず、個々のフィールド GIN または GIST インデックスが使用されるトライグラム演算子 (%) を使用して複数列の類似性比較を実行する別の方法があるのではないかと考えていました。

string postgresql fuzzy-comparison fuzzy trigram

2016-11-01T17:17:43.130

問題タブ [trigram]

Reference