問題タブ [n-gram]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
351 参照

python - 検索語を「埋める」ための NLP アルゴリズム

検索語のリストに「入力」するためのアルゴリズム (自然言語処理技術に依存すると想定しています) を作成しようとしています。私が知らないこの種の名前があるかもしれません。この種の問題は何と呼ばれ、どのようなアルゴリズムで次のような動作が得られるでしょうか?

入力:

出力:

基本的に、「Dolphin」が表示される場合は、事実上、バイグラム「Dolphin Watching」または「Miami Dolphins」のいずれかにあることを理解する必要があります。Python でのソリューションが推奨されます。

0 投票する
2 に答える
261 参照

database-design - 半検索可能だがコンパクトな形式でテキストを保存する

一部のコモディティ ハードウェアで使用するために、 Google N-Gram データセットを取得したいと考えています。問題は、これらの小さなサーバーでは、保存する必要があるデータのサイズを処理できないことです。

このことから、WordNET や検索エンジンなどの他の大きなテキスト ベースのシステムがこの問題をどのように処理するかを考えるようになりました。データを正規化して検索可能な形式にする方法はあるのでしょうか?

N-Gram に戻ると、私の考えは、ID と共に 1-Gram のすべての単語をデータベースに保存することです。次に、その ID を使用して、ソーシャル ネットワークで友達関係を追跡するのと同じ方法で、+2 グラム チェーンに関係を作成します (行として 2 つの ID)。

このすべてのデータをコンパクトな方法で保存するより効率的な方法はありますか?

おそらく、テキストを圧縮する代わりに、単語のペア (またはシーケンス) に対してハッシュを実行して、パスワードと同じように検索可能でありながら、より小さなストレージ サイズを実現できます。

0 投票する
2 に答える
4846 参照

csv - Google NGram の結果を .csv として保存

Google Ngram の結果 http://books.google.com/ngrams/ を csv として保存する簡単な方法はありますか?

次のようなリストを取得するように

等々?

生データをダウンロードしましたが、その処理方法がわかりません。それらの csv を OpenOffice で開くと、単語が 1 つも表示されません。

0 投票する
1 に答える
835 参照

database - 多数のngramを効率的に保存するにはどうすればよいですか?

私は16進形式のバイナリアイテムから4グラムを抽出しています。これは、アイテムごとに最大65535グラムを使用できることを意味します。

すべてのアイテムをグラムとその頻度に関連付けたいのですが、すべてを保存する方法に戸惑っています。これは私の最初のデータマイニングの経験であり、ベストプラクティスや一般的なツールについての手がかりがありません。

のようなスキーマを使用してリレーショナルデータベースに大きなテーブルを作成し、(ITEM-NAME, GRAM1, GRAM2... GRAM65535)その中に頻度を格納することを簡単に考えていましたが、列の数が多いため、このアプローチは非常に非現実的であることがわかります。

もっと良い解決策があるはずですが、どこを見ればいいのかわかりません。

提案?

0 投票する
2 に答える
3772 参照

lucene - SOLR: NGramFilterFactory の問題

40000 を超えるドキュメントを含むイントラネットの検索エンジンとして SOLR を実行しています。copyField ディレクティブを使用してtitlekeywordsフィールドをフィールドにコピーし、そのフィールドcontentのみにインデックスを付けることで、非常にシンプルにしています。

今から、この構成を使用していました:

それはかなりうまくいきましたが、ワイルドカードを手動で設定しなければならないという不満がありました。そこでNGRamFilterFactory、アナライザーの最後の行として追加しました。

問題は次のとおりです。古い構成では、特定のキーワード(「Sony」)で7つのドキュメントを見つけていました。現在、2 つしかありません。インデックスを完全にフラッシュし、最初から作成しました。その行を再度取り出してドキュメントのインデックスを再作成すると、再び期待どおりに機能します。それは私が持っている質問に私を導きます:

  • FilterFactory は私にとって正しいものですか、それともトークナイザーファクトリーであるべきですか? トークナイザーの場合: フィルターの後に実行できますか?
  • ドキュメントを xml として 75 個のドキュメントのトランシェに追加し、最後にコミットします。もっとコミットするべきですか?
  • 私が今忘れていたもう一つがありました.. grr

前もって感謝します!

0 投票する
7 に答える
28649 参照

r - nグラムを見つけるために必要なアルゴリズムは何ですか?

ngram を見つけるために使用されるアルゴリズムは何ですか?

入力データが単語の配列であり、検索したい ngram のサイズであると仮定すると、どのアルゴリズムを使用する必要がありますか?

Rを優先してコードを求めています。データはデータベースに保存されるため、plgpsql関数でもかまいません。Java は私がよく知っている言語なので、別の言語に「翻訳」できます。

私は怠け者ではありません。コードを求めているだけです。なぜなら、既に行われているアルゴリズムを実行しようとして車輪を再発明したくないからです。

編集:各 n-gram が何回出現するかを知ることが重要です。

編集 2: N-GRAMS 用の R パッケージはありますか?

0 投票する
3 に答える
5322 参照

scala - scalaでnグラムを生成するには?

scalaのn-gramに基づいて解離プレスアルゴリズムをコーディングしようとしています。大きなファイルの n-gram を生成する方法: たとえば、「蜂は蜂の蜂」を含むファイルの場合。

  1. まず、ランダムな n-gram を選択する必要があります。たとえば、蜂。
  2. 次に、(n-1) 個の単語で始まる n-gram を探す必要があります。たとえば、蜂の巣。
  3. この n-gram の最後の単語を出力します。その後、繰り返します。

やり方のヒントを教えてください。ご不便おかけしてすみません。

0 投票する
2 に答える
6784 参照

python - Pythonを使用したユニグラム

テキストファイルからユニグラムを生成しようとしています。ただし、指定されたファイルの最初の行のバイグラムのみが表示されます。ファイル内のすべての文のユニグラムを表示したいと思います。

なぜ文のユニグラムが表示されないのですか?また、これをバイグラムに変換するにはどうすればよいですか?

前もって感謝します。

data.txtは、文を含むテキストファイルです。2つの文があります-

出力を取得しています:

コード

0 投票する
2 に答える
6189 参照

sql - SQL クエリを使用した n-gram テーブルの生成

SQL データベースに含まれる大規模なデータベース (およそ 300 項目) のレコードを検索するために、JavaScript クライアント側であいまい検索を実装しようとしています。私の制約は、データベースでライブ クエリを実行できないことです。毎晩のバッチ ジョブ中にフラット ファイルとして「インデックス」を生成する必要があります。したがって、次のようなデータベースから始めます。

次のような単一のクエリ内で作成する必要があります。

などなど、誤字脱字はご容赦ください。ここでの規則は、''n' が最初の列の文字列の長さであること、az と _ のみが有効な文字であること、その他の文字は小文字に正規化されるか、_ にマップされること、n-gram によるグループであることです。句をテーブルに適用できます。したがって、特定の n-gram をすばやく検索して、そのシーケンスを含む行のすべての ID のリストを取得できるテーブルを取得したいと考えています。私は、この問題を解決できるほど賢い SQL cookie ではありません。あなたはできる?

0 投票する
3 に答える
272 参照

python - リスト内の文からバイグラムを生成する

テスト段落から分割された文を含むリストがあります。この文のリストからバイグラムを生成しようとしています。しかし、私は得ています:

私のコード:

.....