問題タブ [inverted-index]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1854 参照

java - ドキュメントで見つかった単語のインデックス - Java

テキストファイルを入力として受け取り、単語を取得し、各単語が配置されている各行番号とともに各単語を出力するプログラムを作成しようとしています。だいぶ進んだ…

これまでのところArrayList、ドキュメントで見つかったすべての単語を句読点なしで保持する があります。このリストを出力して、テキスト ファイル内のすべての単語を表示することはできますが、ここからどこへ行くべきかわかりません...何かアイデアはありますか?

例:

各単語をどの行から来たのかを何らかの方法で関連付けることができるようにする必要があるため、各単語に関連付けられた行番号を保持するデータ構造を設定できます。

私はプログラミングの初心者なので、そこにあるすべてのタイプのデータ構造とアルゴリズムにあまり精通していません...私のインストラクターは、動的マルチリンクリストを使用することを提案しましたが、ArrayListsと配列をどのように実装するかわかりません.

どんなアイデアでも大歓迎です。ありがとう!

0 投票する
1 に答える
1139 参照

full-text-search - 分散型全文検索インデックス (別名逆インデックス) を開発する

単一のマシンで単純な逆インデックスを作成する方法を知っています。簡単に言うと、メモリ内に保持される標準のハッシュ テーブルです。 - キー - 単語 - 値 - 単語の位置のリスト 例として、コードは次のとおりです: http://rosettacode.org/wiki/Inverted_Index#Java

質問:

今、私はそれを n ノードに分散させようとしています。

  1. このインデックスを水平方向にスケーラブルにする
  2. このインデックスに自動シャーディングを適用します。

特に自動シャーディングに興味があります。アイデアやリンクは大歓迎です!

ありがとう。

0 投票する
2 に答える
894 参照

algorithm - 逆索引での単語の近接度の計算

検索エンジンの一部として、逆索引を開発しました。

だから私は次のタイプの要素を含むリストを持っています

現在、この記録は単一の単語に対してです。hitLocation には、ドキュメント内で特定の単語が見つかった場所が含まれます。

今私が欲しいのは、要素の近さList<int> hitLocationを別の要素と計算List<int> hitLocationし、リスト内の要素が隣接している場合は、両方のレコードの重みを増やすことです。

私が抱えている問題は、この目的に適したアルゴリズムを見つけることです。どんな助けでも大歓迎です

0 投票する
1 に答える
6990 参照

ruby - 逆インデックスで使用される正規表現を使用して、Ruby で複数行の文字列を一致させる方法は?

割り当て手順: http://pastebin.com/pxJS4gfR

目的:ドキュメントのコレクションを取得し、その逆索引を生成します。

私の計画

  1. コレクションファイルから関連する文字列を取得します
  2. それらをトークン化し、後で使用するためにハッシュに配置します。

ここに示すように、次の正規表現を使用して\.I(.*?)\.B\m、コレクション ファイルから必要なテキストを取得しています: http://rubular.com/r/mOpfuvRT12

編集:私はmudasobwaの提案を使用しました

これは必要なテキストを取得しますが、取得したテキストを後で使用するためにハッシュに配置する必要がありString.scan/regex/、配列の配列を返すため、その操作方法がわかりません。

私は基本的にこの例を複製しようとしています:

0 投票する
1 に答える
428 参照

postgresql - 複合値型の postgres ストア、または逆インデックスを帰属させるより良い方法

hstore に複合型のを設定するための構文を理解できないようです-- 注: レコードを hstore に変換したくありません。

それは簡単なことだと思います。しかし、今日、グーグルは私の友達ではありません。

ユース ケース : カスタム逆インデックス。

データは、語彙素の逆インデックスをモデル化しています。複合データ型は、ドキュメント クラスタリングの実装に使用する語彙素に関連するさまざまな確率です。これを行うためのより良い方法を知っている人はいますか? 転置インデックス内の key->posting ペアに属性をアタッチできる場合は、外部システムを使用することにオープンです。

私がやろうとしていることをしっかりとサポートしていれば、外部のものを使用します。タプルごとに3〜10kの語彙素を貼り付けてからバッチ処理を行うと、hstore全体を解析して解析する必要があるため、厄介になると思います。変換された。

現時点では、私の語彙素はタプルあたり 50 ~ 1k の範囲にあり、ほとんどが 100 未満であり、研究アルゴリズムのためにそれを行っているだけです。しかし、これを行うためのより良い方法が必要です。