問題タブ [inverted-index]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

206 問題

0 投票する

1 に答える

227 参照

search-engine - 転置インデックスに新しいドキュメントを追加する方法

次のように、MySQL データベースに位置レコードが格納されている転置インデックスを考えてみましょう。

ここで、新しい文書が作成され、その単語のほとんどが既に索引付けされています。今のインデックス操作はどうあるべきですか? 基本的なアプローチは、単語がデータベースに既に存在する場合、そのドキュメントを取得し、現在のドキュメントをそれに追加してレコードを更新するようです。

ドキュメントの数が数百万に達するまで増加しても、これは持続可能でしょうか? Solr、Xapain、Google、Bing などの実際の検索エンジンは、これをどのように処理しますか?

search-engine inverted-index

2013-05-17T04:32:00.213

0 投票する

1 に答える

259 参照

java - カスタム検索を使用した Google 検索

転置インデックスの作成を依頼されたので、まず、Google で単語を検索して結果を配列リストに入れる Java プログラムを作成したいと思います。

これが私のコードです：

プログラムは途中でクラッシュすることなく実行されますが、(リンクを含まない) ページのソースコードしか取得できません。

コードで何を変更する必要がありますか? たぶん、まったく別の方法が必要ですか？

2013-06-18T13:50:25.303

0 投票する

3 に答える

6349 参照

c++ - 逆索引: 一連の文書から語句を検索

逆インデックス構造、特にブールクエリと単語レベルの粒度を可能にする構造を実装しています。

私はテキストの大規模なデータベースを持っており、すべての単語について、それがどのファイルにあるのか ( IDdoc)、ファイルのどこにあるのか( ) を示すインデックスを保持していますposition。(単語は、多くのファイルに存在する場合もあれば、1 つのファイルの多くの場所に存在する場合もあります。)

したがって、各単語のベクトルを保持します。

(ベクトルは IDdoc で並べ替えられ、次に位置で昇順で並べ替えられます。)

私は言葉stringでできたオブジェを持っています。これが私が探している言葉です。

フレーズ内の各単語について、どのドキュメントにこのフレーズが含まれているかを知りたいので、s のベクトルを返します。IDdoc

これが私の解決策の試みです：

c++algorithm intersection inverted-index

2013-06-27T22:41:15.703

0 投票する

2 に答える

845 参照

search - Apache lucene 逆索引

Lucene インデックスは tf-idf を重みとして使用しますか? ドキュメントごとに独自の統計と重みを定義して、それらを Lucene に「プラグイン」することは可能ですか?

search lucene inverted-index

2013-07-10T05:17:17.520

1 2 3 4 5 6 7 8 9 10

問題タブ [inverted-index]

search-engine - 転置インデックスに新しいドキュメントを追加する方法

java - カスタム検索を使用した Google 検索

c++ - 逆索引: 一連の文書から語句を検索

search - Apache lucene 逆索引

Reference