問題タブ [inverted-index]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
227 参照

search-engine - 転置インデックスに新しいドキュメントを追加する方法

次のように、MySQL データベースに位置レコードが格納されている転置インデックスを考えてみましょう。

ここで、新しい文書が作成され、その単語のほとんどが既に索引付けされています。今のインデックス操作はどうあるべきですか? 基本的なアプローチは、単語がデータベースに既に存在する場合、そのドキュメントを取得し、現在のドキュメントをそれに追加してレコードを更新するようです。

ドキュメントの数が数百万に達するまで増加しても、これは持続可能でしょうか? Solr、Xapain、Google、Bing などの実際の検索エンジンは、これをどのように処理しますか?

0 投票する
1 に答える
259 参照

java - カスタム検索を使用した Google 検索

転置インデックスの作成を依頼されたので、まず、Google で単語を検索して結果を配列リストに入れる Java プログラムを作成したいと思います。

これが私のコードです:

プログラムは途中でクラッシュすることなく実行されますが、(リンクを含まない) ページのソース コードしか取得できません。

コードで何を変更する必要がありますか? たぶん、まったく別の方法が必要ですか?

0 投票する
3 に答える
6349 参照

c++ - 逆索引: 一連の文書から語句を検索

逆インデックス構造、特にブールクエリと単語レベルの粒度を可能にする構造を実装しています。

私はテキストの大規模なデータベースを持っており、すべての単語について、それがどのファイルにあるのか ( IDdoc)、ファイルのどこにあるのか( ) を示すインデックスを保持していますposition。(単語は、多くのファイルに存在する場合もあれば、1 つのファイルの多くの場所に存在する場合もあります。)

したがって、各単語のベクトルを保持します。

(ベクトルは IDdoc で並べ替えられ、次に位置で昇順で並べ替えられます。)

私は言葉stringでできたオブジェを持っています。これが私が探している言葉です。

フレーズ内の各単語について、どのドキュメントにこのフレーズが含まれているかを知りたいので、s のベクトルを返します。IDdoc

これが私の解決策の試みです:

0 投票する
2 に答える
845 参照

search - Apache lucene 逆索引

Lucene インデックスは tf-idf を重みとして使用しますか? ドキュメントごとに独自の統計と重みを定義して、それらを Lucene に「プラグイン」することは可能ですか?