問題タブ [inverted-index]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search-engine - 転置インデックスに新しいドキュメントを追加する方法
次のように、MySQL データベースに位置レコードが格納されている転置インデックスを考えてみましょう。
ここで、新しい文書が作成され、その単語のほとんどが既に索引付けされています。今のインデックス操作はどうあるべきですか? 基本的なアプローチは、単語がデータベースに既に存在する場合、そのドキュメントを取得し、現在のドキュメントをそれに追加してレコードを更新するようです。
ドキュメントの数が数百万に達するまで増加しても、これは持続可能でしょうか? Solr、Xapain、Google、Bing などの実際の検索エンジンは、これをどのように処理しますか?
java - カスタム検索を使用した Google 検索
転置インデックスの作成を依頼されたので、まず、Google で単語を検索して結果を配列リストに入れる Java プログラムを作成したいと思います。
これが私のコードです:
プログラムは途中でクラッシュすることなく実行されますが、(リンクを含まない) ページのソース コードしか取得できません。
コードで何を変更する必要がありますか? たぶん、まったく別の方法が必要ですか?
c++ - 逆索引: 一連の文書から語句を検索
逆インデックス構造、特にブールクエリと単語レベルの粒度を可能にする構造を実装しています。
私はテキストの大規模なデータベースを持っており、すべての単語について、それがどのファイルにあるのか ( IDdoc
)、ファイルのどこにあるのか( ) を示すインデックスを保持していますposition
。(単語は、多くのファイルに存在する場合もあれば、1 つのファイルの多くの場所に存在する場合もあります。)
したがって、各単語のベクトルを保持します。
(ベクトルは IDdoc で並べ替えられ、次に位置で昇順で並べ替えられます。)
私は言葉string
でできたオブジェを持っています。これが私が探している言葉です。
フレーズ内の各単語について、どのドキュメントにこのフレーズが含まれているかを知りたいので、s のベクトルを返します。IDdoc
これが私の解決策の試みです:
search - Apache lucene 逆索引
Lucene インデックスは tf-idf を重みとして使用しますか? ドキュメントごとに独自の統計と重みを定義して、それらを Lucene に「プラグイン」することは可能ですか?