問題タブ [information-retrieval]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-structures - ビット配列に代わるものは何ですか?
数千万ビットのビット配列を作成する情報検索アプリケーションがあります。配列内の「セット」ビットの数は、すべてクリアからすべてセットまで、大きく異なります。現在、私は単純なビット配列(java.util.BitSet
)を使用しているので、各ビット配列は数メガバイトかかります。
私の計画は、最初のNビットのカーディナリティを調べてから、残りのデータ構造に使用するデータ構造を決定することです。明らかに、一部のデータ構造は非常にスパースなビット配列に適していますが、他のデータ構造はビットの約半分が設定されている場合に適しています(ほとんどのビットが設定されている場合、否定を使用してスパースなゼロのセットとして扱うことができます)。
- どの構造がそれぞれの極端に適しているでしょうか?
- 真ん中に何かありますか?
ここにいくつかの制約またはヒントがあります:
- ビットは1回だけ、インデックス順に設定されます。
- 100%の精度が必要なので、ブルームフィルターのようなものでは不十分です。
- セットが構築された後、「セット」ビットを効率的に反復できる必要があります。
- ビットはランダムに分散されるため、ランレングスエンコーディングアルゴリズムは、ビットインデックスの単純なリストよりもはるかに優れているとは限りません。
- メモリ使用率を最適化しようとしていますが、速度にはまだある程度の重みがあります。
オープンソースのJava実装を備えたものは役に立ちますが、厳密には必要ではありません。ファンダメンタルズにもっと興味があります。
regex - 日時形式の動的正規表現
特定の日時形式パターンから動的に正規表現を作成する既存のソリューションはありますか? サポートされている日時形式のパターンは重要ではありません ( JodaDateTimeFormat
などjava.text.SimpleDateTimeFormat
)。
具体的な例として、 のような特定の日時形式のdd/MM/yyyy hh:mm
場合、指定された形式内の日時と一致するように、対応する正規表現を生成する必要があります。
search - 「関連検索」機能を実行する方法
検索を実行するときに関連する検索を一覧表示するサイトをいくつか見ました。つまり、興味があるかもしれない他の検索クエリを提案しています。
中規模のサイトでこれをモデル化するための最良の方法を考えています(関係を推測するために訪問者の統計に依存するのに十分なトラフィックがありません)。私の最初の考えは、一意のクエリごとに上位10件の結果を保存することです。次に、新しい検索を実行して、上位10件の結果の一部に一致するが、理想的にはすべてに一致しない(すべてに一致する可能性がある)すべての履歴検索を検索します。同等の検索を提案するため、提案としてはそれほど有用ではありません)。
一部の人々は以前にこの機能を実行したことがあり、これを実行するためのさまざまな方法のアイデアを提供できる可能性があると思います。解決策はサイトのサイズと性質によって大きく異なることは間違いないので、私は必ずしも1つの勝利のアイデアを探しているわけではありません。
algorithm - 検索エンジンの不正確なカウント(約xxxの結果)
グーグルで検索すると(Altavistaが同じことをしたとほぼ確信しています)、「結果1-10の約xxxx」と表示されます...
これはいつも私を驚かせてきました...それは「約」とはどういう意味ですか?
彼らはどのように大まかに数えることができますか?
なぜ彼らが妥当な時間内に正確な数字を思い付くことができないのか私は理解していますが、どうやって彼らはこの「おおよその」数字に到達するのでしょうか?
私が見逃したこの理論の背後には多くの理論があると確信しています...
file - ドキュメント検索用の署名ファイル
文書検索用の署名ファイルを作成する方法についての情報がどこにあるか知っているかどうか疑問に思いました。
私が使用または確認できるコードがそこにあるかどうか知っていますか?
LinuxプラットフォームでC++で署名ファイルを作成する必要があります。
更新:申し訳ありませんが、私は助けに感謝しますが、私は文書を検証する方法としてではなく、文書に索引を付ける方法として署名ファイルを参照していました。
http://en.wikipedia.org/wiki/Signature_files
どんな助けでも大歓迎です。
ありがとう、
nlp - 自然言語/テキスト マイニングと Reddit/ソーシャル ニュース サイト
reddit、digg、news.google.com などのサイトに関連する自然言語データは豊富にあると思います。
テキスト マイニングについて少し調べてみましたが、これらのツールを使用して reddit などを解析する方法がわかりません。
どのようなアプリケーションを思い付くことができますか?
information-retrieval - 情報科学、情報検索に関する本を探す
これまでのところ、リストにあるものは次のとおりです。私は、おそらくより技術的で、おそらく技術的ではない、同じような傾向の他の人を知りたいです
吹き飛ばされたビット: デジタル爆発後のあなたの人生、自由、幸福 - Ableson、Leeden、Lewis
Glut: 時代を超えて情報をマスターする - Wright
Information Rules - Varian と Shapiro
Web Dragons: Inside the Myths of Search Engine Technology - Witten,ゴリ、ヌメリコ
私がテキスト マイニングで見たものはいくつかあります。それらには、
Web データ マイニング - Liu
Modern Information Retrieval - Baeza-Yates、Ribiero-Netoが含まれます。
http://www.stat.columbia.edu/~gelman/blog/ http://www.econlib.org/library/Enc/Information.htmlのようなブログの推奨事項も探しています。
lucene - より複雑な Lucene クエリ文字列を作成するには?
この質問は、この質問からのスピンオフです。私の問い合わせは 2 つあるのですが、どちらも関連しているので、まとめておくとよいと思います。
- プログラムでクエリを作成する方法。文字列の作成を開始し、その文字列をクエリ パーサーで解析できることはわかっています。しかし、他のリソースから少しずつ情報を収集しているので、これを行うためのプログラム的な方法があります。
- Lucene クエリの構文規則は何ですか?
- 編集 -
作成したいクエリの要件の例を示します
。5 つのフィールドがあるとします。
- ファーストネーム
- 苗字
- 年
- 住所
- すべての
すべてのフィールドはオプションです。最後のフィールドは、他のすべてのフィールドを検索する必要があります。すべてのフィールドを調べて、それが IsNullOrEmpty() かどうかを確認します。そうでない場合は、クエリの一部を追加して、関連する検索部分を追加したいと思います。
名と姓は完全に一致し、他のフィールドよりも重要度が高くなる必要があります。Age は文字列であり、完全に一致する必要があります。アドレスは順序によって異なる場合があります。すべての順序が異なる場合もあります。
これについてどうすればよいですか?
selenium - Selenium を使用したデータの取得
最寄りの ScotiaBank 支店の営業時間を知りたいです。
ベース URL はhttp://maps.scotiabank.com/です。
そして私は・・・それから私は、
「ブランチ」ラジオボックスをクリックします。
「土曜日営業」のチェックボックスをクリックします。
検索ボックスに「B3H 1M7」(私の郵便番号)を入力します。
検索ボタンをクリックします。
ポップアップする最初の結果 (Micmac ショッピング センター) をクリックします。
営業時間を変数として保存します (businessHours と呼ばれます)。
そして今、私は立ち往生しています。
変数に割り当てたデータを、後で表示できるテキスト ファイルまたはその他の場所にエクスポートするにはどうすればよいですか? これが Selenium でも可能かどうかはわかりませんが、そうでない場合は、これを行う方法の代替方法を教えてもらえますか?
以下は、私が持っている現在の Selenium スクリプトの HTML コードです。
email - SolrのDynamicFields
現在のプロジェクトでは、複数のメールボックスからのすべての電子メールとその添付ファイルにインデックスを付ける必要があります。
Solrを使用しますが、インデックスの構造を構築するための最良のアプローチがわかりません。私の最初のアプローチは次のとおりです。
しかし、今ではそれが最良の構造であるかどうかはよくわかりません。1つのクエリで1つの用語(例: stackoverflow)を検索し、その用語がどこにあるか(例:attachmentBody_1または_2または_3など)を知ることはできないと思います。
誰かが私のインデックスの構造についてより良い提案を持っていますか?