問題タブ [information-retrieval]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
indexing - 大規模なデータベースで (非常に) おおよその部分文字列を検索する
大規模なデータベースで長いおおよその部分文字列を検索しようとしています。たとえば、クエリは 1000 文字の部分文字列であり、数百の編集のレーベンシュタイン距離によって一致と異なる可能性があります。インデックス付き q-gram でこれができると聞いたことがありますが、実装の詳細はわかりません。Lucene でもできると聞いたことがありますが、Lucene のレーベンシュタイン アルゴリズムは何百回もの編集に対して十分に高速ですか? おそらく盗作検出の世界から何か?アドバイスをいただければ幸いです。
algorithm - 進化するデータ ストリームをクラスタ化する方法
データ ストリームとして読み取るテキスト ドキュメントを段階的にクラスター化したいのですが、問題があるようです。用語の重み付けオプションのほとんどは、TF-IDF をフィーチャの重みとして使用するベクトル空間モデルに基づいています。ただし、この場合、既存の属性のIDFは新しいデータポイントごとに変化するため、以前のクラスタリングは有効ではなくなり、固定次元の静的データを想定するCluStream、CURE、BIRCHなどの一般的なアルゴリズムは適用できません。これに関連する既存の研究に私をリダイレクトしたり、提案をしたりできますか? ありがとう !
javascript - HTML\PHP - ユーザー (訪問者) の情報を引き出す方法
ユーザーがあなたのウェブサイトを訪問しているときに、ユーザーの情報を引き出す方法は?
- IPアドレス
- Macアドレス
- ユーザー プロファイル名
- OS名
- OSバージョン
- (名前/会社)に登録されているOS
- コンピュータネーム
- ブラウザ名
- ブラウザのバージョン
- ISP名/インターネット接続プロバイダー名
- 接続タイプ
- 場所 - 都市/国 (IP に基づく)
python - 転置インデックスの保存
私は情報検索のプロジェクトに取り組んでいます。Hadoop/Pythonを使用して完全転置インデックスを作成しました。Hadoopは、ファイルに書き込まれる(word、documentlist)ペアとしてインデックスを出力します。すばやくアクセスできるように、上記のファイルを使用して辞書(ハッシュテーブル)を作成しました。私の質問は、アクセス時間が短いディスクにこのようなインデックスを保存するにはどうすればよいかということです。現在、私はpython pickleモジュールを使用して辞書を保存し、そこからロードしていますが、インデックス全体を一度にメモリに取り込みます(またはそうしますか?)。インデックスを保存および検索する効率的な方法を提案してください。
私の辞書の構造は次のとおりです(ネストされた辞書を使用)
{単語:{doc1:[場所]、doc2:[場所]、....}}
辞書[word].keys()...などで単語を含むドキュメントを取得できるようにします。
web - Google クローラによって保存される情報はどれですか。
.. そして、Web クローラーは Web サイト上の情報のセマンティクスをどのように推測するのでしょうか? 別の回答でランキングシグナルをリストアップしてください。
python - Python: キーに関連付けられたリスト値を辞書に保存する
Python 辞書がキーと値のタプルを格納する方法を知っています。私が取り組んでいるプロジェクトでは、リストである値に関連付けられたキーを保存する必要があります。例: key -> [0,2,4,5,8] ここで、key はテキスト ファイルの単語です リスト値には、その単語が出現する DocID を表す int が含まれます。
別のドキュメントで同じ単語を見つけたらすぐに、その DocID をリストに追加する必要があります。
どうすればこれを達成できますか?
python - Python:リスト/セットの共通部分
def boolean_search_and(self, text):
このコードは、text = "Hello World"のように、tokens = ['hello'、'world']の2つのトークンに最適です。複数のトークンに一般化して、テキストを文にすることも、テキストファイル全体にすることもできます。
self._inverted_indexは、トークンをキーとして保存する辞書であり、値は、キー/トークンが発生するDocIDです。
hello- > [1,2,5,6]
world-> [1,3,5,7,8]
結果:
hello AND world-> [1,5]
次の結果を達成したい:(((hello AND computer)AND science)AND world)
私はこれを2つだけではなく複数の単語で機能させるように取り組んでいます。私は今朝Pythonで作業を始めたので、Pythonが提供しなければならない多くの機能に気づいていません。
何か案は?
java - ウィキペディア: 複数の言語にまたがるページ
プロジェクトにウィキペディアのダンプを使用したいと考えています。私のプロジェクトには以下の情報が必要です。
- ウィキペディアのエントリについて、そのページが他にどの言語で含まれているか知りたいですか?
- csv またはその他の一般的な形式でダウンロード可能なデータが必要です。
このデータを取得する方法はありますか?
ありがとうバラ
python - Pythonコードを確認して、パフォーマンスを向上させてください
私は情報検索タスクを行っています。シンプルな検索エンジンを構築しました。InvertedIndex は、ファイルにシリアル化された (python 用語でピクルされた) python 辞書オブジェクトです。このファイルのサイズは InvertedIndex で、わずか 6.5 MB です。
したがって、私のコードはそれを解凍してクエリを検索し、TF-IDF スコアに従って一致するドキュメントをランク付けします。大きく聞こえませんか?
30分前に実行を開始し、まだ実行中です。100 行の Python スクリプトを実行する際のプライベート バイトと仮想サイズの使用量はpythonw.exe
、それぞれ 88MB と 168MB です。
小さいサイズのインデックスで試してみると速かったです。それはpythonですか、それとも私のコードですか?なぜそんなに遅いのですか?
machine-learning - 機械学習・情報検索プロジェクト
私は修士課程に向けて読んでいます。コンピューター サイエンスの博士号を取得しており、ソースの 1 年目を終えたばかりです。(これは2年間のコースです)。すぐに、修士号の提案書を提出しなければなりません。計画。次のトピックを選択しました。
「情報検索システムにおける文書ランキングへの機械学習の適合性」. 研究者は、ドキュメントをランク付けするためにさまざまな機械学習アルゴリズムを使用してきました。そのため、プロジェクトの最初のフェーズとして、完全な文献調査を行い、現在のアプローチの長所と短所を見つけます。プロジェクトの第 2 段階では、現在のアプローチの限界を克服するために、新しい (修正された) アルゴリズムを提案します。
実際、私の質問は、このタイプのプロジェクトが修士号として適しているかどうかです。事業?また、誰かが情報検索分野で興味深いアイデアを持っている場合は、そのアイデアを私と共有することは可能ですか.
ありがとう