問題タブ [information-retrieval]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python: リストのリストの辞書
このコードを実行すると、インデックス エラーが発生します: リスト インデックスが範囲外です。
上記のコードは、「用語」をキーとして格納する辞書インデックスと、その用語が出現するドキュメント番号をリストとして生成します。例: 「cat」という用語がドキュメント 1.txt、5.txt、および 7.txt にある場合、辞書には次のようになります: cat <- [1,5,7]
ここで、用語の頻度を追加するように変更する必要があるため、cat という単語が文書 1 で 2 回、文書 5 で 3 回、文書 7 で 1 回出現する場合: 期待される結果: term <-[[docnumber, term freq], [docnumber, term freq]] <--辞書内のリストのリスト!!! 猫 <- [[1,2]、[5,3]、[7,1]]
コードをいじってみましたが、何も機能しません。上記を実現するためにこのデータ構造を変更する手がかりがありません。
前もって感謝します。
information-retrieval - BM25以外にランキング機能はありますか?
BM25以外にどんなランキング機能があるの?このトピックに関する情報はどこで見つけましたか?
information-retrieval - ウェブ情報抽出
多くの Web サイトから商品を表示するショッピング検索エンジンを作成したいのですが、これらのサイトから商品に関する情報を取得するにはどうすればよいでしょうか。私は検索エンジンの部分には興味がありませんが、自動生成されたテンプレートを使用して、Web ページから製品情報を自動的に抽出することに興味があります。この/論文を読むための良いアルゴリズムを知っている人はいますか..
python - 転置インデックスでの通常のクエリの検索
ネストされた python 辞書の形で完全な逆インデックスがあります。その構造は次のとおりです。
{単語: {ドキュメント名: [場所リスト] } }
たとえば、辞書の名前を index とすると、「 spam 」という単語のエントリは次のようになります。
{ スパム: { doc1.txt: [102,300,399], doc5.txt: [200,587] } }
そのため、任意の単語を含むドキュメントはindex[word].keys()で指定でき、そのドキュメントの頻度はlen(index[word][document])で指定できます
ここで私の質問は、このインデックスで通常のクエリ検索をどのように実装するかです。つまり、たとえば 4 つの単語を含むクエリが与えられた場合、4 つすべての一致を含むドキュメントを検索し (出現頻度の合計でランク付け)、次に 3 つの一致を含むドキュメントなどを検索します ....
**
S. Lott の回答を使用して、このコードを追加しました。これは私が書いたコードです。私が望むとおりに動作しますが(出力のフォーマットが必要です)、改善できることはわかっています。
**
Pls コメント.... ありがとうございます。
search-engine - Web 検索クエリのログを取得するには?
私の研究のために検索ログの分析ができると助かります。検索 API (Google、Yahoo、Bing) を使用して、指定した期間の Web 検索クエリのログを作成することはできますか? または、要求に応じて利用できますか?
python - 適切なトークン化アルゴリズムとは? & エラー: TypeError: Unicode への変換: 文字列またはバッファが必要です。リストが見つかりました
私は情報検索タスクを行っています。前処理の一環としてやりたい。
- ストップワードの削除
- トークン化
- ステミング (Porter Stemmer)
最初は、トークン化をスキップしました。その結果、次のような用語が得られました。
それで、トークン化の重要性を実感しました。英語のトークン化のための標準アルゴリズムはありますか? string.whitespace
一般的に使用される句読点に基づいています。私が書いた
- エラーが出
TypeError: coercing to Unicode: need string or buffer, list found
ます! - このトークン化ルーチンはどのように改善できますか?
r - Rを使用したテキスト検索
私はRのテキストマイニングパッケージとその本当に素晴らしいツールを使用してきました。検索サポートが見つからないか、不足している機能がある可能性があります。Rのテキストマイニングパッケージを使用して、単純なVSMモデルをどのように実装できますか?
c# - C#でグラフィックカードのコア速度、メモリ速度、およびシェーダー速度(該当する場合)を見つける方法は?
私は大学のソフトウェア エンジニアリング クラスのプロジェクトに数人のチームメイトと取り組んでいます。私たちが作成しているプログラムの詳細については、当社の Web サイトを確認してください。これは、Visual Studio 2010 で開発された C# Windows フォーム アプリケーションです。
探しているグラフィック カード情報の一部を取得できません。具体的には、グラフィックス カードのコア クロック速度、メモリ クロック速度、およびシェーダー クロック速度 (該当する場合)。WMI を使用することで、グラフィック カードのブランドとモデル (私の場合は「NVIDIA」と「GeForce GTX 465」)、現在のドライバー、およびローカル マシンに接続されている各グラフィック カードの専用 RAM の容量を見つけることができました。
私は検索して検索しましたが、CPU-Z のような SDK を購入せずにこの情報を見つける方法を見つけることができませんでした。
database - 固有表現認識のための名前、場所、組織、場所の特徴を抽出する
主に、名前、組織、場所、場所など、Twitter データセット内のエンティティに注釈を付けようとしています。この目的のために機能セットを生成しようとしています。エンティティに注釈を付けるために使用できるように、そのようなすべてのエンティティのリストまたはデータベースをどこでどのように取得できるかについての推奨事項。