“information-retrieval”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

1031 参照

python - Python: リストのリストの辞書

このコードを実行すると、インデックスエラーが発生します: リストインデックスが範囲外です。

上記のコードは、「用語」をキーとして格納する辞書インデックスと、その用語が出現するドキュメント番号をリストとして生成します。例: 「cat」という用語がドキュメント 1.txt、5.txt、および 7.txt にある場合、辞書には次のようになります: cat <- [1,5,7]

ここで、用語の頻度を追加するように変更する必要があるため、cat という単語が文書 1 で 2 回、文書 5 で 3 回、文書 7 で 1 回出現する場合: 期待される結果: term <-[[docnumber, term freq], [docnumber, term freq]] <--辞書内のリストのリスト!!! 猫 <- [[1,2]、[5,3]、[7,1]]

コードをいじってみましたが、何も機能しません。上記を実現するためにこのデータ構造を変更する手がかりがありません。

前もって感謝します。

python information-retrieval

2010-10-05T02:59:27.897

0 投票する

2 に答える

410 参照

information-retrieval - BM25以外にランキング機能はありますか？

BM25以外にどんなランキング機能があるの？このトピックに関する情報はどこで見つけましたか?

information-retrieval

2010-10-07T22:02:03.630

0 投票する

1 に答える

157 参照

information-retrieval - ウェブ情報抽出

多くの Web サイトから商品を表示するショッピング検索エンジンを作成したいのですが、これらのサイトから商品に関する情報を取得するにはどうすればよいでしょうか。私は検索エンジンの部分には興味がありませんが、自動生成されたテンプレートを使用して、Web ページから製品情報を自動的に抽出することに興味があります。この/論文を読むための良いアルゴリズムを知っている人はいますか..

information-retrieval

2010-10-12T15:23:21.060

0 投票する

3 に答える

3089 参照

python - 転置インデックスでの通常のクエリの検索

ネストされた python 辞書の形で完全な逆インデックスがあります。その構造は次のとおりです。

{単語: {ドキュメント名: [場所リスト] } }

たとえば、辞書の名前を index とすると、「 spam 」という単語のエントリは次のようになります。

{ スパム: { doc1.txt: [102,300,399], doc5.txt: [200,587] } }

そのため、任意の単語を含むドキュメントはindex[word].keys()で指定でき、そのドキュメントの頻度はlen(index[word][document])で指定できます

ここで私の質問は、このインデックスで通常のクエリ検索をどのように実装するかです。つまり、たとえば 4 つの単語を含むクエリが与えられた場合、4 つすべての一致を含むドキュメントを検索し (出現頻度の合計でランク付け)、次に 3 つの一致を含むドキュメントなどを検索します ....

**

S. Lott の回答を使用して、このコードを追加しました。これは私が書いたコードです。私が望むとおりに動作しますが（出力のフォーマットが必要です）、改善できることはわかっています。

**

Pls コメント.... ありがとうございます。

python information-retrieval inverted-index

2010-10-15T18:11:50.763

0 投票する

1 に答える

88 参照

search-engine - Web 検索クエリのログを取得するには?

私の研究のために検索ログの分析ができると助かります。検索 API (Google、Yahoo、Bing) を使用して、指定した期間の Web 検索クエリのログを作成することはできますか? または、要求に応じて利用できますか?

search-engine information-retrieval

2010-10-27T13:56:21.347

0 投票する

2 に答える

1775 参照

python - 適切なトークン化アルゴリズムとは? & エラー: TypeError: Unicode への変換: 文字列またはバッファが必要です。リストが見つかりました

私は情報検索タスクを行っています。前処理の一環としてやりたい。

ストップワードの削除
トークン化
ステミング (Porter Stemmer)

最初は、トークン化をスキップしました。その結果、次のような用語が得られました。

それで、トークン化の重要性を実感しました。英語のトークン化のための標準アルゴリズムはありますか? string.whitespace一般的に使用される句読点に基づいています。私が書いた

エラーが出TypeError: coercing to Unicode: need string or buffer, list foundます！
このトークン化ルーチンはどのように改善できますか?

python nlp tokenize information-retrieval

2010-10-31T14:12:43.240

0 投票する

2 に答える

3758 参照

r - Rを使用したテキスト検索

私はRのテキストマイニングパッケージとその本当に素晴らしいツールを使用してきました。検索サポートが見つからないか、不足している機能がある可能性があります。Rのテキストマイニングパッケージを使用して、単純なVSMモデルをどのように実装できますか？

r information-retrieval text-mining vsm tf-idf

2010-11-01T15:49:21.680

0 投票する

1 に答える

2981 参照

c# - C#でグラフィックカードのコア速度、メモリ速度、およびシェーダー速度(該当する場合)を見つける方法は?

私は大学のソフトウェアエンジニアリングクラスのプロジェクトに数人のチームメイトと取り組んでいます。私たちが作成しているプログラムの詳細については、当社の Web サイトを確認してください。これは、Visual Studio 2010 で開発された C# Windows フォームアプリケーションです。

探しているグラフィックカード情報の一部を取得できません。具体的には、グラフィックスカードのコアクロック速度、メモリクロック速度、およびシェーダークロック速度 (該当する場合)。WMI を使用することで、グラフィックカードのブランドとモデル (私の場合は「NVIDIA」と「GeForce GTX 465」)、現在のドライバー、およびローカルマシンに接続されている各グラフィックカードの専用 RAM の容量を見つけることができました。

私は検索して検索しましたが、CPU-Z のような SDK を購入せずにこの情報を見つける方法を見つけることができませんでした。

c#gpu information-retrieval

2010-11-10T00:36:37.337

0 投票する

1 に答える

127 参照

database - 固有表現認識のための名前、場所、組織、場所の特徴を抽出する

主に、名前、組織、場所、場所など、Twitter データセット内のエンティティに注釈を付けようとしています。この目的のために機能セットを生成しようとしています。エンティティに注釈を付けるために使用できるように、そのようなすべてのエンティティのリストまたはデータベースをどこでどのように取得できるかについての推奨事項。

database information-retrieval

2010-11-21T00:03:39.047

問題タブ [information-retrieval]

Reference