問題タブ [information-retrieval]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
7 に答える
26472 参照

java - Javaオープンソーステキストマイニングフレームワーク

botg Machine Learningと辞書メソッドを使用するために、テキストマイニングに最適なオープンソースのJavaベースのフレームワークを知りたいです。

私はMalletを使用していますが、ドキュメントがそれほど多くなく、すべての要件に適合するかどうかわかりません。

0 投票する
4 に答える
1791 参照

java - 厳密な文書類似性のためのテキスト類似性関数

私は、UTF-8 でエンコードされた 2 つのドキュメントの類似性について最終的な判断を下さなければならない Java ソフトウェアを作成しています。

2 つのドキュメントは、日付、場所、作成者などの多くの共通点があるため、同じか、互いにわずかに異なる可能性が非常に高くなりますが、それらのテキストが本当にそうであるかどうかを決定します。

2 つのドキュメントのテキストは非常に似ているか、まったく似ていないことが予想されるため、類似性のしきい値をかなり厳密に設定できます。たとえば、2 つのドキュメントは、90% の単語が共通している場合にのみ類似していると言えますが、短いテキストでも長いテキストでも同じように機能する、より堅牢なものが必要です。

要約すると、私は持っています:

  • 非常に似ているか、まったく似ていない 2 つのドキュメント。
  • 2 つのドキュメントが類似している可能性が高い
  • ドキュメントは長いもの (いくつかの段落) と短いもの (数文) の両方があります。

文字列マッチング関数の大きな配列を持つsimmetricsを試しましたが、使用可能なアルゴリズムについての提案に最も興味があります。

私が持っている可能性のある候補は次のとおりです。

  • レーベンシュタイン: その出力は短いテキストの場合により重要です
  • 重複する係数: たぶん、しかし、異なる長さのドキュメントをうまく区別できますか?

また、2 つのテキストがまったく同じである場合にのみ類似していると見なすのはうまくいきません。なぜなら、いくつかの単語だけが異なる文書が類似性テストに合格することを望んでいるためです。

0 投票する
4 に答える
228 参照

search - 検索エンジンはどのように「AND」操作を実行しますか?

次の検索結果を検討してください。

わかった。ページはインデックス化されており、インデックステーブルのカウントと最初の数項目を検索するだけでよいので、速度は理解できます。

ここで、AND演算を使用した次の検索について考えてみます

これは私をカチカチさせます;)いったいどうやって検索エンジンは巨大なデータセットに対するAND演算の結果をこんなに速く得ることができるのでしょうか?私はタスクを実行するために次の2つの方法を見ます、そして両方ともひどいです:

  1. 'David'の検索を行います。巨大な臨時雇用者のテーブルを取り、その上で「ジョン」の検索を実行します。ただし、一時テーブルは「John」によってインデックス付けされていないため、ブルートフォース検索が必要です。どんなハードウェアを持っていても、0.25秒以内には計算されません。
  2. 'DavidJohn'のようなすべての可能な単語の組み合わせによる索引付け。次に、キーの数の組み合わせ爆発に直面しますが、Googleでさえそれを処理するためのストレージ容量がありません。

そして、あなたはあなたが望むだけ多くの検索フレーズを一緒にANDすることができます、そしてあなたはまだ0.5秒以内に答えを得ることができます!どのように?

0 投票する
3 に答える
406 参照

lucene - lucene が一意のスレッドのみを返すようにする (スレッドと投稿の両方をインデックス化する)

コンテンツがスレッドに編成された StackOverflow のようなシステムがあり、各スレッドには独自のコンテンツ (質問の本文/テキスト) と投稿/返信があります。

私は Lucene を介してこのコンテンツを検索する機能を作成しています。可能であれば、個々の投稿にインデックスを付けたいと考えています (これにより、インデックスの更新が容易になり、結果をより細かく制御および調整できるようになります)。スレッド全体にインデックスを付けるのではなく。ただし、問題は、検索で投稿のリストではなく、スレッドのリストを表示することです。

投稿のコンテンツも検索しながら、ユニークなスレッドのみを結果として返すように Lucene を取得するにはどうすればよいですか?

0 投票する
1 に答える
675 参照

silverlight - 1つのWebパーツから情報にアクセスし、SharePoint2010の別のWebパーツで使用します

私の問題はこれです。Sharepoint2010を使用しています。SharepointDesigner2010で作成されたフォームがあり、そのフォームの上にSilverlightWebパーツがあります。次に、Silverlight Webパーツをクリックしてその情報をその下のフォームに挿入すると、そのWebパーツから情報にアクセスできるようにする必要があります。

誰かがそれを行う方法について何か洞察を持っていますか?

前もって感謝します。クリス

0 投票する
3 に答える
3458 参照

algorithm - tf-idf: 私はそれを正しく理解していますか?

ドキュメントのクラスタリングに興味があり、現在、これに TF-IDF を使用することを検討しています。

私が間違っていなければ、TF-IDF は特に、クエリが与えられたドキュメントの関連性を評価するために使用されます。特定のクエリがない場合、どのように tf-idf をクラスタリングに適用できますか?

0 投票する
2 に答える
2047 参照

php - 転置インデックスの構築を支援します

それは私が学校のためにやっている情報検索の一部です。計画では、単語の最初の2文字をキーとして使用し、2文字が文字列値として保存されている単語のハッシュマップを作成します。それで、

hashmap ["ba"]="悪い大麦ベース"

行のトークン化が完了したら、そのハッシュマップを取得してシリアル化し、キーにちなんで名付けられたテキストファイルに追加します。

アイデアは、データを取得して数百のファイルに分散させると、各ファイルの密度を下げることで、検索の実行にかかる時間を短縮できるということです。私が遭遇している問題は、実行ごとに100以上のファイルを作成しているときに、何らかの理由でいくつかのファイルの作成が妨げられ、それらのエントリが空になることです。これをより効率的にする方法はありますか?これを続ける価値はありますか、それとも私はそれを放棄する必要がありますか?

私はPHPを使用していることを述べたいと思います。私が比較的親密に知っている2つの言語は、PHPとJavaです。PHPを選択したのは、フロントエンドの実行が非常に簡単で、オートコンプリートや推奨検索などの機能を問題なく追加できるためです。また、Javaを使用してもメリットはありません。どんな助けでもありがたいです、ありがとう。

0 投票する
2 に答える
320 参照

web-services - Google のアドセンスのような広告システムを開発するためのヒントはありますか?

毎回ベストマッチ広告を表示するには、少なくとも次のことを行う必要があります。

  1. 現在のページの主な情報を取得する
  2. 上記で取得した情報に関連する広告を取得する

しかし、検索エンジンを持たない会社にとって、上記のことはほとんど不可能です。

では、Google 以外の企業が最適な広告システムにアプローチする実際的な方法は何でしょうか?

0 投票する
4 に答える
1117 参照

database - データベースの行/レコード ポインタ

知りたいことの正しい言葉がわからないので、グーグルで検索するのに苦労しています。

クエリを再度実行する代わりに、データベース (テクノロジーに依存しませんが、Oracle、MySQL、および Postgres で可能かどうかを知りたい) で特定の行を指すことができるかどうかを知りたいです。

そのため、最初にクエリを実行して関心のある行を見つけてから、次に必要なときにすぐにアクセスできるデータベース上の場所を示すポインターまたはその他のメタデータのリストを取得することで、それらを再度検索することを避けたい場合があります。それらの結果。

データベースにキャッシュがあることはわかっていますが、これらの「ポインター」を他の場所に保持したいので、キャッシュは最終的にこの問題を解決しません。これは単なるインデックスであり、インデックスを保存してこれで検索しますか? 私の現在のテーブルのほとんどにはインデックスがなく、インデックスに時々伴う速度の低下は望ましくありません。

それで、私がグーグルに入れようとしてきた魔法の用語は何ですか?

乾杯

0 投票する
1 に答える
237 参照

lucene - 情報検索データベースのフォーマット?

迅速な「関連性」検索のために、情報検索システム (Lucene など) がインデックスを格納する方法に関するドキュメントを探しています。私の Google-fu は失敗しています: Lucene のファイル形式を説明しているページを見つけましたが、迅速なクエリを生成するためにデータベースがどのように使用されているかよりも、各数値が何ビットであるかに重点が置かれています。

確かに、誰かが私に紹介できる便利なブックマークをいくつか持っています。

ありがとう!