問題タブ [information-retrieval]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - Google Search/Maps Linux クラスタのソフトウェア/ハードウェア構造は?
特に、Google 検索や Google マップなどの商用サービスで大量の情報をどのように処理できるかに興味があります。彼らが一種の Linux クラスターを使用している (または少なくとも「使用した」) ことは誰もが知っていますが、正確にはどのように構成されているのでしょうか? 使用しているハードウェアの種類、ファイル システム、ネットワーク、最も頻繁に発生する問題は何か?
machine-learning - Ngram IDF スムージング
IDF スコアを使用して、非常に膨大なドキュメントのコーパスから興味深いフレーズを見つけようとしています。
基本的に、Amazon の Statistically Improbable Phrases のようなものが必要です。つまり、ドキュメントを他のすべてのドキュメントと区別するフレーズです
。私が直面している問題は、データ内の一部の (3,4)-gram が超高 idf を実際にコンポーネントで構成されていることです。非常に低いidfを持つユニグラムとバイグラム..
たとえば、「あなたは試したことがない」は非常に高いidfを持ちますが、コンポーネントのユニグラムのそれぞれは非常に低いidfを持っています
.. n グラムとそのすべてのコンポーネント (nk) グラムの頻度を文書化し、この句が親文書を残りの文書からどの程度区別するかについて、より意味のある尺度を返します。
確率を扱っている場合は、補間モデルまたはバックオフ モデルを試します。これらのモデルがうまく機能するためにどのような仮定/直感を活用しているのか、IDF スコアに対してどの程度うまく機能するのかはわかりません。
誰もがより良いアイデアを持っていますか?
php - PHP: ビデオとタイムコードの操作
ビデオ ファイルとそのタイムコードを操作するための適切なライブラリ (できれば無料) はありますか? 特に次の 2 種類の機能が必要です。
- ビデオ ファイルに関する情報をできるだけ多くの形式で取得しますが、最も重要なのは QuickTime です。たとえば、デュレーション、ビット レート、フレーム レート、フォーマット、サイズ、表示アスペクト比、ピクセル アスペクト比、オーディオ チャンネル、オーディオ周波数、オーディオ フォーマットなどです。
- 正確なビデオ タイム コードで計算を行う方法。たとえば、複数のクリップのデュレーションを合計して、フレームとすべての合計の長さを取得できます。フレームとフレームレートも考慮されることを除いて、通常の時間で作業するのと似ています。
誰もこれを経験していますか?お勧めできるものはありますか?
information-retrieval - Google 検索履歴を取得するにはどうすればよいですか?
Google Web History インターフェースでは、私が何年にもわたって使用したすべての検索クエリと、特定のクエリでアクセスしたページを確認できます。コンピュータ プログラムを使用してこの履歴を取得する方法はありますか? それを行うGoogle APIが見つかりませんでした。これを行うことができるツールを知っていますか、またはこれを達成する方法を提案しますか?
performance - シングルプリンティングは実際にどのように機能しますか?
ドキュメントの類似性を測定するためにシングルプリンティングを使用しようとしています。このプロセスには、次の手順が含まれます。
- 2 つのドキュメント D1、D2 の5 シングリングを作成します。
- 各シングルを 64 ビット ハッシュでハッシュする
- 0 から 2^64-1 までの数値のランダムな順列を選択し、シングル ハッシュに適用します
- ドキュメントごとに、結果の値の最小値を見つけます
- 一致する場合は正の例としてカウントし、一致しない場合は負の例としてカウントします
- 3.~5.を数回繰り返す
positive_examples / total examples
類似度として使用
ステップ 3 では、非常に長いシーケンスのランダム順列を生成します。Knuth-shuffle を使用することは問題外のようです。これにはいくつかのショートカットがありますか?最終的に、結果の順列の単一の要素のみが必要であることに注意してください。
javascript - Javascript で記事のタイトル/著者/日付情報を取得する
参照目的で、現在のページ/記事の作成者と日付の情報を取得するブックマークレットを作成しようとしています。document.title と document.URL でページのタイトルと URL を取得できることはわかっていますが、他の情報に関しては空白を描いています。何か案は?
tcp - 構造tcp_infoに関する優れたドキュメント
私はtcp接続のパフォーマンスパラメータの取得に取り組んでおり、これらのパラメータの1つは帯域幅です。tcp_info
Linux 2.6以降でサポートされている、tcp接続に関するメタデータを保持する構造を使用する予定です。getsockopt()
情報は、の関数呼び出しを使用して取得できますtcp_info
。その構造内のすべてのパラメーターを説明する優れたドキュメントを見つけるのに多くの時間を費やしましたが、見つけることができませんでした。
また、tcp接続の値を取得するための小さなプログラムをテストしtcp_info
ましたが、ほとんどの場合、測定されたMSS値はゼロでした。長い話を短くするために-完全な詳細が記載されているリンクがありますtcp_info
。これらの値を使用するのは信頼できますか。
java - <O(n ^ 2)の複雑さのベクトルのコサイン類似性
このサイトで同様の問題を探したところ、http://math.nist.gov/javanumerics/jama/とこれが見つかりました:http: //sujitpal.blogspot.com/2008/09/ir-math-with- java-similarity-measures.html
ただし、これらはO(n ^ 2)で実行されているようです。私はいくつかのドキュメントクラスタリングを行ってきましたが、小さなドキュメントセットを処理する場合でも、このレベルの複雑さは実現不可能であることに気付きました。ドット積の場合、両方のベクトルに含まれるベクトル項のみが必要であるとすると、ベクトルをツリーに配置して、n log nの複雑さでドット積を計算できます。ここで、nはで一意の項の最小数です。 2つのドキュメントのうちの1つ。
私は何かが足りないのですか?これを行うJavaライブラリはありますか?
ありがとう
translation - Unicode 文字列の高速シーケンス アラインメント
BLAST アルゴリズムのようなものを実行して、Unicode 文字列の大規模なデータベースを照会したいと考えています。BLAST のようなアラインメント ソフトウェアのほとんどは、入力としてヌクレオチドまたはタンパク質の文字列を想定しています。しかし、私の入力には任意の Unicode 文字が含まれている可能性があります。これを可能にするソフトウェアを知っている人はいますか? スコアリング マトリックスは、単なる単位マトリックスである可能性があります (部分的な一致はありません)。
Needleman-Wunsch と Smith Waterman を試しましたが、私の目的には遅すぎます。BLAST のように、大規模なデータベースにクエリを実行する必要があります。
ありがとうございました!
machine-learning - 情報検索 (IR) vs データマイニング vs 機械学習 (ML)
IR、ML、データ マイニングという用語はよく使われますが、これらの間に多くの重複があることに気付きました。
これらの分野での経験を持つ人々から、これらの間の境界線を正確に引くものは何ですか?