問題タブ [information-retrieval]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
79 参照

web-services - Web から一部の情報を自動的に取得する

ウェブから情報を取得する必要があります。たとえば、weather.com にアクセスして郵便番号を検索し、気温などを含む HTML ファイルを取得できます。これを自動的に行うには、python スクリプトを作成する必要があります。

これには2つの方法があると思います。

  1. wget を実行して Web ページをダウンロードし、それを解析して必要な情報を取得します。
  2. Web サイトが Web サービスを提供している場合は、それを実行して情報を取得します。

そして、これらは私の質問です。

  1. Python で Web サービスに使用する関数は何ですか?
  2. Web サイトがどの Web サービスを提供しているかを知るにはどうすればよいですか?
  3. Web サービスが提供されていない場合、wget を実行して解析するよりも良い方法はありますか?

いくつかの例を挙げていただければ、それははるかに良いでしょう。

0 投票する
1 に答える
132 参照

information-retrieval - 検索結果の解釈

私は、検索用語と、未知の検索エンジンの検索結果を表すページのHTMLソース(実際には、ブログ、ショップ、Google、eBayなど)を指定して、プログラムを作成する必要があります。 「結果の内容」を含む結果のデータ構造を構築する必要があります:検索結果のタイトル、「詳細」リンク、結果内の位置など。結果ページに次のデータが含まれているかどうかは不明です。すべて、および検索結果があるかどうか。目標は、意味を抽出する別のプログラムにデータ構造をフィードすることです。

私が探しているのは、BeautifulSoupやRegExpではなく、HTMLソースの解釈方法に関するいくつかの巧妙なアイデアやアルゴリズムです。ページのどの部分が単一の結果アイテムを構成しているかを調べるにはどうすればよいですか?重要なビットを抽出するためにマークアップノイズをフィルタリングするにはどうすればよいですか?あなたならどうしますか?私がやろうとしていることをカバーする研究分野へのポインタは非常に高く評価されています。

ありがとう、サイモン

0 投票する
7 に答える
31757 参照

text - ウィキペディア テキスト ダウンロード

大学のプロジェクト用にウィキペディアの全文をダウンロードしたいと考えています。これをダウンロードするには、独自のスパイダーを作成する必要がありますか?それとも、オンラインで入手できるウィキペディアの公開データセットはありますか?

私のプロジェクトの概要を説明するために、興味のあるいくつかの記事の興味深い単語を見つけたいと思います。しかし、これらの興味深い単語を見つけるために、tf/idf を適用して各単語の用語頻度を計算し、選択することを計画しています。頻度の高いもの。しかし、tf を計算するには、ウィキペディア全体での総出現数を知る必要があります。

これはどのように行うことができますか?

0 投票する
2 に答える
1482 参照

c# - PDFでテーブルを検索

PDFからテーブルを自動的に抽出するためのツールやトリックはありますか?それを行うことができるC#ライブラリはありますか?それとも、これをどのように処理できるか他の方法を知っていますか?

どうもありがとうございます

0 投票する
5 に答える
336 参照

machine-learning - Web ページの品質を見積もる方法は?

私は、ユーザーが提供したトピックに関するデータを収集して組み合わせる必要がある大学のプロジェクトを行っています。私が遭遇した問題は、多くの用語の Google 検索結果が低品質の自動生成されたページで汚染されており、それらを使用すると間違った事実が表示される可能性があることです。ページの品質/信頼性をどのように推定できますか?

「いや、Google のエンジニアは 10 年間この問題に取り組んでいて、解決策を求めている」と思うかもしれませんが、考えてみれば、SE は最新のコンテンツを提供し、良いページを悪いページとしてマークする必要があります。 1 つは、ユーザーが不満を抱くことです。私にはそのような制限はないので、アルゴリズムが誤っていくつかの良いページを悪いものとしてマークしたとしても、それは問題にはなりません。

以下に例を示します。入力が であるとしbuy aspirin in south laます。Google検索してみてください。最初の 3 つの結果は既にサイトから削除されていますが、4 番目の結果は興味深いものです: radioteleginen.ning.com/profile/BuyASAAspirin(アクティブなリンクを作成したくない)

テキストの最初の段落は次のとおりです。

カナダから処方薬を購入することは、現時点では米国では大きな問題です。これは、米国では処方薬の価格が急騰し、限られた収入または集中した収入しか得られない人々が必要な薬を購入するのが困難になったためです。アメリカ人はクラスの誰よりも薬にお金を払っています。

テキストの残りの部分は類似しており、関連するキーワードのリストが続きます。これは私が低品質のページだと思うものです。この特定のテキストは理にかなっているように見えますが (恐ろしいことを除いて)、私が見た他の例 (まだ見つけられていません) は、Google から一部のユーザーを獲得し、作成の 1 日後にアクセス禁止にすることを目的とした単なるゴミです。 .

0 投票する
2 に答える
713 参照

c# - ニュース Web サイトからニュース リンクを抽出する

詳細ニュースページに誘導されるリンクのコレクションを見つけるための信頼できる方法はありますか. 言い換えれば、ウェブサイトの最初のページにアクセスした後、ニュース項目を参照するリンクが欲しいだけです。解決策はありますか?

0 投票する
1 に答える
440 参照

java - エンティティセット拡張Python

Googleセットのような、エンティティセット拡張アルゴリズムの任意の言語(できればPython)での既存の実装を知っていますか?(http://labs.google.com/sets

そのようなアルゴリズムを実装しているライブラリが見つかりませんでした。それらのいくつかを試して、実装したい特定のタスクでそれらがどのように実行されるかを確認したいと思います。

どんな助けでも大歓迎です!

あなたの助けをどうもありがとう、

よろしく、

ニコラス。

0 投票する
2 に答える
64 参照

graph - Gaining information from nodes of tree

I am working with the tree data structure and trying to come up with a way to calculate information I can gain from the nodes of the tree.

I am wondering if there are any existing techniques which can assign higher numerical importance to a node which appears less frequently at lower level (Distance from the root of the tree) than the same nodes appearance at higher level and high frequency.

To give an example, I want to give more significance to node Book, at level 2 appearing once, then at level 3 appearing thrice.

Will appreciate any suggestions/pointers to techniques which achieve something similar.

Thanks,

Prateek

0 投票する
3 に答える
2765 参照

java - データセットの作成: テキスト ドキュメントから特徴を抽出する (TF-IDF)

いくつかのテキスト ファイルからデータセットを作成し、それらをフィーチャのベクトルとして記述しなければなりません。

このようなもの:

ベクトルの各位置は単語を表し、スコアは TF-IDF のようなもので与えられます。

このためのライブラリ/ツール/何かを知っていますか? (ジャバの方がいい)

0 投票する
2 に答える
2081 参照

php - フォーラムをこするプログラムを書く

フォーラムをスクレイプするプログラムを作成する必要があります。

Scrapyフレームワークを使用してPythonでプログラムを作成する必要がありますか、それともPhp cURLを使用する必要がありますか?また、Scrapyに相当するPHPはありますか?

ありがとう