問題タブ [data-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
15187 参照

matlab - MATLAB:列のグループを部分行列に抽出しますか?

マトリックスの最後まで列1〜3、7〜9、13〜15を抽出したいデータセットがあります。

例として、標準のマジック関数を使用してマトリックスを作成しました

A = magic(10)

A =

次のコマンドを使用して、3の間隔で1から始まる単一の列を抽出できることを知っています。

Aex = a(:、1:3:終了)

Aex =

代わりに、列のグループを抽出したいとします(たとえば、列1-3、7-9など)。

すべての列番号を手動で指摘することなくこれを行う方法はありますか?

ご協力いただきありがとうございます!ラスムス

0 投票する
1 に答える
309 参照

html - Webデータ抽出、テーブルからCSVへのデータの取得

「ExcelのWebページとして公開ウィザード」を使用して公開されているように見えるWebページのテーブルからデータを取得したい。スクレイピングツールがたくさんあり(そのようなタスクではかなり進んでいるようです)、スクリプトを作成できることは知っていますが、特にデータが自動化されたものを使用して公開されていることを指摘したいと思います。道具。

私はレールソリューションを持っていることを好みます。

データは統計的健康データです。ここにいくつかのサンプルへのリンクがあります

0 投票する
1 に答える
372 参照

regex - ウェブサイトからのスマートデータ抽出アルゴリズム

私は取引アグリゲーターを構築しているので、いくつかのサイトからデータを抽出するクローラーが必要です:価格、割引、画像、座標、および取引の名前。

チュートリアル、電子ブック、または私を助ける何かを知っていますか?画像と座標と割引については、解決策とパターンがあります。

  • 画像:最大の画像は常に取引のメイン画像です
  • 割引:割引は常に50から99までの数字であり、常に「%」記号が付いています
  • 座標:常に10進数なので、正規表現で取得します

次のアイテムを入手するにはどうすればよいですか?

  • 取引名は?
  • 価格?

役立つデータ抽出アルゴリズムを知っていますか?

0 投票する
4 に答える
144 参照

java - このテキストから部分文字列を抽出するのを手伝ってくれる人はいますか?

imdb からデータを抽出する必要があるプロジェクトを作成しようとしています。私はいくつかのphpエクストラクタを見てきましたが、それにはJavaプログラムが必要です。次のような情報を抽出する必要があります。

  1. 映画の名前と年
  2. 小さなプロット
  3. 評価
  4. ジャンル
  5. アクター

データを抽出する必要があるデータは以下のとおりです。

このデータは、役立つ場合は imdbapi.com からのものです。このデータを他の方法で抽出する他の方法があるかどうか教えてください。つまり、このデータをより構造化された形式で表示する他の方法を意味します。エクセルとか。

0 投票する
2 に答える
113 参照

export-to-csv - 退役軍人病院のデータベースに適したリストを取得する最良の方法

これについて議論するのに適切なフォーラムではない場合は、心からお詫び申し上げます。

基本的に、退役軍人病院のデータベースに適したリストを見つけようとしています。私が見つけた最も近いものは www.va.gov/ofcadmin/docs/CATB.pdf です。探している情報がすべて含まれているからです。

  • 領域
  • 住所
  • 別の列の都市
  • 別の列の郵便番号
  • 施設番号 (StationID とも呼ばれます)
  • VISN
  • シンボル

そのPDFをCSVにエクスポートしようとしましたが、うまくいくのは完全な悪夢です。そのため、このタスクをどのように達成できるかについて誰かアイデアや洞察を持っているかどうか知りたいと思っていました.

0 投票する
3 に答える
93 参照

python - Python:不足している行を特定する

たとえば、次の行で構成される短いファイルを考えてみましょう。

私がしたことは、テキストファイルをreadlineし、を入れてApple、次のようなそれぞれのリストに入れることでした。OrangePear

以前line.count('Apple')==1は、テキストファイルの現在の行が果物であることを確認し、その後に値=をリストに追加していました。

ご覧のとおり、2番目のセクションがありませんApple。リストを次のようにします。

行に果物が表示されていない場合は常に、リストに追加-してそれを示す必要があります。

私の質問は、どうすればそれを行うことができるかということです。セクションにフルーツ名がないことを確認してから、それに追加-します。

0 投票する
3 に答える
3405 参照

data-extraction - Webクエリフォームに自動的に入力してデータを返す(初心者向け)

私はプログラミングの「初心者」の前に来るものは何でもです。私はExcel用のVBAでマクロを作成し、若い頃はVisual Studioを少し使用していましたが、それだけです。

私の問題:仕事で必要なレポートを作成するには、会社のイントラネット上のユーザーフレンドリーなクエリフォームの背後に保存されているデータを抽出する必要があります。これを除いて、レポートの他のすべての部分を自動化しました。このウェブページにアクセスし、クエリフォームにプリセット値を入力して、出力されたデータを返すプログラムを作成したいと思います。私の友人であるコンピューター科学者と話し合ったところ、Haskell(彼が選んだ言語)でこれを行うのは簡単だとのことでした。しかし、私はベテランではないので、自分のレベルに少し近い言語を学びたいと思っています...Pythonは良い賭けのようです。

私の質問:Pythonでこのタイプのデータ抽出を行うことは可能ですか?それはどれほど難しいでしょうか、そしてそれについて自分自身に教えるための良いリソースは何ですか?

私はいくつかの調査を行い、Scrapyを思いつきましたが、それがフォームに入力されているかどうかはわかりません。また、これに適した他の言語があれば、それを聞いてうれしいです。

0 投票する
0 に答える
74 参照

phpquery - 1 回のループで 100 の Web ページからデータを抽出する際に問題が発生する

私はちょっと立ち往生しています。私の目標は、数百ページの Web サイトからデータを抽出することです。スポーツ Web サイトで、チーム名やその他の関連データを抽出する必要があります。これまでのところ、私はそれを行うことに成功しています。6 ~ 7 ページのループを実行したところ、問題なく動作しました。しかし、ループを約 month(25) に変更すると、不完全なデータが取得されます。たとえば、目的地の日付が 10 月 25 日の場合、10 月 10 ~ 12 日にランダムに停止する可能性があります。私は使用してphpQueryおり、インターネット接続は 1MB です。この件で親切に私を導いてください、ありがとう。

0 投票する
1 に答える
103 参照

java - HTMLソースにはないがブラウザから見えるデータを取得するには?

必要なデータはブラウザから表示されますが、html ソース コードからは見つかりません。データはスクリプトによって生成されたと思われます。こういうデータをグラデーションにしたい。Jsoupを使用することは可能ですか? Jsoup が Javascript を実行しないことは承知しています。

このページを例にとると、Academics -> COLLEGES & SCHOOLS の下にあるすべての大学と学校を取得したいと思います。