問題タブ [data-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
597 参照

jquery - Jqueryを使用してページからデータを抽出しますか?

Yahoo Pipeを介してフィードできない動的Webページ上のすべてのISBNを抽出したいと思います(ユーザーはページを表示するためにログインする必要があります)。jQueryでそれを行う方法はありますか?どのように?

編集: 構造:

そのページでHTMLがどのように表示されるかの例を次に示します。<table>一連の<tr>要素が含まれているがあります。それらのサンプルの1つは、おおよそ次のようになります。

これらのいずれにもid属性はありませんが、構造は明確に定義されています。

ありがとう!

0 投票する
3 に答える
9282 参照

postgresql - PostgreSQLからデータウェアハウスへ:ほぼリアルタイムのETL/データ抽出のための最良のアプローチ

バックグラウンド:

OLTP用に大幅に最適化されたPostgreSQL(v8.3)データベースがあります。

半リアルタイムでデータを抽出する必要があります(誰かが半リアルタイムの意味を尋ねる必要があり、答えは合理的に可能な限り頻繁に行われますが、ベンチマークが言うように、私は実用的です15分ごとに期待しています)そしてそれをデータウェアハウスに送ります。

どのくらいのデータ?ピーク時には、OLTP側に到達する1分あたり約80〜100k行を話しますが、オフピーク時には、これは15〜20kに大幅に低下します。最も頻繁に更新される行はそれぞれ最大64バイトですが、さまざまなテーブルなどがあるため、データは非常に多様で、1行あたり最大4000バイトの範囲になります。OLTPは24時間365日アクティブです。

最善の解決策?

私がまとめることができるものから、最も実用的な解決策は次のとおりです。

  • TRIGGERを作成して、すべてのDMLアクティビティを回転するCSVログファイルに書き込みます
  • 必要な変換を実行します
  • ネイティブのDWデータポンプツールを使用して、変換されたCSVをDWに効率的に送ります

なぜこのアプローチ?

  • トリガーを使用すると、システム全体ではなく、選択したテーブルをターゲットにすることができます。+出力は構成可能(つまり、CSVに)であり、作成と展開が比較的簡単です。SLONYは同様のアプローチを使用しており、オーバーヘッドは許容範囲内です
  • CSVを簡単かつ迅速に変換
  • CSVをDWに簡単に送り込む

検討された代替案...。

  • ネイティブロギングの使用(http://www.postgresql.org/docs/8.3/static/runtime-config-logging.html)。これに関する問題は、私が必要としていたものに比べて非常に冗長に見え、解析と変換が少し難しいことです。ただし、TRIGGERに比べてオーバーヘッドが少ないと思われるため、より高速になる可能性があります。確かに、システム全体であるため、管理が容易になりますが、ここでも、一部のテーブルは必要ありません(一部は、ログに記録したくないJMSメッセージの永続ストレージに使用されます)
  • TalendなどのETLツールを介してデータを直接クエリし、それをDWに送り込む...問題は、これをサポートするためにOLTPスキーマを微調整する必要があり、多くの悪影響があります。
  • 微調整/ハッキングされたSLONYの使用-SLONYは、変更のログ記録とスレーブへの移行を適切に行うため、概念フレームワークは存在しますが、提案されたソリューションはより簡単でクリーンに見えます
  • WALの使用

誰かがこれを以前にやったことがありますか?あなたの考えを共有したいですか?

0 投票する
4 に答える
24244 参照

google-maps - Googleマップでピンの緯度/経度を抽出するには?

Google マップの Web ページで約 50 ~ 100 個のピンのセットの緯度と経度を抽出したいと考えています。私はページを管理しておらず、複数回行う必要もないので、すばやく汚れたものを探しています。FireBugと Chrome を備えた FireFox を持っています。必要なのは、すべての数字を再入力するよりも簡単なものだけです。

0 投票する
2 に答える
678 参照

c# - C# Linq を使用して、ディレクトリ内の XML ファイルごとに 1 つの XML 属性を抽出する

Linq を使用して、ディレクトリ内の各 XML ファイルから単一の XML 属性を抽出し、その要素を C# リストに配置するにはどうすればよいですか。各ファイルを 1 つずつループする必要がありますか? XML ファイルは非常に大きいため、ファイル全体をメモリにロードせずにこれを実行したいと考えています。

ありがとう、j

0 投票する
1 に答える
77 参照

wiki - mediawikiを使用して名前の種類を決定しますか?

記事がLebron_Jamesに関するものであれば、私はそれがアスリートに関するものであることを知っているでしょう。

0 投票する
1 に答える
129 参照

python - lxmlでテーブルを分類します

私は大量のhtmlドキュメントを扱っています。私の仕事の1つは、ドキュメントからすべてのテキストを抽出することです。私はかなり遠くまで行きましたが、本質的に数値ではない情報のコンテナ/フォーマット構造としてテーブルを使用しているため、今は困惑しています

私の目標は、数値フィールドのテーブルである場合、「テーブル」を抽出しないことを無視することです。

私はテーブルを取ることによってブルートルールベースのアプローチを実装する準備をしています。td.text_content()の一部が数字として分類できる場合は、テーブルが数値のテーブルであると判断します。

他の誰かがより良いアプローチを提案できるかどうか疑問に思っています

0 投票する
5 に答える
12545 参照

windows - Windows アプリケーションのメモリからデータを読み取る方法は?

私はいくつかのデータを表示するアプリケーションを持っています。このアプリのプロセスにアタッチし、メモリ内で必要なデータ (実際には 1 つの数字) を見つけて、どこかに保存する必要があります。このアプリケーションは標準の Windows コントロールを使用していないようです。そのため、AutoIt などを使用してコントロール データを読み取るほど単純ではありません。

現在、私は自己学習型のデータベース担当者であり、Windows アプリのデバッグについて非常に浅い知識しか持っていません。質問を十分に正しく行ったかどうかさえわかりません。

では、最初に何を読むべきか、また、取り組むべき一般的な指示について、いくつかのスターター ガイドラインを教えていただけますか?

ありがとう。

0 投票する
2 に答える
2962 参照

perl - Perlでテキストファイルから表形式のデータを抽出/解析するにはどうすればよいですか?

HTML::TableExtractのようなものを探しています。これは、HTML 入力用ではなく、インデントとスペースでフォーマットされた「テーブル」を含むプレーン テキスト入力用です。

データは次のようになります。

0 投票する
7 に答える
276884 参照

python - 文字列から浮動小数点数を抽出する方法

に似た文字列がいくつかありCurrent Level: 13.4 db.、浮動小数点数だけを抽出したいと思います。私はフローティングと言い、10 進数ではなく、全体であることがあります。正規表現はこれを行うことができますか、それともより良い方法がありますか?

0 投票する
2 に答える
90 参照

regex - 私の状況は、' /i ' REGEX 属性を使用する適切な場所でしょうか?

VMWare の特定のバージョンでサポートできるすべての可能な OS 名の大きなカタログを作成しています。もともと私は VMX ファイルにあるようにすべてを書いていましたが、それらすべてがリストされている Web サイトを見つけました。問題は、「完全な」一致を提供するために適切にケース化されていないことです。大文字と小文字を区別しないための正規表現属性?

また、副次的な質問として、Web サイトから OS のリストを抽出することは可能でしょうか? それらは HTML 形式のチャートにあるように見えます。それらをすべて入力する必要があるため、多くの時間を節約できます。

HTML::Table extract を見ましたが、使い方がよくわかりません。表に関する限り、ウェブサイトのコードでセクションを見つけることができ、新しい html ファイルにコピーしてデスクトップに配置できるようにしました。

これは奇妙です。おそらく何かが欠けています。しかし、大文字と小文字を区別しないと一致させることはできません。/xmi で正規表現を終了すると、次の出力が得られます。

Use of uninitialized value $guest_os in concatenation (.) or string at discovery4.pl line 146.

私が発見したことは、印刷しようとしているスカラーに関連付ける一致がないことを意味します。

とにかく、私はそれを変更winnetstandardするwinNetStandardと動作し、言う ので、大文字と小文字を区別したくないという問題があることを知っています。Windows Server 2003, Standard Edition. それが言うべきことです。