問題タブ [data-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - DOMXPath var_dump: "(オブジェクトの値は省略)"
Vardump $xpath
:
ここで何が問題なのですか?HTMLコードでxpathを使用して情報を抽出しようとしています。
php - JSON配列のエントリを数えますか?
JSON からスクレイピングしているエントリをカウントするにはどうすればよいですか?
以下の例には 6 つのエントリがありますが、ご覧のとおり、エントリが追加された場合、私のコードはそれを無視します。10回ループして、何も拾わない場合は停止することもできますが、それは悪い方法だと思います.
次の JSON で 6 つの「季節」を取得する簡単なコードはありますか?
マイページ.PHP
JSON
excel - 〜1500個の同じ形式のtxtファイルのそれぞれから1行を抽出し、値をcsvまたはxlsに保存する方法は?
〜1500個の同じ形式のtxtファイルのそれぞれから1行のテキストを抽出し、これらの行のすべての値を、対応する日付(txtファイル名)とともにcsvファイルに保存しようとしています。
上記のtxtファイルの行はこのようにフォーマットされています(上下にデータの行があります):
最終的に次のような xls ファイルを生成したいと考えています。
grep または awk の使用を検討しましたが、率直に言って、どこから始めればよいかわかりません。コマンド ライン バッチ プロシージャは最適な攻撃手段ですか? 望ましい最終結果は、これらの毎日の平均をすべて、対応する日付とともに Excel スプレッドシートにインポートすることです。Excel のインポート txt オプションはファイルごとに機能しますが、ここでの問題は、1500 個の個々のファイルを txt から xls ファイルに手動でインポートするのに時間がかかることです。
洞察や方向性は大歓迎です。
ruby - 「行にxが含まれている場合は保存する」というTSVファイルスクレーパーを作成するにはどうすればよいですか?
TSV (タブ区切り値) ファイルを開き、特定の行を新しい CSV (カンマ区切り値) ファイルに保存したいと考えています。
行のヘッダーが「Actor1Code」のフィールドに含ま'NLD'
れている場合、その行を CSV に保存したいと考えています。そうでない場合は、次の行に繰り返します。これは私がこれまでに持っているものですが、明らかにそれだけでは十分ではありません:
r - Rを使用してオーストラリアのBOM気象データをプログラムで抽出する
ここでhttp://www.bom.gov.au/climate/data/変電所番号を入力できます、たとえば 009572; 変数 (Temperature など) とそのタイプ (Maximum など) を選択します。「データを取得」をクリックすると、「すべての年のデータ」リンクのあるページに移動します。それをクリックすると、zip ファイルが得られます。この質問は承知していますが、zip ファイルへの直接リンクはありません。R を使用して、オーストラリア気象局の Web サイトから気象データの抽出を自動化するために何かできることはありますか?
excel - Excel データベースからのデータの抽出
名前の長いリストと、名前に関連付けられた一意の値を含むデータベースがあります。私がやりたいことは、個人ごとに1つのワークシートを作成し、ワークシートの指定された範囲にデータのみをコピーしてから、次の個人に進み、データをワークシートにコピーするなどです。
ワークシートの例へのリンクを次に示します (Google ドキュメント フォームで、注 - 私は実際には Google ドキュメントではなく Excel 2010 を使用しています)。
「従業員」という名前の新しいシートで次のコードを使用して、すべてのワークシートを作成できました。このシートに対して行ったのは、ワークシートのすべての名前のリストを取得できるように、重複する名前の値を削除することだけでした。
どんな助けでも大歓迎です。前もって感謝します。
google-analytics - Google アナリティクスからのデータの自動抽出
通常、月に 1 回 Google アナリティクスからデータをインポートし、社内でレポートのニーズに使用しています。問題は、これを手動で行わなければならないことです。このプロセスを自動化して、月に 1 回のルーチンを週に 1 回または毎日に増やすことができれば素晴らしいと思います。最終的な目標は、データを自動的にインポートして csv または Excel ファイルに保存するツールをセットアップすることです。出力ファイルは私たちにとって重要ではありません。手動での介入なしに定期的に GA からデータを取得できる限り、取得したデータをどう処理するかは私たちが処理します。これには Java ベースの実行可能ファイル (オンラインで入手可能) を使用しますが、これを手動で実行してデータを抽出します。
私はいくつかの解決策を探しましたが、オープン ソース ツール (.Net が望ましく、実際には Java ベース以外のもの) でさえありましたが、実際には何も見つかりませんでした。それらのほとんどは、データをエクスポートするために手動で介入する必要があり、最善の方法は、そのデータに基づいてレポートを自動的に生成することです。
私たちの最後の手段は、自分で何かを書くことですが、これをもう少し研究して、開発/プログラミングの時間を節約したいと思います. 私はそこにいる誰かが少なくともこの問題に遭遇したと確信しています。
より良いソースへのヘルプ、ポインター、またはリダイレクトをいただければ幸いです。
ありがとう
c# - C#で文字列からメソッド引数を抽出する
1 つのパラメーターを持つ特定のメソッドを検索する多数の .cs ファイルを読み取る単純なファイル リーダーがあります。そのメソッドが存在する場合は、パラメーターの名前だけをスクレイピングします。string.Compare() を実行することを考えていましたが、引数が始まる文字列のインデックスに到達する方法がわかりません。
この例では、「名前」のみを削り取りたいと考えています。
編集: パラメータはconst string
、場合によっては a になることもあります。とにかくそれをバイパスするには?
python - PythonでnetCDF4をインストールしてnetCDFデータファイルを抽出するには?
Python を使用して netCDF データ ファイルを抽出したいと考えています。この目的のために、Numpy、netCDF4-Python、および h5py をインストールしました。ただし、エラーメッセージが表示されます
ImportError: numpy.core.multiarray のインポートに失敗しました
それの何がいけないの?または、Python で netCDF ファイルを抽出する簡単な方法はありますか?