問題タブ [data-harvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonを使用して「送信」ボタンを自動的に押す
私が使っているバス会社はひどいウェブサイト (ヘブライ語、英語) を運営しており、「今日の A 地点から B 地点までの時刻表」という単純なクエリが悪夢のように表示されます。コストのかかる SMS クエリ システムの使用を奨励しようとしているのではないかと思います。
可能なすべてのポイントからすべての可能なポイントへのクエリを送信することで、サイトから時刻表全体を収集しようとしています。これは合計で約 10,000 件のクエリになります。クエリ結果がポップアップ ウィンドウに表示されます。私は Web プログラミングにまったく慣れていませんが、Python の基本的な側面には精通しています。
- ページを解析し、ドロップダウン メニューから値を選択し、スクリプトを使用して「送信」を押す最も洗練された方法は何ですか?
- プログラムに新しいポップアップの内容を入力として渡すにはどうすればよいですか?
ありがとう!
facebook-c#-sdk - 学習 データ収集
以下からデータを収集する Web サイトを構築したい: * Facebook の友達のステータス * 他の Web サイト
残念ながら、データを収集する方法がわかりません。誰かが本\チュートリアルを推薦できますか? この分野にどうアプローチするか?
googlebot - GoogleBot を検証する方法
サイトでのデータ収集を防止したい (もちろん googlebot を除く)。GB の UserAgent に依存するだけでは不十分だと思います (すべてのボットがそれを偽造できます)。
偽物を避けるために GoogleBot を認証するにはどうすればよいですか。
ckan - DCAT 拡張機能を使用するハーベスターが動かなくなる
私たちは ckanext-dcat を使用してリモート json ソースからハーベストを行ってきましたが、一部のハーベスト ジョブが終了せず、そのソースからのすべてのデータセットと共に削除する必要がありました。ジョブを 1 つだけ削除する方法があるかどうかはわかりません。
しかし今、私は収集消費者ログでこれを取得します:
ジョブは終了しますが、データセットは作成されません。ジョブを削除して再収集すると、実行は継続されますが終了せず、他の収集ジョブも更新されません。
どうすればこれを修正できますか?
javascript - PHP/JavaScript リンクを使用してサイト訪問者に関する情報を取得する
誰かが私をフィッシングしようとしています。彼らは私の親しい友人の 1 人のふりをして、私たち 2 人に屈辱を与えようとしています。この人物は偽のメール アカウントを作成し、その人物になりすまして、私から個人情報を取得しようとしています。私は友人にそれが実際には彼ではないことを確認しました.今、私たちはそれが誰であるかを突き止めようとしています.
ある種の PHP または JS ページへのリンクを送信して、クライアントに関する情報 (ブラウザ、オペレーティング システム、ISP の場所など) を収集し、実際の Web サイト (YouTube など) に転送したいと考えています。ビデオか何か)。
PHP の非常に基本的な知識があるので、基本的な情報を収集できるあらゆる種類のスクリプトを本当に感謝しています。
ありがとうございました!
php - PHP API 配列を json にハーベストする
Harvest php API http://mdbitz.com/harvest-api/examples/を使用すると、私の収穫 php 配列は次のデータを出力します。
データ:
しかし、json クラスを使用して json に変換すると、空の {} 何が起こっているのか分かりませんか?
json - データセットの JSON ではなく XML ページを表示するにはどうすればよいですか
pycsw 拡張子を使用して CSW ファイルを生成しています。ある CKAN インスタンス [1] から別の [2] にデータを収集し、pycsw 'paster load' コマンドを実行しようとしています。
エラーが発生します:
このURLにアクセスしたときの理由だと思います:
XML とは対照的に、JSON ファイルを作成します (これが期待されます)。
他の ckan インスタンスで pycsw load コマンドを実行しましたが、問題はありませんでした。上記の URL に XML ファイルも表示されるので、JSON の代わりに XML ファイルを提供するように CKAN を取得する方法を知りたいですか?
助けてくれてありがとう!
metadata - GeoNetwork を使用した THREDDS からの収集
私は THREDDS インスタンスを持っています: https://wci.earth2observe.eu/thredds/catalog-earth2observe.htmlで、ISO-19115 標準形式でデータを取得する方法を探しています。私は多くの解決策を試しましたが、現在、私が持っている GeoNetwork インスタンスに情報を取得しようとしています。
次の設定で THREDDS ハーベスターを使用してみました。
ノード名: E2O
頻度: 0 00 09 ? * 月~金
グループ:サンプルグループ
サービス URL: https://vortex1.npm.ac.uk/thredds/catalog-earth2observe.xml
カタログ内のすべてのサービスの ISO19119 メタデータを作成します。
コレクション データセットのメタデータを作成する:ティック
Atomic Datasets のメタデータを作成する: Tick
thredds-datasetDategory:地図とグラフィック
パブリックに設定され、「すべて」がチェックされています
GeoNetwork のv3.0.2を使用しています
私が間違っていること、または他のどのシステムを機能させることができるかについてのアドバイスをいただければ幸いです。
どうもありがとう!