問題タブ [data-collection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Cookie を必要とする Web サイトからの Python 記事のコレクション
大学で行っている研究のために、infoweb.newsbank.com のデータベースから記事を収集しようとしています。これまでのところ、これは私のコードです:
残念ながら、私はこの応答を返します:
http.cookiejar を使用してみましたが、ライブラリに慣れていません。私は Python 3 を使用しています。Cookie を受け入れて記事にアクセスする方法を知っている人はいますか? ありがとうございました。
facebook - Facebook や Instagram などのソーシャル メディアの Web サイトに掲載されることのない写真を収集するには、どうすればよいでしょうか?
私は画像とビデオの品質評価に取り組んでおり、非常に大規模な画像/ビデオ データベースの構築を試みています。
ソーシャル メディアの Web サイトにアップロードされているほとんどすべての画像は、後処理されていない場合でも、少なくとも適切にキャプチャされています。私たちのほとんどは何百枚もの写真を撮り、最終的に数枚の良い写真だけをアップロードします. 高品質ではないもの (例: ぼやけ、露出不足/露出過多) を簡単に収集する方法はありますか?
serial-port - トランザクション後に POS レシート プリンターからデータを取得しますか?
私は POS システムからレシート データを操作するプロジェクトに取り組んでおり、正しい方向に向けてくれることを期待していました。
私はPOSシステムを初めて使用し、基本的に印刷前または印刷中にレシートデータを収集し、そのデータをタブレットまたは別のデバイスに送信する方法を理解しようとしています.
領収書はどのような形式で印刷されますか? 外部デバイスによってどこで収集できますか (シリアルポートから?!)? また、POS システムに関するその他のガイドや情報も大歓迎です。
javascript - ブラウザでリモート サーバーの遅延を特定して記録する方法
関連:ブラウザを介してリモート サーバーの遅延を判断する方法
外部サーバーの http 応答ステータス コードを収集する可能性を理解しようとしています。
コンテキストについて: DOM 要素の値をキャプチャするように記述された JavaScript ライブラリをページにロードし、GET 要求を外部サーバーにアセンブルしてこれらの値をコレクションに渡します。Google アナリティクスはその好例です。ga.js ライブラリは、ページ/ブラウザからのデータ値をスコープし、外部サーバー上のトラッキング ピクセルに対して、多数のクエリ文字列の名前/値のペアおよび/または Cookie 値を含む画像リクエストを行います。これは一般的な活動であり、一般的に理解されています。
私が記録しようとしているのは、外部収集サーバーの応答/確認です (処理やデータ収集のオーバーヘッドを削減するために、これは応答が 200 でない場合のみに制限できます)。私の理解では、応答コードは HTTP ヘッダーでのみ使用できます。この方法でヘッダー応答をキャプチャできるかどうかさえわかりません。 これらの応答コードを取得または記録し、ブラウザで利用できるようにする方法については不明です。これにより、後続の収集ルーチン (おそらく JavaScript ライブラリ) が送信サーバー ドメイン (つまり、HOST: google-analytics) と連携してこれらのコードを収集できるようになります。 .com STATUS: 413 Request Entity Too Large) を送信し、これらの収集された値を外部の収集環境に送信します。
追加の「あると便利」として、タイミングも収集することも有益ですが、これは明らかに別の問題であることを認識しています. リクエストが行われたときにタイマーを開始し、ブラウザに返されたステータス コードでリクエストが確認されたときにタイマーを停止し、その番号をデータとともに送信します: (HOST: google-analytics.com STATUS: 413 Request Entity Too Large TIME: 283ms )。
ruby-on-rails - ヘルパーバッド コレクションのフォーム
form_for ヘルパーを使用して、アプリケーションのクライアント側でデータを収集しています。しかし、何か奇妙なことが起こっています。:name と :description を収集しておらず、どちらも nil として返されます。これは私のコードです:
これを機能させるには、form_for の下に fields_for を作成する必要がありますか? この場合、どの種類の属性をビューに伝えるように設定されている @type を使用しているので、少し注意が必要です。彼らは見ています。たとえば、次の行です。
あなたが表示しているビューに応じて、ether:
どちらも技術的に同じであるため、両方に同じインデックスを使用しています。私の問題が明確であることを願っています。私の問題と解決策を理解してくれる人に感謝します。
java - 現在、クリックストリームを実装する標準的な方法は何ですか?
Web サイトがあり、議論のために、バックエンドが Java で書かれていると仮定しましょう。
また、Web サイトのユーザーのクリックストリーム データを取得したいとします。たとえば、さまざまなことを追跡したいと考えています。
- 知財
- アクセス時間
- 照会
- ユーザーエージェント
- 等
もう 1 つの仮定は、REST インターフェイスを備えたクリックストリーム Web サービスがどこかにあり、配信した情報をデータベースに保存するだけであるということです。
さて、このことに関する私の限られた知識からすると、2 つの問題が見えます。
- クリックストリーム データがキャプチャされ、ユーザーが回避しないようにするにはどうすればよいですか?
- クリックストリーム サービスをポータブルにする方法は?
現時点では、クリックストリームを実装する方法が 2 つありますが、どちらにもいくつかの欠陥があります。
- Javascript を使用してクリックストリーム データを送信し、移植可能にすることで、バックエンド コードを変更せずに任意の Web サイトにフックできます。変更する必要があるのは HTML のみです (これらはマイナーなものです)。
HTMLページを持っている
captureAndSendClickStreamData()
含まれている Clickstream.js の関数はどこにありますか。
明らかに、このアプローチは簡単に移植できますよね?しかし、ユーザーが JS を無効にするとどうなるでしょうか。本質的に、彼はあなたが懸命に取り組んできたクリックストリーム サービスをブロックしています。
ClickStreamServletFilter
一部のクラスでクリックストリーム データのキャプチャを処理します。明らかな利点は、エンド ユーザーがそれについて何も知らず、実際に無効にすることができないことです。ただし、クリックストリーム サービスを使用して他のサイトを拡張するには、バックエンドを台無しにする必要があります。強化しようとしている Web サイトが Java で書かれていない場合はさらに面倒です。
だから、私の最後の質問は次のとおりです。
- 言及されたアプローチにそれほど明白ではない(不利な)利点は他にありますか?
- 他に実行可能なアプローチはありますか?
- グーグル、フェイスブック、アマゾンなどの大物はこれにどう対処するのだろうか?
お時間をいただきありがとうございます:)