問題タブ [bots]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
asp.net - プログラムでボットを検出する方法
訪問をログに記録し、訪問者がページにヒットし、ボットがデータベースを詰まらせている状況があります。これは人間の入力を求める前であるため、キャプチャやその他の手法を使用することはできません。基本的にはページ ヒットをログに記録しており、人間によるページ ヒットのみをログに記録したいと考えています。
既知のボット IP のリストはありますか? 既知のボット ユーザー エージェントのチェックは機能しますか?
java - ボットがデータベースに数回クエリを実行しないようにする
一種のレジストリであるアプリケーションを構築しています。辞書について考えてみてください。単語を検索すると、その単語が見つかった場合に何かが返されます。現在、そのレジストリには企業に関する貴重な情報が保存されており、完全なリストを取得したくなる場合があります。私のアプリケーションは、WSに応答するEJB3.0を使用しています。
そのため、1日あたりIPアドレスごとに最大10個のクエリを許可することを考えていました。毎晩スクリプトによって空になるテーブルにIPアドレスとカウンターを保存します。
そうすることは良い考え/実践ですか?はいの場合、EJB側でIPアドレスを取得するにはどうすればよいですか?データベースからすべてのデータを取得することを防ぐためのより良い方法はありますか?CAPTCHAについても触れましたが、ユーザーにとっては苦痛だと思いますし、実際の人間でも読みにくい場合があります。
私は英語ではないので、それがすべて明確であることを願っています...
ありがとうアラン
security - Web アプリケーションでの疑わしい動作の検出 - 何を探すべきか?
私たちの中の積極的な (または偏執狂的な) 人に尋ねたいと思います: あなたは何をどのように探していますか?
ログを手動で検査するのではなく、プログラムで監視できることを主に考えています。
例えば:
- 手動/自動ハッキングの試み。
- データスキミング。
- ボットの登録 (キャプチャなどを回避したもの)。
- その他の望ましくない動作。
ほとんどの人が実用的で効果的だと考えるものは何だろうか。
予防的なもの (ユーザー入力のサニテーションなど) はもちろん重要ですが、この質問の場合、潜在的な脅威を検出することに関心があります。この場合、ロックではなく、盗難警報に関心があります。
私が話している種類の例は、ここ SO にあります。質問を短期間に何度も変更すると、ボットではないことを確認するためのキャプチャが表示されます。
seo - アプリがボット リクエストをビューとして追跡しないようにする方法
これは、Web アプリの作成に関する一般的な質問です。
記事のページ ビューをカウントするアプリケーションと、私のクライアント用にインストールした URL 短縮スクリプトがあります。問題は、ボットがサイトにアクセスするたびに、ページ ビューを膨らませる傾向があることです。
これらのアプリケーションのビュー カウントからボット ビューを削除する方法について、誰かアイデアをお持ちですか?
.htaccess - Htaccess / robots.txtを使用すると、検索ボットはメインドメインを探索できますが、他のドメインのディレクトリは探索できません
わかりました。タイトルが意味をなさないことを理解しているので、ここで詳細に説明しようとしました。
ドメイン用のスペースを提供し、他のドメインを「追加」できるホスティングを使用しています。たとえば、ドメインAがあり、ドメインBを追加するとします。基本的に、ホスティングによってpublic_htmlが提供され、誰かがWebサイトAにアクセスしたときに表示されるものを配置できます。ただし、ドメインBを追加すると、そのpublic_htmlの内側にあるBのコンテンツ。これにより、A.com / siteBにアクセスしてWebサイトB.comにもアクセスできます...GoogleがA.com/だけでなくB.comのインデックス作成も開始したことを除けば、これで問題ありません。 siteB、B.comのインデックス作成は問題ありませんが、A.com / siteBのインデックス作成を禁止して、ユーザーがBを検索したときにA.com/siteBが表示されないようにします。
何か案は?質問がまだ不明な場合はお知らせください。
php - xmphpボットを常にオンラインに保つ
Googleトークサーバーに接続する単純なxmppボットをPHPで作成しました。基本的にcli_longrunの例を変更しました。ブラウザでスクリプトを実行すると、ボットがオンラインになり、スクリプトが実行されていたタブを閉じた後もしばらくオンラインのままになります(ストリーム上のイベントをリッスンする無限ループであるため)。しかし、しばらくするとボットはオフラインになります。
問題は、ボットを常にオンラインに保つ方法です。私が考えることができる1つの方法は、以前のcronを切断して、新しいセッションを開始するcronを実行することです。しかし、より良いアプローチはありますか?
screen-scraping - Webサイトコンテンツのクロール
IIS 6 Windows 2003でホストされているビジネスリストディレクトリがあります。競合他社は、コンテンツと顧客をクロールして盗みます。
ハニーポットURLとログ解析を使用してIPブロッキングを試しましたが、あまり成功しませんでした。この問題を最小限に抑えるためにWebサーバーの前で実行できるネットワークデバイスまたはプロキシサーバーを知っている人はいますか?
すべての提案は高く評価されています。
php - この訪問者はボットですか、それともユーザーですか? PHP
私は、カスタマイズされた Google アナリティクス (およびその他のアナリティクス) が提供できる特別な機能を使用して、独自の訪問者追跡を行っています。スクリプトの終わり近くでこの関数を呼び出していましたが、ボット (Google だと思います) から数千のページが呼び出されているクライアントにすぐに出くわしました。月。
ほとんどの人が使用する方法は、ページの下部で Javascript を使用することです。ボットは JavaScript を操作しないため、これは簡単な修正ですが、PHP ソリューションを探しています。
最後に行ったのは、PHP の使用get_browser
です。
http://us2.php.net/manual/en/function.get-browser.php
crawler
そしてアスペクトをチェックします。これはうまくいきませんでした。
私はこの投稿を見てきました: スクリプターがあなたのウェブサイトを毎秒何百回も非難するのを止める
しかし、それに対する主な解決策は、CAPTCHA を表示する SO に似た処理を行うことでした。私が言いたいのは、ボットを止めることではなく、ページをクロールしてもらいたいということです。訪問者がそこにいるときに、訪問者追跡データを送信したくないだけです。
ユーザーがいらいらし、統計が不正確になったため、AJAX リクエストを実行する Javascript ソリューションに今すぐ切り替えました。
python - Python で単純な IRC ボットをプログラミングするにはどうすればよいですか?
チャンネルに接続するだけの基本的な IRC ボットを作成するのに助けが必要です。これについて説明できる人はいますか? IRC サーバーに接続することはできましたが、チャンネルに参加してログオンすることができません。これまでのコードは次のとおりです。
どんな助けでも大歓迎です。
ruby - 優れた Ruby IRC クライアント ライブラリ
Irc ボットを書きたいと思います。(ボット フレームワークではなく、適切な irc クライアント ライブラリを返信してください)。
__
なぜ反対票を投じるのですか?かなりの数の ruby irc ライブラリが存在するため、どのライブラリが適切で適切に管理されているかを知りたいだけです。