問題タブ [twill]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Twill での正規表現の使用
現在、urllib2 と BeautifulSoup を使用して、html データを開いて解析しています。ただし、ページがレンダリングされた後に JavaScript を使用して画像をロードするサイトで問題が発生しました (ページ上の特定の画像の画像ソースを見つけようとしています)。
Twill が解決策になる可能性があると考えており、ページを開いて「find」で正規表現を使用して、探している html 文字列を返そうとしています。ただし、これを機能させるのに問題があり、Twillで正規表現を使用する方法に関するドキュメントや例が見つからないようです。
これを行う方法、またはこの問題を一般的に解決する方法についてのヘルプやアドバイスは大歓迎です。
python - ツイルを使用したPython 2.7、ダウンロードしたファイルを適切に保存
それが私が現在使用しようとしているものです。
ウェブサイトは次のように機能します。
- ログイン ページが、生成するレポートを選択できる別のフォームにリダイレクトされます。
- すべてのデフォルトの選択肢が必要なので、ページを再度送信します。
- 次に、レポートを生成する別のページにアクセスし、ファイルを強制的にダウンロードします。
redirect_output は xls ファイルを保存しません。
save_html は情報を保存しますが、何かが壊れており、Excel はそれをまったく読み取ることができません。私は kdiff を使用して違いをチェックアウトします。たくさんあると主張していますが、左/右のデータは同一であり、行末の問題かどうか疑問に思っています..など. 100%確実ではありません。
twill の Web サイトのコマンド ページを確認しましたが、どうすればよいかわかりません。
python - Flask アプリの機能テスト: 奇妙な Twill トレースバック
Flask アプリをテストしています。
要約すると、ここに私の質問があります:
1) 以下のコード ブロックの最終的な URL アサーションが失敗します。Twill によると、実際の URL は「/auth/login」であるため失敗します。つまり、ユーザーは保護された管理ページにリダイレクトされませんでした。なんで?
2) URL アサーションに「/?next='admin'」リクエスト引数を含めるにはどうすればよいですか? 言い換えれば、正しく解決された「次の」引数をテストする方法はありますか?
3) 機能テストにおいて、301 ステータス コードをアサートする以外に、リダイレクトの動作を示す方法はありますか?
これが私のスクリプトのツイル関連の部分です...
結果のトレースバックは次のとおりです。
注: 奇妙なことに、「go」コマンドの後に 200 ステータス コードをアサートしても、エラーは返されません。上記の URL にログインした後、最終的な URL が実際に管理ページであることを示したいと思います。そのようです...
失敗せずに実行したいテストですが、できません...
python - Twill で showforms() コマンドを使用すると解析エラーが発生する
このプログラムの私の考えは、現在の時刻を監視する単純な (おそらく) スクリプトを用意することです。特定の時間範囲 (たとえば、午前 6 時から午後 7 時) になると、opendns.com に移動し、Web コンテンツを使用して特定の Web サイトをブロックします。フィルタリング機能。
簡単に始めて、ウェブサイトにログインしてウェブサイトをブロックするコマンドを理解し、後で時間の監視などについて心配するだけだと思いました。しかし、悲しいことに、私もそれで問題を抱えています。
私はhttp://twill.idyll.org/を使用していますが、それが良いアイデアかどうかはわかりません。mechanize 以外に見つけたのはこれだけです(適切なドキュメントが見つかりませんでしたが、適切な場所を探していないだけかもしれません)
これが私のコードです (まあ、実際にはまだコードではありません。Python シェルのコマンドのリストです):
ここからが私の問題の始まりです。その最後の b.showforms() で、エラーが発生します。
python - Twill は HTTPS で動作しますか?
Twill を入手したばかりで、いじっていましたが、HTTPS サイトに問題があるようです。たとえば、コマンドgo(' http://boston.craigslist.org/ ')は正常に接続されますが、go(' https://accounts.craigslist.org/ ')は失敗します。他のHTTPSリンクに接続しようとしても同じことが起こりましたが、HTTPリンクは問題ありません


python - Python で Twill 出力をエレガントに抑制
私は最近、基本的なスクリーンスクレイピングを行うために Twill と BeautifulSoup をいじっています。しかし、私が使用しているコマンドの 1 つが、望ましくない出力を画面に表示しているようです。問題のサイトにログインするために使用するコードの簡単なスニペットを次に示します。
現時点では、「redirect_output()」関数を使用して、望ましくない出力をガベージで満たされたテキスト ファイルにパイプ処理していますが、これは非常にハックなソリューションのようです。上記のコマンドで過剰な印刷を避けるより洗練された方法はありますか?