問題タブ [python-newspaper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
436 参照

python - 終わりのないスレッドを使用して Newspaper3k (python3 lib) で URL のリストを処理する

スクリプトが URL のリストを読み取り、そのリストをキューに渡し、python-newspaper3k で処理します。私はさまざまな URL をたくさん持っていますが、それらの多くはあまり人気のある Web サイトではありません。問題は、処理が終了しないことです。場合によっては終了することもありますが、何らかの問題を処理して停止するプロセスがいくつかあります。問題は、python-newspaper が各 HTML を解析しようとするときです。コードは

ここでは、キューに URL をロードし、新聞を使用して各 HTML をダウンロードして解析します。

次に、スレッドを作成します

どの URL に問題があり、終了するのに時間がかかるかを見つける方法はありますか? URL が見つからない場合、スレッド デーモンを停止することはできますか?