問題タブ [newspaper3k]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

37 問題

0 投票する

1 に答える

78 参照

python - Newspaper3k は、抽出中に不適切な URL を除外します

いくつかの助けを借りて ;) CNN ニュース Web サイトからタイトルとコンテンツをスクレイピングし、これを .csv ファイルに入れることができました。

URL を含むリスト (別のコードで抽出されたもの) には、不適切な URL が含まれています。このコードは非常に単純で、Web サイトをスキャンしてすべての URL を返すだけです。したがって、リストにはいくつかの悪い URL があります (例: http://cnn.com/date/2021-10-17 ) このリストを検索してそれらの悪い URL を手動で削除するのではなく、コードをスキップするように変更することでこれを解決できるかどうか疑問に思っていました悪い URL を見つけて、次の URL に進みます。

コード例:

2021-10-26T18:17:45.197

1 2 3 4 5 6 7 8 9 10

問題タブ [newspaper3k]

python - Newspaper3k は、抽出中に不適切な URL を除外します

Reference