問題タブ [python-newspaper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python Flask アプリは、Python とは異なる (クロールされた) 文字列を直接返します
私が取り組んでいる Flask アプリ内で奇妙なものを見つけました。Flask API は、ニュース記事の URL を受け取り、それを (新聞ライブラリを使用して) クロールし、クロールされたテキストのカテゴリを予測することを目的としています。
ただし、Python (Spyder) で直接クローラーを実行すると、予想どおり記事のテキストが返されます。
これは魅力のように機能します。Flask アプリ内で同じコードを実行すると、クロールされた URL のナビゲーションに属する別の文字列が生成されます。
基本的に、最初のスニペットは完全な記事のテキストを返し、2 番目のスニペットは以下を返します。
次のページを参照してください: DevOps > Configuration-Management ログイン | 構成管理 登録 | ニュースレター
問題が十分に明確になったことを願っています。そうでない場合はお知らせください。
何が起こっているのですか?
python - Pythonの新聞 - URLが英語でない場合、記事を抽出できません
Pythonの新聞モジュールでニュース記事の内容を取得しようとしています。次のコードでニュース項目の本文を見つけることができます。このコードは、feed_url
変数内のフィード URL をfeedparserで解析してから、newsbodyモジュールでニュース本文と発行日を見つけようとします。
feed_url
コード内の変数の 2 つの異なる値について言及しました。
たとえば、extremetechfeedparser.parse
が
https://www.extremetech.com/computing/263951-mit-announces-new-neural-network-processor-cuts-power-消費-95。そして、この URL のニュース本文テキストと公開日を簡単に取得できます。
しかし、たとえば prothomalo には、 http:feedparser.parse
//www.prothomalo.com/sports/article/1432086/%E0%A6%B8%E0%A6%B0%E0%A7%8D の URL (から取得) を持つニュース アイテムがあります。 %E0%A6%AC%E0%A7%8B%E0%A6%9A%E0%A7%8D%E0%A6%9A-%E0%A6%B8%E0%A7%8D%E0%A6%95% E0%A7%8B%E0%A6%B0-%E0%A6%97%E0%A7%9C%E0%A7%87%E0%A6%93-%E0%A6%B9%E0%A6%BE% E0%A6%B0 .
しかし、prothomalo の Web サイトでは、実際の URL はそのようには見えません。URL にアクセスすると、URL がベンガル語に変更されていることがわかります。このような暗号化された (?) URL の背後にある理由は、URL にベンガル語の部分が含まれているためだと思います。ここのコンテンツもベンガル語です。
Python 新聞モジュールは、prothomalo からではなく、extretemetech サイトからコンテンツと発行日を抽出できます。prothomalo URL に英語以外の文字が含まれていることが原因ですか?
prothomalo サイト (英語以外の URL を含むサイトなど) からニュース コンテンツ、発行日などを取得するにはどうすればよいですか?
編集 1:
prothomalo のエンコードされた URL を次の行で元のベンガル語にデコードできました : post_link =urllib.parse.unquote(post.link)
. それでも、コンテンツと発行日を取得できません。
python - Python 新聞の小見出し
この記事と他の記事の小見出しを抽出したい: https://www.dr.dk/nyheder/regionale/trekanten/legos-regnskab-viser-tilbagegang
つまり、「Lego har netop præsenteret regnskabet for 2017, og kurven peger nedad.」
ただし、Python モジュールの Newspaper だけではそれができないようです。
何か不足していますか?できる他のモジュールはありますか?読みやすさとhtml2textも試しました。
私のコード: