問題タブ [python-newspaper]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

105 問題

0 投票する

1 に答える

82 参照

python - Python Flask アプリは、Python とは異なる (クロールされた) 文字列を直接返します

私が取り組んでいる Flask アプリ内で奇妙なものを見つけました。Flask API は、ニュース記事の URL を受け取り、それを (新聞ライブラリを使用して) クロールし、クロールされたテキストのカテゴリを予測することを目的としています。

ただし、Python (Spyder) で直接クローラーを実行すると、予想どおり記事のテキストが返されます。

これは魅力のように機能します。Flask アプリ内で同じコードを実行すると、クロールされた URL のナビゲーションに属する別の文字列が生成されます。

基本的に、最初のスニペットは完全な記事のテキストを返し、2 番目のスニペットは以下を返します。

次のページを参照してください: DevOps > Configuration-Management ログイン | 構成管理登録 | ニュースレター

問題が十分に明確になったことを願っています。そうでない場合はお知らせください。

何が起こっているのですか？

2018-01-18T09:32:11.207

0 投票する

0 に答える

517 参照

python - Pythonの新聞 - URLが英語でない場合、記事を抽出できません

Pythonの新聞モジュールでニュース記事の内容を取得しようとしています。次のコードでニュース項目の本文を見つけることができます。このコードは、feed_url変数内のフィード URL をfeedparserで解析してから、newsbodyモジュールでニュース本文と発行日を見つけようとします。

feed_urlコード内の変数の 2 つの異なる値について言及しました。

たとえば、extremetechfeedparser.parse が https://www.extremetech.com/computing/263951-mit-announces-new-neural-network-processor-cuts-power-消費-95。そして、この URL のニュース本文テキストと公開日を簡単に取得できます。

しかし、たとえば prothomalo には、 http:feedparser.parse //www.prothomalo.com/sports/article/1432086/%E0%A6%B8%E0%A6%B0%E0%A7%8D の URL (から取得) を持つニュースアイテムがあります。 %E0%A6%AC%E0%A7%8B%E0%A6%9A%E0%A7%8D%E0%A6%9A-%E0%A6%B8%E0%A7%8D%E0%A6%95% E0%A7%8B%E0%A6%B0-%E0%A6%97%E0%A7%9C%E0%A7%87%E0%A6%93-%E0%A6%B9%E0%A6%BE% E0%A6%B0 .

しかし、prothomalo の Web サイトでは、実際の URL はそのようには見えません。URL にアクセスすると、URL がベンガル語に変更されていることがわかります。このような暗号化された (?) URL の背後にある理由は、URL にベンガル語の部分が含まれているためだと思います。ここのコンテンツもベンガル語です。

Python 新聞モジュールは、prothomalo からではなく、extretemetech サイトからコンテンツと発行日を抽出できます。prothomalo URL に英語以外の文字が含まれていることが原因ですか?

prothomalo サイト (英語以外の URL を含むサイトなど) からニュースコンテンツ、発行日などを取得するにはどうすればよいですか?

編集 1: prothomalo のエンコードされた URL を次の行で元のベンガル語にデコードできました : post_link =urllib.parse.unquote(post.link). それでも、コンテンツと発行日を取得できません。

python django url-encoding python-newspaper

2018-02-15T15:08:32.533

0 投票する

1 に答える

99 参照

python - Python 新聞の小見出し

この記事と他の記事の小見出しを抽出したい: https://www.dr.dk/nyheder/regionale/trekanten/legos-regnskab-viser-tilbagegang

つまり、「Lego har netop præsenteret regnskabet for 2017, og kurven peger nedad.」

ただし、Python モジュールの Newspaper だけではそれができないようです。

何か不足していますか？できる他のモジュールはありますか？読みやすさとhtml2textも試しました。

私のコード:

python python-newspaper

2018-03-06T10:45:39.340

1 2 3 4 5 6 7 8 9 10

問題タブ [python-newspaper]

python - Python Flask アプリは、Python とは異なる (クロールされた) 文字列を直接返します

python - Pythonの新聞 - URLが英語でない場合、記事を抽出できません

python - Python 新聞の小見出し

Reference