問題タブ [newspaper3k]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
101 参照

python - NLTK: TypeError: リストではなく str でなければなりません

docker コンテナーで news3k を使用しています。必要な nltk データをすべてダウンロードしましたが、実行するとこの問題が発生article.nlp()article.nlp()article.summary.

Flask アプリで同じコードを使用すると動作しましたが、今は Django (+ DRF) でテストしていますが、次のエラーが発生しています:

を見つけるのに問題があるようですがtokenizers/punkt/english.pickle、nltk_data を確認すると、そこにあります。

これがどこから来るのか、何か分かりますか?

更新

コードは非常に単純です。これは私のDjangoビューです:

私は Django Rest Framwork を使用しているので、このフィールドを使用してシリアル化しています:

0 投票する
1 に答える
409 参照

python - Python Newspapers3k Newspapers ライブラリのマルチスレッド処理が無期限にハングする

私はゲーム メディア サイトから記事を抽出するプロジェクトに取り組んでおり、基本的なテスト ランを行っています。VSCode のデバッガーによると、マルチスレッド抽出を設定した時点で一貫してハングします (スレッドの数は役に立ちませ) 2 つのサイトで。正直なところ、ここで何が間違っているのかわかりません。レイアウトされている例に従いました。サイトの 1 つである Gamespot は、誰かのチュートリアルでも使用されており、もう 1 つのサイト (Polygon) を削除しようとしましたが、役に立たないようです。仮想環境を作成し、Python 3.8 と 3.7 の両方でこれを試しました。すべての依存関係が満たされているように見えます。私も repl dot it でテストしましたが、同じハングがありました。

私は何か間違ったことをしているだけなので、それを修正できると聞きたいです。これらの特定の Web サイトとその記事について、データ サイエンスを実行したいと思っています。しかし、少なくとも OS X ユーザーにとっては、マルチスレッドに何らかのバグがあるようです。これが私のコードです:

そして、最終的にあきらめてコンソールで割り込みをヒットしたときに返されるものは次のとおりです。