AI アプリケーション用のトレーニング済みデータセットを使用するモジュールをパッケージ化するために setuptools を使用しています。特に、nltk データ ファイルvader_lexicon.txt
で見つかったものを使用しています。
pip から nltk をインストールする場合、データセットは自動的にダウンロードされません。特定のデータセットを取得するには、コマンドラインまたは Python インタープリターからコマンドを手動で実行する必要があります。すべてのデータセットを含めると数百メガバイトになるため、彼らがこれを行ったと思われます。
setuptools のドキュメントから、データ ファイルを含める方法は を使用するMANIFEST.in
ように見えますが、この場合、ソース配布にデータ ファイルを含める必要があるようです。
遠隔地からのデータを含める方法はありますか?