検索、分類/分類、クラスタリングなどの多くのテキスト処理タスクを行う新しいプロジェクトを間もなく開始します。
処理が必要なドキュメントは膨大な量になります。おそらく数百万のドキュメント。初期処理の後、複数の新しいドキュメントで毎日更新できる必要もあります。
これを行うために Python を使用できますか、それとも Python は遅すぎますか? Javaを使用するのが最善ですか?
できれば、最近使っている Python が好きです。さらに、コーディング部分をはるかに速く仕上げることができます。しかし、それはすべて Python の速度に依存します。私は数千のドキュメントしかない小規模なテキスト処理タスクに Python を使用しましたが、どの程度スケールアップするかはわかりません。