私は、Java で書かれた Web クロール ソフトウェアを持っています。このソフトウェアは、特定の Web サイトを通過してデータを収集します。ここまでは順調ですね。簡単にするために JSoup API を使用していますが、それは関係ありません。私の問題はエンコーディングにあります。
サーバー上で Jar ファイルを実行すると (java -jar Crawler.jar を使用)、á、é などの国際的なアクセント記号を含めて、データが完全にキャプチャされます。ただし... crontabでスケジュールすると、基本的でないすべての文字が台無しになります! ここで何が問題になる可能性がありますか?私は本当に途方に暮れています、答えは本当に私の肌を救うでしょう.
編集-友人は、次のコードを使用して、Cronで実行されているロケールをチェックアウトすることを提案しました:
*/1 * * * * locale > /home/user/locale.ouput
私はそうしましたが、crontab は UTF-8 であるシステム設定とは対照的に、POSIX ロケールを使用しているようです。UTF-8に変更する方法を見ていきます。ヒントをいただければ幸いです。