PDFからテキストを抽出してjsonファイルに書き込もうとしています。Unicode文字を抽出している間、Jsonはすべての&を&に変換します。たとえば、私の実際の文字列はش
です。(これはشを表します)。.txtファイル、コンソールなどに正しく出力されます。しかし、この文字列をJsonファイルに出力しようとすると、が表示されます\u0026#1588;
。
私はJavaを使用していますが、コードは
Gson gson = new Gson();
String json = gson.toJson(pdfDoc);
注:pdfDoc
はオブジェクトであり、入力PDFドキュメント内の文字のすべての詳細(位置、色、フォントなど)が含まれています。私はを使用してgson-2.2.1.jar
います。