JavaとJSOAPを使用してWebサイトからいくつかの記事をクロールするアプリケーションを作成しています。アプリケーションは、記事の一部のセクションを.tex(LaTeX)ドキュメントにコンパイルし、PDFLatexを使用してPDFに変換します。
一部のページには&や "などのHTMLエンティティが含まれており、これらがPDF変換中にエラーを引き起こしています。この問題を回避するにはどうすればよいですか?
This question on tex-exchangeには、適切な変換リストへのリンクがあります。列は(順番に):
&
およびなしの html エンティティ (大文字と小文字の区別は無視);
\
このリストを出発点として変換コードを作成するのは非常に簡単です。
HTML は、一連の文字で定義されるタグを使用してデータを構造化します。これらのタグは特定の文字で始まり、特定の文字を含みます。タグの一部を区切る文字のいずれかを使用する場合は、文字エンティティを使用してそれらを表す必要があります。
つまり&
、これは 1 文字のある種の奇妙なエンコーディングではなく、実際には 5 文字であり、これらの組み合わせは、HTML レンダラー (Web ブラウザーなど) に、その文字のみ&
が表示されることを示すシグナルとなります。
Tex は別の獣であり、&
HTML のように「裸」を使用することについて同じ制限がないため、そのようなデータを Tex で処理する前に、すべての HTML 文字エンティティを通常の文字で文字列置換する必要があります。
文字エンティティには 2 つのタイプがあることに注意してください。1 つのセットには「名前付き」エンティティ(それぞれ>
および<
(>
および) など<
) が含まれ、2 番目のセットは「番号付き」エンティティです。番号付きエンティティは次のよう 
に表示され、この例の「32」は ISO-8859-1 文字コード (この場合はスペース) を指します。