java - HTMLエンティティ（＆など）をラテックスに変換する

Question

JavaとJSOAPを使用してWebサイトからいくつかの記事をクロールするアプリケーションを作成しています。アプリケーションは、記事の一部のセクションを.tex（LaTeX）ドキュメントにコンパイルし、PDFLatexを使用してPDFに変換します。

一部のページには＆や "などのHTMLエンティティが含まれており、これらがPDF変換中にエラーを引き起こしています。この問題を回避するにはどうすればよいですか？

score 1 · Accepted Answer

This question on tex-exchangeには、適切な変換リストへのリンクがあります。列は（順番に）：

&およびなしの html エンティティ (大文字と小文字の区別は無視);
対応するユニコード文字
対応する latex コマンド (利用可能な場合)。なしで\

このリストを出発点として変換コードを作成するのは非常に簡単です。

score 0 · Accepted Answer

HTML は、一連の文字で定義されるタグを使用してデータを構造化します。これらのタグは特定の文字で始まり、特定の文字を含みます。タグの一部を区切る文字のいずれかを使用する場合は、文字エンティティを使用してそれらを表す必要があります。

つまり&、これは 1 文字のある種の奇妙なエンコーディングではなく、実際には 5 文字であり、これらの組み合わせは、HTML レンダラー (Web ブラウザーなど) に、その文字のみ&が表示されることを示すシグナルとなります。

Tex は別の獣であり、&HTML のように「裸」を使用することについて同じ制限がないため、そのようなデータを Tex で処理する前に、すべての HTML 文字エンティティを通常の文字で文字列置換する必要があります。

文字エンティティには 2 つのタイプがあることに注意してください。1 つのセットには「名前付き」エンティティ(それぞれ>および<(>および) など<) が含まれ、2 番目のセットは「番号付き」エンティティです。番号付きエンティティは次のよう に表示され、この例の「32」は ISO-8859-1 文字コード (この場合はスペース) を指します。

java - HTMLエンティティ（＆など）をラテックスに変換する

2 に答える 2

Related

Reference