0

JavaとJSOAPを使用してWebサイトからいくつかの記事をクロールするアプリケーションを作成しています。アプリケーションは、記事の一部のセクションを.tex(LaTeX)ドキュメントにコンパイルし、PDFLatexを使用してPDFに変換します。

一部のページには&や "などのHTMLエンティティが含まれており、これらがPDF変換中にエラーを引き起こしています。この問題を回避するにはどうすればよいですか?

4

2 に答える 2

1

This question on tex-exchangeには、適切な変換リストへのリンクがあります。列は(順番に):

  1. &およびなしの html エンティティ (大文字と小文字の区別は無視);
  2. 対応するユニコード文字
  3. 対応する latex コマンド (利用可能な場合)。なしで\

このリストを出発点として変換コードを作成するのは非常に簡単です。

于 2012-09-13T19:14:43.300 に答える
0

HTML は、一連の文字で定義されるタグを使用してデータを構造化します。これらのタグは特定の文字で始まり、特定の文字を含みます。タグの一部を区切る文字のいずれかを使用する場合は、文字エンティティを使用してそれらを表す必要があります。

つまり&、これは 1 文字のある種の奇妙なエンコーディングではなく、実際には 5 文字であり、これらの組み合わせは、HTML レンダラー (Web ブラウザーなど) に、その文字のみ&が表示されることを示すシグナルとなります。

Tex は別の獣であり、&HTML のように「裸」を使用することについて同じ制限がないため、そのようなデータを Tex で処理する前に、すべての HTML 文字エンティティを通常の文字で文字列置換する必要があります。

文字エンティティには 2 つのタイプがあることに注意してください。1 つのセットには「名前付き」エンティティ(それぞれ&gt;および&lt;(>および) など<) が含まれ、2 番目のセットは「番号付き」エンティティです。番号付きエンティティは次のよう&#32;に表示され、この例の「32」は ISO-8859-1 文字コード (この場合はスペース) を指します。

于 2012-09-13T19:12:27.343 に答える