latex - Web サイトからテキスト、画像、および LaTeX 式を導出する

Question

特定の Web サイトからテキスト、画像、および LaTeX 式を取得して、オブジェクトがぼやけることなく独自の PDF を直接カスタマイズできるようにすることは可能でしょうか? 画像のみが固定解像度になります。

PDFを間接的に生成する方法がいくつかあることを認識しています。たとえば、 Riemann Zeta FunctionでWolfram MathWorld から PDF をレンダリングしようとすると、印刷して Chrome 経由で PDF として保存することで可能になりますが、ズームインすると、LaTeX の方程式とテキストが自然にぼやけてしまいます。「Wolfram の CDF プレーヤー」をダウンロードしようとしましたが、含まれているのは Mathematica のライブラリの構文だけで、Wolfram MathWorld が提供する役立つ説明は含まれていません。PDF ファイル内のテキスト、画像、および LaTeX 式をぼやけずに抽出するには何が必要ですか?

score 1 · Accepted Answer

質問からは明らかでない方法で画像を生成するために使用された LaTeX ソースにアクセスできない限り、答えは「できません」です。リンクされた Web サイトをざっと調べてみると、方程式を作成するために使用される LaTeX がすぐに利用できないことがわかります (Web サーバーに配置される画像を作成するバックエンドシステムのどこかにある可能性があります)。

ブラウザにとって、それは単なる画像です。画像が生成された方法は、Web ページでの表示方法や PDF での表示方法 (つまり、必要以上にピクセル化されている) とは無関係です。

Web サイトが PNG や JPEG などのピクセルベースの形式ではなく、SVG などのベクターグラフィック形式を使用している場合、それらはきれいに PDF に変換され、適切にズームされます。これは、問題のサイトのウェブマスターが行う選択です。

score 1 · Accepted Answer

ソースを調べてみると、各方程式を表す gif には、それらをレンダリングする LaTeX に近い代替テキストがあることがわかります (これは Mathematica コードかもしれません。私は Wolfram のツールに詳しくありません)。合理的なソースを抽出することは不可能ではありませんが、難しいでしょう。サイトは表でレイアウトされているため、美しいスープのようなものでもHTML を解析するのは難しい場合があります。一部の方程式は別の gif に分割されているため、それらを解析するのはさらに難しくなります。また、代替テキストが何であれ、LaTeX に変換する必要があります。

全体として、無数のページを作成する必要がない場合は、テキストをコピーして貼り付け、画像を保存し、各画像の代替テキストを取得して、自分で変換することをお勧めします.

score 0 · Accepted Answer

この例では、そのページの Mathematica ノートブックをダウンロードできます。たぶん、そこから何かを解析することは可能です。

latex - Web サイトからテキスト、画像、および LaTeX 式を導出する

3 に答える 3

Related

Reference