0

まず第一に、私は特定の開発の答えを目指しているのではなく、むしろ開発のアプローチを目指しています。

私が抱えている問題は、PDFで膨大な量の記事を持っているクライアントがいることです。過去20年間、年間50のPDFで約150の記事があります。これらのPDFはすべて、Macを使用している人からのQuark Expressからコンパイルされています(その情報が重要な場合)。新しいPDFマガジンが作成されるたびに、Web開発チームは各記事をコピーしてインターネット上のフォームに貼り付けます(!)。タイトル、コンテンツ、キーワード、参照、作成者名など。通常、1人の男性が仕事を終えるのに丸3日かかります。

私がそこで働いていたとき(私はもう7年近く前ではありませんでした)、クリップボード監視アプリとサーバーと対話するいくつかの単純なXMLベースのPHPスクリプトを使用して、プロセスを3倍高速化しました。次に必要なのは、テキストを選択してCTRL + Cを選択し、さらにテキストを選択してCTRL + Cを実行し、アプリ(ALT + TAB)に移動して、[次の記事]を押してこれを繰り返すことだけです。しかし、私たち、またはほとんど私は、PDFマガジンの処理に年間約50日を費やしています。

今、私は7年後です。そして、友好的な訪問の理由で、私は再び私の古い上司と話をしようとしています。私は彼らがまだ私のアプリを使用していることを知っています(!)。しかし、おそらく彼らの問題をもう一度調べて、彼らを助けることができるコーディングプロジェクトを提案できるかどうかを確認するのは良い考えですか?

私はQuarkExpressを使用したことがありません。それが、ソフトウェアに関する私の知識の範囲内である限り、MSWordに似ていることを知っているだけです。私は、暗号化されていない、抽出されたPDFコード/構文にあまり精通していません。

要するに:Quark Expressには、記事を抽出するためにPDFスクリプトで使用できる特定のコンパイルパターンがありますか?記事の内容が含まれている同様の構造のPDFページから「学習」できる「インテリジェント」ツールは何ですか?ある種のQuarkXpressモジュールのように、スクリプトの抽出を非常に簡単にするために、非表示の参照タグを使用して記事を「カプセル化」または「マーク」できるツールはありますか?

これらのPDFを作成する人々は、過去20年間仕事をしており、ソフトウェアの更新を除いて、作業フローを変更することを望んでいません。彼らのための追加のツールは彼らのワークフローを妨害してはいけません、さもなければ彼らはそれを拒否するでしょう。

コードは必要ありません; しかし、他のPDF抽出の問題に関して、あなたや他の人々がおそらく行ったことのほんの一部の説明にすぎません。最良の答えは、おそらくいくつかの方法の説明、またはケースの説明を含む外部リンクへの参照です。

4

1 に答える 1

2

大まかな質問ですが、一見したところ、私の答えは、PDFまで行かせると、すでに非常に困難になっているということです。彼らがまだQuarkXPressを使用している場合、この種のことを行うためのはるかに優れた方法があり、同様のアプローチが実際にそこにあるかなりの数の出版社によって使用されています。

1)QuarkXPressからPDFとXMLの両方を生成することを検討してください。彼らが自分たちのやり方を変えたくないのは問題ありませんが、とにかくQuarkからPDFを作成する必要があります。また、XMLの生成は、それほど大きな追加手順ではありません。実際(警告-所属!)これらすべてを1つのステップにまとめることができるツールがあります。たとえば、AppleScriptを記述してプロセスを操作することもできますが、axaio MadeToPrintのようなものは、ユーザーが[エクスポート]をクリックした後、(正しい)PDFファイルとXMLファイルの両方を自動的に生成します。

2)同じコンテンツのPDFとXMLを入手したら、PDFを印刷用に使用し(知っているとおり)、コードを記述してXMLをWebサイトで必要なものに変換します。コーディングがWebサイト自体で行われている場合は、Quarkから出力されるXMLを微調整する必要さえないかもしれません。必要なものを何でも拾うことができるように、サイトを十分にスマートにするだけです。

幅広い質問に対する幅広い回答。それがあなたが探しているものであったことを願っています...

于 2013-01-12T10:19:25.530 に答える