まず第一に、私は特定の開発の答えを目指しているのではなく、むしろ開発のアプローチを目指しています。
私が抱えている問題は、PDFで膨大な量の記事を持っているクライアントがいることです。過去20年間、年間50のPDFで約150の記事があります。これらのPDFはすべて、Macを使用している人からのQuark Expressからコンパイルされています(その情報が重要な場合)。新しいPDFマガジンが作成されるたびに、Web開発チームは各記事をコピーしてインターネット上のフォームに貼り付けます(!)。タイトル、コンテンツ、キーワード、参照、作成者名など。通常、1人の男性が仕事を終えるのに丸3日かかります。
私がそこで働いていたとき(私はもう7年近く前ではありませんでした)、クリップボード監視アプリとサーバーと対話するいくつかの単純なXMLベースのPHPスクリプトを使用して、プロセスを3倍高速化しました。次に必要なのは、テキストを選択してCTRL + Cを選択し、さらにテキストを選択してCTRL + Cを実行し、アプリ(ALT + TAB)に移動して、[次の記事]を押してこれを繰り返すことだけです。しかし、私たち、またはほとんど私は、PDFマガジンの処理に年間約50日を費やしています。
今、私は7年後です。そして、友好的な訪問の理由で、私は再び私の古い上司と話をしようとしています。私は彼らがまだ私のアプリを使用していることを知っています(!)。しかし、おそらく彼らの問題をもう一度調べて、彼らを助けることができるコーディングプロジェクトを提案できるかどうかを確認するのは良い考えですか?
私はQuarkExpressを使用したことがありません。それが、ソフトウェアに関する私の知識の範囲内である限り、MSWordに似ていることを知っているだけです。私は、暗号化されていない、抽出されたPDFコード/構文にあまり精通していません。
要するに:Quark Expressには、記事を抽出するためにPDFスクリプトで使用できる特定のコンパイルパターンがありますか?記事の内容が含まれている同様の構造のPDFページから「学習」できる「インテリジェント」ツールは何ですか?ある種のQuarkXpressモジュールのように、スクリプトの抽出を非常に簡単にするために、非表示の参照タグを使用して記事を「カプセル化」または「マーク」できるツールはありますか?
これらのPDFを作成する人々は、過去20年間仕事をしており、ソフトウェアの更新を除いて、作業フローを変更することを望んでいません。彼らのための追加のツールは彼らのワークフローを妨害してはいけません、さもなければ彼らはそれを拒否するでしょう。
コードは必要ありません; しかし、他のPDF抽出の問題に関して、あなたや他の人々がおそらく行ったことのほんの一部の説明にすぎません。最良の答えは、おそらくいくつかの方法の説明、またはケースの説明を含む外部リンクへの参照です。