0

こんにちは、私の英語レベルについて申し訳ありませんが、私は英語/アメリカ人ではありません。

私の質問は次のとおりです。このサイトに掲載されているサンプル コード ( pdfbox を使用してフォントの色を取得する方法) を使用しようとすると、著者はコードが試行されたと述べていますが、試してみると次のエラーが表示されます。

2013 年 7 月 17 日 1:05:28 PM org.apache.pdfbox.util.PDFStreamEngine processOperator INFO: サポートされていない/無効な操作: BDC 2013 年 7 月 17 日 1:05:29 PM org.apache.pdfbox.util.PDFStreamEngine processOperator INFO:サポートされていない/無効な操作: EMC DeviceGray org.apache.pdfbox.pdmodel.graphics.color.PDColorState@481958 0.0

ペイントされたコンテンツ3文字(RGB)を抽出していたpdf:

R:赤色塗装 G:緑色塗装 B:黒色塗装

このエラーは、pdf からカラー テキストを抽出する方法を教えてください。

今後ともコメントよろしくお願いします

4

1 に答える 1

0

これらのログ出力はレベル INFO のみであり、エラーではありません。

jul 17, 2013 1:05:28 PM org.apache.pdfbox.util.PDFStreamEngine processOperator INFO: unsupported/disabled operation: BDC
jul 17, 2013 1:05:29 PM org.apache.pdfbox.util.PDFStreamEngine processOperator INFO: unsupported/disabled operation: EMC 

彼らが言っているのは、プロセッサが登録されていないページ コンテンツで特定のオペレータ (BDC、EMC) が検出されたということだけです。ただし、これらの演算子はマークされたコンテンツの分析にのみ関係があるため、これらの演算子はタスクでは無視できます。

その後、参照したコードから出力が得られました。

DeviceGray
org.apache.pdfbox.pdmodel.graphics.color.PDColorState@481958
0.0

少なくとも最初と最後の行はそのコードと一致します。灰色の値が 0 の DeviceGray 灰色の色が検出されました。おそらく黒のBです。(間に追加の出力を追加した可能性があります。たとえば、graphicState.getStrokingColor()?)

したがって、エラーはなく、すべて正常に動作しています。

于 2013-07-18T07:55:58.843 に答える