私は多くの pdf-->text メソッドを使用して、pdf ドキュメントからテキストを抽出しました。私が持っている特定の種類の PDF については、pyPDF も pdfMiner もテキストをうまく抽出できません。ただし、http://www.convertpdftotext.net/は(ほぼ)完全にそれを行います。
使用している pdf に透明なテキストが含まれており、他のテキストにマージされていることがわかりました。
返されるテキスト ブロックの例を次に示します。
12324 35th Ed. 01-MAR-12 Last LNM: 14/12 NAD 83 14/12 Corrective Object of Corrective
ChartTitle: Intracoastal Waterway Sandy Hook to Little Egg Harbor Position
C HAActRionT N Y -NJ - S A N D Y H OO K ATcO tionLI T TLE EGG HARBOR. Page/Side: N/A
(Temp) indicates that the chart correction action is temporary in nature. Courses and bearings are givCGenD 0in 1 degrees clockwise from 000 true.
Bearings RoEf LlighOCtAT seEc tors aSrehre towwsbuardry th Re ivligher Ct fhroanmn seel Lawighartde.d B Theuoy 5no minal range of lights is expressedf roin mna 4u0tic-24al -mi46les.56 0(NNM ) unless othe0r7w4is-00e n-o05te.d8.8 0 W
to 40-24-48.585N 074-00-05.967W
と
12352 33rd Ed. 01-MAR-11 Last LNM: 03/12 NAD 83 04/12 . . l . . . . Corrective Object of Corrective ChartTitle: Shinnecock Bay to East Rockaway Inlet Position C HAActRionT S H IN N E C OC K B A Y TO AcEtionAS T ROCKAWAY INLET. Page/Side: N/A (Temp) indicates that the chart correction action is temporary in nature. Courses and bearings are givCGenD 0in 1 degrees clockwise from 000 true. (BTeeamringp) s DoEf LlighETtE s ectors aSretat toew Baoratd Ctheh anlighnet lf Droaym beseacoawanr 3d. The nominal range of lights is expressedf roin mna 4u0tic-37al -mi11les.52 0(NNM ) unless othe0r7w3is-29e n-5o3te.d76. 0 W
そして、「ゴーストテキスト」は常に次のとおりであることを発見しました。
Corrective Object of Corrective Position
Action Action
(Temp) は、チャート修正アクションが一時的なものであることを示します。コースと方角は、000 から時計回りに角度で表示されます。
光セクターの方位は、海側からの光に向かっています。特に明記されていない限り、ライトの公称範囲は海里 (NM) で表されます。
私が投稿した2番目の例では、必要なテキスト(ゴーストテキストを削除したもの)は次のとおりです。
12352 33rd Ed. 01-Mar-11 Last LNM:03/12 NAD 83 04/12
Chart Title:Shinnecock Bay to East Rockaway Inlet. Page/Side:N/A
CGD01
(Temp) DELETE State Boat Channel Daybeacon 3 from 40-37-11.520N 073-29-53.760W
この問題はドキュメントごとに 1 回だけ発生し、完全に一貫しているようには見えません (上記のように)。ウィザードの 1 人が、Python を使用してゴースト化されたテキストを削除する方法を考えられるかどうか疑問に思っています (必要ない/したくない)。pyPDF を使用していた場合、テキストへの変換中に正規表現を使用してそれを切り取っていたでしょう。残念ながら、私は上記の Web サイトのテキスト ファイルから始めているため、既に被害を受けています。私は少し途方に暮れています。
読んでくれてありがとう。
編集: この問題の解決策は、アプリケーションの残りの部分よりも複雑に見えるので、助けを求めるリクエストを撤回します。
貢献してくださった方々の考えにとても感謝しています。