“pdfminer”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1359 参照

python - Pythonでpdfminerを使用して合字を処理する

次のように、PDFminer を使用して PDF ドキュメントからテキストを読み取る Python スクリプトがあります。

この文字列 str が出力されるときにテキストが表示されるため、これはうまく機能しているように見えます。ただし、詳しく調べてみると、生成されたテキストを調べると「!」に変わる複数の文字 (つまり、「ff」、「fi」、「fl」、「ff」) がいくつかあります。

調査の結果、これらの文字にはすべて「合字」があり、2 つの文字を結合したバージョンに置き換えることができることがわかりました。

これらの合字は明らかに ASCII では見つかりませんが、Unicode で表現できることがわかりました。

テキスト内の「!」を正しい合字に変換するために、さまざまな文字エンコーディングを試してみましたが、うまくいきませんでした。

おそらく、これは私の PDF ファイルまたは PDFminer 自体に関係していますか?

2014-05-20T04:08:59.383

0 投票する

0 に答える

255 参照

python - Python で PDFminer によって TXT に変換された PDF でスタンフォード NER を使用するとエラーが発生しますか?

免責事項：私はPythonとプログラミング全般にかなり慣れていません。この質問にはいくつかの異なる要素があります。それらの一部またはすべてへの回答は非常に役立ちます。

対外援助文書から場所名を抽出するプログラムを Python で作成しようとしています。

これらのドキュメントは通常 PDF ファイルなので、最初は Adobe Reader で PDF から TXT に変換しました。しかし、プロセスを自分のプログラムに統合したいので、PDFMiner をインストールし、以前のスタックオーバーフローの質問 ( pdfminer をライブラリとして使用するにはどうすればよいか) からコードをテストして変換しました。これは私が現在使用しているコードです:

出力を印刷すると、Adobe Reader がシェルで作成したテキストと同じように見えますが、Stanford NER タガーはエンティティを見つけられません。スタンフォード NER を実装するためにpyner ( https://github.com/dat/pyner ) を使用していますが、文ごとに空の辞書を返すだけです。ソケットの問題ではなく、以前は Adobe で変換されたファイルで機能していました。これは、スタンフォード NER を実装するための私のコードです。

ターミナルでは、コードを実行すると、このエラーがかなり頻繁にスローされます (アドビで変換されたファイルでもときどきスローされます)。

なぜこれが起こっているのですか、どうすれば修正できますか?

参考までに私が取り組んできたドキュメントの例を次に示します。

補足: ご覧のとおり、すべてが文形式であるとは限らないため、将来的には、テキストマイニングプログラムが表なども認識できるようになることが理想的です。しかし、私はこれに不慣れで、それを実装する方法をまったく知らないので、最初にこの基本的な Named Entity Recognizer のハンドルを取得したいと考えています。ただし、何か提案があれば、私が得ることができるすべての支援に非常にオープンです。

よろしくお願いします！

python pdf stanford-nlp named-entity-recognition pdfminer

2014-06-19T19:56:45.960

0 投票する

2 に答える

22523 参照

python - PDFMiner を使用して PDF 内のテキストの場所を取得するにはどうすればよいですか?

PDFMiner のドキュメントには次のように書かれています。

PDFMiner を使用すると、ページ内のテキストの正確な位置を取得できます

しかし、私はこれを行う方法を見つけることができませんでした。PDFMiner の「ドキュメント」はかなりまばらなので、これを行う方法がわかりません。

python pdf position pdfminer

2014-08-11T16:35:19.227

0 投票する

1 に答える

6192 参照

python-2.7 - エンコーディングを強制したにもかかわらず、NLTK の word_tokenize で UnicodeDecodeError が発生する

最初にpdfをプレーンテキストに変換し（印刷してすべて問題ありません）、NLTKからword_tokenize（）を実行しようとするとUnicodeDecodeErrorが発生します。

事前にプレーンテキストでdecode('utf-8').encode('utf-8')しようとしても、そのエラーが発生します。トレースバックで、最初にエラーが発生する word_tokenize() のコード行が plaintext.split('\n') であることに気付きました。これが、プレーンテキストで split('\n') を実行してエラーを再現しようとした理由ですが、それでもエラーは発生しません。

そのため、エラーの原因も回避方法もわかりません。

どんな助けでも大歓迎です！:) pdf_to_txt ファイルの何かを変更することで回避できるでしょうか?

トークン化するコードは次のとおりです。

pdfからtxtに変換するために呼び出すメソッドは次のとおりです。

これが私が得るエラーのトレースバックです：

百万とたくさんの良いカルマに感謝します! ;)

python-2.7 encoding utf-8 nltk pdfminer

2014-08-14T18:52:59.403

0 投票する

5 に答える

172643 参照

python - PythonでPDFMinerを使用してPDFファイルからテキストを抽出しますか?

Python で PDFMiner を使用して PDF ファイルからテキストを抽出する方法に関するドキュメントまたは例を探しています。

PDFMiner が API を更新したようで、私が見つけた関連するすべての例には古いコードが含まれています (クラスとメソッドが変更されました)。私が見つけた、PDF ファイルからテキストを抽出するタスクを簡単にするライブラリは、古い PDFMiner 構文を使用しているため、これを行う方法がわかりません。

現状では、ソースコードを見て、それを理解できるかどうかを確認しています。

python python-3.x python-2.7 text-extraction pdfminer

2014-10-21T18:56:50.810

0 投票する

1 に答える

213 参照

python - Pythonでmongodbドキュメントをバイナリに変換するには?

このpythonコマンドラインユーティリティを変換して、既存のプログラムでコードをモジュールとして使用できるようにし、MongoEngineを使用してMongoDBに保存されているpdfをフィードできるようにしています。

現在、ファイル名を文字列として受け取り、次のコードを使用してファイルを取得します。

mongoDB からドキュメントを挿入したいので、関数の引数をに変更しmain(fp)、インタラクティブな Python インタープリターから次のことを行いました。

fpは最初に'rb'フラグを使用して作成されるため、mongoengine からバイナリモードで作成する必要があると思いますが、 FileFieldfpの GridFS 結果をバイナリモードに変換する方法がわかりません。

GridFS の結果をバイナリに変換して、を使用して取得したときと同じにする方法についてのヒントはありfile(fname, 'rb')ますか? すべてのヒントは大歓迎です！

python mongodb pdf mongoengine pdfminer

2014-10-22T10:35:22.763

0 投票する

2 に答える

735 参照

python - この Python メソッドを取得して、標準出力に書き込む代わりに文字列を返すにはどうすればよいですか?

Pythonを使用してpdfからテキストを抽出しようとしています。このために、次のようにpdf2txt.py コマンドラインツールを使用して、かなり良い仕事をするpdfminerを見つけました。

この機能をプログラムで使用したいので、これをコマンドラインツールではなくモジュールとして使用したいと考えています。そのため、pdf2txt.py ファイルを次のように調整することができました。

次のようにモジュールとして呼び出すことができます。

現在、を使用して結果の文字列を出力していますsys.stdout.write()が、実際にreturnは、コードの最後の行にあるステートメントを使用してそれらの文字列を返したいと思っています。しかし、その sys.stdout.write の使用はconverter.pyの 165 ～ 167 行目の奥深くに隠されているため、標準出力に書き込む代わりに、このメソッドがこれらの文字列を返すようにする方法がよくわかりません。

見つかった文字列を stdout に書き込む代わりに、このメソッドを取得して返す方法を知っている人はいますか? すべてのヒントは大歓迎です！

python pdf return stdout pdfminer

2014-10-22T12:45:16.243

0 投票する

1 に答える

2044 参照

python - pdfminerでpdfファイルを横に読む

pdfminer（バージョン20140328）でpdfを抽出したいと思います。

これは、pdf を抽出するコードです。

これは、pdf のスクリーンショットです。ここに画像の説明を入力

問題は、pdfminerそれを水平方向 (人から位置) ではなく、列 (すべての人からそれぞれの位置) で読み取ることです。

pdfminerテキストを横に読むにはどうすればよいですか？

python pdf extract pdfminer

2014-10-29T14:44:27.440

問題タブ [pdfminer]

Reference