問題タブ [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
374 参照

r - テキストマイニング「スキャン中: 引用符で囲まれた文字列内の EOF」エラー

フォルダー内の 24 個の PDF ファイルを txt ファイルに変換して、セマンティック分析を実行できるようにする必要があります。この質問を見て、そこから先に進みました。ただし、コードを初めて機能させた後、いくつかの変更を加えたところ、次のエラーが発生しています。

このため、以下のコードの変数に保存されるのbodiesは 24 個の空白のリストだけであり、(PDF を txt に変換することによって作成される 24 個のテキスト ファイルに加えて) 24 個の空白のテキスト ファイルになります。何が間違っていたのかわかりません - ある時点で、このコードは機能しました!

私はすでにこのエラーについて見つけたものを調べましたが、それらは に関連付けられておりread.csv、提案された修正 (white.space=TRUEおよびの設定quote="") は機能しませんでした。

コードは次のとおりです (エラーは 20 ~ 23 行目にあります)。

編集: 変数の結果についてもう少しbodies: 結果は 24 のリストであり、次の形式を取ります (R Studio コンソールでは、これの実際の名前はわかりません): ボディ: 24 のリスト: 1 のリスト ..$ : chr(0) :1 のリスト ..$ : chr(0) (24 回繰り返し)

しかし、それがなぜなのかは一生わかりません -ここでchr(0)起こっているのと同じ種類のことと関係があると思います- 私は間違いなくすべての行をキャプチャしていません.

考えられるすべてのことを試してみreadLines()ましscan()た。に切り替えたこともscan()ありread.table()ますが、read.table()それ自体が に依存していることがわかりましたscan! だから...私は立ち往生しており、サークルで自分のやり方で作業しています。

0 投票する
1 に答える
1766 参照

python - TypeError: タイプ 'PSLiteral' の引数は反復可能ではありません

csv ファイルに書き込む前に、pdfform-scraper-script を使用して隠しエントリを削除しようとしています。しかし、タイトルに記載されているエラーが引き続き発生します。関連するコードは次のとおりです。

完全なエラー (+出力) は次のとおりです:
ok
ok

トレースバック (最新の最後の呼び出し): ファイル "C:\Python27\Scripts\test3.py"、37 行目、elif '\n' の値: TypeError: 型 'PSLiteral' の引数は反復可能ではありません

これを解決する方法を知っている人はいますか?

0 投票する
2 に答える
1862 参照

c# - PDF to Text: iTextSharp: 抽出結果の重複ページ

前もって感謝します。

背景:

PDFドキュメントの特定のセクションからデータを抽出するコンソールアプリケーションに取り組んでいます。これを行うには、最初にその pdf を操作する文字列に変換する必要があります。これを行うために、私は iTextSharp に目を向けました。PDFはページごとに2列でレイアウトされているので、SimpleTextExtractionStratgey()を使用しています(iTextSharp.text.pdf.parser.LocationTextExtractionStrategy();を試しましたが、ページレイアウトには効果がありませんでした)。

テキストに変換されるコンテンツの説明:

私が問題を抱えていると思われるページには、ページの横に「ヘッダー」が掲載されています。ヘッダーのあるページは、ドキュメント全体に断続的に散らばっています。

ページ レイアウトのイメージ: http://postimg.org/image/b7i25v0g1/

問題:

ページの列を調べ終わると、そのサイド ヘッダーに移動するようです。次に、サイド ヘッダーのある次のページにジャンプし、それをテキストに変換してから、最初のヘッダーが検出されたページの上部から再開します。

次のようなテキストになります。

ページ 1 コンテンツ

最初のヘッダー

2 番目のヘッダー

ページ 1 コンテンツ

ページ 2 コンテンツ

これがpdfです:http://www.filedropper.com/dd35-completeadventurer

私は iTextSharp と結婚していません。この形式のドキュメントをテキストに変換する信頼できる方法が必要なだけです。回避策または代替方法をいただければ幸いです。

0 投票する
1 に答える
4256 参照

python - Python から pdftotext を実行する

ソフトウェアを使用して PDF ドキュメントをテキスト ドキュメントに変換しようとしていpdftotextます。

ファイルを変換するには、Python スクリプトからこのアプリケーション inc コマンド プロンプトを呼び出す必要があります。

私は次のコードを持っています:

このコードを実行すると、エラーが発生します

pdftotextPython からアプリケーションを呼び出して、pdf をテキスト ファイルに変換するのを手伝ってもらえますか。

0 投票する
1 に答える
1309 参照

c# - 画像から特定の領域を選択する

画像内の特定の領域を選択するための制御を提供できる winform または wpf 用の .net フリー ライブラリはありますか?その後、その領域を別の画像として保存できます。画像上でマウスを使用してグリッドを描画し、そのグリッドを別の画像として保存できると便利です。