問題タブ [pdf-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - iTextSharp PDF C# を使用して強調表示されたテキストを読み取る (注釈を強調表示する)
PDF コンテンツをテキストに変換する C# winform アプリケーションを開発しています。pdf の強調表示されたテキストにあるコンテンツを除いて、必要なすべてのコンテンツが抽出されます。PDFで見つかった強調表示されたテキストを抽出するための作業サンプルを取得するのを手伝ってください。プロジェクトで iTextSharp.dll を使用しています
pdf-scraping - リンクされたPDFファイルをWebサイトからダウンロードするにはどうすればよいですか?
サイトから何百もの PDF ドキュメントをダウンロードしたいと考えています。SiteSucker などのツールを試してみましたが、ファイルとそれらにリンクするページの間に「分離」があるように見えるため、機能しません。ウェブサイトのプログラミングやスクレイピングについてあまり知らないので、これをより適切に説明する方法がわかりません。これが何であり、どのように回避できるかについてのアドバイスはありますか?
より具体的には、次のようなページに保存されている国連決議の PDF をダウンロードしようとしています: http://www.un.org/depts/dhl/resguide/r53_en.shtml
国連のサイトには「検索機能」が組み込まれているようで、SiteSucker のようなダミーのスクレイピングが意図したとおりに機能しません。
他に使用できるツールはありますか?
python - PDFファイルを1行ずつ読み込んでCSVを作成する方法
これが私のpdfです。これ を見つけて、それを使用してpdfを破棄しました。
かなり混み合っています。それとも、PDF が判読できない形式でフォーマットされているためですか? 各行を破棄して、反復などで列を含む CSV を作成する方法があると思いました。
CSVに列を入力するように
これを回避する方法はありますか?
c# - アンカー タグを 2 回クリックできない
スクレイピングプログラムを書いています。
初めてアンカータグをクリックできるようになりましたが、もう一度ループしても同じことは起こりません。私は IE の Watin インスタンスでこれを行いました。これは、私が行ったIEインスタンスの背後にあるとは思えません。
2 つのコードを見つけてください。
PDFのダウンロード方法
アンカータグをヒットすることも、onclickイベントを発生させることもできない別の方法。
誰かが私を助けてください.2番目の方法は初めてうまくいきますが、2回目はうまくいきません. より多くのスリープ時間を試してみたので、IEインスタンスに疑問があります。また、ループに入ることができますが、リンクをクリックすることはできません。
前もって感謝します
r - html または json から Web からデータをスクレイピングするのと同じように、R を使用して PDF で同じことを行うことができますか?
研究論文(pdfファイル)の表や表風データをRにインポートしたいと考えています。
例: http://www.bioconductor.org/packages/release/bioc/vignettes/DESeq/inst/doc/DESeq.pdf
ここで例として取り上げたpdfです。まずはシンプルなテーブル。pdf ファイルの 6 ページ シナリオを理解するためにスクリーンショットを撮りました。
そのテーブルを抽出するにはどうすればよいですか?
python - How to unlock a "secured" (read-protected) PDF in Python?
In Python I'm using pdfminer to read the text from a pdf with the code below this message. I now get an error message saying:
When I open this pdf with Acrobat Pro it turns out it is secured (or "read protected"). From this link however, I read that there's a multitude of services which can disable this read-protection easily (for example pdfunlock.com. When diving into the source of pdfminer, I see that the error above is generated on these lines.
Since there's a multitude of services which can disable this read-protection within a second, I presume it is really easy to do. It seems that .is_extractable
is a simple attribute of the doc
, but I don't think it is as simple as changing .is_extractable
to True..
Does anybody know how I can disable the read protection on a pdf using Python? All tips are welcome!
================================================
Below you will find the code with which I currently extract the text from non-read protected.
java - PDFドキュメントからデータを抽出
PDF文書があります。
表形式のデータが含まれています。コンマを列の区切り記号として使用して、データをコンマ区切りのテキスト ファイルに抽出したいと考えています。
助言がありますか?
image - PDF ファイル内から取り除かれた JPEG 画像をデコードする
JPEG ファイルで正常に動作するビット マップに解凍するコードがありjpgs
ますが、PDF から直接削除した JPEG をコードにフィードすると、XObject
エラーが発生します。
Adobe Reader は画像を正常に表示するので、画像が破損しているとは思いません。私はドキュメントを読みJPEG
、PDFs
明らかな問題は見つかりませんでした。
私の質問はこれです.PDFストリーム内に埋め込まれた「JPEG」と通常のJPEGに何か違いはありますか? もしそうなら、それは何ですか?
注:PDFを手動で開き、画像をコピーし、ペイントに貼り付けて保存できます...これを行うと、すべてが機能します....私の問題は、これを自動化する必要があることです。
私のコードが PDF を解析し、イメージ ストリームを取り除き、バイナリをファイルにダンプしてから、このファイルを開こうとすると、機能しません。私は何が欠けていますか?
ハフマン デコード プロセスでエラーが発生しているようです。テーブルcdt
とHuffman
テーブルは問題なく読み取られているようです。
python - コマンドを実行していないpdf2txt.py
コマンド ラインで pdf2txt.py を使用すると、ソース ファイルが開き、コマンドが実行されません。パッケージをインストールしたばかりで、実行できませんでした。たとえば、次のコマンドを入力します。
コマンドを入力すると、ファイル pdf2txt.py が開き、コマンドは実行されません。誰もこれに遭遇したことがありますか?私は何を間違っていますか?
Windowsコマンドプロンプトを使用しています。どんな助けでも大歓迎です。