問題タブ [pdf-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pdfminer コードで正規表現を使用して、2 つの見出しの間のテキストを抽出するにはどうすればよいですか?
データを抽出したいPDFがいくつかあります。以下のコードを使用して PDF からすべてのデータを抽出することができましたが、2 つの異なる見出しの間のテキストを抽出したいと考えています。2 つの見出しの間のテキストは異なりますが、2 つの見出しは各 PDF で同じままであるため、これを行うには正規表現を使用するのが最善の方法だと思います。
これは PDF の例です: https://www.scribd.com/document/396797318/123
「3.入社研修」から「4.企業研修・部門研修」までのテキストを抽出したい
次のコードは、PDF からデータを抽出するために使用しているものです。
必要な情報を取得するためにどの正規表現を使用できますか?
python - pypdf2 を使用して 1 ページの PDF をスクレイピングすると、テキストが返されない
このソースから一連の PDF をダウンロードしました: ' http://ec.europa.eu/growth/tools-databases/cosing/index.cfm?fuseaction=search.detailsPDF_v2&id=28157
PyPDF2 を使用して PDF をスクレイピングしたいのですが、テキストが返されません。
コードを別の pdf でテストしたところ、問題なく動作しました。
r - R の Tabulizer パッケージ: 特定のタイトルの後にテーブルをスクレイピングする方法
PDFからタイトルテキストの前に表をスクレイピングする方法は? tabulizer パッケージを試しています。特定のページからテーブルを取得する例 (ポーランド語の「Map of Public Health Needs」)
これにより、特定のページに 1 つのテーブルが表示されます。しかし、サイトからスクレイピングするためのそのようなPDFがたくさんあります:http://www.mpz.mz.gov.pl/mapy-dla-30-grup-chorob-2018/そして、各病気への多くのリンクを含むサブページ、ポーランドの各州の rvest とのリンクを取得し、特定のタイトル文字列の後にテーブルをスクレイピングする必要があります。
表 1.2.2: Struktura zapadalnosci rejestrowanej w zależności od płci, miejsca zamieszkania oraz grupy wiekowej - Choroby układowe tkanki łącznej"
テーブルが同じページにない可能性があるため、Tabela(...) Struktura zapadalnosci(...)" を検出する必要があります。事前に指示やアイデアをお寄せいただきありがとうございます。
編集: 質問をした後、これまでのところ、テーブルが存在する可能性のあるページを見つけることに成功しましたが、おそらく非常に効果的ではありません:
python - スキャンした .pdf から抽出したテキスト データのクリーンアップ
スキャンした pdf からテキストを抽出して、後で MongoDB に実装するための JSON 辞書を作成するスクリプトを作成しています。私が遭遇した問題は、Textract モジュールを介して tesseract-ocr を使用するとすべてのテキストが正常に抽出されましたが、Python によって読み取られているため、PDF のすべての空白が '\n' になっているため、抽出が非常に困難です。情報が必要です。
一連のコード行を使用してクリーンアップしようとしましたが、まだ読みにくいです。そして、キーと値の識別がずっと簡単になると私が感じるすべてのコロンを取り除きます。
ほとんど過剰処理されたデータがかなり残っています。したがって、この時点で、それを使用する方法をidkします。
これが私がデータを抽出した方法です
私も nltk を試してみました。これにより、いくつかのデータが取り出され、読みやすくなりましたが、データを混乱させる \n ことがまだたくさんあります。
ここにnltkコードがあります:
これが私が試した最初のクリーンアップから得たものです:
それから、次のような JSON 配列が必要です。
などなど...どうすればいいのかわかりません。生の出力を提供することもできます。触る前はこんな感じ。上記のデータは、完全な配列を作成するために必要なすべての情報です。