問題タブ [tabulizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R タブライザーのエンコーディングまたはセキュリティ
Rのタブライザーパッケージで練習しており、次の問題があります。残念ながら、pdf は会社の所有物であるため、再現可能な例を提供することはできませんが、問題について詳しく説明します。
右上隅に開始日と終了日がある PDF を読み込もうとしています。PDFを開くと普通に見える
今楽しい部分。それらを強調表示し、Ctrl+C を使用してここにコピーすると、R に貼り付けたときの結果になります。
extract_text(path, pages=1)これは、与えるのとまったく同じ種類のナンセンスです。多くの t::ttttt:ttt... 私の質問は、この PDF に何らかのセキュリティがあるか、正しいエンコーディングを把握する必要があるか、またはこの PDF がシステムから自動的に作成されるため、すべてに奇妙な表記法があることです。 ?
r - R の Tabulizer パッケージ: 特定のタイトルの後にテーブルをスクレイピングする方法
PDFからタイトルテキストの前に表をスクレイピングする方法は? tabulizer パッケージを試しています。特定のページからテーブルを取得する例 (ポーランド語の「Map of Public Health Needs」)
これにより、特定のページに 1 つのテーブルが表示されます。しかし、サイトからスクレイピングするためのそのようなPDFがたくさんあります:http://www.mpz.mz.gov.pl/mapy-dla-30-grup-chorob-2018/そして、各病気への多くのリンクを含むサブページ、ポーランドの各州の rvest とのリンクを取得し、特定のタイトル文字列の後にテーブルをスクレイピングする必要があります。
表 1.2.2: Struktura zapadalnosci rejestrowanej w zależności od płci, miejsca zamieszkania oraz grupy wiekowej - Choroby układowe tkanki łącznej"
テーブルが同じページにない可能性があるため、Tabela(...) Struktura zapadalnosci(...)" を検出する必要があります。事前に指示やアイデアをお寄せいただきありがとうございます。
編集: 質問をした後、これまでのところ、テーブルが存在する可能性のあるページを見つけることに成功しましたが、おそらく非常に効果的ではありません: