問題タブ [tabulizer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
100 参照

r - R タブライザーのエンコーディングまたはセキュリティ

Rのタブライザーパッケージで練習しており、次の問題があります。残念ながら、pdf は会社の所有物であるため、再現可能な例を提供することはできませんが、問題について詳しく説明します。

右上隅に開始日と終了日がある PDF を読み込もうとしています。PDFを開くと普通に見える

今楽しい部分。それらを強調表示し、Ctrl+C を使用してここにコピーすると、R に貼り付けたときの結果になります。

extract_text(path, pages=1)これは、与えるのとまったく同じ種類のナンセンスです。多くの t::ttttt:ttt... 私の質問は、この PDF に何らかのセキュリティがあるか、正しいエンコーディングを把握する必要があるか、またはこの PDF がシステムから自動的に作成されるため、すべてに奇妙な表記法があることです。 ?

0 投票する
2 に答える
1429 参照

r - R の Tabulizer パッケージ: 特定のタイトルの後にテーブルをスクレイピングする方法

PDFからタイトルテキストの前に表をスクレイピングする方法は? tabulizer パッケージを試しています。特定のページからテーブルを取得する例 (ポーランド語の「Map of Public Health Needs」)

これにより、特定のページに 1 つのテーブルが表示されます。しかし、サイトからスクレイピングするためのそのようなPDFがたくさんあります:http://www.mpz.mz.gov.pl/mapy-dla-30-grup-chorob-2018/そして、各病気への多くのリンクを含むサブページ、ポーランドの各州の rvest とのリンクを取得し、特定のタイトル文字列の後にテーブルをスクレイピングする必要があります。

表 1.2.2: Struktura zapadalnosci rejestrowanej w zależności od płci, miejsca zamieszkania oraz grupy wiekowej - Choroby układowe tkanki łącznej"

テーブルが同じページにない可能性があるため、Tabela(...) Struktura zapadalnosci(...)" を検出する必要があります。事前に指示やアイデアをお寄せいただきありがとうございます。

編集: 質問をした後、これまでのところ、テーブルが存在する可能性のあるページを見つけることに成功しましたが、おそらく非常に効果的ではありません: