問題タブ [tabulizer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
30 参照

r - Rプログラミングでハードコーディングせずに特定の列を次の列とマージする方法

Rプログラミングでハードコードなしで「X」の列名を次の列とマージする方法

X は Day.7 にマージする
必要があります X.1 はDay.8 にマージする必要
があります X.2 および X.3 は Day.9 にマージする必要があります

コード:

出力:

期待される出力:

PDFデータはここに追加されます:

ここにPDFデータを追加

0 投票する
1 に答える
37 参照

r - PDFのみからテキストを抽出するカナダの法律R

プロジェクトのカナダ法 (この場合は食品医薬品法) からデータを抽出し、R にインポートしようとしています。それを 2 つの部分に分割したいと考えています。まずは目次(写真1)。第二に、行為の情報(写真2)。しかし、フランス語の部分 (je suis désolé) は必要ありません。tabulizer を使用してみextract_area()ましたが、手動で領域を 90 回選択する必要はありません (複数の法律に対してこれを行います)。

明らかに、コード化された最小限の再現可能な例はありません...しかし、pdfはここからダウンロードできます:https ://laws-lois.justice.gc.ca/eng/acts/F-27/

オプション 2 は、何かを記述して XML 経由で取得することですが、私は XML ファイルの操作に少し慣れていません。または のいずれかを使用するのが非常に煩わしい場合を除き、これらのライブラリのいずれpdftoolsかを使用tabulizerして回答することをお勧めします (主に学習目的で)。

スタックオーバーフローで同様の質問を見たことがありますが、それらはすべて混乱を招くようにテーブル用に作成/設計されていますが、これはそうではありません。私は訓練を受けたクオンツ/データサイエンスの研究者ではないので、説明は非常に役に立ちます (必須ではありません)。

目次

法律の内容

0 投票する
1 に答える
66 参照

r - Rで空の行が続く場合、データフレームの複数の行を一緒にマージします

次のデータフレームがあります。

tabulizer::extract_table残念ながら、 (このスレッドを参照) の抽出の問題により、データフレームはクリーンではありません。

データ ポイントは複数の行にまたがり、その後に空の行が続きます (スクリーンショットの行 20 と 26)。

ここに画像の説明を入力

後で空の行がある場合 (または、データフレームの最後の行のように行がない場合)、複数の行を単一の行に自動的にマージすることは可能ですか?

つまり、行 13 ~ 19 は 1 つの行を形成する必要があり、行 21 ~ 25 も単一の行として機能する必要があります。列は正しいです。

あなたの助けに感謝します!