2

プロジェクトのカナダ法 (この場合は食品医薬品法) からデータを抽出し、R にインポートしようとしています。それを 2 つの部分に分割したいと考えています。まずは目次(写真1)。第二に、行為の情報(写真2)。しかし、フランス語の部分 (je suis désolé) は必要ありません。tabulizer を使用してみextract_area()ましたが、手動で領域を 90 回選択する必要はありません (複数の法律に対してこれを行います)。

明らかに、コード化された最小限の再現可能な例はありません...しかし、pdfはここからダウンロードできます:https ://laws-lois.justice.gc.ca/eng/acts/F-27/

オプション 2 は、何かを記述して XML 経由で取得することですが、私は XML ファイルの操作に少し慣れていません。または のいずれかを使用するのが非常に煩わしい場合を除き、これらのライブラリのいずれpdftoolsかを使用tabulizerして回答することをお勧めします (主に学習目的で)。

スタックオーバーフローで同様の質問を見たことがありますが、それらはすべて混乱を招くようにテーブル用に作成/設計されていますが、これはそうではありません。私は訓練を受けたクオンツ/データサイエンスの研究者ではないので、説明は非常に役に立ちます (必須ではありません)。

目次

法律の内容

4

1 に答える 1