問題タブ [pdf-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
124 参照

python - PDFテーブルデータをデータベースに挿入する方法

Camelot を使用して pdf テーブル データを抽出しましたが、CSV に変換する必要があるように、テーブル データをデータベースに入れるにはどうすればよいですか? それを私のデータベースに入れる他の方法はありますか?私の特定のテーブルを選択したり、テーブルの数を入れたりする他の方法はありますか。ここで、テーブル番号を指定する必要があります。抽出されます。

以下は、値をDBに入れたいpdfのテーブルデータです

ここに画像の説明を入力

0 投票する
1 に答える
49 参照

python - 正規表現で不要なパターンを無視する方法

次のpythonコードがあります

次の結果が生成されます

望ましい結果は次のとおりです。

私は試した:

pattern = r'.*\n.*?(?P<auditor>[A-Z].+?\n?)$(?!Institute)(?:LLP\s*)?\s*((PRC.*?|Chinese.*?)?[Cc]ertified [Pp]ublic|[Cc]hartered) [Aa]ccountants' このパターンは最後の 2 つのケースをキャプチャしますが、最初の 2 つのケースはキャプチャしません。

pattern = r'.*\n.*?(?P<auditor>^(?!Hong|Kong)[A-Z].+?\n?)(?:LLP\s*)?\s*((PRC.*?|Chinese.*?)?[Cc]ertified [Pp]ublic|[Cc]hartered) [Aa]ccountants' これにより、望ましい結果が^(?!Hong|Kong)得られますが、将来的に他の望ましい結果が無視される可能性があるため、リスクが高くなる可能性があるため、適切な候補ではありません。

代わりに、$(?!Institute)より一般的で適切ですが、最初の 2 つのケースで一致しなかった理由がわかりません。次を含む一致を無視できる方法があれば素晴らしいと思いますissued by the Hong Kong Institute of

任意の提案をいただければ幸いです。ありがとうございました。