問題タブ [pdf-extraction]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

113 問題

0 投票する

0 に答える

124 参照

python - PDFテーブルデータをデータベースに挿入する方法

Camelot を使用して pdf テーブルデータを抽出しましたが、CSV に変換する必要があるように、テーブルデータをデータベースに入れるにはどうすればよいですか? それを私のデータベースに入れる他の方法はありますか？私の特定のテーブルを選択したり、テーブルの数を入れたりする他の方法はありますか。ここで、テーブル番号を指定する必要があります。抽出されます。

以下は、値をDBに入れたいpdfのテーブルデータです

2020-04-15T20:26:10.887

0 投票する

1 に答える

49 参照

python - 正規表現で不要なパターンを無視する方法

次のpythonコードがあります

次の結果が生成されます

望ましい結果は次のとおりです。

私は試した：

pattern = r'.*\n.*?(?P<auditor>[A-Z].+?\n?)$(?!Institute)(?:LLP\s*)?\s*((PRC.*?|Chinese.*?)?[Cc]ertified [Pp]ublic|[Cc]hartered) [Aa]ccountants' このパターンは最後の 2 つのケースをキャプチャしますが、最初の 2 つのケースはキャプチャしません。

pattern = r'.*\n.*?(?P<auditor>^(?!Hong|Kong)[A-Z].+?\n?)(?:LLP\s*)?\s*((PRC.*?|Chinese.*?)?[Cc]ertified [Pp]ublic|[Cc]hartered) [Aa]ccountants' これにより、望ましい結果が^(?!Hong|Kong)得られますが、将来的に他の望ましい結果が無視される可能性があるため、リスクが高くなる可能性があるため、適切な候補ではありません。

代わりに、$(?!Institute)より一般的で適切ですが、最初の 2 つのケースで一致しなかった理由がわかりません。次を含む一致を無視できる方法があれば素晴らしいと思いますissued by the Hong Kong Institute of

任意の提案をいただければ幸いです。ありがとうございました。

python regex pdf-extraction

2020-08-09T09:08:59.533

1 2 3 4 5 6 7 8 9 10

問題タブ [pdf-extraction]

python - PDFテーブルデータをデータベースに挿入する方法

python - 正規表現で不要なパターンを無視する方法

Reference