私は私の友人のためにプロジェクトに取り組んでいます。複数のページにある 1 つの特定のキーワードを見つけ、大きな PDF ファイル (40 ~ 60 ページ以上) の他の場所に重複があり、キーワードが見つかったページにメモリに保存し、それらのページを分割したい元の PDF ファイルから、最後にそれらをマージします。
PDFMinerまたはPyPDF2の使用を考えています(他の提案も受け付けています)
私はすでにその大部分のコードを書いていますが、ファイルを検索してそのキーワードを見つけるための適切で効率的な方法を見つけることができません。このキーワードは同じファイル内の他の場所にあるためです。元のファイルから抽出したいデータが重複しておらず、すべてのデータが抽出されていることを確認してください。
前もって感謝します。