doc/docxファイルを解析できるアプリケーションを作成したいこのファイルの構造を以下に示します。
par-000.01 - some content
par-000.21 - some content
par-000.31 - some content
par-001.32 - some content
コンテンツは複数行であり、通常ではない可能性があります。私がやりたいのは、これらのコンテンツをデータベースに入れることです。つまり、最初のレコード、つまり列とテキスト列に入れますpar-000.01
。これを手動で実行できない理由は、約15のドキュメントがあり、各ドキュメントにデータベースに入れたい段落が約10ページ含まれているためです。ドキュメントファイル全体を解析する方法についての記事が見つからないため、適切な正規表現を記述すれば可能になると思います。誰かが私を記事にリダイレクトして、私がやりたいことをどのように行うことができるか-私に合ったものが見つからないので、おそらく間違ったキーワードを使用しています。code
some content