マークダウンに変換する .docx ドキュメントが数百あります。textutil を使用して .docx を html に変換し、Pandoc を使用して html を Markdown に変換しています。
私が抱えている問題は、元の .docx ファイルにドロップキャップが含まれていることです。テキスト ファイルには、最初の文字 (ドロップキャップ) が段落から改行で区切られています。次のようになります。
T
he following five basic pre-conditions are essential...
Mac (10.6.8) と textmate を使用しています。Textmate では、正規表現を使用した検索と置換が可能です。
改行を削除して、分割された文字を段落の残りの部分と再結合するにはどうすればよいですか?