私は大きなテキストファイルを持っており、各行は独自の概念です。各行にはおそらく少数のパターンしかありません。
テキストファイルを調べて、行の各サブセクションの後の正規表現抽出で使用するために、行間の共通パターンを見つけたい場合。最善の方法は何ですか、または既存のツールはありますか?私はPythonが好きです。
したがって、線は次のパターンに従う可能性があります。
(1 to 5 alpha letters)(,)(space)(Sentence)
(word)(.)(space)(Sentence)(Sentence)
(word)(number)(.)(space)(Sentence)(Sentence)
(word)(!)(space)(Sentence)(Sentence)
たとえば、(!)については知らないかもしれません。
基本的には、可能な各行を完全にカバーする正規表現のリストを抽出する必要がありますが、構成要素は定義されています。のように(1から5のアルファ文字)(文)(ビルディングブロックでカバーされていないもの)