python - テキストファイル内の正規表現サブセクションの組み合わせを検索するツールをプログラムするための最良の方法

Question

私は大きなテキストファイルを持っており、各行は独自の概念です。各行にはおそらく少数のパターンしかありません。

テキストファイルを調べて、行の各サブセクションの後の正規表現抽出で使用するために、行間の共通パターンを見つけたい場合。最善の方法は何ですか、または既存のツールはありますか？私はPythonが好きです。

したがって、線は次のパターンに従う可能性があります。

(1 to 5 alpha letters)(,)(space)(Sentence)
(word)(.)(space)(Sentence)(Sentence)
(word)(number)(.)(space)(Sentence)(Sentence)
(word)(!)(space)(Sentence)(Sentence)

たとえば、（！）については知らないかもしれません。

基本的には、可能な各行を完全にカバーする正規表現のリストを抽出する必要がありますが、構成要素は定義されています。のように（1から5のアルファ文字）（文）（ビルディングブロックでカバーされていないもの）

score 0 · Accepted Answer

あなたが探しているのは、人工知能の非常に複雑なサブフィールドであるパターン認識および/またはデータマイニングのためのアルゴリズムです。

このテーマに関する本を手に取るか、別の方法で問題を解決することをお勧めします。

python - テキストファイル内の正規表現サブセクションの組み合わせを検索するツールをプログラムするための最良の方法

1 に答える 1

Related

Reference