1

私は大きなテキストファイルを持っており、各行は独自の概念です。各行にはおそらく少数のパターンしかありません。

テキストファイルを調べて、行の各サブセクションの後の正規表現抽出で使用するために、行間の共通パターンを見つけたい場合。最善の方法は何ですか、または既存のツールはありますか?私はPythonが好きです。

したがって、線は次のパターンに従う可能性があります。

(1 to 5 alpha letters)(,)(space)(Sentence)
(word)(.)(space)(Sentence)(Sentence)
(word)(number)(.)(space)(Sentence)(Sentence)
(word)(!)(space)(Sentence)(Sentence)

たとえば、(!)については知らないかもしれません。

基本的には、可能な各行を完全にカバーする正規表現のリストを抽出する必要がありますが、構成要素は定義されています。のように(1から5のアルファ文字)(文)(ビルディングブロックでカバーされていないもの)

4

1 に答える 1

0

あなたが探しているのは、人工知能の非常に複雑なサブフィールドであるパターン認識および/またはデータマイニングのためのアルゴリズムです。

このテーマに関する本を手に取るか、別の方法で問題を解決することをお勧めします。

于 2012-12-28T16:08:13.773 に答える