Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
非常に大きなファイル (10GB に達するものもあります) があり、ほとんどが構造化されたデータを含んでいます (たとえば、関心のあるテキストの各行のタブ区切りの値の 99% など)。これらのファイルから、正規表現で簡単に見つけられる特定のデータを抽出する必要があります。ただし、ファイルを文字列に変換してからその文字列を正規表現しようとすると、あらゆる種類の問題が発生するのではないかと心配しています。
非常に大きなファイルを正規表現で解析するための良い戦略は何ですか?
ファイルを 1 行ずつ読み取り (fgets)、チャンクで処理します。