問題タブ [large-files]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - ファイル全体での複数行の正規表現検索
正規表現を使用してファイル内のテキストを置き換えるための例がたくさん見つかりました。ただし、すべて2つのバージョンに
要約されます。1。ファイル内のすべての行を反復処理し、各単一行に正規表現を適用します
。2.ファイル全体をロードします。
No.2「my」ファイルを使用することはできません-約2GiBです...
No。1に関しては、現在これが私のアプローチですが、疑問に思っていました...複数にまたがる正規表現を適用する必要がある場合はどうなりますかライン ?
c# - WCFを使用してクライアントからサーバーに大きなファイルを送信する方法は?
C#でWCFを使用してクライアントからサーバーに大きなファイルを送信する方法は?構成コードの下。
c++ - iostream のような大きなインクルード ファイルは効率的ですか? (C++)
Iostream に含まれるすべてのファイル、それらに含まれるファイルなどを合計すると、約 3000 行になります。
画面に何かを出力するだけの機能しか必要としない hello world プログラムを考えてみましょう。
これは非常に単純なコードのはずですが、iostream はわずかなコードに 3000 行以上を追加します。では、これらの 3000 行以上のコードは、1 行を画面に表示するだけで本当に必要なのでしょうか? そうでない場合、関連する行を単純にコードにコピーした場合よりも効率の悪いプログラムが作成されるのでしょうか?
vim - VIM で巨大なファイルを操作する
VIMで巨大な(〜2GB)ファイルを開こうとしましたが、詰まってしまいました。実際にファイルを編集する必要はありません。効率的にジャンプするだけです。
VIM で非常に大きなファイルを操作するにはどうすればよいですか?
c# - 大きなファイルの処理 - 読み取りアルゴリズムの破損 - C#
だから私は(非常に大きな、〜155 + MB)バイナリファイルから読み取り、仕様に従ってそれを解析し、必要な情報を(CSV、フラットテキストに)書き出すアルゴリズムを持っています。出力の最初の 1,550 万行は問題なく動作し、約 0.99 ~ 1.03 GB の CSV ファイルが生成されます。これは、バイナリ ファイルの 20% 以上をほとんど通過しません。この後、突然印刷されたデータがバイナリファイルに表示されているものとまったく異なるため、壊れます。バイナリ ファイルを確認しましたが、同じパターンが続きます (データは「パケット」に分割されます - 以下のコードを参照してください)。処理方法により、メモリの使用量が実際に増加することはありません (安定して ~15K)。機能コードを以下に示します。それは私のアルゴリズムですか (もしそうなら、なぜ 1,550 万行で壊れるのですか?!)...ファイル サイズが大きいために考慮していない他の影響はありますか? 何か案は?
(fyi: 各「パケット」の長さは 77 バイトで、3 バイトの「開始コード」で始まり、5 バイトの「終了コード」で終わります。以下のパターンが表示されます)
編集コードは、以下の提案に基づいて更新されました...ありがとう!
php - Zlib ライブラリを使用して大きなインクルード ファイルのエクスペリエンスを圧縮しますか?
私は、他の開発者が Zlib を使用して大きなファイルを圧縮した経験に興味があります。それがアプリケーション プロセスにどのように依存するかは、アプリケーションを遅くするかどうか、または他のアプリケーションのパフォーマンスを低下させるかです。他のより良い解決策がある場合は撃ってください。
php - 大きな XML ファイルを mySQL データベースにロードする (PHP)
新しいプロジェクトでは、大きな XML ファイル (200MB 以上) を mySQL データベースにロードする必要があります。それと一致させる必要がある +-20 のフィードがあります (すべてのフィールドが同じというわけではありません)。
XML をキャッチしようとすると、次のエラーが発生します。
これに対する簡単な解決策はありますか?フィードを数 MB 単位で取得することはできません。
どうもありがとうございました!
Ps は xml-feeds を簡単に一致させるアイデアを誰か持っていますか?
xml - Eclipse で大きな XML ファイルを表示していますか?
私は、いくつかの大きな XML ファイル (50MB から 1GB 以上) を含むプロジェクトに取り組んでおり、Java がヒープ領域を使い果たすことなく、それらを Eclipse で表示できれば (単純なテキスト ビューで問題ありません) いいと思います。eclipse.ini で jvm が使用できるメモリの量を微調整しようとしましたが、あまり成功していません。何か案は?
xml - フォーマットが不十分な大きなXMLファイルの特定の要素からテキストを抽出します
タグ間のドキュメントとプロパティを説明するフォーマットが不十分なXMLを含む大きな(〜50Mb)ファイルがあり、すべての英語のドキュメントからテキストを抽出し<item> </item>
たいと思います。
Pythonの標準XML解析ユーティリティ(dom、sax、expat)は不適切なフォーマットを抑制し、より寛容なライブラリ(sgmllib、BeautifulSoup)はファイル全体を解析し、時間がかかりすぎます。
ドキュメント全体を解析せずにテキスト<document> </document>
を抽出する方法を知っている人はいますか?lang=en
追加情報:「フォーマットが不十分」である理由
一部のドキュメントには<dc:link></dc:link>
、パーサーで問題を引き起こす属性があります。Pythonのxml.minidomは次のように文句を言います。
c++ - C++64ビットstd::ostreamサポート
いくつかの古いコードからの標準のFILEポインターの使用からC++ストリームの使用に移行しようとしていますが、LARGEFILEシークサポート(このサポートをアクティブにするコンパイラフラグは次のとおりです:-D_FILE_OFFSET_BITS = 64など)が必要です。off64_tデータ型を使用して取得します。
私の最初の質問は、この主題とC APIに関して回答されましたが、今ではC++ストリームの使用に移行できることを望んでいます。
同じフラグがC++のファイルストリームでシーク機能をトリガーしますか?