問題タブ [file-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - 一致する文字列を除く行全体を削除する必要があります
必要なのは
、行全体を削除する必要がありますが、一致する文字列を保持する必要があるということです。
Unhandled
で始まり、で終わるマッチングパターン:
一致するパターンを出力する以下のコードを試しましたが、ファイルから余分な行を削除する必要があります。
以下はサンプル入力です。
2012-04-09 01:52:13,717 --uhrerror --ERROR-22866-/home/shabbir/web/middleware.py process_exception --217-/ user / resetpassword/での未処理のエラー::{'mod_wsgi.listener_port': '8080 '、' HTTP_COOKIE': "__utma = 1.627673239.1309689718.1333823126.1333916263.156; __utmz = 1.1333636950.152.101.utmgclid = CMmkz934na8CFY4c6wod_R8JbA | utmccn =(not%20set)| utmcmd =(not%20set ; subpopdd = yes; _msuuid_1690zlm11992 = FCC09820-3004-413A-97A3-1088EE128CE9; _we_wk_ls _ =%7Btime%3A'1322900804422'%7D; _msuuid_lf2uu38ua0 = 08D1CEFE-3C19-4B9E-8096 = 1; __utmb = 1.7.10.1333916263;'wsgi.file_wrapper':、'HTTP_ACCEPT_ENCODING':'gzip、deflate'}
java - java FileChannelがファイルに書き込み、最後に\nを追加する
FileChannelを使用してログを作成しようとしています。何らかの理由で、ファイルに\n文字が含まれていません。
私の機能:
これは私の出力ファイルです:
php - アップロードされたファイルがphpで安全でないファイルタイプであるかどうかを確認します
ファイルアップロードフォームがあり、アップロードされたファイルをチェックして、サーバー上で問題を引き起こす可能性のあるもの (実行可能ファイル) ではないことを確認する必要があります。ファイルは主に画像ですが、さまざまな拡張子を持つ可能性のある生のファイル形式の他の拡張子を扱います。だから、やりたいことよりもやりたくないことのリストをもう一度確認するのが一番簡単な方法だと思います。
これを行う最善の方法は何ですか?理想的には、Windows サーバーと Linux サーバーの両方で動作するものですが、現在は両方の場合は主に Linux で動作します。
c - Cファイルから読み取ると、「@」を読み取ります
Cでファイルを読み取ろうとしていますが、読み取り、stdoutに書き込むと、ファイルにない@も出力されます。理由は何ですか?
出力:
1234567891 @ 2345678912 @ 3456789 12 @ 3456789 12 @
ファイル:123456789123456789123456789
python - PythonはMATLABと同等の行列演算を実行できますか?
数値データと場合によっては文字列を含む216x216行列で動作するコードをMATLABに実装しました。これらの行列に対して私が行う操作は、ほとんどの場合、特定のしきい値を超えるフィルター行列のようなもので、ある値を超えるすべての行列インデックスを検索し、たとえばXを超える値のリストを検索してから、それらの間の連続した違いを検索し、いくつかの文字列置換操作を行います。行列の内積などを実行します。これらの行列を生成するには、何千ものファイルにアクセスする必要があります(MATLABで使用するdlmread)。
今、私は上記のプロジェクトを、通常OSにバンドルされている他の言語(Perl、c、python、またはオープンソース言語など)で実装する必要があります。
簡単に検索したところ、Pythonが研究に適したツールであることがわかりました。Pythonには、行列演算(ファイルを配列に直接読み込む、検索、dlmwriteなど)に相当するMATLABがいくつかありますか?
私のコードには、これらのMATLAB関数がない場合にすでに多くのループがあるため、コードは非常に乱雑になり、保守が困難になります。
または、他の選択肢を指摘していただけますか。私は少しPerlに精通していますが、PythonやRには精通していません。
php - Dropbox から何百人ものユーザーの何千ものファイルを処理する最良の方法
PHP ベースの Web サイトでは、ユーザーは Dropbox アプリに自分の Dropbox フォルダーを使用する許可を与えます。その後、ユーザーは数千のテキスト ファイルをこのフォルダーに一度に、または継続的に配置し、処理してデータベースに保存し、表示する必要があります。ユーザーがWebサイトにログインしている場合は、できるだけ早く結果を取得します(ほぼリアルタイムで処理して出力したいと思います)。最小限のリソースでこれを行うための最良のテクノロジは何ですか? 最初は 30 人に対して行う必要がありますが、後で数百人のユーザーと即座に連携する必要があります。各ユーザーには数千のファイルがあり、一部のファイルは複数回処理する必要があります (増加しています) 他のファイルは必要ありません。
コマンド ライン php スクリプトを無限ループで実行して、Dropbox から定期的にファイルをコピーし、すべてのユーザーのファイルを処理するようにしましたが、遅すぎるようです。Dropbox サーバーへの API 呼び出しは非常に遅いように思われるため、継続的に実行することは最適なオプションではない可能性があります。
ユーザーが Web サイトの [インポート] ボタンをクリックすると、スクリプトは現在そのボタンをクリックしているユーザーのファイルのみを取得します。
あなたの提案は何ですか?PHPである必要はありません。これ専用のサーバーがありますが、ホスティングに適したソリューションも聞きたいです.
Dropbox の方法として、これらのファイルをサーバーに送る簡単で安全かつ高速な別の方法を教えてください。(私がこれを選択した理由は、Dropbox はユーザーがセットアップして使用するのが非常に簡単で、同期が非常に信頼性が高く、安全で高速であるためです。)
json - Jackson を使用して、スキーマ化されていない json の大きなファイルを解析しますか?
ディスク上に非常に大きな .json ファイルがあります。Jackson パーサーを使用して、これを Java オブジェクトとしてインスタンス化したいと考えています。
ファイルは次のようになります。
基本的に、これはオブジェクトの大きな配列であり、各オブジェクトにはそれを識別する 2 つの文字列プロパティがあり、次にオブジェクトの別の内部配列があり、各オブジェクトはプロパティと値のランダムなコレクションであり、ほとんどが文字列と int ですが、配列も含まれる場合があります。
このオブジェクト レイアウトのため、これらのオブジェクトを簡単にインスタンス化するために使用できるセット スキーマはありません。org.json プロセッサを使用するには、ファイル全体に文字列を割り当てようとする必要がありますが、サイズが原因で失敗することがよくあります。そこでストリーミングパーサーを使いたいのですが、まったくなじみがありません。
最後に必要なのは、String が prop1 の値で、SomeObject がオブジェクト全体のデータを保持するもの (最上位の配列エントリ) である Map です。おそらく、後で必要になったときに解析できる JSON だけでしょうか?
とにかく、このためのコードを書く方法についてのアイデアは大歓迎です。
haskell - ファイル処理 - Haskell
Haskellで次を実装するにはどうすればよいですか:
- コマンドラインから入力ファイルを受け取ります。この入力ファイルには、タブ、改行、スペースで区切られた単語が含まれています。
- これらの要素 (タブ、改行、スペース) をコンマに置き換える必要があります。
- そして、その結果を というファイルに書き込みます
output.txt
。
どんな助けでも大歓迎です。私の Haskell スキルはまだ発展途上です。
これまでのところ、私はこのコードを持っています:
processFile 関数では、入力ファイルからテキストを処理する必要があります。
pipe - Linux でパイプのように動作するディレクトリを作成する方法
比較的シンプルなドキュメント ストレージを作成したいのですが、いくつかの要件があります。私の考えは、ファイルがすぐにストレージに到着すると、別のツール/デーモンによってスキャンされ、処理されるというものでした。
(疑似) DMS は、NFS および Samba 経由のアクセスを提供する必要があります。これまで見てきたように、受信ファイルをいくつかのフックに渡すには、パイプで問題ありません。しかし、ディレクトリをパイプとして作成する方法があるかどうか疑問に思いました。私はまだ名前付きパイプしか見ていません。
このディレクトリ内の着信ファイルを取得するプロセスは、MIME タイプの推測、CRC32 チェック (DB の値に対して) などを行う PHP スクリプトです...これを行う方法のヒントはありますか?
編集:次の説明で少し明確になることを願っています-ウイルススキャンとメタプロセスによってすぐに処理される(そして最終的に保存される)ファイルを配置できるSambaとNFSを介して「エンドポイント」を提供する方法を探しています.
multithreading - ファイルサイズに基づいてJavaでスレッドの負荷を分散します
こんにちは私はJavaのマルチスレッドを介して多数のファイルを処理する必要があります。ファイルはランダムなサイズ(最小:100 MB、最大:1.5GB)になります。構成では、最大で8つのスレッドしか作成できず、各スレッドにはソースディレクトリからの処理用に8つのファイルが割り当てられます。問題が発生する場合があります。巨大なファイルがシングルスレッド自体に割り当てられるため、パフォーマンスが低下します。すべてのスレッドが同じサイズを処理するように、ファイルをスレッドに割り当てる方法があるかどうかを知りたいです。つまり、ファイルサイズに基づいてスレッド間の負荷を分散したいということです。
前もって感謝します :)