問題タブ [fileparsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - Rubyでファイルを解析中に行をスキップする最速の方法は?
これを探してみましたが、あまり見つかりませんでした。たぶん以前にも(何度も?)聞かれているような気がするので、そうでしたらすいません。
Ruby でファイルの特定の部分を解析する最速の方法は何だろうと思っていました。たとえば、特定の関数に必要な情報が、たとえば 1000 行のファイルの 500 行から 600 行の間にあることがわかっているとします。(明らかに、この種の質問は非常に大きなファイルを対象としています。例として、これらの小さな数字を使用しているだけです)、前半にはないことがわかっているので、その情報を無視する簡単な方法はありますか?
現在、私は次のようなものを使用しています:
うまくいきますが、もっとうまくいくと思わずにはいられません。
私は Ruby に非常に慣れていないので、Ruby で新しい方法を学ぶことに興味があります。
java - INI に似た (または XML に似た) ファイルを解析する方法ですが、セクションタグを閉じますか?
この形式のテキスト ファイルを貼り付ける必要があります。
各セクションには、1 つの開始タグと 1 つの終了タグがあります。セクションはネストできますが、インターリーブはできません。ファイルが大きく、メモリ全体を読み取ることができない可能性があります。
質問: そのようなファイルを解析する最も簡単な方法は何ですか (使用するオープン ソース ライブラリ)?
c - strtok を使用しているときに入力ファイルの空白行をスキップするにはどうすればよいですか?
strtok を使用してファイルの行を渡したいです。値はコンマで区切られています。ただし、strtok は、スペースのみを含む空白行も読み取ります。このような状況でヌルポインタを返すことは想定されていませんか?
どうすればそのような行を無視できますか? NULLをチェックしようとしましたが、前述のように機能しません。
ruby - Ruby ファイル解析の質問/パズルのリストはありますか
今日、このファイル解析プログラミングの課題に出くわし、非常に興味深いことがわかりました。また、約 6 か月前にインタビューに行ったところ、必要な結果を得るためにロジックで解析する必要がある txt ファイルも渡されました。こういう問題をもっと見つけていきたいです。
ruby のインタビュー形式の質問/パズルの良いリソースは何ですか?
java - Javaで500万行のファイルから一意の行データを確認します
ID|VALUE
1回のパスのように行を持つ大きなファイルがあります。
ID の繰り返しの場合、行は無視する必要があります。
このチェックを効果的に行う方法は?
追加: ID が長い (8 バイト)。最小限のメモリを使用するソリューションが必要です。
みんな助けてくれてありがとう。ヒープスペースを増やして Set を使用できるようになりました。
python - 改行とタブを文字列に含むPythonでファイルを読み取る方法は?
タブや改行などがあり、データが JSON 形式のファイルを読み込もうとしています。
file.read()
/などを使って読むとreadlines()
、改行やタブもすべて読み込まれます。
、分割などを試しrstrip()
ましたが、無駄に、何かが足りないかもしれません:
これが本質的に私がやっていることです:
これはデータです(生のタブを含むため、書式設定が不十分です):
エレガントに無視できるかどうか疑問に思っていました。
利用希望もjson.dumps()
java - null値があり、上部の列に対応するデータが必要な場合、カンマを使用してcsvファイルを区切る方法は?
私のコードは
しかし、前の列の分析コードに対応する分析結果が必要です....それもnullになる可能性があるため....そのため、すべてのコンマが消え、前の列の分析コードに対応する結果が解析されません。
command-line - ファイルを解析して変更する最良の (最も速い) 方法
最近、このような 10 ~ 60k 行のテキスト ファイル (csv) を大量に使用しています。
ほとんどの場合、この情報を配列の形式で抽出する必要があります。
または時には、一意の要素配列:
次に、結果が私のコード (Java) によって使用され、何かが実行されます。
現在、ほとんどの場合、ファイルの読み取り、ロジック、および ID のリストを返すことから、タスクを実行する Java 関数を作成します。
おそらくコマンドラインを介して、これを達成するためのより良い、より迅速な方法はありますか?
アップデート:
ファイルを読み取って何かを行うアプリを作成するように依頼された場合、そのロジックを Java で作成することは間違いありませんが、私の場合は、データ ウェアハウスから取得する大量のテキスト ファイルを処理する必要があります。 、そこから関連情報を抽出し、Java ベースのアプリで実行します。
さて、これは私のアプリの実験と評価のためだけです。
c - ファイル内の行を検索する際に使用する方法
ファイルへのパス名を持つファイルがあります:
ファイル構造は、各行に個別のパスがあることです。私がやりたいのは/my/path1
、上記のファイル内の文字列またはその他の存在を何度も検索することです
私は2つの方法を考えることができました。
毎回ファイルの内容を1行ずつ取得し、文字列を検索します。利点は、ファイルのサイズを変更できることと、バッファオーバーフローについて心配する必要がないことです。
内容をバッファにロードし、バッファを使用して検索します。ただし、ファイルサイズを制御できないため、ここでは注意が必要です。
最善のアプローチは何ですか?私はUNIXで働いています。この目的で使用できるCのビルド内ライブラリコマンドはありますか?awk
または、Cコードを使用して同じタスクを実行するにはどうすればよいですか。
file-type - 不正なファイルについて
XML ファイルを調べ始めたとします。これを解析して、それが実際に XML ファイルであることを確認します。人生は素晴らしい。
次に、誰か>
がファイル内のどこかを削除します。これにより、パーサーの観点から、ファイルは事実上不正な形式の XML になります。このファイルに関する限り、このファイルはもはや適切な形式の XML ファイルではありません。
不正な形式ではあるが、ファイルが実際に XML ファイルであることを確認する方法はありますか?
問題は XML を超えています (明らかに)。ファイルが「おそらく特定のタイプである」という結論に達するにはどうすればよいでしょうか。「解析できないため、特定のタイプではないことは確かです」