問題タブ [filesplitting]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
3659 参照

linux - Linux/bash でのファイルとその行の分割

かなり大きなファイル (10 文字で 1 億 5000 万行) があります。これを 200 万行の 150 個のファイルに分割する必要があります。各出力行は、ソース行の最初の 5 文字または最後の 5 文字になります。これは Perl でかなり迅速に行うことができましたが、bash を使用した簡単な解決策があるかどうか疑問に思っていました。何か案は?

0 投票する
2 に答える
452 参照

mercurial - Mercurial は分割されたファイルをどのように処理しますか?

Mercurial は分割されたファイルをどのように処理しますか? ブランチを作成してファイルを分割するとどうなりますか。元の分割されていないファイルを変更する別のブランチから変更を簡単にプルできますか?

0 投票する
4 に答える
7900 参照

shell - シェルでポータブルな方法で(たとえばsedを使用して)最初の空の行でファイルを分割するにはどうすればよいですか?

HTTP応答を含むファイルを2つのファイルに分割したいと思います。1つはHTTPヘッダーのみを含み、もう1つはメッセージの本文を含みます。このために、シェルスクリプト\rを使用して、最初の空の行でファイルを2つに分割する必要があります(または、CR =''文字のみを含む最初の行のUNIXツールの場合)。

ポータブルな方法でこれを行う方法(たとえば、sedを使用しますが、GNU拡張機能は使用しません)?空の行はファイルの最初の行ではないと想定できます。空の行は、ファイルのいずれか、なし、または両方に到達する可能性があります。それは私には関係ありません。

0 投票する
2 に答える
874 参照

wav - WAV ファイル分割ユーティリティ

0 投票する
2 に答える
2258 参照

xml - XSL を使用して巨大な XML ファイルを小さな XML ファイルに分割する方法

テレビ放送のリストを含む巨大な XML ファイルを取得します。そして、1 日だけのすべてのブロードキャストを含む小さなファイルに分割する必要があります。私はそれをなんとかしましたが、xmlヘッダーとノードが複数回存在するという2つの問題があります。

XML の構造は次のとおりです。

私のXSLは次のようになります。

出力 XML は次のようになります。

PRG_20090512.xml:

出力宣言に omit-xml-declaration="yes" を入れることはできますが、xml ヘッダーがありません。タグがすでに出力に含まれているかどうかを確認しようとしましたが、出力でノードを選択できませんでした...

これは私が試したものです:

対処法が分からないので、よろしくお願いします。;( イエティ

0 投票する
1 に答える
129011 参照

linux - 行番号でファイル分割する方法

特定の行番号から400k行の長さのログファイルを分割したい。

この質問では、これを任意の数300kにします。

これを(スクリプト内で)実行できるLinuxコマンドはありますか?

splitサイズまたは行番号のいずれかでファイルを均等に分割できることはわかっていますが、それは私が望んでいることではありません。1つのファイルの最初の300kと、2番目のファイルの最後の100kにします。

どんな助けでもいただければ幸いです。ありがとう!

考え直してみると、これはスーパーユーザーまたはサーバー障害サイトにより適しています。

0 投票する
3 に答える
165 参照

hadoop - テキストのセット全体をノードにマップするにはどうすればよいですか?

次のデータを含むプレーンテキストファイルがあるとします。

...等々...

私がしたいのは、各データセットのコンテンツの数を数えることです。たとえば、結果は次のようになります。

私はHadoopの初心者ですが、データのチャンク全体をノードにマップする方法があるのではないかと思います。たとえば、すべてのDataSetOneをノード1に設定し、すべてのDataSetTwoをノード2に設定します。

誰かが私にこれをアーカイブする方法のアイデアを与えることができますか?

0 投票する
2 に答える
367 参照

php - .php を使用したファイルスプリッター

ユーザーがファイルをアップロードする Web サイトを設計していますが、無料の Web ホストではファイルごとに 3 MB の制限しかありません。ファイルを1つに再組み立てします

それは可能ですか?それは.phpの範囲内ですか

0 投票する
2 に答える
1800 参照

xslt - XML ファイルをレコード数/しきい値で分割し、ヘッダーをコピーする - XSLT 1.0

私は次のXML構造を持っています

<R>要素の量に応じてファイルを分割する必要があります。3 つ以上の<R>要素がある場合は、2 番目の出力ファイルを生成する必要があります。どちらのファイルにもヘッダー情報が必要です。

私はこのXSLTを思いつきました:

ただし、生成される 2 つの出力ファイルには、「Data2」と「Data5」しか含まれていません。他の 3 つのデータ要素が欠落している理由を理解するのを手伝ってもらえますか? また、ヘッダーデータを追加するにはどうすればよいですか?

ヘッダーについては、次の XSLT を思い付きました。

上記のXMLに適用すると機能します。しかし、2 つの XSLT を組み合わせることができませんでした。出力がめちゃくちゃになってしまいます。

0 投票する
3 に答える
9078 参照

python - ストリーミング Hadoop プログラムで入力ファイル名を取得する

Javaでプログラムを書くとき、FileSplitを使ってマッパークラスの入力ファイルなら名前を見つけることができます。

Python で (ストリーミングを使用して) プログラムを作成するときに、これを行う対応する方法はありますか?

Apache の Hadoop ストリーミング ドキュメントで次の情報を見つけました。

構成パラメータを参照してください。ストリーミング ジョブの実行中に、「mapred」パラメータの名前が変換されます。ドット ( . ) はアンダースコア ( _ ) になります。たとえば、mapred.job.id は mapred_job_id になり、mapred.jar は mapred_jar になります。コードでは、パラメーター名にアンダースコアを付けて使用します。

しかし、マッパー内でこれを利用する方法をまだ理解できません。

どんな助けでも大歓迎です。

ありがとう