問題タブ [filesplitting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - Linux/bash でのファイルとその行の分割
かなり大きなファイル (10 文字で 1 億 5000 万行) があります。これを 200 万行の 150 個のファイルに分割する必要があります。各出力行は、ソース行の最初の 5 文字または最後の 5 文字になります。これは Perl でかなり迅速に行うことができましたが、bash を使用した簡単な解決策があるかどうか疑問に思っていました。何か案は?
mercurial - Mercurial は分割されたファイルをどのように処理しますか?
Mercurial は分割されたファイルをどのように処理しますか? ブランチを作成してファイルを分割するとどうなりますか。元の分割されていないファイルを変更する別のブランチから変更を簡単にプルできますか?
shell - シェルでポータブルな方法で(たとえばsedを使用して)最初の空の行でファイルを分割するにはどうすればよいですか?
HTTP応答を含むファイルを2つのファイルに分割したいと思います。1つはHTTPヘッダーのみを含み、もう1つはメッセージの本文を含みます。このために、シェルスクリプト\r
を使用して、最初の空の行でファイルを2つに分割する必要があります(または、CR =''文字のみを含む最初の行のUNIXツールの場合)。
ポータブルな方法でこれを行う方法(たとえば、sedを使用しますが、GNU拡張機能は使用しません)?空の行はファイルの最初の行ではないと想定できます。空の行は、ファイルのいずれか、なし、または両方に到達する可能性があります。それは私には関係ありません。
xml - XSL を使用して巨大な XML ファイルを小さな XML ファイルに分割する方法
テレビ放送のリストを含む巨大な XML ファイルを取得します。そして、1 日だけのすべてのブロードキャストを含む小さなファイルに分割する必要があります。私はそれをなんとかしましたが、xmlヘッダーとノードが複数回存在するという2つの問題があります。
XML の構造は次のとおりです。
私のXSLは次のようになります。
出力 XML は次のようになります。
PRG_20090512.xml:
出力宣言に omit-xml-declaration="yes" を入れることはできますが、xml ヘッダーがありません。タグがすでに出力に含まれているかどうかを確認しようとしましたが、出力でノードを選択できませんでした...
これは私が試したものです:
対処法が分からないので、よろしくお願いします。;( イエティ
linux - 行番号でファイル分割する方法
特定の行番号から400k行の長さのログファイルを分割したい。
この質問では、これを任意の数300kにします。
これを(スクリプト内で)実行できるLinuxコマンドはありますか?
split
サイズまたは行番号のいずれかでファイルを均等に分割できることはわかっていますが、それは私が望んでいることではありません。1つのファイルの最初の300kと、2番目のファイルの最後の100kにします。
どんな助けでもいただければ幸いです。ありがとう!
考え直してみると、これはスーパーユーザーまたはサーバー障害サイトにより適しています。
hadoop - テキストのセット全体をノードにマップするにはどうすればよいですか?
次のデータを含むプレーンテキストファイルがあるとします。
...等々...
私がしたいのは、各データセットのコンテンツの数を数えることです。たとえば、結果は次のようになります。
私はHadoopの初心者ですが、データのチャンク全体をノードにマップする方法があるのではないかと思います。たとえば、すべてのDataSetOneをノード1に設定し、すべてのDataSetTwoをノード2に設定します。
誰かが私にこれをアーカイブする方法のアイデアを与えることができますか?
php - .php を使用したファイルスプリッター
ユーザーがファイルをアップロードする Web サイトを設計していますが、無料の Web ホストではファイルごとに 3 MB の制限しかありません。ファイルを1つに再組み立てします
それは可能ですか?それは.phpの範囲内ですか
xslt - XML ファイルをレコード数/しきい値で分割し、ヘッダーをコピーする - XSLT 1.0
私は次のXML構造を持っています
<R>
要素の量に応じてファイルを分割する必要があります。3 つ以上の<R>
要素がある場合は、2 番目の出力ファイルを生成する必要があります。どちらのファイルにもヘッダー情報が必要です。
私はこのXSLTを思いつきました:
ただし、生成される 2 つの出力ファイルには、「Data2」と「Data5」しか含まれていません。他の 3 つのデータ要素が欠落している理由を理解するのを手伝ってもらえますか? また、ヘッダーデータを追加するにはどうすればよいですか?
ヘッダーについては、次の XSLT を思い付きました。
上記のXMLに適用すると機能します。しかし、2 つの XSLT を組み合わせることができませんでした。出力がめちゃくちゃになってしまいます。
python - ストリーミング Hadoop プログラムで入力ファイル名を取得する
Javaでプログラムを書くとき、FileSplitを使ってマッパークラスの入力ファイルなら名前を見つけることができます。
Python で (ストリーミングを使用して) プログラムを作成するときに、これを行う対応する方法はありますか?
Apache の Hadoop ストリーミング ドキュメントで次の情報を見つけました。
構成パラメータを参照してください。ストリーミング ジョブの実行中に、「mapred」パラメータの名前が変換されます。ドット ( . ) はアンダースコア ( _ ) になります。たとえば、mapred.job.id は mapred_job_id になり、mapred.jar は mapred_jar になります。コードでは、パラメーター名にアンダースコアを付けて使用します。
しかし、マッパー内でこれを利用する方法をまだ理解できません。
どんな助けでも大歓迎です。
ありがとう