問題タブ [hdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop/HDFS を使用した 100 万個の生体認証 (小さい) ファイルの比較
私は Hadoop の初心者です。Hadoop で小さなファイルの問題を読んでいます。今、解決すべき問題があります。始めるのを手伝ってください。
問題 :
Source Outcome :約 100 万以上 (約) の各ファイルのサイズが 1 kb に近い (サイズの作成または調整を防止することはできません)
結果のグループ化: ソースの結果は 1000 個のファイル A グループにグループ化されます。
必要なタスク:
グループ内のファイルは、1 対 1 の方法で比較されます。ファイルは、特定の標準構造 (ヘッダー、コンテンツなど) に従うバイナリの特徴点 (生体認証) ファイルです。
Source Outcome はそのうち増えると予想されるので、hadoop での比較を実装したいと思います。
Hadoop への入力:
<入力ファイル> <HARファイル> <出力>
< 入力ファイルのサンプル >:
ファイル名は一意のIDであり、ファイル名だけを発行すると非常に役立つことに注意してください
プロセスアルゴリズム:(実装されていませんが、単なるアイデアです)
- 入力ファイルを 1 行ずつ読み取る
- har:// を使用して行内の各ファイルを読み取ります (例: har://xxx/08RTC345744.txt および har://xxx/08RTC345746.txt を読み取ります)。
- 関連する生体認証アルゴリズムを使用して、hdfs (HAR) から読み取られたファイルを比較します
- それらが類似性を示す場合、Emit < Filenames > < Count >
< HARFile サンプルファイル >
1) Hadoop で実装する方がよい考えですか?
2) 小さなファイルの比較は Hadoop の問題であると読みましたが、グループのセットの HAR ファイルを作成してから比較する方がよいでしょうか?
3) 私の プロセスアルゴリズム:動作するかどうか?
4)効率的ですか?私は思います、確かにそうではありません、他に何か考えはありますか?
5) 生体認証マッチングの MapReduce に関するアイデアはありますか?
6) HBASE は解決策ですか?
python - h5pyを使用してデータセットのみ(グループなし)を持つHDF5ファイルを読み取る方法は?
Python モジュール h5py (Python 2.7) を使用して開きたい HDF5 ファイルがあります。
グループとデータセットを含むファイルがある場合、これは簡単です。
しかし、私の現在の状況では、グループはありません。データセットのみがあります。残念ながら、何を試してもデータにアクセスできません。次のいずれも機能しません (すべて KeyErrors または ValueErrors で壊れます):
解決策がない場合は、グループを持つようにファイルを作り直すことができます。本当は解決策がありそうな気もしますが…
h5py がキーを認識していないようです:
python - Panda で HDF5 にデータを保存できませんか?
大きなデータフレームを HDF5 形式で保存しようとしていますが、常にエラーが発生します。良い方法を使うべきではありませんが、どこが間違っているのかわかりません。
これが私のコードです:
シンプルなデータフレームを構築します:
今私がしようとすると:
また:
私は得る:
私もこの方法を試します:
しかし、私は得る:
これを行う適切な方法は何ですか?ありがとうございました。
私が使用している: Python 3.4.1 パンダ 0.15.2 テーブル 3.0.0
python - Pandas で書き込む場合、CSV ファイルが HDF5 ファイルよりも小さいのはなぜですか?
さらに大きなデータセットを使用すると、効果はさらに大きくなります。以下のようなものを使用してHDFStore
も何も変わりません。
編集:気にしないでください。例えが悪い!ゼロの代わりに重要な数字を使用すると、話が変わります。
数値を float として表現すると、1 桁あたり 1 文字の文字列として数値を表現するよりもバイト数が少なくて済みます。これは、すべての数値が '0.0' であった最初の例を除いて、一般的に当てはまります。したがって、数値を表すのに多くの文字は必要なく、文字列表現は float 表現よりも小さくなりました。
python - インデックスに特殊文字を含む pandas を含む HDF ファイルを読み取る
インデックスに空間文字 (例: äüö) を含むデータを HDF ファイルに保存するにはどうすればよいですか。
データフレームを作成します。
hdf ファイルからデータを読み取ります。
インデックスがありません:
python - npz ファイルに代わるものはありますか?
Python .npz 形式で格納された配列を使用します。私はこれらのファイルをたくさん持っていますが、それらはすべて同じ共通の構造を共有しています: filenamemy_file_var1_var2_var3.npz
には次の項目が含まれています (すべての配列は 32 ビット Float です):
- 2D 配列 (N=11、Ns=2000)
- 2D 配列 (12, N )
- 2D 配列 ( 300, N )
- 2D 配列 ( 300, Ns )
- フロート
- 整数
ファイルが 1000 個を超えると非常に煩わしく、それぞれのファイルが 4Mb ほど消費します。HDF5/Pytables などのコンテナーに移行するのがよいと考えていました。さまざまな配列は単なる配列であり、優先順位などはありません (実際には、操作される行列またはベクトルのスタックです)。各ファイル名のすべての配列が同時に必要です。
var1
、var2
およびvar3
に関連付けられた配列を取得するのに適した形式についての推奨事項はありますか?
c# - C# で HDF5DotNet を使用して、.mat ファイルからセル配列を取得してアクセスする方法
C# で HDF5DotNet を使用して、900x1 のセル配列を読み取り、各セル内の 2D double 配列にアクセスしたいと考えています。C# で H5Array を配列にマップする方法を見つけました (以下を参照) が、配列が「セル」で構成されている場合に H5Array をマップする方法がわかりません。HDF5DotNet H5D.getType(...) 関数は、整数 ID のみを返します。これは、関心のあるものとは関係がないようです。HDF5DotNet には、セルに対応するクラスがあると想定しています。
python - パンダはメモリエラーを回避してcsvをh5ファイルに変換します
私はこの簡単なコードを持っています
しかし、データが大きすぎてメモリの問題が発生します。
このチャンクごとに行うクリーンな方法は何ですか?