問題タブ [blaze]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - MongoDB の戻り値に挿入すると、オブジェクトをエンコードできません
Python pandas DataFrame をソースとするローカル MongoDB へのかなり単純な挿入を行っています。基本的に、datframe.loc[n].to_dict() を呼び出して、df から直接辞書を取得しています。「オブジェクトをエンコードできません」というメッセージが表示される挿入を試みるまで、これまでのところすべて問題ありません。dict を直接見ると、すべてが良好に見えることが示されましたが、(この質問を書いているときに) dict の各タイプを確認することに気づき、長い ID 番号が単純な int ではなく numpy.int64 に変換されていることがわかりました (これは、 int が正常に挿入されるため、dict を手動で作成しました)。
そのため、この動作をオーバーライドできる to_dict への引数の追加に関する pandas のドキュメント内で何も見つけることができませんでした。そんなことに頼らなくても。
問題は、MongoDB に挿入するためにデータフレームの行を dict に変換する方法です。許容可能なコンテンツ タイプのみを使用していることを確認します。または、ここでさらにバックアップして、より簡単なアプローチを使用してMongo内のドキュメントになるデータフレーム?
ありがとう
リクエストに応じて、私が使用しているデータのサンプルを投稿に追加します。
これは、挿入時に失敗した to_dict 出力から直接。これを「テスト」辞書に直接コピーしたところ、完全に正常に機能しました。各dictの値を出力すると、次のようになります...
唯一の違い (私が知る限り) は Long int です。興味深いことに、Mongo を挿入すると、そのフィールドがドキュメント内で「Number Long」として表示されます。これがいくつかを明確にするのに役立つことを願っています。
python - odo で pandas hdfstore を変換するときにデータ列を維持する
この質問の提案に従って、blaze プロジェクトの odo を使用して複数の pandas hdfstore テーブルをマージしています: Concatenate two big pandas.HDFStore HDF5 files
ストアには、設計により同一の列と重複しないインデックスがあり、数百万行あります。個々のファイルはメモリに収まる可能性がありますが、結合されたファイル全体はメモリに収まらない可能性があります。
hdfstore が作成された設定を保存する方法はありますか? データ列と圧縮設定が失われます。
運悪くやってみodo(part, whole, datacolumns=['col1','col2'])た。
あるいは、代替方法の提案をいただければ幸いです。もちろんこれを手動で行うこともできますが、メモリ不足にならないようにチャンクサイズを管理する必要があります。
python - Blaze で Spark にアクセスする際のエラー
Blaze とローカルの Spark インスタンスを使用して、かなり簡単なことをしようとしています。blaze の into() を使用して csv ファイルをロードし、blaze の by() を使用する
csv (シンプル.csv)
コード
ここで何が起こっているかについてのアイデアはありますか?
サイドノート; これは動作します
そして、これもそうです
それをSparkに「ロード」する方法が必要ですよね?
python - Blaze を使用した bcolz 列の追加
最初に を構築しましょうctable:
ここで、このテーブルに「x_mod」という列を追加したいとします。私は試した
しかし、それは与えます
1) 「x_mod」列を割り当ててからディスクに保存するにはどうすればよいですか? 大規模なデータベースを扱っています。メモリ内の列を計算することは問題ないはずですが、全体ctableをメモリにロードする方法がありません。
2)関連する問題については、apply私にとってもうまくいきません。私は何か間違ったことをしていますか?
御時間ありがとうございます!
python - 文字列から sqlalchemy クエリを作成する
SQL where 句文字列を sqlalchemy クエリに変換するにはどうすればよいですか? 私はすでにテーブルを知っていると仮定しています。
データ用に Flask API をヒットする Angular webapp を構築しています。Flask は sqlalchemy を使用してデータベースにクエリを実行しています。jQuery-QueryBuilder fromSQL ( http://querybuilder.js.org/plugins.html#import-export ) はフィルターを未加工の SQL としてエクスポートし、それを API、解析、およびクエリに戻します。
例えば:
次のように変換されます:
odo が私が必要としているものかもしれないので、blaze にタグを付けます。
pandas - タブレータで区切られた CSV をブレイズで読み取るにはどうすればよいですか?
次の形式の「CSV」データファイルがあります(まあ、むしろTSVです):
このファイルはそのままで解釈可能ですpandas:
ただし、それを読み込もうとするとblaze(pandas キーワード引数を使用することを宣言します)、例外がスローされます。
これらの作品やパンダは一切使用されていません。列の名前と型を推測しようとする「スニファー」はcsv.Sniffer.sniff()、標準ライブラリから呼び出すだけです (これは失敗します)。
このファイルを blaze で適切に読み取る方法はありますか (その「弟」が数百 MB であるため、blaze の順次処理機能を使用したいと考えています)。
アイデアをありがとう。
編集: odo/csv の問題かもしれないと思い、問題を提出しました: https://github.com/blaze/odo/issues/327
Edit2: 完全なエラー: