問題タブ [spark-koalas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - コアラの日付型ヒント
型ヒントを使用してこのコードを実行したいとします。
元の dtype:
そのまま実行すると、dtypes は groupby.apply プロセスの後も同じままです
現在、型ヒントを使用した最適なバージョンは次のとおりです。
ただし、返される dtype は少し異なります。
正確な「datetime64[ns]」と「object」の dtype を取得する方法はありますか?
python - Koalasデータフレームは、ラムダに異なるタイプの2つの列を適用します
str
列とデータを含む別の列を持つint
データフレームがあります
次の操作はパンダで機能します...
...しかし、コアラではありません:(
エラーがスローされます:
エラーの理由とその解決方法は私には明らかではありません。何か案が?
アップデート:
問題を単純化すると、うまくいくことに気づきますが、エラーkdf.apply(lambda x: [1, 2], axis=1)
がkdf.apply(lambda x: [1, "2"], axis=1)
スローされます。koalas データフレームに異なるタイプの要素を含むリストを作成することはできないようです。そうですか?代替手段とは何ですか?
google-cloud-platform - ローカルの Jupyter Notebook から Dataproc で Koalas を使用する方法
Google のドキュメントを確認したところ、Spark ジョブを Dataproc クラスタに送信し、クラスタ内に JupyterLab をインストールして、ノートブックで反復操作を実行できました。
しかし、DataProc クラスター リソースを使用してローカルの Jupyer Notebook (自分のマシン上) から反復コマンドを実行するための適切な構成を見つけることができませんでした。
ローカルの JupyterLab からクラスターを作成し、pySpark (Koalas) を使用して、BigQuery と GCS でホストされている大規模なデータフレームに対して一連の操作を実行することに特に興味があります。私の目標は、クラスタ マシンまたは Vertex IA 内の JupyterLab インストールにアクセスするのと同じ方法で、ローカルの JupyerLab で Dataproc を使用することです。
誰もそれを構成する方法を知っていますか?