私は自分の論文に取り組んでおり、機能とその動作をテストするための作業環境をセットアップする機会があります。
次の点をカバーする必要があります。
- jupyterhub (プライベート クラウド内)
- パンダ、numpy、sql、nbconvert、nbviewer
- データを DataFrame (csv) に取得し、データを分析し、データを保存します (RDD?、HDF5?、HDFS?)
- 将来の分析のための火花
テスト シナリオは次のように構成されます。
- ユーザー/トピック用のノートブックを備えた複数ユーザー環境
- pandas、numpy、spark (spark-sql)、matplotlib との 3 ウェイマッチで数百万行の構造化テーブル (RSEG、MSEG、EKPO) を分析します。これら 3 つのテーブルには約 3GB のデータがあります。
- nbconvert、nbviewer を使用してノートブックを pdf、読み取り専用の notbook および/または Reveal.js にエクスポート
テストに使用するメモの数について、ヒントや経験を教えてください。どのLinuxディストリビューションが良いスタートですか? もっと多くの質問があると確信しています.方法を見つけるのに問題があるか、可能な答えを評価する方法を教えてください.
前もって感謝します!