java - Java または Python の分散コンピューティングジョブ (学生の予算内)?

Question

ルートアクセス権がなく、ユーザースペースが1Gしかないラボ内の2台のコンピューターでNLP（大部分は恥ずかしいほど並列）に使用したい大きなデータセット（c。40G）があります。私は Hadoop を試してみましたが、もちろんこれは水の中で死んでいました。データは外付けの USB ハードドライブに保存されており、1G のユーザースペースキャップのために dfs にロードできません。私はいくつかのPythonベースのオプションを調べてきました（私がそれを助けることができれば、Javaのlingpipeの代わりにNLTKを使用したいので）、分散コンピューティングオプションは次のように見えます：

パイソン
ディスコ

私の Hadoop の経験の後、私は十分な情報に基づいた選択をしようと努めています。

予算がほとんどないため、AmazonのEC2などは実際にはオプションではありません。

score 3 · Accepted Answer

学校の IT 部門 (特に大学生の場合) に相談してください。課題や研究のためであれば、喜んで追加のディスク容量を提供してくれるでしょう。

score 1 · Accepted Answer

実際の答えはありません。私はこれをコメントとして入れたかったのですが、このサイトでは、あなたがまだ初心者である場合にのみ回答することを余儀なくされています

それが本当にそれと同じくらい並列であり、それがほんの数台のコンピューターである場合、事前にデータセットを手動で分割できませんか?

いずれにせよ、ファイアウォールまたは同様のものを使用することを妨げるものがないことを確認しましたか?

1GB のユーザースペースしかないかもしれませんが、Linux の場合、 /tmp はどうでしょうか? （Windowsの場合、 %temp% はどうですか？）

score 1 · Accepted Answer

必ず学校の IT 部門に相談してください。自分のものではないコンピュータリソースを利用するのは得策ではありません。

大きな処理能力を必要とするアプリケーションを任意の数のコンピューターで実行できるようにするJPPFを見つけました。クライアントマシンにソフトウェアをインストールする必要があるかどうかはわかりませんが、クライアントマシンで特定のポートを開く必要があります。

score 0 · Accepted Answer

コンピューティング部門のリソースを増やすことができない場合は、データセットを処理する前に、データセットを管理しやすいチャンクに分割することを検討する必要があります。結果を意味のあるセットに減らします。

IT からのリソースを増やすことが、進むべき道です。

幸運を！

ベン

java - Java または Python の分散コンピューティング ジョブ (学生の予算内)?

4 に答える 4

Related

Reference

java - Java または Python の分散コンピューティングジョブ (学生の予算内)?