5

ルートアクセス権がなく、ユーザースペースが1Gしかないラボ内の2台のコンピューターでNLP(大部分は恥ずかしいほど並列)に使用したい大きなデータセット(c。40G)があります。私は Hadoop を試してみましたが、もちろんこれは水の中で死んでいました。データは外付けの USB ハード ドライブに保存されており、1G のユーザー スペース キャップのために dfs にロードできません。私はいくつかのPythonベースのオプションを調べてきました(私がそれを助けることができれば、Javaのlingpipeの代わりにNLTKを使用したいので)、分散コンピューティングオプションは次のように見えます:

  • パイソン
  • ディスコ

私の Hadoop の経験の後、私は十分な情報に基づいた選択をしようと努めています。

予算がほとんどないため、AmazonのEC2などは実際にはオプションではありません。

4

4 に答える 4

3

学校の IT 部門 (特に大学生の場合) に相談してください。課題や研究のためであれば、喜んで追加のディスク容量を提供してくれるでしょう。

于 2010-05-16T16:36:26.857 に答える
1

実際の答えはありません。私はこれをコメントとして入れたかったのですが、このサイトでは、あなたがまだ初心者である場合にのみ回答することを余儀なくされています

それが本当にそれと同じくらい並列であり、それがほんの数台のコンピューターである場合、事前にデータセットを手動で分割できませんか?

いずれにせよ、ファイアウォールまたは同様のものを使用することを妨げるものがないことを確認しましたか?

1GB のユーザースペースしかないかもしれませんが、Linux の場合、 /tmp はどうでしょうか? (Windowsの場合、 %temp% はどうですか?)

于 2010-05-16T16:15:24.590 に答える
1

必ず学校の IT 部門に相談してください。自分のものではないコンピュータ リソースを利用するのは得策ではありません。

大きな処理能力を必要とするアプリケーションを任意の数のコンピューターで実行できるようにするJPPFを見つけました。クライアント マシンにソフトウェアをインストールする必要があるかどうかはわかりませんが、クライアント マシンで特定のポートを開く必要があります。

于 2010-05-16T19:28:59.307 に答える
0

コンピューティング部門のリソースを増やすことができない場合は、データ セットを処理する前に、データ セットを管理しやすいチャンクに分割することを検討する必要があります。結果を意味のあるセットに減らします。

IT からのリソースを増やすことが、進むべき道です。

幸運を !

ベン

于 2010-05-17T06:46:12.877 に答える