ルートアクセス権がなく、ユーザースペースが1Gしかないラボ内の2台のコンピューターでNLP(大部分は恥ずかしいほど並列)に使用したい大きなデータセット(c。40G)があります。私は Hadoop を試してみましたが、もちろんこれは水の中で死んでいました。データは外付けの USB ハード ドライブに保存されており、1G のユーザー スペース キャップのために dfs にロードできません。私はいくつかのPythonベースのオプションを調べてきました(私がそれを助けることができれば、Javaのlingpipeの代わりにNLTKを使用したいので)、分散コンピューティングオプションは次のように見えます:
- パイソン
- ディスコ
私の Hadoop の経験の後、私は十分な情報に基づいた選択をしようと努めています。
予算がほとんどないため、AmazonのEC2などは実際にはオプションではありません。