問題タブ [alluxio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - tachyon0.8.2 は hadoop2.6.0 でデプロイされていますが、IPC バージョンが一致していません
今、ubuntu14.04 に tachyon0.8.2 をデプロイしたいのですが、マスターにはすでに hadoop と spark: があります。
奴隷に
そして、taachyon-env.sh を編集します。
次に、 and を実行しbin/tachyon format
ますbin/tachyon-start.sh local
。に tachyonMaster が表示されませんJPS
:
master.logs にログが表示されます。次のように言いました。
この問題を解決するにはどうすればよいですか?
hadoop - Wordcount が Tachyon で実行され、ClassNotFoundException 例外が表示されました
Tachyon で Hadoop Wordcount を実行しようとしています。このリンクをたどりました。しかし、以下のコマンドで wordcount Jar を実行すると
エラーを下回っています。
私はタキオンが初めてです。
ご意見をお聞かせください。
ssh - サーバー間の ssh 接続なしで Ansible を使用して tachyon をデプロイする、つまりマスターをフォーマットする方法
今のところ、tachyon はローカル モードでデプロイされています。つまり、http://tachyon-project.org/documentation/v0.7.1/Running-Tachyon-Locally.html
ここでの私の主な問題は、ssh 接続です。古典的な方法は次のとおりです。
しかし、当面は (サーバー間の) ssh 接続を有効にせず、(ssh 接続の承認がある) Ansible を使用してサービスのみをデプロイしたいと思います。したがって、ここではすべてのタキオン サービスを自分でデプロイする必要があります。私の知る限り、私はしなければなりません:
マスターをフォーマットしてから:
ここで問題となるのは、マスターをどのようにフォーマットするかです。./bin/tachyon format -s
十分ですか?または、tachyon スクリプトを変更して formatMaster コマンドを追加する必要がありますか?
バージョン: デプロイ用の Ansible(1.9.2) を使用する Ubuntu サーバー (14.04) 上の spark(1.5.1) を使用する tachyon(0.7.1)。
dcos - DCOS (Mesosphere) に Tachyon をインストールする手順は?
DCOS で spark-notebook をセットアップしました。タキオンは生態系の一部です。しかし、Tachyon をインストールするための DCOS 方法の説明は見つかりませんでした。最初からインストールすることもできますが、サービスをインストール/登録するための DCOS 準拠の方法があるようです。
どうも。J
python - Spark の alluxio/tachyon での RDD の変換のメモリ使用量
alluxioメモリからRDDを作成するとしましょう
のヒープ上または上にrdd2
常駐します。alluxio
spark
また、(alluxio での両方の pairRDD) のような操作は、
pairRDD1.join(pairRDD2)
alluxio またはスパーク ヒープで新しい RDD を作成します。
2 番目の質問の理由は、alluxio で 2 つの大きな RDD に参加する必要があるためです。結合はalluxioのメモリを使用しますか、それともRDDは結合のためにsparkメモリに引き込まれますか(そして結果のRDDはどこに存在しますか)。
apache-spark - Tachyon で Spark ジョブ間でデータを共有する方法
タキオン初心者です。Spark ジョブ間でデータまたは RDD を共有したい。タキオンの概要言う
Tachyon は、オープン ソースのメモリ中心の分散ストレージ システムであり、クラスタ ジョブ間でメモリ速度で信頼性の高いデータ共有を可能にします。
しかし、これを有効にする方法がわかりません。私が知っているのは、Spark で tachyon がオフヒープ キャッシュ レイヤーとして機能できることだけです。ありがとう。
apache-spark - Tachyon(alluxio)でスパークします。フレームサイズ (273247862) が最大長 (16777216) よりも大きい
ガイドに従って、Spark を Alluxio にデプロイします。alluxioからデータを読み込んでrdd操作をしようとすると、
val ccc = sc.textFile("alluxio://localhost:19998/findbugs.xml")
ccc.count
次のようなエラーが表示されます。
Java バージョンは 1.8.0_74、spark:1.2.0; alluxio 1.2.0
この問題は長い間私を悩ませてきました。
installation - openstack に alluxio1.2 をインストールする方法
spark と hdfs を使用して、openstack の VM centos に alluxio1.2 をインストールしようとしましたが、インストールが機能しません。Spark と hdfs はすでにインストールされ、動作しています
1 つの openstack マシンに alluxio をインストールするための特別なインストールはありますか?
java - Alluxio から Spark Java を使用して複数のファイルを読み取るのが遅い
Spark を使用してローカルに Alluxio をインストールし、Alluxio のメモリに 1000 個のファイルを挿入しました。
それにもかかわらず、ファイルの読み取りは非常に遅いです。Alluxio メモリからのファイル読み取り時間は、ディスクからのファイル読み取り時間と同じです。理由がわかりません。
ファイル API でデータを読み取ります:
1000 個のファイルを含むパーティションを読み取るテストが非常に遅いため、今のところ Spark は使用しません (将来的には、Spark を使用してパーティションごとにファイルを読み取りたいと考えています)。
このメソッド/ライブラリを使用して時間を読み取るのが遅いのはなぜですか?