tensorflow - Nvidia TX1 上の TensorFlow

Question

Nvidia Tegra X1 でテンソルフローを動かした人はいますか?

TK1 で可能である、または TX1 で重大なハッキング/エラーがあることを示すいくつかの情報源を見つけましたが、決定的なレシピはまだありません。

私は Jetson 2.3 のインストールを使用していますが、まだ動作していません - どんなヒントでも大歓迎です。

score 11 · Accepted Answer

Bazel 0.2.1、CUDA 8.0、CUDNN5.1、L4T24.2、および新しい JetPack 2.3 のインストールにより、TensorFlow R0.9 が TX1 で動作するようになりました。BN、Sigmoid、ReLU などを使用して、基本的な MLP、Conv、および LSTM ネットでテストしましたが、まだエラーは発生していません。sparse_matmul_op を削除しましたが、それ以外の場合はコンパイルが完全に機能するはずです。これらの手順の多くは、MaxCuda の優れたブログから直接得たものです。提供してくれた彼らに感謝します。

R0.10/R0.11 (現在、gRPC バイナリが Bazel 0.3.0 を妨げている) を引き続き使用する予定ですが、それまでは R0.9 式を投稿することにしました。以下のように：

最初にJavaを取得します

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer

いくつかの他の deps をインストールします

sudo apt-get install git zip unzip autoconf automake libtool curl zlib1g-dev maven swig

protobuf 3.0.0-beta-2 jar を自分でビルドする必要があります

git clone https://github.com/google/protobuf.git
cd protobuf
# autogen.sh downloads broken gmock.zip in d5fb408d
git checkout master
./autogen.sh
git checkout d5fb408d
./configure --prefix=/usr
make -j 4
sudo make install
cd java
mvn package

ベゼルを入手。バージョン 0.2.1 が必要です。まだビルドできない 0.3.0 とは異なり、gRPC バイナリは必要ありません (おそらくすぐに!)

git clone https://github.com/bazelbuild/bazel.git
cd bazel
git checkout 0.2.1
cp /usr/bin/protoc third_party/protobuf/protoc-linux-arm32.exe
cp ../protobuf/java/target/protobuf-java-3.0.0-beta-2.jar third_party/protobuf/protobuf-java-3.0.0-beta-1.jar

aarch64 を ARM として認識するように bazel ファイルを編集する必要があります

--- a/src/main/java/com/google/devtools/build/lib/util/CPU.java
+++ b/src/main/java/com/google/devtools/build/lib/util/CPU.java
@@ -25,7 +25,7 @@ import java.util.Set;
 public enum CPU {
   X86_32("x86_32", ImmutableSet.of("i386", "i486", "i586", "i686", "i786", "x86")),
   X86_64("x86_64", ImmutableSet.of("amd64", "x86_64", "x64")),
-  ARM("arm", ImmutableSet.of("arm", "armv7l")),
+  ARM("arm", ImmutableSet.of("arm", "armv7l", "aarch64")),
   UNKNOWN("unknown", ImmutableSet.<String>of());

今すぐコンパイル

./compile.sh

そしてインストール

sudo cp output/bazel /usr/local/bin

テンソルフロー R0.9 を取得します。R0.9 よりも高いには Bazel 0.3.0 が必要ですが、gRPC の問題により、まだビルド方法がわかりません。

git clone -b r0.9 https://github.com/tensorflow/tensorflow.git

一度ビルドします。失敗しますが、実行中のアーキテクチャを特定する更新された config.guess および config.sub ファイルを配置できる bazel .cache dir が作成されました。

./configure
bazel build -c opt --config=cuda //tensorflow/tools/pip_package:build_pip_package

cd ~
wget -O config.guess 'http://git.savannah.gnu.org/gitweb/?p=config.git;a=blob_plain;f=config.guess;hb=HEAD'
wget -O config.sub 'http://git.savannah.gnu.org/gitweb/?p=config.git;a=blob_plain;f=config.sub;hb=HEAD'

# below are commands I ran, yours will vary depending on .cache details. `find` is your friend
cp config.guess ./.cache/bazel/_bazel_socialh/742c01ff0765b098544431b60b1eed9f/external/farmhash_archive/farmhash-34c13ddfab0e35422f4c3979f360635a8c050260/config.guess
cp config.sub ./.cache/bazel/_bazel_socialh/742c01ff0765b098544431b60b1eed9f/external/farmhash_archive/farmhash-34c13ddfab0e35422f4c3979f360635a8c050260/config.sub

sparse_matmul_op にはいくつかのエラーがありました。私は臆病なルートを取り、ビルドから削除しました

--- a/tensorflow/core/kernels/BUILD
+++ b/tensorflow/core/kernels/BUILD
@@ -985,7 +985,7 @@ tf_kernel_libraries(
         "reduction_ops",
         "segment_reduction_ops",
         "sequence_ops",
-        "sparse_matmul_op",
+        #DC "sparse_matmul_op",
     ],
     deps = [
         ":bounds_check",

--- a/tensorflow/python/BUILD
+++ b/tensorflow/python/BUILD
@@ -1110,7 +1110,7 @@ medium_kernel_test_list = glob([
     "kernel_tests/seq2seq_test.py",
     "kernel_tests/slice_op_test.py",
     "kernel_tests/sparse_ops_test.py",
-    "kernel_tests/sparse_matmul_op_test.py",
+    #DC "kernel_tests/sparse_matmul_op_test.py",
     "kernel_tests/sparse_tensor_dense_matmul_op_test.py",
 ])

TX1 は cwise_op_gpu_select.cu.cc で派手なコンストラクターを実行できません

--- a/tensorflow/core/kernels/cwise_op_gpu_select.cu.cc
+++ b/tensorflow/core/kernels/cwise_op_gpu_select.cu.cc
@@ -43,8 +43,14 @@ struct BatchSelectFunctor<GPUDevice, T> {
     const int all_but_batch = then_flat_outer_dims.dimension(1);

 #if !defined(EIGEN_HAS_INDEX_LIST)
-    Eigen::array<int, 2> broadcast_dims{{ 1, all_but_batch }};
-    Eigen::Tensor<int, 2>::Dimensions reshape_dims{{ batch, 1 }};
+    //DC Eigen::array<int, 2> broadcast_dims{{ 1, all_but_batch }};
+    Eigen::array<int, 2> broadcast_dims;
+    broadcast_dims[0] = 1;
+    broadcast_dims[1] = all_but_batch;
+    //DC Eigen::Tensor<int, 2>::Dimensions reshape_dims{{ batch, 1 }};
+    Eigen::Tensor<int, 2>::Dimensions reshape_dims;
+    reshape_dims[0] = batch;
+    reshape_dims[1] = 1;
 #else
     Eigen::IndexList<Eigen::type2index<1>, int> broadcast_dims;
     broadcast_dims.set(1, all_but_batch);

sparse_tensor_dense_matmul_op_gpu.cu.cc で同じ

--- a/tensorflow/core/kernels/sparse_tensor_dense_matmul_op_gpu.cu.cc
+++ b/tensorflow/core/kernels/sparse_tensor_dense_matmul_op_gpu.cu.cc
@@ -104,9 +104,17 @@ struct SparseTensorDenseMatMulFunctor<GPUDevice, T, ADJ_A, ADJ_B> {
     int n = (ADJ_B) ? b.dimension(0) : b.dimension(1);

 #if !defined(EIGEN_HAS_INDEX_LIST)
-    Eigen::Tensor<int, 2>::Dimensions matrix_1_by_nnz{{ 1, nnz }};
-    Eigen::array<int, 2> n_by_1{{ n, 1 }};
-    Eigen::array<int, 1> reduce_on_rows{{ 0 }};
+    //DC Eigen::Tensor<int, 2>::Dimensions matrix_1_by_nnz{{ 1, nnz }};
+    Eigen::Tensor<int, 2>::Dimensions matrix_1_by_nnz;
+    matrix_1_by_nnz[0] = 1;
+    matrix_1_by_nnz[1] = nnz;
+    //DC Eigen::array<int, 2> n_by_1{{ n, 1 }};
+    Eigen::array<int, 2> n_by_1;
+    n_by_1[0] = n;
+    n_by_1[1] = 1;
+    //DC Eigen::array<int, 1> reduce_on_rows{{ 0 }};
+    Eigen::array<int, 1> reduce_on_rows;
+    reduce_on_rows[0] = 0;
 #else
     Eigen::IndexList<Eigen::type2index<1>, int> matrix_1_by_nnz;
     matrix_1_by_nnz.set(1, nnz);

CUDA 8.0 で実行するには、FP16 用の新しいマクロが必要です。修正を指摘してくれた Kashif/Mry に感謝します。

--- a/tensorflow/stream_executor/cuda/cuda_blas.cc
+++ b/tensorflow/stream_executor/cuda/cuda_blas.cc
@@ -25,6 +25,12 @@ limitations under the License.
 #define EIGEN_HAS_CUDA_FP16
 #endif

+#if CUDA_VERSION >= 8000
+#define SE_CUDA_DATA_HALF CUDA_R_16F
+#else
+#define SE_CUDA_DATA_HALF CUBLAS_DATA_HALF
+#endif
+
 #include "tensorflow/stream_executor/cuda/cuda_blas.h"

 #include <dlfcn.h>
@@ -1680,10 +1686,10 @@ bool CUDABlas::DoBlasGemm(
   return DoBlasInternal(
       dynload::cublasSgemmEx, stream, true /* = pointer_mode_host */,
       CUDABlasTranspose(transa), CUDABlasTranspose(transb), m, n, k, &alpha,
-      CUDAMemory(a), CUBLAS_DATA_HALF, lda,
-      CUDAMemory(b), CUBLAS_DATA_HALF, ldb,
+      CUDAMemory(a), SE_CUDA_DATA_HALF, lda,
+      CUDAMemory(b), SE_CUDA_DATA_HALF, ldb,
       &beta,
-      CUDAMemoryMutable(c), CUBLAS_DATA_HALF, ldc);
+      CUDAMemoryMutable(c), SE_CUDA_DATA_HALF, ldc);
 #else
   LOG(ERROR) << "fp16 sgemm is not implemented in this cuBLAS version "
              << "(need at least CUDA 7.5)";

最後に、ARM には NUMA ノードがないため、これを追加する必要があります。そうしないと、tf.Session() の開始時にすぐにクラッシュします。

--- a/tensorflow/stream_executor/cuda/cuda_gpu_executor.cc
+++ b/tensorflow/stream_executor/cuda/cuda_gpu_executor.cc
@@ -888,6 +888,9 @@ CudaContext* CUDAExecutor::cuda_context() { return context_; }
 // For anything more complicated/prod-focused than this, you'll likely want to
 // turn to gsys' topology modeling.
 static int TryToReadNumaNode(const string &pci_bus_id, int device_ordinal) {
+  // DC - make this clever later. ARM has no NUMA node, just return 0
+  LOG(INFO) << "ARM has no NUMA node, hardcoding to return zero";
+  return 0;
 #if defined(__APPLE__)
   LOG(INFO) << "OS X does not support NUMA - returning NUMA node zero";
   return 0;

これらの変更の後、ビルドしてインストールしてください! これが一部の人々に役立つことを願っています。

score 4 · Accepted Answer

ドワイトの回答に従いますが、少なくとも 6 GB のスワップファイルも作成します

Dwight Crow の回答に従いますが、8 GB のスワップファイルを使用し、次のコマンドを使用して、 JetPack 2.3の新規インストールから Jetson TX1 に TensorFlow 0.9 を正常にビルドしました。

bazel build -c opt --local_resources 3072,4.0,1.0 --verbose_failures --config=cuda //tensorflow/tools/pip_package:build_pip_package

./configureGPU サポートを有効にする以外は、TensorFlow のスクリプトのデフォルト設定を使用しました。

私のビルドには少なくとも 6 時間かかりました。USB ドライブの代わりに SSD を使用すると、より高速になります。

スワップファイルの作成

# Create a swapfile for Ubuntu at the current directory location
fallocate -l *G swapfile
# List out the file
ls -lh swapfile
# Change permissions so that only root can use it
chmod 600 swapfile
# List out the file
ls -lh swapfile
# Set up the Linux swap area
mkswap swapfile
# Now start using the swapfile
sudo swapon swapfile
# Show that it's now being used
swapon -s

この USB ドライブを使用して、スワップファイルを保存しました。

私のシステムで使用された最大のメモリは 7.7 GB (メモリで 3.8 GB、スワップで 3.9 GB) でした。一度に使用された最大のスワップメモリは 4.4 GB でした。以前free -hはメモリ使用量を表示していました。

pip パッケージの作成とインストール

TensorFlow docsから適応:

$ bazel-bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg

# The name of the .whl file will depend on your platform.
$ pip install /tmp/tensorflow_pkg/tensorflow-0.9.0-py2-none-any.whl

謝辞

Dwight Crow (ガイド)、elirex ( bazelオプション値と無料の -h)、tylerfox (スワップファイルのアイデアと local_resources オプション)、彼らを助けてくれたすべての人、およびGithub issue thread のすべての人に感謝します。

スワップファイルスクリプトは、JetsonHack の gistから改作されました。

スワップファイルを使用していないときに受け取ったエラー

検索エンジンがこの答えを見つけやすくするため。

Error: unexpected EOF from Bazel server.

gcc: internal compiler error: Killed (program cc1plus)

tensorflow - Nvidia TX1 上の TensorFlow

2 に答える 2

ドワイトの回答に従いますが、少なくとも 6 GB のスワップ ファイルも作成します

スワップ ファイルの作成

pip パッケージの作成とインストール

謝辞

スワップ ファイルを使用していないときに受け取ったエラー

Related

Reference

ドワイトの回答に従いますが、少なくとも 6 GB のスワップファイルも作成します

スワップファイルの作成

スワップファイルを使用していないときに受け取ったエラー