1

同じハードウェア (Infiniband と Nvidia Tesla) と同じ OS (CentOS6.6、カーネルとドライバー) を備えた 2 台のツイン サーバーがあります。

host1 ではすべて正常に動作していますが、host2 では次のエラーが発生するため、このサービスを実行できません。

[root@vega2 nvidia_peer_memory-1.0-0]# service nv_peer_mem start
starting... FATAL: Error inserting nv_peer_mem (/lib/modules/2.6.32-504.el6.x86_64/extra/nv_peer_mem.ko): Invalid module format
Failed to load nv_peer_mem

そしてdmesgは言う:

nv_p2p_dummy: exports duplicate symbol nvidia_p2p_free_page_table (owned by nvidia)

host2 は、夏休みの後に再起動するまで、2 か月間正常に動作していたことに注意してください。:-( このエラーの原因は何でしょうか? 主要なソフトウェア コンポーネント (カーネル、Nvidia ドライバー、Mellanox ドライバー) は変更されておらず、ハードウェアは問題ありません。インストール手順を繰り返してみましたが、モジュールの読み込みでスタックします。点:

[root@vega2 nvidia_peer_memory-1.0-0]# rpm -ivh /root/rpmbuild/RPMS/x86_64/nvidia_peer_memory-1.0-0.x86_64.rpm
Preparing...             ########################################### [100%]
1:nvidia_peer_memory     ########################################### [100%]
FATAL: Error inserting nv_peer_mem (/lib/modules/2.6.32-504.el6.x86_64/extra/nv_peer_mem.ko): Invalid module format

同じシンボルをエクスポートする 2 つのカーネル モジュールに関するこの投稿を見つけましたが、なぜ host2 ではこの 2 番目のモジュールが nv_peer_mem を妨げているのに、host1 ではそうではないのでしょうか? これは nm コマンドの出力で、両方のホストでまったく同じです。

[root@vega2 nvidia_peer_memory-1.0-0]# nm /lib/modules/2.6.32-504.el6.x86_64/kernel/drivers/video/nvidia.ko |grep nvidia_p2p_free_    page_table
0000000088765bb5 A __crc_nvidia_p2p_free_page_table
0000000000000028 r __kcrctab_nvidia_p2p_free_page_table
000000000000007e r __kstrtab_nvidia_p2p_free_page_table
0000000000000050 r __ksymtab_nvidia_p2p_free_page_table
00000000004bcb10 T nvidia_p2p_free_page_table

[root@vega2 nvidia_peer_memory-1.0-0]# nm /lib/modules/2.6.32-504.el6.x86_64/extra/nv_peer_mem.ko |grep nvidia_p2p_free_page_table    
            U nvidia_p2p_free_page_table

助けてくれてありがとう。ステ。

4

0 に答える 0