2

私のテストでは、10 GB ネットワークでパフォーマンスの壁にぶつかっているようです。毎秒 180 ~ 200k を超えるパケットを読み取ることができないようです。perfmon、またはタスク マネージャーを見ると、1 秒あたり最大 100 万パケットを受信できます。1 ソケットまたは 10 または 100 ソケットをテストしても、1 秒あたり 200 ~ 300k パケットというこの制限は変わらないようです。私は RSS などをいじりましたが、成功しませんでした。ユニキャストとマルチキャストは問題ではないようです。重複した i/o と同期も違いはありません。パケットのサイズも問題ありません。ウィンドウがNICからバッファにコピーできるパケット数には厳しい制限があるようです。デルのr410です。何か案は?

#include "stdafx.h"

#include <WinSock2.h>
#include <ws2ipdef.h>

static inline void fillAddr(const char* const address, unsigned short port, sockaddr_in &addr)
{
    memset( &addr, 0, sizeof( addr ) );
    addr.sin_family = AF_INET;
    addr.sin_addr.s_addr = inet_addr( address );
    addr.sin_port = htons(port);
}

int _tmain(int argc, _TCHAR* argv[])
{
#ifdef _WIN32
    WORD wVersionRequested;
    WSADATA wsaData;
    int err;

    wVersionRequested = MAKEWORD( 1, 1 );

    err = WSAStartup( wVersionRequested, &wsaData );
#endif
    int error = 0;
    const char* sInterfaceIP = "10.20.16.90";
    int nInterfacePort = 0;

    //Create socket
    SOCKET m_socketID = socket( AF_INET, SOCK_DGRAM, IPPROTO_UDP );

    //Re use address
    struct sockaddr_in addr;
    fillAddr( "10.20.16.90", 12400, addr ); //"233.43.202.1"

    char one = 1;
    //error = setsockopt(m_socketID, SOL_SOCKET, SO_REUSEADDR , &one, sizeof(one));
    if( error != 0 )
    {
        fprintf( stderr, "%s: ERROR setsockopt returned %d.\n", __FUNCTION__, WSAGetLastError() );
    }

    //Bind
    error = bind( m_socketID, reinterpret_cast<SOCKADDR*>( &addr ), sizeof( addr ) );

    if( error == -1 )
    {
        fprintf(stderr, "%s: ERROR %d binding to %s:%d\n",
            __FUNCTION__, WSAGetLastError(), sInterfaceIP, nInterfacePort);
    }

    //Join multicast group
    struct ip_mreq mreq;
    mreq.imr_multiaddr.s_addr = inet_addr("225.2.3.13");//( "233.43.202.1" );
    mreq.imr_interface.s_addr = inet_addr("10.20.16.90");

    //error = setsockopt( m_socketID, IPPROTO_IP, IP_ADD_MEMBERSHIP, reinterpret_cast<char*>( &mreq ), sizeof( mreq ) );

    if (error == -1)
    {
        fprintf(stderr, "%s: ERROR %d trying to join group %s.\n", __FUNCTION__, WSAGetLastError(), "233.43.202.1"  );
    }

    int bufSize = 0, len = sizeof(bufSize), nBufferSize = 10*1024*1024;//8192*1024;

    //Resize the buffer
    getsockopt(m_socketID, SOL_SOCKET, SO_RCVBUF, (char*)&bufSize, &len );
    fprintf(stderr, "getsockopt size before %d\n", bufSize );


    fprintf(stderr, "setting buffer size %d\n", nBufferSize );

    error =  setsockopt(m_socketID, SOL_SOCKET, SO_RCVBUF,
        reinterpret_cast<const char*>( &nBufferSize ), sizeof( nBufferSize ) );
    if( error != 0 )
    {
        fprintf(stderr, "%s: ERROR %d setting the receive buffer size to %d.\n",
            __FUNCTION__, WSAGetLastError(), nBufferSize );
    }

    bufSize = 1234, len = sizeof(bufSize);
    getsockopt(m_socketID, SOL_SOCKET, SO_RCVBUF, (char*)&bufSize, &len );
    fprintf(stderr, "getsockopt size after %d\n", bufSize );

    //Non-blocking
    u_long op = 1;
    ioctlsocket( m_socketID, FIONBIO, &op );

    //Create IOCP
    HANDLE iocp = CreateIoCompletionPort( INVALID_HANDLE_VALUE, NULL, NULL, 1 );
    HANDLE iocp2 = CreateIoCompletionPort( (HANDLE)m_socketID, iocp, 5, 1 );

    char buffer[2*1024]={0};

    int r = 0;

    OVERLAPPED overlapped; 
    memset(&overlapped, 0, sizeof(overlapped));

    DWORD bytes = 0, flags = 0;
//  WSABUF buffers[1];
//
//  buffers[0].buf = buffer;
//  buffers[0].len = sizeof(buffer);
//
//  while( (r = WSARecv( m_socketID, buffers, 1, &bytes, &flags, &overlapped, NULL )) != -121 )
    //sleep(100000);
    while( (r = ReadFile( (HANDLE)m_socketID, buffer, sizeof(buffer), NULL, &overlapped )) != -121 )
    {
        bytes = 0;
        ULONG_PTR key = 0;
        LPOVERLAPPED pOverlapped;

        if( GetQueuedCompletionStatus( iocp, &bytes, &key, &pOverlapped, INFINITE ) )
        {
            static unsigned __int64 total = 0, printed = 0;

            total += bytes;

            if( total - printed > (1024*1024) )
            {
                printf( "%I64dmb\r", printed/ (1024*1024) );
                printed = total;
            }
        }

    }

    while( r = recv(m_socketID,buffer,sizeof(buffer),0) )
    {
        static unsigned int total = 0, printed = 0;

        if( r > 0 )
        {
            total += r;

            if( total - printed > (1024*1024) )
            {
                printf( "%dmb\r", printed/ (1024*1024) );
                printed = total;
            }
        }
    }

    return 0;
}

送信者として Iperf を使用し、受信したデータの量と送信したデータの量を比較しています:

編集: iperf to iperf を実行すると、パフォーマンスは 180k に近くなり、ドロップすることはありません (8 MB のクライアント側バッファー)。tcp を実行している場合、約 200k パケット/秒を実行できます。ただし、興味深いのは、複数の tcp 接続で 200k をはるかに超えることができますが、複数の udp 接続で合計が増加することはありません (複数のスレッドで単一の iperf が機能しないように見えるため、複数の iperfs で udp のパフォーマンスをテストします)。すべてのハードウェア アクセラレーションがドライバーでオンになっています。

4

1 に答える 1

2

Windows 8 Server でWinsock Registered I/O ネットワーク拡張機能 RIOを使用することで得られるパフォーマンスの向上を調査するため、同様のハードウェアでいくつかの UDP テストを行ってきました。このために、私は Windows Server 2008 R2 と Windows Server 8 でテストを実行してきました。

10Gb カードでテストを開始するところまではまだ到達していませんが (まだ到着したばかりです)、以前のテストの結果と、それらを実行するために使用したサンプル プログラムは、こちらのブログで見つけることができます。

私が提案するかもしれないことの1つは、各データグラムに対して行われる作業がほとんどない場合に示すような単純なテストでは、昔ながらの同期I/OがIOCP設計よりも高速であることがわかるかもしれないということです. 一方、IOCP 設計は、データグラムあたりのワークロードが増加するにつれて一歩先を行き、複数のスレッドを十分に活用できます。

また、テスト マシンは背中合わせに配線されていますか (つまり、スイッチなしで)、またはスイッチを介して実行されていますか。もしそうなら、問題はテスト マシンではなく、スイッチのパフォーマンスにあるのでしょうか? スイッチを使用している場合、またはサーバーに複数の nic がある場合、サーバーに対して複数のクライアントを実行できますか? 問題はサーバーではなくクライアントにある可能性がありますか?

送信側と受信側のマシンの CPU 使用率はどのくらいですか? Process Explorer でマシンの CPU 使用率を確認しましたか? これは、タスク マネージャーよりも正確です。どの CPU が nic 割り込みを処理していますか?これらを別の CPU にバインドすることで改善できますか? または、テスト プログラムのアフィニティを別の CPU で実行するように変更しますか? IOCP の例では、スレッドが複数の NUMA ノードに分散されていますか?それとも、それらすべてを 1 つのノードにロックしていますか?

来週、さらにいくつかのテストを実行したいと考えており、実行したら回答を更新します。

編集:私にとって問題は、NICドライバーが「フロー制御」を有効にしていたため、送信者が受信者の速度で実行されたためでした。これには、望ましくない「非ページ プール」の使用特性がいくつかあり、フロー制御をオフにすると、送信側の速度を確認できます (また、送信側と受信側のネットワーク使用率の差は、どれだけのデータが失われているかを明確に示しています)。詳細については、こちらのブログ投稿を参照してください。

于 2012-05-12T08:15:47.213 に答える