web-dev-qa-db-ja.com

MPIを介した2D配列の送受信

私が解決しようとしている問題は次のとおりです:

私が持っているC++シリアルコードは、大きな2Dマトリックス全体で計算されます。このプロセスを最適化するには、この大きな2Dマトリックスを分割し、MPIを使用して(たとえば)4つのノードで実行します。ノード間で行われる唯一の通信は、各タイムステップの終了時にエッジ値を共有することです。すべてのノードは、エッジ配列データA [i] [j]を隣接ノードと共有します。

MPIについて読んだことに基づいて、私は次のスキームを実装する必要があります。

if (myrank == 0)
{
 for (i= 0 to x)
 for (y= 0 to y)
 {
  C++ CODE IMPLEMENTATION 
  .... 
  MPI_SEND(A[x][0], A[x][1], A[x][2], Destination= 1.....)
  MPI_RECEIVE(B[0][0], B[0][1]......Sender = 1.....)
  MPI_BARRIER
}

if (myrank == 1)
{
for (i = x+1 to xx)
for (y = 0 to y)
{
 C++ CODE IMPLEMENTATION
 ....
 MPI_SEND(B[x][0], B[x][1], B[x][2], Destination= 0.....)
 MPI_RECEIVE(A[0][0], A[0][1]......Sender = 1.....)
 MPI BARRIER
}

私のアプローチが正しいかどうかを知りたかったし、他のMPI関数のガイダンスも実装を検討する必要があります。

ありがとう、アシュウィン。

21
Ashmohan

ジョエルのポイントを少し強調するだけです:

配列を隣接するように割り当てると、これははるかに簡単になります(Cの「多次元配列」では自動的に提供されません:)。

int **alloc_2d_int(int rows, int cols) {
    int *data = (int *)malloc(rows*cols*sizeof(int));
    int **array= (int **)malloc(rows*sizeof(int*));
    for (int i=0; i<rows; i++)
        array[i] = &(data[cols*i]);

    return array;
}

/*...*/
int **A;
/*...*/
A = alloc_2d_init(N,M);

次に、NxMアレイ全体の送受信を行うことができます

MPI_Send(&(A[0][0]), N*M, MPI_INT, destination, tag, MPI_COMM_WORLD);

そして、あなたが終わったら、でメモリを解放してください

free(A[0]);
free(A);

また、MPI_Recvはブロッキング受信であり、MPI_Sendはブロッキング送信にすることができます。つまり、Joelのポイントによると、間違いなくバリアは必要ありません。さらに、上記の送信/受信パターンがある場合、デッドロック状態になる可能性があることを意味します-誰もが送信していて、誰も受信していません。より安全です:

if (myrank == 0) {
   MPI_Send(&(A[0][0]), N*M, MPI_INT, 1, tagA, MPI_COMM_WORLD);
   MPI_Recv(&(B[0][0]), N*M, MPI_INT, 1, tagB, MPI_COMM_WORLD, &status);
} else if (myrank == 1) {
   MPI_Recv(&(A[0][0]), N*M, MPI_INT, 0, tagA, MPI_COMM_WORLD, &status);
   MPI_Send(&(B[0][0]), N*M, MPI_INT, 0, tagB, MPI_COMM_WORLD);
}

より一般的なもう1つの方法は、MPI_Sendrecvを使用することです。

int *sendptr, *recvptr;
int neigh = MPI_PROC_NULL;

if (myrank == 0) {
   sendptr = &(A[0][0]);
   recvptr = &(B[0][0]);
   neigh = 1;
} else {
   sendptr = &(B[0][0]);
   recvptr = &(A[0][0]);
   neigh = 0;
}
MPI_Sendrecv(sendptr, N*M, MPI_INT, neigh, tagA, recvptr, N*M, MPI_INT, neigh, tagB, MPI_COMM_WORLD, &status);

またはノンブロッキング送信および/または受信。

36
Jonathan Dursi

まず、それほど多くのバリアは必要ありません。次に、実際にデータを単一のブロックとして送信する必要があります。複数の送受信ブロックを行うと、パフォーマンスが低下します。

4
Joel Falcou