Make GpuDnnConv support inplace operation.

08957330 · Arnaud Bergeron · 065e0f5e · 08957330 · 08957330 · 08957330
--- a/theano/sandbox/cuda/cudnn_helper.h
+++ b/theano/sandbox/cuda/cudnn_helper.h
@@ -103,11 +103,11 @@ cudnnConvolutionForward_v2(
  const cudnnTensorDescriptor_t destDesc,
  void *destData) {
  assert(*(float *)alpha == 1.0);
-  assert(*(float *)beta == 0.0);
+  assert(*(float *)beta == 1.0);
  return cudnnConvolutionForward(handle, srcDesc, srcData,
 				 filterDesc, filterData,
 				 convDesc, destDesc, destData,
-				 CUDNN_RESULT_NO_ACCUMULATE);
+				 CUDNN_RESULT_ACCUMULATE);
 }
 #define cudnnConvolutionForward cudnnConvolutionForward_v2
@@ -124,11 +124,11 @@ cudnnConvolutionBackwardFilter_v2(
  const cudnnFilterDescriptor_t gradDesc,
  void *gradData) {
  assert(*(float *)alpha == 1.0);
-  assert(*(float *)beta == 0.0);
+  assert(*(float *)beta == 1.0);
  return cudnnConvolutionBackwardFilter(handle, srcDesc, srcData,
 					diffDesc, diffData,
 					convDesc, gradDesc, gradData,
-					CUDNN_RESULT_NO_ACCUMULATE);
+					CUDNN_RESULT_ACCUMULATE);
 }
 #define cudnnConvolutionBackwardFilter cudnnConvolutionBackwardFilter_v2
@@ -146,7 +146,7 @@ cudnnConvolutionBackwardData_v2(
  const cudnnTensorDescriptor_t gradDesc,
  void *gradData) {
  assert(*(float *)alpha == 1.0);
-  assert(*(float *)beta == 0.0);
+  assert(*(float *)beta == 1.0);
  return cudnnConvolutionBackwardData(handle,
 				      (cudnnFilterDescriptor_t)filterDesc,
 				      filterData,
@@ -155,7 +155,7 @@ cudnnConvolutionBackwardData_v2(
 				      (cudnnConvolutionDescriptor_t)convDesc,
 				      (cudnnTensorDescriptor_t)gradDesc,
 				      gradData,
-				      CUDNN_RESULT_NO_ACCUMULATE);
+				      CUDNN_RESULT_ACCUMULATE);
 }
 #define cudnnConvolutionBackwardData cudnnConvolutionBackwardData_v2

--- a/theano/sandbox/cuda/dnn.py
+++ b/theano/sandbox/cuda/dnn.py
--- a/theano/sandbox/cuda/dnn_fwd.c
+++ b/theano/sandbox/cuda/dnn_fwd.c
@@ -2,9 +2,8 @@
 int
 APPLY_SPECIFIC(conv_fwd)(CudaNdarray *input, CudaNdarray *kerns,
-                         cudnnConvolutionDescriptor_t desc,
+                         CudaNdarray *om, cudnnConvolutionDescriptor_t desc,
-                         float alpha, float beta,
+                         float alpha, CudaNdarray **output) {
-                         CudaNdarray **output) {
  cudnnStatus_t err = CUDNN_STATUS_SUCCESS;
  if (c_set_tensor4d(input, APPLY_SPECIFIC(input)) == -1)
@@ -12,23 +11,16 @@ APPLY_SPECIFIC(conv_fwd)(CudaNdarray *input, CudaNdarray *kerns,
  if (c_set_filter(kerns, APPLY_SPECIFIC(kerns)) == -1)
    return 1;
-  {
+#ifdef CONV_INPLACE
-    int out_dims[4];
+  Py_XDECREF(*output);
-    err = cudnnGetConvolution2dForwardOutputDim(
+  *output = om;
-      desc,
+  Py_INCREF(*output);
-      APPLY_SPECIFIC(input),
+#else
-      APPLY_SPECIFIC(kerns),
+  if (CudaNdarray_prep_output(output, 4, CudaNdarray_HOST_DIMS(om)) != 0)
-      &out_dims[0], &out_dims[1], &out_dims[2], &out_dims[3]);
-    if (err != CUDNN_STATUS_SUCCESS) {
-      PyErr_Format(PyExc_RuntimeError,
-		   "GpuDnnConv: error while computing the output shape: %s",
-		   cudnnGetErrorString(err));
    return 1;
-    }
+  if (CudaNdarray_CopyFromCudaNdarray(*output, om))
-    if (CudaNdarray_prep_output(output, 4, out_dims) != 0) {
    return 1;
-    }
+#endif
-  }
  if (c_set_tensor4d(*output, APPLY_SPECIFIC(output)) == -1)
    return 1;
@@ -55,6 +47,8 @@ APPLY_SPECIFIC(conv_fwd)(CudaNdarray *input, CudaNdarray *kerns,
    if (workspace == NULL && worksize != 0)
      return 1;
+    const float beta = 1;
    err = cudnnConvolutionForward(
      _handle,
      (void *)&alpha,

--- a/theano/sandbox/cuda/dnn_gi.c
+++ b/theano/sandbox/cuda/dnn_gi.c
@@ -2,9 +2,8 @@
 int
 APPLY_SPECIFIC(conv_gi)(CudaNdarray *kerns, CudaNdarray *output,
-			cudnnConvolutionDescriptor_t desc,
+                        CudaNdarray *im, cudnnConvolutionDescriptor_t desc,
-			int h, int w, float alpha, float beta,
+                        float alpha, CudaNdarray **input) {
-			CudaNdarray **input) {
  cudnnStatus_t err = CUDNN_STATUS_SUCCESS;
  if (c_set_tensor4d(output, APPLY_SPECIFIC(output)) == -1)
@@ -12,21 +11,22 @@ APPLY_SPECIFIC(conv_gi)(CudaNdarray *kerns, CudaNdarray *output,
  if (c_set_filter(kerns, APPLY_SPECIFIC(kerns)) == -1)
    return 1;
-  {
+#ifdef CONV_INPLACE
-    int out_dims[4];
+  Py_XDECREF(*input);
-    out_dims[0] = CudaNdarray_HOST_DIMS(output)[0];
+  *input = im;
-    out_dims[1] = CudaNdarray_HOST_DIMS(kerns)[1];
+  Py_INCREF(*input);
-    out_dims[2] = h;
+#else
-    out_dims[3] = w;
+  if (CudaNdarray_prep_output(input, 4, CudaNdarray_HOST_DIMS(im)) != 0)
-    if (CudaNdarray_prep_output(input, 4, out_dims) != 0) {
    return 1;
-    }
+  if (CudaNdarray_CopyFromCudaNdarray(*input, im))
-  }
+    return 1;
+#endif
  if (c_set_tensor4d(*input, APPLY_SPECIFIC(input)) == -1)
    return 1;
-  {
+  const float beta = 1;
  err = cudnnConvolutionBackwardData(
    _handle,
    (void *)&alpha,
@@ -35,7 +35,6 @@ APPLY_SPECIFIC(conv_gi)(CudaNdarray *kerns, CudaNdarray *output,
    desc,
    (void *)&beta,
    APPLY_SPECIFIC(input), CudaNdarray_DEV_DATA(*input));
-  }
  if (err != CUDNN_STATUS_SUCCESS) {
    PyErr_Format(PyExc_RuntimeError, "GpuDnnConvGradI: error doing operation: %s",
                 cudnnGetErrorString(err));

--- a/theano/sandbox/cuda/dnn_gw.c
+++ b/theano/sandbox/cuda/dnn_gw.c
@@ -2,9 +2,8 @@
 int 
 APPLY_SPECIFIC(conv_gw)(CudaNdarray *input, CudaNdarray *output,
-			cudnnConvolutionDescriptor_t desc,
+                        CudaNdarray *km, cudnnConvolutionDescriptor_t desc,
-			int h, int w, float alpha, float beta,
+                        float alpha, CudaNdarray **kerns) {
-			CudaNdarray **kerns) {
  cudnnStatus_t err = CUDNN_STATUS_SUCCESS;
  if (c_set_tensor4d(input, APPLY_SPECIFIC(input)) == -1)
@@ -12,21 +11,22 @@ APPLY_SPECIFIC(conv_gw)(CudaNdarray *input, CudaNdarray *output,
  if (c_set_tensor4d(output, APPLY_SPECIFIC(output)) == -1)
    return 1;
-  {
+#ifdef CONV_INPLACE
-    int out_dims[4];
+  Py_XDECREF(*kerns);
-    out_dims[0] = CudaNdarray_HOST_DIMS(output)[1];
+  *kerns = km;
-    out_dims[1] = CudaNdarray_HOST_DIMS(input)[1];
+  Py_INCREF(*kerns);
-    out_dims[2] = h;
+#else
-    out_dims[3] = w;
+  if (CudaNdarray_prep_output(kerns, 4, CudaNdarray_HOST_DIMS(km)) != 0)
-    if (CudaNdarray_prep_output(kerns, 4, out_dims) != 0) {
    return 1;
-    }
+  if (CudaNdarray_CopyFromCudaNdarray(*kerns, km))
-  }
+    return 1;
+#endif
  if (c_set_filter(*kerns, APPLY_SPECIFIC(kerns)) == -1)
    return 1;
-  {
+  const float beta = 1;
  err = cudnnConvolutionBackwardFilter(
    _handle,
    (void *)&alpha,
@@ -35,7 +35,6 @@ APPLY_SPECIFIC(conv_gw)(CudaNdarray *input, CudaNdarray *output,
    desc,
    (void *)&beta,
    APPLY_SPECIFIC(kerns), CudaNdarray_DEV_DATA(*kerns));
-  }
  if (err != CUDNN_STATUS_SUCCESS) {
    PyErr_Format(PyExc_RuntimeError, "GpuDnnConvGradW: error doing operation: %s",
                 cudnnGetErrorString(err));