- 14 8月, 2014 2 次提交
-
-
由 abergeron 提交于
Extend documentation (plus small fix)
-
由 Pascal Lamblin 提交于
-
- 13 8月, 2014 38 次提交
-
-
由 Pascal Lamblin 提交于
Add a blocksparse multiplication implementation
-
由 Pascal Lamblin 提交于
Remove the restriction on indexing a broadcastable dimension.
-
由 abergeron 提交于
@as_op() documentation
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
This should help older GPUs run at all and newer GPUs fit more blocks on one SM. With this change the code is cc 2.0+ compatible. But it will only be fast on cc 3.0+ cards (due to atomicAdd).
-
由 Arnaud Bergeron 提交于
Also some small kernel speedups elsewhere.
-
由 Arnaud Bergeron 提交于
Also address some other issues that came up in code review.
-
由 Arnaud Bergeron 提交于
Remove the beta parameter since it's always 1 anyway.
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
a dependecy on scikits.cuda and pycuda.
-
由 Arnaud Bergeron 提交于
Update docs to reflect batches and add some fallback code to add batches of 1 to non-batched version.
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-
由 Arnaud Bergeron 提交于
-