SparseLinearAlgebra
diff --git a/‎.gitignore
+4-4 b/‎.gitignore
+4-4
diff --git a/‎cubool/CMakeLists.txt
+13-22 b/‎cubool/CMakeLists.txt
+13-22
diff --git a/‎cubool/sources/cuda/cuda_backend.cu
+6-6 b/‎cubool/sources/cuda/cuda_backend.cu
+6-6
diff --git a/‎cubool/sources/cuda/cuda_backend.hpp
+3-3 b/‎cubool/sources/cuda/cuda_backend.hpp
+3-3
diff --git a/‎cubool/sources/cuda/instance.cpp ‎cubool/sources/cuda/cuda_instance.cpp
+10-10 b/‎cubool/sources/cuda/instance.cpp ‎cubool/sources/cuda/cuda_instance.cpp
+10-10
diff --git a/‎cubool/sources/cuda/instance.cu ‎cubool/sources/cuda/cuda_instance.cu
+8-8 b/‎cubool/sources/cuda/instance.cu ‎cubool/sources/cuda/cuda_instance.cu
+8-8
diff --git a/‎cubool/sources/cuda/instance.hpp ‎cubool/sources/cuda/cuda_instance.hpp
+11-11 b/‎cubool/sources/cuda/instance.hpp ‎cubool/sources/cuda/cuda_instance.hpp
+11-11
diff --git a/‎cubool/sources/cuda/matrix_csr.cu ‎cubool/sources/cuda/cuda_matrix.cu
+14-14 b/‎cubool/sources/cuda/matrix_csr.cu ‎cubool/sources/cuda/cuda_matrix.cu
+14-14
@@ -1,9 +1,9 @@
 # IDE files
-/.idea
+/**/.idea/
 
 # Build files
-/cmake-build-debug
-/build
+/**/cmake-build-debug/
+/**/*build*/
 
 # Python cache
-/**/__pycache__/
+/**/__pycache__/
@@ -69,19 +69,19 @@ if (CUBOOL_WITH_CUDA)
     set(CUBOOL_CUDA_SOURCES
         sources/cuda/cuda_backend.hpp
         sources/cuda/cuda_backend.cu
-        sources/cuda/instance.hpp
-        sources/cuda/instance.cu
-        sources/cuda/instance.cpp
-        sources/cuda/matrix_csr.hpp
-        sources/cuda/matrix_csr.cu
-        sources/cuda/matrix_csr_build.cu
-        sources/cuda/matrix_csr_extract.cu
-        sources/cuda/matrix_csr_ewiseadd.cu
-        sources/cuda/matrix_csr_kronecker.cu
-        sources/cuda/matrix_csr_multiply.cu
-        sources/cuda/matrix_csr_transpose.cu
-        sources/cuda/matrix_csr_reduce.cu
-        sources/cuda/matrix_csr_extract_sub_matrix.cu
+        sources/cuda/cuda_instance.hpp
+        sources/cuda/cuda_instance.cu
+        sources/cuda/cuda_instance.cpp
+        sources/cuda/cuda_matrix.hpp
+        sources/cuda/cuda_matrix.cu
+        sources/cuda/cuda_matrix_build.cu
+        sources/cuda/cuda_matrix_extract.cu
+        sources/cuda/cuda_matrix_ewiseadd.cu
+        sources/cuda/cuda_matrix_kronecker.cu
+        sources/cuda/cuda_matrix_multiply.cu
+        sources/cuda/cuda_matrix_transpose.cu
+        sources/cuda/cuda_matrix_reduce.cu
+        sources/cuda/cuda_matrix_extract_sub_matrix.cu
         sources/cuda/kernels/slow_sort.cuh
         sources/cuda/kernels/bin_search.cuh
         sources/cuda/kernels/sptranspose.cuh
@@ -146,15 +146,6 @@ if (CUBOOL_WITH_CUDA)
     set_target_properties(cubool PROPERTIES CUDA_SEPARABLE_COMPILATION ON)
 
     # Settings: https://arnon.dk/matching-sm-architectures-arch-and-gencode-for-various-nvidia-cards/
-    #target_compile_options(cubool PRIVATE $<$<COMPILE_LANGUAGE:CUDA>:
-    #    # todo: fix this flag later -arch=sm_30 ?
-    #    # todo: can we omit arch flag?
-    #    -gencode=arch=compute_30,code=sm_30
-    #    -gencode=arch=compute_50,code=sm_50
-    #    -gencode=arch=compute_52,code=sm_52
-    #    -gencode=arch=compute_60,code=sm_60
-    #    -gencode=arch=compute_61,code=sm_61
-    #    -gencode=arch=compute_61,code=compute_61>)
 
     target_compile_options(cubool PRIVATE $<$<COMPILE_LANGUAGE:CUDA>: -use_fast_math -Xptxas -O2>)
 
 
@@ -23,15 +23,15 @@
 /**********************************************************************************/
 
 #include <cuda/cuda_backend.hpp>
-#include <cuda/matrix_csr.hpp>
+#include <cuda/cuda_matrix.hpp>
 #include <core/library.hpp>
 #include <io/logger.hpp>
 
 namespace cubool {
 
     void CudaBackend::initialize(hints initHints) {
-        if (Instance::isCudaDeviceSupported()) {
-            mInstance = new Instance(initHints & CUBOOL_HINT_GPU_MEM_MANAGED);
+        if (CudaInstance::isCudaDeviceSupported()) {
+            mInstance = new CudaInstance(initHints & CUBOOL_HINT_GPU_MEM_MANAGED);
         }
 
         // No device. Cannot init this backend
@@ -58,7 +58,7 @@ namespace cubool {
 
     MatrixBase *CudaBackend::createMatrix(size_t nrows, size_t ncols) {
         mMatCount++;
-        return new MatrixCsr(nrows, ncols, getInstance());
+        return new CudaMatrix(nrows, ncols, getInstance());
     }
 
     void CudaBackend::releaseMatrix(MatrixBase *matrixBase) {
@@ -67,10 +67,10 @@ namespace cubool {
     }
 
     void CudaBackend::queryCapabilities(cuBool_DeviceCaps &caps) {
-        Instance::queryDeviceCapabilities(caps);
+        CudaInstance::queryDeviceCapabilities(caps);
     }
 
-    Instance & CudaBackend::getInstance() {
+    CudaInstance & CudaBackend::getInstance() {
         return *mInstance;
     }
 
 
@@ -26,7 +26,7 @@
 #define CUBOOL_CUDA_BACKEND_HPP
 
 #include <backend/backend_base.hpp>
-#include <cuda/instance.hpp>
+#include <cuda/cuda_instance.hpp>
 
 namespace cubool {
 
@@ -45,10 +45,10 @@ namespace cubool {
         void releaseMatrix(MatrixBase *matrixBase) override;
         void queryCapabilities(cuBool_DeviceCaps& caps) override;
 
-        Instance& getInstance();
+        CudaInstance& getInstance();
 
     private:
-        Instance* mInstance;
+        CudaInstance* mInstance;
         size_t mMatCount = 0;
     };
 
 
@@ -22,16 +22,16 @@
 /* SOFTWARE.                                                                      */
 /**********************************************************************************/
 
-#include <cuda/instance.hpp>
+#include <cuda/cuda_instance.hpp>
 #include <core/error.hpp>
 #include <string>
 #include <cstdlib>
 
 namespace cubool {
 
-    volatile Instance* Instance::gInstance = nullptr;
+    volatile CudaInstance* CudaInstance::gInstance = nullptr;
 
-    Instance::Instance(bool useManagedMemory) {
+    CudaInstance::CudaInstance(bool useManagedMemory) {
         gInstance = this;
         mMemoryType = useManagedMemory? Managed: Default;
 
@@ -41,28 +41,28 @@ namespace cubool {
 #endif // CUBOOL_DEBUG
     }
 
-    void Instance::allocate(void* &ptr, size_t size) const {
+    void CudaInstance::allocate(void* &ptr, size_t size) const {
         ptr = malloc(size);
         CHECK_RAISE_ERROR(ptr != nullptr, MemOpFailed, "Failed to allocate memory on the CPU");
         mHostAllocCount++;
     }
 
-    void Instance::deallocate(void* ptr) const {
+    void CudaInstance::deallocate(void* ptr) const {
         CHECK_RAISE_ERROR(ptr != nullptr, InvalidArgument, "Passed null ptr to free");
         free(ptr);
         mHostAllocCount--;
     }
 
-    Instance& Instance::getInstanceRef() {
+    CudaInstance& CudaInstance::getInstanceRef() {
         CHECK_RAISE_ERROR(gInstance != nullptr, InvalidState, "No instance in the system");
-        return (Instance&) *gInstance;
+        return (CudaInstance&) *gInstance;
     }
 
-    Instance* Instance::getInstancePtr() {
-        return (Instance* ) gInstance;
+    CudaInstance* CudaInstance::getInstancePtr() {
+        return (CudaInstance* ) gInstance;
     }
 
-    bool Instance::isInstancePresent() {
+    bool CudaInstance::isInstancePresent() {
         return gInstance != nullptr;
     }
 
 
@@ -22,22 +22,22 @@
 /* SOFTWARE.                                                                      */
 /**********************************************************************************/
 
-#include <cuda/instance.hpp>
-#include <cuda/matrix_dense.hpp>
+#include <cuda/cuda_instance.hpp>
 #include <core/error.hpp>
 #include <string>
+#include <cassert>
 #include <cstring>
 
 namespace cubool {
 
-    Instance::~Instance() {
+    CudaInstance::~CudaInstance() {
         assert(mHostAllocCount == 0);
         assert(mDeviceAllocCount == 0);
 
         gInstance = nullptr;
     }
 
-    void Instance::allocateOnGpu(void* &ptr, size_t size) const {
+    void CudaInstance::allocateOnGpu(void* &ptr, size_t size) const {
         cudaError error;
 
         switch (mMemoryType) {
@@ -59,7 +59,7 @@ namespace cubool {
         mDeviceAllocCount++;
     }
 
-    void Instance::deallocateOnGpu(void* ptr) const {
+    void CudaInstance::deallocateOnGpu(void* ptr) const {
         cudaError error = cudaFree(ptr);
 
         if (error != cudaSuccess) {
@@ -70,7 +70,7 @@ namespace cubool {
         mDeviceAllocCount--;
     }
 
-    void Instance::syncHostDevice() const {
+    void CudaInstance::syncHostDevice() const {
         cudaError error = cudaDeviceSynchronize();
 
         if (error != cudaSuccess) {
@@ -79,13 +79,13 @@ namespace cubool {
         }
     }
 
-    bool Instance::isCudaDeviceSupported() {
+    bool CudaInstance::isCudaDeviceSupported() {
         int device;
         cudaError error = cudaGetDevice(&device);
         return error == cudaSuccess;
     }
 
-    void Instance::queryDeviceCapabilities(cuBool_DeviceCaps &deviceCaps) {
+    void CudaInstance::queryDeviceCapabilities(cuBool_DeviceCaps &deviceCaps) {
         const unsigned long long KiB = 1024;
 
         int device;
 
@@ -22,8 +22,8 @@
 /* SOFTWARE.                                                                      */
 /**********************************************************************************/
 
-#ifndef CUBOOL_INSTANCE_HPP
-#define CUBOOL_INSTANCE_HPP
+#ifndef CUBOOL_CUDA_INSTANCE_HPP
+#define CUBOOL_CUDA_INSTANCE_HPP
 
 #include <core/config.hpp>
 #include <unordered_set>
@@ -33,17 +33,17 @@ namespace cubool {
     /**
      * Manages global state for various internal operations.
      */
-    class Instance {
+    class CudaInstance {
     public:
         enum MemType {
             Default,
             Managed
         };
 
-        explicit Instance(bool useManagedMemory);
-        Instance(const Instance& other) = delete;
-        Instance(Instance&& other) noexcept = delete;
-        ~Instance();
+        explicit CudaInstance(bool useManagedMemory);
+        CudaInstance(const CudaInstance& other) = delete;
+        CudaInstance(CudaInstance&& other) noexcept = delete;
+        ~CudaInstance();
 
         // For custom host & device allocators
         void allocate(void* &ptr, size_t s) const;
@@ -55,18 +55,18 @@ namespace cubool {
 
         static bool isCudaDeviceSupported();
         static void queryDeviceCapabilities(cuBool_DeviceCaps& deviceCaps);
-        static Instance& getInstanceRef();
-        static Instance* getInstancePtr();
+        static CudaInstance& getInstanceRef();
+        static CudaInstance* getInstancePtr();
         static bool isInstancePresent();
 
     private:
         MemType mMemoryType = Default;
         mutable size_t mHostAllocCount = 0;
         mutable size_t mDeviceAllocCount = 0;
 
-        static volatile Instance* gInstance;
+        static volatile CudaInstance* gInstance;
     };
 
 }
 
-#endif //CUBOOL_INSTANCE_HPP
+#endif //CUBOOL_CUDA_INSTANCE_HPP
@@ -22,24 +22,24 @@
 /* SOFTWARE.                                                                      */
 /**********************************************************************************/
 
-#include <cuda/matrix_csr.hpp>
+#include <cuda/cuda_matrix.hpp>
 #include <core/error.hpp>
 #include <utils/timer.hpp>
 #include <algorithm>
 
 namespace cubool {
 
-    MatrixCsr::MatrixCsr(size_t nrows, size_t ncols, Instance &instance) : mInstance(instance) {
+    CudaMatrix::CudaMatrix(size_t nrows, size_t ncols, CudaInstance &instance) : mInstance(instance) {
         mNrows = nrows;
         mNcols = ncols;
     }
 
-    void MatrixCsr::setElement(index i, index j) {
+    void CudaMatrix::setElement(index i, index j) {
         RAISE_ERROR(NotImplemented, "This function is not supported for this matrix class");
     }
 
-    void MatrixCsr::clone(const MatrixBase &otherBase) {
-        auto other = dynamic_cast<const MatrixCsr*>(&otherBase);
+    void CudaMatrix::clone(const MatrixBase &otherBase) {
+        auto other = dynamic_cast<const CudaMatrix*>(&otherBase);
 
         CHECK_RAISE_ERROR(other != nullptr, InvalidArgument, "Passed matrix does not belong to csr matrix class");
         CHECK_RAISE_ERROR(other != this, InvalidArgument, "Matrices must differ");
@@ -58,14 +58,14 @@ namespace cubool {
         this->mMatrixImpl = other->mMatrixImpl;
     }
 
-    void MatrixCsr::resizeStorageToDim() const {
+    void CudaMatrix::resizeStorageToDim() const {
         if (mMatrixImpl.is_zero_dim()) {
             // If actual storage was not allocated, allocate one for an empty matrix
             mMatrixImpl = std::move(MatrixImplType(mNrows, mNcols));
         }
     }
 
-    void MatrixCsr::clearAndResizeStorageToDim() const {
+    void CudaMatrix::clearAndResizeStorageToDim() const {
         if (mMatrixImpl.m_vals > 0) {
             // Release only if have some nnz values
             mMatrixImpl.zero_dim();
@@ -75,27 +75,27 @@ namespace cubool {
         this->resizeStorageToDim();
     }
 
-    index MatrixCsr::getNrows() const {
+    index CudaMatrix::getNrows() const {
         return mNrows;
     }
 
-    index MatrixCsr::getNcols() const {
+    index CudaMatrix::getNcols() const {
         return mNcols;
     }
 
-    index MatrixCsr::getNvals() const {
+    index CudaMatrix::getNvals() const {
         return mMatrixImpl.m_vals;
     }
 
-    bool MatrixCsr::isStorageEmpty() const {
+    bool CudaMatrix::isStorageEmpty() const {
         return mMatrixImpl.is_zero_dim();
     }
 
-    bool MatrixCsr::isMatrixEmpty() const {
+    bool CudaMatrix::isMatrixEmpty() const {
         return mMatrixImpl.m_vals == 0;
     }
 
-    void MatrixCsr::transferToDevice(const std::vector<index> &rowOffsets, const std::vector<index> &colIndices) const {
+    void CudaMatrix::transferToDevice(const std::vector<index> &rowOffsets, const std::vector<index> &colIndices) const {
         // Create device buffers and copy data from the cpu side
         thrust::device_vector<index, DeviceAlloc<index>> rowsDeviceVec(rowOffsets.size());
         thrust::device_vector<index, DeviceAlloc<index>> colsDeviceVec(colIndices.size());
@@ -107,7 +107,7 @@ namespace cubool {
         mMatrixImpl = std::move(MatrixImplType(std::move(colsDeviceVec), std::move(rowsDeviceVec), getNrows(), getNcols(), colIndices.size()));
     }
 
-    void MatrixCsr::transferFromDevice(std::vector<index> &rowOffsets, std::vector<index> &colIndices) const {
+    void CudaMatrix::transferFromDevice(std::vector<index> &rowOffsets, std::vector<index> &colIndices) const {
         rowOffsets.resize(mMatrixImpl.m_row_index.size());
         colIndices.resize(mMatrixImpl.m_col_index.size());