Déjà terminé mon application qui multiplie la matrice CRS et le vecteur (SpMV) et la seule chose à faire maintenant est de compter FLOPS mon application a fait. À mon avis, il est vraiment difficile d'estimer le nombre d'opérations à virgule flottante dans le cas d'une multiplication de matrice-vecteur clairsemée, parce que le nombre de multiplications dans une rangée est vraiment «nerveux» ou fluide.Comptage FLOPS/GFLOPS dans le programme - CUDA
J'ai seulement essayé de mesurer le temps en utilisant "cudaprof" (disponible dans le répertoire ./CUDA/bin) - cela fonctionne bien.
Toutes les suggestions et les instructions sont appréciées!