음 쿠다에서 공유 메모리랑 글로벌 메모리를 사용할 수 있는데 공유 메모리를 사용하는 편이 온칩으로 훨씬 빠르므로 공유 메모리를 사용해 보겠다. 공유 메모리는 각 블록 안에 있다. 그리드 > 블록 > 스레드 순으로 포함 관계를 갖는다. 그러기 위해서 수업에서는 공유 메모리의 메모리 뱅크를 잘 고려해서 각 스레드가 서로 다른 메모리 뱅크들에 접근하면 뱅크 콘플릭트를 피해서 빠르게 행렬 곱셈을 할 수 있다는 소리. 지피유의 글로벌 메모리에 접근하는 속도가 공유 메모리에 접근하는 속도 보다 100배는 느리다고 한다. 내가 해보려는건 공유 메모리를 사용했을때랑 글로벌 메모리 사용했을때 차이 그리고 cpu에서 했을때 3경우를 비교해 보자. 지금 공유 메모리를 사용하는 코드에서 계산하는 방법은 음 잘 몰라서 이 글을..