cuda作為gpu計(jì)算中的代表,擁有著超級(jí)高的計(jì)算效率,其原因是gpu實(shí)際相當(dāng)與一臺(tái)超級(jí)并行機(jī)組,使用過(guò)MPI做并行計(jì)算的人們可能知道,所謂的并行計(jì)算,簡(jiǎn)單講就是用多個(gè)U(計(jì)算單元)來(lái)完成一個(gè)U的計(jì)算任務(wù),MPI中將其叫做核,我們知道一個(gè)cpu有一個(gè)或2,4,8個(gè)核,超級(jí)厲害的也就16個(gè)吧,原來(lái)人們?yōu)榱俗龃笠?guī)模的并行計(jì)算,將一大堆cpu裝在柜子里,組成計(jì)算集群,但是那種設(shè)備大的嚇人,而且又有多少人會(huì)用呢。gpu則不同,一個(gè)小小的芯片上就存在著成千上萬(wàn)的線程,是由分為grid,block,thread三級(jí)結(jié)構(gòu)實(shí)現(xiàn)的。(本人初學(xué)者,學(xué)到哪寫到哪,借鑒需謹(jǐn)慎)
所謂的并行計(jì)算,就是用多個(gè)計(jì)算單元共同完成一個(gè)計(jì)算任務(wù),那這有什么難度呢,這在生活中很常見(jiàn)啊,似乎沒(méi)什么可學(xué)的,可以想象我們?cè)煲蛔孔樱覀円乙欢讶诉^(guò)來(lái),然后分配下任務(wù),這里面有人做墻,有人做地板,屋頂?shù)鹊劝桑缓笠宦暳钕麻_(kāi)始吧,大家各司其職,把自己那部分做好,房子就做好了。但是事情沒(méi)有那么簡(jiǎn)單,這個(gè)過(guò)程中存在很多問(wèn)題會(huì)影響效率,甚至結(jié)果。比如說(shuō)做墻的人要用錘子,但是錘子在被其他人占用著,怎么辦;做地板的把地做好了,但是又被做墻的人給不小心砸壞了;下面的結(jié)構(gòu)還沒(méi)做好,就有人來(lái)裝屋頂了等等。這時(shí)就需要一個(gè)精確的管理方案,而這個(gè)管理方案就是所有并行API需要做的事。例如后面會(huì)學(xué)到的共享內(nèi)存,同步等知識(shí)。目前看到書就是cuda by example了,很適合入門,看的很愉快。下面就開(kāi)始了,什么hello world就不寫了,直接學(xué)干貨了。
1 /* 2 * Copyright 1993-2010 NVIDIA Corporation. All rights reserved. 3 * 4 * NVIDIA Corporation and its licensors retain all intellectual property and 5 * proprietary rights in and to this software and related documentation. 6 * Any use, reproduction, disclosure, or distribution of this software 7 * and related documentation without an express license agreement from 8 * NVIDIA Corporation is strictly prohibited. 9 *10 * Please refer to the applicable NVIDIA end&