markdown/cuda.html

<!DOCTYPE html><html><head>
      <title>cuda</title>
      <meta charset="utf-8">
      <meta name="viewport" content="width=device-width, initial-scale=1.0">
      
      <link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/katex@0.13.11/dist/katex.min.css">
      
      
      <style>
      /**
 * prism.js Github theme based on GitHub's theme.
 * @author Sam Clarke
 */
code[class*="language-"],
pre[class*="language-"] {
  color: #333;
  background: none;
  font-family: Consolas, "Liberation Mono", Menlo, Courier, monospace;
  text-align: left;
  white-space: pre;
  word-spacing: normal;
  word-break: normal;
  word-wrap: normal;
  line-height: 1.4;

  -moz-tab-size: 8;
  -o-tab-size: 8;
  tab-size: 8;

  -webkit-hyphens: none;
  -moz-hyphens: none;
  -ms-hyphens: none;
  hyphens: none;
}

/* Code blocks */
pre[class*="language-"] {
  padding: .8em;
  overflow: auto;
  /* border: 1px solid #ddd; */
  border-radius: 3px;
  /* background: #fff; */
  background: #f5f5f5;
}

/* Inline code */
:not(pre) > code[class*="language-"] {
  padding: .1em;
  border-radius: .3em;
  white-space: normal;
  background: #f5f5f5;
}

.token.comment,
.token.blockquote {
  color: #969896;
}

.token.cdata {
  color: #183691;
}

.token.doctype,
.token.punctuation,
.token.variable,
.token.macro.property {
  color: #333;
}

.token.operator,
.token.important,
.token.keyword,
.token.rule,
.token.builtin {
  color: #a71d5d;
}

.token.string,
.token.url,
.token.regex,
.token.attr-value {
  color: #183691;
}

.token.property,
.token.number,
.token.boolean,
.token.entity,
.token.atrule,
.token.constant,
.token.symbol,
.token.command,
.token.code {
  color: #0086b3;
}

.token.tag,
.token.selector,
.token.prolog {
  color: #63a35c;
}

.token.function,
.token.namespace,
.token.pseudo-element,
.token.class,
.token.class-name,
.token.pseudo-class,
.token.id,
.token.url-reference .token.variable,
.token.attr-name {
  color: #795da3;
}

.token.entity {
  cursor: help;
}

.token.title,
.token.title .token.punctuation {
  font-weight: bold;
  color: #1d3e81;
}

.token.list {
  color: #ed6a43;
}

.token.inserted {
  background-color: #eaffea;
  color: #55a532;
}

.token.deleted {
  background-color: #ffecec;
  color: #bd2c00;
}

.token.bold {
  font-weight: bold;
}

.token.italic {
  font-style: italic;
}


/* JSON */
.language-json .token.property {
  color: #183691;
}

.language-markup .token.tag .token.punctuation {
  color: #333;
}

/* CSS */
code.language-css,
.language-css .token.function {
  color: #0086b3;
}

/* YAML */
.language-yaml .token.atrule {
  color: #63a35c;
}

code.language-yaml {
  color: #183691;
}

/* Ruby */
.language-ruby .token.function {
  color: #333;
}

/* Markdown */
.language-markdown .token.url {
  color: #795da3;
}

/* Makefile */
.language-makefile .token.symbol {
  color: #795da3;
}

.language-makefile .token.variable {
  color: #183691;
}

.language-makefile .token.builtin {
  color: #0086b3;
}

/* Bash */
.language-bash .token.keyword {
  color: #0086b3;
}

/* highlight */
pre[data-line] {
  position: relative;
  padding: 1em 0 1em 3em;
}
pre[data-line] .line-highlight-wrapper {
  position: absolute;
  top: 0;
  left: 0;
  background-color: transparent;
  display: block;
  width: 100%;
}

pre[data-line] .line-highlight {
  position: absolute;
  left: 0;
  right: 0;
  padding: inherit 0;
  margin-top: 1em;
  background: hsla(24, 20%, 50%,.08);
  background: linear-gradient(to right, hsla(24, 20%, 50%,.1) 70%, hsla(24, 20%, 50%,0));
  pointer-events: none;
  line-height: inherit;
  white-space: pre;
}

pre[data-line] .line-highlight:before, 
pre[data-line] .line-highlight[data-end]:after {
  content: attr(data-start);
  position: absolute;
  top: .4em;
  left: .6em;
  min-width: 1em;
  padding: 0 .5em;
  background-color: hsla(24, 20%, 50%,.4);
  color: hsl(24, 20%, 95%);
  font: bold 65%/1.5 sans-serif;
  text-align: center;
  vertical-align: .3em;
  border-radius: 999px;
  text-shadow: none;
  box-shadow: 0 1px white;
}

pre[data-line] .line-highlight[data-end]:after {
  content: attr(data-end);
  top: auto;
  bottom: .4em;
}html body{font-family:"Helvetica Neue",Helvetica,"Segoe UI",Arial,freesans,sans-serif;font-size:16px;line-height:1.6;color:#333;background-color:#fff;overflow:initial;box-sizing:border-box;word-wrap:break-word}html body>:first-child{margin-top:0}html body h1,html body h2,html body h3,html body h4,html body h5,html body h6{line-height:1.2;margin-top:1em;margin-bottom:16px;color:#000}html body h1{font-size:2.25em;font-weight:300;padding-bottom:.3em}html body h2{font-size:1.75em;font-weight:400;padding-bottom:.3em}html body h3{font-size:1.5em;font-weight:500}html body h4{font-size:1.25em;font-weight:600}html body h5{font-size:1.1em;font-weight:600}html body h6{font-size:1em;font-weight:600}html body h1,html body h2,html body h3,html body h4,html body h5{font-weight:600}html body h5{font-size:1em}html body h6{color:#5c5c5c}html body strong{color:#000}html body del{color:#5c5c5c}html body a:not([href]){color:inherit;text-decoration:none}html body a{color:#08c;text-decoration:none}html body a:hover{color:#00a3f5;text-decoration:none}html body img{max-width:100%}html body>p{margin-top:0;margin-bottom:16px;word-wrap:break-word}html body>ul,html body>ol{margin-bottom:16px}html body ul,html body ol{padding-left:2em}html body ul.no-list,html body ol.no-list{padding:0;list-style-type:none}html body ul ul,html body ul ol,html body ol ol,html body ol ul{margin-top:0;margin-bottom:0}html body li{margin-bottom:0}html body li.task-list-item{list-style:none}html body li>p{margin-top:0;margin-bottom:0}html body .task-list-item-checkbox{margin:0 .2em .25em -1.8em;vertical-align:middle}html body .task-list-item-checkbox:hover{cursor:pointer}html body blockquote{margin:16px 0;font-size:inherit;padding:0 15px;color:#5c5c5c;background-color:#f0f0f0;border-left:4px solid #d6d6d6}html body blockquote>:first-child{margin-top:0}html body blockquote>:last-child{margin-bottom:0}html body hr{height:4px;margin:32px 0;background-color:#d6d6d6;border:0 none}html body table{margin:10px 0 15px 0;border-collapse:collapse;border-spacing:0;display:block;width:100%;overflow:auto;word-break:normal;word-break:keep-all}html body table th{font-weight:bold;color:#000}html body table td,html body table th{border:1px solid #d6d6d6;padding:6px 13px}html body dl{padding:0}html body dl dt{padding:0;margin-top:16px;font-size:1em;font-style:italic;font-weight:bold}html body dl dd{padding:0 16px;margin-bottom:16px}html body code{font-family:Menlo,Monaco,Consolas,'Courier New',monospace;font-size:.85em !important;color:#000;background-color:#f0f0f0;border-radius:3px;padding:.2em 0}html body code::before,html body code::after{letter-spacing:-0.2em;content:"\00a0"}html body pre>code{padding:0;margin:0;font-size:.85em !important;word-break:normal;white-space:pre;background:transparent;border:0}html body .highlight{margin-bottom:16px}html body .highlight pre,html body pre{padding:1em;overflow:auto;font-size:.85em !important;line-height:1.45;border:#d6d6d6;border-radius:3px}html body .highlight pre{margin-bottom:0;word-break:normal}html body pre code,html body pre tt{display:inline;max-width:initial;padding:0;margin:0;overflow:initial;line-height:inherit;word-wrap:normal;background-color:transparent;border:0}html body pre code:before,html body pre tt:before,html body pre code:after,html body pre tt:after{content:normal}html body p,html body blockquote,html body ul,html body ol,html body dl,html body pre{margin-top:0;margin-bottom:16px}html body kbd{color:#000;border:1px solid #d6d6d6;border-bottom:2px solid #c7c7c7;padding:2px 4px;background-color:#f0f0f0;border-radius:3px}@media print{html body{background-color:#fff}html body h1,html body h2,html body h3,html body h4,html body h5,html body h6{color:#000;page-break-after:avoid}html body blockquote{color:#5c5c5c}html body pre{page-break-inside:avoid}html body table{display:table}html body img{display:block;max-width:100%;max-height:100%}html body pre,html body code{word-wrap:break-word;white-space:pre}}.markdown-preview{width:100%;height:100%;box-sizing:border-box}.markdown-preview .pagebreak,.markdown-preview .newpage{page-break-before:always}.markdown-preview pre.line-numbers{position:relative;padding-left:3.8em;counter-reset:linenumber}.markdown-preview pre.line-numbers>code{position:relative}.markdown-preview pre.line-numbers .line-numbers-rows{position:absolute;pointer-events:none;top:1em;font-size:100%;left:0;width:3em;letter-spacing:-1px;border-right:1px solid #999;-webkit-user-select:none;-moz-user-select:none;-ms-user-select:none;user-select:none}.markdown-preview pre.line-numbers .line-numbers-rows>span{pointer-events:none;display:block;counter-increment:linenumber}.markdown-preview pre.line-numbers .line-numbers-rows>span:before{content:counter(linenumber);color:#999;display:block;padding-right:.8em;text-align:right}.markdown-preview .mathjax-exps .MathJax_Display{text-align:center !important}.markdown-preview:not([for="preview"]) .code-chunk .btn-group{display:none}.markdown-preview:not([for="preview"]) .code-chunk .status{display:none}.markdown-preview:not([for="preview"]) .code-chunk .output-div{margin-bottom:16px}.scrollbar-style::-webkit-scrollbar{width:8px}.scrollbar-style::-webkit-scrollbar-track{border-radius:10px;background-color:transparent}.scrollbar-style::-webkit-scrollbar-thumb{border-radius:5px;background-color:rgba(150,150,150,0.66);border:4px solid rgba(150,150,150,0.66);background-clip:content-box}html body[for="html-export"]:not([data-presentation-mode]){position:relative;width:100%;height:100%;top:0;left:0;margin:0;padding:0;overflow:auto}html body[for="html-export"]:not([data-presentation-mode]) .markdown-preview{position:relative;top:0}@media screen and (min-width:914px){html body[for="html-export"]:not([data-presentation-mode]) .markdown-preview{padding:2em calc(50% - 457px + 2em)}}@media screen and (max-width:914px){html body[for="html-export"]:not([data-presentation-mode]) .markdown-preview{padding:2em}}@media screen and (max-width:450px){html body[for="html-export"]:not([data-presentation-mode]) .markdown-preview{font-size:14px !important;padding:1em}}@media print{html body[for="html-export"]:not([data-presentation-mode]) #sidebar-toc-btn{display:none}}html body[for="html-export"]:not([data-presentation-mode]) #sidebar-toc-btn{position:fixed;bottom:8px;left:8px;font-size:28px;cursor:pointer;color:inherit;z-index:99;width:32px;text-align:center;opacity:.4}html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] #sidebar-toc-btn{opacity:1}html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] .md-sidebar-toc{position:fixed;top:0;left:0;width:300px;height:100%;padding:32px 0 48px 0;font-size:14px;box-shadow:0 0 4px rgba(150,150,150,0.33);box-sizing:border-box;overflow:auto;background-color:inherit}html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] .md-sidebar-toc::-webkit-scrollbar{width:8px}html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] .md-sidebar-toc::-webkit-scrollbar-track{border-radius:10px;background-color:transparent}html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] .md-sidebar-toc::-webkit-scrollbar-thumb{border-radius:5px;background-color:rgba(150,150,150,0.66);border:4px solid rgba(150,150,150,0.66);background-clip:content-box}html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] .md-sidebar-toc a{text-decoration:none}html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] .md-sidebar-toc ul{padding:0 1.6em;margin-top:.8em}html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] .md-sidebar-toc li{margin-bottom:.8em}html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] .md-sidebar-toc ul{list-style-type:none}html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] .markdown-preview{left:300px;width:calc(100% -  300px);padding:2em calc(50% - 457px -  150px);margin:0;box-sizing:border-box}@media screen and (max-width:1274px){html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] .markdown-preview{padding:2em}}@media screen and (max-width:450px){html body[for="html-export"]:not([data-presentation-mode])[html-show-sidebar-toc] .markdown-preview{width:100%}}html body[for="html-export"]:not([data-presentation-mode]):not([html-show-sidebar-toc]) .markdown-preview{left:50%;transform:translateX(-50%)}html body[for="html-export"]:not([data-presentation-mode]):not([html-show-sidebar-toc]) .md-sidebar-toc{display:none}
/* Please visit the URL below for more information: */
/*   https://shd101wyy.github.io/markdown-preview-enhanced/#/customize-css */

      </style>
    </head>
    <body for="html-export">
      <div class="mume markdown-preview  ">
      <h1 class="mume-header" id="cuda">CUDA</h1>

<blockquote>
<p>CUDA&#xFF08;Compute Unified Device Architecture&#xFF09;&#xFF0C;&#x662F;&#x663E;&#x5361;&#x5382;&#x5546;NVIDIA&#x63A8;&#x51FA;&#x7684;&#x8FD0;&#x7B97;&#x5E73;&#x53F0;&#x3002; CUDA&#x2122;&#x662F;&#x4E00;&#x79CD;&#x7531;NVIDIA&#x63A8;&#x51FA;&#x7684;&#x901A;&#x7528;&#x5E76;&#x884C;&#x8BA1;&#x7B97;&#x67B6;&#x6784;&#xFF0C;&#x8BE5;&#x67B6;&#x6784;&#x4F7F;GPU&#x80FD;&#x591F;&#x89E3;&#x51B3;&#x590D;&#x6742;&#x7684;&#x8BA1;&#x7B97;&#x95EE;&#x9898;&#x3002; &#x5B83;&#x5305;&#x542B;&#x4E86;CUDA&#x6307;&#x4EE4;&#x96C6;&#x67B6;&#x6784;&#xFF08;ISA&#xFF09;&#x4EE5;&#x53CA;GPU&#x5185;&#x90E8;&#x7684;&#x5E76;&#x884C;&#x8BA1;&#x7B97;&#x5F15;&#x64CE;&#x3002; &#x5F00;&#x53D1;&#x4EBA;&#x5458;&#x73B0;&#x5728;&#x53EF;&#x4EE5;&#x4F7F;&#x7528;C&#x8BED;&#x8A00;&#x6765;&#x4E3A;CUDA&#x2122;&#x67B6;&#x6784;&#x7F16;&#x5199;&#x7A0B;&#x5E8F;&#xFF0C;C&#x8BED;&#x8A00;&#x662F;&#x5E94;&#x7528;&#x6700;&#x5E7F;&#x6CDB;&#x7684;&#x4E00;&#x79CD;&#x9AD8;&#x7EA7;&#x7F16;&#x7A0B;&#x8BED;&#x8A00;&#x3002;&#x6240;&#x7F16;&#x5199;&#x51FA;&#x7684;&#x7A0B;&#x5E8F;&#x53EF;&#x4EE5;&#x5728;&#x652F;&#x6301;CUDA&#x2122;&#x7684;&#x5904;&#x7406;&#x5668;&#x4E0A;&#x4EE5;&#x8D85;&#x9AD8;&#x6027;&#x80FD;&#x8FD0;&#x884C;&#x3002;</p>
</blockquote>
<ul>
<li><a href="#cuda">CUDA</a>
<ul>
<li><a href="#cuda%E6%89%A7%E8%A1%8C%E7%9A%84%E5%85%B8%E5%9E%8B%E6%B5%81%E7%A8%8B">CUDA&#x6267;&#x884C;&#x7684;&#x5178;&#x578B;&#x6D41;&#x7A0B;</a></li>
<li><a href="#cuda%E7%9A%84%E6%9E%B6%E6%9E%84">CUDA&#x7684;&#x67B6;&#x6784;</a>
<ul>
<li><a href="#%E7%AE%80%E8%AF%B4gpu%E5%B9%B6%E8%A1%8C%E8%AE%A1%E7%AE%97%E4%B8%8Ecpu%E4%B8%B2%E8%A1%8C%E8%AE%A1%E7%AE%97">&#x7B80;&#x8BF4;GPU&#x5E76;&#x884C;&#x8BA1;&#x7B97;&#x4E0E;CPU&#x4E32;&#x884C;&#x8BA1;&#x7B97;</a></li>
<li><a href="#cuda%E7%9A%84%E7%BA%BF%E7%A8%8B%E6%9E%B6%E6%9E%84">CUDA&#x7684;&#x7EBF;&#x7A0B;&#x67B6;&#x6784;</a></li>
<li><a href="#cuda%E7%9A%84%E5%86%85%E5%AD%98">CUDA&#x7684;&#x5185;&#x5B58;</a></li>
<li><a href="#cuda%E7%9A%84%E7%BC%96%E7%A8%8B%E6%A8%A1%E5%9E%8B">CUDA&#x7684;&#x7F16;&#x7A0B;&#x6A21;&#x578B;</a></li>
</ul>
</li>
<li><a href="#pycuda-example">PyCUDA example</a></li>
</ul>
</li>
</ul>
<h2 class="mume-header" id="cuda%E6%89%A7%E8%A1%8C%E7%9A%84%E5%85%B8%E5%9E%8B%E6%B5%81%E7%A8%8B">CUDA&#x6267;&#x884C;&#x7684;&#x5178;&#x578B;&#x6D41;&#x7A0B;</h2>

<p>&#x5728;&#x8BA8;&#x8BBA;&#x4E4B;&#x524D;&#xFF0C;&#x6211;&#x4EEC;&#x5148;&#x5BF9;&#x6240;&#x7528;&#x672F;&#x8BED;&#x8FDB;&#x884C;&#x4E00;&#x4E9B;&#x5B9A;&#x4E49;&#x3002;&#x5728;CUDA&#x4E2D;&#xFF0C;CPU&#x4E3A;Host&#xFF0C;GPU&#x4E3A;Device&#xFF0C;&#x4E00;&#x4E2A;Kernal&#x51FD;&#x6570;&#x4E3A;&#x4E00;&#x4E2A;&#x7531;CPU&#x8C03;&#x7528;&#xFF0C;&#x5728;GPU&#x8FDB;&#x884C;&#x6267;&#x884C;&#x7684;&#x51FD;&#x6570;&#x3002;&#x5982;&#x56FE;&#xFF1A;</p>
<p><img src="cuda/cuda-definition.png" alt></p>
<p>cuda&#x6240;&#x505A;&#x7684;&#x4E8B;&#x60C5;&#x5C31;&#x662F;CPU&#x5C06;&#x6570;&#x636E;&#x4EA4;&#x7ED9;GPU&#x6267;&#x884C;&#x5E76;&#x884C;&#x8BA1;&#x7B97;&#x3002;&#x4E0D;&#x5931;&#x4E00;&#x822C;&#x6027;&#x7684;&#xFF0C;&#x53EF;&#x4EE5;&#x5C06;CUDA&#x7684;&#x6D41;&#x7A0B;&#x63CF;&#x8FF0;&#x4E3A;&#xFF1A;</p>
<ol>
<li>&#x5C06;&#x6570;&#x636E;&#x4ECE;Host&#x52A0;&#x8F7D;&#x5230;Device&#xFF0C;&#x5305;&#x62EC;&#xFF1A;<pre data-role="codeBlock" data-info="c" class="language-c"><span class="token comment">//&#x5728;GPU&#x4E0A;&#x521B;&#x5EFA;&#x53D8;&#x91CF;&#x7684;&#x50A8;&#x5B58;&#x7A7A;&#x95F4;</span>
<span class="token function">cudaMalloc</span><span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">;</span> 
<span class="token comment">//&#x5C06;&#x6570;&#x636E;&#x4ECE;CPU&#x52A0;&#x8F7D;&#x5230;GPU&#x7684;&#x5BF9;&#x5E94;&#x5730;&#x5740;</span>
<span class="token function">cudaMemcpy</span><span class="token punctuation">(</span><span class="token punctuation">,</span><span class="token punctuation">,</span><span class="token punctuation">,</span>cudaMemcpyDeviceToHost<span class="token punctuation">)</span><span class="token punctuation">;</span>
</pre></li>
<li>&#x8C03;&#x7528;Kernal&#x51FD;&#x6570;&#xFF0C;&#x5728;Device&#x8FDB;&#x884C;&#x8BA1;&#x7B97;&#x3002;</li>
<li>&#x5C06;&#x6570;&#x636E;&#x4ECE;Device&#x53D6;&#x56DE;Host&#xFF0C;&#x5305;&#x62EC;<pre data-role="codeBlock" data-info="c" class="language-c"><span class="token comment">//&#x5C06;&#x6570;&#x636E;&#x4ECE;CPU&#x7684;&#x5BF9;&#x5E94;&#x5730;&#x5740;&#x8BFB;&#x56DE;</span>
<span class="token function">cudaMemcpy</span><span class="token punctuation">(</span><span class="token punctuation">,</span><span class="token punctuation">,</span><span class="token punctuation">,</span>cudaMemcpyDeviceToHost<span class="token punctuation">)</span><span class="token punctuation">;</span>
<span class="token comment">//&#x91CA;&#x653E;&#x7A7A;&#x95F4;</span>
<span class="token function">cudaFree</span><span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">;</span>
</pre></li>
</ol>
<h2 class="mume-header" id="cuda%E7%9A%84%E6%9E%B6%E6%9E%84">CUDA&#x7684;&#x67B6;&#x6784;</h2>

<h3 class="mume-header" id="%E7%AE%80%E8%AF%B4gpu%E5%B9%B6%E8%A1%8C%E8%AE%A1%E7%AE%97%E4%B8%8Ecpu%E4%B8%B2%E8%A1%8C%E8%AE%A1%E7%AE%97">&#x7B80;&#x8BF4;GPU&#x5E76;&#x884C;&#x8BA1;&#x7B97;&#x4E0E;CPU&#x4E32;&#x884C;&#x8BA1;&#x7B97;</h3>

<p>CUDA&#x6267;&#x884C;Kernal&#x7684;&#x6700;&#x57FA;&#x672C;&#x5355;&#x5143;&#x662F;Thread&#xFF0C;&#x5728;CPU&#x8C03;&#x7528;Kernal&#x65F6;&#xFF0C;GPU&#x6BCF;&#x4E2A;thread<strong>&#x540C;&#x65F6;&#x3001;&#x5E76;&#x884C;</strong>&#x6267;&#x884C;<strong>&#x540C;&#x4E00;&#x4E2A;</strong>Kernal&#xFF08;exactly same kernal&#xFF09;&#x3002;&#x56E0;&#x6B64;&#xFF0C;&#x5728;&#x51FD;&#x6570;&#x5185;&#x90E8;&#x901A;&#x5E38;&#x901A;&#x8FC7;&#x7EBF;&#x7A0B;ID&#x7684;&#x4E0D;&#x540C;&#xFF0C;&#x6765;&#x5B9E;&#x73B0;&#x5BF9;&#x4E0D;&#x540C;&#x6570;&#x636E;&#x7684;&#x8BBF;&#x95EE;&#xFF0C;&#x800C;&#x4E0D;&#x662F;&#x4F20;&#x5165;&#x4E0D;&#x540C;&#x6570;&#x636E;&#x3002;&#x5728;&#x8C03;&#x7528;&#x65F6;&#xFF0C;&#x4F20;&#x5165;&#x7684;&#x662F;&#x6570;&#x7EC4;&#x7684;&#x6307;&#x9488;&#x3002;</p>
<p>CUDA&#x5185;&#x90E8;&#x63D0;&#x4F9B;&#x7684;&#x83B7;&#x53D6;&#x7EBF;&#x7A0B;ID&#x7684;&#x65B9;&#x6CD5;&#x4E3A;<code>threadIdx</code>&#xFF0C;&#x7B80;&#x5355;&#x8D77;&#x89C1;&#x53EA;&#x8003;&#x8651;&#x4E00;&#x7EF4;&#x60C5;&#x51B5;&#x4E0B;&#xFF0C;&#x5BF9;&#x4E00;&#x5411;&#x91CF;&#x8FDB;&#x884C;&#x7FFB;&#x500D;&#x7684;&#x64CD;&#x4F5C;&#xFF0C;&#x5176;Kernal&#x4E3A;&#xFF1A;</p>
<pre data-role="codeBlock" data-info="c" class="language-c">__global__ <span class="token keyword">void</span> <span class="token function">double_vector</span><span class="token punctuation">(</span><span class="token keyword">float</span> <span class="token operator">*</span>x<span class="token punctuation">)</span><span class="token punctuation">{</span>
    <span class="token keyword">const</span> <span class="token keyword">int</span> i <span class="token operator">=</span> threadIdx<span class="token punctuation">.</span>x<span class="token punctuation">;</span>
    x<span class="token punctuation">[</span>i<span class="token punctuation">]</span> <span class="token operator">=</span> <span class="token number">2</span><span class="token operator">*</span>x<span class="token punctuation">[</span>i<span class="token punctuation">]</span><span class="token punctuation">;</span>
<span class="token punctuation">}</span>
</pre><p>&#x6267;&#x884C;&#x8BE5;&#x51FD;&#x6570;&#x65F6;&#xFF0C;&#x6BCF;&#x4E2A;thread&#x5206;&#x522B;&#x53D6;&#x5BF9;&#x5E94;&#x4F4D;&#x7F6E;&#x7684;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x7FFB;&#x500D;&#xFF0C;&#x5E76;&#x884C;&#x6267;&#x884C;&#x3002;&#x5047;&#x8BBE;&#x5411;&#x91CF;&#x7684;&#x957F;&#x5EA6;&#x4E3A;<code>MAX_VECTOR_SIZE</code>&#xFF0C;&#x90A3;&#x9700;&#x8981;&#x8C03;&#x7528;<code>MAX_VECTOR_SIZE</code>&#x6761;thread&#x6765;&#x8FDB;&#x884C;&#x6267;&#x884C;&#x3002;&#x5B83;&#x7B49;&#x4EF7;&#x4E8E;CPU&#x4E2D;&#x7684;&#x51FD;&#x6570;&#xFF1A;</p>
<pre data-role="codeBlock" data-info="c" class="language-c"><span class="token keyword">void</span> <span class="token function">double_vector</span><span class="token punctuation">(</span><span class="token keyword">float</span> <span class="token operator">*</span>x<span class="token punctuation">)</span><span class="token punctuation">{</span>
    <span class="token keyword">for</span><span class="token punctuation">(</span><span class="token keyword">int</span> i <span class="token operator">=</span> <span class="token number">0</span><span class="token punctuation">;</span> i <span class="token operator">&lt;</span> MAX_VECTOR_SIZE<span class="token punctuation">;</span> i<span class="token operator">++</span><span class="token punctuation">)</span><span class="token punctuation">{</span>
        x<span class="token punctuation">[</span>i<span class="token punctuation">]</span> <span class="token operator">=</span> <span class="token number">2</span><span class="token operator">*</span>x<span class="token punctuation">[</span>i<span class="token punctuation">]</span><span class="token punctuation">;</span>
    <span class="token punctuation">}</span>
<span class="token punctuation">}</span>
</pre><p>&#x7531;&#x8FD9;&#x4E2A;&#x7B80;&#x5355;&#x4F8B;&#x5B50;&#x7684;&#x4F8B;&#x5B50;&#x53EF;&#x4EE5;&#x770B;&#x51FA;CPU&#x4E32;&#x884C;&#x8BA1;&#x7B97;&#x4E0E;GPU&#x5E76;&#x884C;&#x8BA1;&#x7B97;&#xFF08;&#x7406;&#x8BBA;&#x4E0A;&#x548C;&#x7F16;&#x7A0B;&#x5B9E;&#x73B0;&#x4E0A;&#xFF09;&#x7684;&#x4E0D;&#x540C;&#xFF0C;&#x5BF9;&#x4E8E;&#x8BED;&#x53E5;<code>x[i] = 2*x[i];</code>&#xFF0C;&#x5728;CPU&#x4E0A;&#x4F7F;&#x7528;1&#x6761;&#x7EBF;&#x7A0B;&#xFF0C;&#x901A;&#x8FC7;&#x5FAA;&#x73AF;&#x6267;&#x884C;&#x4E86;<code>MAX_VECTOR_SIZE</code>&#x6B21;&#xFF1B;&#x5728;GPU&#x4E0A;&#x4F7F;<code>MAX_VECTOR_SIZE</code>&#x6761;&#x7EBF;&#x7A0B;&#xFF0C;&#x6BCF;&#x6761;&#x7EBF;&#x7A0B;&#x6267;&#x884C;1&#x6B21;&#x5B9E;&#x73B0;&#x3002;</p>
<p>&#x8FD9;&#x4F53;&#x73B0;&#x4E86;&#x5728;&#x9762;&#x5BF9;&#x5927;&#x6279;&#x91CF;&#x3001;&#x65E0;&#x8026;&#x5408;&#x6570;&#x636E;&#x7684;&#x8BA1;&#x7B97;&#x65F6;&#x901A;&#x8FC7;CUDA&#x8FDB;&#x884C;&#x5E76;&#x884C;&#x8BA1;&#x7B97;&#x7684;&#x4F18;&#x8D8A;&#x6027;&#x3002;&#x4F46;&#x662F;&#x8BDD;&#x867D;&#x8FD9;&#x4E48;&#x8BF4;&#xFF0C;&#x5728;&#x8BA1;&#x7B97;&#x91CF;&#x4E0D;&#x8DB3;&#x591F;&#x5927;&#x7684;&#x60C5;&#x51B5;&#x4E0B;&#x5F80;&#x5F80;&#x4F1A;&#x53D1;&#x73B0;&#x901A;&#x8FC7;CUDA&#x4F18;&#x5316;&#x7684;&#x5E76;&#x884C;&#x7A0B;&#x5E8F;&#x8BA1;&#x7B97;&#x65F6;&#x95F4;&#x5E76;&#x4E0D;&#x6BD4;CPU&#x6267;&#x884C;&#x7684;&#x66F4;&#x5FEB;&#xFF0C;&#x5DEE;&#x4E0D;&#x591A;&#xFF0C;&#x751A;&#x81F3;&#x66F4;&#x6162;&#xFF0C;&#x8FD9;&#x662F;&#x56E0;&#x4E3A;&#x6570;&#x636E;&#x5728;CPU&#x548C;GPU&#x4E4B;&#x95F4;&#x4F20;&#x8F93;&#x9700;&#x8981;&#x7684;&#x65F6;&#x95F4;&#x8F83;&#x957F;&#x5BFC;&#x81F4;&#x7684;&#xFF0C;&#x5373;<code>cudaMemcpy()</code>&#x8F83;&#x6162;&#x3002;&#x56E0;&#x6B64;&#xFF0C;&#x5728;CUDA&#x7F16;&#x7A0B;&#x4E2D;&#x8981;&#x5C3D;&#x91CF;&#x51CF;&#x5C11;Host&#x548C;Device&#x4E4B;&#x95F4;&#x7684;&#x6570;&#x636E;&#x4EA4;&#x4E92;&#xFF0C;&#x4EE5;&#x4E00;&#x6279;&#x4E0A;&#x4F20;&#xFF0C;&#x4E00;&#x6279;&#x8BA1;&#x7B97;&#xFF0C;&#x518D;&#x4E00;&#x6279;&#x53D6;&#x56DE;&#x4E3A;&#x597D;&#x3002;</p>
<h3 class="mume-header" id="cuda%E7%9A%84%E7%BA%BF%E7%A8%8B%E6%9E%B6%E6%9E%84">CUDA&#x7684;&#x7EBF;&#x7A0B;&#x67B6;&#x6784;</h3>

<p><img src="cuda/thread-architechture.png" alt><br>
CUDA&#x4E2D;&#xFF0C;Kernal&#x6267;&#x884C;&#x7684;&#x57FA;&#x672C;&#x5355;&#x5143;&#xFF08;&#x7406;&#x8BBA;&#xFF09;&#x662F;<strong>thread</strong>&#x3002;thread&#x7684;&#x96C6;&#x5408;&#x4E3A;<strong>block</strong>&#x3002;block&#x53EF;&#x4EE5;&#x4E3A;&#x4E00;&#x7EF4;&#x3001;&#x4E8C;&#x7EF4;&#x6216;&#x8005;&#x4E09;&#x7EF4;&#xFF08;&#x5982;&#x679C;&#x4E0D;&#x9700;&#x8981;&#x591A;&#x7EF4;&#xFF0C;&#x4EE4;&#x5176;&#x4ED6;&#x7EF4;&#x5EA6;&#x4E3A;1&#x5373;&#x53EF;&#xFF09;&#xFF0C;&#x5373;&#x4E00;&#x4E2A;block&#x4E2D;&#x6709;&#x7EBF;&#x7A0B;ID<code>(x,y,z)</code>&#xFF0C;&#x83B7;&#x53D6;block&#x4E2D;&#x7EBF;&#x7A0B;ID&#x7684;&#x65B9;&#x6CD5;&#x4E3A;&#xFF1A;</p>
<pre data-role="codeBlock" data-info="c" class="language-c"><span class="token keyword">int</span> x<span class="token punctuation">,</span> y<span class="token punctuation">,</span> z<span class="token punctuation">;</span>
x <span class="token operator">=</span> threadIdx<span class="token punctuation">.</span>x<span class="token punctuation">;</span>
y <span class="token operator">=</span> threadIdx<span class="token punctuation">.</span>y<span class="token punctuation">;</span>
z <span class="token operator">=</span> threadIdx<span class="token punctuation">.</span>z<span class="token punctuation">;</span>
</pre><p>&#x6613;&#x77E5;&#xFF0C;&#x4E00;&#x4E2A;&#x5177;&#x6709;&#x610F;&#x4E49;&#x7684;Kernal&#x81F3;&#x5C11;&#x5E94;&#x8BE5;&#x5206;&#x5E03;&#x5728;<strong>&#x4E00;&#x4E2A;</strong>&#x5177;&#x6709;<strong>&#x82E5;&#x5E72;</strong>thread&#x7684;block&#x4E0A;&#x8FDB;&#x884C;&#x6267;&#x884C;&#x3002;</p>
<p>&#x9700;&#x8981;&#x6CE8;&#x610F;&#x7684;&#x662F;&#xFF0C;&#x4E00;&#x4E2A;block&#x4E2D;&#x6700;&#x591A;&#x53EA;&#x80FD;&#x5305;&#x542B;1024&#x6761;thread&#xFF0C;&#x5373;&#x6709;<code>x*y*z &lt;= 1024</code>&#xFF0C;&#x5982;&#x679C;&#x8BA1;&#x7B97;&#x8981;&#x6C42;&#x6709;&#x66F4;&#x591A;&#x7684;thread&#xFF0C;&#x90A3;&#x4E48;&#x9700;&#x8981;&#x5206;&#x5E03;&#x5728;&#x591A;block&#x4E0A;&#x8FDB;&#x884C;&#x6267;&#x884C;&#x3002;</p>
<p>block&#x7684;&#x96C6;&#x5408;&#x662F;grid&#x3002;grid&#x53EA;&#x53EF;&#x4EE5;&#x4E3A;&#x4E00;&#x7EF4;&#x6216;&#x8005;&#x4E8C;&#x7EF4;&#xFF0C;&#x83B7;&#x53D6;grid&#x4E2D;block ID&#x7684;&#x65B9;&#x6CD5;&#x4E3A;&#xFF1A;</p>
<pre data-role="codeBlock" data-info="c" class="language-c"><span class="token keyword">int</span> x<span class="token punctuation">,</span> y<span class="token punctuation">;</span>
x <span class="token operator">=</span> blockIdx<span class="token punctuation">.</span>x<span class="token punctuation">;</span>
y <span class="token operator">=</span> blockIdy<span class="token punctuation">.</span>y<span class="token punctuation">;</span>
</pre><p>&#x5728;&#x8C03;&#x7528;Kernal&#x7684;&#x65F6;&#x5019;&#xFF0C;&#x9700;&#x8981;&#x901A;&#x8FC7;<code>&lt;&lt;&lt;grid, block&gt;&gt;&gt;</code>&#x58F0;&#x660E;Kernal&#x5206;&#x914D;&#x5728;&#x591A;&#x5C11;&#x4E2A;grid&#x548C;block&#x4E0A;&#x8FDB;&#x884C;&#x6267;&#x884C;&#x3002;</p>
<p>&#x5728;&#x540C;&#x4E00;&#x4E2A;block&#x91CC;&#x7684;thread&#x5177;&#x6709;&#x5171;&#x4EAB;&#x7684;shared memory&#xFF0C;&#x5176;&#x8BBF;&#x95EE;&#x901F;&#x5EA6;&#x8F83;&#x5FEB;&#x3002;&#x53CD;&#x8FC7;&#x6765;&#x8BF4;&#xFF0C;&#x5206;&#x5E03;&#x5728;&#x4E0D;&#x540C;block&#x8FDB;&#x884C;&#x6267;&#x884C;&#x7684;thread&#x7684;&#x95EE;&#x9898;&#x662F;&#x4E0D;&#x80FD;&#x5171;&#x7528;&#x4E00;shared memory&#xFF0C;&#x8FD9;&#x662F;&#x7531;&#x786C;&#x4EF6;&#x67B6;&#x6784;&#x9650;&#x5236;&#x7684;&#x3002;</p>
<h3 class="mume-header" id="cuda%E7%9A%84%E5%86%85%E5%AD%98">CUDA&#x7684;&#x5185;&#x5B58;</h3>

<p><img src="cuda/memory-architechture.png" alt></p>
<p>&#x5728;&#x9009;&#x7528;&#x50A8;&#x5B58;&#x7C7B;&#x578B;&#x4E0A;&#xFF0C;&#x4E3B;&#x8981;&#x8003;&#x8651;&#x70B9;&#x5DEE;&#x5F02;&#x70B9;&#x6709;&#xFF1A;</p>
<ul>
<li>&#x6BCF;&#x4E2A;grid&#xFF08;&#x82E5;&#x5E72;&#x4E2A;block&#xFF09;&#x5171;&#x7528;&#x81EA;&#x5DF1;&#x7684;global memory</li>
<li>&#x6BCF;&#x4E2A;block&#xFF08;&#x82E5;&#x5E72;&#x4E2A;thread&#xFF09;&#x5171;&#x7528;&#x81EA;&#x5DF1;&#x7684;shared memory</li>
</ul>
<p>&#x5176;&#x4E2D;&#xFF0C;shared memory&#x7684;&#x8BBF;&#x95EE;&#x901F;&#x5EA6;&#x8981;&#x5FEB;&#x4E8E;global memory&#xFF0C;&#x4F46;&#x7F3A;&#x70B9;&#x662F;&#x53EA;&#x80FD;&#x5728;&#x540C;&#x4E00;&#x4E2A;block&#x91CC;&#x7684;thread&#x53EF;&#x4EE5;&#x8BBF;&#x95EE;&#x3002;&#x5728;Kernal&#x4E2D;&#x58F0;&#x660E;&#x6216;&#x8005;&#x4F7F;&#x7528;shared memory&#x4E2D;&#x7684;&#x53D8;&#x91CF;&#x9700;&#x8981;&#x6709;&#x5173;&#x952E;&#x5B57;<code>__shared__</code>&#xFF0C;&#x5982;&#xFF1A;</p>
<pre data-role="codeBlock" data-info="c" class="language-c">__shared__ <span class="token keyword">int</span> result<span class="token punctuation">[</span><span class="token punctuation">]</span><span class="token punctuation">;</span>
</pre><p>&#x5728;host&#x6267;&#x884C;<code>cudaMalloc()</code>&#x548C;<code>cudaMemcpy()</code>&#x4F1A;&#x5C06;&#x6570;&#x636E;&#x52A0;&#x8F7D;&#x5230;global memory&#x3002;</p>
<h3 class="mume-header" id="cuda%E7%9A%84%E7%BC%96%E7%A8%8B%E6%A8%A1%E5%9E%8B">CUDA&#x7684;&#x7F16;&#x7A0B;&#x6A21;&#x578B;</h3>

<table>
<thead>
<tr>
<th style="text-align:center">&#x5173;&#x952E;&#x5B57;</th>
<th style="text-align:center">&#x6267;&#x884C;&#x5728;host/device</th>
<th style="text-align:center">&#x53EA;&#x80FD;&#x7531;host/device&#x8C03;&#x7528;</th>
<th style="text-align:center">&#x6CE8;</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:center"><code>__device__ float DeviceFunc()</code></td>
<td style="text-align:center">device</td>
<td style="text-align:center">decice</td>
<td style="text-align:center"></td>
</tr>
<tr>
<td style="text-align:center"><code>__global__ void KernalFunc()</code></td>
<td style="text-align:center">device</td>
<td style="text-align:center">host</td>
<td style="text-align:center">&#x8FD4;&#x56DE;&#x503C;&#x5FC5;&#x987B;&#x4E3A;void</td>
</tr>
<tr>
<td style="text-align:center"><code>__host__ float HostFunc()</code></td>
<td style="text-align:center">host</td>
<td style="text-align:center">host</td>
<td style="text-align:center"></td>
</tr>
</tbody>
</table>
<h2 class="mume-header" id="pycuda-example">PyCUDA example</h2>


      </div>
      
      
    </body></html>