remove deprecated deviceLostCallbackInfo, add array constructor for Bindings, improve error handling for wasm gpu puzzles

austinvhuang · austinvhuang · commit 8570b5c64e7a · 2024-08-14T13:40:36.000-04:00
diff --git a/experimental/fasthtml/gpu_puzzles/Makefile b/experimental/fasthtml/gpu_puzzles/Makefile
@@ -3,26 +3,30 @@ COMMON_FLAGS=-std=c++17 -s USE_WEBGPU=1 -s ASYNCIFY=1 -I$(GPUCPP)
 # COMMON_FLAGS=-std=c++17 -s USE_WEBGPU=1 -I$(GPUCPP)
 # Note - no spaces after comma
 # enable exceptions to recover from WGSL failure
-JS_FLAGS=-s EXPORTED_RUNTIME_METHODS=['UTF8ToString','setValue','addFunction'] -s EXPORTED_FUNCTIONS=['_malloc','_free','_executeKernel','_runCheck'] -s DISABLE_EXCEPTION_CATCHING=0 
-WASM_FLAGS=-s STANDALONE_WASM -s ERROR_ON_UNDEFINED_SYMBOLS=0 -s EXPORTED_FUNCTIONS=['_executeKernel','_runCheck'] -s EXPORTED_RUNTIME_METHODS=['ccall','cwrap'] -DSTANDALONE_WASM
+JS_FLAGS=-s EXPORTED_RUNTIME_METHODS=['UTF8ToString','setValue','addFunction','customPrint'] -s EXPORTED_FUNCTIONS=['_malloc','_free','_evaluate'] -s DISABLE_EXCEPTION_CATCHING=0 
+WASM_FLAGS=-s STANDALONE_WASM -s ERROR_ON_UNDEFINED_SYMBOLS=0 -s EXPORTED_FUNCTIONS=['_evaluate'] -s EXPORTED_RUNTIME_METHODS=['ccall','cwrap'] -DSTANDALONE_WASM
 MODULARIZE_FLAGS=-s EXPORT_NAME='createModule' -s MODULARIZE=1 --bind
-NO_MODULARIZE_FLAGS=-s EXPORTED_FUNCTIONS=['_executeKernel','_runCheck'] -s EXPORTED_RUNTIME_METHODS=['ccall','cwrap'] --bind
+NO_MODULARIZE_FLAGS=-s EXPORTED_FUNCTIONS=['_evaluate'] -s EXPORTED_RUNTIME_METHODS=['ccall','cwrap'] --bind
 
-.PHONY: default cmake check-emsdk browser clean server
+.PHONY: default cmake check-emsdk browser clean server debug
 
 default: server
 
 build/run.js: check-emsdk run.cpp
 	em++ run.cpp -o build/run.js \
 		$(COMMON_FLAGS) $(JS_FLAGS) $(MODULARIZE_FLAGS)
 
+debug: check-emsdk run.cpp
+	em++ -g -gsource-map run.cpp -o build/run.js \
+		$(COMMON_FLAGS) $(JS_FLAGS) $(MODULARIZE_FLAGS)
+
 build/run.wasm: check-emsdk run.cpp
 	em++ run.cpp -o build/run.wasm \
 		$(COMMON_FLAGS) $(WASM_FLAGS)
 
 watch:
 	@echo "Watching for changes..."
-	ls run.cpp | entr -c make build/run.js
+	ls run.cpp | entr -c make debug
 
 server: build/run.js
 	python3 run.py
diff --git a/experimental/fasthtml/gpu_puzzles/client.js b/experimental/fasthtml/gpu_puzzles/client.js
@@ -209,14 +209,13 @@ function updateDispatchParams() {
 }
 
 async function updateEditor() {
-
   function waitForDispatchReady() {
     return new Promise((resolve) => {
       function checkReady() {
         if (AppState.isDispatchReady) {
           resolve();
         } else {
-          console.log("Waiting...");
+          console.log("Waiting for dispatch to be ready");
           setTimeout(checkReady, 100); // Check every 100ms
         }
       }
@@ -228,28 +227,51 @@ async function updateEditor() {
   createModule().then((Module) => {
     console.log("updateEditor() - Module ready");
   });
-  if (AppState.module && AppState.module.runCheck) {
+  if (AppState.module) {
     if (!AppState.isDispatchReady) {
-      console.log("Waiting for dispatch to be ready");
       await waitForDispatchReady();
     }
-
     console.log("Executing kernel");
     AppState.terminal.clear();
     console.log("Code:\n", AppState.preamble + AppState.editor.getValue());
     AppState.isDispatchReady = false;
-    AppState.module
-      .runCheck(
+    try {
+    promise = AppState.module.evaluate(
         AppState.preamble + AppState.editor.getValue(),
         AppState.wgSize,
         AppState.gridSize,
       )
+      .catch((error) => {
+        console.error("execution failed", error);
+        AppState.isDispatchReady = true;
+        console.log("dispatch ready");
+        render();
+      })
       .then((result) => {
         console.log("check:", result);
         AppState.checkAnswer = result;
         AppState.isDispatchReady = true;
+        console.log("dispatch ready");
         render();
-      });
+      })
+      .finally(() => {
+        console.log("finally");
+        AppState.isDispatchReady = true;
+        console.log("dispatch ready");
+      })
+      ;
+    } catch (error) {
+      console.error("execution failed 2", error);
+      AppState.isDispatchReady = true;
+      console.log("dispatch ready");
+    }
+    if (promise) {
+      await promise;
+    } else {
+      console.error("did not get promise");
+      AppState.isDispatchReady = true;
+      console.log("dispatch ready");
+    }
   } else {
     console.log("updateEditor() - Module not ready");
   }
@@ -258,10 +280,10 @@ async function updateEditor() {
 function update(event) {
   console.log("Updating");
   if ((event.type === "selectPuzzle") & (event.value === "prev")) {
-    AppState.puzzleIndex = (AppState.puzzleIndex - 1);
+    AppState.puzzleIndex = AppState.puzzleIndex - 1;
   }
   if ((event.type === "selectPuzzle") & (event.value === "next")) {
-    AppState.puzzleIndex = (AppState.puzzleIndex + 1);
+    AppState.puzzleIndex = AppState.puzzleIndex + 1;
   }
   if (AppState.puzzleIndex < 0) {
     AppState.puzzleIndex = PuzzleSpec.length - 1;
diff --git a/experimental/fasthtml/gpu_puzzles/evaluator.h b/experimental/fasthtml/gpu_puzzles/evaluator.h
@@ -127,21 +127,21 @@ std::vector<float> runPuzzle2(Context &ctx, const TestCase &testCase,
 
     Tensor a = createTensor(ctx, {N}, kf32, aVec.data());
     Tensor b = createTensor(ctx, {N}, kf32, bVec.data());
-    Tensor output = createTensor(ctx, {N}, kf32);
+    Tensor outputTensor = createTensor(ctx, {N}, kf32);
 
-    Kernel op = createKernel(ctx, {kernelString, N}, Bindings{a, b, output},
+    Kernel op = createKernel(ctx, {kernelString, N}, Bindings{a, b, outputTensor},
                              testCase.gridSize);
 
     std::promise<void> promise;
     std::future<void> future = promise.get_future();
 
     dispatchKernel(ctx, op, promise);
 
-    std::vector<float> outputArr(N);
+    std::vector<float> outputVec(N);
     wait(ctx, future);
-    toCPU(ctx, output, outputArr.data(), outputArr.size() * sizeof(float));
+    toCPU(ctx, outputTensor, outputVec.data(), outputVec.size() * sizeof(float));
 
-    return outputArr;
+    return outputVec;
 }
 
 // Function to initialize the test cases
diff --git a/experimental/fasthtml/gpu_puzzles/run.cpp b/experimental/fasthtml/gpu_puzzles/run.cpp
@@ -11,6 +11,8 @@
 
 using namespace gpu;
 
+constexpr size_t kN = 100;
+
 EM_JS(void, js_print, (const char *str), {
   if (typeof window != 'undefined' && window.customPrint) {
     window.customPrint(UTF8ToString(str));
@@ -20,60 +22,76 @@ EM_JS(void, js_print, (const char *str), {
   }
 });
 
-constexpr size_t kN = 5000;
-
-extern "C" {
-
-EMSCRIPTEN_KEEPALIVE bool checkAnswer(std::array<float, kN> &outputArr) {
-  return outputArr[0] == 10;
-  // return false;
-}
-
-EMSCRIPTEN_KEEPALIVE
-void executeKernel(Context& ctx, const char *kernelCode, const Shape &wgSize,
-                   const Shape &nWorkgroups,
-                   std::array<float, kN> &outputArr) {
+template <size_t nInputs>
+struct HostSpec {
+  const Shape wgSize;
+  const Shape nWorkgroups;
+  const std::string kernelCode;
+  std::array<std::vector<float>, nInputs> inputs;
+};
 
-  // TODO(avh): use puzzle dispatch from scaffold.h for host implementation
-  char buffer[1024]; // for printing
-  constexpr size_t N = 5000;
-  std::array<float, N> inputArr;
-  for (int i = 0; i < N; ++i) {
-    inputArr[i] = static_cast<float>(i);
+template <size_t nInputs>
+void executeKernel(Context& ctx, 
+                    const HostSpec<nInputs>& spec,
+                   float* outputPtr, size_t outputSize) {
+  std::array<Tensor, nInputs + 1> bindingsArr; // + 1 for output binding
+  for (size_t inputIndex = 0; inputIndex < nInputs; ++inputIndex) {
+    bindingsArr[inputIndex] = createTensor(ctx, Shape{spec.inputs[inputIndex].size()}, kf32, spec.inputs[inputIndex].data());
   }
-  Tensor input = createTensor(ctx, Shape{N}, kf32, inputArr.data());
-  Tensor output = createTensor(ctx, Shape{N}, kf32);
+  Tensor output = createTensor(ctx, Shape{outputSize}, kf32);
+  bindingsArr[nInputs] = output;
+  Bindings bindings{bindingsArr};
   std::promise<void> promise;
   std::future<void> future = promise.get_future();
-  Kernel op = createKernel(ctx, {kernelCode, wgSize, kf32},
-                             Bindings{input, output}, nWorkgroups);
-  
+  Kernel op = createKernel(ctx, {spec.kernelCode, spec.wgSize, kf32},
+  bindings, spec.nWorkgroups);
   dispatchKernel(ctx, op, promise);
   wait(ctx, future);
-  toCPU(ctx, output, outputArr.data(), sizeof(outputArr));
-  for (int i = 0; i < 10; ++i) {
-    snprintf(buffer, sizeof(buffer), "  [%d] kernel(%.1f) = %.4f", i,
-             inputArr[i], outputArr[i]);
-    js_print(buffer);
+  toCPU(ctx, output, outputPtr, outputSize * sizeof(float));
+}
+
+extern "C" {
+
+void generatePreamble(size_t nInputs, Shape& wgSize, Shape& nWorkgroups, const char* out, size_t outSize) {
+  std::string result = "";
+  for (size_t i = 0; i < nInputs; ++i) {
+    result += "@group(0) @binding(" + std::to_string(i) + ") var input" + std::to_string(i) + " : array;\n";
   }
-  js_print(" ...");
-  for (int i = N - 10; i < N; ++i) {
-    snprintf(buffer, sizeof(buffer), "  [%d] kernel(%.1f) = %.4f", i,
-             inputArr[i], outputArr[i]);
-    js_print(buffer);
+  result += "@group(0) @binding(" + std::to_string(nInputs) + ") var output : array;\n";
+  result += "@compute @workgroup_size(" + std::to_string(wgSize[0]) + ", " + std::to_string(wgSize[1]) + ", " + std::to_string(wgSize[2]) + ")\n";
+  std::strncpy(const_cast<char*>(out), result.c_str(), outSize);
+}
+
+
+EMSCRIPTEN_KEEPALIVE
+void runCheck(const char *kernelCode, const Shape &wgSize,
+              const Shape &nWorkgroups) {
+  Context ctx = createContext({});
+  std::array<float, kN> output;
+  std::vector<float> input(N);
+  for (int i = 0; i < kN; ++i) {
+    input[i] = static_cast<float>(i);
   }
-  snprintf(buffer, sizeof(buffer), "Computed %zu values", N);
-  js_print(buffer);
-} // executeKernel
+  HostSpec<1> spec = {
+    wgSize,
+    nWorkgroups,
+    kernelCode,
+    std::array<std::vector<float>, 1> {input}
+  };
+  executeKernel<1>(ctx, spec, output.data(), kN); 
+}
 
 EMSCRIPTEN_KEEPALIVE
-bool runCheck(const char *kernelCode, const Shape &wgSize,
+bool evaluate(const char *kernelCode, const Shape &wgSize,
               const Shape &nWorkgroups) {
+  char buffer[1024]; // for printing
+
+  snprintf(buffer, sizeof(buffer), "Evaluating kernel with workgroup size (%zu, %zu, %zu) and nWorkgroups (%zu, %zu, %zu)",
+           wgSize[0], wgSize[1], wgSize[2], nWorkgroups[0], nWorkgroups[1], nWorkgroups[2]);
+  js_print(buffer);
   Context ctx = createContext({});
-  std::array<float, kN> outputArr;
-  executeKernel(ctx, kernelCode, wgSize, nWorkgroups, outputArr);
   TestCases testCases = createTestCases();
-  return evaluate(ctx, testCases, std::string(kernelCode), 0);
+  return evaluate(ctx, testCases, kernelCode, 0);
 }
 
 } // extern "C"
@@ -89,20 +107,19 @@ EMSCRIPTEN_BINDINGS(module) {
   emscripten::register_vector<std::vector<float>>("VectorFloat");
   emscripten::register_vector<std::vector<int>>("VectorInt");
 
+
   emscripten::function(
-      "runCheck",
+      "evaluate",
       emscripten::optional_override(
           [](const std::string &kernelCode, const std::array<size_t, 3> &wgSize,
              const std::array<size_t, 3> &nWorkgroups) {
-            return runCheck(kernelCode.c_str(),
+            return evaluate(kernelCode.c_str(),
                      Shape{static_cast<size_t>(wgSize[0]),
                            static_cast<size_t>(wgSize[1]),
                            static_cast<size_t>(wgSize[2])},
                      Shape{static_cast<size_t>(nWorkgroups[0]),
                            static_cast<size_t>(nWorkgroups[1]),
                            static_cast<size_t>(nWorkgroups[2])});
           }));
-
-  emscripten::function("checkAnswer", &checkAnswer);
 }
 #endif
diff --git a/gpu.h b/gpu.h
@@ -133,6 +133,14 @@ template <std::size_t N> struct Bindings {
     }
   }
 
+  Bindings(const std::array<Tensor, N> &init) {
+    std::copy(begin(init), end(init), begin(data));
+    std::fill(begin(viewOffsets), end(viewOffsets), 0);
+    for (size_t i = 0; i < N; ++i) {
+      viewSpans[i] = data[i].data.size;
+    }
+  }
+
   Bindings(const std::initializer_list<TensorView> &init) {
     size_t i = 0;
     for (const auto &tv : init) {
@@ -174,7 +182,7 @@ struct Context; // Forward declaration so that TensorPool can have a pointer to
  * resources.
  */
 struct TensorPool {
-  inline TensorPool(Context *ctx) : ctx(ctx), data(){};
+  inline TensorPool(Context *ctx) : ctx(ctx), data() {};
   Context *ctx;
   std::unordered_map<WGPUBuffer, Tensor> data;
   ~TensorPool();
@@ -718,7 +726,8 @@ inline Context createContext(const WGPUInstanceDescriptor &desc = {},
             "enabled, particularly on Linux.\n"
             "- Open `chrome://flags/` in the browser and make sure "
             "\"WebGPU Support\" is enabled.\n"
-        "- Chrome is launched with vulkan enabled. From the command line launch chrome as `google-chrome --enable-features=Vulkan`\n");
+            "- Chrome is launched with vulkan enabled. From the command line "
+            "launch chrome as `google-chrome --enable-features=Vulkan`\n");
       }
 #endif
       check(status == WGPURequestAdapterStatus_Success,
@@ -755,20 +764,6 @@ inline Context createContext(const WGPUInstanceDescriptor &desc = {},
       devData.device = device;
       devData.requestEnded = true;
     };
-#if defined(WEBGPU_BACKEND_DAWN) && !defined(__EMSCRIPTEN__)
-    devDescriptor.deviceLostCallbackInfo = {
-        .callback =
-            [](WGPUDevice const *device, WGPUDeviceLostReason reason,
-               char const *message, void *userdata) {
-              if (reason != WGPUDeviceLostReason_Destroyed) {
-                LOG(kDefLog, kError, "Device lost (code %d):\n%s", reason,
-                    message);
-              } else {
-                LOG(kDefLog, kInfo, "Device destroyed: %s", message);
-              }
-            },
-    };
-#endif
     wgpuAdapterRequestDevice(context.adapter, &devDescriptor,
                              onDeviceRequestEnded, (void *)&devData);
     LOG(kDefLog, kInfo, "Waiting for device request to end");