feat(wasm): SmolLM2-135M default (fast) + Llama 1B option (quality)

unamedkr · claude · unamedkr · commit 8330cb54c3bd · 2026-04-10T21:01:07.000+09:00
1B model causes 15-30s+ prefill hang in WASM — unusable as default.
SmolLM2-135M: 135MB download, &lt;2s prefill, ~10-20 tok/s in WASM.
Quality is basic but responsive — proper demo experience.

Llama 3.2 1B Instruct kept as "Quality" option for users willing
to wait for the larger model.

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/wasm/index.html b/wasm/index.html
@@ -174,10 +174,15 @@ <h2>Run an <span>LLM</span> in your browser</h2>
         <p class="subtitle">No install. No API key. No server.</p>
 
         <div class="model-cards" id="modelCards">
-            <div class="model-card recommended" id="card-llama" onclick="loadDemoModel('llama-3.2-1b')">
+            <div class="model-card recommended" id="card-smol" onclick="loadDemoModel('smollm2-135m')">
+                <div class="name">SmolLM2 135M</div>
+                <div class="meta" id="meta-smol">~135 MB &middot; Fast response</div>
+                <span class="tag">Fast</span>
+            </div>
+            <div class="model-card" id="card-llama" onclick="loadDemoModel('llama-3.2-1b')">
                 <div class="name">Llama 3.2 1B Instruct</div>
-                <div class="meta" id="meta-llama">~770 MB &middot; Verified quality</div>
-                <span class="tag">Recommended</span>
+                <div class="meta" id="meta-llama">~770 MB &middot; Better quality</div>
+                <span class="tag blue">Quality</span>
             </div>
         </div>
 
@@ -218,6 +223,14 @@ <h2>Run an <span>LLM</span> in your browser</h2>
 let activeModelId = null;
 
 const MODELS = {
+    'smollm2-135m': {
+        url: 'https://huggingface.co/Felladrin/gguf-Q8_0-SmolLM2-135M-Instruct/resolve/main/smollm2-135m-instruct-q8_0.gguf',
+        name: 'SmolLM2 135M',
+        size: 135,
+        cacheKey: 'smollm2-135m-q8',
+        chatTemplate: (t) => t,  // SmolLM2 works best with plain text prompts
+        cardId: 'card-smol', metaId: 'meta-smol',
+    },
     'llama-3.2-1b': {
         url: 'https://huggingface.co/hugging-quants/Llama-3.2-1B-Instruct-Q4_K_M-GGUF/resolve/main/llama-3.2-1b-instruct-q4_k_m.gguf',
         name: 'Llama 3.2 1B Instruct',