Merge pull request #146 from Cloud-Code-AI/141-add-loader-for-model

sauravpanda · web-flow · commit 8736de788c0d · 2025-02-26T08:42:01.000-08:00
fix: added model loading percentage in chrome
diff --git a/examples/tts-demo/src/App.tsx b/examples/tts-demo/src/App.tsx
@@ -108,12 +108,79 @@ const Status = styled.div`
   gap: 8px;
 `;
 
+const ButtonGroup = styled.div`
+  display: flex;
+  gap: 1rem;
+  justify-content: center;
+`;
+
+const Select = styled.select`
+  width: 100%;
+  padding: 0.8rem;
+  border-radius: 8px;
+  background: #2a2a2a;
+  color: white;
+  border: 1px solid #444;
+  margin-bottom: 1rem;
+
+  &:focus {
+    outline: none;
+    border-color: #4CAF50;
+  }
+`;
+
+const InputGroup = styled.div`
+  display: flex;
+  gap: 1rem;
+  margin-bottom: 1rem;
+`;
+
+const RangeInput = styled.input`
+  width: 100%;
+  background: #2a2a2a;
+  -webkit-appearance: none;
+  height: 8px;
+  border-radius: 4px;
+  margin: 10px 0;
+
+  &::-webkit-slider-thumb {
+    -webkit-appearance: none;
+    width: 20px;
+    height: 20px;
+    background: #4CAF50;
+    border-radius: 50%;
+    cursor: pointer;
+  }
+`;
+
+const Label = styled.label`
+  color: #888;
+  margin-bottom: 0.5rem;
+  display: block;
+`;
+
+const VOICE_OPTIONS = [
+  { id: 'af_bella', name: 'Bella', language: 'en-us', gender: 'Female' },
+  { id: 'af_nicole', name: 'Nicole', language: 'en-us', gender: 'Female' },
+  { id: 'af_sarah', name: 'Sarah', language: 'en-us', gender: 'Female' },
+  { id: 'af_sky', name: 'Sky', language: 'en-us', gender: 'Female' },
+  { id: 'am_adam', name: 'Adam', language: 'en-us', gender: 'Male' },
+  { id: 'am_michael', name: 'Michael', language: 'en-us', gender: 'Male' },
+  { id: 'bf_emma', name: 'Emma', language: 'en-gb', gender: 'Female' },
+  { id: 'bf_isabella', name: 'Isabella', language: 'en-gb', gender: 'Female' },
+  { id: 'bm_george', name: 'George', language: 'en-gb', gender: 'Male' },
+  { id: 'bm_lewis', name: 'Lewis', language: 'en-gb', gender: 'Male' },
+];
+
 function App() {
   const [text, setText] = useState('');
   const [status, setStatus] = useState('');
   const [isLoading, setIsLoading] = useState(false);
   const [ttsAI] = useState(new BrowserAI());
   const [isModelLoaded, setIsModelLoaded] = useState(false);
+  const [audioBlob, setAudioBlob] = useState<Blob | null>(null);
+  const [selectedVoice, setSelectedVoice] = useState('af_bella');
+  const [speed, setSpeed] = useState(1.0);
 
   const loadModel = async () => {
     try {
@@ -145,6 +212,7 @@ function App() {
       if (audioData) {
         // Create a blob with WAV MIME type
         const blob = new Blob([audioData], { type: 'audio/wav' });
+        setAudioBlob(blob); // Store the blob for download
         const audioUrl = URL.createObjectURL(blob);
         
         // Create and play audio element
@@ -173,6 +241,19 @@ function App() {
     }
   };
 
+  const downloadAudio = () => {
+    if (audioBlob) {
+      const url = URL.createObjectURL(audioBlob);
+      const a = document.createElement('a');
+      a.href = url;
+      a.download = 'generated-speech.wav';
+      document.body.appendChild(a);
+      a.click();
+      document.body.removeChild(a);
+      URL.revokeObjectURL(url);
+    }
+  };
+
   return (
     <>
       <Banner>
@@ -197,23 +278,62 @@ function App() {
           </ButtonContent>
         </Button>
 
+        <InputGroup>
+          <div style={{ flex: 1 }}>
+            <Label>Voice</Label>
+            <Select
+              value={selectedVoice}
+              onChange={(e) => setSelectedVoice(e.target.value)}
+              disabled={!isModelLoaded || isLoading}
+            >
+              {VOICE_OPTIONS.map(voice => (
+                <option key={voice.id} value={voice.id}>
+                  {voice.name} ({voice.language}, {voice.gender})
+                </option>
+              ))}
+            </Select>
+          </div>
+          <div style={{ flex: 1 }}>
+            <Label>Speed: {speed.toFixed(1)}x</Label>
+            <RangeInput
+              type="range"
+              min="0.2"
+              max="2"
+              step="0.1"
+              value={speed}
+              onChange={(e) => setSpeed(parseFloat(e.target.value))}
+              disabled={!isModelLoaded || isLoading}
+            />
+          </div>
+        </InputGroup>
+
         <TextArea
           value={text}
           onChange={(e) => setText(e.target.value)}
           placeholder="Enter text to convert to speech..."
           disabled={!isModelLoaded || isLoading}
         />
 
-        <Button
-          onClick={speak}
-          disabled={!isModelLoaded || isLoading || !text.trim()}
-          isLoading={isLoading && isModelLoaded}
-        >
-          <ButtonContent>
-            {(isLoading && isModelLoaded) && <Spinner />}
-            {isLoading ? 'Processing...' : 'Speak'}
-          </ButtonContent>
-        </Button>
+        <ButtonGroup>
+          <Button
+            onClick={speak}
+            disabled={!isModelLoaded || isLoading || !text.trim()}
+            isLoading={isLoading && isModelLoaded}
+          >
+            <ButtonContent>
+              {(isLoading && isModelLoaded) && <Spinner />}
+              {isLoading ? 'Processing...' : 'Speak'}
+            </ButtonContent>
+          </Button>
+
+          {audioBlob && (
+            <Button onClick={downloadAudio}>
+              <ButtonContent>
+                Download Audio
+              </ButtonContent>
+            </Button>
+          )}
+        </ButtonGroup>
 
         {(status || isLoading) && (
           <Status>
diff --git a/extensions/chrome/package.json b/extensions/chrome/package.json
@@ -18,7 +18,7 @@
     "preview": "vite preview"
   },
   "dependencies": {
-    "@browserai/browserai": "^1.0.27",
+    "@browserai/browserai": "^1.0.29",
     "@radix-ui/react-accordion": "^1.2.2",
     "@radix-ui/react-alert-dialog": "^1.1.5",
     "@radix-ui/react-aspect-ratio": "^1.1.1",
diff --git a/extensions/chrome/src/helpers/executors.tsx b/extensions/chrome/src/helpers/executors.tsx
@@ -25,6 +25,7 @@ export type StepStatus = 'pending' | 'running' | 'completed' | 'error';
 interface ExecuteWorkflowParams {
   nodes: WorkflowStep[];
   onProgress?: (message: string) => void;
+  onModelLoadProgress?: (progress: number, eta: number) => void;
   setNodes: (updater: any) => void;
   isTestMode?: boolean;
 }
@@ -116,13 +117,17 @@ const nodeExecutors = {
     };
   },
 
-  'chatAgent': async (node: WorkflowStep, input: any) => {
+  'chatAgent': async (node: WorkflowStep, input: any, params?: ExecuteWorkflowParams) => {
     try {
       const browserAI = new BrowserAI();
 
-      // Use the systemPrompt from nodeData or from previous system-prompt node
-      //   const systemPrompt = node.nodeData?.systemPrompt || input?.systemPrompt || '';
-      await browserAI.loadModel(node.nodeData?.model || 'llama-3.2-1b-instruct');
+      await browserAI.loadModel(node.nodeData?.model || 'llama-3.2-1b-instruct', {
+        onProgress: (progress: any) => {
+          const progressPercent = progress.progress || 0;
+          const eta = progress.eta || 0;
+          params?.onModelLoadProgress?.(progressPercent * 100, eta);
+        }
+      });
 
       // Safely prepare the input
       let promptInput = '';
@@ -207,14 +212,18 @@ const nodeExecutors = {
     };
   },
 
-  'transcriptionAgent': async (node: WorkflowStep, input: any) => {
+  'transcriptionAgent': async (node: WorkflowStep, input: any, params?: ExecuteWorkflowParams) => {
     try {
       console.debug("transcription-agent", node, input);
       const browserAI = new BrowserAI();
 
-      // Load the specified Whisper model or default to tiny
-      const modelName = node.nodeData?.model || 'whisper-tiny-en';
-      await browserAI.loadModel(modelName);
+      await browserAI.loadModel(node.nodeData?.model || 'whisper-tiny-en', {
+        onProgress: (progress: any) => {
+          const progressPercent = progress.progress || 0;
+          const eta = progress.eta || 0;
+          params?.onModelLoadProgress?.(progressPercent * 100, eta);
+        }
+      });
 
       // Extract audio data from input
       if (!input?.audioData) {
@@ -223,14 +232,14 @@ const nodeExecutors = {
 
       // Transcribe the audio
       const transcription = await browserAI.transcribeAudio(input.audioData, {
-        model: modelName,
+        model: node.nodeData?.model || 'whisper-tiny-en',
         // Add any additional options here
       });
 
       return {
         success: true,
         output: transcription,
-        log: `Audio transcribed successfully using ${modelName}`
+        log: `Audio transcribed successfully using ${node.nodeData?.model || 'whisper-tiny-en'}`
       };
     } catch (error) {
       console.error('TranscriptionAgent error:', error);
@@ -242,6 +251,7 @@ const nodeExecutors = {
 export const executeWorkflow = async ({
   nodes,
   onProgress,
+  onModelLoadProgress,
   setNodes,
 }: ExecuteWorkflowParams): Promise<WorkflowResult> => {
   try {
@@ -322,7 +332,7 @@ export const executeWorkflow = async ({
 
         console.debug("Final nodeInput:", nodeInput);
 
-        const result = await executor(node, nodeInput);
+        const result = await executor(node, nodeInput, { onProgress, onModelLoadProgress, setNodes, nodes });
         console.debug("Node execution result:", result);
 
         // Store output in workflow data
diff --git a/extensions/chrome/src/popup/workflow-view.tsx b/extensions/chrome/src/popup/workflow-view.tsx
@@ -56,6 +56,8 @@ export function WorkflowView({ workflow, onBack }: WorkflowViewProps) {
   const [inputs, setInputs] = useState<Record<string, AudioInput | string>>({})
   const [finalOutput, setFinalOutput] = useState<string | null>(null)
   const [expandedInputs, setExpandedInputs] = useState<Record<string, boolean>>({})
+  const [modelLoadProgress, setModelLoadProgress] = useState<number | null>(null);
+  const [modelLoadEta, setModelLoadEta] = useState<number | null>(null);
 
   useEffect(() => {
     console.log('Workflow data received:', workflow);
@@ -88,6 +90,8 @@ export function WorkflowView({ workflow, onBack }: WorkflowViewProps) {
   const handleExecute = async () => {
     setIsExecuting(true);
     setExecutionProgress('');
+    setModelLoadProgress(null);
+    setModelLoadEta(null);
 
     try {
       // Process nodes and convert audio files to base64
@@ -127,6 +131,10 @@ export function WorkflowView({ workflow, onBack }: WorkflowViewProps) {
         onProgress: (progress: string) => {
           setExecutionProgress(progress);
         },
+        onModelLoadProgress: (progress: number, eta: number) => {
+          setModelLoadProgress(progress);
+          setModelLoadEta(eta);
+        },
         setNodes: (updatedNodes: WorkflowStep[]) => {
           setNodes(updatedNodes);
         }
@@ -275,6 +283,25 @@ export function WorkflowView({ workflow, onBack }: WorkflowViewProps) {
       </div>
 
       <div className="flex-1 overflow-y-auto">
+        {modelLoadProgress !== null && (
+          <div className="p-2 bg-primary/10 text-primary text-sm sticky top-0 z-10">
+            <div className="flex items-center gap-2">
+              <div className="flex-1 h-1.5 bg-primary/20 rounded-full overflow-hidden">
+                <div 
+                  className="h-full bg-primary transition-all duration-300 rounded-full"
+                  style={{ width: `${modelLoadProgress}%` }}
+                />
+              </div>
+              <span className="text-xs whitespace-nowrap">
+                Downloading model: {Math.round(modelLoadProgress)}%
+                {modelLoadEta !== null && modelLoadEta > 0 && (
+                  ` (${modelLoadEta.toFixed(1)}s remaining)`
+                )}
+              </span>
+            </div>
+          </div>
+        )}
+
         {executionProgress && (
           <div className="p-2 bg-primary/10 text-primary text-sm sticky top-0 z-10">
             {executionProgress}