unity
/

inference-engine-whisper-tiny

@@ -49,10 +49,6 @@ public class RunWhisper : MonoBehaviour
     const int TRANSLATE = 50358;  //for speech-to-text then translate to English
     const int NO_TIME_STAMPS = 50363;
     const int START_TIME = 50364;
-    Ops ops;
-    ITensorAllocator allocator;
     int numSamples;
     float[] data;
@@ -74,18 +70,22 @@ public class RunWhisper : MonoBehaviour
     void Start()
     {
-        allocator = new TensorCachingAllocator();
-        ops = WorkerFactory.CreateOps(backend, allocator);
         SetupWhiteSpaceShifts();
         GetTokens();
         Model decoder = ModelLoader.Load(Application.streamingAssetsPath + "/AudioDecoder_Tiny.sentis");
         Model encoder = ModelLoader.Load(Application.streamingAssetsPath + "/AudioEncoder_Tiny.sentis");
         Model spectro = ModelLoader.Load(Application.streamingAssetsPath + "/LogMelSepctro.sentis");
-        decoderEngine = WorkerFactory.CreateWorker(backend, decoder);
         encoderEngine = WorkerFactory.CreateWorker(backend, encoder);
         spectroEngine = WorkerFactory.CreateWorker(backend, spectro);
@@ -116,7 +116,9 @@ public class RunWhisper : MonoBehaviour
             return;
         }
-        data = new float[numSamples];
         audioClip.GetData(data, 0);
     }
@@ -136,10 +138,7 @@ public class RunWhisper : MonoBehaviour
     {
         using var input = new TensorFloat(new TensorShape(1, numSamples), data);
-        // Pad out to 30 seconds at 16khz if necessary
-        using var input30seconds = ops.Pad(input, new int[] { 0, 0, 0, maxSamples - numSamples });
-        spectroEngine.Execute(input30seconds);
         var spectroOutput = spectroEngine.PeekOutput() as TensorFloat;
         encoderEngine.Execute(spectroOutput);
@@ -156,15 +155,14 @@ public class RunWhisper : MonoBehaviour
             var inputs = new Dictionary<string, Tensor>
             {
-                {"encoded_audio",encodedAudio },
-                {"tokens" , tokensSoFar }
             };
             decoderEngine.Execute(inputs);
-            var tokensOut = decoderEngine.PeekOutput() as TensorFloat;
-            using var tokensPredictions = ops.ArgMax(tokensOut, 2, false);
-            tokensPredictions.MakeReadable();
             int ID = tokensPredictions[currentToken];
@@ -225,7 +223,5 @@ public class RunWhisper : MonoBehaviour
         decoderEngine?.Dispose();
         encoderEngine?.Dispose();
         spectroEngine?.Dispose();
-        ops?.Dispose();
-        allocator?.Dispose();
     }
 }

     const int TRANSLATE = 50358;  //for speech-to-text then translate to English
     const int NO_TIME_STAMPS = 50363;
     const int START_TIME = 50364;
     int numSamples;
     float[] data;
     void Start()
     {
         SetupWhiteSpaceShifts();
         GetTokens();
         Model decoder = ModelLoader.Load(Application.streamingAssetsPath + "/AudioDecoder_Tiny.sentis");
+        Model decoderWithArgMax = Functional.Compile(
+            (tokens, audio) => Functional.ArgMax(decoder.Forward(tokens, audio)[0], 2),
+            (decoder.inputs[0], decoder.inputs[1])
+        );
         Model encoder = ModelLoader.Load(Application.streamingAssetsPath + "/AudioEncoder_Tiny.sentis");
         Model spectro = ModelLoader.Load(Application.streamingAssetsPath + "/LogMelSepctro.sentis");
+        decoderEngine = WorkerFactory.CreateWorker(backend, decoderWithArgMax);
         encoderEngine = WorkerFactory.CreateWorker(backend, encoder);
         spectroEngine = WorkerFactory.CreateWorker(backend, spectro);
             return;
         }
+        data = new float[maxSamples];
+        numSamples = maxSamples;
+        //We will get a warning here if data.length is larger than audio length but that is OK
         audioClip.GetData(data, 0);
     }
     {
         using var input = new TensorFloat(new TensorShape(1, numSamples), data);
+        spectroEngine.Execute(input);
         var spectroOutput = spectroEngine.PeekOutput() as TensorFloat;
         encoderEngine.Execute(spectroOutput);
             var inputs = new Dictionary<string, Tensor>
             {
+                {"input_0", tokensSoFar },
+                {"input_1", encodedAudio }
             };
             decoderEngine.Execute(inputs);
+            var tokensPredictions = decoderEngine.PeekOutput() as TensorInt;
+            tokensPredictions.CompleteOperationsAndDownload();
             int ID = tokensPredictions[currentToken];
         decoderEngine?.Dispose();
         encoderEngine?.Dispose();
         spectroEngine?.Dispose();
     }
 }