From cca4c9fa096f98fb8aee85acefa0673a23fb47eb Mon Sep 17 00:00:00 2001
From: FabKlein <fabien.klein@arm.com>
Date: Wed, 15 Sep 2021 09:22:17 +0000
Subject: [PATCH]     Replaced KissFFT with CMSIS DSP FFT and added Helium
 optimizations in the audio frontend     (microspeech.Example.Helium.cprj
 project)

---
 .../microspeech.Example.Helium.cprj           | 133 ++++++++++++++
 micro_speech/src/microfrontend/lib/fft.cc     |   7 +
 .../src/microfrontend/lib/fft_util.cc         |  18 ++
 .../src/microfrontend/lib/filterbank.c        | 170 ++++++++++++++++++
 micro_speech/src/microfrontend/lib/window.c   |  50 ++++++
 5 files changed, 378 insertions(+)
 create mode 100644 Platform_FVP_Corstone_SSE-300_Ethos-U55/microspeech.Example.Helium.cprj
diff --git a/Platform_FVP_Corstone_SSE-300_Ethos-U55/microspeech.Example.Helium.cprj b/Platform_FVP_Corstone_SSE-300_Ethos-U55/microspeech.Example.Helium.cprj
new file mode 100644
index 0000000..1b68214
--- /dev/null
+++ b/Platform_FVP_Corstone_SSE-300_Ethos-U55/microspeech.Example.Helium.cprj
@@ -0,0 +1,133 @@
+<?xml version="1.0" encoding="UTF-8" standalone="no" ?>
+<cprj schemaVersion="0.0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="CPRJ.xsd">
+
+  <created timestamp="2021-09-06T09:47:49" tool="uVision V5.35.0.0"/>
+
+  <info>
+    <name>Blinky</name>
+    <description/>
+  </info>
+
+  <packages>
+    <package name="CMSIS" vendor="ARM"/>
+    <package name="V2M_MPS3_SSE_300_BSP" vendor="ARM"/>
+    <package name="flatbuffers" vendor="tensorflow"/>
+    <package name="gemmlowp" vendor="tensorflow"/>
+    <package name="kissfft" vendor="tensorflow"/>
+    <package name="ruy" vendor="tensorflow"/>
+    <package name="tensorflow-lite-micro" vendor="tensorflow"/>
+    <package name="ARM_Compiler" vendor="Keil"/>
+  </packages>
+
+  <compilers>
+    <compiler name="AC6" version="6.0.0:6.99.99"/>
+  </compilers>
+
+  <target Ddsp="DSP" Dendian="Little-endian" Dfpu="SP_FPU" Dmve="MVE" Dname="SSE-300-MPS3" Dsecure="TZ-disabled" Dtz="TZ" Dvendor="ARM:82">
+    <output intdir="./Objects/" name="microspeech" outdir="./Objects/" type="exe"/>
+    <ldflags add="--strict --diag_suppress 6439,6314 --summary_stderr --info summarysizes --map --load_addr_map_info --xref --callgraph --symbols --info sizes --info totals --info unused --info veneers --entry=Reset_Handler --lto" compiler="AC6" file="./RTE/Device/SSE-300-MPS3/fvp_sse300_mps3_s.sct"/>
+    <cflags add="-Ofast -Wno-documentation -Wno-documentation-unknown-command -Wno-license-management -Wno-missing-noreturn -Wno-missing-prototypes -Wno-missing-variable-declarations -Wno-nonportable-include-path -Wno-packed -Wno-parentheses-equality -Wno-reserved-id-macro -Wno-sign-conversion -Wno-unused-macros -ffunction-sections -fno-rtti -fshort-enums -fshort-wchar -funsigned-char -gdwarf-4 -std=c99 -xc -flto" compiler="AC6"/>
+    <cxxflags add="-Ofast -Wno-documentation -Wno-documentation-unknown-command -Wno-license-management -Wno-missing-noreturn -Wno-missing-prototypes -Wno-missing-variable-declarations -Wno-nonportable-include-path -Wno-packed -Wno-parentheses-equality -Wno-reserved-id-macro -Wno-sign-conversion -Wno-unused-macros -ffunction-sections -fno-exceptions -fno-rtti -fshort-enums -fshort-wchar -funsigned-char -gdwarf-4 -std=c++14 -xc++ -flto" compiler="AC6"/>
+    <asflags add="-gdwarf-3 -masm=gnu" compiler="AC6"/>
+    <includes>../VSI/audio/include;../VSI/include;../micro_speech/src</includes>
+    <defines>__FVP_PY</defines>
+  </target>
+
+  <components>
+    <component Cclass="CMSIS" Cgroup="CORE" Cvendor="ARM"/>
+    <component Cclass="CMSIS" Cgroup="DSP" Cvariant="Source" Cvendor="ARM"/>
+    <component Cclass="CMSIS" Cgroup="NN Lib" Cvendor="ARM"/>
+    <component Cclass="CMSIS" Cgroup="RTOS2" Csub="Keil RTX5" Cvariant="Source" Cvendor="ARM">
+      <file attr="config" category="source" name="CMSIS/RTOS2/RTX/Config/RTX_Config.c" version="5.1.1"/>
+      <file attr="config" category="header" name="CMSIS/RTOS2/RTX/Config/RTX_Config.h" version="5.5.2"/>
+    </component>
+    <component Cclass="CMSIS Driver" Cgroup="MPC" Cvendor="ARM"/>
+    <component Cclass="CMSIS Driver" Cgroup="PPC" Cvendor="ARM"/>
+    <component Cclass="CMSIS Driver" Cgroup="SPI" Cvendor="ARM"/>
+    <component Cclass="CMSIS Driver" Cgroup="USART" Cvendor="ARM"/>
+    <component Cclass="Data Exchange" Cgroup="Serialization" Csub="flatbuffers" Cvariant="tensorflow" Cvendor="tensorflow"/>
+    <component Cclass="Data Processing" Cgroup="Math" Csub="gemmlowp fixed-point" Cvariant="tensorflow" Cvendor="tensorflow"/>
+    <component Cclass="Data Processing" Cgroup="Math" Csub="kissfft" Cvariant="tensorflow" Cvendor="tensorflow"/>
+    <component Cclass="Data Processing" Cgroup="Math" Csub="ruy" Cvariant="tensorflow" Cvendor="tensorflow"/>
+    <component Cclass="Device" Cgroup="Definition" Cvendor="ARM">
+      <file attr="config" category="header" name="Board/Platform/platform_base_address.h" version="1.1.2"/>
+      <file attr="config" category="source" name="Device/Source/system_SSE300MPS3.c" version="1.1.1"/>
+    </component>
+    <component Cclass="Device" Cgroup="Startup" Cvariant="Baremetal" Cvendor="ARM">
+      <file attr="config" category="header" name="CMSIS_Driver/Config/Baremetal/cmsis_driver_config.h" version="1.1.1"/>
+      <file attr="config" category="header" name="CMSIS_Driver/Config/RTE_Device.h" version="1.1.0"/>
+      <file attr="config" category="header" name="Device/Config/Baremetal/device_cfg.h" version="1.1.2"/>
+      <file attr="config" category="header" name="Device/Include/region_defs.h" version="1.0.0"/>
+      <file attr="config" category="header" name="Device/Include/region_limits.h" version="1.0.0"/>
+      <file attr="config" category="linkerScript" name="Device/Source/armclang/fvp_sse300_mps3_s.sct" version="1.1.0"/>
+      <file attr="config" category="source" name="Device/Source/startup_fvp_sse300_mps3.c" version="1.1.1"/>
+    </component>
+    <component Cclass="Machine Learning" Cgroup="TensorFlow" Csub="Kernel" Cvariant="CMSIS-NN" Cvendor="tensorflow"/>
+    <component Cclass="Machine Learning" Cgroup="TensorFlow" Csub="Kernel Utils" Cvendor="tensorflow">
+      <file attr="config" category="sourceCpp" name="tensorflow/lite/micro/cortex_m_generic/debug_log.cc" version="1.0"/>
+      <file attr="config" category="sourceCpp" name="tensorflow/lite/micro/cortex_m_generic/micro_time.cc" version="1.0"/>
+      <file attr="config" category="sourceCpp" name="tensorflow/lite/micro/system_setup.cc" version="1.0"/>
+    </component>
+    <component Cclass="Native Driver" Cgroup="GPIO" Cvendor="ARM"/>
+    <component Cclass="Native Driver" Cgroup="IO" Cvendor="ARM"/>
+    <component Cclass="Native Driver" Cgroup="MPC" Cvendor="ARM"/>
+    <component Cclass="Native Driver" Cgroup="PPC" Cvendor="ARM"/>
+    <component Cclass="Native Driver" Cgroup="SPI" Cvendor="ARM"/>
+    <component Cclass="Native Driver" Cgroup="SysCounter" Cvendor="ARM"/>
+    <component Cclass="Native Driver" Cgroup="SysTimer" Cvendor="ARM"/>
+    <component Cclass="Native Driver" Cgroup="UART" Cvendor="ARM"/>
+    <component Cclass="Native Driver" Cgroup="Watch Dog" Cvendor="ARM"/>
+    <component Cbundle="ARM Compiler" Cclass="Compiler" Cgroup="Event Recorder" Cvariant="DAP" Cvendor="Keil">
+      <file attr="config" category="header" name="Config/EventRecorderConf.h" version="1.1.0"/>
+    </component>
+    <component Cbundle="ARM Compiler" Cclass="Compiler" Cgroup="I/O" Csub="STDOUT" Cvariant="User" Cvendor="Keil"/>
+  </components>
+
+  <files>
+    <group name="App">
+      <file category="sourceC" name="./microspeech.c"/>
+    </group>
+    <group name="Board">
+      <file category="sourceC" name="./main.c"/>
+      <file category="header" name="./main.h"/>
+    </group>
+    <group name="Board IO">
+      <file category="sourceC" name="./Board_IO/retarget_stdio.c"/>
+    </group>
+    <group name="Driver">
+      <file category="sourceC" name="../VSI/audio/driver/audio_drv.c"/>
+    </group>
+    <group name="TF_micro_frontend">
+      <file category="sourceCpp" name="../micro_speech/src/microfrontend/lib/fft.cc"/>
+      <file category="sourceCpp" name="../micro_speech/src/microfrontend/lib/fft_util.cc"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/filterbank.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/filterbank_util.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/frontend.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/frontend_util.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/log_lut.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/log_scale.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/log_scale_util.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/noise_reduction.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/noise_reduction_util.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/pcan_gain_control.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/pcan_gain_control_util.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/window.c"/>
+      <file category="sourceC" name="../micro_speech/src/microfrontend/lib/window_util.c"/>
+    </group>
+    <group name="TF_micro_features">
+      <file category="sourceCpp" name="../micro_speech/src/micro_features/micro_features_generator.cc"/>
+      <file category="sourceCpp" name="../micro_speech/src/micro_features/micro_model_settings.cc"/>
+      <file category="sourceCpp" name="../micro_speech/src/micro_features/model.cc"/>
+      <file category="sourceCpp" name="../micro_speech/src/micro_features/no_micro_features_data.cc"/>
+      <file category="sourceCpp" name="../micro_speech/src/micro_features/yes_micro_features_data.cc"/>
+    </group>
+    <group name="TF_main">
+      <file category="sourceCpp" name="../micro_speech/src/audio_provider.cc"/>
+      <file category="sourceCpp" name="../micro_speech/src/command_responder.cc"/>
+      <file category="sourceCpp" name="../micro_speech/src/feature_provider.cc"/>
+      <file category="sourceCpp" name="../micro_speech/src/main_functions.cc"/>
+      <file category="sourceCpp" name="../micro_speech/src/recognize_commands.cc"/>
+    </group>
+  </files>
+
+</cprj>
diff --git a/micro_speech/src/microfrontend/lib/fft.cc b/micro_speech/src/microfrontend/lib/fft.cc
index f605b1d..2897237 100644
--- a/micro_speech/src/microfrontend/lib/fft.cc
+++ b/micro_speech/src/microfrontend/lib/fft.cc
@@ -19,6 +19,7 @@ limitations under the License.
 #define FIXED_POINT 16
 #include "kiss_fft.h"
 #include "tools/kiss_fftr.h"
+#include <arm_math.h>
 
 void FftCompute(struct FftState* state, const int16_t* input,
                 int input_scale_shift) {
@@ -38,9 +39,15 @@ void FftCompute(struct FftState* state, const int16_t* input,
   }
 
   // Apply the FFT.
+#ifdef USE_KISS_FFT
   kiss_fftr(reinterpret_cast<kiss_fftr_cfg>(state->scratch),
             state->input,
             reinterpret_cast<kiss_fft_cpx*>(state->output));
+#else
+  arm_rfft_q15(reinterpret_cast<arm_rfft_instance_q15 *>(state->scratch),
+            state->input,
+            reinterpret_cast<int16_t *>(state->output));
+#endif
 }
 
 void FftInit(struct FftState* state) {
diff --git a/micro_speech/src/microfrontend/lib/fft_util.cc b/micro_speech/src/microfrontend/lib/fft_util.cc
index 95d618a..4808820 100644
--- a/micro_speech/src/microfrontend/lib/fft_util.cc
+++ b/micro_speech/src/microfrontend/lib/fft_util.cc
@@ -20,6 +20,8 @@ limitations under the License.
 #include "kiss_fft.h"
 #include "tools/kiss_fftr.h"
 
+#include "arm_math.h"
+
 int FftPopulateState(struct FftState* state, size_t input_size) {
   state->input_size = input_size;
   state->fft_size = 1;
@@ -41,6 +43,21 @@ int FftPopulateState(struct FftState* state, size_t input_size) {
     return 0;
   }
 
+#ifndef USE_KISS_FFT
+    arm_rfft_instance_q15 * cmsisFft;
+
+    cmsisFft = (arm_rfft_instance_q15 *)malloc(sizeof(arm_rfft_instance_q15));
+    if (cmsisFft == nullptr) {
+       fprintf(stderr, "Failed to alloc cmsis fft context\n");
+       return 0;
+    }
+    if (arm_rfft_init_q15(cmsisFft, state->fft_size, 0, 1) != ARM_MATH_SUCCESS) {
+       fprintf(stderr, "Failed to init cmsis fft \n");
+       return 0;
+    }
+
+    state->scratch = cmsisFft;
+#else
   // Ask kissfft how much memory it wants.
   size_t scratch_size = 0;
   kiss_fftr_cfg kfft_cfg = kiss_fftr_alloc(
@@ -62,6 +79,7 @@ int FftPopulateState(struct FftState* state, size_t input_size) {
     fprintf(stderr, "Kiss memory preallocation strategy failed.\n");
     return 0;
   }
+#endif
   return 1;
 }
 
diff --git a/micro_speech/src/microfrontend/lib/filterbank.c b/micro_speech/src/microfrontend/lib/filterbank.c
index 4ca79c5..f2010e6 100644
--- a/micro_speech/src/microfrontend/lib/filterbank.c
+++ b/micro_speech/src/microfrontend/lib/filterbank.c
@@ -18,6 +18,108 @@ limitations under the License.
 
 #include "microfrontend/lib/bits.h"
 
+#ifdef __ARM_FEATURE_MVE
+
+#include <arm_mve.h>
+#include "arm_math.h"
+
+
+#if (__ARM_FEATURE_MVE & 2)
+#define INVSQRT_MAGIC_F32           0x5f3759df
+
+__STATIC_INLINE f32x4_t visqrtf_f32(
+    f32x4_t vecIn)
+{
+    int32x4_t       vecNewtonInit = vdupq_n_s32(INVSQRT_MAGIC_F32);
+    f32x4_t         vecOneHandHalf = vdupq_n_f32(1.5f);
+    f32x4_t         vecDst;
+    f32x4_t         vecHalf;
+    int32x4_t       vecTmpInt;
+    f32x4_t         vecTmpFlt, vecTmpFlt1;
+
+
+    vecHalf = vmulq_n_f32(vecIn, 0.500001f);
+
+    /*
+     * cast input float vector to integer and right shift by 1
+     */
+    vecTmpInt = vshrq_n_s32((int32x4_t) vecIn, 1);
+    /*
+     * INVSQRT_MAGIC - ((vec_q32_t)vecIn >> 1)
+     */
+    vecTmpInt = vsubq(vecNewtonInit, vecTmpInt);
+    /*
+     *------------------------------
+     * 1st iteration
+     *------------------------------
+     * (1.5f-xhalf*x*x)
+     */
+    vecTmpFlt1 = vmulq((f32x4_t) vecTmpInt, (f32x4_t) vecTmpInt);
+    vecTmpFlt1 = vmulq(vecTmpFlt1, vecHalf);
+    vecTmpFlt1 = vsubq(vecOneHandHalf, vecTmpFlt1);
+    /*
+     * x = x*(1.5f-xhalf*x*x);
+     */
+    vecTmpFlt = vmulq((f32x4_t) vecTmpInt, vecTmpFlt1);
+
+    /*
+     *------------------------------
+     * 2nd iteration
+     *------------------------------
+     */
+    vecTmpFlt1 = vmulq(vecTmpFlt, vecTmpFlt);
+    vecTmpFlt1 = vmulq(vecTmpFlt1, vecHalf);
+    vecTmpFlt1 = vsubq(vecOneHandHalf, vecTmpFlt1);
+    vecDst = vmulq(vecTmpFlt, vecTmpFlt1);
+    /*
+     * set negative values to NAN
+     */
+    vecDst = vdupq_m(vecDst, NAN, vcmpltq(vecIn, 0.0f));
+    vecDst = vdupq_m(vecDst, INFINITY, vcmpeqq(vecIn, 0.0f));
+    return vecDst;
+}
+
+__STATIC_FORCEINLINE f32x4_t vsqrtf_f32(
+    f32x4_t vecIn)
+{
+    f32x4_t         vecDst;
+
+    /* inverse square root unsing 2 newton iterations */
+    vecDst = visqrtf_f32(vecIn);
+    vecDst = vdupq_m(vecDst, 0.0f, vcmpeqq(vecIn, 0.0f));
+    vecDst = vecDst * vecIn;
+    return vecDst;
+}
+
+#endif
+
+
+static void arm_cmplx_lmag_squared_q15(
+  const int16_t * pSrc,
+        int32_t * pDst,
+        uint32_t numSamples)
+{
+    int32_t         blkSize = numSamples;
+    int16x8_t       vecSrc;
+    vecSrc = vld1q(pSrc);
+    pSrc += 8;
+
+    do {
+        mve_pred16_t    p = vctp32q(blkSize);
+
+        vst1q_p(pDst,
+                vaddq_x(vmullbq_int(vecSrc, vecSrc), vmulltq_int(vecSrc, vecSrc), p), p);
+        vecSrc = vld1q_z(pSrc, p);
+
+        blkSize -= 4;
+        pSrc += 8;
+        pDst += 4;
+    }
+    while (blkSize > 0);
+}
+
+#endif
+
 void FilterbankConvertFftComplexToEnergy(struct FilterbankState* state,
                                          struct complex_int16_t* fft_output,
                                          int32_t* energy) {
@@ -25,6 +127,8 @@ void FilterbankConvertFftComplexToEnergy(struct FilterbankState* state,
   int i;
   energy += state->start_index;
   fft_output += state->start_index;
+
+#ifndef __ARM_FEATURE_MVE
   for (i = state->start_index; i < end_index; ++i) {
     const int32_t real = fft_output->real;
     const int32_t imag = fft_output->imag;
@@ -32,6 +136,9 @@ void FilterbankConvertFftComplexToEnergy(struct FilterbankState* state,
     const uint32_t mag_squared = (real * real) + (imag * imag);
     *energy++ = mag_squared;
   }
+#else
+    arm_cmplx_lmag_squared_q15(&fft_output->real, energy, end_index - state->start_index);
+#endif
 }
 
 void FilterbankAccumulateChannels(struct FilterbankState* state,
@@ -46,6 +153,7 @@ void FilterbankAccumulateChannels(struct FilterbankState* state,
 
   int num_channels_plus_1 = state->num_channels + 1;
   int i;
+#ifndef __ARM_FEATURE_MVE
   for (i = 0; i < num_channels_plus_1; ++i) {
     const int32_t* magnitudes = energy + *channel_frequency_starts++;
     const int16_t* weights = state->weights + *channel_weight_starts;
@@ -61,6 +169,34 @@ void FilterbankAccumulateChannels(struct FilterbankState* state,
     weight_accumulator = unweight_accumulator;
     unweight_accumulator = 0;
   }
+#else
+  uint32_t* work32 = (uint32_t*)work;
+
+  for (i = 0; i < num_channels_plus_1; ++i) {
+    const int32_t* magnitudes = energy + *channel_frequency_starts++;
+    const int16_t* weights = state->weights + *channel_weight_starts;
+    const int16_t* unweights = state->unweights + *channel_weight_starts++;
+    const int width = *channel_widths++;
+    int j;
+
+    for (j = 0; j < width/4; ++j) {
+        weight_accumulator = vmlaldavaq(weight_accumulator, vld1q(magnitudes), vldrhq_s32(weights));
+        unweight_accumulator = vmlaldavaq(unweight_accumulator, vld1q(magnitudes), vldrhq_s32(unweights));
+
+        magnitudes += 4;
+        weights+=4;
+        unweights+=4;
+    }
+
+#if !(__ARM_FEATURE_MVE & 2)
+    *work++ = weight_accumulator;
+#else
+    *work32++ = asrl(weight_accumulator, 16);;
+#endif
+    weight_accumulator = unweight_accumulator;
+    unweight_accumulator = 0;
+  }
+#endif
 }
 
 static uint16_t Sqrt32(uint32_t num) {
@@ -116,6 +252,20 @@ static uint32_t Sqrt64(uint64_t num) {
   return res;
 }
 
+uint32_t* FilterbankSqrt1(struct FilterbankState* state, int scale_down_shift) {
+  const int num_channels = state->num_channels;
+  const uint64_t* work = state->work + 1;
+  // Reuse the work buffer since we're fine clobbering it at this point to hold
+  // the output.
+  uint32_t* output = (uint32_t*)state->work;
+  int i;
+  for (i = 0; i < num_channels; ++i) {
+    *output++ = Sqrt64(*work++) >> scale_down_shift;
+  }
+  return (uint32_t*)state->work;
+}
+
+
 uint32_t* FilterbankSqrt(struct FilterbankState* state, int scale_down_shift) {
   const int num_channels = state->num_channels;
   const uint64_t* work = state->work + 1;
@@ -123,9 +273,29 @@ uint32_t* FilterbankSqrt(struct FilterbankState* state, int scale_down_shift) {
   // the output.
   uint32_t* output = (uint32_t*)state->work;
   int i;
+
+#if !(__ARM_FEATURE_MVE & 2)
   for (i = 0; i < num_channels; ++i) {
     *output++ = Sqrt64(*work++) >> scale_down_shift;
   }
+#else
+  const uint32_t* work32 = (uint32_t*)(state->work);//
+  // jump over 1st bin
+  work32 = work32 + 1;
+
+  float32_t scale = powf(2.0f, 8-scale_down_shift);
+
+  for (i = 0; i < num_channels/4; ++i) {
+      int32x4_t vsrc = vld1q(work32);
+      f32x4_t vsrcf = vcvtq_f32_s32(vsrc);
+      f32x4_t vdst = vsqrtf_f32(vsrcf);
+
+      vstrwq_u32(output, vcvtpq_s32_f32(vdst*scale));
+      output+=4;
+      work32+=4;
+  }
+
+#endif
   return (uint32_t*)state->work;
 }
 
diff --git a/micro_speech/src/microfrontend/lib/window.c b/micro_speech/src/microfrontend/lib/window.c
index 00a3f42..7343637 100644
--- a/micro_speech/src/microfrontend/lib/window.c
+++ b/micro_speech/src/microfrontend/lib/window.c
@@ -16,6 +16,49 @@ limitations under the License.
 
 #include <string.h>
 
+#ifdef __ARM_FEATURE_MVE
+
+#include <arm_mve.h>
+
+static int16_t arm_win_process_samples_mve(const int16_t * pSrc,
+                                const int16_t * pCoef, uint32_t blockSize, int16_t * pResult)
+{
+    int32_t         blkSize = blockSize;
+    int16x8_t       curExtremValVec = vdupq_n_s16(0);
+    int16_t         maxValue = 0;
+
+    int16x8_t       vecSrc = vld1q(pSrc);
+    pSrc += 8;
+
+    do {
+        mve_pred16_t    p = vctp16q(blkSize);
+        int16x8_t       vecDst, vecCoef;
+
+        vecCoef = vld1q_z(pCoef, p);
+
+        /* long multiply + narrowing */
+        vecDst = vuninitializedq_s16();
+        vecDst = vqshrnbq_m_n_s32(vecDst, vmullbq_int(vecSrc, vecCoef), kFrontendWindowBits, p);
+        vecDst = vqshrntq_m_n_s32(vecDst, vmulltq_int(vecSrc, vecCoef), kFrontendWindowBits, p);
+
+        vecSrc = vld1q_z(pSrc, p);
+
+        vst1q_p(pResult, vecDst, p);
+
+        curExtremValVec = vmaxq_m(vecDst, vabsq(vecDst), curExtremValVec, p);
+
+        blkSize -= 8;
+        pSrc += 8;
+        pCoef += 8;
+        pResult += 8;
+
+    }
+    while (blkSize > 0);
+
+    return (vmaxvq(maxValue, curExtremValVec));
+}
+#endif
+
 int WindowProcessSamples(struct WindowState* state, const int16_t* samples,
                          size_t num_samples, size_t* num_samples_read) {
   const int size = state->size;
@@ -41,6 +84,9 @@ int WindowProcessSamples(struct WindowState* state, const int16_t* samples,
   int16_t* output = state->output;
   int i;
   int16_t max_abs_output_value = 0;
+#ifndef __ARM_FEATURE_MVE
+  int i;
+
   for (i = 0; i < size; ++i) {
     int16_t new_value =
         (((int32_t)*input++) * *coefficients++) >> kFrontendWindowBits;
@@ -52,6 +98,10 @@ int WindowProcessSamples(struct WindowState* state, const int16_t* samples,
       max_abs_output_value = new_value;
     }
   }
+#else
+   max_abs_output_value = arm_win_process_samples_mve(input, coefficients, size, output);
+#endif
+
   // Shuffle the input down by the step size, and update how much we have used.
   memmove(state->input, state->input + state->step,
           sizeof(*state->input) * (state->size - state->step));