Merge pull request #11 from schuler-henry/grundlagen

schuler-henry · web-flow · commit 8915ab4a031c · 2023-03-07T22:30:04.000+01:00
Improved texts.
diff --git a/chapter/Einleitung.tex b/chapter/Einleitung.tex
@@ -1,23 +1,19 @@
 \section{Einleitung}\label{sec:Einleitung}
-% Analyse von Audiosignalen unter der Verwendung von Linear Predictive Coding
-% 
-% - Studienarbeit -> Speaker Authentication TODO: Mit echtem Namen ersetzen
-% - Problematik: Es werden konkrete Zahlenwerte benötigt um von der Audio auf den Sprecher zu schließen
-%   -> Zahlenwerte müssen einen Bezug zu einem Sprecher darstellen.
 Im Rahmen des Informatikstudiums an der \ac{DHBW} Ravensburg muss im dritten Studienjahr eine Studienarbeit abgelegt werden.
 Die Hochschule stellt dafür eine Auswahl an Themen zur Verfügung.
 Eines dieser Themen beschäftigt sich mit der Problematik der Sprecherauthentifizierung, wobei es Nutzern ermöglicht werden soll, sich über ihre Stimme zu authentifizieren.
+In dieser Arbeit sollen die Grundlagen für die Bearbeitung dieser Studienarbeit behandelt werden.
 
 \subsection{Kontext}
 Damit ein Zusammenhang zwischen Stimme und Audioaufzeichnung hergestellt werden kann, müssen stimm\-spezifische Merkmale aus dem aufgezeichneten Stimmsignal extrahiert werden.
 Im Bereich der Sprecherauthentifizierung haben sich zwei Verfahren zur Berechnung stimm\-spezifischer Merkmale etabliert: \ac{MFCC} und \ac{LPC} \autocite[vgl.][S. 116]{sidorov_text-independent_2010}\autocite[vgl.][S. 726]{chelali_text_2017}.
 Während mittels des \ac{MFCC} Verfahrens versucht wird, die Funktionsweise des menschlichen Ohrs abzubilden, versucht das \ac{LPC} Verfahren die Eigenschaften des menschlichen Vokaltrakts aus dem Audiosignal zu extrahieren \autocite[vgl.][S. 117]{sidorov_text-independent_2010}.
-Die erhaltenen Werte können anschließend für das Training eines Neuronalen Netzes verwendet werden, welches die Klassifizierung neuer Datensätze während des Authentifizierungsprozesses übernimmt.
+Die erhaltenen Werte können anschließend für das Training eines \acp{NN} verwendet werden, welches die Klassifizierung neuer Datensätze während des Authentifizierungsprozesses übernimmt.
 
 \subsection{Ziel der Arbeit}
 Im Rahmen dieser Arbeit, soll das \ac{LPC} Verfahren genauer untersucht werden.
 Dazu soll ein Programm erstellt werden, welches ein gegebenes Audiosignal mittels \ac{LPC} in eine vordefinierte Anzahl an Koeffizienten umwandelt.
-In einem weiteren Schritt soll der Zusammenhang zwischen den berechneten Koeffizienten und der sprechenden Person unter Verwendung eines vereinfachten Neuronalen Netzes aufgezeigt werden.
+In einem weiteren Schritt soll der Zusammenhang zwischen den berechneten Koeffizienten und der sprechenden Person unter Verwendung eines vereinfachten \acp{NN} aufgezeigt werden.
 
 \subsection{Vorgehensweise}
 % 2. Grundlagen: Signalvorverarbeitung + LPC berechnung
diff --git a/chapter/Grundlagen.tex b/chapter/Grundlagen.tex
@@ -1,9 +1,10 @@
 \section{Grundlagen}\label{sec:Grundlagen}
-% TODO: Einleitender Text
+Der Schwerpunkt dieser Arbeit unterteilt sich in zwei Teile, die Signalvorverarbeitung und das \ac{LPC} Verfahren.
+Im Folgenden werden die theoretischen Grundlagen für beide Prozesse beschrieben.
 
 \subsection{Signalvorverarbeitung}
 Um ein gegebenes Audiosignal einheitlich verarbeiten zu können, muss dieses zunächst mittels verschiedener Verfahren vorbereitet werden.
-Ziel dieser Vorverarbeitung ist es, die Effizienz und Effektivität des anschließenden Verarbeitungsprozess zu erhöhen und somit ein verbessertes Ergebnis zu erzielen \autocite[vgl.][S. 11672]{lokesh_speech_2019}.
+Ziel dieser Vorverarbeitung ist es, die Effizienz und Effektivität des anschließenden Verarbeitungsprozesses zu erhöhen und somit ein verbessertes Ergebnis zu erzielen \autocite[vgl.][S. 11672]{lokesh_speech_2019}.
 Die Vorverarbeitung im Rahmen dieser Arbeit beinhaltet die vier Schritte Rauschreduzierung, Pausen entfernen, Framing und Windowing, welche in den folgenden Unterkapiteln genauer erläutert werden.
 
 \subsubsection{Rauschreduzierung}
@@ -18,13 +19,13 @@ \subsubsection{Pausen entfernen}
 Durch den vorangehenden Schritt der Rauschreduzierung kann hier ein stark vereinfachtes Verfahren gewählt werden.
 Liegt das Signal für einen definierten Zeitraum unterhalb einer definierten Lautstärke, werden die entsprechenden Signalwerte aus dem Gesamtsignal entfernt.
 
-\subsubsection{Framing}
-Das Unterteilen von Audiosignalen in kleinere Blöcke (Frames) wird als Framing bezeichnet.
+\subsubsection{Framing}\label{sec:Framing}
+Für eine detaillierte Analyse des Audiosignals muss dieses in kleinere Blöcke unterteilt werden.
+Dieser Prozess wird als Framing bezeichnet.
 Dabei muss zunächst eine einheitliche Blockgröße festgelegt werden.
-Außerdem wird eine Überlagerungszeit definiert, welche eine Überlappung der einzelnen Blöcke verursacht.
-Durch die Überlappung wird ein Zusammenhang zwischen zwei benachbarten Frames und damit auch den anschließend berechneten Koeffizienten hergestellt.
-% TODO: Quelle hinzufügen
-% TODO: Warum wird überlagert -> Quelle
+Da Stimmsignale aufgrund der Eigenschaften des Vokaltrakts über eine Periode von 10-30 ms stationär sind, wird eine Blockgröße in dieser Zeitordnung verwendet.
+Zusätzlich wird eine Überlagerungszeit definiert, welche eine Überlappung der einzelnen Blöcke verursacht.
+Durch die Überlappung wird ein Zusammenhang zwischen zwei benachbarten Frames und damit auch den anschließend berechneten Koeffizienten hergestellt \autocite[vgl.][S. 457]{richter_signal_2022}.
 
 \subsubsection{Windowing}
 \begin{figure}
@@ -35,15 +36,18 @@ \subsubsection{Windowing}
 \end{figure}
 Um die bei der Unterteilung des Audiosignals entstandenen Diskontinuitäten aufzulösen, wird eine Fensterfunktion auf die einzelnen Blöcke angewendet.
 Abbildung~\ref{fig:vonHannFenster} zeigt die von Hann Fensterfunktion, welche neben dem Hamming Fenster zu den typischen Fensterfunktionen in der Audiosignalverarbeitung zählt.
-Durch den Nulldurchgang am Anfang und Ende der Fensterfunktion werden die Amplituden des Blocksignals nach Anwenden der Funktion an den Grenzen auf Null gezogen, wodurch sich ein kontinuierlicher, periodischer Signalverlauf ergibt.
+Durch den Nulldurchgang am Anfang und Ende der Fensterfunktion werden die Amplituden des Blocksignals nach Anwenden der Funktion an den Grenzen auf Null gezogen, wodurch sich ein kontinuierlicher, periodischer Signalverlauf ergibt \autocite[vgl.][S. 462]{richter_signal_2022}.
 
 Wird der Schritt des Windowing nicht durchgeführt, führt dies zu einem Phänomen namens Spectral leakage.
-Der Amplitudensprung an den Blockenden resultiert in der Registrierung einer vielzahl von Frequenzen, welches die korrekte Ermittlung der sich im Signal befindenden Frequenzen erschwert.
-Wie der Name bereits beschreibt, wird aus einer eindeutigen Frequenz, ein Spektrum aus Frequenzen.
-% TODO: Wird Windowing in diesem Anwendungsfall überhaupt benötigt?
-% Warum ist es relevant wenn ich im weiteren Verlauf keine FFT durchführe?
+Bei der Transformation des Signals von dem Zeitbereich in den Frequenzbereich, resultiert der Amplitudensprung an den Blockenden in der Registrierung einer vielzahl von Frequenzen.
+Wie der Name bereits beschreibt, wird aus einer eindeutigen Frequenz, ein Spektrum aus Frequenzen, die nicht Teil des Signals sind \autocite[vgl.][S. 1296]{wu_new_2012}.
+% TODO: Bessere Quelle finden
 
 \subsection{Linear Predictive Coding Koeffizientenberechnung}
+Ausgehend von dem in Frames unterteilten Audiosignal, müssen nun für jeden Frame \ac{LPC} Koeffizienten berechnet werden, welche anschließend für die Zuordnung des Audiosignals zu einer spezifischen Stimme genutzt werden können.
+Die Grundlage von \ac{LPC} bildet das \ac{AR} Modell, welches zunächst beschrieben wird.
+Anschließend wird der theoretische Zusammenhang zwischen \ac{AR}, \ac{LPC} und der menschlichen Stimme dargestellt.
+
 \subsubsection{Autoregression Modell}
 Die \ac{AR} basiert auf dem Konzept der multiplen Regression und wird auf zeitlich veränderliche Prozesse angewandt.
 Dabei wird eine Kriteriumsvariable unter Betrachtung von n Prädiktorvariablen vorhergesagt \autocite[vgl.][S. 37-38]{canela_multiple_2019}.
@@ -66,31 +70,12 @@ \subsubsection{Linear Predictive Coding}
 Die Regressionsgewichte $a_k$ entsprechen dabei den \ac{LPC} Koeffizienten.
 \newline
 \newline
-% TODO: Aktuell Wikipedia Formant
 Bei der Stimmerzeugung spielen die sogenannten Formanten eine Rolle.
 Diese beschreiben die akustische Energie in einem unveränderlichen Frequenzbereich, welche wiederum von den Resonanz- und Interferenzeigenschaften des Artikulationsraums abhängen.
-Dadurch werden bestimmte Frequenzen verstärkt, während andere gedämpft werden.
+Dadurch werden bestimmte Frequenzen verstärkt, während andere gedämpft werden \autocite[vgl.][S. 259]{fitch_evolution_2000}.
 Das durch die \ac{LPC} Koeffizienten erstellte Modell erfasst die Resonanzeigenschaften des Signals, wodurch Rückschlüsse auf die Formanten geschlossen werden können.
 Da die Struktur der Formanten Sprecherspezifisch ist, kann der Sprecher somit über die \ac{LPC} Koeffizienten identifiziert werden \autocite[vgl.][S. 117]{sidorov_text-independent_2010}.
 \newline
 \newline
-Zur Berechnung der \ac{LPC} Koeffizienten wird zunächst die Annahme getroffen, dass sich die Form des Vokaltrakts und das in den Stimmritzen erzeuge Signal über den betrachteten Zeitraum nicht verändert \autocite[vgl.][S. 1304]{atal_effectiveness_1974}.
-Somit lassen sich die Koeffizienten des \ac{AR} Filters mittels des Burg Algorithmus berechnen.
-
-
-% \subsection{Cepstral vectors/coefficients}
-% % TODO: Was sind Cepstral coefficients
-% % TODO: Warum werden sie verwendet, was ist der Vorteil?
-% % 1. Woher kommt der Begriff Cepstrum
-% % 2. Was ist der Sinn und Zweck des Cepstrums
-% % 3. Warum sollte es nach LPC für LPCC verwendet werden
-% % 4. Wie sieht die Formel dazu aus?
-% Formel~\ref{eq:cepstralcoefficients1} und Formel~\ref{eq:cepstralcoefficients} \autocite[][S. 1305]{atal_effectiveness_1974}.
-% \begin{equation}
-%   c_{1} = a_{1}
-%   \label{eq:cepstralcoefficients1}
-% \end{equation}
-% \begin{equation}
-%   c_n = \sum_{k=1}^{n-1}(1-\frac{k}{n})a_{k}c_{n-k} + a_{n} , 1 < n < p
-%   \label{eq:cepstralcoefficients}
-% \end{equation}
+Zur Berechnung der \ac{LPC} Koeffizienten wird zunächst die selbe Annahme wie in Kapitel~\ref{sec:Framing} getroffen, dass sich die Form des Vokaltrakts und das in den Stimmritzen erzeuge Signal über den betrachteten Zeitraum nicht verändert \autocite[vgl.][S. 1304]{atal_effectiveness_1974}.
+Somit lassen sich die Koeffizienten des \ac{AR} Filters mittels des Burg Algorithmus berechnen.
diff --git a/literatur/literatur.bib b/literatur/literatur.bib
@@ -172,3 +172,47 @@ @inproceedings{kiapuchinski_spectral_2012
 	keywords = {Spectral Noise Gate},
 	pages = {24--27},
 }
+
+@book{richter_signal_2022,
+	address = {Cham},
+	title = {Signal processing and machine learning with applications},
+	isbn = {978-3-319-45372-9},
+	abstract = {Signal processing captures, interprets, describes and manipulates physical phenomena. Mathematics, statistics, probability, and stochastic processes are among the signal processing languages we use to interpret real-world phenomena, model them, and extract useful information. This book presents different kinds of signals humans use and applies them for human machine interaction to communicate. Signal Processing and Machine Learning with Applications presents methods that are used to perform various Machine Learning and Artificial Intelligence tasks in conjunction with their applications. It is organized in three parts: Realms of Signal Processing; Machine Learning and Recognition; and Advanced Applications and Artificial Intelligence. The comprehensive coverage is accompanied by numerous examples, questions with solutions, with historical notes. The book is intended for advanced undergraduate and postgraduate students, researchers and practitioners who are engaged with signal processing, machine learning and the applications.},
+	language = {eng},
+	publisher = {Springer},
+	author = {Richter, Michael and Paul, Sheuli and Kepuska, Veton and Silaghi, Marius},
+	year = {2022},
+	note = {OCLC: 1347386653},
+}
+
+@article{wu_new_2012,
+	title = {New {Spectral} {Leakage}-{Removing} {Method} for {Spectral} {Testing} of {Approximate} {Sinusoidal} {Signals}},
+	volume = {61},
+	issn = {0018-9456, 1557-9662},
+	url = {http://ieeexplore.ieee.org/document/6134664/},
+	doi = {10.1109/TIM.2011.2180971},
+	number = {5},
+	urldate = {2023-03-07},
+	journal = {IEEE Transactions on Instrumentation and Measurement},
+	author = {Wu, Minshun and Chen, Degang and Chen, Guican},
+	month = may,
+	year = {2012},
+	pages = {1296--1306},
+}
+
+@article{fitch_evolution_2000,
+	title = {The evolution of speech: a comparative review},
+	volume = {4},
+	issn = {13646613},
+	shorttitle = {The evolution of speech},
+	url = {https://linkinghub.elsevier.com/retrieve/pii/S1364661300014947},
+	doi = {10.1016/S1364-6613(00)01494-7},
+	language = {en},
+	number = {7},
+	urldate = {2023-03-07},
+	journal = {Trends in Cognitive Sciences},
+	author = {Fitch, W.Tecumseh},
+	month = jul,
+	year = {2000},
+	pages = {258--267},
+}
diff --git a/pages/abkuerzungsverzeichnis.tex b/pages/abkuerzungsverzeichnis.tex
@@ -8,5 +8,7 @@ \section*{Abkürzungsverzeichnis}
   \acro{LPCC}[LPCC]{Linear Prediction Cepstral Coefficient}
   \acro{MFCC}[MFCC]{Mel-frequency Cepstral Coefficients}
   \acro{AR}[AR]{Autoregression}
+  \acro{NN}[NN]{Neuronales Netz}
+  \acroplural{NN}[NN]{Neuronalen Netzes}
 \end{acronym}
 \newpage