Skip to content

Commit 8915ab4

Browse files
Merge pull request #11 from schuler-henry/grundlagen
Improved texts.
2 parents 8d20c34 + a254076 commit 8915ab4

File tree

4 files changed

+69
-42
lines changed

4 files changed

+69
-42
lines changed

chapter/Einleitung.tex

+3-7
Original file line numberDiff line numberDiff line change
@@ -1,23 +1,19 @@
11
\section{Einleitung}\label{sec:Einleitung}
2-
% Analyse von Audiosignalen unter der Verwendung von Linear Predictive Coding
3-
%
4-
% - Studienarbeit -> Speaker Authentication TODO: Mit echtem Namen ersetzen
5-
% - Problematik: Es werden konkrete Zahlenwerte benötigt um von der Audio auf den Sprecher zu schließen
6-
% -> Zahlenwerte müssen einen Bezug zu einem Sprecher darstellen.
72
Im Rahmen des Informatikstudiums an der \ac{DHBW} Ravensburg muss im dritten Studienjahr eine Studienarbeit abgelegt werden.
83
Die Hochschule stellt dafür eine Auswahl an Themen zur Verfügung.
94
Eines dieser Themen beschäftigt sich mit der Problematik der Sprecherauthentifizierung, wobei es Nutzern ermöglicht werden soll, sich über ihre Stimme zu authentifizieren.
5+
In dieser Arbeit sollen die Grundlagen für die Bearbeitung dieser Studienarbeit behandelt werden.
106

117
\subsection{Kontext}
128
Damit ein Zusammenhang zwischen Stimme und Audioaufzeichnung hergestellt werden kann, müssen stimm\-spezifische Merkmale aus dem aufgezeichneten Stimmsignal extrahiert werden.
139
Im Bereich der Sprecherauthentifizierung haben sich zwei Verfahren zur Berechnung stimm\-spezifischer Merkmale etabliert: \ac{MFCC} und \ac{LPC} \autocite[vgl.][S. 116]{sidorov_text-independent_2010}\autocite[vgl.][S. 726]{chelali_text_2017}.
1410
Während mittels des \ac{MFCC} Verfahrens versucht wird, die Funktionsweise des menschlichen Ohrs abzubilden, versucht das \ac{LPC} Verfahren die Eigenschaften des menschlichen Vokaltrakts aus dem Audiosignal zu extrahieren \autocite[vgl.][S. 117]{sidorov_text-independent_2010}.
15-
Die erhaltenen Werte können anschließend für das Training eines Neuronalen Netzes verwendet werden, welches die Klassifizierung neuer Datensätze während des Authentifizierungsprozesses übernimmt.
11+
Die erhaltenen Werte können anschließend für das Training eines \acp{NN} verwendet werden, welches die Klassifizierung neuer Datensätze während des Authentifizierungsprozesses übernimmt.
1612

1713
\subsection{Ziel der Arbeit}
1814
Im Rahmen dieser Arbeit, soll das \ac{LPC} Verfahren genauer untersucht werden.
1915
Dazu soll ein Programm erstellt werden, welches ein gegebenes Audiosignal mittels \ac{LPC} in eine vordefinierte Anzahl an Koeffizienten umwandelt.
20-
In einem weiteren Schritt soll der Zusammenhang zwischen den berechneten Koeffizienten und der sprechenden Person unter Verwendung eines vereinfachten Neuronalen Netzes aufgezeigt werden.
16+
In einem weiteren Schritt soll der Zusammenhang zwischen den berechneten Koeffizienten und der sprechenden Person unter Verwendung eines vereinfachten \acp{NN} aufgezeigt werden.
2117

2218
\subsection{Vorgehensweise}
2319
% 2. Grundlagen: Signalvorverarbeitung + LPC berechnung

chapter/Grundlagen.tex

+20-35
Original file line numberDiff line numberDiff line change
@@ -1,9 +1,10 @@
11
\section{Grundlagen}\label{sec:Grundlagen}
2-
% TODO: Einleitender Text
2+
Der Schwerpunkt dieser Arbeit unterteilt sich in zwei Teile, die Signalvorverarbeitung und das \ac{LPC} Verfahren.
3+
Im Folgenden werden die theoretischen Grundlagen für beide Prozesse beschrieben.
34

45
\subsection{Signalvorverarbeitung}
56
Um ein gegebenes Audiosignal einheitlich verarbeiten zu können, muss dieses zunächst mittels verschiedener Verfahren vorbereitet werden.
6-
Ziel dieser Vorverarbeitung ist es, die Effizienz und Effektivität des anschließenden Verarbeitungsprozess zu erhöhen und somit ein verbessertes Ergebnis zu erzielen \autocite[vgl.][S. 11672]{lokesh_speech_2019}.
7+
Ziel dieser Vorverarbeitung ist es, die Effizienz und Effektivität des anschließenden Verarbeitungsprozesses zu erhöhen und somit ein verbessertes Ergebnis zu erzielen \autocite[vgl.][S. 11672]{lokesh_speech_2019}.
78
Die Vorverarbeitung im Rahmen dieser Arbeit beinhaltet die vier Schritte Rauschreduzierung, Pausen entfernen, Framing und Windowing, welche in den folgenden Unterkapiteln genauer erläutert werden.
89

910
\subsubsection{Rauschreduzierung}
@@ -18,13 +19,13 @@ \subsubsection{Pausen entfernen}
1819
Durch den vorangehenden Schritt der Rauschreduzierung kann hier ein stark vereinfachtes Verfahren gewählt werden.
1920
Liegt das Signal für einen definierten Zeitraum unterhalb einer definierten Lautstärke, werden die entsprechenden Signalwerte aus dem Gesamtsignal entfernt.
2021

21-
\subsubsection{Framing}
22-
Das Unterteilen von Audiosignalen in kleinere Blöcke (Frames) wird als Framing bezeichnet.
22+
\subsubsection{Framing}\label{sec:Framing}
23+
Für eine detaillierte Analyse des Audiosignals muss dieses in kleinere Blöcke unterteilt werden.
24+
Dieser Prozess wird als Framing bezeichnet.
2325
Dabei muss zunächst eine einheitliche Blockgröße festgelegt werden.
24-
Außerdem wird eine Überlagerungszeit definiert, welche eine Überlappung der einzelnen Blöcke verursacht.
25-
Durch die Überlappung wird ein Zusammenhang zwischen zwei benachbarten Frames und damit auch den anschließend berechneten Koeffizienten hergestellt.
26-
% TODO: Quelle hinzufügen
27-
% TODO: Warum wird überlagert -> Quelle
26+
Da Stimmsignale aufgrund der Eigenschaften des Vokaltrakts über eine Periode von 10-30 ms stationär sind, wird eine Blockgröße in dieser Zeitordnung verwendet.
27+
Zusätzlich wird eine Überlagerungszeit definiert, welche eine Überlappung der einzelnen Blöcke verursacht.
28+
Durch die Überlappung wird ein Zusammenhang zwischen zwei benachbarten Frames und damit auch den anschließend berechneten Koeffizienten hergestellt \autocite[vgl.][S. 457]{richter_signal_2022}.
2829

2930
\subsubsection{Windowing}
3031
\begin{figure}
@@ -35,15 +36,18 @@ \subsubsection{Windowing}
3536
\end{figure}
3637
Um die bei der Unterteilung des Audiosignals entstandenen Diskontinuitäten aufzulösen, wird eine Fensterfunktion auf die einzelnen Blöcke angewendet.
3738
Abbildung~\ref{fig:vonHannFenster} zeigt die von Hann Fensterfunktion, welche neben dem Hamming Fenster zu den typischen Fensterfunktionen in der Audiosignalverarbeitung zählt.
38-
Durch den Nulldurchgang am Anfang und Ende der Fensterfunktion werden die Amplituden des Blocksignals nach Anwenden der Funktion an den Grenzen auf Null gezogen, wodurch sich ein kontinuierlicher, periodischer Signalverlauf ergibt.
39+
Durch den Nulldurchgang am Anfang und Ende der Fensterfunktion werden die Amplituden des Blocksignals nach Anwenden der Funktion an den Grenzen auf Null gezogen, wodurch sich ein kontinuierlicher, periodischer Signalverlauf ergibt \autocite[vgl.][S. 462]{richter_signal_2022}.
3940

4041
Wird der Schritt des Windowing nicht durchgeführt, führt dies zu einem Phänomen namens Spectral leakage.
41-
Der Amplitudensprung an den Blockenden resultiert in der Registrierung einer vielzahl von Frequenzen, welches die korrekte Ermittlung der sich im Signal befindenden Frequenzen erschwert.
42-
Wie der Name bereits beschreibt, wird aus einer eindeutigen Frequenz, ein Spektrum aus Frequenzen.
43-
% TODO: Wird Windowing in diesem Anwendungsfall überhaupt benötigt?
44-
% Warum ist es relevant wenn ich im weiteren Verlauf keine FFT durchführe?
42+
Bei der Transformation des Signals von dem Zeitbereich in den Frequenzbereich, resultiert der Amplitudensprung an den Blockenden in der Registrierung einer vielzahl von Frequenzen.
43+
Wie der Name bereits beschreibt, wird aus einer eindeutigen Frequenz, ein Spektrum aus Frequenzen, die nicht Teil des Signals sind \autocite[vgl.][S. 1296]{wu_new_2012}.
44+
% TODO: Bessere Quelle finden
4545

4646
\subsection{Linear Predictive Coding Koeffizientenberechnung}
47+
Ausgehend von dem in Frames unterteilten Audiosignal, müssen nun für jeden Frame \ac{LPC} Koeffizienten berechnet werden, welche anschließend für die Zuordnung des Audiosignals zu einer spezifischen Stimme genutzt werden können.
48+
Die Grundlage von \ac{LPC} bildet das \ac{AR} Modell, welches zunächst beschrieben wird.
49+
Anschließend wird der theoretische Zusammenhang zwischen \ac{AR}, \ac{LPC} und der menschlichen Stimme dargestellt.
50+
4751
\subsubsection{Autoregression Modell}
4852
Die \ac{AR} basiert auf dem Konzept der multiplen Regression und wird auf zeitlich veränderliche Prozesse angewandt.
4953
Dabei wird eine Kriteriumsvariable unter Betrachtung von n Prädiktorvariablen vorhergesagt \autocite[vgl.][S. 37-38]{canela_multiple_2019}.
@@ -66,31 +70,12 @@ \subsubsection{Linear Predictive Coding}
6670
Die Regressionsgewichte $a_k$ entsprechen dabei den \ac{LPC} Koeffizienten.
6771
\newline
6872
\newline
69-
% TODO: Aktuell Wikipedia Formant
7073
Bei der Stimmerzeugung spielen die sogenannten Formanten eine Rolle.
7174
Diese beschreiben die akustische Energie in einem unveränderlichen Frequenzbereich, welche wiederum von den Resonanz- und Interferenzeigenschaften des Artikulationsraums abhängen.
72-
Dadurch werden bestimmte Frequenzen verstärkt, während andere gedämpft werden.
75+
Dadurch werden bestimmte Frequenzen verstärkt, während andere gedämpft werden \autocite[vgl.][S. 259]{fitch_evolution_2000}.
7376
Das durch die \ac{LPC} Koeffizienten erstellte Modell erfasst die Resonanzeigenschaften des Signals, wodurch Rückschlüsse auf die Formanten geschlossen werden können.
7477
Da die Struktur der Formanten Sprecherspezifisch ist, kann der Sprecher somit über die \ac{LPC} Koeffizienten identifiziert werden \autocite[vgl.][S. 117]{sidorov_text-independent_2010}.
7578
\newline
7679
\newline
77-
Zur Berechnung der \ac{LPC} Koeffizienten wird zunächst die Annahme getroffen, dass sich die Form des Vokaltrakts und das in den Stimmritzen erzeuge Signal über den betrachteten Zeitraum nicht verändert \autocite[vgl.][S. 1304]{atal_effectiveness_1974}.
78-
Somit lassen sich die Koeffizienten des \ac{AR} Filters mittels des Burg Algorithmus berechnen.
79-
80-
81-
% \subsection{Cepstral vectors/coefficients}
82-
% % TODO: Was sind Cepstral coefficients
83-
% % TODO: Warum werden sie verwendet, was ist der Vorteil?
84-
% % 1. Woher kommt der Begriff Cepstrum
85-
% % 2. Was ist der Sinn und Zweck des Cepstrums
86-
% % 3. Warum sollte es nach LPC für LPCC verwendet werden
87-
% % 4. Wie sieht die Formel dazu aus?
88-
% Formel~\ref{eq:cepstralcoefficients1} und Formel~\ref{eq:cepstralcoefficients} \autocite[][S. 1305]{atal_effectiveness_1974}.
89-
% \begin{equation}
90-
% c_{1} = a_{1}
91-
% \label{eq:cepstralcoefficients1}
92-
% \end{equation}
93-
% \begin{equation}
94-
% c_n = \sum_{k=1}^{n-1}(1-\frac{k}{n})a_{k}c_{n-k} + a_{n} , 1 < n < p
95-
% \label{eq:cepstralcoefficients}
96-
% \end{equation}
80+
Zur Berechnung der \ac{LPC} Koeffizienten wird zunächst die selbe Annahme wie in Kapitel~\ref{sec:Framing} getroffen, dass sich die Form des Vokaltrakts und das in den Stimmritzen erzeuge Signal über den betrachteten Zeitraum nicht verändert \autocite[vgl.][S. 1304]{atal_effectiveness_1974}.
81+
Somit lassen sich die Koeffizienten des \ac{AR} Filters mittels des Burg Algorithmus berechnen.

literatur/literatur.bib

+44
Original file line numberDiff line numberDiff line change
@@ -172,3 +172,47 @@ @inproceedings{kiapuchinski_spectral_2012
172172
keywords = {Spectral Noise Gate},
173173
pages = {24--27},
174174
}
175+
176+
@book{richter_signal_2022,
177+
address = {Cham},
178+
title = {Signal processing and machine learning with applications},
179+
isbn = {978-3-319-45372-9},
180+
abstract = {Signal processing captures, interprets, describes and manipulates physical phenomena. Mathematics, statistics, probability, and stochastic processes are among the signal processing languages we use to interpret real-world phenomena, model them, and extract useful information. This book presents different kinds of signals humans use and applies them for human machine interaction to communicate. Signal Processing and Machine Learning with Applications presents methods that are used to perform various Machine Learning and Artificial Intelligence tasks in conjunction with their applications. It is organized in three parts: Realms of Signal Processing; Machine Learning and Recognition; and Advanced Applications and Artificial Intelligence. The comprehensive coverage is accompanied by numerous examples, questions with solutions, with historical notes. The book is intended for advanced undergraduate and postgraduate students, researchers and practitioners who are engaged with signal processing, machine learning and the applications.},
181+
language = {eng},
182+
publisher = {Springer},
183+
author = {Richter, Michael and Paul, Sheuli and Kepuska, Veton and Silaghi, Marius},
184+
year = {2022},
185+
note = {OCLC: 1347386653},
186+
}
187+
188+
@article{wu_new_2012,
189+
title = {New {Spectral} {Leakage}-{Removing} {Method} for {Spectral} {Testing} of {Approximate} {Sinusoidal} {Signals}},
190+
volume = {61},
191+
issn = {0018-9456, 1557-9662},
192+
url = {http://ieeexplore.ieee.org/document/6134664/},
193+
doi = {10.1109/TIM.2011.2180971},
194+
number = {5},
195+
urldate = {2023-03-07},
196+
journal = {IEEE Transactions on Instrumentation and Measurement},
197+
author = {Wu, Minshun and Chen, Degang and Chen, Guican},
198+
month = may,
199+
year = {2012},
200+
pages = {1296--1306},
201+
}
202+
203+
@article{fitch_evolution_2000,
204+
title = {The evolution of speech: a comparative review},
205+
volume = {4},
206+
issn = {13646613},
207+
shorttitle = {The evolution of speech},
208+
url = {https://linkinghub.elsevier.com/retrieve/pii/S1364661300014947},
209+
doi = {10.1016/S1364-6613(00)01494-7},
210+
language = {en},
211+
number = {7},
212+
urldate = {2023-03-07},
213+
journal = {Trends in Cognitive Sciences},
214+
author = {Fitch, W.Tecumseh},
215+
month = jul,
216+
year = {2000},
217+
pages = {258--267},
218+
}

pages/abkuerzungsverzeichnis.tex

+2
Original file line numberDiff line numberDiff line change
@@ -8,5 +8,7 @@ \section*{Abkürzungsverzeichnis}
88
\acro{LPCC}[LPCC]{Linear Prediction Cepstral Coefficient}
99
\acro{MFCC}[MFCC]{Mel-frequency Cepstral Coefficients}
1010
\acro{AR}[AR]{Autoregression}
11+
\acro{NN}[NN]{Neuronales Netz}
12+
\acroplural{NN}[NN]{Neuronalen Netzes}
1113
\end{acronym}
1214
\newpage

0 commit comments

Comments
 (0)