Home

Dokumentation Textanalyse-Werkzeuge-Projekt von Thomas Jagla, 3015634:

Thema: Evaluation von deutschen Bewertungen (durch Bestimmung von Tendenzen) mit Fokus auf Online-Bewertungsportalen

Beinhaltete Dateien:

OpinionReader.java
OpinionEvaluatorPipeline.java
OpinionEvaluator.java
EvaluationTendency.java
EvaluationTendency_Type.java
EvaluationTendency.xml
OpinionEvaluatorTest.java
OpinionEvaluatorBaselineTest.java
OpinionEvaluatorTrainingTest.java
OpinionEvaluatorIndependentTest.java
positiveOpinions.txt
neutralOpinions.txt
negativeOpinions.txt
positiveWords.txt
neutralWords.txt
negativeWords.txt
positiveIndependentOpinions.txt
neutralIndependentOpinions.txt
negativeIndependentOpinions.txt

Hauptbestandteil:

OpinionEvaluator.java, ein Annotator, der als Input einen zu evaluierenden Text(JCas-Document-Text) und drei Dateien mit Schlüsselwörtern zur Evaluation erhält. Die drei Dateien erhalten Schlüsselwörter mit positiven, neutralen und negativen Wörtern, bzw. Zeichenketten mit ihrer zugehörigen Gewichtung. Der Annotator weist dem Text eine Wert von -1(Negativ), 0(Neutral) oder 1(Positiv) zu und speichert diesen im Typ EvaluationTendency.

Funktionsweise:

Anhand von Trainingsdaten wurden markante positive, neutrale und negative Schlüsselwörter/Teilwörter und Zeichneketten herausgesucht. Diesen wurde nach alleinstehendem Aussagewert eine Gewichtung zugeordnet. Der Annotator benutzt diese Listen um mithilfe eines Punktesystems die Tendenz zu bestimmen. Dazu prüft dieser, ob die Teilzeichenketten in dem zu überprüfenden Text vorkommen.

Datensätze:

300 zufällig gewählte unabhängige Bewertungen zum Training(je 100 pro Tendenz), bzw. zur Erstellung der Listen.

150 zufällig gewählte unabhängige und Trainingsdaten-unabhängige Bewertungen zur Überprüfung.

Ergebnisse:

Baseline(Zufällige Zuordnung): 33,3% Trefferwarscheinlichkeit

Evaluation der Trainingsdaten selber: 74,6% Korrekt evaluiert

Evaluation der Überprüfungsdaten: 57,9% Korrekt evaluiert

GermanPolarityClues Star1+2 vs. Star4+5(Allgemeines Sentiment auf Deutsch): 76,1% Korrekt evaluiert

Auswertung:

Das Ergebniss hat eine deutlich höhere Trefferwarscheinlichkeit als die Baseline, ist aber durch der geringen Anzahl der Trainingsdaten noch etwas schlechter als die Durchschnitts-Trefferwarscheinlichkeit von GermanPolarityClues Star1+2 vs. Star4+5, die >10.000 Trainingsdaten benutzten.

Sonstiges:

Die Anzahl der Trainings- und Übungsdaten ist so niedrig, da keine öffentlich verfügbaren Datensätze in diesem Bereich auffindbar waren und diese so selber herausgesucht werden mussten.

Quellen:

http://hnk.ffzg.hr/bibl/lrec2010/pdf/91_Paper.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!