DAW - DAW - Gütekriterien

   
>> Idee >> Aufbau >> Gütekriterien >> Anwendung >> Ausblick

3. Gütekriterien des DAW


Die hier vorgestellten Gütekriterien sind wie alle präsentierten Erkenntnisse vorläufig. Die Gütekriterien betrifft dies aber im besonderen Maße. Gütekriterien sind immer der Gradmesser des Erfolges. Die hier vorgestellten sind aber, dies als Haupteinschränkung, bisher nur an einer relativ kleinen Stichprobe ermittelt, so daß hier weitere Arbeiten folgen müssen.

Das DAW weist als computergestützte, wörterbuchbasierte inhaltsanalytische Technik eine Reihe von Problemen auf, wie sie z. B. von Merten (1995) oder Mayring (1997) für ähnlich geartete Ansätze genannt werden:

Für einige dieser Schwächen computergestützter Inhaltsanalyse wurden im DAW Lösungen gefunden; so sind möglichst viele Synonyme aufgenommen (Umgang mit Mehrdeutigkeiten), die Texte müssen für eine Analyse entsprechend den Regeln der Rechtschreibung in Hochdeutsch verfaßt sein (Umgang mit Dialekten) und in den Kategorien 7 bis 11 sind Begriffe aufgenommen, die in Kombination mit den Angstkategorien den Kontext zumindest partiell einbeziehen.

Für eine erste Überprüfung der Gütekriterien des DAW wurden 116 Texte mit etwa 33.500 Worten herangezogen, die von erfahrenen Gottschalk-Gleser-Ratern (nicht dem Autor dieser Seiten) bereits manuell gescort waren. U. a. wurden dabei die zehn Beispieltexte aus Schöfer (1980, S. 112 - 135) und die Sprachproben von Hopf & Weiss (1996) verwendet. Die nachstehende Tabelle zeigt die Mittelwerte von Rohwerten und Scores bei den 10 Texte aus Schöfer (1980) im Vergleich zu den vom DAW ermittelten Werten.

 


Kategorie

Rohwert Schöfer

Score Schöfer

Rohwert DAW


Score DAW

Wortzahl

416,7

-

422,4

-

Todesangst

3,9

0,776

11,0

1,669

Verletzungsangst

9,2

1,374

10,5

1,599

Trennungsangst

10,1

1,341

30,0

2,638

Schuldangst

2,6

0,671

11,1

1,650

Angst vor Scham/ Schande

4,3

0,910

13,1

1,773

Diffuse Angst

12,0

1,314

10,4

1,356

Angst Gesamt

41,8

3,229

86,1

4,514

Tabelle: Rohwerte und Scores (Mittelwerte von 10 Texten) im Vergleich bei manueller Analyse (Schöfer) und automatischer Analyse (DAW)

Die Tabelle zeigt, daß das DAW stets mehr angstrelevante Inhalte ermittelt, als es den wahren Werten (manuell) entspricht. Dies ist zum momentanen Zeitpunkt der Entwicklung durchaus beabsichtigt. Weitere Wörterbuchverfeinerungen werden hier Abhilfe schaffen.

Das Gütekriterium der Nützlichkeit steht wohl außer Frage, ein zuverlässiges Programm zur Analyse bietet den Gottschalk-Gleser-Angstskalen zahlreiche neue Möglichkeiten der Anwendung. Auch auf Objektivität soll hier nicht weiter eingegangen werden. Wenn nicht gerade der PC kaputt ist, erfolgt die Analyse stets nach den gleichen Algorithmen, erreicht daher also maximale Werte für die Objektivität.

Das ließe sich auch für die Reliabilität behaupten, wir haben sie dennoch überprüft. Die Bestimmung von Reliabilitätswerten für ein Verfahren das kurzfristige und momentane Befindlichkeiten (staits) mißt, ist kompliziert (Schöfer, Koch & Balck, 1979). Zur Überprüfung folgten wir dem Vorgehen von Koch & Schöfer (1986) und teilten unsere Stichprobe nach der odd-even-Methode. D. h. die Texte wurden satzweise in zwei Unterstichproben geteilt, einzeln mit dem DAW analysiert und die ermittelten Scores verglichen (Pearson-Korrelationen, Tabelle 3). Aufwandshalber verwandten wir hier nur einen Teil der bereits zur Validierung benutzen Texte (N = 10).

Skala

Reliabilität Gottschalk-Gleser
(Koch & Schöfer, 1986)

Reliabilität DAW

Todesangst

.67

.79**

Verletzungsangst

.72

.81**

Trennungsangst

.37

.58 (n. s.)

Schuldangst

.56

-.03 (n. s.)

Angst vor Scham/Schande

.62

-.43 (n. s.)

Diffuse Angst

.59

.87**

Angst Gesamt

.63

.56 (n. s.)

Tabelle: Reliabilität (Pearson Korrelationen) der Gottschalk-Gleser-Angstskalen (Koch & Schöfer, 1986) im Vergleich zur Reliabilität des DAW, Aufteilung der Sprachprobe nach der odd-even-Methode (** Signifikanz p<0.01, keine Angaben bei Koch & Schöfer, 1986)

Die Reliabilität des DAW liegt zusammengefaßt etwas unter den Werten, die für das Gottschalk-Gleser-Verfahren von Koch & Schöfer (1986) berichtet wurden. Dazu ist anzumerken, daß unsere Stichprobe recht klein war und die Splittung nach der odd-even-Methode einige Probleme mit sich bringt. Insgesamt sind daher auch die Reliabilitätswerte des DAW als akzeptabel anzusehen.

Von besonderer Bedeutung für das DAW ist jedoch die Validität, die hier bestimmt wird anhand der Übereinstimmung (Korrelation) zwischen manueller Analyse und den Werten, die ein menschlicher Beurteiler ermittelte. Diese sollte möglichst hoch sein. Gottschalk fordert in allen seinen Publikationen für zwei menschliche Beurteiler eine Übereinstimmung von mindestens .80 um von zuverlässigen Ergebnissen sprechen zu können. Diese Ziel muß auch für das DAW erreicht werden. Die nächste Tabelle zeigt die Korrelationen (Pearson) zwischen den Werten manuell/ automatisch (DAW) bei den 116 Texten und im Vergleich dazu die Werte, die Gottschalk (Gottschalk & Bechtel 1982, 1989) für sein Computerprogramm veröffentlichte.

Kategorie

Korrelation DAW

Korrelation Gottschalk

Todesangst

0.84**

0.78**

Verletzungsangst

0.87**

0.92**

Trennungsangst

0.78**

0.66**

Schuldangst

0.58**

0.63**

Scham/Schande

0.60**

0.58**

Diffuse Angst

0.89**

0.81**

Gesamtangst

0.59**

0.85**

Tabelle: Korrelationen (Pearson) zwischen manueller und automatischer Analyse bei DAW und dem Programm von Gottschalk (Signifikanz: **=1%-Niveau)

Die Werte in der Tabelle belegen einerseits, wie gut auch ein so simpler Ansatz wie das DAW in der Lage sein kann, ein so komplexes Verfahren, wie das Gottschalk-Gleser-Verfahren, zufriedenstellend nachzubilden. Die Korrelationen übertreffen teilweise die Werte für das englische Programm von Gottschalk. Anderseits zeigen die Ergebnisse auch deutliche Schwachstellen (Schuldangst, Angst vor Scham/Schande, Gesamtwert), hier müssen weitere Arbeiten folgend. Diese Werte wurden an momentan lediglich 116 Texten gewonnen, so daß von einer richtigen Validität eigentlich noch nicht gesprochen werden kann, erst bei größeren Stichproben wird sich die wirkliche Güte der Verfahrens erweisen können.

Ebenfalls zu beachten ist, daß diese (bisher optimalen) Gütekriterien nur bei sehr spezifischen Analyseabläufen und (für jede Angstkategorie) verschiedenen Programmeinstellungen erzielt werden, so daß die Analyse momentan noch recht kompliziert ist, was eine Weitergabe des DAW an Dritte nicht möglich macht.

Der Vollständigkeit halber sei noch erwähnt, daß Pearson-Korrelationskoeffizienten aufgrund des Datenniveaus eigentlich nicht gerechtfertigt sind. Sie sind hier nur angegeben, um Vergleiche zu Gottschalk möglich zu machen. Die eigentlich korrekten Koeffizienten (Spearman) sind etwas niedriger, zeigen aber kein wesentlich anderes Bild, so daß auf ihre Darstellung hier verzichtet werden kann. Da mit der ständigen Entwicklung des DAW auch laufend andere Werte ermittelt werden, erfolgt ein Update nur bei gravierenden Änderungen, wobei insbesondere Wert auf die Korrelationen gelegt wird. So sind die Werte in der ersten Tabelle (Mittelwerte der Scores und Rohwerte bei den Texten aus Schöfer, 1980) mit einer anderen (älteren) DAW-Version ermittelt, als die angegebenen neueren Korrelationskoeffizienten.


Zurueck Anfang Weiter


© Hendrik Berth, TU Dresden