...

1.) Einführung - Testtheorie & Testkonstruktion Skript 2015

by user

on
Category: Documents
382

views

Report

Comments

Transcript

1.) Einführung - Testtheorie & Testkonstruktion Skript 2015
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
1.) Einführung
a.) Warum notwendig?
- Psychometrische Testverfahren kommen in allen psychologischen Disziplinen zum Einsatz.
(Klinische, ABO, Pädagogische-, Verkehrspsychologie, etc.)
- Von Ergebnissen dieser Tests hängt für die Testpersonen viel ab. (Zuordnung zu Therapie,
Einstellung, Einschulung, Schuldfähigkeit, etc.)
- Ergebnisse müssen gegenüber Testperson und Auftraggeber rechtfertigt werden.
b.) Was ist ein „Test“?
-
Verfahren zur Untersuchung eines Persönlichkeitsmerkmals.
Vorgang der Durchführung einer Untersuchung/Testung.
Gesamtheit der zu Durchführung notwendigen Requisiten.
Gewisse mathematisch-statistische Prüfverfahren.
„Psychotests“ in Zeitschriften.
c.) Definition: „psychometrischer Test“
„Ein psychometrischer Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines
oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst
quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung.“
1.) Wissenschaftliches Routineverfahren
• Test muss so aufgebaut sein, dass er von jedem Experten
ordnungsgemäß in gleicher Art und Weise durchgeführt
werden kann.
• Psychologische Tests müssen wissenschaftlichen Standards
genügen, um aussagekräftige Ergebnisse zu liefern.
2.) Untersuchung von Persönlichkeitsmerkmalen
• Grundidee bei der Durchführung von psych. Tests ist es, dass
Persönlichkeitsmerkmale das Testverhalten beeinflussen und
aus diesem daher auf das Persönlichkeitsmerkmal
geschlossen werden kann.
3.) Quantitative Aussagen
• Anhand der Ergebnisse muss es möglich sein, Aussagen über
die individuelle Ausprägung des gemessenen Merkmals bei den
Probanden zu treffen.
• Üblicherweise wird hierzu die Merkmalsausprägung des
Probanden in Relation zu einer Normstichprobe gesetzt.
d.) Definition: „Testtheorie“
„Eine Testtheorie ist eine Theorie über verschiedene Arten von Tests, ihrem Aufbau und ihren
Konstruktionsprinzipien. Sie beschäftigt sich mit dem Zusammenhang von Testverhalten
(ausgedrückt in empirischen Testwerten) und dem zu erfassenden Merkmalen.“
1
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
e.) Begriffe
- Testobjekte: Einzelpersonen, Gruppen, Kombi aus Personen & Situationen,
Zeitbereiche(Veränderungsmessung)
- Testitems: Einzelne zu bearbeitende Aufgaben eines Tests
- Testskala: Satz von Items die den gleichen Skalierungseigenschaften genügen
- Testbatterie: Kombination aus Einzeltests - zur Erhöhung der Genauigkeit und Güte der
Messung.
- Testtheorie ist Theorie über:
Verschiedene Arten von Tests, deren Aufbau und Konstruktionsprinzipien;
Zusammenhang von Testverhalten und dem zu erfassenden Merkmal;
Ableitung von Gütekriterien.
- Testmanual: bei wissenschaftlichen Tests sind hier die Testgütekriterien erläutert.
- Testgütekriterien: Instrument der Qualitäts- und Wissenschaftlichkeitsprüfung. (In Testmanual
erläutert)
2
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
2.) V1: Test- und Aufgabenarten, Konstruktionsstrategien
a.) Testplanung
• Planung beginnt mit Überlegungen, das zu messende Konstrukt möglichst genau zu definieren
bzw. seine Charakteristika festzulegen:
Im Idealfall auf Basis eines „psychologischen Modells“ oder eine „psychologischen Theorie“.
• Ist dies (noch) nicht möglich, reichen vorläufige Explikationen oder Arbeitsmodelle aus, welche
dann im weiteren Verlauf präzisiert werden können.
• Auch Befragungen von Experten oder Personengruppen, die besonders hohe oder niedrige
Ausprägungen der entsprechenden Fähigkeit oder Eigenschaft ausweisen, können wichtige
Hinweise liefern.
• Zur weiteren Eingrenzung sollte Literatur aus vorhandenen Theorien, empirischen Befunden
und eigenen Überlegungen eine Arbeitsdefinition des Konstruktes formuliert werden.
Festlegung der Erhebungsmerkmale:
Die Erhebungsmerkmale können aufgrund der Abhängigkeit von den psychologischen Theorien
und der Operationalisierbarkeit verschiedene Qualitäten und Eigenschaften aufweisen.
• Qualitative vs. Quantitative Merkmale:
1. Qualitative Merkmale unterteilen Personengruppen lediglich anhand einzelner
Kategorien. (z.B. Geschlecht, Familienstand, usw. — also nominalskaliert)
2. Quantitative Merkmale erlauben graduell abgestufte Merkmalseinteilungen (z.B.
IQ, Punktzahl in Tests — also ordinal- oder intervallskalierte Messung)
• Mehrdimensionale vs. Eindimensionale Merkmale:
(Durch „Exploratorische Faktorenanalyse“ (EFA) o.a. Korrelationsstatistiken)
1. Eindimensional (unidimensional)
2. Mehrdimensional (multidimensional) ist z.B. die „Lebensqualität“, da materielle und
soziokulturelle Faktoren zusammengefasst werden. Sie werden in sogenannten
„Subtests“ (Untertests) erfasst, die wiederum unidimensional sind.
• Zeitlich stabile vs. veränderliche Merkmale:
1. Persönlichkeitsmerkmale (TRAITS)
2. Situationsabhängige Merkmale/Zustände (STATES)
3
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
b.) Aufgabenarten
Aufgaben mit freiem Antwortformat
Es werden keine Antwortalternativen
vorgegeben, sondern von der Person
selbst formuliert/produziert.
Untertypen: Kurzaufsatzaufgaben (z.B. Rorschach)
Ergänzungsaufgaben (z.B. HAWIK-III) —
Hamburg-Wechsler-Intelligenztest für Kinder III
Vorteile:
• Raten und zufälliges Antworten sind nicht möglich, da Reproduktion von Wissen/Generierung
von Antworten gefordert.
• Eigenständige Leistung (Motivation, Interesse, Kreativität, Sprachverständnis, etc.)
• Auswertungsobjektivität durch eindeutige Vorgabe gewährleistet.
Nachteile:
• Hoher Zeitaufwand für Proband, Testleiter & Auswerter.
• Reduktion der Auswertungsobjektivität durch mangelnde Eindeutigkeit der Antworten.
• Fremde Muttersprachler benachteiligt.
Aufgaben mit gebundenem Antwortformat
Es werden mehrere Antwortalternativen vorgegeben. (kein Freiraum für eigene Antworten)
1.) Ordnungs- bzw. Zuordnungsaufgaben (Bestandteile umordnen oder einander zuordnen)
Umordnungsaufgabe:
Verwendung von bildlichem Material, Nachweis
schlussfolgernden Denkens oder von Lösungen
zur Ursache und Wirkungsbeziehung.
Elemente sollen so in eine sinnvolle Reihenfolge
gebracht werden.
Zuordnungsaufgabe:
Bietet sich an bei Wissens- und Kenntnisprüfung,
die ein korrektes Wiedererkennen testen sollen.
2 Elemente sollen einander korrekt zugeordnet
werden.
4
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Vorteile:
• Umordnungsaufgaben sind sinnvoll, wenn die Ergebnisbeeinträchtigung durch Lesefähigkeit
ausgeschlossen werden soll. (Im Leistungsbereich sind Aspekte wie schlussfolgerndes Denken,
etc. gut zu erfassen)
• Zuordnungsaufgaben sind einfach zu konstruieren, ökonomisch und hinsichtlich ihrer
Auswertung objektiv. (eignen sich also für kompakte Überprüfung von Wissen)
Nachteile:
• Materialentwicklung für Umordnungsaufgaben ist aufwendig.
• Verwendbarkeit für Gruppentestung ist eingeschränkt.
• Da wissen nicht reproduziert oder angewendet werden muss, ist Raten möglich.
2.) Auswahlaufgaben (richtige bzw. zutreffende Antwortalternative bestimmen)
(KFT 4-12 + R — d2)
• Vorgabe mehrerer Alternativen.
• Bei Leistungstests gibt es sogenannte „Distraktoren“ (ablenkende bzw. zerstreuende Items) um
Ratewahrscheinlichkeit zu senken.
• Es muss darauf geachtet werden, dass nur eine Antwort richtig ist (Disjunktion = Trennung)
• Bei Persönlichkeitstests ist außerdem die „Exhaustivität“ (Vollständigkeit = alle
Verhaltensvarianten sind abgebildet) wichtig.
• Die Exhaustivität gilt für Leistungstests nicht, da die Menge falscher Antworten praktisch
unendlich ist.
• Um die Ratewahrscheinlichkeit zu senken, kann in der Instruktion die Anzahl korrekter
Antworten vorgegeben, oder vom Probanden als zusätzliche Aufgabe gefordert werden.
• außerdem werden „dichotome“ (2 Antwortalternativen, z.B. „ja/nein“) und „Multiple-ChoiceAufgaben“ (Mehrfachauswahl) unterschieden.
Vorteile:
• Einfach, ökonomisch & objektiv.
• Dichotome Antwortalternativen = kurze Bearbeitungszeit.
• Ratewahrscheinlichkeit verringert sich mit der Anzahl der Antwortalternativen.
Nachteile:
• Dichotome haben eine 50% Ratewahrscheinlichkeit und sind daher für Leistungsbereich
ungeeignet und bietet eine nur eingeschränkte statistische Auswertung.
• Es wird generell nur eine Rekognitionsleistung erfasst, d.h. Kreativität oder besondere
Problemlösefähigkeiten werden nicht erfasst.
• Sind Diatraktoren leicht zu durchschauen, erhöht das die Ratewahrscheinlichkeit.
5
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
3.) Beurteilungsaufgaben (inwiefern trifft eine Aussage zu oder nicht)
(Aus den Big 5 — aufpassen mit Intro-/Extraversion — Keine Varianz wenn alle nur 2 ankreuzen
würden. Je mehr Auswahlmöglichkeiten es gibt, desto mehr Varianz unter den Probanden.)
• Werden häufig im Rahmen von Persönlichkeitstests oder Fragebögen eingesetzt.
• Ein Statement (vorgegebene Aussage) soll mittels einer diskret gestuften Ratingskala
(Stufenskala) oder einer kontinuierlich verlaufenden Analogskala eingeschätzt werden.
Stufen einer Ratingskala:
• Die optimale Anzahl von Skalenstufen hängt bei einer diskreten Ratingskala von der
Diskriminationsfähigkeit der Probanden bzw. der Differenzierbarkeit eines Urteils ab.
• Grob werden bei einer einzelnen Ratingskala 9 ± 2 Kategorien empfohlen, bei Itembatterien 5 ± 2 Skaleneinheiten.
• 7 Skalenstufen habe sich als Optimal für den Informationsgewinn herausgestellt
• Eine geringere Anzahl von Antwortkategorien verhindert die Neigung, Extremurteile abzugeben.
Kontinuum einer Analogskala:
• Ob die Angabe auch dem Urteil entspricht ist nicht in jedem Fall sichergestellt.
• Analogskalen werden zunehmend im Bereich von computergestützten Online-Erhebungen
verwendet.
Forcierung des Ratings: (gerade/ungerade Anzahl von Kategorien)
• Ungerade Anzahl von Kategorien hat zwangsläufig einen Mittelpunkt, der verschieden
interpretiert werden kann. (unforciertes Rating) Wird häufig als Ausweichoption verwendet oder
als „typische“ oder „normale“ Ausprägung missverstanden. („weiß nicht“ Kategorie wird oft mit
angegeben um gerade dies zu verhindern und gleichzeitig ein verwertbares Datum zu liefern)
• Gerade Kategorienanzahl zwingt Proband zu einem Urteil. (forciertes Rating)
6
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Polarität der Skala:
• Bipolare Skalen sind durch einen positiven und einen negativen Pol gekennzeichnet.
• Unipolar Skalen besitzen einen Bezugspunkt geringster Intensität und einen Pol größter
Intensität. (Zustimmung/Ablehnung) Dabei steigt die Intensität nur in eine Richtung
Symmetrie der Skala: (Balancierung einer Skala)
• Bei einer balancierten Ratingskala ist die Anzahl der positiven & negativen Kategorien gleich.
• Bei einer umbalancierten Ratingskala ist sie ungleich.
Beschriftung einer Skala: (Verankerung einer Ratingskala)
• Numerische Verankerung = Kategorien mit Zahlen. (mathematisch präziser, stellt aber keine
Gleichabständigkeit (Äquidistanz) der Zahlen sicher)
• Verbale Verankerung = Kategorien mt Worten oder Sätzen. (erleichtert die Beantwortung)
• Eine kombinierte Ratingskala beschreibt nur die Extrempositionen verbal. (ergänzende
Funktion)
Symbolische Skalen und Marker:
• Beurteilungen ohne semantische Interpretation von Skalenpunkten.
• besonders geeignet für Personen, die im Umgang mit Zahlen oder semantischen Kategorien
ungeübt sind.
Gütekriterien einer Skala:
• Reliabilität & Validität von Ratingskalen werden unterschiedlich beurteilt.
• Hauptsächlich werden 2 Methoden der Reliabilitätsbestimmung verwendet:
Test-Retest-Methode & Inter-Rater-Methode
7
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Fazit:
• Leistungstests lassen sich prinzipiell in jedem Format darstellen.
• Persönlichkeitstests vorwiegend Auswahlaufgaben (dichotome oder Multiple-Choice-Aufgaben).
• Aspekte zur Auswahl des passenden Aufgabentyps sind: gute Verständlichkeit, ökonomische
Durchführbarkeit, kurze Lösungszeiten, geringer Testmaterialverbrauch, einfache & leichte
Anwendbarkeit, geringe Wahrscheinlichkeit für Zufallslösungen, angemessener
Komplexitätsgrad.
Vorteile:
• Geringerer Zeitaufwand für Proband, Testleiter & Auswerter.
• Auswertung der Antworten ist objektiv, da eindeutig.
Nachteile:
• Raten und zufälliges Antworten ist möglich, da eine (Re-)Produktion von Wissen/Antworten
gefordert wird.
• Antwortalternativen müssen exhaustiv & disjunkt sein. (d.h. alle möglichen Ausprägungen
müssen erfassbar sein und dürfen sich nicht überschneiden)
Aufgaben mit atypischem Antwortformat
„Finger Maze“ (Barker, 1931)
Die Linien in Bild 1 wurden in eine Linoleum-Platte
geschnitzt.
Dem Probanden werden die Augen verbunden. Er soll
versuchen, die Linie von Anfang bis Ende ohne Fehler
nachzufahren, d.h. ohne in eine „Sackgasse“ zu
geraten.
Der Test ist bestanden, wenn die Linie 3 mal ohne
Fehler nachgefahren wurde.
Der Test ist äußerst reliabel, d.h. wenn man bei einer
Platte lange braucht, braucht man auch bei einer
anderen Platte lange (rtt zwischen .96 und .90) und
differenziert gut zwischen unterschiedlichen
Schwierigkeitsgraden (Anzahl von Kreuzungen)
c.) Testarten (Festlegung der Testart)
Es lassen sich 5 Arten von Tests unterscheiden…
1.
2.
3.
4.
5.
Leistungstests
Persönlichkeitstests
Projektive Verfahren
Apparative Verfahren
Objektive Tests
8
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Leistungstests
• Sie verlangen den Probanden „die Lösung von Aufgaben oder Problemen, die Reproduktion
von Wissen, das Unter Beweis stellen von Können, Ausdauer oder Konzentrationsfähigkeit
ab“ (Rost, 2004; S.43)
- Erfassung des maximalen Verhaltens
- Verfälschung nur „nach unten“ möglich
• Es wird zwischen Speed- und Power-Tests unterschieden:
Speed: Aufgaben sind einfach und können von allen Probanden gelöst
werden. Differenzierung erfolgt über die Begrenzung der Bearbeitungszeit.
Power: Aufgaben sind schwer und können auch bei unbegrenzter
Bearbeitungszeit nicht von allen Probanden gelöst werden.
Differenzierung erfolgt über Schwierigkeit der Aufgabe.
• Leistungstests haben überlicherweise sowohl eine Speed- als auch eine Powerkomponente.
—> Zur Bestimmung des Anteils der Varianz von Testwerten, die auf die Speed- bzw.
Powerkomponente eines Tests zurückgeht können Speed- bzw. Power-Indices berechnet
werden.
Persönlichkeitstests
• Erfassen das für den Probanden typische Verhalten in Abhängigkeit der Ausprägung von
Persönlichkeitsmerkmalen. (Verhaltensdisposition)
• Die Messung erfolgt hierbei über Selbstauskünfte: (Fragebögen)
- Da es keine „optimale“ Ausprägung von Persönlichkeitsmerkmalen gibt, werden
Antworten nicht im Sinne von „richtig“ oder „falsch“ bewertet.
- Bewertung erfolgt danach, ob Aussagen für eine bestimmte Ausprägung eines
bestimmten Merkmals sprechen oder nicht.
- Simulation ist in beiden Richtungen, d.h. zugunsten niedriger als auch hoher
Merkmalsausprägungen möglich.
- Merkmalsbereiche sind z.B. aktuelle Zustände, Symptome, Verhaltensweisen,
Motivation, Interessen, Meinungen, Einstellungen. (Bsp.: „MMPI-2“ — „Minnesota
Multiphasic Personality Investory-2“)
9
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Projektive Verfahren
• Erfassung qualitativer Aspekte der
Gesamtpersönlichkeit.
• Mehrdeutiges Bildmaterial soll beschrieben
werden:
- In den Beschreibungen sollen sich
unbewusste oder verdrängte
Bewusstseinsinhalte wieder-spiegeln, die
auf das Bildmaterial projiziert werden.
• Aufgrund unzureichender Erfüllung von
Testgütekriterien sind projektive Verfahren in
Forschungskontexten als ungeeignet zu
bewerten.
• Im Zusammenhang der klinischen Exploration
und der Bildung interventionsbezogener
Hypothesen kann ihnen jedoch eine gewisse
Berechtigung zugemessen werden.
(Bsp.: „Holtzman Inkblot Technique“)
Apparative Verfahren
• Aufgaben bedienen sich bestimmter technischer Anordnungen zur Erfassung des relevanten
Merkmals.
• Erfasst werden vor allem Merkmale, die für andere Testarten nicht zugänglich sind (z.B.
sensorische oder motorische Merkmale)
• Computerbasierte Tests stellen eine Unterklasse der Apparaten Verfahren dar, die momentan im
Zunehmen begriffen ist.
Interessant sind diese als Möglichkeit zur Verbesserung
der Durchführungs- und Auswertungsobjektivität sowie als Möglichkeit
zur Reduktion des Aufwandes der Testdurchführung.
10
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Objektive Tests
• Im Zusammenhang objektiver Persönlichkeitstests bedeutet der Objektivitätsbegriff die
Begrenzung der Möglichkeiten subjektiver Verfälschung:
- Probandenmerkmale werden nicht durch Selbstauskünfte sondern über das
Verhalten in einer standardisierten Testsituation erschlossen.
- Objektive Tests haben keine Augenscheinvalidität, d.h. die Probanden wissen nicht,
welches Konstrukt durch die Testung erhoben werden soll.
- Zur Erfassung bieten sich die gleichen Merkmalsbereiche an, wie im Zusammenhang
anderer Persönlichkeitstests.
d.) Festlegung des Geltungsbereichs
• Inhaltliche Vielfalt: Heterogenität vs. Homogenität von Aufgaben
- Mit anwachsen des Geltungsbereich eines Tests müssen auch mehr Informationen
erfasst werden.(damit die geforderten Kriterien mit ausreichender Genauigkeit
vorhergesagt werden können). —> Erhöht Heterogenität der Aufgaben.
- Daher sollte der Geltungsbereich möglichst eng definiert werden, also nur gezielte
Aspekte zu erfassen. —> Schränkt Anzahl der Kriterien ein und Aufgaben gewinnen
damit an Homogenität.
- Die notwendige Entscheidung hat Auswirkungen auf die Kriteriumsvalidität, da mit
der Auswahl der Aufgaben auch die Kriterien festgelegt werden, die der Test
vorhersagen soll.
• Zielgruppe: Analysestichprobe, Eichstichprobe und Personenkreis des Tests
- Analysestichprobe dient der Itemanalyse
- Eichstichprobe soll Validität des Tests feststellen und eine Normierung der
Ergebnisse vornehmen.
- Beide sind unabhängig voneinander zu ziehen und sollten beide die gleichen Einund Ausschlusskriterien erfüllen, die auch für den Personenkreis zutrifft.
- Ist die Zielgruppe eher breit, müssen Items über größeren Schwierigkeits- bzw.
Merkmalsbereich erstreckt werden und ggf. inhaltlich breiter die möglichen
Ausprägungen abdecken.
11
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
• Testlänge: Anzahl der Testaufgaben (Itemanzahl & Testinformation)
- Anzahl der Items ist von Homo- bzw. Heterogenität der Merkmalsdimensionen
abhängig.
- Präzision einer Messung steigt mit zunehmender Itemanzahl. Damit steig auch die
Reliabilität.
- Vorsicht: keine unbeschränkte Steigerung, da zu viele Items auch testfremde
Einflüsse zulassen (z.B. nachlassende Motivation, etc.).
- Tests, die bereits eine sehr gute Reliabilität besitzen, können durch eine
Testverlängerung nur geringfügig verbessert werden.
• Testdauer: Zeit der Testbearbeitung
- Hängt von Testlänge & Testart ab.
- Verfahren die einer differenzierten Individualdiagnose dienen, benötigen mehr Zeit
als „Screeningverfahren“ oder Kurztests.
- Auch die Zielgruppe bestimmt die zeitliche Erstreckung eines Tests. (z.B.
Erwachsene, Kinder, oder ältere Menschen)
e.) Konstruktionsstrategien
Rational-deduktive Konstruktion (Items werden entsprechend einer Theorie gebildet)
Items werden auf Basis einer bestehenden Theorie generiert. Hierbei sind folgende
Gesichtspunkte wichtig:
• Theorien liefern Konstrukte, die erfasst werden sollen (z.B. Intelligenz, Motivation, Angst)
• Theorien beschreiben, welche Verhaltensindikatoren bei der Erfassung des Konstrukts
herangezogen werden können (z.B. für das Konstrukt „schulische Leistungsfähigkeit“:
rechnerische und sprachliche Fähigkeiten)
• Theorien legen fest, welche Antwortformate sich zur Erfassung des Konstrukts eignen (z.B.
Verhaltensorientierte Persönlichkeitstheorien: Selbst- und Fremdbeschreibung;
tiefenpsychologische Persönlichkeitstheorien: projektive Verfahren)
Vorgehensweise bei rationaler Skalenkonstruktion:
1.
2.
3.
4.
5.
Generierung der Items
Erhebung einer Validierungsstichprobe
Prüfung von Reliabilitätskennwerten (alpha, rsh, rtt)
Eliminierung ungeeigneter Items
Überprüfung der Validität in Bezug auf externe Kriterien
External-kriteriumsbezogene Konstruktion (Items werden entsprechend eines Kriteriums ausgewählt)
Voraussetzung ist das Vorliegen verschiedener Gruppen, die sich in Bezug auf das Kriterium
unterscheiden. (z.B. Alkoholiker vs. Nicht-Alkoholiker, Misshandler vs. Nicht-Misshandler)
• Den Mitgliedern der Gruppen wird eine große Zahl möglichst breit gefächerter Items vorgelegt
• Es werden die Items ausgewählt, die signifikant zwischen den Gruppen trennen können.
• Mittels Diskriminanzanalyse wird eine Funktion bestimmt, mit der die Gruppen optimal getrennt
werden können.
• Achtung: Die Schätzung der Diskriminanzfunktion ist stark von der verwendeten Stichprobe
abhängig. Eine Kreuzvalidierung ist notwendig. (anpassen an Stichprobe)
12
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Notwendigkeit von Kreuzvalidierung:
Werden viele Items in die Diskriminanzfunktion eingegeben, so befinden sich mit hoher
Wahrscheinlichkeit „faule Äpfel“ darunter.
Ein „Fauler Apfel“ ist ein Item, dass die beiden Gruppen nur in der
verwendeten Stichprobe trennt und in anderen Stichproben keine
Bedeutung besitzt.
In der verwendeten Stichprobe trennt das Item durch Zufall gut (mag Äpfel zufällig)
In der Population trennt das Item generell schlecht
Es gibt immer eine Irrtumswahrscheinlichkeit. z.B. das Item „Ich mag Äpfel“ und die Stichprobe „Depressiv & Nicht“, und zufällig mag
einer der Nicht-Depr. Äpfel nicht
13
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Vorgehen:
1.
2.
3.
4.
Stichprobe in Konstruktions- und Validierungsstichprobe aufteilen.
Diskriminanzfunktion in Konstruktionsstichprobe bestimmen.
Diskriminanzfunktion aus Konstruktionsstichprobe in Validierungsstichprobe einsetzen.
Vergleich der korrekten Zuordnungen zwischen Konstruktions- und Validierungsstichprobe
Unterscheiden sich die korrekten Zuordnungen zwischen beiden Stichproben nicht,
so kann das Item auch in der Population trennen.
Induktive Konstrunktion (Items werden entsprechend korrelativer Analysen ausgewählt - keine Theorie oder Kriteriumsgrpn)
Hier liegen weder eine Theorie noch bestimmte Kriteriumsgruppen vor. Vielmehr werden Items, die
hohe Korrelationen zeigen zu Skalen zusammengefasst. (zu Gruppen)
• Diese Vorgehensweise wird als „blind-analytisch“ („explorativ“) bezeichnet, da bei der
Konstruktion keine Rücksicht auf inhaltliche Gesichtspunkte genommen wird.
• Zur Konstruktion der Skalen werden zumeist explorative Faktorenanalysen durchgeführt.
Items, die hohe Ladungen auf dem gleichen Faktor zeigen, werden zu einer Skala
zusammengefasst.
z.B.: Intelligenztests nach Thurstone (primary mental abilities), FPI, NEO-PI-R (NEO-FFI)
Freiburger Persönlichkeitsinventar (FPI-R — Fahrenberg, Hampel & Selg, 1994)
(Die Autoren gehen von bestimmten psychologischen Konstrukten aus, die ihnen aufgrund ihrer
Erfahrungen und der Literatur interessant und wichtig erscheinen)
Prototypenansatz (Items werden bzgl. prominenter Vertreter bestimmter Klassen gebildet)
Konstrukte werden als natürliche Kategorien menschlicher Wahrnehmung aufgefasst (z.B.
Blumen). Ihre Mitglieder besitzen unterschiedliche Typikalität (z.B. Rosen vs. Orchideen).
Prototypen sind hierbei die Mitglieder, die die höchste Typikalität besitzen.
Vorgehensweise: Items werden hinsichtlich der Prototypizität für eine oder mehrere Kategorien
eingeschätzt, wobei die Items mit der höchsten Prototypizitätseinschätzung beibehalten werden.
14
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Act Frequency Approach (Buss & Craik, 1980):
1.
2.
3.
4.
Probanden sollen an Personen aus Bekanntenkreis denken, die bestimmte Eigenschaft
besonders stark repräsentieren. (z.B. Unterwürfigkeit)
Probanden sollen konkrete Verhaltensweisen der Person nennen, die ihre Meinung nach
indikativ für das Vorhandensein dieser Eigenschaft sind (z.B. „Sie erhielt eine unfaire Note
und nahm es hin“)
Verhaltensweise wird von anderen Probandengruppen hinsichtlich Prototypizität eingeschätzt.
Items mit höchster Prototypizitätseinschätzung werden als Grundlage der weiteren
Validierung des Verfahrens verwendet.
Alle Konstruktionsprinzipien sind in etwa gleicher Weise zielführend, und es wird im einzelnen von
Vorlieben oder Notwendigkeiten abhängen, für welche Strategie man sich entscheidet.
Intuitive Konstruktion
- Items werden aus Annahmen & Erfahrungen des Konstrukteurs abgeleitet.
- Nur noch bei neuartigen Forschungsfragen möglich.
f.) Fehlerquellen bei der Beantwortung von Items
Fehler bei der Itembearbeitung sind dann zu berücksichtigen, wenn sie systematisch auftreten,
denn das führt zu konstruktirrelevanter Varianz.
Gründe Validitätseinschränkender Fehlerquellen:
- Konstruktionsmängel der Items
- Unerwünschte Kognitionen oder Emotionen
- Unterschiedliche Motive:
Wille sich zu bewähren & nicht zu versagen
Einstellung behilflich zu sein und den Erwartungen zu entsprechen
Erwartung eine Belohnung zu erhalten oder eine Bestrafung vermeiden
15
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Soziale Erwünschtheit
Äußern von Meinungen und/oder Einstellungen unter der Annahme, diese seien in
Übereinstimmung mit gesellschaftlichen Werten & Normen („Normanpassungseffekt“).
- Kommt häufig bei Testverfahren vor, die eine Selbstbeschreibung erwarten („social desirability“)
- Das Vortäuschen von Verhaltensweisen, die ein Proband sonst nicht zeigt, wird als
„Simulation“ (fake good) bezeichnet.
- Das Verbergen von Verhaltensweisen die ein Proband normalerweise zeigt, nennt man
„Dissimulation“ (fake bad).
Täuschungsarten:
1.
Selbsttäuschung („self-deceptive enhancement“):
Vorteilhafte Selbstdarstellung ohne dies als Täuschung von anderen anzusehen.
2.
Fremdtäuschung („impression management“):
Erzeugter Fehleindruck wird zur Steuerung und Kontrolle
anderer Menschen eingesetzt.
Wann?
- Unter besonderem Erfolgs- oder Vermeidungsdruck.
- Situationen mit direkter mündlicher Befragung sind anfälliger als stark anonymisierte.
- Vorgetäuschte Verhaltensweisen (fake good) sind dabei noch stärker als die Effekte
verborgenen Verhaltens (fake bad), wenn die Testperson in einer Instruktion explizit dazu
aufgefordert wird.
Vermeidung: (kontrollieren oder unterbinden von sozial erwünschtem Verhalten)
1.
Kontroll- oder Validitätsskalen: („Lügenskalen“)
Itemsets, die empfindlich auf Tendenzen sozialer Erwünschtheit reagieren oder auch
systematische Beantwortungen von Items aufdecken sollen.
Es werden dabei Eigenschaften, Einstellungen oder Verhaltensweisen abgefragt, die eine
spezifische Antwort als besonders unglaubwürdig erscheinen lassen. (z.B. sozial erwünschte
Aussagen, die aber eigentlich nicht vorkommen: „Ich bin immer objektiv“; oder sozial
unerwünscht, aber vorkommen: „Manchmal bin ich auch ungerecht“)
2.
Ausbalancierung:
Antwortalternativen so gestalten, dass sie gleich attraktiv sind. Dadurch soll
Wahrscheinlichkeit erhöht werden, dass diejenige Alternative gewählt wird, die tatsächlich
zutrifft. Jedoch ist die Entwicklung sehr aufwendig.
3.
Objektive Persönlichkeitstests:
Testabsicht und Testziel verschleiern.
Keine Augenschein-Validität.
Überwiegend sachbezogene Inhalte (um Verfälschungstendenzen vorzubeugen)
16
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Antworttendenzen:
Durch die Form der Datenerhebung können vor allem Antworttendenzen („response sets“)
ausgelöst werden, die Probanden zu einem stereotypen (gleichbleibenden) Antwortstil verleiten.
(Die dadurch reduzierte Itemvarianz verzerrt die Daten)
1.
Tendenz zur Mitte („Milde-/Härte-Effekt“)
Unzureichend empfundenes Wissen oder Unsicherheit (motivational) führt zu:
Wählen einer neutralen Mittelkategorie einer Skala = Milde-Effekt
Tendenz zu Extremurteilen = Härte-Effekt
Beiden Effekten kann nur indirekt vorgebeugt werden, indem man bei der Skalierung auf eine
Mittelkategorie oder extrem formulierte Beschriftungen verzichtet, oder eine
Ausweichkategorie einführt.
2.
Akquieszenz („Ja-/Nein-Sage-Tendenz“)
Wenn Aussagen nicht reflektiert werden (ohne Rücksicht auf erfragte Inhalte), kann eine
Zustimmungstendenz oder Ablehnungstendenz kann die Folge sein.
Vermeiden durch klare und eindeutige Itemformulierungen und ausbalancierte
Schlüsselrichtung der Items. (gleiche Anzahl von bejahten und verneinten Items)
3.
systematisch fehlende Werte:
unsystematisches Überspringen oder Verändern von Items führt zu fehlenden Werten
(missing values), welche die spätere Auswertung erheblich erschwert und einschränkt.
Erfolgt es allerdings bei bestimmten Items systematisch, könnte das ein Hinweis für
fehlerhafte Itemformulierung sein.
(Zusammenfassung: Verhindern, Kontrollieren, Ignorieren)
17
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
3.) V2: Gütekriterien
Richtlinien der Auswertung/Testbeurteilung:
„Standards for educational and psychological
testing“
Wann ist ein Test gut oder schlecht?
(Amerikanischer Standard)
„Guidelines on Test use“
Ähnlich zum „STANDARDS“ nur International
18
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
a.) Allgemeines
• Entscheidungen, die auf der Basis von Ergebnissen psychologischer Tests getroffen werden,
sind oft mit weitreichenden Konsequenzen für den Probanden verbunden. (z.B. Einschulungsuntersuchungen, Personalauswahl, Schuldfähigkeitsbegutachtung)
• Die Gütekriterien dienen somit der Einschätzung der Eignung eines Tests vor dem Hintergrund
einer gegebenen Fragestellung.
• Obwohl eine weitgehende Einigkeit über zu erfüllende Spezifika besteht, wurde bisher kein
verbindlicher Katalog einschlägiger Kriterien definiert.
Übersicht:
b.) Hauptgütekriterien
1.) Objektivität
„Objektivität besteht für einen Test dann, wenn das Testergebnis unabhängig von Untersuchungsleiter, vom Testauswerter und der Ergebnisinterpretation ist.“
(Sie soll sicherstellen, dass die Ergebnisse eines Tests zwischen Personen vergleichbar sind.)
Durchführungsobjektivität:
• Soll sicherstellen, dass Testergebnis nicht vom Testleiter abhängig ist.
• Dazu wird die Testsituation so standardisiert, dass nur die Testperson die einzige Quelle für
Variationen in der Situation darstellt.
(Genau Anweisungen, Vorgaben & Bedingungen)
• Diese Vorgaben können betreffen:
Testmaterial
Testinstruktion (einschließlich dadurch ausgelöster Nachfragen durch die Testperson)
Testleiterverhalten (welche Interaktionen mit der Testperson ist zulässig)
Testumgebung (räumliche Gegebenheiten, zus. Materialien)
zeitliche Erstreckung (ggf. eine maximale Bearbeitungszeit)
• Alle Störvariablen sollen kontrolliert, konstant gehalten, oder eliminiert werden.
19
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Bsp.: NEO-FFI
Testsituation:
Verhalten des Testleiters bei Rückfragen:
Auswertungsobjektivität:
• Antwortverhalten wird genau quantifiziert.
• Und ist nicht von der Person abhängig, welche den Test auswertet. (Insbesondere bei
Aufgaben, deren Auswertung nicht anhand fester Auswertungsschablonen oder Schlüssel
festgelegt ist, müssen Auswertungsregeln aufgestellt werden.)
• Objektivität kann verbessert werden durch:
Auswertung durch mehrere Personen
Konkordanzmaße (Kendalls W oder Scotts Pi)
(Ermitteln des Ausmaßes der Übereinstimmung)
20
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Bsp.: NEO-FFI (Kreise hätten verschiedene Farben (Rot = Extraversion, etc.))
Interpretationsobjektivität:
• Stellt sicher, dass Schlussfolgerungen aus Testergebnissen unabhängig vom Testanwender
sind.
• Verschiedene Testanwender sollten also bei gleichen Testresultaten zu gleichen
Interpretationen kommen.
• In den Testmanualen liegen dazu Skalenbeschreibungen vor, (z.B. über arithmetische Mittel und
Standardabweichungen) die als Normtabellen zum Vergleich einzelner Testpersonen mit
adäquaten Bezugsgruppen genutzt werden können.
Bsp.: NEO-FFI
21
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Zusammenfassung:
Das Hauptgütekriterium Objektivität kann als erfüllt gelten, wenn ein psychologischer Test
hinsichtlich seiner Handhabung, Auswertung und Interpretation so festgelegt ist, dass sein
Einsatz unabhängig von umgebenen Faktoren (wie Ort, Zeit, Testleiter und Auswerter)
vorgenommen werden kann und unterschiedliche Testauswerter bei den gleichen Personen immer
zu gleichen Ergebnissen kommen.
2.) Reliabilität
„Reliabilität ist ein Maß für die Präzision, Zuverlässigkeit und Genauigkeit, mit der ein Test ein
Merkmal misst. Präzise ist eine Messung dann, wenn sie möglichst frei von Messfehlern erfolgt.“
(Mit Reliabilität wird die Qualität eines Tests bezeichnet, die auf seiner Zuverlässigkeit beim
Erheben von Merkmalen beruht.)
Wichtig: Umschlossen wird lediglich die Frage, ob irgendein Konstrukt fehlerfrei erfasst wird und
nicht, ob es wirklich das intendierte Konstrukt ist.
• Reliabilitätskoeffizient rtt drückt in den Extremen ein Testergebnis vollkommen ohne Messfehler
aus (= 1,0) oder eins, das nur durch Messfehler zustande gekommen ist (=0).
0 = Wiederholung eines Tests an der gleichen Person führt unter gleichen Bedingungen und
ohne Veränderung des Merkmals zu völlig unterschiedlichen Resultaten.
1 = Wiederholung eines Tests an der gleichen Person führt unter gleichen Bedingungen und
ohne Veränderung des Merkmals zu identischen Resultaten.
0,7 = akzeptabel — 0,8/0,9 = gut
• Mit diesem Koeffizienten wird der Grad der Genauigkeit einer Merkmalsmessung ausgedrückt.
(unabhängig davon, ob der Test dieses Merkmal auch zu messen beansprucht)
• Realibilität = Quotient von wahrer Varianz (ohne Messfehler) zur Gesamtvarianz (einschließlich
Messfehler)
22
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
• Reliabilitätsmaße können berechnet werden, indem überprüft wird, ob einzelne Personen in 2
Testungen gleiche Werte aufweisen.
Zur Ermittlung der Werte stehen 2 Möglichkeiten zur Verfügung
Testung zu 2 Zeitpunkten & Testung mit 2 Testformen
(innere Konsistenz = „Konsistenzanalyse“ oder „Splithalf-Reliabilität“)
(Test)-Retest-Reliabilität
• Derselbe Test wird wiederholt zu 2 Zeitpunkten präsentiert und die
Ergebnisse korreliert.
• Korrelation zwischen beidenTestwerten der Probanden wird als
Reliabilität angenommen. (rtt)
• Dabei wird unterstellt, dass das zu messende Merkmal konstant
und auch das Zeitintervall zwischen den Testungen ohne Einfluss
auf die Messung ist.
Die Wahl des optimalen Retest-Intervalls muss bei instabileren
Merkmalen kürzer und bei stabileren länger sein.
• Problematisch sind Merkmalsveränderungen zwischen den
Testzeitpunkten, die zu einer Unterschätzung der Reliabilität führen.
(z.B. Depressionsmaße vor und nach einer Psycho-Therapie)
• Das Risiko der Veränderungen und Erinnerungseffekten ist dabei
stark von den Inhalten abhängig.
• (Verbindung symbolisiert, dass es sich immer um 1 Testperson
handelt.)
Paralleltest-Reliabilität
• Um dem Problem möglicher Veränderungen zwischen Test und
•
•
•
•
•
Retest zu umgehen kann zu 1 Zeitpunkt mit 2 Testformen getestet
werden.
Benötigt werden dazu inhaltlich ähnliche Items („Itemzwillinge“) aus
2 Tests (A und B), deren beobachtete Testwerte zu gleichen
Mittelwerten und Varianzen führen.
Die Korrelation zwischen den Testwerten in beiden Testformen wird
als Reliabilität angenommen. (r tt’)
Problematisch ist, dass die Erstellung paralleler Testformen
aufwändig und schwierig ist.
(t’ = paralleltest, „soll dasselbe erfassen wie der erste, nur in einer
anderen Form“)
Vorteile: Übungs- und Erinnerungseffekte können ausgeschlossen
werden, Unsystematische Fehlervarianzen, die für alle
unterschiedlich sind, sind unkritisch.
23
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Splithalf-Reliabilität
• In vielen Fällen ist die Berechnung von Retest- bzw. Paralleltest-Reliabilität nicht durchführbar.
Aus diesem Grund wurden Verfahren entwickelt,mit denen die Reliabilität auf der Basis von
Testungen zu 1 Zeitpunkt mit 1 Testform möglich ist.
• Grundlegende Idee dabei ist, Teile eines Tests als parallele Testversionen aufzufassen und die
Reliabilität als Zusammenhang der einzelnen Teile anzunehmen.
Einfachster Fall: Testhalbierung (Splithalf-Reliabilität)
(korrelieren des Summenwerts beider Tests — r = produkt moment korrelation , sh= splithalf)
• Zur Aufteilung der Testhälften bieten sich verschiedene Strategien an. Gängig sind unter
anderem diese Vorgehensweisen:
„Testhalbierung“ — Teilung des Tests in der Mitte.
„Odd-Even“ — Items mit geraden Nummern werden zu einer Testhälfte zusammengefasst, bei
Items mit ungeraden zu der anderen.
„Zufallsaufteilung“ — Die Items werden zufällig zwei Testhälften zugeordnet.
„Parallelisierung“ — Aufteilung der Items nach Trennschärfe und Schwierigkeit, d.h. beiden
Testhälften sollen gleich schwierig und trennscharf sein. („Methode der Itemzwillinge“)
• Achtung: In Abhängigkeit der Aufteilungsstrategie können sich in gleichen Datensätzen
unterschiedliche Reliabilitätsschätzungen ergeben.
Konsistenzanalyse/Interne Konsistenz
Probleme bei der Testhalbierung:
24
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
• Problematisch an der Berechnung von Split-Halt-Reliabilitäten ist, dass die Testhälften relativ
willkürlich gebildet werden können.
Unterschiede zwischen Koeffizienten, die aus unterschiedlichen Aufteilungen hervorgehen sind
schwer zu interpretieren.
• Einen Ausweg aus dieser Problematik bietet die Berechnung von „Cronbachs Alpha“ ( α).
Dieser Koeffizient entspricht der mittleren Reliabilität, die sich bei der Bildung aller möglichen
Testhalbierungen ergibt. (Mittelwert aller möglichen Testhalbierungen)
• Sinnvoll können α-Werte im Bereich zwischen 0 und 1 interpretiert werden.
Die Untergrenze, ab der eine Skala noch als hinreichend reliabel betrachtet werden kann wird
üblicherweise bei 0,7 angenommen.
Zusammenfassung:
Verschiedene Zugänge zur Beurteilung der Reliabilität eines Testverfahrens lassen sich
unterscheiden:
- Testhalbierung/interne Konsistenz (Zusammenhänge zwischen Testteilen/Items eines Tests).
- Test-Retest-Reliabilität (zeitliche Stabilität der Werte zwischen 2 Testungen).
- Paralleltest-Reliabilität (Zusammenhänge zwischen parallelisierten Testformen).
Keiner der besprochenen Reliabilitätskennwerte ist hierbei einem anderen generell vorzuziehen.
Wichtig ist die gleichzeitige Betrachtung aller geschilderten Kennwerte, um einen möglichst
umfassenden Überblick über die Reliabilität des Verfahrens zu gewinnen.
3.) Validität
„Validität bezieht sich auf die Frage, ob ein Test wirklich das Merkmal misst, was er messen soll
bzw. zu messen vorgibt. Die Validität bezieht sich dabei auf die Gültigkeit verschiedener möglicher
Interpretationen von Testergebnissen.“
(Damit soll festgestellt werden, ob zwischen dem was gemessen wird und dem was gemessen
werden soll, tatsächlich Übereinstimmung besteht.)
• Gilt als wichtigstes Testgütekriterium.
• Objektivität & Reliabilität gelten zwar als notwendige, aber nicht hinreichende Bedingungen für
Validität.
Ein Test, der eine niedrige Objektivität und Reliabilität besitzt, auch keine hohe Validität erzielen
kann, dass aber eine hohe Validität über das reine Vorhandensein von Objektivität & Reliabilität
hinausgeht.
• Bei gegebener Validität berechtigen die Ergebnisse dazu, das in der Testsituation gezeigte
Verhalten auf beobachtbares Verhalten außerhalb dieser Testsituation zu generalisieren.
(Ein solcher Zusammenhang könnte z.B. durch Korrelation der Testwerte mit einem relevanten
Außenkriterium überprüft werden.)
25
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Zur Bestimmung er Validität eines Tests gibt es verschiedene Zugänge. Moosbrugger & Kerala
(2007b) veranschaulichen dies am Beispiel eines Schulreife- bzw. Schuleignungstests:
1. Inhaltsvalidität: Items, die Bestandteil des Tests sind, sollen inhaltlich das Konstrukt
widerspiegeln, das der Test erfassen soll (z.B. Umgang mit Zahlen, Sprachverständnis)
2. Kriteriumsvalidität: Mit dem Test soll vorhergesagt werden, in wiefern Kinder eingeschult
werden können. Kinder mit höheren Testwerten sollten sich daher besser in der Schule
zurechtfinden als Kinder mit niedrigen Werten.
3. Konstruktvalidität: Das durch den Test gemessene Konstrukt „Schulreife“ soll mit ähnlichen
Konstrukten (z.B. Intelligenz, Entwicklungsstand) zusammenhängen und unabhängig von
inhaltsfremden Konstrukten (z.B. Temperament, Persönlichkeit) sein.
4. Augenscheinvalidität: Auch für Laien besitzen Schuleignungstests eine gewisse
Glaubwürdigkeit, da aufgrund der inhaltlichen Gestaltung solcher Tests nahegelegt wird, dass
damit wirklich Schuleignung gemessen wird.
a.) Inhaltsvalidität
Wird das Konstrukt durch die Items ausreichend repräsentiert?
Erfassen alle enthaltenen Fragen das zu messende Konstrukt?
Ist ein repräsentativer Ausschnitt aller denkbaren Items enthalten?
- Eine numerische Bestimmung der Inhaltsvalidität ist eher unüblich.
- Vielmehr wird hierbei auf auf Expertenurteile und Befunde aus der Literatur zurückgegriffen.
Entscheidend ist, dass das Konstrukt auf der Inhaltsebene eingehend beschrieben wird, dass die
Items den abzudeckenden Inhaltsbereich zugeordnet sind und dass die Struktur des Tests mit der
Struktur des Konstrukts übereinstimmt. (Das zu erhebende Merkmal kann operational - also im
Wesentlichen durch Testinhalte - oder theoretisch - also als theoretisches Konstrukt - definiert sein)
Bsp.: „Räumliches Vorstellungsvermögen“
26
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
b.) Kriteriumsvalidität
• Befasst sich mit der Frage, inwiefern aus den Testwerten Kriteriumswerte vorhergesagt werden
können.
• Es geht um die praktische Anwendbarkeit eines Tests, um das Verhalten einer Person
außerhalb der Testsituation anhand der produzierten Daten in der Testsituation vorherzusagen.
• Dazu wird die Korrelation der Testvariablen & der Kriteriumsvariablen bestimmt:
Liegt ein zeitgleiches Außenkriterium vor, resultiert eine konkurrente (Übereinstimmungs-)
Validität. (t = test c = Kriterium)
Ist eine Prognose hinsichtlich einer zukünftigen Merkmalsausprägung intendiert, wird eine
prognostische bzw. prädikative (Vorhersage-) Validität angestrebt.
Soll die Vorhersage eines praktisch relevanten externen Kriteriums verbessert werden, indem
zusätzliche Items oder Skalen hinzugefügt werden, kann eine inkrementelle Validität bestimmt
werden.
Schließlich ist auch eine retrospektive Validität zu unterscheiden, bei der Zusammenhänge mit
zuvor ermittelten Kriterien hergestellt werden.
(Regressionsgerade = linearer Zusammenhang zwischen den beiden Merkmalen)
27
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Arten von Kriterien:
c.) Konstruktvalidität
• Auf Basis der Konstruktvalidität wird bestimmt, ob mit dem im Test gezeigten Verhalten auf
zugrunde liegende Fähigkeits- oder Persönlichkeitskonstrukte geschlossen werden kann. Die
Konstruktvalidität erlaubt entsprechende Aussagen, wie angemessen ein Test das beanspruchte
Konstrukt misst.
(Kann so aussehen, dass theoriegeleitete Zusammenhänge
zwischen Konstrukten des vorliegenden Tests mit anderen Verfahren auf
Ähnlichkeiten bzw. Unähnlichkeitenverglichen werden)
• Das Kriterium wird unterteilt in 2 Subaspekte:
1. konvergente Validität: Test soll hoch mit anderen Tests korrelieren, die das gleiche Konstrukt
erfassen.
2. diskriminante Validität: Ein Test soll niedrig mit anderen Tests korrelieren, die verschiedene
Konstrukte erfassen.
• Eine Möglichkeit, um konvergente und diskriminante Validität gleichzeitig zu bestimmen besteht
in der Multitrait-Multimethod-Analyse von Campbell und Fiske (1959)
-> Es werden mindestens 2 Tests benötigt, die die gleichen Konstrukte erfassen.
-> Eine Stichprobe bearbeitet beide Tests und die Korrelationen zwischen den Konstrukten
werden beachtet.
Konvergente Validität: Gleiche Konstrukte in
unterschiedlichen Tests korrelieren hoch.
Diskriminane Validität:
Unterschiedliche Konstrukte
in unterschiedlichen Tests
korrelieren gering.
(„Validitätsdiagonale“)
28
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
d.) Augenscheinvalidität
• Offensichtliche Akzeptanz eines Tests durch Laien.
• Sie besitzt hinsichtlich der Kommunizierbarkeit und Nachvollziehbarkeit der Ergebnisse eine
nicht unerhebliche Relevanz.
• Wissenschaftlich betrachtet ist sie nicht immer gewollt, da sie insbesondere in der
Persönlichkeitsforschung bereits bei der Testbearbeitung Antworttendenzen verursachen kann.
4.) Zusammenhang der Hauptgütekriterien
• Ein Test ohne Objektivität wird keine optimale Reliabilität erreichen können:
Entstehen Fehler bei der Ermittlung oder Interpretation der Daten, beeinflusst dies die
Messgenauigkeit.
• Ist die Reliabilität nicht gegeben, können keine gültigen Aussagen oder Vorhersagen getroffen
werden, da der Test das Merkmal nicht genau messen kann:
Ohne einen exakten Testwert lässt sich keine klare Beziehung zu einem Außenkriterium
herstellen.
Zusammenfassung:
Die Validität eines Tests kann als perfekt gelten, wenn ein individuelle Testwert eine Person
eindeutig auf einer Merkmalsskala lokalisiert.
In diesem Fall erlaubt ein Testergebnis einen unmittelbaren Rückschluss auf den Ausprägungsgrad
des zu erfassenden Merkmals.
Dabei können verschiedene Aspekte der Validität unterschieden werden:
• Inhaltsvalidität (die Testitems stellen das optimale Kriterium zur Erfassung des Merkmals dar)
• Konstruktvalidität (ein Test kann aufgrund theor. Erwägungen ein best. Konstrukt erfassen)
• Kriteriumsvalidität (das Ergebnis eines Tests korreliert mit unab. erhobenen Außenkriterien)
29
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
5.) Nebengütekriterien
a.) Normierung/Testeichung
• Ziel: Dem Testanwender ein Bezugssystem aktueller Vergleichswerte (Normtabellen) von
solchen Personen bereitzustellen, die der getesteten Person anhand relevante Merkmale
möglichst ähnlich sind.
(In diesem Fall wird von den Daten einer Eich- oder Normierungsstichprobe gesprochen.)
• Anhand der Normdaten kann eingeordnet und interpretiert werden, ob die Ergebnisse einer
getesteten Person zur Norm gehörend (durchschnittlich), oberhalb der Norm
(überdurchschnittlich) oder unterhalb der Norm (unterdurchschnittlich) zu beurteilen sind.
Normierungsstichprobe:
• Bei einer Normierungsstichprobe handelt es sich um einen großen, repräsentativen Datensatz
des Testergebnisse verschiedener Probanden.
• Im Anschluss an die Testung eines einzelnen Individuums kann geprüft werden, an welcher
Stelle der Verteilung des Datensatzes die Testwerte eines Probanden zu finden sind.
• Die Abweichung des Probanden vom Mittelwert wird in Standardabweichungen ausgedrückt.
Hierfür haben sich verschiedene Normmaßstäbe etabliert.
30
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
• Überführbarkeit von Normmaßstäben:
Prinzipiell sind alle Normen mittels z-Transformation ineinander überführbar, d.h. Testwerte in
Form einer Norm (z.B. IQ, d.h. M = 100, SD = 15) können als Testwerte einer anderen Norm
(z.B. Stanine, d.h. M = 5, SD = 2) dargestellt werden.
(Bsp.: Bei einem Probanden wurde ein IQ von 115 festgestellt. In der Stanine Norm wäre es 7)
Geltungsbereich einer Norm wird durch folgende Aspekte bestimmt:
- Repräsentativität (Global — zahlreiche Merkmale mit Population übereinstimmen, Spezifisch)
Hierbei „schützt“ eine große Stichprobe keineswegs vor mangelnder Repräsentativität.
- Normdifferenzierung (Konkretisierung der Repr.), passende Bezugsgruppe, etc.
- Aktualität der Eichstichprobe (nicht älter als 8 Jahre) — Evtl. Flynn Effekt
- Testbedingungen nuter denen Probanden in der Normstichprobe getestet wurden.
b.) Skalierung
• Abstände zwischen Punktwerten („Numerisches Relativ“ ) entsprechen der Merkmalsausprägung („empirisches Relativ“). Dadurch lassen sich Unterschiede adäquat auch in empirischen Merkmalsrelationen abbilden.
• Von Messinstrumenten wird allgemein erwartet, dass sie mit dem entsprechenden
Skalenniveau ausgestattet sind, d.h. mindestens Ordinal- (um stärkere von schwächeren
Ausprägungen zu unterscheiden) besser aber Intervallskalenniveau (um Größe einer
Merkmalsdifferenz zu bestimmen).
c.) Ökonomie/Wirtschaftlichkeit (Kosten vs. Erkenntnisgewinn)
• Angestrebte Erkenntnisgewinn soll unter akzeptabler Aufwendung finanzieller & zeitlicher
Ressourcen stattfinden. („Aspekt der Wirtschaftlichkeit“)
Kosten minimal - Nutzen möglichst hoch (Erkenntnisgewinn)
Computerbasierte oder Adaptive Testung förderlich auf Ökonomie
d.) Nützlichkeit/Utilität (praktischer Nutzen)
• Mehr Nutzen als schaden.
• In der Eignungsdiagnostik sollten möglichst viele geeignete Personen ausgewählt und
möglichst viele ungeeignete Personen nicht ausgewählt werden.
e.) Zumutbarkeit (Beanspruchung durch einen Test)
• „Testnutzen vs. zeitliche, psychische & körperliche Belastung der Testperson“
• Belastung kann erheblich variieren
f.) Unverfälschbarkeit (Verzerrung & Verschleierung)
• Häufige Verfälschung durch „Soziale Erwünschtheit“, welche durch hohe Augenscheinvalidität leicht nachvollziehbare Messintention - begünstigt werden kann.
• Daher wird die Testintention oft verschleiert und es wird indirekt auf das zu messende Merkmal
geschlossen. (durch Konstruktion wird Verzerrung verhindert)
31
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
g.) Testfairness (Bias von Tests)
• Testwerte sollen zu keiner systematischen Benachteiligung oder Diskriminierung bestimmter
Personen oder Personengruppen aufgrund ihrer Zugehörigkeit zu […] führen.
• Liegt eine unsystematische Unfairness vor, besitzen die Items einen sogenannten „Itembias“.
• Testfairness spielt oft bei Leistungstests eine größere Rolle.
h.) Vergleichbarkeit (validitätsähnliche Tests)
• „Intraindividuelle Reliabilitätskontrolle“ durch vorhanden sein einer Parallelform oder Validitätähnlichkeit eines Tests. (vergleichbare Ergebnisse)
• „Intraindividuelle Validitätskontrolle“ durch vorhanden sein einer Korrelation zwischen 2
validitätsähnlichen Tests.
i.) Transparenz (Verständlichkeit)
• Verständlichkeit der Instruktion (Probleme ausschließen durch Vortests).
• Aufklärung der Messintention & des Ergebnisses nach Abschluss des Tests.
32
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
4.) v3: Testevaluation
• Die gewonnenen Daten werden im Rahmen einer Itemanalyse evaluiert, die zur Beurteilung der
Items deskriptive Statistiken verwendet.
• Für diese psychometrische Aufbereitung der Daten gibt es verschiedene Analyse-Schritte zur
Qualitätsbestimmung und Einhaltung von Normen.
• Es wird von Intervallskalenniveau ausgegangen.
a.) Datenstruktur der Messungen
• „Items in Spalten, Probanden in Zeilen und Werte in Zellen“ (= Datenmatrix)
• Nach diesem Schema werden Itemwerte (xvi) von insgesamt n Probanden gegen insgesamt m
Items abgetragen.
• Ein beliebiger Proband erhält den Index v und ein beliebiges Item den Index i
• Bei Leistungstests könnte 0 für eine falsche und 1 für eine richtige Antwort stehen.
• Bei Persönlichkeitstests könnte xvi für einen Wert von 0 bis 6 Punkten stehen, der den Grad der
Zustimmung angibt.
b.) Itemschwierigkeit
„Die Schwierigkeit eines Items bezeichnet den relativen Anteil aller Probanden, die ein Item
„richtig“ (d.h. im Sinne höherer Merkmalsausprägungen) beantworten.“
Bezeichnet den relativen Anteil der Probanden, die das Item lösen.
• Bei der Konstruktion von Items ist es entscheidend, dass diese nicht von allen bejaht, richtig
beantwortet, gelöst bzw. verneint, etc. werden.
• Die Antwort also nicht immer dieselbe (Konstante) ist.
• Die Itemkonstrukton soll also weder zu leicht, noch zu schwer sein, etc…
• Diese „Schwierigkeit“ wird mittels eines „Schwierigkeitsindex“ angegeben. (Für
Fragebogenskalen auch „Popularitätsindex“)
-> Anteil an Antworten, der von Probanden in Schlüsselrichtung abgegeben wird.
Schwierigkeitsindex: (Pi)
- prozentualer Anteil richtiger Antworten für das Item i in einer Stichprobe der Größe n.
- Ist der Wert von P hoch, ist die Aufgabe leicht.
- Ist der Wert niedrig, ist die Aufgabe schwierig.
Er errechnet sich für ein beliebiges Item i aus dem Quotienten der tatsächlich erreichten
Punktwerte und der maximal erreichbaren Punktsumme aller Probanden, multipliziert mit 100.
(Multiplikation führt zu Indizes zwischen 0 und 100 - eigentlich „Leichtigkeitsindex“, der umso
größer wird, je häufiger ein Item gelöst wird - je „leichter“ also ein Item ist, desto größer ist P)
- Beginnt der Wertebereich eines Items bei 1 oder höher (und nicht bei 0), muss der Minimalwert
eines Items von jeder Itemantwort und der maximalen Punktsumme subtrahiert werden.
(P = Schwierigkeitsindex, NR= richtig antwortende Probanden, N= alle Probanden)
33
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Beispiel: „In einer Stichprobe von 360 Testpersonen haben 240 die Zahlenreihe 3-6-9-12-15-18-?
richtig fortgesetzt und die Zahl 21 eingesetzt. Welche Schwierigkeit ergibt sich für das Item?“
Geg.: NR = 240; N = 360
Ges.: P
Lös.:
Problem 1: (Ratekorrektur)
- Probanden können durch Zufall (d.h. Raten) die richtige Antwortalternative wählen. Hieraus folgt
eine artifizielle Verringerung der Itemschwierigkeit.
- Berücksichtigt, dass die Schwierigkeit unterschätzt wird, wenn Probanden raten.
> Schwierigkeit wird um die geschätzte Anzahl zufällig richtiger Antworten korrigiert.
(NF= falsch antwortende Probanden; m = Antwortalternativen)
Beispiel: „Ein Item hat 5 Antwortoptionen, von denen eine die richtige ist. 360 Testpersonen
bearbeiten das Item, 240 wählen die richtige Antwortoption. Wie lautet die um
Ratewahrscheinlichkeit korrigierte Aufgabenschwierigkeit?“
Geg.: NR = 240; N = 360; m = 5
Ges.: NF ; P
Lös.:
Problem 2: (Korrektur für Inangriffnahme)
- Probanden, die Items nicht bearbeiten, können diese auch nicht richtig beantworten. Hieraus
folgt eine artifizielle Erhöhung der Itemschwierigkeit.
- Berücksichtigt, dass die Schwierigkeit überschätzt wird, wenn Probanden nicht dazu kommen
das Item zu bearbeiten.
> Es werden lediglich die Probanden berücksichtigt, die das entsprechende Item auch
bearbeitet haben.
(NB = antwortende Probanden)
Beispiel: „Ein Item hat 5 Antwortoptionen, von denen eine die richtige ist. Von 360 Testpersonen
bearbeiten 240 das Item, 140 wählen die richtige Antwortoption. Wie lautet die um
Ratewahrscheinlichkeit und Inangriffnahme korrigierte Aufgabenschwierigkeit?“
34
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Bei Leistungstests:
- Bei Leistungstests ergibt sich eine typische Datenanordnung, bei denen wiederum die n
Probanden in den Teilen und die m Items in den Spalten abgetragen sind.
1. Speed-Tests:
• Sind mit einer Zeitbegrenzung versehen.
• Unterscheidung zwischen „richtig & falsch“ und „ausgelassen & unbearbeitet“.
• Ausgelassen: nur dieses Item wurde nicht beantwortet, danach folgende aber schon
(übersprungen)
• Unbearbeitet: ab diesem Item wurde nicht mehr beantwortet (aufgrund der Zeitbegrenzung)
• Bearbeitete Items setzen sich zusammen aus richtigen, falschen und ausgelassenen Antworten.
• Schwierigkeitsindex:
(nR= richtig beantwortete Items; nB = bearbeitete Items = nR + nF + nA)
2. Power Tests:
• Keine Zeitbegrenzung
• Unterscheidung zwischen „richtig & falsch & ausgelassen“, „unbeantwortet“ entfällt, da kein
Zeitlimit vorhanden ist.
• Schwierigkeitsindex: Quotient aus richtigen und allen Antworten
• Für den Fall des Auftretens geratener Zufallslösungen Ratekorrektur der Indizes:
(nF = Anzahl der Probanden mit einer Falschantwort; k = Anzahl der Antwortalternativen)
Subtrahiert die zufällig richtig geratenen Antworten von den Richtig-Antworten.
Sollte dieser Index negativ werden, ist er nicht zu interpretieren.
Bei Persönlichkeitstests:
- Bei Persönlichkeitstests werden Items nicht nach „richtig“ oder „falsch“, sondern nach
„symptomatisch“ (hohe Werte) und „unsymptomatisch“ (niedrige Werte) für eine
Merkmalsausprägung bewertet.
- Bevor Schwierigkeitsindizes für derart ausgeprägte Items ermittelt werden, ist die einheitliche
Kodieren zu Überprüfen.
- Dies gilt insbesondere für inverse Items, die vor der Berechnung ggf. umkodiert werden
müssen.
35
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
1. Bei 2 Antwortkategorien: (dichotom)
• Bei 2 Antwortkategorien (1 = sympt., 0 = unsymtp.): wie bei Powertest —> Verhältnis
symptomatische und alle Antworten
2. Bei mehr als 2 Antwortkategorien:
• Dichotomisierung —> Werte in 2 Kategorien hoch & niedrig anhand eines Grenzwertes einteilen
—> macht Skala grob (Informationsverlust)
Bei intervallskalierten Daten:
- Aufgrund des Informationsverlustes, ist ein Schwierigkeitsindex für intervallskalierte Stufen
möglich: (Quotient aus i-ter Spaltensumme und maximal möglicher Spaltensumme)
(kann als „arithmetisches Mittel der n Probanden auf einer
k-stufigen Antwortskala aufgefasst werden.)
- Mittlere Werte für diesen Index (50): maximale Streuung —> hohe Differenzierung zwischen
den Probanden (Löser werden von Nicht-Lösern unterschieden)
- Sucht man Differenzierung in den Extremen (P-Werte von 5-10 oder 90-95), also sehr schwer,
oder sehr leicht, wird eine breite Streuung der Schwierigkeitskoeffizienten angestrebt.
Bei Ratingskalen:
„Ich gehe gerne auf Parties“
(0= sehr ungern; 4 = sehr gern)
(Pm = mehrstufiger Schwierigkeitsindex; ∑Xtemp = Summe der
Antworten; ∑Xtmax = maximale Summe der Antworten)
36
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
c.) Itemvarianz (Var(x))
- Gibt an, wie stark die Leistungen einer Stichprobe bei einzelnen Items streuen.
- legt die Differenzierungsfähigkeit eines Items hinsichtlich der untersuchten Stichprobe fest.
Bei dichtomen Items:
• Produkt der Wahrscheinlichkeit, das Item zu lösen (pi), und der Gegenwahrscheinlichkeit, das
Item nicht zu lösen (qi):
- Maximale Varianz bei mittlerer Itemschwierigkeit (meiste Differenzierung).
- Items, die zu leicht oder zu schwer sind, liefern keine Differenzierungen und besitzen
entsprechend eine Varianz von 0. (nimmt zu den Extremen kontinuierlich ab) = Items, die keine
Varianz erzeugen, differenzieren auch nicht.
Bei intervallskalierten Items:
- Für zweistufige Items (gelöst, nicht gelöst) besteht quadratischer Zusammenhang zwischen
Itemschwierigkeit und Itemvarianz.
- Allgemein berechnet sich die Differenzierungsfähigkeit Var(xi) sich folgendermaßen:
37
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
d.) Trennschärfe
„Die Trennschärfe eines Items bezeichnet üblicherweise die Korrelation zwischen
der Antwort auf ein Item und dem Summenwert einer Skala“
• Ein weiteres Maß der Itemanalyse ist entscheidend, wie substanziell die Korrelation zwischen
den einzelnen Itemwerten und dem gesamten Testwert ausfällt.
• Korrelation zwischen Item- und Testwerten (Item-Test-Korrelation)
• Korrelation einzelner Itemwerte mit dem Testwert sämtlicher Items eines Tests.
• Misst, inwieweit die Differenzierung erfolgreicher und erfolgloser Probanden durch ein Item der
Differenzierung durch den Test übereinstimmt.
• Passt das Item zum Test?
(Korrelation zwischen Item & Summenwert sollte hoch sein, da Item die Skala/den Summenwert
dann gut repräsentiert. z.B: Item hoch - Item hoch - Item niedrig = Summenwert Hoch. Niedriges
Item erniedrigt Reliabilität —> aussortieren oder ggf. umpolen.)
- Durch Trennschärfe können verschiedene Itemgruppen getrennt werden. Items sollen mit
Summenwert der eigenen Gruppe hoch korrelieren & mit Summenwerten anderer niedrig.
- Korrelation Item mit eigenem Summenwert nie 0, da Item im Summenwert enthalten &
Korrelation des Items mit sich selbst = 1 —> Überschätzen der Korrelation des Items mit dem
Summenwert —> Part-Whole-Korrektur.
- Was wenn alle Probanden 0 auf der Skala ankreuzen? Dann ist die Korrelation doch 0? Nein!
Zusammengefasst: Trennschärfe bezeichnet die Korrelation zwischen Item & Summenwert einer
Skala. Konvergente TS bezeichnet die Korrelation mit der eigenen Skala, diskriminante TS die
Korrelation mit einer anderen Skala.
Part-Whole-Korrektur:
- Bei der Berechnung der konvergenten Trennschärfe wird die
-
-
Korrelation zwischen den Antworten auf ein Item und den
Summenwerten der Skala ermittelt.
Problem: Da die Werte des Items auch in die Skalensummen
eingehen, wird die Korrelation überschätzt. (Das zu korrelierende Item
sollte nicht beim Testwert dabei sein, um Trennschärfe nicht zu
überschätzen, da ansonsten Korrelation der Variablen mit sich selbst
eingeht.)
Lösung: Bei der part-whole-korrigierten Trennschärfe wird das
jeweilige Item nicht in den Summenwert eingerechnet. (=Testwert wird
um zu korrelierendes Item bereinigt)
Da der Summenwert in diesem Fall nicht durch das Item konfundiert
ist, kann diese Korrelation sinnvoller interpretiert werden.
Die Korrektur verringert sich mit zunehmender Zahl an Items.
38
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Effekte der Part-Whole-Korrektur:
Generell ist die unkorrigierte
Trennschärfe eines Items nie niedriger,
als die part-whole-korrigierte
Trennschärfe. Dies ist darauf
zurückzuführen, dass der Summenwert
in letzterem Fall nicht durch den Einfluss
des Items konfundiert ist.
- Die Part-Whole-Korrektur hat vor allem dann einen starken Effekt, wenn die Skala aus wenigen
Items besteht oder wenn die Skala relativ geringe Trennschärfen aufweist (d.h. inhomogen ist)
Zusammengefasst: Da der Summenwert durch die Ausprägung des Items konfundiert ist, wird die
Trennschärfe als Korrelation zwischen dem Item und dem um das Item bereinigten Summenwert
berechnet. (Durch PWK wird die Trennschärfe geringer)
Berechnung:
- Zur Berechnung der Trennschärfe wird für alle n Probanden der Zusammenhang eines Items i
mit dem Testwert xv bestimmt:
- Dabei wird unter dem Testwert xv eines Probanden v der Summenwert aller Itemwerte
verstanden:
- Bei wenigen Items ist es zu empfehlen, den Testwert als Summenwert ohne Item i zu
berechnen, um die Trennschärfe nicht zu überschätzen. (Part-Whole-Korektur)
Entsprechend ermittelt sich dann:
- Wichtig ist anzumerken, dass die Bildung eines Testwertes Itemhomogenität voraussetzt, d.h.
alle Items sollten das gleiche Merkmal messen.
- Zudem wird eine hohe Trennschärfe zwar durch eine hohe Itemvarianz begünstigt, aber nicht
garantiert.
- In Abhängigkeit von der Skalierung der Items sind verschiedene Koeffizienten angemessen.
39
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Koeffizienten:
1. Produkt-Moment-Korrelation nach Pearson (intervallskalierte Items):
• Anhand der Rohwerte ermittelt sich die Korrelation zwischen der Itembeantwortung und dem
Testscore nach:
Dabei sind xv der Skalen-(Summen-)Score und xvi der Itemscore, ∑xv und ∑xvi die Summen der
Skalen- bzw. Itemscores, ∑xv2, ∑xvi2 die Quadratsummen und ∑xv xvi die Produktsumme.
• Aus der unkorrigierten Item-Test-Korrelation rit kann die (part-whole) korrigierte Trennschärfe rit(i)
berechnet werden:
Dabei sind SD(x) die Standardabweichung der Testwerte, SD(xi) die Standardabweichung des
Items i und rit * SD(x) + SD(xi) die Kovarianz zwischen den Itemwerten xvi von Item i und den
Testwerten xv.
2. Punktbiseriale Korrelation rpbis (bei dichotomen Items):
Dabei sind xv0 und xv1 die Mittelwerte und n0 und n1 die Anzahl der Probanden, die in Item i
entweder eine 0 oder eine 1 als Antwort angegeben haben.
• Aus der unkorrigierten Trennschärfe kann wiederum die (part-whole) korrigierte Trennschärfe
rpbis(i) berechnet werden:
Dabei sind SD(x) die Standardabweichung der Testwerte, p1 die Lösungswahrscheinlichkeit für
Item i und q1 die Gegenwahrscheinlichkeit 1-pi.
40
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Diskriminationsindex D:
- Als vereinfachtes Maß zur Schätzung der Trennschärfe kann vor allem für ordinale
Itemantworten auch der Diskriminationsindex D (D-index for item analysis) verwendet werden.
D wird in 6 Schritten ermittelt:
1. Rohwerte eines Tests werden ranggeordnet.
2. Der Stichprobenumfang n wird mit 0,27 multipliziert und das Ergebnis n’ zur nächsten ganzen
Zahl auf- bzw abgerundet.
3. Nun werden 2 Gruppen gebildet: eine Gruppe der leistungsstärksten Probanden (+) im Umfang
n’ und eine Gruppe der leistungsschwächsten Probanden (-) im Umfang n’.
4. In beiden Gruppen wird nun der Quotient aus der Anzahl korrekter Antworten mR dividiert durch
n’ gebildet:
5. Beide Werte ergeben gemittelt den Schwierigkeitsgrad P:
6. Beide Werte ergeben subtrahiert den Diskriminationsindex D:
Interpretation von D:
- D kann Werte zwischen 0 und 1 annehmen
- Kleine Werte = geringe Trennschärfe und korrespondieren mit kleinen P-Werten (bei zu
„leichten“ oder zu „schwierigen“ Items).
- Bei mittlerer Aufgabenschwierigkeit (P=0,5) erreicht D sein Maximum.
Interpretation der Trennschärfe:
• Werte zwischen 0,4 und 0,7 deuten auf eine „angemessene“ bis „ausgezeichnete“ Trennschärfe
hin.
• Hoher Wert = Items sind homogen gegenüber dem Gesamttest —> Probanden mit hoher
Merkmalsausprägung lösen das Item.
• Kleiner Wert = mangelnde Differenzierung durch ein Item in Zusammenhang mit der
Differenzierung des Gesamttests —> Item für Unterscheidung von Probanden ungeeignet.
• Negative Werte: fehlerhafte Itemformulierung —> Kodierung muss umgedreht werden —>
Probanden mit niedriger Merkmalsausprägung lösen das Item.
Zu kleineren Werten:
- 0,30 bis 0,39: Items können durch Anpassung verbessert werden.
- 0,20 bis 0,29: muss auf jedenfall verändert werden.
- < 0,19: Item muss ausgeschlossen werden.
41
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Selektionskennwert:
• Trennschärfe ist von den Interkorrelationen der Items abhängig.
• Nur bei hohen Interkorrelationen (und damit hoher Homogenität) können auch hohe
Trennschärfeindizes erzielt werden.
• Demgegenüber führen aber Variationen der Schwierigkeitskoeffizienten zwischen den Items
einer Skala dazu, dass sich die Interkorrelationen reduzieren.
• Um bei der Itemselektion sowohl die Trennschärfe, als auch die Aufgabenstreuung zu
berücksichtigen, ist der Selektioniert entwickelt worden. (= Übergeordnetes Maß für die Güte
der Items):
(rit = Trennschärfe, SD(xi) =Standardabweichung der Aufgabe)
- Berücksichtigung der Trennschärfe und der Aufgabenstreuung
- Geht man nur von Trennschärfe aus, selektiert man Items, die extreme Merkmalsausprägung
messen —> entfernt man Items mit niedrigem Selektionskennwert, entgeht man der Gefahr, die
extremen zu verlieren.
- Liegen extreme Schwierigkeiten vor, resultieren hohe Werte für S.
- Items mit extremen Schwierigkeiten haben eine größere Chance ausgewählt zu werden als
Items mit mittlerer Schwierigkeit.
Zusammenfassend: Itemselektion
• Simultane Berücksichtigung der Ergebnisse der Itemanalyse (Schwierigkeit, Varianz,
•
•
•
•
•
•
Trennschärfe)
Mittlerer Schwierigkeitsgrad: differenzieren zwischen hoher und niedriger Merkmalsausprägung.
Für Erfassung der Extreme: hohe oder niedrige Schwierigkeit.
Items sollten immer gute Trennschärfe haben.
Idealerweise differenziert ein Test über gesamten Schwierigkeitsbereich.
Items ohne oder mit negativer Trennschärfe sind zu entfernen.
Bei Items gleicher Schwierigkeit entscheidet die höhere Trennschärfe.
Zusammenhang von Schwierigkeit und Trennschärfe:
- Da besonders leichte und schwierige Items nur wenig Varianz erzeugen, wird die Trennschärfe
gemindert.
- Zur Differenzierung in Extrembereichen ist eine Aufnahme derartiger Items dennoch sinnvoll.
42
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
e.) Speed- und Powerkomponente (vgl. S.9)
Speed-Tests:
- Aufgaben sind einfach und können von allen Probanden
gelöst werden.
- Differenzierung erfolgt über die Begrenzung der
Bearbeitungszeit.
Test mit hoher Speedkomponente:
-
Korrelationen unterschiedlicher Bedingungen klein.
Korrelationen gleicher Bedingungen groß.
Bruch klein
Speedindex groß
Nachteil: Parallelformen müssen vorliegen und in jeweils 2 Bedingungen durchgeführt werden.
Power-Tests:
- Aufgaben sind schwer und können auch bei unbegrenzter Bearbeitungszeit nicht von allen
Probanden gelöst werden.
- Differenzierung erfolgt über Schwierigkeit der Aufgabe.
Test mit hoher Powerkomponente:
-
Viele Aufgaben werden in Angriff genommen.
u tendiert gegen n
Gleiche Werte über und unter Bruchstich.
Powerindex groß
Vorteil: Es wird nur eine Version benötigt, die in nur einer
Bedingung durchgeführt wird.
(Leistungstests haben üblicherweise sowohl Speed- als auch eine Powerkomponente)
"0,7 Power = 70% der Varianz der Testwerte gehen auf die
Powerkomponente zurück, 30% auf die Speedkomponente“
=> beide Indizes sollten komplementär sein.
d.h. verrechnet man sie, sollte 1 rauskommen.
43
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
5.) v4: Klassische Testtheorie („Messfehler-Theorie“)
Wiederholung: Was ist eine Testtheorie?
• Testtheorien beinhalten Annahmen über das Zustande kommen von Messwerten.
—> Welchen Einfluss hat Disposition auf Testverhalten?
—> Wie gut kann man von Testverhalten auf Disposition schließen?
• Es lassen sich 2 prominente Testtheorien feststellen:
1.) Klassische Testtheorie: wie stark fehlerbehaftet sind Messwerte? (Messfehlertheorie)
2.) Probalistische Testtheorie: Wie gut kann man das Testverhalten eines Probanden mit
algebraischen Funktionen vorhersagen?
(vom Übergang Disposition —> Verhalten passieren Fehler —> unreines Verhalten)
Klassische Testtheorie:
- Grundlage für die Testkonstruktion
- Konzept zur Behandlung von Messwerten von Personen
a.) Axiome der KTT:
• Axiom = Setzungen oder Definitionen, die einfach ohne weitere Erklärung aufgestellt werden.
Sie erlauben es, logische Ableitungen aus ihnen zu ziehen.
• Beziehen sich auf beobachteten Testwerte, die wahren Testwerte & einen Messfehler.
44
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
1. Axiom — „Existenzaxiom“:
Der wahre Wert einer Person ist der Erwartungswert der Messung x
eines Probanden v in Item i, wenn man häufig genug misst.
(Aus einer bestimmten Anzahl von Messungen kann auf die tatsächliche (wahre) Ausprägung des Merkmals geschlossen
werden. Der wahre Wert bezieht sich dabei zunächst auf ein einzelnes Item eines einzelnen Probanden.)
Der wahre Wert ist der Erwartungswert unendlich vieler Testungen eines Probanden
2. Axiom — „Verknüpfungsaxiom“:
Messwerte setzen sich aus wahren Werten („tau“) und Fehlerwerten zusammen.
(Der Messfehler überdeckt den wahren Wert und führt zu Abweichungen vom wahren Wert.)
(Die Differenz zwischen dem wahren Wert und dem Ergebnis der Vp ist der Fehler.)
- Beide Axiome nehmen an, dass der Zufallsfehler einen Erwartungswert von 0 besitzt, d.h. wenn
man häufig genug misst, mittelt sich der Fehler weg.
- Vorausgesetzt wird also, dass die Wiederholungen unter konstanten Bedingungen stattfinden &
keine Messung von der vorherigen beeinflusst wird.
Der Messfehler ist eine Zufallsvariable mit dem Erwartungswert 0:
3. Axiom — „Unabhängigkeitsaxiom“:
Die Korrelation zwischen den wahren Werten & den Messfehlern ist 0.
Wäre die Korrelation nicht 0, wäre der Fehler systematisch.
(Keine spezifische Abhängigkeit zwischen wahren Werten & Messfehlern)
(Der Fehler ist unabhängig vom wahren Wert — d.h. eine Zufallsvariable mit dem Erwartungswert 0)
Als Zufallsvariable ist der Messfehler von allen anderen Variablen unabhängig:
(immer wenn eine Variable zufällig ist, kann sie keine Korrelation zeigen)
Fazit:
- Beobachtbar ist nach den Axiomen nur die Messung xvi
- Wahrer Wert & Fehlerwert sind nicht beobachtbar & somit sind sie unbekannte Größen
—> wahrer Wert & Fehlerwert ergeben sich aus Schätzungen.
45
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Zusatzannahmen der KTT: Unabhängigkeit der Messfehler
- Es wird angenommen, dass die Fehlervariablen zweier Items für dieselbe Person unabhängig
sind, d.h. dass Erfolg bei einem Item unabhängig von anderen Items bei einer Person ist. —> Kein „Lerneffekt“. (unabhängige Items)
- Fehlervariablen zweier Personen bei dem selben Item sind unabhängig, d.h. die
Itembearbeitung muss von unabhängigen Personen erfolgen. (unabhängige Personen)
Bsp.: „Der IQ eines Probanden soll mithilfe eines Intelligenztests gemessen werden. Mögliche
Fehlereinflüsse auf das Testergebnis könnten u.s. sein, dass der Proband…“
-
vom Banknachbar abschreibt
einen Kater vom letzten Abend hat
Leistungssteigernde Medikamente eingenommen hat
durch eine hübsche Banknachbarin abgelenkt wird
46
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
b.) Fehlerwerte:
• Messfehler = Zufallsvariable mit Erwartungswert 0 und einer Fehlervarianz, die für alle
Personen gleich ist.
• Aus den beiden ersten Axiomen resultiert, dass der Zufallsfehler einen Erwartungswert von 0
•
•
•
•
besitzt —> wenn man häufig genug misst, mittelt sich der Fehler weg.
Korrelationen zwischen wahren Werten & den Messfehlern bei beliebigen Personen &
beliebigen Items ist 0.
Wenn r nicht 0 wäre, wäre der Fehler systematisch.
Schlussfolgerung, dass sowohl die Summe der Fehlerwerte einer Person bei unendlich vielen
Messungen, als auch die Summe der Fehlerwerte einer Messung bei unendlich vielen
Personen 0 ergeben muss.
Messfehler kommt folgendermaßen zustande:
• Einflüsse, die sich im Zuge der Messung unkontrolliert auf das Testverhalten der
Probanden auswirken und damit das Messresultat kontaminieren können.
(Tageszeit des Experiments, Klima, Motivation, Versuchsleiter,…)
• Zusatzannahme der KTT: Unabhängigkeit der Messfehler.
Wahrer Wert & Fehlerwert:
• Messfehler überdeckt den wahren Wert und führt zu Abweichungen von ihm —> Messfehler
sorgt dafür, dass der wahre Wert schwankt.
• Die beobachtbare Messung setzt sich aus einem wahren Wert und einem Fehlerwert
zusammen, die beide nicht beobachtbar sind —> unbekannte Größen, die sich aus
Schätzungen ergeben.
c.) Bestimmung des wahren Testwertes:
- Hauptproblem: Zufallsfehler neutralisieren, der in jeder beobachteten Messung steckt.
- Wiederholte Messung scheidet dabei aus, da Lerneffekt.
- Lösung: Mehrere Messungen zu einem Merkmal verschiedene Items (die gleiches Merkmal
messen) zu einem Testwert (Rohwert) verrechnet. —> neutralisieren des Zufallsfehlers.
- Gesucht: Erwartungswert von xv, was dem wahren Testwert entspricht.
- Die Messwertsumme kann als Punktschätzung des wahren Wertes einer bestimmten Person
verwendet werden.
- Voraussetzung: es wurde oft genug gemessen
(auch eine solche Schätzung kann fehlerbehaftet sein und ist daher um eine
Angabe zu ihrem Fehler zu ergänzen (dem sog. Standardmessfehler))
47
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
d.) Bestimmung der wahren Varianz & Fehlervarianz:
- Zerlegung der Gesamtvarianz (beobachtete Varianz) in wahre Varianz (ein Proband ist einfach
besser als ein andere —> Unterschiede in wahren Merkmalsausprägungen der Probanden) und
Fehlervarianz (Messfehler der Probanden).
- Die Schätzung der Varianz wird in 2 Schritte unterteilt:
Varianzzerlegung:
• Varianz einer Summe von Variablen ist gleich der Summe der Varianzen der einzelnen
Variablen + der zweifachen Summe der Kovarianz beider Variablen:
• Da die Korrelation zwischen wahrem Wert & Messfehler laut Unabhängigkeitsaxiom aber 0 ist,
ist auch der Term Cov = 0. Daher ergibt sich:
• Testwertevarianz Var(x) setzt sich zusammen aus: wahrer Varianz Var(tau) = Unterschieden in den wahren Merkmalsausprägungen der Probanden
und Fehlervarianz Var(epsilon) = dem Messfehler epsilon der Probanden
Varianzschätzung:
• Um die unbekannten Varianzen (tau & epsilon) schätzen zu können, werden Testwertevariablen
zweier Tests xp und xq herangezogen. Unter Anwendung des Verknüpfungsaxioms wird dabei
die Kovarianz der Testwertevariablen xp und xq zweier Tests p und q betrachtet:
• Da die Messfehler & wahre Werte untereinander unkorreliert sind, ist der Kovarianzterm
hinsichtlich der Fehlerwerte 0 und kann entfallen:
• Stammen xp und xq aus 2 parallelen (sog. tau-äquivalenten) Tests, dann gilt tp = tq = t, und die
wahre Testwertevarianz ergibt sich aus der Kovarianz zweier paralleler Tests:
• Somit kann die wahre Testwertevarianz Var(tau) als Kovarianz zweier tau-äquivalenter Tests
geschätzt werden. Dies ermöglicht schließlich auch, die Fehlervarianz zu schätzen:
48
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
e.) Bestimmung der Reliabilität:
Der Reliabilitätsbegriff der KTT:
- Der Messwert (x) eines Probanden in
einer Testung (t1) setzt sich aus dem
wahren Wert (tau) des Probanden und
einem Fehlerwert (epsilon)
zusammen.
- Der Messwert (x’) eines Probanden in
einer zweiten Testung (t2) in
demselben Test setzt sich aus
demnselben wahren Wert und einem
anderen Fehlerwert zusammen.
• Die Grundlage der Korrelation zwischen 2 Messwerten des gleichen Probanden in 2 Testungen
ist, dass der wahre Wert der Gleiche bleibt.
• Die Korrelation der Messwerte wird im Vergleich zur Korrelation der wahren Werte gemindert,
da die Messwerte sich wegen des Messfehlers unterscheiden.
• Aus den Axiomen der KTT kann abgeleitet werden, dass die Korrelation der Messwerte (rtt)
dem Anteil der Varianz der wahren Werte (st2) an der Gesamtvarianz der Messwerte (sx2)
entspicht.
Reliabilität:
- Maß der Zuverlässigkeit.
- Reliabilität ist wahre Varianz geteilt durch beobachtete Varianz.
- Ist das Verhältnis der beiden Varianzanteile 1, dann gäbe es keine Messfehler und die
Reliabilität wäre perfekt.
- Ist die Reliabilität 0, misst der Test nur Messfehler.
- Quotient aus Anteil der wahren Varianz und dem Anteil der beobachteten Varianz:
- Das resultierende statistische Maß (Reliabilitätskoeffizient) zeigt bei einem Maximalwert von 1,
dass eine messung frei von Fehlern ist und bei einem Minimalwert von 0 das Fehlen jeglicher
wahrer Varianz.
- Ein Test ist demnach umso reliabler, je größer der wahre Varianzanteil ist im Verhältnis zur
beobachteten Varianz ist.
- Ein Test ist demnach umso unreliabler, je kleiner der wahre Varianzanteil im Verhältnis zur
beobachteten Varianz ist.
Bei parallelen Tests kann der Anteil wahrer Varianz an der beobachteten Varianz zudem als „TestTest-Korrelation“ rtt anhand der beobachteten Daten geschätzt werden:
(Die Retest-Reliabilität wird als Anteil der Varianz wahrer Werte an der Gesamtvarianz der Messwerte verstanden)
49
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Hohe Reliabilitäten entsprechen einem geringen Messfehleranteil
Niedrige Reliabilitäten einem hohen Messfehleranteil
Die Testwerte eines Tests mit einer Reliabilität von rtt = .70 gehen zu 70%
auf wahre Werte und zu 30% auf Fehlerwerte zurück.
(Kritik an KTT = unabhängigkeit, Korrelation ist nicht immer 1.
z.B. Testangst, er hat in allen Messungen Testangst - alle Tests —> Messfehler wird in allen Tests größer sein)
f.) Standardmessfehler:
Wie wirkt sich der Messfehler auf die Streuung der Messwerte aus?
(Hätte ich keinen Messfehler —> wahrer Wert = Messwert —> Reliabilität = 1)
Standardmessfehler:
•
•
•
•
•
Unerklärter Fehlervarianzanteil der Testwertevarianz.
Berücksichtigt zusätzlich zur Standardabweichung, wie genau ein Test ist (Präzision des Tests)
Standardabweichung für den Fehler = Standardabweichung multipliziert mit Wurzel der Unrel.
Unreliabilität ist die Unzuverlässigkeit eines Tests.
Mit dem Standardmessfehler wird der Anteil an der Streuung eines Tests bestimmt, der auf
seine Ungenauigkeit zurückgeht.
• Streuung, die sich bei unendlich häufiger Testung der gleichen Testperson aufgrund der
Unreliabilität des Tests ergeben würde.
50
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
• Er gibt denjenigen Anteil an der Streuung eines Tests wieder, der auf seine Ungenauigkeit
zurückzuführen ist.
• Berechnet wird er aus der Standardabweichung der Messwerte multipliziert mit der Wurzel der
Unreliabilität:
(set = Standardmessfehler; sxt = Streuung der Messwerte; rtt = retestreliabilität)
bzw.
Ist rtt groß, wird Messfehler kleiner —> je kleiner desto größer der Standardmessfehler.
Hat man einen großen Messfehler, streuen sie um den wahren Wert.
• Wird ein Test eingesetzt, um die Ausprägung eines Kriteriums zu prognostizieren, kann ein
Standardschätzfehler ermitteln werden, der die Streuung um den wahren Kriteriumswert
eingrenzt:
(SD(c) = Standardabweichung des Kriteriums; corrtc = Korrelation zwischen Test & Kriterium)
• Aus Berechnung des Standardmessfehlers kann zudem eine Gleichung abgeleitet werden, mit
der die Differenz zweier einzelner Testwerte auf Signifikanz geprüft werden kann. Diese sog.
„kritische Differenz“ berechnet sich wie folgt:
(rtt1 & rtt2 = Reliabilitäten der beiden Tests)
Der Abstand zweier Testwerte wird dann signifikant, wenn dieser größer ist als diffcrit
Bsp.: „Ein Proband erzielt in einem ersten Untertest einen Testwert von 115 (bei einer Reliabilität
des Tests von 0,86), in einem zweiten Untertest einen Testwert von 102 (bei einer Reliabilität von
0,90). Es stellt sich nunr die Frage ob dieser Abstand bei einem alpha = 0,05 signifikant ist:“
Demnach ist die beobachtete Differenz von 13 gegenüber
der kritischen Differenz von 9,6 signifikant abweichend.
51
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
g.) Konfidenzintervalle des wahren Testwertes:
• Mit dem Standardmessfehler kann ein Konfidenzintervall berechnet werden, in dem der wahre
Wert einer Testperson mit einer bestimmten Wahrscheinlichkeit zu finden ist.
• Zur Berechnung des Konfidenzintervalls wird die folgende Formel verwendet:
(Confidence Limit — Messwert — 1,96 Wert bei Irrtumsws. bei Standardnv — Standardmessfehler)
• Der Standardmessfehler wird dazu genutzt, die Messwertsumme der Punktschätzung um ein
Konfidenzintervall zu erweitern, in dem der wahre Wert liegt.
• Vertrauensbereich, in dem 95% aller möglichen wahren Werte liegen, die den
Stichprobenschätzwert erzeugt haben können.
• Großer Standardmessfehler = großes Konfidenzintervall
• Voraussetzungen:
• Test hat ausreichende Reliabilität (> 0,80)
• Fehler sind normalverteilt
• Stichprobe > 60 — bei kleineren kann t-Verteilung herangezogen werden.
Bsp.: „Die Reliabilität einer IQ-Tests (M=100; SD=15) beträgt rtt = 0,80. Ein proband erreicht einen
Messwert von 110. In welchem Intervall ist der wahre Wert des Probanden mit einer
Wahrscheinlichkeit von 95% zu erwarten?“
Geg.: x = 110; IQ-Norm -> SD = 15; rtt = 0,80
Ges.: Set (Standardmessfehler), CL
Lösung: Set = Sxt*√1-0,80 = 15*√0,2 = 6,71
(Streuung um den wahren Wert von 6,71)
CLu = 110 - 1,96 * 6,71 = 96,84
CLo = 110 + 1,96 * 6,71 = 123,15
52
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
h.) Minderungskorrekturen:
Wie wirkt sich der Messfehler auf die maximale Höhe der Korrelation,
die ein Test zu anderen Variablen zeigen kann aus?
• Ein gesondertes Problem bezieht sich auf die Frage, welche Auswirkungen Messfehler auf die
Höhe einer bivariaten Korrelation ausüben.
• Über die Minderungskorrektur kann dazu eine Schätzung abgegeben werden, welche
Korrelation zu erwarten ist, wenn die betrachteten Testverfahren vollkommen reliabel (frei von
Messfehlern) sind.
• Korrelation zwischen den wahren Werten zweier Tests soll geschätzt werden.
• Reliabilitäten und die Korrelation der beiden Tests müssen bekannt sein.
—> Minderungskorrektur für die Korrelation
• Mit Minderungskorrektur kann Schätzung der Korrelation zweier Variablen mit wahren Werten
vorgenommen werden, wenn deren Reliabilitätskoeffizienten vorliegen.
• Es lässt sich so der Korrelationskoeffizient für den Fall korrigieren, wenn die beiden korrelierten
Werte fehlerbehaftet sind, wodurch deren Korrelation vermindert war.
• Doppelte Minderungskorrektur: wenn Test t und Kriterium c eine unzureichende Reliabilität
besitzen.
Mit der Minderungskorrektur kann berechnet werden, wie hoch die Korrelation von 2 Tests maximal
wäre, wenn sie komplett reliabel wären (rtt = 1).
ACHTUNG:
- In dem Beispiel werden 2 unterschiedliche
Tests (A,B) durchgeführt.
- Die Korrelation der Messwerte kann
maximal so hoch sein wie die Korrelation
der wahren Werte.
- Wenn die Tests fehlerbehaftet sind, ist die
Korrelation der Messwerte kleiner, als die
Korrelation der wahren Werte (wahre Werte = Obergrenze)
53
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
• Beobachtet werden können nur die Korrelationen zwischen den Messwerten. Ist man an der
Korrelation der wahren Werte interessiert, kann man diese schätzen.
• Aus den Axiomen der KTT lässt sich die Formel der Minderungskorrektur ableiten, die den
mindernden Einfluss des Messfehlers in der Korrelation der Messwerte korrigiert.
Doppelte MK
Es werden die Messfehler in beiden Tests
korrigiert.
Man erhält die Korrelation der wahren Werte
beider Tests r(tauA,tauB).
(rtc = empirisch festgestellte Korrelation; durch Produkt aus den wurzeln der Reliabilität)
In der Forschung sind wir an den wahren Werten interessiert, und nicht an den Testergebnissen.
Wir rechnen Messfehler heraus und kommen somit auf die wahren Werte. (hier werden die
Fehlerwerte herausgerechnet).
Einfache MK
Es werden die Messfehler in einem Test
korrigiert.
Man erhält die Korrelation des wahren Werts
von Test A und dem Messwert von Test B
r(tauA,xB)
(aus Wurzel der Reliabilität von EINEM Test)
Entwicklung neuer Tests. Man möchte wissen wie sie das Konstrukt operationalisieren. Man will
konvergente Validität feststellen (die Korrelation mit einem Test mit anderen Tests die das selbe
Merkmal feststellen).
• Wenn man in ein Testverfahren reinsieht und man sieht die Doppelte MK (Schulnoten = 0,6)
bedeutet das automatisch dass man damit gut Schulnoten vorhersagen kann?
• Minderungskorrektur führt zu höherer Korrelation, da sie in Richtung wahrer Werte geht. man
teilt immer durch Werte kleiner 1… daher erhöht sich die Korrelation.
• Bringt uns in der Praxis aber nichts, da wir nur die Messfehler behafteten Messwerte haben. Auf
den wahren Wert kommt man nicht
54
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Bsp.: „Test A weist eine Reliabilität von rtt = 0,8 auf, Test B eine von rcc= 0,6. Die Tests zeigen
einen Zusammenhang von rtc = 0,3. Wie hoch wäre der Zusammenhang maximal, wenn Test A
bzw. beide Tests perfekt reliabel wären?“
geg.: rtt = 0,8; rcc = 0,6; rtc = 0,3
ges.: corr rtc(rtt); corr rtc (rtt; rcc)
Lös.: Test A = corr rtc(rtt) = (rtc)/(√rtt) = 0,3/√0,8 = 0,335
Beide Tests = corr rtc (rtt; rcc) = (rtt)/(√rtt * √rcc) = 0,3/(√0,8*√0,6) = 0,433
i.) Testverlängerung:
ACHTUNG:
• In dem Beispiel geht es um mehrere Items
eines Tests.
• Auch hier gilt: Die wahren Werte sind
Grundlage der Korrelation der Messwerte
• Werden zusätzliche Items in den Test
aufgenommen, nehmen die Korrelationen
der wahren Werte zu.
• Da die Fehlerwerte der Items voneinander
unabhängig sind, kann es zwischen Ihnen
keine Korrelation geben
Wird ein Test um (gleich gut geeignete) Items verändert, so nimmt die Varianz
wahrer Werte stärker zu, als die Varianz der Fehlerwerte, d.h. Test wird reliabler.
Merke: Testverlängerung führt zur Erhöhung der Reliabilität eines Tests.
Praktischer Bezug:
- Die Reliabilität eines Testverfahrens kann somit gesteigert werden, wenn zusätzliche Items
aufgenommen werden, die gleich gut geeignet sind, d.h. wenn er verlängert wird.
- Aus den Axiomen der KTT lässt sich eine Formel ableiten, mit der geschätzt werden kann, wie
hoch sich die Reliabilität des Tests nach der Verlängerung ergibt:
(Spearman-Brown-Prophecy-Formula)
(mit k = Faktor der Verlängerung)
- Parallele Testteile: 2 Testteile p und q mit gleichen wahren Werten & gleicher wahrer Varianz.
- Verlängert man Test p um q, ist die gemeinsame Testvarianz die Summe der Einzelvarianzen +
der zweifachen Kovarianz beider Tests.
- Bei Verdopplung der Testlänge durch einen parallelen Testteil, resultiert die doppelte
Fehlervarianz, aber die vierfache wahre Varianz —> Spearman-Brown-Formel
- k = Verlängerungsfaktor (K = 2 —> Verdopplung, K = 3 —> Verdreifachung…)
55
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Bsp.: „Ein Test besteht aus 10 Items und weist eine Reliabilität von rtt = 0,5 auf. Wie hoch wäre die
Reliabilität, wenn man den Test um 5 Items verlängern würde?“
geg.: rtt = 0,5; n = 10; n+x = 15
ges.: corr rtt; k
Lös.: k = (10+5)/10 = 1,5
corr rtt = (1,5*0,5)/(1+(1,5-1)*0,5) = 0,6
(Testverlängerung eignet sich vor allem dann zur Reliabilitätssteigerung,
wenn der Test unreliabel ist und aus wenigen Items besteht.)
• Steigerungen der Reliabilität lassen sich dann am effektivsten erzielen, wenn die
Ausgangsreliabilität niedrig ist.
• Die Gleichung kann zudem auch dann eingesetzt werden, um eine Reliabilitätsminderung
infolge einer Testkürzung abzuschätzen. Dies kann z.B. notwendig sein, wenn infolge des
Entfernens von Skalen aus einem Test eine kritische Reliabilitätsgrenze nicht unterschritten
werden soll.
• Dabei ist der Faktor k zu ersetzen durch den Quotienten k = (Anzahl der Items nach der
Korrektur)/(Anzahl der Items vor der Korrektur)
Bsp.: „Ein Test soll von 100 Items auf 60 Items gekürzt werden. Damit ergibt sich ein k = 100/60 =
0,6. Weist der ursprüngliche Test eine Reliabilität von rtt = 0,90 auf, resultiert für die verküzte
Version:“
Die Reliabilität würde demnach durch die Verkürzung um den
Faktor k = 0,6 auf rtt = 0,84 absinken.
56
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
j.) Kritik an der KTT:
Die KTT liefert einen bewährten und ökonomischen Ansatz zur Ermittlung von Testwerten & zur
Beurteilung von Messgenauigkeiten bei psychometrischen Tests & Fragebögen.
Die KTT ist pragmatisch, aber umstritten, da sie viele starke Annahmen macht, die nicht empirisch
überprüfbar oder fraglich sind:
1.) Schätzprobleme:
• Addition eines Testwertes aus wahrem Wert & Fehlerwert: Dieses Axiom der KTT ist
empirisch nicht überprüfbar, da es sich beim wahren Wert und Fehlerwert nur um theoretische
(nicht beobachtbare) und maximal schätzbare Größen handelt.
• Nullkorrelation zwischen wahrem Wert & Fehlerwert: Ebenfalls nicht empirisch prüfbar und
zudem im Falle abhängiger Messungen (wiederholte) nicht immer haltbar.
• Konstanz der Werte: Wenn überhaupt nur für kurze Zeiträume & spezifische Merkmale
vertretbar. Für Vielzahl von Merkmalen muss hingegen angenommen werden, dass sie sich
über die Zeit verändern.
2.) Skalierungsprobleme:
• Intervallskalierung von Testwerten: Nicht alle Tests erfüllen das Kriterium intervallskalierter
Daten. Zudem gelingt es mit den Mitteln der KTT nicht zu überprüfen, welches Skalenniveau die
Testwerte aufweisen.
3.) Konstruktprobleme:
• Annahmen über Eigenschaften der untersuchten Merkmale: Die mit den statistischen
Verfahren verbundenen Implikationen sind nicht überprüfbar. (z.B. dass Merkmale grundsätzlich
Normalverteilt sein sollen — ob alle physischen Merkmale Normalverteilt sind)
• Annahmen über Eigenschaften der verwendeten Items: Keine direkte Möglichkeit der
Überprüfung, ob verwendete Items hinsichtlich des untersuchten Merkmals homogen sind.
Eingeschätzt werden kann diese Forderung lediglich über Angaben zur Trennschärfe und
Angaben zur internen Konsistenz.
• Unabhängigkeit der Parameter: Die Parameter der KTT sind populations- bzw
Stichprobenabhängig. in Abhängigkeit von der Homo- oder Heterogenität der untersuchten
Stichprobe verändern sich die Reliabilitätskoeffizienten. Besonders das Auftreten oder Fehlen
extremer Werte nimmt dabei erheblichen Einfluss auf korrelative Beziehungen zwischen
Variablen.
4.) Stichprobenproblem:
• Populationen und Stichproben: können in weitere Subpopulationen oder Substichproben
zerfallen, die hinsichtlich ihrer Messwerte unterschiedliche Reliabilitäten & Validitäten
aufweisen. Je nachdem, welcher Substichprobe dann die erzielte Merkmalsmessung einer
Person zugeordnet wird, verändern sich die Schätzungen der wahren Werte & Varianzen.
Mögliche Subpopulationen mit anderen Reliabilitäten & Validitäten werden nicht berücksichtigt.
• Gruppenstatistiken und Einzelfall: Von Gruppenstatistiken - die ein Aggregat über eine
Klasse von Elementen darstellen - kann nicht auf den Einzelfall geschlossen werden, wenn die
entsprechende Reliabilität und/oder Validität unter 1 liegt. Denn eine
Wahrscheinlichkeitsaussage gilt nur für Elemente bestimmten Umfangs, kann aber nicht für den
Grad einer Vorhersagegenauigkeit bezüglich eines Einzelfalls verwendet werden.
57
Testtheorie & Testkonstruktion
Skript 2015
Positives:
• Pragmatische Gründe
• Die darauf basierenden Tests haben sich in der Praxis oft bewährt
• Es liegen inzwischen auch Erweiterungen der KTT vor
58
Maximilian Bungart
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
6.) v5: Probabilistische Testtheorie (PTT): („Item-Response-Theorie“ — IRT)
• Die PTT ist neben der KTT die zweite bedeutsame Testtheorie.
• Alternativ wird sie auch als „Item-Response-Theorie“ bezeichnet, oder
(fälschlicherweise) als Rasch-Modell (nur ein Spezialfall der PTT).
a.) Grundidee:
- Theorie, die auf Wahrscheinlichkeiten basiert.
- Das Antwortverhalten von Probanden werden mittels algebraischer (logistischer) Funktionen
beschrieben.
- Bei der Validierung von Testverfahren wird geprüft, ob die empirischen Daten durch
Modellgleichungen vorhergesagt werden können.
- Sofern diese Prüfung erfolgreich ist, können dem Test bestimmte Eigenschaften
zugemessen werden, die in der psychodiagnostischen Praxis von Vorteil sind.
„Wie verhält sich die Schwierigkeit des Items zu dem, was der Proband kann“
b.) 4 Grundannahmen der PTT: (Fisseni - 1990)
1. Jeder Proband besitzt eine Fähigkeit, Items zu lösen —> „Personenparameter“
2. Jedes Item hat eine Schwierigkeit —> „Itemparameter“
3. Personen- & Itemparameter lassen sich gemeinsam auf einer eindimensionalen Skala abbilden.
(sie müssen nicht zwischen Personen- & Itemparameter unterscheiden)
4. Die Wahrscheinlichkeit, dass ein bestimmter Proband ein bestimmtes Item löst, wird gleichsam
von Personen- und Itemparameter bestimmt. (Habe ich einen fähigen Probanden und ein
leichtes Item, ist die Wahrscheinlichkeit dieses zu lösen sehr hoch)
Beispiel:
Personenparameter: 62kg & 135kg — Itemparameter: „Sind sie schwerer als 40/60/… etc.?“
Proband 1: Fähigkeit Items zu lösen ist höher als der Itemparameter, d.h. er Antwortet dann mit „ja“.
Bei 60 ebenfalls „ja“, bei 80 müsste er „nein“ sagen. (voraussgesetzt er antwortet immer ehrlich).
Proband 2: Bei 135kg sollte dieser mit „nein“ antworten, davor nur mit „ja“.
59
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Die Antwort auf einem Item hängt gleichzeitig vom Itemparameter („wie schwer ist die Aufgabe?“) & vom
Personenparameter („wie fähig ist die Person?“) ab.
Verlauf der Lösungswahrscheinlichkeit in Abhängigkeit von Personen und Itemparameter („Itemcharakteristische Kurve“)
Bis zu dem Punkt von 80kg ist sie 0 und springt ab dann auf 1 — d.h. wenn ich jemanden habe der weniger als 80kg
wiegt, sagt er auf jeden Fall „nein“ & bei jemandem mit 135kg auf jeden Fall „ja“
(Diese „Guttman“ - Skala bezieht sich nur auf die frage, also das Item)
c.) Unterscheidung zweier Ebenen von Variablen:
1. Manifeste Variablen: (xvi)
- die beobachtbaren Antworten auf Testitems.
- Rückschluss von manifesten Variablen auf latente Variable.
- Indikatoren („Anzeiger“) der latenten Variable, also das dahinterliegende Konstrukt.
2. Latente Variablen: („ksi“)
- nicht beobachtbare Fähigkeits- & Persönlichkeitsmerkmale.
- nicht direkt messbar.
- manifeste Variablen werden genutzt um Ausprägung auf der latenten Variable zu finden.
- Ausprägung der latenten Variable kann nur erschlossen werden.
- Merkmal, das die Itemantworten zustande kommen lässt (l.v. verursacht die Itemkreuze)
- In diesem Sinne sollten Probanden mit einer hohen Ausprägung der latenten Variable
zugehörige Items auch in Schlüsselrichtung beantworten („lösen“) während Probanden mit einer
niedrigen Ausprägung in gegenläufiger Richtung antworten („nicht lösen“).
- Dabei werden wechselseitige Korrelationen zwischen den manifesten Variablen angenommen
und auf den Einfluss der latenten Variable zurückgeführt.
60
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
d.) Lokale stochastische Unabhängigkeit:
„Wenn alle Items Indikatoren der latenten Variable sind, so sollten die Korrelationen zwischen den
Items verschwinden, wenn die latente Variable auf einer Stufe konstant gehalten wird.“
(immer wenn das der Fall ist, ist es eindimensional, d.h. man misst nur 1 Konstrukt und kein anderes - also „reliabel“)
- In der Empirie lassen sich nur die manifesten beobachten.
- „Ksi“ ist die Personenfähigkeit (latente Dimension - nicht beobachtbar, aber Verantwortlich für
das Zustandekommen der Antworten)
„Bei gegebener Eindimensionalität verschwinden Zusammenhänge zwischen Items, wenn die
latente Variable auf einer Stufe konstant gehalten wird“
• Um von manifesten Variablen auf eine gemeinsame latente Variable schließen zu können,
bedarf es einer Datenbasis mit korrelierten manifesten Variablen (xvi*).
• Hinreichende Bedingung: Itemhomogenität bezüglich der latenten Variable, d.h. dass das
Antwortverhalten nur durch das latente Merkmal beeinflusst wird.
• Itemhomogenität, wenn die manifesten Variablen die Bedingung der lokalen stochastischen
Unabhängigkeit erfüllen.
Feststellung der l.s.U.:
1. Die latente Variable wird auf einem bestimmten Wert konstant gehalten (Stichprobe von
Probanden, die alle die gleiche Ausprägung hinsichtlich des Merkmals haben)
2. Korrelationen der Antwortvariablen an den Personen mit dieser Ausprägung werden in der
latenten Variable (ksiv) untersucht.
3. Liegt Itemhomogenität vor, verschwinden die Korrelationen zwischen den Antwortvariablen.
- Wenn alle Items homogen sind, müssen Personen mit gleicher Merkmalsausprägung der
latenten Variable bei einem Item die selben Werte erreichen.
- im idealen Fall ohne Fehlereinflüsse gäbe es also einen Datenpunkt in einem Streudiagramm,
bzw. mit Messfehlern eine enge kleine Punktwolke mit Nullkorrelation.
- Wäre die Korrelation nicht 0, wären die Items nicht homogen und die Items würden dann noch
etwas anderes messen als das Merkmal.
61
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Überprüfung der Unkorreliertheit:
• mithilfe des Multiplikationstheorems für unabhängige Ereignisse: „Wahrscheinlichkeit für das
Auftreten zweier Ereignisse ist Produkt ihrer Einzelwahrscheinlichkeiten.“
• in unserem Fall: Wahrscheinlichkeit, dass man 2 Items i und j zustimmt, wenn man eine
bestimmte Merkmalsausprägung der latenten Variable hat.
• Sind die Items unabhängig, ist die latente Variable der einzige Verursacher, was bedeutet, dass
die Items homogen sind —> sie sind Indikator der latenten Variable.
e.) Modelltypen: (unterscheiden sich in der Definition der latenten Variable)
2 Basismodelle:
1. Latent-Class-Modelle: kategoriale latente Klassen zur Charakterisierung von
Personenunterschieden.
2. Latent-Trait-Modelle: (siehe Beispiel oben)
- verwenden quantitative, kontinuierliche latente Variablen
- Beziehung zwischen manifesten Testantworten & der Ausprägung der latenten Variable als
-
Itemcharakteristische Funktion („IC-Funktion“).
Abszisse: latente Variable (x-Achse); Ordinate: Lösungswahrscheinlichkeit (y-Achse)
Items sind durch Schwierigkeitsparameter charakterisiert: wie leicht oder schwer das Item ist.
Personenparameter: gibt an, wie fähig eine Person ist —> welche Leistung jemand bringen
kann —> Ausprägung der latenten Variable einer Person.
für jedes Item lässt sich bestimmen, welche Lösungswahrscheinlichkeit eine Person mit einem
bestimmten Personenparameter hat: Beziehung der Itemschwierigkeit und der
Lösungswahrscheinlichkeit in Abhängigkeit davon, welche Merkmalsausprägung jemand hat.
Probabilistische & Deterministische Modelle sind „Latent-Trait-Modelle“, die sich nur in ihren ICFunktionen unterscheiden.
Deterministische Modelle:
• Gehen davon aus, dass Antwortverhalten nur durch Item- und Personenparameter bestimmt
wird.
Guttmann-Modell: (Skalogramm-Modell)
(Bei dem Beispiel oben wurde die Guttman-Skala veranschaulicht)
Dieses Modell ist deterministisch, es gilt…
- Wenn ein Proband ein Item löst, muss er alle leichteren auch gelöst haben
- Wenn ein Proband ein Item nicht löst, darf er danach kein schwereres lösen.
Die relativ strengen Modellannahmen der Guttman-Skala werden in der
psychodiagnostischen Praxis üblicherweise nicht erfüllt.
Probabilistische Modelle haben weniger strenge Annahmen…
- ist ein Proband fähig, löst er wahrscheinlich schwere Items.
- ist ein Proband weniger fähig, löst er schwere Items wahrscheinlich nicht. (d.h. es kann immer
mal vorkommen, dass ein fähiger Proband ein schweres Item nicht löst und umgekehrt)
62
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Zur Guttmann-Skala:
• Items sind von links nach rechts nach ihrer Schwierigkeit abgetragen.
• Eine Person mit einem bestimmten Fähigkeitsparameter kann, wenn er Item 2 lösen kann auch
Item 1 links davon lösen.
• Items sind dichotom: es gibt nur gelöst (1) und ungelöst (0)
• Für jedes Item wird ein bestimmter Fähigkeitswert angenommen, ab dem es gelöst wird.
Auswertung der Skala:
• Reproduzierbarkeitskoeffizienten:
• anhand dessen wird festgestellt, ob Modellkonformität/Itemhomogenität gegeben ist.
• maßgeblich: Anzahl der Rangplatzvertauschungen, wenn schwierigere Items gelöst,
leichtere nicht gelöst werden (dies ist nämlich nicht modell-konform!).
• Also Überprüfung, ob die Probanden sich Modellkonform verhalten.
• Der Skalenwert/Testwert eines Probanden ist die Rangzahl des Items, auf das noch positiv
reagiert wird.
Kritik:
• Es können nur
Ranginformationen abgelesen
werden (ordinale Information)
• keine Aussagen zu Distanzen
(da nur Rangskalenniveau)
(Fähigkeit = Ksi — Schwierigkeit = Sigma)
63
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Probabilistische Modelle:
• Gehen von stochastischer Beziehung zwischen dem Antwortverhalten und dem Item- und
•
•
•
•
•
•
•
Personenparameter aus.
Verwendung monoton steigender IC-Funktionen (logistische Funktion).
Ordnet jeder Ausprägung der latenten Variable eine Wahrscheinlichkeit zu, mit der ein Proband
ein bestimmtes Item löst.
eine Funktion bezieht sich immer auf ein einzelnes Item.
Lösungswahrscheinlichkeit steigt mit Fähigkeit des Probanden.
je weiter rechts die Funktion liegt, desto schwieriger ist ein Item.
am Wendepunkt ist immer eine Lösungswahrscheinlichkeit von 0,5 —> hier ist der
Personenparameter gleich der Itemschwierigkeit.
Günstiger sind IC-Funktionen bei dichotomen Items
In Rasch-Modellen wird der Zusammenhang von Fähigkeit des Probanden, Schwierigkeit des
Items & der Lösungswahrscheinlichkeit durch die logistische Funktion beschrieben.
ICC im Rasch Modell
(„Itemcharakteristische Kurve“)
(p = probability; exp = Item von Testperson v in Item; Ist ein Item schwerer als die Fähigkeit eines
Probanden oder umgekehrt? — Differenz)
bei 0 wäre die Itemschwierigkeit identisch mit der Fähigkeit.
Rechts wäre der Proband fähiger als das Item schwer ist.
(Diese Kurve gilt nur für 1 Item!)
64
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
1.) Einparameter-Logistisches Modell: Rasch Modell (1PL-Modell)
• Einfachster Fall: Annahme, dass für alle Items die gleiche logistische IC-Funktion gilt.
• Definition Itemcharakteristische Funktion (IC-Funktion)
„Sie legt in Form einer mathematischen Gleichung fest, welche Annahmen über den
Zusammenhang zwischen manifesten und latenten Variablen getroffen werden. Sie stellt dabei die
Grundlage für die Schätzung der Personen- und Itemparameter dar.“
Bei den 1PL-Modellen werden lediglich Unterschiede
in Schwierigkeit berücksichtig.
(1 Parameter)
(Dies wäre die Kurve von 3 Items, welche sich nur in der
Schwierigkeit unterscheiden — -5 bis 5)
• Es gibt 2 Wahrscheinlichkeiten: Item gelöst & Gegenwahrscheinlichkeit Item nicht gelöst —> 2
Verläufe der Funktion.
• Gleichung ist wesentlich durch die Differenz von Merkmalsausprägung einer Person
(Personenparameter) minus Itemschwierigkeit bestimmt, da der Itemschwierigkeitsparameter
darüber entscheidet, welche Anforderungen das Item an den Personenparameter stellt.
- beide Parameter gleich: Lösungswahrscheinlichkeit = 0,5 (Wendepunkt der Funktion) —> Item ist haarscharf daran, was jemand kann.
- Personenparameter > Itemschwierigkeit: Items von Fähigkeit einer Person übertroffen —> Lösungswahrscheinlichkeit steigt.
- Personenparameter < Itemschwierigkeit: Itemschwierigkeit übersteigt Fähigkeit des Probanden
—> Lösungswahrscheinlichkeit sinkt.
Rasch-homogene Items:
- Unterscheiden sich nur in ihren Schwierigkeitsparametern, ansonsten sehen sie gleich aus. —> Unterscheiden sich also nur in der Lage (leichtere Items weiter links, schwierigere rechts)
Die IC-Funktionen können als einzelne Funktionen auf einer
gemeinsamen Skala abgebildet werden —> „Joint Scale“
Parameterschätzung: (Schätzung der Modellparameter)
• Ausdruck, der die Wahrscheinlichkeit aller beobachteten Daten angibt: „Likelihoodfunktion L“
„Produkt der Wahrscheinlichkeiten der empirischen Werte und der gewählten Parameter“
(Probabilistisches Schätzverfahren = Likelihood)
65
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
• für alle Reaktionen wird je eine Wahrscheinlichkeit berechnet, die dann mit anderen
Wahrscheinlichkeiten pro Reaktion zu einem Wert multipliziert wird.
• Ergebnis: Wahrscheinlichkeit für eine Datenmatrix, in der für n Personen und m Items alle
Reaktionen abgetragen sind.
• mit passenden Parametern steigt die Wahrscheinlichkeit, mit unpassenden sinkt sie.
• bester Schätzer für die Parameter ist die für die Funktion einen Maximalwert ergeben.
• Summennormierung:
- Werte des Itemparameter in einem Intervall -3 bis +3 gewählt, sodass deren
Summe 0 ergibt:
- leichte Items: negative Werte des Itemparameters
- schwere Items: positive
- geringe Merkmalsausprägung: negative Werte für den Personenparameter
- hohe Merkmalsausprägung: positive Werte
• unbedingte ML-Methode: („maximum-Likelihood-Schätzung)
- wird Item 1 häufiger ausgelöst als Item 2, ist Item 2 schwieriger als Item 1
- Item 1 bekommt niedrigen Schwierigkeitsparameter (-1) & Item 2 hohen (+1)
- Löst Person 1 beide Items, bekommt sie eine hohe Merkmalsausprägung (2), löst
-
Person 2 nur ein Item, bekommt sie eine mittlere Ausprägung (0), löst Person 3
kein Item, bekommt sie eine niedrige Ausprägung (-2).
Die Parameter müssen sich immer zu 0 addieren.
• Likelihood erreicht Maximum, wenn die geschätzten Item- und Personenparameter optimal sind.
• Likelihood: „Ermittlung aus den Zellen- und Spaltensummen der Datenmatrix —> erschöpfende
Statistik.
• Bedingte ML-Methode: („Conditional Maximum Likelihood“)
- Itemparameter lassen sich ohne Berücksichtigung der Personenparameter
schätzen.
- Separierbarkeit der Parameter.
- Rechentechnisch aufwendig.
- Itemparameter werden iterativ bestimmt, so dass sie optimal zu den empirisch
beobachteten Daten passen. (Lösungswahrschein. > 0,5 wäre 1; < 0,5 wäre 0)
66
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
(Schätzung der Itemparameter: Erfolgt mittels Maximum-Likelihood-Methode. Ist die Schätzung
erfolgreich, so sind die Modellannahmen in dem Validierungsdatensatz gegeben.)
Modellkonformität:
• Likelihoodschätzung sagt nichts darüber aus, ob die getroffenen Modellannahmen auch
zutreffen.
• Es muss also empirisch geprüft werden, ob die empirischen Daten den Modellannahmen
entsprechen.
„Wie gut passen Parameter zum Modell; wie konform sind die Daten zum Modell?“
• Es könnte sein, dass die optimal geschätzten Parameter nur zu verhältnismäßig geringen
Wahrscheinlichkeiten für die Daten führen.
• Voraussetzung der Stichprobenunabhängigkeit durch die Aufteilung der Gesamtstichprobe in 2
Substichproben anhand eines relevanten Kriteriums.
- So können getrennte Itemparameter geschätzt werden, die bei ausreichender
Modellkonformität nur zufällig variieren dürfen.
- Grafischer Modelltest: in einem Streudiagramm sollten die Itemparameter
nahe der Hauptdiagonalen liegen.
- Nullhypothese: „Modellkonformität gegeben“
- Prüfung mit dem Likelihood-Quotienten-Test nach Anderson: nimmer für jede
Stichprobe eine eigene CML-Schätzung vor und testet die Nullhypothese der
Gleichheit der Schätzungen —> sollte nicht signifikant werden.
• Liegen Itemparameter (kalibrierte Items) vor, und ist Modellkonformität bestätigt, muss nicht für
jede Person der eigene Personenparameter geschätzt werden.
- Alle Personen mit gleichen Zeilensummenscore haben den gleichen Parameter.
- Wenn kein Item gelöst: Zeilensummenscore = 0
- Alle Items gelöst: Zeilensummenscore = m (Anzahl der Items)
- Nicht genau bestimmbar, wie der Personenparameter gegen - ∞ und + ∞
strebt.
- Durch Normierung können aber plausible Parameter zugewiesen werden.
•
•
•
•
Ob sich Personen modellkonform verhalten kann mit Person-fit-indices festgestellt werden.
Es wird anhand des Antwortmusters eingeschätzt, ob die Testergebnisse plausibel sind.
Lösen die Probanden die Items so, wie sie es nach ihrer Schwierigkeit sollten.
Fällt der Person-fit-Index ungünstig aus, muss entschieden werden ob noch eine sinnvolle
Interpretation möglich ist.
• Modellkonform kann auch sein, dass Personen einen abweichenden Arbeitsstil zur Mehrheit
besitzen.
• Ist Modellkonformität gegeben resultiert „spezifische Objektivität der Vergleiche“
Spezifische Objektivität:
• Wenn IC-Funktionen aller Items die gleiche Form aufweisen und entlang der x-Achse parallel
verschoben sind.
• Ermöglicht Schwierigkeitsunterschied zweier Items unabhängig von Merkmalsausprägung einer
Person festzustellen.
• Ebenso: Unterschiede zwischen Personenparameter können unabhängig von der
Itemschwierigkeit festgestellt werden.
67
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
(8 Items, 2 Personen — Grün = Item gelöst; Rot = nicht gelöst — Person 1 ist im gesamten Test fähiger.
Teilt man die Tests jedoch auf, ist es anders.)
Welche Antwortsequenzen
korrespondieren?
Welche können dargestellt
werden?
P5 und P6 darf nicht
vorkommen, da es
inkonformes Antwortverhalten
ist. Man kann nicht sagen „ich
bin nicht schwerer als 60kg“
und dann „ich bin schwerer
als 100kg“
(Spez. Obj. in der Guttman-Skala: Person 4 ist am fähigsten. Schneiden wir Item 4 raus, bleibt es so. Schneiden wir 3
und 4 raus, verändert sich schon die Rangreihe (Person 3 und 4 teilen sich den Platz). Schneiden wir 3 Items raus,
ändert sich wieder etwas. Die Rangreihe bleibt gleich, egal welche Items ich rausnehme)
68
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
(Spezifische Objektivität: Rangreihe der Probanden verschiebt sich nicht, wenn unterschiedliche
Itemstichproben vorgegeben werden)
(Stichprobenunabhängigkeit: Schätzung der Kennwerte ist weitestgehend unabhängig von der
Validierungsstichprobe)
Testbeispiel: TIPI (Trierer Integriertes Persönlichkeitsinventar)
(Dieser Test entspricht der probabilistischen Testtheorie, dem
Rasch-Modell)
Iteminformation:
• Definition:
„Beschreibt den Beitrag eines Items zur Messung des entsprechenden Merkmals. Je höher der
Informationswert, desto mehr trägt das Item zur Messung eines Merkmals bei. Der Informationswert ist somit
das Pendant zum Standardmessfehler eines Tests aus der klassischen Testtheorie, der allerdings nicht als
konstantes Merkmal des Tests, sondern als Funktion der Personenkennwerte beschrieben wird.“
• zeigt an, wie viel Information ein Item in einem bestimmten Fähigkeitsbereich über die
Unterschiedlichkeit der Probanden liefert. (Differenz zwischen Probanden- und Itemschwierigkeit — Maximale Information liefert das Item
auf dem Niveau seiner Schwierigkeit)
• Je größer die Steigung der IC-Funktion, desto höher der Informationsgewinn durch Anwendung
des Items i bei einer bestimmten Person.
• Jedes Item liefert unterschiedliche Informationen über die Merkmalsausprägungen
verschiedener Personen.
(erste Ableitung aus der logistischen Funktion)
69
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
- In den Randbereichen wäre die Lösungswahrscheinlichkeit 0 bzw. 1. In diesen Bereichen
werden Items gelöst oder nicht, d.h. man bekommt dadurch kaum Information. Das Maximum
ist immer dort, wo die Lösungswahrscheinlichkeit genau 0,5 (50%) ist.
- Rot = Iteminformationsfunktion — Da, wo sie hohe Werte hat, liefert sie viele Informationen.
(das Item liefert viele Informationen)
• Der Verlauf des Informationsgewinns wird in der „Iteminformationsfunktion“ I ausgedrückt.
- varriiert mit dem Grad der Übereinstimmung zwischen Itemschwierigkeit und der
Fähigkeit.
- Erreicht ihr Maximum, wenn Itemschwierigkeit = Fähigkeit
- Bei zunehmender Differenz fällt sie zu beiden Seiten ab und strebt gegen 0 —> Item-schwierigkeit weicht zunehmend von den Fähigkeiten ab.
- Entspricht dem Produkt aus bedingter Lösungswahrscheinlichkeit und
Nichtlösungswahrscheinlichkeit des Items bei gegebener Fähigkeit.
- Durch Addition der einzelnen Iteminformationsbeiträge kann für einen bestimmten
Probanden die Testinformation additiv bestimmt werden.
- Bei Anstieg der Testinformation steigt die Testgenauigkeit für den Probanden.
Fähigkeit, Schwierigkeit, Information
Iteminformation als Zahl getroffener Unterscheidungen:
Wenn man eine Person von der anderen unterschieden hat, gibt es einen „Gewinner“ und einen
„Verlierer“ („sie schütteln sich praktisch die Hand“)
„100 Probanden bearbeiten ein Item. Wie viele Unterscheidungen zwischen Probanden können
getroffen werden?“
70
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
2.) Zweiparameter-Logistisches Modell: Birnbaum-Modell
• zusätzlich: Itemdiskriminationsparameter
• Gibt an, wie stark sich die Lösungswahrscheinlichkeiten in Abhängigkeit von der
•
•
•
•
Merkmalsausprägung ändern.
Maß für die Sensitivität der Items für Merkmalsunterschiede
Je kleiner der Parameter, desto geringer die Diskriminationsfähigkeit des Items.
Ein solches Item ist aber sensitiv im oberen oder unteren Bereich.
Entspricht etwa der Trennschärfe in der KTT
Bei den 2PL-Modellen werden zusätzlich
Unterschiede in der Steigung der ICC
berücksichtigt.
(Die Steigung sagt uns, wie gut man zwischen fähigen
und weniger fähigen Probanden unterscheiden kann.)
71
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
3.) Dreiparameter-Logistisches Modell: Rate-Modell
• Dritter Itemparameter: Rateparameter
Bei den 3PL-Modellen wird zusätzlich die
Ratewahrscheinlichkeit der einzelnen Items
berücksichtigt.
(y Achsenabschnitt = Ratewahrscheinlichkeit)
Modellvergleich:
• Das Rasch-Modell ist hinsichtlich seiner Gültigkeit mit Modelltests überprüfbar.
• Gültigkeit meint: erschöpfende Statistiken, spezifische Objektivität, Stichprobenunabhängigkeit,
Intervallskalierung
• 2PL und 3PL Modell nicht! —> obwohl umfassendere Modellierung des Probandenverhaltens
• Es gibt hier nur Goodness-of-Fit-Maße
—> keine Rückschlüsse auf das Zutreffen der Modellimplikationen möglich
• 1PL Modell hat also vorteilhaftere Modelleigenschaften —> deshalb häufige Anwendung
Intervallskalenqualität:
Profile eines Probanden. Einmal als Personenparameter (PTT - oben)
ausgewertet und einmal nach der KTT (unten) ausgewertet.
72
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
• Es geht immer in die gleiche Richtung, sowohl negativ als auch positiv.
• Überdurchschnittliche Fähigkeit = überdurchschnittliche Werte
• Bei der PTT herrscht intervallskalenniveau (d.h. die Ausschläge sind stärker/akzentuierter/
präziser. Hoher Personenparameter bei lösen von sehr schweren Items)
• Bei der KTT herrscht rangskalenniveau (d.h. Abstände können nicht interpretiert werden,
Rangreihe informiert nicht über Details)
(Intervallskalenqualität: Abstände zwischen den Messwerten einzelner Probanden können
sinnvoller Interpretiert werden.)
Schlussfolgerung bei Modellgeltung:
Können die Modellparameter hinreichend genau geschätzt werden, so gelten die
Modellannahmen, die der Schätzung zugrunde liegen, als erfüllt. (Modellparameter =
Itemschwierigkeit, Probandenfähigkeit, Steigung, Ratewahrscheinlichkeit — umso mehr
Parameter, desto mehr Freiheitsgrade habe ich —> 3PL = 3 df)
Es gelten damit:
- Rasch-Homogenität: Die ICC’s verlaufen entsprechend dem Schätzmodell (z.B. 1PL-,2PLoder 3PL-Modell)
- Lokale stochastische Unabhängigkeit: Alle Items erfassen die gleiche eindimensionale
latente Variable (im Prinzip die Reliabilitätsprüfung der PTT)
- Spezifische Objektivität & Stichprobenunabhängigkeit: Die Parameterschätzung ist
unabhängig von der Itemstichprobe und der Personenstichprobe (egal welche Person oder
welche Items ich nehme, ich komme immer auf dieselben Schwierigkeiten)
- Intervallskalenqualität: Unterschiede zwischen Probanden können als Abstände interpretiert
werden und nicht nur als Rangreihe (Man darf also auch sagen „doppelt so groß wie…“ etc. —
das gilt bei der KTT nicht.)
f.) Vergleich PTT und KTT:
• KTT stellt keinen expliziten Bezug zwischen der Leistung einer Person und der Schwierigkeit
eines Items her.
• Bei der PTT werden Fähigkeitsschätzungen & Itemschwierigkeiten auf einer „joint scale“
•
•
•
•
abgebildet.
Eindeutig ist die relative Lokalisation der Personenfähigkeit zu der Itemschwierigkeit nur dann,
wenn die IC-Funktionen aller Items parallel verlaufen.
KTT liefert als Messfehlertheorie Konzepte zur Reliabilitätsschätzung
PTT expliziert Beziehungen zwischen Antworten von Probanden und dahinterstehenden
latenten Merkmalen.
Beide Ansätze ergänzen sich daher.
Unterschiede KTT und PTT:
- Bei der KTT wird bei der Testwertbildung die Antwort auf die Items des Tests mit der Messung
des im Test erfassten Konstruktes gleichgesetzt.
- Bei der IRT hingegen wird das im Test gezeigte Verhalten (also die Antwort) auf eine Fähigkeit
oder Eigenschaft zurückgeführt, die das Testverhalten „verursacht“.
- Somit ist das beobachtete Verhalten (manifeste Variable) bei der PTT lediglich ein Indikator für
das dahinterliegende Konstrukt, dessen Messung nur indirekt erfolgen kann & die Ausprägung
der latenten Variable nur erschlossen werden kann.
73
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
g.) Adaptives Testen:
• Tests, die den Modellansprüchen der IRT (PTT) genügen, haben in der psychodiagnostischen
Praxis mit einem ökonomischen Vorteil die Möglichkeit, eingesetzt zu werden.
• Aufgrund der spezifischen Objektivität ist es nicht notwendig, dass alle Probanden alle Items
bearbeiten. (unabhängig von den Items die ich rausnehme, soll das selbe Ergebnis
rauskommen)
• Vielmehr können den Probanden Teile der Skala vorgegeben werden, die maximal informativ für
die Abschätzung der Ausprägung der latenten Variable sind.
• Diese Vorgehensweise wird als „adaptives Testen“ bezeichnet.
Soziale & sachliche Folgerichtigkeit (Subtest)
• 5 Karten mit Szenen, die man in die richtige Reihenfolge bringen soll.
74
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Realitätssicherheit (Subtest)
• Ein Bild wird vorgegeben, es fehlt immer eine Komponente. (Hier z.B. die Zügel und die „0“)
Soziales Erfassen und sachliches Reflektieren (Subtest)
Adaptives Testen im AID-2 (Itemvorgabe - entsprechend der Fähigkeit des Probanden)
(Alter des Kindes)
(Nach Links einfacher, nach Rechts schwieriger — Übereinander = Gleichschwer)
75
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Bsp.: 10 Jahre 5 Monate.
• Man startet bei Block 5
• hat das Kind keine Aufgabe oder nur 1 richtig gelöst, dann geht man zu leichteren Aufgaben
(Testblock 4) etc. über.
• das macht man 3 mal und dann ist der Test beendet. (Pfeile geben an wie viele man
mindestens richtig haben sollte um weiterzukommen)
• Querpfeile —> man sollte nicht mehr zu bereits bearbeiteten Blöcken zurückgehen, da diese
Items bereits gelöst wurden (oder nicht) - demnach also bekannt sind. Habe ich also bei 5 nicht
genug, gehe ich zu 4… löse ich dort viele, darf ich nicht wieder zurück zu 5 gehen.
(Adaptives Testen: Gilt spezifische Objektivität, so können den Probanden lediglich die Items
vorgegeben werden, die für die Erfassung der latenten Variable maximal informativ sind)
——————————————————————————————————————————
Allgemeines:
• Das Adaptive Testen bietet sich besonders bei Testverfahren an, die auf der Grundlage der
Probabilistischen Testtheorie konstruiert werden.
• Die Auswahl aus einem Itempool bzw. die Vorgabe einzelner Items orientiert sich am
spezifischen Antwortverhalten einzelner Probanden.
• Erfolgt meist durch Anpassung der Itemauswahl hinsichtlich ihrer Schwierigkeit an die Fähigkeit
des Probanden.
• Die angepasste Vorgabe von Items soll dabei mehr diagnostischen Nutzen bringen (möglichst
exakte Informationen zur individuellen Merkmalsausprägung) und gleichzeitig testökonomisch
sein.
Steuerung des psychometrisch orientieren Vorgehens:
• Adaptiver Algorithmus.
Dieser regelt die Itemauswahl zu Beginn & während der Testung
sowie Kriterien zur Testbeendigung.
• D.h. Probanden mit unterschiedlicher Merkmalsausprägung bekommen unterschiedliche Items
vorgelegt.
• PTT Modelle erlauben es, vergleichbare Personenparameter zu bestimmten, wenn lokale
stochastische Unabhängigkeit für die Items besteht.
Eine Sonderform stellt dabei das „selbstadaptierte Testen“ dar:
- hier entscheidet nicht ein von außen regelnder Algorithmus, sondern die Probanden selber über
die Schwierigkeit des nachfolgenden Items.
Strategien zur Vorgabe des ersten Items:
• Vor dem Testen sind i.d.R. noch keine Informationen über die Fähigkeit eines Probanden
vorhanden.
• Daher wird häufig ein Item mittlerer Schwierigkeit (p=0,5) verwendet, oder ein leichteres Item
(p=0,8).
• Sind Informationen vorhanden, können diese zu einer vorläufigen Schätzung der
Merkmalsausprägung herangezogen werden, um ein passendes Item mit der gewünschten
Schwierigkeit aus dem Itempool auszuwählen.
76
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Strategien zur Vorgabe nachfolgender Items:
• Durch einfache Regel gelöst:
Löst der Proband das erste Item, wird als Nächstes ein schwierigeres vorgelegt.
Löst er das erste Item nicht, wird ein leichteres vorgelegt.
• Bei dieser Strategie entscheidet jede Antwort des Probanden über die Auswahl des
nachfolgenden Items.
1. Branched Testing: (siehe Beispiel AID2)
• Ausgehend vom Erfolg der Bearbeitung einer Aufgabe wird anhand fester Verzweigungsregeln
entschieden, welches Item als Nächstes vorgelegt wird.
• Die individuelle Merkmalsausprägung am Ende des Tests wird dann entweder anhand der
Schwierigkeit des Items ermittelt, das als Nächstes vorgelegt worden wäre, oder aus der
mittleren Schwierigkeit aller vorgelegten Items. (exklusive des ersten Items) zuzüglich des
Items, das als Nächstes vorgelegt worden wäre.
2. Tailored Testung: (z.B. FAKT - „Frankfurter Adaptive Konzentrations-Leistungstests)
• Hier wird das Fähigkeitsniveau (Personenparameter) mit jeder gelösten Aufgabe neu geschätzt.
• Dabei wird das Item anhand seiner optimalen Eigenschaften unter der Bedingung von Ksi
gewählt.
• Beendet wird die Testung, wenn ein definiertes Ziel- oder Abbruchkriterium erreicht ist.
• Diese Form kann aufgrund des Rechenaufwands allerdings nur bei computerbasierten
Verfahren eingesetzt werden.
- Tailored Testing wird inzwischen vorrangig benutzt.
- Die Auswahl der Items, werden entweder an der maximalen Iteminformationsfunktion I orientiert
oder durch Minimierung des Standardfehlers in Abhängigkeit der gegebenen Antworten
geschätzt.
- Die Wahl nach der Iteminformationsfunktion garantiert, dass die Itemschwierigkeit die
bestmögliche Übereinstimmung mit dem geschätzten Personenparameter aufweist — jedoch
nur beim Rasch-Modell gewährleistet.
- Beide Vorgehensweisen können dazu führen, dass bestimmte Items sehr häufig oder selten zur
Bearbeitung ausgewählt werden. Daher muss durch Hinzufügen einer stochastischen
Komponente das Item aus mehreren Alternativen ausgewählt werden, bei denen die maximale
Iteminformation gleichermaßen gegeben ist.
- Dies setzt einen hinreichend großen Itempool voraus.
Zur Schätzung des Personenparameters werden beim Tailored Testing entweder MaximumLikelihood-Schätzer oder Bayes-statistische Schätzer eingesetzt.
Strategien zur Beendigung eines adaptiven Tests:
• Orientiert sich an der Erreichung eines Ziel- bzw. Erfüllung eines Abbruchkriteriums.
• Zielkriterien: z.B. bestimmte Anzahl von präsentierten Items oder die minimierte Schwankung
des Standardfehlers bei der Personenparameterschätzung.
• Abbruchkriterien: z.B. Erreichung einer maximalen Testzeit oder das Ausschöpfen aller
verfügbaren Items.
• Diese Entscheidung hängt i.d.R. von der Testart (Einzel- oder Gruppentests) & den
Eigenschaften des Itempools ab.
77
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Vorteile adaptiven Testens:
-
Erhöhte Durchführungs- und Auswertungsobjektivität durch einen standardisierten Testablauf.
Fehlerfreie Testwertbestimmung.
höhere Individualisierbarkeit der Testgeschwindigkeit.
Verwendung interaktiver Items.
Besonders da gut, wo eine hohe Messeffizienz angestrebt wird.
positive Auswirkungen auf die konvergente und diskriminante Validität.
Nachteile adaptiven Testens:
- eingeschränkte Testfairness bei computerbezogenen Personenmerkmalen.
- höhere Kosten in der Testentwicklung, da häufig großer Itempool benötigt wird.
78
Testtheorie & Testkonstruktion
Skript 2015
Maximilian Bungart
Quellen:
• Pospeschill, M. (2010). Testtheorie, Testkonstruktion, Testevaluation: mit 77 Fragen zur
Wiederholung. Reinhardt.
• Sämtliche Materialien von Dr. Nicolas Becker aus dem Sommersemester des Studiengangs
„Psychologie“ an der Universität des Saarlandes 2015 (Testtheorie und Testkonstruktion)
79
Fly UP