1.) Einführung - Testtheorie & Testkonstruktion Skript 2015
by user
Comments
Transcript
1.) Einführung - Testtheorie & Testkonstruktion Skript 2015
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 1.) Einführung a.) Warum notwendig? - Psychometrische Testverfahren kommen in allen psychologischen Disziplinen zum Einsatz. (Klinische, ABO, Pädagogische-, Verkehrspsychologie, etc.) - Von Ergebnissen dieser Tests hängt für die Testpersonen viel ab. (Zuordnung zu Therapie, Einstellung, Einschulung, Schuldfähigkeit, etc.) - Ergebnisse müssen gegenüber Testperson und Auftraggeber rechtfertigt werden. b.) Was ist ein „Test“? - Verfahren zur Untersuchung eines Persönlichkeitsmerkmals. Vorgang der Durchführung einer Untersuchung/Testung. Gesamtheit der zu Durchführung notwendigen Requisiten. Gewisse mathematisch-statistische Prüfverfahren. „Psychotests“ in Zeitschriften. c.) Definition: „psychometrischer Test“ „Ein psychometrischer Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung.“ 1.) Wissenschaftliches Routineverfahren • Test muss so aufgebaut sein, dass er von jedem Experten ordnungsgemäß in gleicher Art und Weise durchgeführt werden kann. • Psychologische Tests müssen wissenschaftlichen Standards genügen, um aussagekräftige Ergebnisse zu liefern. 2.) Untersuchung von Persönlichkeitsmerkmalen • Grundidee bei der Durchführung von psych. Tests ist es, dass Persönlichkeitsmerkmale das Testverhalten beeinflussen und aus diesem daher auf das Persönlichkeitsmerkmal geschlossen werden kann. 3.) Quantitative Aussagen • Anhand der Ergebnisse muss es möglich sein, Aussagen über die individuelle Ausprägung des gemessenen Merkmals bei den Probanden zu treffen. • Üblicherweise wird hierzu die Merkmalsausprägung des Probanden in Relation zu einer Normstichprobe gesetzt. d.) Definition: „Testtheorie“ „Eine Testtheorie ist eine Theorie über verschiedene Arten von Tests, ihrem Aufbau und ihren Konstruktionsprinzipien. Sie beschäftigt sich mit dem Zusammenhang von Testverhalten (ausgedrückt in empirischen Testwerten) und dem zu erfassenden Merkmalen.“ 1 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart e.) Begriffe - Testobjekte: Einzelpersonen, Gruppen, Kombi aus Personen & Situationen, Zeitbereiche(Veränderungsmessung) - Testitems: Einzelne zu bearbeitende Aufgaben eines Tests - Testskala: Satz von Items die den gleichen Skalierungseigenschaften genügen - Testbatterie: Kombination aus Einzeltests - zur Erhöhung der Genauigkeit und Güte der Messung. - Testtheorie ist Theorie über: Verschiedene Arten von Tests, deren Aufbau und Konstruktionsprinzipien; Zusammenhang von Testverhalten und dem zu erfassenden Merkmal; Ableitung von Gütekriterien. - Testmanual: bei wissenschaftlichen Tests sind hier die Testgütekriterien erläutert. - Testgütekriterien: Instrument der Qualitäts- und Wissenschaftlichkeitsprüfung. (In Testmanual erläutert) 2 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 2.) V1: Test- und Aufgabenarten, Konstruktionsstrategien a.) Testplanung • Planung beginnt mit Überlegungen, das zu messende Konstrukt möglichst genau zu definieren bzw. seine Charakteristika festzulegen: Im Idealfall auf Basis eines „psychologischen Modells“ oder eine „psychologischen Theorie“. • Ist dies (noch) nicht möglich, reichen vorläufige Explikationen oder Arbeitsmodelle aus, welche dann im weiteren Verlauf präzisiert werden können. • Auch Befragungen von Experten oder Personengruppen, die besonders hohe oder niedrige Ausprägungen der entsprechenden Fähigkeit oder Eigenschaft ausweisen, können wichtige Hinweise liefern. • Zur weiteren Eingrenzung sollte Literatur aus vorhandenen Theorien, empirischen Befunden und eigenen Überlegungen eine Arbeitsdefinition des Konstruktes formuliert werden. Festlegung der Erhebungsmerkmale: Die Erhebungsmerkmale können aufgrund der Abhängigkeit von den psychologischen Theorien und der Operationalisierbarkeit verschiedene Qualitäten und Eigenschaften aufweisen. • Qualitative vs. Quantitative Merkmale: 1. Qualitative Merkmale unterteilen Personengruppen lediglich anhand einzelner Kategorien. (z.B. Geschlecht, Familienstand, usw. — also nominalskaliert) 2. Quantitative Merkmale erlauben graduell abgestufte Merkmalseinteilungen (z.B. IQ, Punktzahl in Tests — also ordinal- oder intervallskalierte Messung) • Mehrdimensionale vs. Eindimensionale Merkmale: (Durch „Exploratorische Faktorenanalyse“ (EFA) o.a. Korrelationsstatistiken) 1. Eindimensional (unidimensional) 2. Mehrdimensional (multidimensional) ist z.B. die „Lebensqualität“, da materielle und soziokulturelle Faktoren zusammengefasst werden. Sie werden in sogenannten „Subtests“ (Untertests) erfasst, die wiederum unidimensional sind. • Zeitlich stabile vs. veränderliche Merkmale: 1. Persönlichkeitsmerkmale (TRAITS) 2. Situationsabhängige Merkmale/Zustände (STATES) 3 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart b.) Aufgabenarten Aufgaben mit freiem Antwortformat Es werden keine Antwortalternativen vorgegeben, sondern von der Person selbst formuliert/produziert. Untertypen: Kurzaufsatzaufgaben (z.B. Rorschach) Ergänzungsaufgaben (z.B. HAWIK-III) — Hamburg-Wechsler-Intelligenztest für Kinder III Vorteile: • Raten und zufälliges Antworten sind nicht möglich, da Reproduktion von Wissen/Generierung von Antworten gefordert. • Eigenständige Leistung (Motivation, Interesse, Kreativität, Sprachverständnis, etc.) • Auswertungsobjektivität durch eindeutige Vorgabe gewährleistet. Nachteile: • Hoher Zeitaufwand für Proband, Testleiter & Auswerter. • Reduktion der Auswertungsobjektivität durch mangelnde Eindeutigkeit der Antworten. • Fremde Muttersprachler benachteiligt. Aufgaben mit gebundenem Antwortformat Es werden mehrere Antwortalternativen vorgegeben. (kein Freiraum für eigene Antworten) 1.) Ordnungs- bzw. Zuordnungsaufgaben (Bestandteile umordnen oder einander zuordnen) Umordnungsaufgabe: Verwendung von bildlichem Material, Nachweis schlussfolgernden Denkens oder von Lösungen zur Ursache und Wirkungsbeziehung. Elemente sollen so in eine sinnvolle Reihenfolge gebracht werden. Zuordnungsaufgabe: Bietet sich an bei Wissens- und Kenntnisprüfung, die ein korrektes Wiedererkennen testen sollen. 2 Elemente sollen einander korrekt zugeordnet werden. 4 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Vorteile: • Umordnungsaufgaben sind sinnvoll, wenn die Ergebnisbeeinträchtigung durch Lesefähigkeit ausgeschlossen werden soll. (Im Leistungsbereich sind Aspekte wie schlussfolgerndes Denken, etc. gut zu erfassen) • Zuordnungsaufgaben sind einfach zu konstruieren, ökonomisch und hinsichtlich ihrer Auswertung objektiv. (eignen sich also für kompakte Überprüfung von Wissen) Nachteile: • Materialentwicklung für Umordnungsaufgaben ist aufwendig. • Verwendbarkeit für Gruppentestung ist eingeschränkt. • Da wissen nicht reproduziert oder angewendet werden muss, ist Raten möglich. 2.) Auswahlaufgaben (richtige bzw. zutreffende Antwortalternative bestimmen) (KFT 4-12 + R — d2) • Vorgabe mehrerer Alternativen. • Bei Leistungstests gibt es sogenannte „Distraktoren“ (ablenkende bzw. zerstreuende Items) um Ratewahrscheinlichkeit zu senken. • Es muss darauf geachtet werden, dass nur eine Antwort richtig ist (Disjunktion = Trennung) • Bei Persönlichkeitstests ist außerdem die „Exhaustivität“ (Vollständigkeit = alle Verhaltensvarianten sind abgebildet) wichtig. • Die Exhaustivität gilt für Leistungstests nicht, da die Menge falscher Antworten praktisch unendlich ist. • Um die Ratewahrscheinlichkeit zu senken, kann in der Instruktion die Anzahl korrekter Antworten vorgegeben, oder vom Probanden als zusätzliche Aufgabe gefordert werden. • außerdem werden „dichotome“ (2 Antwortalternativen, z.B. „ja/nein“) und „Multiple-ChoiceAufgaben“ (Mehrfachauswahl) unterschieden. Vorteile: • Einfach, ökonomisch & objektiv. • Dichotome Antwortalternativen = kurze Bearbeitungszeit. • Ratewahrscheinlichkeit verringert sich mit der Anzahl der Antwortalternativen. Nachteile: • Dichotome haben eine 50% Ratewahrscheinlichkeit und sind daher für Leistungsbereich ungeeignet und bietet eine nur eingeschränkte statistische Auswertung. • Es wird generell nur eine Rekognitionsleistung erfasst, d.h. Kreativität oder besondere Problemlösefähigkeiten werden nicht erfasst. • Sind Diatraktoren leicht zu durchschauen, erhöht das die Ratewahrscheinlichkeit. 5 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 3.) Beurteilungsaufgaben (inwiefern trifft eine Aussage zu oder nicht) (Aus den Big 5 — aufpassen mit Intro-/Extraversion — Keine Varianz wenn alle nur 2 ankreuzen würden. Je mehr Auswahlmöglichkeiten es gibt, desto mehr Varianz unter den Probanden.) • Werden häufig im Rahmen von Persönlichkeitstests oder Fragebögen eingesetzt. • Ein Statement (vorgegebene Aussage) soll mittels einer diskret gestuften Ratingskala (Stufenskala) oder einer kontinuierlich verlaufenden Analogskala eingeschätzt werden. Stufen einer Ratingskala: • Die optimale Anzahl von Skalenstufen hängt bei einer diskreten Ratingskala von der Diskriminationsfähigkeit der Probanden bzw. der Differenzierbarkeit eines Urteils ab. • Grob werden bei einer einzelnen Ratingskala 9 ± 2 Kategorien empfohlen, bei Itembatterien 5 ± 2 Skaleneinheiten. • 7 Skalenstufen habe sich als Optimal für den Informationsgewinn herausgestellt • Eine geringere Anzahl von Antwortkategorien verhindert die Neigung, Extremurteile abzugeben. Kontinuum einer Analogskala: • Ob die Angabe auch dem Urteil entspricht ist nicht in jedem Fall sichergestellt. • Analogskalen werden zunehmend im Bereich von computergestützten Online-Erhebungen verwendet. Forcierung des Ratings: (gerade/ungerade Anzahl von Kategorien) • Ungerade Anzahl von Kategorien hat zwangsläufig einen Mittelpunkt, der verschieden interpretiert werden kann. (unforciertes Rating) Wird häufig als Ausweichoption verwendet oder als „typische“ oder „normale“ Ausprägung missverstanden. („weiß nicht“ Kategorie wird oft mit angegeben um gerade dies zu verhindern und gleichzeitig ein verwertbares Datum zu liefern) • Gerade Kategorienanzahl zwingt Proband zu einem Urteil. (forciertes Rating) 6 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Polarität der Skala: • Bipolare Skalen sind durch einen positiven und einen negativen Pol gekennzeichnet. • Unipolar Skalen besitzen einen Bezugspunkt geringster Intensität und einen Pol größter Intensität. (Zustimmung/Ablehnung) Dabei steigt die Intensität nur in eine Richtung Symmetrie der Skala: (Balancierung einer Skala) • Bei einer balancierten Ratingskala ist die Anzahl der positiven & negativen Kategorien gleich. • Bei einer umbalancierten Ratingskala ist sie ungleich. Beschriftung einer Skala: (Verankerung einer Ratingskala) • Numerische Verankerung = Kategorien mit Zahlen. (mathematisch präziser, stellt aber keine Gleichabständigkeit (Äquidistanz) der Zahlen sicher) • Verbale Verankerung = Kategorien mt Worten oder Sätzen. (erleichtert die Beantwortung) • Eine kombinierte Ratingskala beschreibt nur die Extrempositionen verbal. (ergänzende Funktion) Symbolische Skalen und Marker: • Beurteilungen ohne semantische Interpretation von Skalenpunkten. • besonders geeignet für Personen, die im Umgang mit Zahlen oder semantischen Kategorien ungeübt sind. Gütekriterien einer Skala: • Reliabilität & Validität von Ratingskalen werden unterschiedlich beurteilt. • Hauptsächlich werden 2 Methoden der Reliabilitätsbestimmung verwendet: Test-Retest-Methode & Inter-Rater-Methode 7 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Fazit: • Leistungstests lassen sich prinzipiell in jedem Format darstellen. • Persönlichkeitstests vorwiegend Auswahlaufgaben (dichotome oder Multiple-Choice-Aufgaben). • Aspekte zur Auswahl des passenden Aufgabentyps sind: gute Verständlichkeit, ökonomische Durchführbarkeit, kurze Lösungszeiten, geringer Testmaterialverbrauch, einfache & leichte Anwendbarkeit, geringe Wahrscheinlichkeit für Zufallslösungen, angemessener Komplexitätsgrad. Vorteile: • Geringerer Zeitaufwand für Proband, Testleiter & Auswerter. • Auswertung der Antworten ist objektiv, da eindeutig. Nachteile: • Raten und zufälliges Antworten ist möglich, da eine (Re-)Produktion von Wissen/Antworten gefordert wird. • Antwortalternativen müssen exhaustiv & disjunkt sein. (d.h. alle möglichen Ausprägungen müssen erfassbar sein und dürfen sich nicht überschneiden) Aufgaben mit atypischem Antwortformat „Finger Maze“ (Barker, 1931) Die Linien in Bild 1 wurden in eine Linoleum-Platte geschnitzt. Dem Probanden werden die Augen verbunden. Er soll versuchen, die Linie von Anfang bis Ende ohne Fehler nachzufahren, d.h. ohne in eine „Sackgasse“ zu geraten. Der Test ist bestanden, wenn die Linie 3 mal ohne Fehler nachgefahren wurde. Der Test ist äußerst reliabel, d.h. wenn man bei einer Platte lange braucht, braucht man auch bei einer anderen Platte lange (rtt zwischen .96 und .90) und differenziert gut zwischen unterschiedlichen Schwierigkeitsgraden (Anzahl von Kreuzungen) c.) Testarten (Festlegung der Testart) Es lassen sich 5 Arten von Tests unterscheiden… 1. 2. 3. 4. 5. Leistungstests Persönlichkeitstests Projektive Verfahren Apparative Verfahren Objektive Tests 8 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Leistungstests • Sie verlangen den Probanden „die Lösung von Aufgaben oder Problemen, die Reproduktion von Wissen, das Unter Beweis stellen von Können, Ausdauer oder Konzentrationsfähigkeit ab“ (Rost, 2004; S.43) - Erfassung des maximalen Verhaltens - Verfälschung nur „nach unten“ möglich • Es wird zwischen Speed- und Power-Tests unterschieden: Speed: Aufgaben sind einfach und können von allen Probanden gelöst werden. Differenzierung erfolgt über die Begrenzung der Bearbeitungszeit. Power: Aufgaben sind schwer und können auch bei unbegrenzter Bearbeitungszeit nicht von allen Probanden gelöst werden. Differenzierung erfolgt über Schwierigkeit der Aufgabe. • Leistungstests haben überlicherweise sowohl eine Speed- als auch eine Powerkomponente. —> Zur Bestimmung des Anteils der Varianz von Testwerten, die auf die Speed- bzw. Powerkomponente eines Tests zurückgeht können Speed- bzw. Power-Indices berechnet werden. Persönlichkeitstests • Erfassen das für den Probanden typische Verhalten in Abhängigkeit der Ausprägung von Persönlichkeitsmerkmalen. (Verhaltensdisposition) • Die Messung erfolgt hierbei über Selbstauskünfte: (Fragebögen) - Da es keine „optimale“ Ausprägung von Persönlichkeitsmerkmalen gibt, werden Antworten nicht im Sinne von „richtig“ oder „falsch“ bewertet. - Bewertung erfolgt danach, ob Aussagen für eine bestimmte Ausprägung eines bestimmten Merkmals sprechen oder nicht. - Simulation ist in beiden Richtungen, d.h. zugunsten niedriger als auch hoher Merkmalsausprägungen möglich. - Merkmalsbereiche sind z.B. aktuelle Zustände, Symptome, Verhaltensweisen, Motivation, Interessen, Meinungen, Einstellungen. (Bsp.: „MMPI-2“ — „Minnesota Multiphasic Personality Investory-2“) 9 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Projektive Verfahren • Erfassung qualitativer Aspekte der Gesamtpersönlichkeit. • Mehrdeutiges Bildmaterial soll beschrieben werden: - In den Beschreibungen sollen sich unbewusste oder verdrängte Bewusstseinsinhalte wieder-spiegeln, die auf das Bildmaterial projiziert werden. • Aufgrund unzureichender Erfüllung von Testgütekriterien sind projektive Verfahren in Forschungskontexten als ungeeignet zu bewerten. • Im Zusammenhang der klinischen Exploration und der Bildung interventionsbezogener Hypothesen kann ihnen jedoch eine gewisse Berechtigung zugemessen werden. (Bsp.: „Holtzman Inkblot Technique“) Apparative Verfahren • Aufgaben bedienen sich bestimmter technischer Anordnungen zur Erfassung des relevanten Merkmals. • Erfasst werden vor allem Merkmale, die für andere Testarten nicht zugänglich sind (z.B. sensorische oder motorische Merkmale) • Computerbasierte Tests stellen eine Unterklasse der Apparaten Verfahren dar, die momentan im Zunehmen begriffen ist. Interessant sind diese als Möglichkeit zur Verbesserung der Durchführungs- und Auswertungsobjektivität sowie als Möglichkeit zur Reduktion des Aufwandes der Testdurchführung. 10 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Objektive Tests • Im Zusammenhang objektiver Persönlichkeitstests bedeutet der Objektivitätsbegriff die Begrenzung der Möglichkeiten subjektiver Verfälschung: - Probandenmerkmale werden nicht durch Selbstauskünfte sondern über das Verhalten in einer standardisierten Testsituation erschlossen. - Objektive Tests haben keine Augenscheinvalidität, d.h. die Probanden wissen nicht, welches Konstrukt durch die Testung erhoben werden soll. - Zur Erfassung bieten sich die gleichen Merkmalsbereiche an, wie im Zusammenhang anderer Persönlichkeitstests. d.) Festlegung des Geltungsbereichs • Inhaltliche Vielfalt: Heterogenität vs. Homogenität von Aufgaben - Mit anwachsen des Geltungsbereich eines Tests müssen auch mehr Informationen erfasst werden.(damit die geforderten Kriterien mit ausreichender Genauigkeit vorhergesagt werden können). —> Erhöht Heterogenität der Aufgaben. - Daher sollte der Geltungsbereich möglichst eng definiert werden, also nur gezielte Aspekte zu erfassen. —> Schränkt Anzahl der Kriterien ein und Aufgaben gewinnen damit an Homogenität. - Die notwendige Entscheidung hat Auswirkungen auf die Kriteriumsvalidität, da mit der Auswahl der Aufgaben auch die Kriterien festgelegt werden, die der Test vorhersagen soll. • Zielgruppe: Analysestichprobe, Eichstichprobe und Personenkreis des Tests - Analysestichprobe dient der Itemanalyse - Eichstichprobe soll Validität des Tests feststellen und eine Normierung der Ergebnisse vornehmen. - Beide sind unabhängig voneinander zu ziehen und sollten beide die gleichen Einund Ausschlusskriterien erfüllen, die auch für den Personenkreis zutrifft. - Ist die Zielgruppe eher breit, müssen Items über größeren Schwierigkeits- bzw. Merkmalsbereich erstreckt werden und ggf. inhaltlich breiter die möglichen Ausprägungen abdecken. 11 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart • Testlänge: Anzahl der Testaufgaben (Itemanzahl & Testinformation) - Anzahl der Items ist von Homo- bzw. Heterogenität der Merkmalsdimensionen abhängig. - Präzision einer Messung steigt mit zunehmender Itemanzahl. Damit steig auch die Reliabilität. - Vorsicht: keine unbeschränkte Steigerung, da zu viele Items auch testfremde Einflüsse zulassen (z.B. nachlassende Motivation, etc.). - Tests, die bereits eine sehr gute Reliabilität besitzen, können durch eine Testverlängerung nur geringfügig verbessert werden. • Testdauer: Zeit der Testbearbeitung - Hängt von Testlänge & Testart ab. - Verfahren die einer differenzierten Individualdiagnose dienen, benötigen mehr Zeit als „Screeningverfahren“ oder Kurztests. - Auch die Zielgruppe bestimmt die zeitliche Erstreckung eines Tests. (z.B. Erwachsene, Kinder, oder ältere Menschen) e.) Konstruktionsstrategien Rational-deduktive Konstruktion (Items werden entsprechend einer Theorie gebildet) Items werden auf Basis einer bestehenden Theorie generiert. Hierbei sind folgende Gesichtspunkte wichtig: • Theorien liefern Konstrukte, die erfasst werden sollen (z.B. Intelligenz, Motivation, Angst) • Theorien beschreiben, welche Verhaltensindikatoren bei der Erfassung des Konstrukts herangezogen werden können (z.B. für das Konstrukt „schulische Leistungsfähigkeit“: rechnerische und sprachliche Fähigkeiten) • Theorien legen fest, welche Antwortformate sich zur Erfassung des Konstrukts eignen (z.B. Verhaltensorientierte Persönlichkeitstheorien: Selbst- und Fremdbeschreibung; tiefenpsychologische Persönlichkeitstheorien: projektive Verfahren) Vorgehensweise bei rationaler Skalenkonstruktion: 1. 2. 3. 4. 5. Generierung der Items Erhebung einer Validierungsstichprobe Prüfung von Reliabilitätskennwerten (alpha, rsh, rtt) Eliminierung ungeeigneter Items Überprüfung der Validität in Bezug auf externe Kriterien External-kriteriumsbezogene Konstruktion (Items werden entsprechend eines Kriteriums ausgewählt) Voraussetzung ist das Vorliegen verschiedener Gruppen, die sich in Bezug auf das Kriterium unterscheiden. (z.B. Alkoholiker vs. Nicht-Alkoholiker, Misshandler vs. Nicht-Misshandler) • Den Mitgliedern der Gruppen wird eine große Zahl möglichst breit gefächerter Items vorgelegt • Es werden die Items ausgewählt, die signifikant zwischen den Gruppen trennen können. • Mittels Diskriminanzanalyse wird eine Funktion bestimmt, mit der die Gruppen optimal getrennt werden können. • Achtung: Die Schätzung der Diskriminanzfunktion ist stark von der verwendeten Stichprobe abhängig. Eine Kreuzvalidierung ist notwendig. (anpassen an Stichprobe) 12 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Notwendigkeit von Kreuzvalidierung: Werden viele Items in die Diskriminanzfunktion eingegeben, so befinden sich mit hoher Wahrscheinlichkeit „faule Äpfel“ darunter. Ein „Fauler Apfel“ ist ein Item, dass die beiden Gruppen nur in der verwendeten Stichprobe trennt und in anderen Stichproben keine Bedeutung besitzt. In der verwendeten Stichprobe trennt das Item durch Zufall gut (mag Äpfel zufällig) In der Population trennt das Item generell schlecht Es gibt immer eine Irrtumswahrscheinlichkeit. z.B. das Item „Ich mag Äpfel“ und die Stichprobe „Depressiv & Nicht“, und zufällig mag einer der Nicht-Depr. Äpfel nicht 13 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Vorgehen: 1. 2. 3. 4. Stichprobe in Konstruktions- und Validierungsstichprobe aufteilen. Diskriminanzfunktion in Konstruktionsstichprobe bestimmen. Diskriminanzfunktion aus Konstruktionsstichprobe in Validierungsstichprobe einsetzen. Vergleich der korrekten Zuordnungen zwischen Konstruktions- und Validierungsstichprobe Unterscheiden sich die korrekten Zuordnungen zwischen beiden Stichproben nicht, so kann das Item auch in der Population trennen. Induktive Konstrunktion (Items werden entsprechend korrelativer Analysen ausgewählt - keine Theorie oder Kriteriumsgrpn) Hier liegen weder eine Theorie noch bestimmte Kriteriumsgruppen vor. Vielmehr werden Items, die hohe Korrelationen zeigen zu Skalen zusammengefasst. (zu Gruppen) • Diese Vorgehensweise wird als „blind-analytisch“ („explorativ“) bezeichnet, da bei der Konstruktion keine Rücksicht auf inhaltliche Gesichtspunkte genommen wird. • Zur Konstruktion der Skalen werden zumeist explorative Faktorenanalysen durchgeführt. Items, die hohe Ladungen auf dem gleichen Faktor zeigen, werden zu einer Skala zusammengefasst. z.B.: Intelligenztests nach Thurstone (primary mental abilities), FPI, NEO-PI-R (NEO-FFI) Freiburger Persönlichkeitsinventar (FPI-R — Fahrenberg, Hampel & Selg, 1994) (Die Autoren gehen von bestimmten psychologischen Konstrukten aus, die ihnen aufgrund ihrer Erfahrungen und der Literatur interessant und wichtig erscheinen) Prototypenansatz (Items werden bzgl. prominenter Vertreter bestimmter Klassen gebildet) Konstrukte werden als natürliche Kategorien menschlicher Wahrnehmung aufgefasst (z.B. Blumen). Ihre Mitglieder besitzen unterschiedliche Typikalität (z.B. Rosen vs. Orchideen). Prototypen sind hierbei die Mitglieder, die die höchste Typikalität besitzen. Vorgehensweise: Items werden hinsichtlich der Prototypizität für eine oder mehrere Kategorien eingeschätzt, wobei die Items mit der höchsten Prototypizitätseinschätzung beibehalten werden. 14 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Act Frequency Approach (Buss & Craik, 1980): 1. 2. 3. 4. Probanden sollen an Personen aus Bekanntenkreis denken, die bestimmte Eigenschaft besonders stark repräsentieren. (z.B. Unterwürfigkeit) Probanden sollen konkrete Verhaltensweisen der Person nennen, die ihre Meinung nach indikativ für das Vorhandensein dieser Eigenschaft sind (z.B. „Sie erhielt eine unfaire Note und nahm es hin“) Verhaltensweise wird von anderen Probandengruppen hinsichtlich Prototypizität eingeschätzt. Items mit höchster Prototypizitätseinschätzung werden als Grundlage der weiteren Validierung des Verfahrens verwendet. Alle Konstruktionsprinzipien sind in etwa gleicher Weise zielführend, und es wird im einzelnen von Vorlieben oder Notwendigkeiten abhängen, für welche Strategie man sich entscheidet. Intuitive Konstruktion - Items werden aus Annahmen & Erfahrungen des Konstrukteurs abgeleitet. - Nur noch bei neuartigen Forschungsfragen möglich. f.) Fehlerquellen bei der Beantwortung von Items Fehler bei der Itembearbeitung sind dann zu berücksichtigen, wenn sie systematisch auftreten, denn das führt zu konstruktirrelevanter Varianz. Gründe Validitätseinschränkender Fehlerquellen: - Konstruktionsmängel der Items - Unerwünschte Kognitionen oder Emotionen - Unterschiedliche Motive: Wille sich zu bewähren & nicht zu versagen Einstellung behilflich zu sein und den Erwartungen zu entsprechen Erwartung eine Belohnung zu erhalten oder eine Bestrafung vermeiden 15 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Soziale Erwünschtheit Äußern von Meinungen und/oder Einstellungen unter der Annahme, diese seien in Übereinstimmung mit gesellschaftlichen Werten & Normen („Normanpassungseffekt“). - Kommt häufig bei Testverfahren vor, die eine Selbstbeschreibung erwarten („social desirability“) - Das Vortäuschen von Verhaltensweisen, die ein Proband sonst nicht zeigt, wird als „Simulation“ (fake good) bezeichnet. - Das Verbergen von Verhaltensweisen die ein Proband normalerweise zeigt, nennt man „Dissimulation“ (fake bad). Täuschungsarten: 1. Selbsttäuschung („self-deceptive enhancement“): Vorteilhafte Selbstdarstellung ohne dies als Täuschung von anderen anzusehen. 2. Fremdtäuschung („impression management“): Erzeugter Fehleindruck wird zur Steuerung und Kontrolle anderer Menschen eingesetzt. Wann? - Unter besonderem Erfolgs- oder Vermeidungsdruck. - Situationen mit direkter mündlicher Befragung sind anfälliger als stark anonymisierte. - Vorgetäuschte Verhaltensweisen (fake good) sind dabei noch stärker als die Effekte verborgenen Verhaltens (fake bad), wenn die Testperson in einer Instruktion explizit dazu aufgefordert wird. Vermeidung: (kontrollieren oder unterbinden von sozial erwünschtem Verhalten) 1. Kontroll- oder Validitätsskalen: („Lügenskalen“) Itemsets, die empfindlich auf Tendenzen sozialer Erwünschtheit reagieren oder auch systematische Beantwortungen von Items aufdecken sollen. Es werden dabei Eigenschaften, Einstellungen oder Verhaltensweisen abgefragt, die eine spezifische Antwort als besonders unglaubwürdig erscheinen lassen. (z.B. sozial erwünschte Aussagen, die aber eigentlich nicht vorkommen: „Ich bin immer objektiv“; oder sozial unerwünscht, aber vorkommen: „Manchmal bin ich auch ungerecht“) 2. Ausbalancierung: Antwortalternativen so gestalten, dass sie gleich attraktiv sind. Dadurch soll Wahrscheinlichkeit erhöht werden, dass diejenige Alternative gewählt wird, die tatsächlich zutrifft. Jedoch ist die Entwicklung sehr aufwendig. 3. Objektive Persönlichkeitstests: Testabsicht und Testziel verschleiern. Keine Augenschein-Validität. Überwiegend sachbezogene Inhalte (um Verfälschungstendenzen vorzubeugen) 16 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Antworttendenzen: Durch die Form der Datenerhebung können vor allem Antworttendenzen („response sets“) ausgelöst werden, die Probanden zu einem stereotypen (gleichbleibenden) Antwortstil verleiten. (Die dadurch reduzierte Itemvarianz verzerrt die Daten) 1. Tendenz zur Mitte („Milde-/Härte-Effekt“) Unzureichend empfundenes Wissen oder Unsicherheit (motivational) führt zu: Wählen einer neutralen Mittelkategorie einer Skala = Milde-Effekt Tendenz zu Extremurteilen = Härte-Effekt Beiden Effekten kann nur indirekt vorgebeugt werden, indem man bei der Skalierung auf eine Mittelkategorie oder extrem formulierte Beschriftungen verzichtet, oder eine Ausweichkategorie einführt. 2. Akquieszenz („Ja-/Nein-Sage-Tendenz“) Wenn Aussagen nicht reflektiert werden (ohne Rücksicht auf erfragte Inhalte), kann eine Zustimmungstendenz oder Ablehnungstendenz kann die Folge sein. Vermeiden durch klare und eindeutige Itemformulierungen und ausbalancierte Schlüsselrichtung der Items. (gleiche Anzahl von bejahten und verneinten Items) 3. systematisch fehlende Werte: unsystematisches Überspringen oder Verändern von Items führt zu fehlenden Werten (missing values), welche die spätere Auswertung erheblich erschwert und einschränkt. Erfolgt es allerdings bei bestimmten Items systematisch, könnte das ein Hinweis für fehlerhafte Itemformulierung sein. (Zusammenfassung: Verhindern, Kontrollieren, Ignorieren) 17 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 3.) V2: Gütekriterien Richtlinien der Auswertung/Testbeurteilung: „Standards for educational and psychological testing“ Wann ist ein Test gut oder schlecht? (Amerikanischer Standard) „Guidelines on Test use“ Ähnlich zum „STANDARDS“ nur International 18 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart a.) Allgemeines • Entscheidungen, die auf der Basis von Ergebnissen psychologischer Tests getroffen werden, sind oft mit weitreichenden Konsequenzen für den Probanden verbunden. (z.B. Einschulungsuntersuchungen, Personalauswahl, Schuldfähigkeitsbegutachtung) • Die Gütekriterien dienen somit der Einschätzung der Eignung eines Tests vor dem Hintergrund einer gegebenen Fragestellung. • Obwohl eine weitgehende Einigkeit über zu erfüllende Spezifika besteht, wurde bisher kein verbindlicher Katalog einschlägiger Kriterien definiert. Übersicht: b.) Hauptgütekriterien 1.) Objektivität „Objektivität besteht für einen Test dann, wenn das Testergebnis unabhängig von Untersuchungsleiter, vom Testauswerter und der Ergebnisinterpretation ist.“ (Sie soll sicherstellen, dass die Ergebnisse eines Tests zwischen Personen vergleichbar sind.) Durchführungsobjektivität: • Soll sicherstellen, dass Testergebnis nicht vom Testleiter abhängig ist. • Dazu wird die Testsituation so standardisiert, dass nur die Testperson die einzige Quelle für Variationen in der Situation darstellt. (Genau Anweisungen, Vorgaben & Bedingungen) • Diese Vorgaben können betreffen: Testmaterial Testinstruktion (einschließlich dadurch ausgelöster Nachfragen durch die Testperson) Testleiterverhalten (welche Interaktionen mit der Testperson ist zulässig) Testumgebung (räumliche Gegebenheiten, zus. Materialien) zeitliche Erstreckung (ggf. eine maximale Bearbeitungszeit) • Alle Störvariablen sollen kontrolliert, konstant gehalten, oder eliminiert werden. 19 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Bsp.: NEO-FFI Testsituation: Verhalten des Testleiters bei Rückfragen: Auswertungsobjektivität: • Antwortverhalten wird genau quantifiziert. • Und ist nicht von der Person abhängig, welche den Test auswertet. (Insbesondere bei Aufgaben, deren Auswertung nicht anhand fester Auswertungsschablonen oder Schlüssel festgelegt ist, müssen Auswertungsregeln aufgestellt werden.) • Objektivität kann verbessert werden durch: Auswertung durch mehrere Personen Konkordanzmaße (Kendalls W oder Scotts Pi) (Ermitteln des Ausmaßes der Übereinstimmung) 20 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Bsp.: NEO-FFI (Kreise hätten verschiedene Farben (Rot = Extraversion, etc.)) Interpretationsobjektivität: • Stellt sicher, dass Schlussfolgerungen aus Testergebnissen unabhängig vom Testanwender sind. • Verschiedene Testanwender sollten also bei gleichen Testresultaten zu gleichen Interpretationen kommen. • In den Testmanualen liegen dazu Skalenbeschreibungen vor, (z.B. über arithmetische Mittel und Standardabweichungen) die als Normtabellen zum Vergleich einzelner Testpersonen mit adäquaten Bezugsgruppen genutzt werden können. Bsp.: NEO-FFI 21 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Zusammenfassung: Das Hauptgütekriterium Objektivität kann als erfüllt gelten, wenn ein psychologischer Test hinsichtlich seiner Handhabung, Auswertung und Interpretation so festgelegt ist, dass sein Einsatz unabhängig von umgebenen Faktoren (wie Ort, Zeit, Testleiter und Auswerter) vorgenommen werden kann und unterschiedliche Testauswerter bei den gleichen Personen immer zu gleichen Ergebnissen kommen. 2.) Reliabilität „Reliabilität ist ein Maß für die Präzision, Zuverlässigkeit und Genauigkeit, mit der ein Test ein Merkmal misst. Präzise ist eine Messung dann, wenn sie möglichst frei von Messfehlern erfolgt.“ (Mit Reliabilität wird die Qualität eines Tests bezeichnet, die auf seiner Zuverlässigkeit beim Erheben von Merkmalen beruht.) Wichtig: Umschlossen wird lediglich die Frage, ob irgendein Konstrukt fehlerfrei erfasst wird und nicht, ob es wirklich das intendierte Konstrukt ist. • Reliabilitätskoeffizient rtt drückt in den Extremen ein Testergebnis vollkommen ohne Messfehler aus (= 1,0) oder eins, das nur durch Messfehler zustande gekommen ist (=0). 0 = Wiederholung eines Tests an der gleichen Person führt unter gleichen Bedingungen und ohne Veränderung des Merkmals zu völlig unterschiedlichen Resultaten. 1 = Wiederholung eines Tests an der gleichen Person führt unter gleichen Bedingungen und ohne Veränderung des Merkmals zu identischen Resultaten. 0,7 = akzeptabel — 0,8/0,9 = gut • Mit diesem Koeffizienten wird der Grad der Genauigkeit einer Merkmalsmessung ausgedrückt. (unabhängig davon, ob der Test dieses Merkmal auch zu messen beansprucht) • Realibilität = Quotient von wahrer Varianz (ohne Messfehler) zur Gesamtvarianz (einschließlich Messfehler) 22 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart • Reliabilitätsmaße können berechnet werden, indem überprüft wird, ob einzelne Personen in 2 Testungen gleiche Werte aufweisen. Zur Ermittlung der Werte stehen 2 Möglichkeiten zur Verfügung Testung zu 2 Zeitpunkten & Testung mit 2 Testformen (innere Konsistenz = „Konsistenzanalyse“ oder „Splithalf-Reliabilität“) (Test)-Retest-Reliabilität • Derselbe Test wird wiederholt zu 2 Zeitpunkten präsentiert und die Ergebnisse korreliert. • Korrelation zwischen beidenTestwerten der Probanden wird als Reliabilität angenommen. (rtt) • Dabei wird unterstellt, dass das zu messende Merkmal konstant und auch das Zeitintervall zwischen den Testungen ohne Einfluss auf die Messung ist. Die Wahl des optimalen Retest-Intervalls muss bei instabileren Merkmalen kürzer und bei stabileren länger sein. • Problematisch sind Merkmalsveränderungen zwischen den Testzeitpunkten, die zu einer Unterschätzung der Reliabilität führen. (z.B. Depressionsmaße vor und nach einer Psycho-Therapie) • Das Risiko der Veränderungen und Erinnerungseffekten ist dabei stark von den Inhalten abhängig. • (Verbindung symbolisiert, dass es sich immer um 1 Testperson handelt.) Paralleltest-Reliabilität • Um dem Problem möglicher Veränderungen zwischen Test und • • • • • Retest zu umgehen kann zu 1 Zeitpunkt mit 2 Testformen getestet werden. Benötigt werden dazu inhaltlich ähnliche Items („Itemzwillinge“) aus 2 Tests (A und B), deren beobachtete Testwerte zu gleichen Mittelwerten und Varianzen führen. Die Korrelation zwischen den Testwerten in beiden Testformen wird als Reliabilität angenommen. (r tt’) Problematisch ist, dass die Erstellung paralleler Testformen aufwändig und schwierig ist. (t’ = paralleltest, „soll dasselbe erfassen wie der erste, nur in einer anderen Form“) Vorteile: Übungs- und Erinnerungseffekte können ausgeschlossen werden, Unsystematische Fehlervarianzen, die für alle unterschiedlich sind, sind unkritisch. 23 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Splithalf-Reliabilität • In vielen Fällen ist die Berechnung von Retest- bzw. Paralleltest-Reliabilität nicht durchführbar. Aus diesem Grund wurden Verfahren entwickelt,mit denen die Reliabilität auf der Basis von Testungen zu 1 Zeitpunkt mit 1 Testform möglich ist. • Grundlegende Idee dabei ist, Teile eines Tests als parallele Testversionen aufzufassen und die Reliabilität als Zusammenhang der einzelnen Teile anzunehmen. Einfachster Fall: Testhalbierung (Splithalf-Reliabilität) (korrelieren des Summenwerts beider Tests — r = produkt moment korrelation , sh= splithalf) • Zur Aufteilung der Testhälften bieten sich verschiedene Strategien an. Gängig sind unter anderem diese Vorgehensweisen: „Testhalbierung“ — Teilung des Tests in der Mitte. „Odd-Even“ — Items mit geraden Nummern werden zu einer Testhälfte zusammengefasst, bei Items mit ungeraden zu der anderen. „Zufallsaufteilung“ — Die Items werden zufällig zwei Testhälften zugeordnet. „Parallelisierung“ — Aufteilung der Items nach Trennschärfe und Schwierigkeit, d.h. beiden Testhälften sollen gleich schwierig und trennscharf sein. („Methode der Itemzwillinge“) • Achtung: In Abhängigkeit der Aufteilungsstrategie können sich in gleichen Datensätzen unterschiedliche Reliabilitätsschätzungen ergeben. Konsistenzanalyse/Interne Konsistenz Probleme bei der Testhalbierung: 24 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart • Problematisch an der Berechnung von Split-Halt-Reliabilitäten ist, dass die Testhälften relativ willkürlich gebildet werden können. Unterschiede zwischen Koeffizienten, die aus unterschiedlichen Aufteilungen hervorgehen sind schwer zu interpretieren. • Einen Ausweg aus dieser Problematik bietet die Berechnung von „Cronbachs Alpha“ ( α). Dieser Koeffizient entspricht der mittleren Reliabilität, die sich bei der Bildung aller möglichen Testhalbierungen ergibt. (Mittelwert aller möglichen Testhalbierungen) • Sinnvoll können α-Werte im Bereich zwischen 0 und 1 interpretiert werden. Die Untergrenze, ab der eine Skala noch als hinreichend reliabel betrachtet werden kann wird üblicherweise bei 0,7 angenommen. Zusammenfassung: Verschiedene Zugänge zur Beurteilung der Reliabilität eines Testverfahrens lassen sich unterscheiden: - Testhalbierung/interne Konsistenz (Zusammenhänge zwischen Testteilen/Items eines Tests). - Test-Retest-Reliabilität (zeitliche Stabilität der Werte zwischen 2 Testungen). - Paralleltest-Reliabilität (Zusammenhänge zwischen parallelisierten Testformen). Keiner der besprochenen Reliabilitätskennwerte ist hierbei einem anderen generell vorzuziehen. Wichtig ist die gleichzeitige Betrachtung aller geschilderten Kennwerte, um einen möglichst umfassenden Überblick über die Reliabilität des Verfahrens zu gewinnen. 3.) Validität „Validität bezieht sich auf die Frage, ob ein Test wirklich das Merkmal misst, was er messen soll bzw. zu messen vorgibt. Die Validität bezieht sich dabei auf die Gültigkeit verschiedener möglicher Interpretationen von Testergebnissen.“ (Damit soll festgestellt werden, ob zwischen dem was gemessen wird und dem was gemessen werden soll, tatsächlich Übereinstimmung besteht.) • Gilt als wichtigstes Testgütekriterium. • Objektivität & Reliabilität gelten zwar als notwendige, aber nicht hinreichende Bedingungen für Validität. Ein Test, der eine niedrige Objektivität und Reliabilität besitzt, auch keine hohe Validität erzielen kann, dass aber eine hohe Validität über das reine Vorhandensein von Objektivität & Reliabilität hinausgeht. • Bei gegebener Validität berechtigen die Ergebnisse dazu, das in der Testsituation gezeigte Verhalten auf beobachtbares Verhalten außerhalb dieser Testsituation zu generalisieren. (Ein solcher Zusammenhang könnte z.B. durch Korrelation der Testwerte mit einem relevanten Außenkriterium überprüft werden.) 25 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Zur Bestimmung er Validität eines Tests gibt es verschiedene Zugänge. Moosbrugger & Kerala (2007b) veranschaulichen dies am Beispiel eines Schulreife- bzw. Schuleignungstests: 1. Inhaltsvalidität: Items, die Bestandteil des Tests sind, sollen inhaltlich das Konstrukt widerspiegeln, das der Test erfassen soll (z.B. Umgang mit Zahlen, Sprachverständnis) 2. Kriteriumsvalidität: Mit dem Test soll vorhergesagt werden, in wiefern Kinder eingeschult werden können. Kinder mit höheren Testwerten sollten sich daher besser in der Schule zurechtfinden als Kinder mit niedrigen Werten. 3. Konstruktvalidität: Das durch den Test gemessene Konstrukt „Schulreife“ soll mit ähnlichen Konstrukten (z.B. Intelligenz, Entwicklungsstand) zusammenhängen und unabhängig von inhaltsfremden Konstrukten (z.B. Temperament, Persönlichkeit) sein. 4. Augenscheinvalidität: Auch für Laien besitzen Schuleignungstests eine gewisse Glaubwürdigkeit, da aufgrund der inhaltlichen Gestaltung solcher Tests nahegelegt wird, dass damit wirklich Schuleignung gemessen wird. a.) Inhaltsvalidität Wird das Konstrukt durch die Items ausreichend repräsentiert? Erfassen alle enthaltenen Fragen das zu messende Konstrukt? Ist ein repräsentativer Ausschnitt aller denkbaren Items enthalten? - Eine numerische Bestimmung der Inhaltsvalidität ist eher unüblich. - Vielmehr wird hierbei auf auf Expertenurteile und Befunde aus der Literatur zurückgegriffen. Entscheidend ist, dass das Konstrukt auf der Inhaltsebene eingehend beschrieben wird, dass die Items den abzudeckenden Inhaltsbereich zugeordnet sind und dass die Struktur des Tests mit der Struktur des Konstrukts übereinstimmt. (Das zu erhebende Merkmal kann operational - also im Wesentlichen durch Testinhalte - oder theoretisch - also als theoretisches Konstrukt - definiert sein) Bsp.: „Räumliches Vorstellungsvermögen“ 26 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart b.) Kriteriumsvalidität • Befasst sich mit der Frage, inwiefern aus den Testwerten Kriteriumswerte vorhergesagt werden können. • Es geht um die praktische Anwendbarkeit eines Tests, um das Verhalten einer Person außerhalb der Testsituation anhand der produzierten Daten in der Testsituation vorherzusagen. • Dazu wird die Korrelation der Testvariablen & der Kriteriumsvariablen bestimmt: Liegt ein zeitgleiches Außenkriterium vor, resultiert eine konkurrente (Übereinstimmungs-) Validität. (t = test c = Kriterium) Ist eine Prognose hinsichtlich einer zukünftigen Merkmalsausprägung intendiert, wird eine prognostische bzw. prädikative (Vorhersage-) Validität angestrebt. Soll die Vorhersage eines praktisch relevanten externen Kriteriums verbessert werden, indem zusätzliche Items oder Skalen hinzugefügt werden, kann eine inkrementelle Validität bestimmt werden. Schließlich ist auch eine retrospektive Validität zu unterscheiden, bei der Zusammenhänge mit zuvor ermittelten Kriterien hergestellt werden. (Regressionsgerade = linearer Zusammenhang zwischen den beiden Merkmalen) 27 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Arten von Kriterien: c.) Konstruktvalidität • Auf Basis der Konstruktvalidität wird bestimmt, ob mit dem im Test gezeigten Verhalten auf zugrunde liegende Fähigkeits- oder Persönlichkeitskonstrukte geschlossen werden kann. Die Konstruktvalidität erlaubt entsprechende Aussagen, wie angemessen ein Test das beanspruchte Konstrukt misst. (Kann so aussehen, dass theoriegeleitete Zusammenhänge zwischen Konstrukten des vorliegenden Tests mit anderen Verfahren auf Ähnlichkeiten bzw. Unähnlichkeitenverglichen werden) • Das Kriterium wird unterteilt in 2 Subaspekte: 1. konvergente Validität: Test soll hoch mit anderen Tests korrelieren, die das gleiche Konstrukt erfassen. 2. diskriminante Validität: Ein Test soll niedrig mit anderen Tests korrelieren, die verschiedene Konstrukte erfassen. • Eine Möglichkeit, um konvergente und diskriminante Validität gleichzeitig zu bestimmen besteht in der Multitrait-Multimethod-Analyse von Campbell und Fiske (1959) -> Es werden mindestens 2 Tests benötigt, die die gleichen Konstrukte erfassen. -> Eine Stichprobe bearbeitet beide Tests und die Korrelationen zwischen den Konstrukten werden beachtet. Konvergente Validität: Gleiche Konstrukte in unterschiedlichen Tests korrelieren hoch. Diskriminane Validität: Unterschiedliche Konstrukte in unterschiedlichen Tests korrelieren gering. („Validitätsdiagonale“) 28 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart d.) Augenscheinvalidität • Offensichtliche Akzeptanz eines Tests durch Laien. • Sie besitzt hinsichtlich der Kommunizierbarkeit und Nachvollziehbarkeit der Ergebnisse eine nicht unerhebliche Relevanz. • Wissenschaftlich betrachtet ist sie nicht immer gewollt, da sie insbesondere in der Persönlichkeitsforschung bereits bei der Testbearbeitung Antworttendenzen verursachen kann. 4.) Zusammenhang der Hauptgütekriterien • Ein Test ohne Objektivität wird keine optimale Reliabilität erreichen können: Entstehen Fehler bei der Ermittlung oder Interpretation der Daten, beeinflusst dies die Messgenauigkeit. • Ist die Reliabilität nicht gegeben, können keine gültigen Aussagen oder Vorhersagen getroffen werden, da der Test das Merkmal nicht genau messen kann: Ohne einen exakten Testwert lässt sich keine klare Beziehung zu einem Außenkriterium herstellen. Zusammenfassung: Die Validität eines Tests kann als perfekt gelten, wenn ein individuelle Testwert eine Person eindeutig auf einer Merkmalsskala lokalisiert. In diesem Fall erlaubt ein Testergebnis einen unmittelbaren Rückschluss auf den Ausprägungsgrad des zu erfassenden Merkmals. Dabei können verschiedene Aspekte der Validität unterschieden werden: • Inhaltsvalidität (die Testitems stellen das optimale Kriterium zur Erfassung des Merkmals dar) • Konstruktvalidität (ein Test kann aufgrund theor. Erwägungen ein best. Konstrukt erfassen) • Kriteriumsvalidität (das Ergebnis eines Tests korreliert mit unab. erhobenen Außenkriterien) 29 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 5.) Nebengütekriterien a.) Normierung/Testeichung • Ziel: Dem Testanwender ein Bezugssystem aktueller Vergleichswerte (Normtabellen) von solchen Personen bereitzustellen, die der getesteten Person anhand relevante Merkmale möglichst ähnlich sind. (In diesem Fall wird von den Daten einer Eich- oder Normierungsstichprobe gesprochen.) • Anhand der Normdaten kann eingeordnet und interpretiert werden, ob die Ergebnisse einer getesteten Person zur Norm gehörend (durchschnittlich), oberhalb der Norm (überdurchschnittlich) oder unterhalb der Norm (unterdurchschnittlich) zu beurteilen sind. Normierungsstichprobe: • Bei einer Normierungsstichprobe handelt es sich um einen großen, repräsentativen Datensatz des Testergebnisse verschiedener Probanden. • Im Anschluss an die Testung eines einzelnen Individuums kann geprüft werden, an welcher Stelle der Verteilung des Datensatzes die Testwerte eines Probanden zu finden sind. • Die Abweichung des Probanden vom Mittelwert wird in Standardabweichungen ausgedrückt. Hierfür haben sich verschiedene Normmaßstäbe etabliert. 30 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart • Überführbarkeit von Normmaßstäben: Prinzipiell sind alle Normen mittels z-Transformation ineinander überführbar, d.h. Testwerte in Form einer Norm (z.B. IQ, d.h. M = 100, SD = 15) können als Testwerte einer anderen Norm (z.B. Stanine, d.h. M = 5, SD = 2) dargestellt werden. (Bsp.: Bei einem Probanden wurde ein IQ von 115 festgestellt. In der Stanine Norm wäre es 7) Geltungsbereich einer Norm wird durch folgende Aspekte bestimmt: - Repräsentativität (Global — zahlreiche Merkmale mit Population übereinstimmen, Spezifisch) Hierbei „schützt“ eine große Stichprobe keineswegs vor mangelnder Repräsentativität. - Normdifferenzierung (Konkretisierung der Repr.), passende Bezugsgruppe, etc. - Aktualität der Eichstichprobe (nicht älter als 8 Jahre) — Evtl. Flynn Effekt - Testbedingungen nuter denen Probanden in der Normstichprobe getestet wurden. b.) Skalierung • Abstände zwischen Punktwerten („Numerisches Relativ“ ) entsprechen der Merkmalsausprägung („empirisches Relativ“). Dadurch lassen sich Unterschiede adäquat auch in empirischen Merkmalsrelationen abbilden. • Von Messinstrumenten wird allgemein erwartet, dass sie mit dem entsprechenden Skalenniveau ausgestattet sind, d.h. mindestens Ordinal- (um stärkere von schwächeren Ausprägungen zu unterscheiden) besser aber Intervallskalenniveau (um Größe einer Merkmalsdifferenz zu bestimmen). c.) Ökonomie/Wirtschaftlichkeit (Kosten vs. Erkenntnisgewinn) • Angestrebte Erkenntnisgewinn soll unter akzeptabler Aufwendung finanzieller & zeitlicher Ressourcen stattfinden. („Aspekt der Wirtschaftlichkeit“) Kosten minimal - Nutzen möglichst hoch (Erkenntnisgewinn) Computerbasierte oder Adaptive Testung förderlich auf Ökonomie d.) Nützlichkeit/Utilität (praktischer Nutzen) • Mehr Nutzen als schaden. • In der Eignungsdiagnostik sollten möglichst viele geeignete Personen ausgewählt und möglichst viele ungeeignete Personen nicht ausgewählt werden. e.) Zumutbarkeit (Beanspruchung durch einen Test) • „Testnutzen vs. zeitliche, psychische & körperliche Belastung der Testperson“ • Belastung kann erheblich variieren f.) Unverfälschbarkeit (Verzerrung & Verschleierung) • Häufige Verfälschung durch „Soziale Erwünschtheit“, welche durch hohe Augenscheinvalidität leicht nachvollziehbare Messintention - begünstigt werden kann. • Daher wird die Testintention oft verschleiert und es wird indirekt auf das zu messende Merkmal geschlossen. (durch Konstruktion wird Verzerrung verhindert) 31 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart g.) Testfairness (Bias von Tests) • Testwerte sollen zu keiner systematischen Benachteiligung oder Diskriminierung bestimmter Personen oder Personengruppen aufgrund ihrer Zugehörigkeit zu […] führen. • Liegt eine unsystematische Unfairness vor, besitzen die Items einen sogenannten „Itembias“. • Testfairness spielt oft bei Leistungstests eine größere Rolle. h.) Vergleichbarkeit (validitätsähnliche Tests) • „Intraindividuelle Reliabilitätskontrolle“ durch vorhanden sein einer Parallelform oder Validitätähnlichkeit eines Tests. (vergleichbare Ergebnisse) • „Intraindividuelle Validitätskontrolle“ durch vorhanden sein einer Korrelation zwischen 2 validitätsähnlichen Tests. i.) Transparenz (Verständlichkeit) • Verständlichkeit der Instruktion (Probleme ausschließen durch Vortests). • Aufklärung der Messintention & des Ergebnisses nach Abschluss des Tests. 32 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 4.) v3: Testevaluation • Die gewonnenen Daten werden im Rahmen einer Itemanalyse evaluiert, die zur Beurteilung der Items deskriptive Statistiken verwendet. • Für diese psychometrische Aufbereitung der Daten gibt es verschiedene Analyse-Schritte zur Qualitätsbestimmung und Einhaltung von Normen. • Es wird von Intervallskalenniveau ausgegangen. a.) Datenstruktur der Messungen • „Items in Spalten, Probanden in Zeilen und Werte in Zellen“ (= Datenmatrix) • Nach diesem Schema werden Itemwerte (xvi) von insgesamt n Probanden gegen insgesamt m Items abgetragen. • Ein beliebiger Proband erhält den Index v und ein beliebiges Item den Index i • Bei Leistungstests könnte 0 für eine falsche und 1 für eine richtige Antwort stehen. • Bei Persönlichkeitstests könnte xvi für einen Wert von 0 bis 6 Punkten stehen, der den Grad der Zustimmung angibt. b.) Itemschwierigkeit „Die Schwierigkeit eines Items bezeichnet den relativen Anteil aller Probanden, die ein Item „richtig“ (d.h. im Sinne höherer Merkmalsausprägungen) beantworten.“ Bezeichnet den relativen Anteil der Probanden, die das Item lösen. • Bei der Konstruktion von Items ist es entscheidend, dass diese nicht von allen bejaht, richtig beantwortet, gelöst bzw. verneint, etc. werden. • Die Antwort also nicht immer dieselbe (Konstante) ist. • Die Itemkonstrukton soll also weder zu leicht, noch zu schwer sein, etc… • Diese „Schwierigkeit“ wird mittels eines „Schwierigkeitsindex“ angegeben. (Für Fragebogenskalen auch „Popularitätsindex“) -> Anteil an Antworten, der von Probanden in Schlüsselrichtung abgegeben wird. Schwierigkeitsindex: (Pi) - prozentualer Anteil richtiger Antworten für das Item i in einer Stichprobe der Größe n. - Ist der Wert von P hoch, ist die Aufgabe leicht. - Ist der Wert niedrig, ist die Aufgabe schwierig. Er errechnet sich für ein beliebiges Item i aus dem Quotienten der tatsächlich erreichten Punktwerte und der maximal erreichbaren Punktsumme aller Probanden, multipliziert mit 100. (Multiplikation führt zu Indizes zwischen 0 und 100 - eigentlich „Leichtigkeitsindex“, der umso größer wird, je häufiger ein Item gelöst wird - je „leichter“ also ein Item ist, desto größer ist P) - Beginnt der Wertebereich eines Items bei 1 oder höher (und nicht bei 0), muss der Minimalwert eines Items von jeder Itemantwort und der maximalen Punktsumme subtrahiert werden. (P = Schwierigkeitsindex, NR= richtig antwortende Probanden, N= alle Probanden) 33 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Beispiel: „In einer Stichprobe von 360 Testpersonen haben 240 die Zahlenreihe 3-6-9-12-15-18-? richtig fortgesetzt und die Zahl 21 eingesetzt. Welche Schwierigkeit ergibt sich für das Item?“ Geg.: NR = 240; N = 360 Ges.: P Lös.: Problem 1: (Ratekorrektur) - Probanden können durch Zufall (d.h. Raten) die richtige Antwortalternative wählen. Hieraus folgt eine artifizielle Verringerung der Itemschwierigkeit. - Berücksichtigt, dass die Schwierigkeit unterschätzt wird, wenn Probanden raten. > Schwierigkeit wird um die geschätzte Anzahl zufällig richtiger Antworten korrigiert. (NF= falsch antwortende Probanden; m = Antwortalternativen) Beispiel: „Ein Item hat 5 Antwortoptionen, von denen eine die richtige ist. 360 Testpersonen bearbeiten das Item, 240 wählen die richtige Antwortoption. Wie lautet die um Ratewahrscheinlichkeit korrigierte Aufgabenschwierigkeit?“ Geg.: NR = 240; N = 360; m = 5 Ges.: NF ; P Lös.: Problem 2: (Korrektur für Inangriffnahme) - Probanden, die Items nicht bearbeiten, können diese auch nicht richtig beantworten. Hieraus folgt eine artifizielle Erhöhung der Itemschwierigkeit. - Berücksichtigt, dass die Schwierigkeit überschätzt wird, wenn Probanden nicht dazu kommen das Item zu bearbeiten. > Es werden lediglich die Probanden berücksichtigt, die das entsprechende Item auch bearbeitet haben. (NB = antwortende Probanden) Beispiel: „Ein Item hat 5 Antwortoptionen, von denen eine die richtige ist. Von 360 Testpersonen bearbeiten 240 das Item, 140 wählen die richtige Antwortoption. Wie lautet die um Ratewahrscheinlichkeit und Inangriffnahme korrigierte Aufgabenschwierigkeit?“ 34 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Bei Leistungstests: - Bei Leistungstests ergibt sich eine typische Datenanordnung, bei denen wiederum die n Probanden in den Teilen und die m Items in den Spalten abgetragen sind. 1. Speed-Tests: • Sind mit einer Zeitbegrenzung versehen. • Unterscheidung zwischen „richtig & falsch“ und „ausgelassen & unbearbeitet“. • Ausgelassen: nur dieses Item wurde nicht beantwortet, danach folgende aber schon (übersprungen) • Unbearbeitet: ab diesem Item wurde nicht mehr beantwortet (aufgrund der Zeitbegrenzung) • Bearbeitete Items setzen sich zusammen aus richtigen, falschen und ausgelassenen Antworten. • Schwierigkeitsindex: (nR= richtig beantwortete Items; nB = bearbeitete Items = nR + nF + nA) 2. Power Tests: • Keine Zeitbegrenzung • Unterscheidung zwischen „richtig & falsch & ausgelassen“, „unbeantwortet“ entfällt, da kein Zeitlimit vorhanden ist. • Schwierigkeitsindex: Quotient aus richtigen und allen Antworten • Für den Fall des Auftretens geratener Zufallslösungen Ratekorrektur der Indizes: (nF = Anzahl der Probanden mit einer Falschantwort; k = Anzahl der Antwortalternativen) Subtrahiert die zufällig richtig geratenen Antworten von den Richtig-Antworten. Sollte dieser Index negativ werden, ist er nicht zu interpretieren. Bei Persönlichkeitstests: - Bei Persönlichkeitstests werden Items nicht nach „richtig“ oder „falsch“, sondern nach „symptomatisch“ (hohe Werte) und „unsymptomatisch“ (niedrige Werte) für eine Merkmalsausprägung bewertet. - Bevor Schwierigkeitsindizes für derart ausgeprägte Items ermittelt werden, ist die einheitliche Kodieren zu Überprüfen. - Dies gilt insbesondere für inverse Items, die vor der Berechnung ggf. umkodiert werden müssen. 35 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 1. Bei 2 Antwortkategorien: (dichotom) • Bei 2 Antwortkategorien (1 = sympt., 0 = unsymtp.): wie bei Powertest —> Verhältnis symptomatische und alle Antworten 2. Bei mehr als 2 Antwortkategorien: • Dichotomisierung —> Werte in 2 Kategorien hoch & niedrig anhand eines Grenzwertes einteilen —> macht Skala grob (Informationsverlust) Bei intervallskalierten Daten: - Aufgrund des Informationsverlustes, ist ein Schwierigkeitsindex für intervallskalierte Stufen möglich: (Quotient aus i-ter Spaltensumme und maximal möglicher Spaltensumme) (kann als „arithmetisches Mittel der n Probanden auf einer k-stufigen Antwortskala aufgefasst werden.) - Mittlere Werte für diesen Index (50): maximale Streuung —> hohe Differenzierung zwischen den Probanden (Löser werden von Nicht-Lösern unterschieden) - Sucht man Differenzierung in den Extremen (P-Werte von 5-10 oder 90-95), also sehr schwer, oder sehr leicht, wird eine breite Streuung der Schwierigkeitskoeffizienten angestrebt. Bei Ratingskalen: „Ich gehe gerne auf Parties“ (0= sehr ungern; 4 = sehr gern) (Pm = mehrstufiger Schwierigkeitsindex; ∑Xtemp = Summe der Antworten; ∑Xtmax = maximale Summe der Antworten) 36 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart c.) Itemvarianz (Var(x)) - Gibt an, wie stark die Leistungen einer Stichprobe bei einzelnen Items streuen. - legt die Differenzierungsfähigkeit eines Items hinsichtlich der untersuchten Stichprobe fest. Bei dichtomen Items: • Produkt der Wahrscheinlichkeit, das Item zu lösen (pi), und der Gegenwahrscheinlichkeit, das Item nicht zu lösen (qi): - Maximale Varianz bei mittlerer Itemschwierigkeit (meiste Differenzierung). - Items, die zu leicht oder zu schwer sind, liefern keine Differenzierungen und besitzen entsprechend eine Varianz von 0. (nimmt zu den Extremen kontinuierlich ab) = Items, die keine Varianz erzeugen, differenzieren auch nicht. Bei intervallskalierten Items: - Für zweistufige Items (gelöst, nicht gelöst) besteht quadratischer Zusammenhang zwischen Itemschwierigkeit und Itemvarianz. - Allgemein berechnet sich die Differenzierungsfähigkeit Var(xi) sich folgendermaßen: 37 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart d.) Trennschärfe „Die Trennschärfe eines Items bezeichnet üblicherweise die Korrelation zwischen der Antwort auf ein Item und dem Summenwert einer Skala“ • Ein weiteres Maß der Itemanalyse ist entscheidend, wie substanziell die Korrelation zwischen den einzelnen Itemwerten und dem gesamten Testwert ausfällt. • Korrelation zwischen Item- und Testwerten (Item-Test-Korrelation) • Korrelation einzelner Itemwerte mit dem Testwert sämtlicher Items eines Tests. • Misst, inwieweit die Differenzierung erfolgreicher und erfolgloser Probanden durch ein Item der Differenzierung durch den Test übereinstimmt. • Passt das Item zum Test? (Korrelation zwischen Item & Summenwert sollte hoch sein, da Item die Skala/den Summenwert dann gut repräsentiert. z.B: Item hoch - Item hoch - Item niedrig = Summenwert Hoch. Niedriges Item erniedrigt Reliabilität —> aussortieren oder ggf. umpolen.) - Durch Trennschärfe können verschiedene Itemgruppen getrennt werden. Items sollen mit Summenwert der eigenen Gruppe hoch korrelieren & mit Summenwerten anderer niedrig. - Korrelation Item mit eigenem Summenwert nie 0, da Item im Summenwert enthalten & Korrelation des Items mit sich selbst = 1 —> Überschätzen der Korrelation des Items mit dem Summenwert —> Part-Whole-Korrektur. - Was wenn alle Probanden 0 auf der Skala ankreuzen? Dann ist die Korrelation doch 0? Nein! Zusammengefasst: Trennschärfe bezeichnet die Korrelation zwischen Item & Summenwert einer Skala. Konvergente TS bezeichnet die Korrelation mit der eigenen Skala, diskriminante TS die Korrelation mit einer anderen Skala. Part-Whole-Korrektur: - Bei der Berechnung der konvergenten Trennschärfe wird die - - Korrelation zwischen den Antworten auf ein Item und den Summenwerten der Skala ermittelt. Problem: Da die Werte des Items auch in die Skalensummen eingehen, wird die Korrelation überschätzt. (Das zu korrelierende Item sollte nicht beim Testwert dabei sein, um Trennschärfe nicht zu überschätzen, da ansonsten Korrelation der Variablen mit sich selbst eingeht.) Lösung: Bei der part-whole-korrigierten Trennschärfe wird das jeweilige Item nicht in den Summenwert eingerechnet. (=Testwert wird um zu korrelierendes Item bereinigt) Da der Summenwert in diesem Fall nicht durch das Item konfundiert ist, kann diese Korrelation sinnvoller interpretiert werden. Die Korrektur verringert sich mit zunehmender Zahl an Items. 38 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Effekte der Part-Whole-Korrektur: Generell ist die unkorrigierte Trennschärfe eines Items nie niedriger, als die part-whole-korrigierte Trennschärfe. Dies ist darauf zurückzuführen, dass der Summenwert in letzterem Fall nicht durch den Einfluss des Items konfundiert ist. - Die Part-Whole-Korrektur hat vor allem dann einen starken Effekt, wenn die Skala aus wenigen Items besteht oder wenn die Skala relativ geringe Trennschärfen aufweist (d.h. inhomogen ist) Zusammengefasst: Da der Summenwert durch die Ausprägung des Items konfundiert ist, wird die Trennschärfe als Korrelation zwischen dem Item und dem um das Item bereinigten Summenwert berechnet. (Durch PWK wird die Trennschärfe geringer) Berechnung: - Zur Berechnung der Trennschärfe wird für alle n Probanden der Zusammenhang eines Items i mit dem Testwert xv bestimmt: - Dabei wird unter dem Testwert xv eines Probanden v der Summenwert aller Itemwerte verstanden: - Bei wenigen Items ist es zu empfehlen, den Testwert als Summenwert ohne Item i zu berechnen, um die Trennschärfe nicht zu überschätzen. (Part-Whole-Korektur) Entsprechend ermittelt sich dann: - Wichtig ist anzumerken, dass die Bildung eines Testwertes Itemhomogenität voraussetzt, d.h. alle Items sollten das gleiche Merkmal messen. - Zudem wird eine hohe Trennschärfe zwar durch eine hohe Itemvarianz begünstigt, aber nicht garantiert. - In Abhängigkeit von der Skalierung der Items sind verschiedene Koeffizienten angemessen. 39 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Koeffizienten: 1. Produkt-Moment-Korrelation nach Pearson (intervallskalierte Items): • Anhand der Rohwerte ermittelt sich die Korrelation zwischen der Itembeantwortung und dem Testscore nach: Dabei sind xv der Skalen-(Summen-)Score und xvi der Itemscore, ∑xv und ∑xvi die Summen der Skalen- bzw. Itemscores, ∑xv2, ∑xvi2 die Quadratsummen und ∑xv xvi die Produktsumme. • Aus der unkorrigierten Item-Test-Korrelation rit kann die (part-whole) korrigierte Trennschärfe rit(i) berechnet werden: Dabei sind SD(x) die Standardabweichung der Testwerte, SD(xi) die Standardabweichung des Items i und rit * SD(x) + SD(xi) die Kovarianz zwischen den Itemwerten xvi von Item i und den Testwerten xv. 2. Punktbiseriale Korrelation rpbis (bei dichotomen Items): Dabei sind xv0 und xv1 die Mittelwerte und n0 und n1 die Anzahl der Probanden, die in Item i entweder eine 0 oder eine 1 als Antwort angegeben haben. • Aus der unkorrigierten Trennschärfe kann wiederum die (part-whole) korrigierte Trennschärfe rpbis(i) berechnet werden: Dabei sind SD(x) die Standardabweichung der Testwerte, p1 die Lösungswahrscheinlichkeit für Item i und q1 die Gegenwahrscheinlichkeit 1-pi. 40 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Diskriminationsindex D: - Als vereinfachtes Maß zur Schätzung der Trennschärfe kann vor allem für ordinale Itemantworten auch der Diskriminationsindex D (D-index for item analysis) verwendet werden. D wird in 6 Schritten ermittelt: 1. Rohwerte eines Tests werden ranggeordnet. 2. Der Stichprobenumfang n wird mit 0,27 multipliziert und das Ergebnis n’ zur nächsten ganzen Zahl auf- bzw abgerundet. 3. Nun werden 2 Gruppen gebildet: eine Gruppe der leistungsstärksten Probanden (+) im Umfang n’ und eine Gruppe der leistungsschwächsten Probanden (-) im Umfang n’. 4. In beiden Gruppen wird nun der Quotient aus der Anzahl korrekter Antworten mR dividiert durch n’ gebildet: 5. Beide Werte ergeben gemittelt den Schwierigkeitsgrad P: 6. Beide Werte ergeben subtrahiert den Diskriminationsindex D: Interpretation von D: - D kann Werte zwischen 0 und 1 annehmen - Kleine Werte = geringe Trennschärfe und korrespondieren mit kleinen P-Werten (bei zu „leichten“ oder zu „schwierigen“ Items). - Bei mittlerer Aufgabenschwierigkeit (P=0,5) erreicht D sein Maximum. Interpretation der Trennschärfe: • Werte zwischen 0,4 und 0,7 deuten auf eine „angemessene“ bis „ausgezeichnete“ Trennschärfe hin. • Hoher Wert = Items sind homogen gegenüber dem Gesamttest —> Probanden mit hoher Merkmalsausprägung lösen das Item. • Kleiner Wert = mangelnde Differenzierung durch ein Item in Zusammenhang mit der Differenzierung des Gesamttests —> Item für Unterscheidung von Probanden ungeeignet. • Negative Werte: fehlerhafte Itemformulierung —> Kodierung muss umgedreht werden —> Probanden mit niedriger Merkmalsausprägung lösen das Item. Zu kleineren Werten: - 0,30 bis 0,39: Items können durch Anpassung verbessert werden. - 0,20 bis 0,29: muss auf jedenfall verändert werden. - < 0,19: Item muss ausgeschlossen werden. 41 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Selektionskennwert: • Trennschärfe ist von den Interkorrelationen der Items abhängig. • Nur bei hohen Interkorrelationen (und damit hoher Homogenität) können auch hohe Trennschärfeindizes erzielt werden. • Demgegenüber führen aber Variationen der Schwierigkeitskoeffizienten zwischen den Items einer Skala dazu, dass sich die Interkorrelationen reduzieren. • Um bei der Itemselektion sowohl die Trennschärfe, als auch die Aufgabenstreuung zu berücksichtigen, ist der Selektioniert entwickelt worden. (= Übergeordnetes Maß für die Güte der Items): (rit = Trennschärfe, SD(xi) =Standardabweichung der Aufgabe) - Berücksichtigung der Trennschärfe und der Aufgabenstreuung - Geht man nur von Trennschärfe aus, selektiert man Items, die extreme Merkmalsausprägung messen —> entfernt man Items mit niedrigem Selektionskennwert, entgeht man der Gefahr, die extremen zu verlieren. - Liegen extreme Schwierigkeiten vor, resultieren hohe Werte für S. - Items mit extremen Schwierigkeiten haben eine größere Chance ausgewählt zu werden als Items mit mittlerer Schwierigkeit. Zusammenfassend: Itemselektion • Simultane Berücksichtigung der Ergebnisse der Itemanalyse (Schwierigkeit, Varianz, • • • • • • Trennschärfe) Mittlerer Schwierigkeitsgrad: differenzieren zwischen hoher und niedriger Merkmalsausprägung. Für Erfassung der Extreme: hohe oder niedrige Schwierigkeit. Items sollten immer gute Trennschärfe haben. Idealerweise differenziert ein Test über gesamten Schwierigkeitsbereich. Items ohne oder mit negativer Trennschärfe sind zu entfernen. Bei Items gleicher Schwierigkeit entscheidet die höhere Trennschärfe. Zusammenhang von Schwierigkeit und Trennschärfe: - Da besonders leichte und schwierige Items nur wenig Varianz erzeugen, wird die Trennschärfe gemindert. - Zur Differenzierung in Extrembereichen ist eine Aufnahme derartiger Items dennoch sinnvoll. 42 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart e.) Speed- und Powerkomponente (vgl. S.9) Speed-Tests: - Aufgaben sind einfach und können von allen Probanden gelöst werden. - Differenzierung erfolgt über die Begrenzung der Bearbeitungszeit. Test mit hoher Speedkomponente: - Korrelationen unterschiedlicher Bedingungen klein. Korrelationen gleicher Bedingungen groß. Bruch klein Speedindex groß Nachteil: Parallelformen müssen vorliegen und in jeweils 2 Bedingungen durchgeführt werden. Power-Tests: - Aufgaben sind schwer und können auch bei unbegrenzter Bearbeitungszeit nicht von allen Probanden gelöst werden. - Differenzierung erfolgt über Schwierigkeit der Aufgabe. Test mit hoher Powerkomponente: - Viele Aufgaben werden in Angriff genommen. u tendiert gegen n Gleiche Werte über und unter Bruchstich. Powerindex groß Vorteil: Es wird nur eine Version benötigt, die in nur einer Bedingung durchgeführt wird. (Leistungstests haben üblicherweise sowohl Speed- als auch eine Powerkomponente) "0,7 Power = 70% der Varianz der Testwerte gehen auf die Powerkomponente zurück, 30% auf die Speedkomponente“ => beide Indizes sollten komplementär sein. d.h. verrechnet man sie, sollte 1 rauskommen. 43 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 5.) v4: Klassische Testtheorie („Messfehler-Theorie“) Wiederholung: Was ist eine Testtheorie? • Testtheorien beinhalten Annahmen über das Zustande kommen von Messwerten. —> Welchen Einfluss hat Disposition auf Testverhalten? —> Wie gut kann man von Testverhalten auf Disposition schließen? • Es lassen sich 2 prominente Testtheorien feststellen: 1.) Klassische Testtheorie: wie stark fehlerbehaftet sind Messwerte? (Messfehlertheorie) 2.) Probalistische Testtheorie: Wie gut kann man das Testverhalten eines Probanden mit algebraischen Funktionen vorhersagen? (vom Übergang Disposition —> Verhalten passieren Fehler —> unreines Verhalten) Klassische Testtheorie: - Grundlage für die Testkonstruktion - Konzept zur Behandlung von Messwerten von Personen a.) Axiome der KTT: • Axiom = Setzungen oder Definitionen, die einfach ohne weitere Erklärung aufgestellt werden. Sie erlauben es, logische Ableitungen aus ihnen zu ziehen. • Beziehen sich auf beobachteten Testwerte, die wahren Testwerte & einen Messfehler. 44 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 1. Axiom — „Existenzaxiom“: Der wahre Wert einer Person ist der Erwartungswert der Messung x eines Probanden v in Item i, wenn man häufig genug misst. (Aus einer bestimmten Anzahl von Messungen kann auf die tatsächliche (wahre) Ausprägung des Merkmals geschlossen werden. Der wahre Wert bezieht sich dabei zunächst auf ein einzelnes Item eines einzelnen Probanden.) Der wahre Wert ist der Erwartungswert unendlich vieler Testungen eines Probanden 2. Axiom — „Verknüpfungsaxiom“: Messwerte setzen sich aus wahren Werten („tau“) und Fehlerwerten zusammen. (Der Messfehler überdeckt den wahren Wert und führt zu Abweichungen vom wahren Wert.) (Die Differenz zwischen dem wahren Wert und dem Ergebnis der Vp ist der Fehler.) - Beide Axiome nehmen an, dass der Zufallsfehler einen Erwartungswert von 0 besitzt, d.h. wenn man häufig genug misst, mittelt sich der Fehler weg. - Vorausgesetzt wird also, dass die Wiederholungen unter konstanten Bedingungen stattfinden & keine Messung von der vorherigen beeinflusst wird. Der Messfehler ist eine Zufallsvariable mit dem Erwartungswert 0: 3. Axiom — „Unabhängigkeitsaxiom“: Die Korrelation zwischen den wahren Werten & den Messfehlern ist 0. Wäre die Korrelation nicht 0, wäre der Fehler systematisch. (Keine spezifische Abhängigkeit zwischen wahren Werten & Messfehlern) (Der Fehler ist unabhängig vom wahren Wert — d.h. eine Zufallsvariable mit dem Erwartungswert 0) Als Zufallsvariable ist der Messfehler von allen anderen Variablen unabhängig: (immer wenn eine Variable zufällig ist, kann sie keine Korrelation zeigen) Fazit: - Beobachtbar ist nach den Axiomen nur die Messung xvi - Wahrer Wert & Fehlerwert sind nicht beobachtbar & somit sind sie unbekannte Größen —> wahrer Wert & Fehlerwert ergeben sich aus Schätzungen. 45 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Zusatzannahmen der KTT: Unabhängigkeit der Messfehler - Es wird angenommen, dass die Fehlervariablen zweier Items für dieselbe Person unabhängig sind, d.h. dass Erfolg bei einem Item unabhängig von anderen Items bei einer Person ist. —> Kein „Lerneffekt“. (unabhängige Items) - Fehlervariablen zweier Personen bei dem selben Item sind unabhängig, d.h. die Itembearbeitung muss von unabhängigen Personen erfolgen. (unabhängige Personen) Bsp.: „Der IQ eines Probanden soll mithilfe eines Intelligenztests gemessen werden. Mögliche Fehlereinflüsse auf das Testergebnis könnten u.s. sein, dass der Proband…“ - vom Banknachbar abschreibt einen Kater vom letzten Abend hat Leistungssteigernde Medikamente eingenommen hat durch eine hübsche Banknachbarin abgelenkt wird 46 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart b.) Fehlerwerte: • Messfehler = Zufallsvariable mit Erwartungswert 0 und einer Fehlervarianz, die für alle Personen gleich ist. • Aus den beiden ersten Axiomen resultiert, dass der Zufallsfehler einen Erwartungswert von 0 • • • • besitzt —> wenn man häufig genug misst, mittelt sich der Fehler weg. Korrelationen zwischen wahren Werten & den Messfehlern bei beliebigen Personen & beliebigen Items ist 0. Wenn r nicht 0 wäre, wäre der Fehler systematisch. Schlussfolgerung, dass sowohl die Summe der Fehlerwerte einer Person bei unendlich vielen Messungen, als auch die Summe der Fehlerwerte einer Messung bei unendlich vielen Personen 0 ergeben muss. Messfehler kommt folgendermaßen zustande: • Einflüsse, die sich im Zuge der Messung unkontrolliert auf das Testverhalten der Probanden auswirken und damit das Messresultat kontaminieren können. (Tageszeit des Experiments, Klima, Motivation, Versuchsleiter,…) • Zusatzannahme der KTT: Unabhängigkeit der Messfehler. Wahrer Wert & Fehlerwert: • Messfehler überdeckt den wahren Wert und führt zu Abweichungen von ihm —> Messfehler sorgt dafür, dass der wahre Wert schwankt. • Die beobachtbare Messung setzt sich aus einem wahren Wert und einem Fehlerwert zusammen, die beide nicht beobachtbar sind —> unbekannte Größen, die sich aus Schätzungen ergeben. c.) Bestimmung des wahren Testwertes: - Hauptproblem: Zufallsfehler neutralisieren, der in jeder beobachteten Messung steckt. - Wiederholte Messung scheidet dabei aus, da Lerneffekt. - Lösung: Mehrere Messungen zu einem Merkmal verschiedene Items (die gleiches Merkmal messen) zu einem Testwert (Rohwert) verrechnet. —> neutralisieren des Zufallsfehlers. - Gesucht: Erwartungswert von xv, was dem wahren Testwert entspricht. - Die Messwertsumme kann als Punktschätzung des wahren Wertes einer bestimmten Person verwendet werden. - Voraussetzung: es wurde oft genug gemessen (auch eine solche Schätzung kann fehlerbehaftet sein und ist daher um eine Angabe zu ihrem Fehler zu ergänzen (dem sog. Standardmessfehler)) 47 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart d.) Bestimmung der wahren Varianz & Fehlervarianz: - Zerlegung der Gesamtvarianz (beobachtete Varianz) in wahre Varianz (ein Proband ist einfach besser als ein andere —> Unterschiede in wahren Merkmalsausprägungen der Probanden) und Fehlervarianz (Messfehler der Probanden). - Die Schätzung der Varianz wird in 2 Schritte unterteilt: Varianzzerlegung: • Varianz einer Summe von Variablen ist gleich der Summe der Varianzen der einzelnen Variablen + der zweifachen Summe der Kovarianz beider Variablen: • Da die Korrelation zwischen wahrem Wert & Messfehler laut Unabhängigkeitsaxiom aber 0 ist, ist auch der Term Cov = 0. Daher ergibt sich: • Testwertevarianz Var(x) setzt sich zusammen aus: wahrer Varianz Var(tau) = Unterschieden in den wahren Merkmalsausprägungen der Probanden und Fehlervarianz Var(epsilon) = dem Messfehler epsilon der Probanden Varianzschätzung: • Um die unbekannten Varianzen (tau & epsilon) schätzen zu können, werden Testwertevariablen zweier Tests xp und xq herangezogen. Unter Anwendung des Verknüpfungsaxioms wird dabei die Kovarianz der Testwertevariablen xp und xq zweier Tests p und q betrachtet: • Da die Messfehler & wahre Werte untereinander unkorreliert sind, ist der Kovarianzterm hinsichtlich der Fehlerwerte 0 und kann entfallen: • Stammen xp und xq aus 2 parallelen (sog. tau-äquivalenten) Tests, dann gilt tp = tq = t, und die wahre Testwertevarianz ergibt sich aus der Kovarianz zweier paralleler Tests: • Somit kann die wahre Testwertevarianz Var(tau) als Kovarianz zweier tau-äquivalenter Tests geschätzt werden. Dies ermöglicht schließlich auch, die Fehlervarianz zu schätzen: 48 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart e.) Bestimmung der Reliabilität: Der Reliabilitätsbegriff der KTT: - Der Messwert (x) eines Probanden in einer Testung (t1) setzt sich aus dem wahren Wert (tau) des Probanden und einem Fehlerwert (epsilon) zusammen. - Der Messwert (x’) eines Probanden in einer zweiten Testung (t2) in demselben Test setzt sich aus demnselben wahren Wert und einem anderen Fehlerwert zusammen. • Die Grundlage der Korrelation zwischen 2 Messwerten des gleichen Probanden in 2 Testungen ist, dass der wahre Wert der Gleiche bleibt. • Die Korrelation der Messwerte wird im Vergleich zur Korrelation der wahren Werte gemindert, da die Messwerte sich wegen des Messfehlers unterscheiden. • Aus den Axiomen der KTT kann abgeleitet werden, dass die Korrelation der Messwerte (rtt) dem Anteil der Varianz der wahren Werte (st2) an der Gesamtvarianz der Messwerte (sx2) entspicht. Reliabilität: - Maß der Zuverlässigkeit. - Reliabilität ist wahre Varianz geteilt durch beobachtete Varianz. - Ist das Verhältnis der beiden Varianzanteile 1, dann gäbe es keine Messfehler und die Reliabilität wäre perfekt. - Ist die Reliabilität 0, misst der Test nur Messfehler. - Quotient aus Anteil der wahren Varianz und dem Anteil der beobachteten Varianz: - Das resultierende statistische Maß (Reliabilitätskoeffizient) zeigt bei einem Maximalwert von 1, dass eine messung frei von Fehlern ist und bei einem Minimalwert von 0 das Fehlen jeglicher wahrer Varianz. - Ein Test ist demnach umso reliabler, je größer der wahre Varianzanteil ist im Verhältnis zur beobachteten Varianz ist. - Ein Test ist demnach umso unreliabler, je kleiner der wahre Varianzanteil im Verhältnis zur beobachteten Varianz ist. Bei parallelen Tests kann der Anteil wahrer Varianz an der beobachteten Varianz zudem als „TestTest-Korrelation“ rtt anhand der beobachteten Daten geschätzt werden: (Die Retest-Reliabilität wird als Anteil der Varianz wahrer Werte an der Gesamtvarianz der Messwerte verstanden) 49 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Hohe Reliabilitäten entsprechen einem geringen Messfehleranteil Niedrige Reliabilitäten einem hohen Messfehleranteil Die Testwerte eines Tests mit einer Reliabilität von rtt = .70 gehen zu 70% auf wahre Werte und zu 30% auf Fehlerwerte zurück. (Kritik an KTT = unabhängigkeit, Korrelation ist nicht immer 1. z.B. Testangst, er hat in allen Messungen Testangst - alle Tests —> Messfehler wird in allen Tests größer sein) f.) Standardmessfehler: Wie wirkt sich der Messfehler auf die Streuung der Messwerte aus? (Hätte ich keinen Messfehler —> wahrer Wert = Messwert —> Reliabilität = 1) Standardmessfehler: • • • • • Unerklärter Fehlervarianzanteil der Testwertevarianz. Berücksichtigt zusätzlich zur Standardabweichung, wie genau ein Test ist (Präzision des Tests) Standardabweichung für den Fehler = Standardabweichung multipliziert mit Wurzel der Unrel. Unreliabilität ist die Unzuverlässigkeit eines Tests. Mit dem Standardmessfehler wird der Anteil an der Streuung eines Tests bestimmt, der auf seine Ungenauigkeit zurückgeht. • Streuung, die sich bei unendlich häufiger Testung der gleichen Testperson aufgrund der Unreliabilität des Tests ergeben würde. 50 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart • Er gibt denjenigen Anteil an der Streuung eines Tests wieder, der auf seine Ungenauigkeit zurückzuführen ist. • Berechnet wird er aus der Standardabweichung der Messwerte multipliziert mit der Wurzel der Unreliabilität: (set = Standardmessfehler; sxt = Streuung der Messwerte; rtt = retestreliabilität) bzw. Ist rtt groß, wird Messfehler kleiner —> je kleiner desto größer der Standardmessfehler. Hat man einen großen Messfehler, streuen sie um den wahren Wert. • Wird ein Test eingesetzt, um die Ausprägung eines Kriteriums zu prognostizieren, kann ein Standardschätzfehler ermitteln werden, der die Streuung um den wahren Kriteriumswert eingrenzt: (SD(c) = Standardabweichung des Kriteriums; corrtc = Korrelation zwischen Test & Kriterium) • Aus Berechnung des Standardmessfehlers kann zudem eine Gleichung abgeleitet werden, mit der die Differenz zweier einzelner Testwerte auf Signifikanz geprüft werden kann. Diese sog. „kritische Differenz“ berechnet sich wie folgt: (rtt1 & rtt2 = Reliabilitäten der beiden Tests) Der Abstand zweier Testwerte wird dann signifikant, wenn dieser größer ist als diffcrit Bsp.: „Ein Proband erzielt in einem ersten Untertest einen Testwert von 115 (bei einer Reliabilität des Tests von 0,86), in einem zweiten Untertest einen Testwert von 102 (bei einer Reliabilität von 0,90). Es stellt sich nunr die Frage ob dieser Abstand bei einem alpha = 0,05 signifikant ist:“ Demnach ist die beobachtete Differenz von 13 gegenüber der kritischen Differenz von 9,6 signifikant abweichend. 51 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart g.) Konfidenzintervalle des wahren Testwertes: • Mit dem Standardmessfehler kann ein Konfidenzintervall berechnet werden, in dem der wahre Wert einer Testperson mit einer bestimmten Wahrscheinlichkeit zu finden ist. • Zur Berechnung des Konfidenzintervalls wird die folgende Formel verwendet: (Confidence Limit — Messwert — 1,96 Wert bei Irrtumsws. bei Standardnv — Standardmessfehler) • Der Standardmessfehler wird dazu genutzt, die Messwertsumme der Punktschätzung um ein Konfidenzintervall zu erweitern, in dem der wahre Wert liegt. • Vertrauensbereich, in dem 95% aller möglichen wahren Werte liegen, die den Stichprobenschätzwert erzeugt haben können. • Großer Standardmessfehler = großes Konfidenzintervall • Voraussetzungen: • Test hat ausreichende Reliabilität (> 0,80) • Fehler sind normalverteilt • Stichprobe > 60 — bei kleineren kann t-Verteilung herangezogen werden. Bsp.: „Die Reliabilität einer IQ-Tests (M=100; SD=15) beträgt rtt = 0,80. Ein proband erreicht einen Messwert von 110. In welchem Intervall ist der wahre Wert des Probanden mit einer Wahrscheinlichkeit von 95% zu erwarten?“ Geg.: x = 110; IQ-Norm -> SD = 15; rtt = 0,80 Ges.: Set (Standardmessfehler), CL Lösung: Set = Sxt*√1-0,80 = 15*√0,2 = 6,71 (Streuung um den wahren Wert von 6,71) CLu = 110 - 1,96 * 6,71 = 96,84 CLo = 110 + 1,96 * 6,71 = 123,15 52 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart h.) Minderungskorrekturen: Wie wirkt sich der Messfehler auf die maximale Höhe der Korrelation, die ein Test zu anderen Variablen zeigen kann aus? • Ein gesondertes Problem bezieht sich auf die Frage, welche Auswirkungen Messfehler auf die Höhe einer bivariaten Korrelation ausüben. • Über die Minderungskorrektur kann dazu eine Schätzung abgegeben werden, welche Korrelation zu erwarten ist, wenn die betrachteten Testverfahren vollkommen reliabel (frei von Messfehlern) sind. • Korrelation zwischen den wahren Werten zweier Tests soll geschätzt werden. • Reliabilitäten und die Korrelation der beiden Tests müssen bekannt sein. —> Minderungskorrektur für die Korrelation • Mit Minderungskorrektur kann Schätzung der Korrelation zweier Variablen mit wahren Werten vorgenommen werden, wenn deren Reliabilitätskoeffizienten vorliegen. • Es lässt sich so der Korrelationskoeffizient für den Fall korrigieren, wenn die beiden korrelierten Werte fehlerbehaftet sind, wodurch deren Korrelation vermindert war. • Doppelte Minderungskorrektur: wenn Test t und Kriterium c eine unzureichende Reliabilität besitzen. Mit der Minderungskorrektur kann berechnet werden, wie hoch die Korrelation von 2 Tests maximal wäre, wenn sie komplett reliabel wären (rtt = 1). ACHTUNG: - In dem Beispiel werden 2 unterschiedliche Tests (A,B) durchgeführt. - Die Korrelation der Messwerte kann maximal so hoch sein wie die Korrelation der wahren Werte. - Wenn die Tests fehlerbehaftet sind, ist die Korrelation der Messwerte kleiner, als die Korrelation der wahren Werte (wahre Werte = Obergrenze) 53 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart • Beobachtet werden können nur die Korrelationen zwischen den Messwerten. Ist man an der Korrelation der wahren Werte interessiert, kann man diese schätzen. • Aus den Axiomen der KTT lässt sich die Formel der Minderungskorrektur ableiten, die den mindernden Einfluss des Messfehlers in der Korrelation der Messwerte korrigiert. Doppelte MK Es werden die Messfehler in beiden Tests korrigiert. Man erhält die Korrelation der wahren Werte beider Tests r(tauA,tauB). (rtc = empirisch festgestellte Korrelation; durch Produkt aus den wurzeln der Reliabilität) In der Forschung sind wir an den wahren Werten interessiert, und nicht an den Testergebnissen. Wir rechnen Messfehler heraus und kommen somit auf die wahren Werte. (hier werden die Fehlerwerte herausgerechnet). Einfache MK Es werden die Messfehler in einem Test korrigiert. Man erhält die Korrelation des wahren Werts von Test A und dem Messwert von Test B r(tauA,xB) (aus Wurzel der Reliabilität von EINEM Test) Entwicklung neuer Tests. Man möchte wissen wie sie das Konstrukt operationalisieren. Man will konvergente Validität feststellen (die Korrelation mit einem Test mit anderen Tests die das selbe Merkmal feststellen). • Wenn man in ein Testverfahren reinsieht und man sieht die Doppelte MK (Schulnoten = 0,6) bedeutet das automatisch dass man damit gut Schulnoten vorhersagen kann? • Minderungskorrektur führt zu höherer Korrelation, da sie in Richtung wahrer Werte geht. man teilt immer durch Werte kleiner 1… daher erhöht sich die Korrelation. • Bringt uns in der Praxis aber nichts, da wir nur die Messfehler behafteten Messwerte haben. Auf den wahren Wert kommt man nicht 54 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Bsp.: „Test A weist eine Reliabilität von rtt = 0,8 auf, Test B eine von rcc= 0,6. Die Tests zeigen einen Zusammenhang von rtc = 0,3. Wie hoch wäre der Zusammenhang maximal, wenn Test A bzw. beide Tests perfekt reliabel wären?“ geg.: rtt = 0,8; rcc = 0,6; rtc = 0,3 ges.: corr rtc(rtt); corr rtc (rtt; rcc) Lös.: Test A = corr rtc(rtt) = (rtc)/(√rtt) = 0,3/√0,8 = 0,335 Beide Tests = corr rtc (rtt; rcc) = (rtt)/(√rtt * √rcc) = 0,3/(√0,8*√0,6) = 0,433 i.) Testverlängerung: ACHTUNG: • In dem Beispiel geht es um mehrere Items eines Tests. • Auch hier gilt: Die wahren Werte sind Grundlage der Korrelation der Messwerte • Werden zusätzliche Items in den Test aufgenommen, nehmen die Korrelationen der wahren Werte zu. • Da die Fehlerwerte der Items voneinander unabhängig sind, kann es zwischen Ihnen keine Korrelation geben Wird ein Test um (gleich gut geeignete) Items verändert, so nimmt die Varianz wahrer Werte stärker zu, als die Varianz der Fehlerwerte, d.h. Test wird reliabler. Merke: Testverlängerung führt zur Erhöhung der Reliabilität eines Tests. Praktischer Bezug: - Die Reliabilität eines Testverfahrens kann somit gesteigert werden, wenn zusätzliche Items aufgenommen werden, die gleich gut geeignet sind, d.h. wenn er verlängert wird. - Aus den Axiomen der KTT lässt sich eine Formel ableiten, mit der geschätzt werden kann, wie hoch sich die Reliabilität des Tests nach der Verlängerung ergibt: (Spearman-Brown-Prophecy-Formula) (mit k = Faktor der Verlängerung) - Parallele Testteile: 2 Testteile p und q mit gleichen wahren Werten & gleicher wahrer Varianz. - Verlängert man Test p um q, ist die gemeinsame Testvarianz die Summe der Einzelvarianzen + der zweifachen Kovarianz beider Tests. - Bei Verdopplung der Testlänge durch einen parallelen Testteil, resultiert die doppelte Fehlervarianz, aber die vierfache wahre Varianz —> Spearman-Brown-Formel - k = Verlängerungsfaktor (K = 2 —> Verdopplung, K = 3 —> Verdreifachung…) 55 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Bsp.: „Ein Test besteht aus 10 Items und weist eine Reliabilität von rtt = 0,5 auf. Wie hoch wäre die Reliabilität, wenn man den Test um 5 Items verlängern würde?“ geg.: rtt = 0,5; n = 10; n+x = 15 ges.: corr rtt; k Lös.: k = (10+5)/10 = 1,5 corr rtt = (1,5*0,5)/(1+(1,5-1)*0,5) = 0,6 (Testverlängerung eignet sich vor allem dann zur Reliabilitätssteigerung, wenn der Test unreliabel ist und aus wenigen Items besteht.) • Steigerungen der Reliabilität lassen sich dann am effektivsten erzielen, wenn die Ausgangsreliabilität niedrig ist. • Die Gleichung kann zudem auch dann eingesetzt werden, um eine Reliabilitätsminderung infolge einer Testkürzung abzuschätzen. Dies kann z.B. notwendig sein, wenn infolge des Entfernens von Skalen aus einem Test eine kritische Reliabilitätsgrenze nicht unterschritten werden soll. • Dabei ist der Faktor k zu ersetzen durch den Quotienten k = (Anzahl der Items nach der Korrektur)/(Anzahl der Items vor der Korrektur) Bsp.: „Ein Test soll von 100 Items auf 60 Items gekürzt werden. Damit ergibt sich ein k = 100/60 = 0,6. Weist der ursprüngliche Test eine Reliabilität von rtt = 0,90 auf, resultiert für die verküzte Version:“ Die Reliabilität würde demnach durch die Verkürzung um den Faktor k = 0,6 auf rtt = 0,84 absinken. 56 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart j.) Kritik an der KTT: Die KTT liefert einen bewährten und ökonomischen Ansatz zur Ermittlung von Testwerten & zur Beurteilung von Messgenauigkeiten bei psychometrischen Tests & Fragebögen. Die KTT ist pragmatisch, aber umstritten, da sie viele starke Annahmen macht, die nicht empirisch überprüfbar oder fraglich sind: 1.) Schätzprobleme: • Addition eines Testwertes aus wahrem Wert & Fehlerwert: Dieses Axiom der KTT ist empirisch nicht überprüfbar, da es sich beim wahren Wert und Fehlerwert nur um theoretische (nicht beobachtbare) und maximal schätzbare Größen handelt. • Nullkorrelation zwischen wahrem Wert & Fehlerwert: Ebenfalls nicht empirisch prüfbar und zudem im Falle abhängiger Messungen (wiederholte) nicht immer haltbar. • Konstanz der Werte: Wenn überhaupt nur für kurze Zeiträume & spezifische Merkmale vertretbar. Für Vielzahl von Merkmalen muss hingegen angenommen werden, dass sie sich über die Zeit verändern. 2.) Skalierungsprobleme: • Intervallskalierung von Testwerten: Nicht alle Tests erfüllen das Kriterium intervallskalierter Daten. Zudem gelingt es mit den Mitteln der KTT nicht zu überprüfen, welches Skalenniveau die Testwerte aufweisen. 3.) Konstruktprobleme: • Annahmen über Eigenschaften der untersuchten Merkmale: Die mit den statistischen Verfahren verbundenen Implikationen sind nicht überprüfbar. (z.B. dass Merkmale grundsätzlich Normalverteilt sein sollen — ob alle physischen Merkmale Normalverteilt sind) • Annahmen über Eigenschaften der verwendeten Items: Keine direkte Möglichkeit der Überprüfung, ob verwendete Items hinsichtlich des untersuchten Merkmals homogen sind. Eingeschätzt werden kann diese Forderung lediglich über Angaben zur Trennschärfe und Angaben zur internen Konsistenz. • Unabhängigkeit der Parameter: Die Parameter der KTT sind populations- bzw Stichprobenabhängig. in Abhängigkeit von der Homo- oder Heterogenität der untersuchten Stichprobe verändern sich die Reliabilitätskoeffizienten. Besonders das Auftreten oder Fehlen extremer Werte nimmt dabei erheblichen Einfluss auf korrelative Beziehungen zwischen Variablen. 4.) Stichprobenproblem: • Populationen und Stichproben: können in weitere Subpopulationen oder Substichproben zerfallen, die hinsichtlich ihrer Messwerte unterschiedliche Reliabilitäten & Validitäten aufweisen. Je nachdem, welcher Substichprobe dann die erzielte Merkmalsmessung einer Person zugeordnet wird, verändern sich die Schätzungen der wahren Werte & Varianzen. Mögliche Subpopulationen mit anderen Reliabilitäten & Validitäten werden nicht berücksichtigt. • Gruppenstatistiken und Einzelfall: Von Gruppenstatistiken - die ein Aggregat über eine Klasse von Elementen darstellen - kann nicht auf den Einzelfall geschlossen werden, wenn die entsprechende Reliabilität und/oder Validität unter 1 liegt. Denn eine Wahrscheinlichkeitsaussage gilt nur für Elemente bestimmten Umfangs, kann aber nicht für den Grad einer Vorhersagegenauigkeit bezüglich eines Einzelfalls verwendet werden. 57 Testtheorie & Testkonstruktion Skript 2015 Positives: • Pragmatische Gründe • Die darauf basierenden Tests haben sich in der Praxis oft bewährt • Es liegen inzwischen auch Erweiterungen der KTT vor 58 Maximilian Bungart Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 6.) v5: Probabilistische Testtheorie (PTT): („Item-Response-Theorie“ — IRT) • Die PTT ist neben der KTT die zweite bedeutsame Testtheorie. • Alternativ wird sie auch als „Item-Response-Theorie“ bezeichnet, oder (fälschlicherweise) als Rasch-Modell (nur ein Spezialfall der PTT). a.) Grundidee: - Theorie, die auf Wahrscheinlichkeiten basiert. - Das Antwortverhalten von Probanden werden mittels algebraischer (logistischer) Funktionen beschrieben. - Bei der Validierung von Testverfahren wird geprüft, ob die empirischen Daten durch Modellgleichungen vorhergesagt werden können. - Sofern diese Prüfung erfolgreich ist, können dem Test bestimmte Eigenschaften zugemessen werden, die in der psychodiagnostischen Praxis von Vorteil sind. „Wie verhält sich die Schwierigkeit des Items zu dem, was der Proband kann“ b.) 4 Grundannahmen der PTT: (Fisseni - 1990) 1. Jeder Proband besitzt eine Fähigkeit, Items zu lösen —> „Personenparameter“ 2. Jedes Item hat eine Schwierigkeit —> „Itemparameter“ 3. Personen- & Itemparameter lassen sich gemeinsam auf einer eindimensionalen Skala abbilden. (sie müssen nicht zwischen Personen- & Itemparameter unterscheiden) 4. Die Wahrscheinlichkeit, dass ein bestimmter Proband ein bestimmtes Item löst, wird gleichsam von Personen- und Itemparameter bestimmt. (Habe ich einen fähigen Probanden und ein leichtes Item, ist die Wahrscheinlichkeit dieses zu lösen sehr hoch) Beispiel: Personenparameter: 62kg & 135kg — Itemparameter: „Sind sie schwerer als 40/60/… etc.?“ Proband 1: Fähigkeit Items zu lösen ist höher als der Itemparameter, d.h. er Antwortet dann mit „ja“. Bei 60 ebenfalls „ja“, bei 80 müsste er „nein“ sagen. (voraussgesetzt er antwortet immer ehrlich). Proband 2: Bei 135kg sollte dieser mit „nein“ antworten, davor nur mit „ja“. 59 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Die Antwort auf einem Item hängt gleichzeitig vom Itemparameter („wie schwer ist die Aufgabe?“) & vom Personenparameter („wie fähig ist die Person?“) ab. Verlauf der Lösungswahrscheinlichkeit in Abhängigkeit von Personen und Itemparameter („Itemcharakteristische Kurve“) Bis zu dem Punkt von 80kg ist sie 0 und springt ab dann auf 1 — d.h. wenn ich jemanden habe der weniger als 80kg wiegt, sagt er auf jeden Fall „nein“ & bei jemandem mit 135kg auf jeden Fall „ja“ (Diese „Guttman“ - Skala bezieht sich nur auf die frage, also das Item) c.) Unterscheidung zweier Ebenen von Variablen: 1. Manifeste Variablen: (xvi) - die beobachtbaren Antworten auf Testitems. - Rückschluss von manifesten Variablen auf latente Variable. - Indikatoren („Anzeiger“) der latenten Variable, also das dahinterliegende Konstrukt. 2. Latente Variablen: („ksi“) - nicht beobachtbare Fähigkeits- & Persönlichkeitsmerkmale. - nicht direkt messbar. - manifeste Variablen werden genutzt um Ausprägung auf der latenten Variable zu finden. - Ausprägung der latenten Variable kann nur erschlossen werden. - Merkmal, das die Itemantworten zustande kommen lässt (l.v. verursacht die Itemkreuze) - In diesem Sinne sollten Probanden mit einer hohen Ausprägung der latenten Variable zugehörige Items auch in Schlüsselrichtung beantworten („lösen“) während Probanden mit einer niedrigen Ausprägung in gegenläufiger Richtung antworten („nicht lösen“). - Dabei werden wechselseitige Korrelationen zwischen den manifesten Variablen angenommen und auf den Einfluss der latenten Variable zurückgeführt. 60 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart d.) Lokale stochastische Unabhängigkeit: „Wenn alle Items Indikatoren der latenten Variable sind, so sollten die Korrelationen zwischen den Items verschwinden, wenn die latente Variable auf einer Stufe konstant gehalten wird.“ (immer wenn das der Fall ist, ist es eindimensional, d.h. man misst nur 1 Konstrukt und kein anderes - also „reliabel“) - In der Empirie lassen sich nur die manifesten beobachten. - „Ksi“ ist die Personenfähigkeit (latente Dimension - nicht beobachtbar, aber Verantwortlich für das Zustandekommen der Antworten) „Bei gegebener Eindimensionalität verschwinden Zusammenhänge zwischen Items, wenn die latente Variable auf einer Stufe konstant gehalten wird“ • Um von manifesten Variablen auf eine gemeinsame latente Variable schließen zu können, bedarf es einer Datenbasis mit korrelierten manifesten Variablen (xvi*). • Hinreichende Bedingung: Itemhomogenität bezüglich der latenten Variable, d.h. dass das Antwortverhalten nur durch das latente Merkmal beeinflusst wird. • Itemhomogenität, wenn die manifesten Variablen die Bedingung der lokalen stochastischen Unabhängigkeit erfüllen. Feststellung der l.s.U.: 1. Die latente Variable wird auf einem bestimmten Wert konstant gehalten (Stichprobe von Probanden, die alle die gleiche Ausprägung hinsichtlich des Merkmals haben) 2. Korrelationen der Antwortvariablen an den Personen mit dieser Ausprägung werden in der latenten Variable (ksiv) untersucht. 3. Liegt Itemhomogenität vor, verschwinden die Korrelationen zwischen den Antwortvariablen. - Wenn alle Items homogen sind, müssen Personen mit gleicher Merkmalsausprägung der latenten Variable bei einem Item die selben Werte erreichen. - im idealen Fall ohne Fehlereinflüsse gäbe es also einen Datenpunkt in einem Streudiagramm, bzw. mit Messfehlern eine enge kleine Punktwolke mit Nullkorrelation. - Wäre die Korrelation nicht 0, wären die Items nicht homogen und die Items würden dann noch etwas anderes messen als das Merkmal. 61 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Überprüfung der Unkorreliertheit: • mithilfe des Multiplikationstheorems für unabhängige Ereignisse: „Wahrscheinlichkeit für das Auftreten zweier Ereignisse ist Produkt ihrer Einzelwahrscheinlichkeiten.“ • in unserem Fall: Wahrscheinlichkeit, dass man 2 Items i und j zustimmt, wenn man eine bestimmte Merkmalsausprägung der latenten Variable hat. • Sind die Items unabhängig, ist die latente Variable der einzige Verursacher, was bedeutet, dass die Items homogen sind —> sie sind Indikator der latenten Variable. e.) Modelltypen: (unterscheiden sich in der Definition der latenten Variable) 2 Basismodelle: 1. Latent-Class-Modelle: kategoriale latente Klassen zur Charakterisierung von Personenunterschieden. 2. Latent-Trait-Modelle: (siehe Beispiel oben) - verwenden quantitative, kontinuierliche latente Variablen - Beziehung zwischen manifesten Testantworten & der Ausprägung der latenten Variable als - Itemcharakteristische Funktion („IC-Funktion“). Abszisse: latente Variable (x-Achse); Ordinate: Lösungswahrscheinlichkeit (y-Achse) Items sind durch Schwierigkeitsparameter charakterisiert: wie leicht oder schwer das Item ist. Personenparameter: gibt an, wie fähig eine Person ist —> welche Leistung jemand bringen kann —> Ausprägung der latenten Variable einer Person. für jedes Item lässt sich bestimmen, welche Lösungswahrscheinlichkeit eine Person mit einem bestimmten Personenparameter hat: Beziehung der Itemschwierigkeit und der Lösungswahrscheinlichkeit in Abhängigkeit davon, welche Merkmalsausprägung jemand hat. Probabilistische & Deterministische Modelle sind „Latent-Trait-Modelle“, die sich nur in ihren ICFunktionen unterscheiden. Deterministische Modelle: • Gehen davon aus, dass Antwortverhalten nur durch Item- und Personenparameter bestimmt wird. Guttmann-Modell: (Skalogramm-Modell) (Bei dem Beispiel oben wurde die Guttman-Skala veranschaulicht) Dieses Modell ist deterministisch, es gilt… - Wenn ein Proband ein Item löst, muss er alle leichteren auch gelöst haben - Wenn ein Proband ein Item nicht löst, darf er danach kein schwereres lösen. Die relativ strengen Modellannahmen der Guttman-Skala werden in der psychodiagnostischen Praxis üblicherweise nicht erfüllt. Probabilistische Modelle haben weniger strenge Annahmen… - ist ein Proband fähig, löst er wahrscheinlich schwere Items. - ist ein Proband weniger fähig, löst er schwere Items wahrscheinlich nicht. (d.h. es kann immer mal vorkommen, dass ein fähiger Proband ein schweres Item nicht löst und umgekehrt) 62 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Zur Guttmann-Skala: • Items sind von links nach rechts nach ihrer Schwierigkeit abgetragen. • Eine Person mit einem bestimmten Fähigkeitsparameter kann, wenn er Item 2 lösen kann auch Item 1 links davon lösen. • Items sind dichotom: es gibt nur gelöst (1) und ungelöst (0) • Für jedes Item wird ein bestimmter Fähigkeitswert angenommen, ab dem es gelöst wird. Auswertung der Skala: • Reproduzierbarkeitskoeffizienten: • anhand dessen wird festgestellt, ob Modellkonformität/Itemhomogenität gegeben ist. • maßgeblich: Anzahl der Rangplatzvertauschungen, wenn schwierigere Items gelöst, leichtere nicht gelöst werden (dies ist nämlich nicht modell-konform!). • Also Überprüfung, ob die Probanden sich Modellkonform verhalten. • Der Skalenwert/Testwert eines Probanden ist die Rangzahl des Items, auf das noch positiv reagiert wird. Kritik: • Es können nur Ranginformationen abgelesen werden (ordinale Information) • keine Aussagen zu Distanzen (da nur Rangskalenniveau) (Fähigkeit = Ksi — Schwierigkeit = Sigma) 63 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Probabilistische Modelle: • Gehen von stochastischer Beziehung zwischen dem Antwortverhalten und dem Item- und • • • • • • • Personenparameter aus. Verwendung monoton steigender IC-Funktionen (logistische Funktion). Ordnet jeder Ausprägung der latenten Variable eine Wahrscheinlichkeit zu, mit der ein Proband ein bestimmtes Item löst. eine Funktion bezieht sich immer auf ein einzelnes Item. Lösungswahrscheinlichkeit steigt mit Fähigkeit des Probanden. je weiter rechts die Funktion liegt, desto schwieriger ist ein Item. am Wendepunkt ist immer eine Lösungswahrscheinlichkeit von 0,5 —> hier ist der Personenparameter gleich der Itemschwierigkeit. Günstiger sind IC-Funktionen bei dichotomen Items In Rasch-Modellen wird der Zusammenhang von Fähigkeit des Probanden, Schwierigkeit des Items & der Lösungswahrscheinlichkeit durch die logistische Funktion beschrieben. ICC im Rasch Modell („Itemcharakteristische Kurve“) (p = probability; exp = Item von Testperson v in Item; Ist ein Item schwerer als die Fähigkeit eines Probanden oder umgekehrt? — Differenz) bei 0 wäre die Itemschwierigkeit identisch mit der Fähigkeit. Rechts wäre der Proband fähiger als das Item schwer ist. (Diese Kurve gilt nur für 1 Item!) 64 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 1.) Einparameter-Logistisches Modell: Rasch Modell (1PL-Modell) • Einfachster Fall: Annahme, dass für alle Items die gleiche logistische IC-Funktion gilt. • Definition Itemcharakteristische Funktion (IC-Funktion) „Sie legt in Form einer mathematischen Gleichung fest, welche Annahmen über den Zusammenhang zwischen manifesten und latenten Variablen getroffen werden. Sie stellt dabei die Grundlage für die Schätzung der Personen- und Itemparameter dar.“ Bei den 1PL-Modellen werden lediglich Unterschiede in Schwierigkeit berücksichtig. (1 Parameter) (Dies wäre die Kurve von 3 Items, welche sich nur in der Schwierigkeit unterscheiden — -5 bis 5) • Es gibt 2 Wahrscheinlichkeiten: Item gelöst & Gegenwahrscheinlichkeit Item nicht gelöst —> 2 Verläufe der Funktion. • Gleichung ist wesentlich durch die Differenz von Merkmalsausprägung einer Person (Personenparameter) minus Itemschwierigkeit bestimmt, da der Itemschwierigkeitsparameter darüber entscheidet, welche Anforderungen das Item an den Personenparameter stellt. - beide Parameter gleich: Lösungswahrscheinlichkeit = 0,5 (Wendepunkt der Funktion) —> Item ist haarscharf daran, was jemand kann. - Personenparameter > Itemschwierigkeit: Items von Fähigkeit einer Person übertroffen —> Lösungswahrscheinlichkeit steigt. - Personenparameter < Itemschwierigkeit: Itemschwierigkeit übersteigt Fähigkeit des Probanden —> Lösungswahrscheinlichkeit sinkt. Rasch-homogene Items: - Unterscheiden sich nur in ihren Schwierigkeitsparametern, ansonsten sehen sie gleich aus. —> Unterscheiden sich also nur in der Lage (leichtere Items weiter links, schwierigere rechts) Die IC-Funktionen können als einzelne Funktionen auf einer gemeinsamen Skala abgebildet werden —> „Joint Scale“ Parameterschätzung: (Schätzung der Modellparameter) • Ausdruck, der die Wahrscheinlichkeit aller beobachteten Daten angibt: „Likelihoodfunktion L“ „Produkt der Wahrscheinlichkeiten der empirischen Werte und der gewählten Parameter“ (Probabilistisches Schätzverfahren = Likelihood) 65 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart • für alle Reaktionen wird je eine Wahrscheinlichkeit berechnet, die dann mit anderen Wahrscheinlichkeiten pro Reaktion zu einem Wert multipliziert wird. • Ergebnis: Wahrscheinlichkeit für eine Datenmatrix, in der für n Personen und m Items alle Reaktionen abgetragen sind. • mit passenden Parametern steigt die Wahrscheinlichkeit, mit unpassenden sinkt sie. • bester Schätzer für die Parameter ist die für die Funktion einen Maximalwert ergeben. • Summennormierung: - Werte des Itemparameter in einem Intervall -3 bis +3 gewählt, sodass deren Summe 0 ergibt: - leichte Items: negative Werte des Itemparameters - schwere Items: positive - geringe Merkmalsausprägung: negative Werte für den Personenparameter - hohe Merkmalsausprägung: positive Werte • unbedingte ML-Methode: („maximum-Likelihood-Schätzung) - wird Item 1 häufiger ausgelöst als Item 2, ist Item 2 schwieriger als Item 1 - Item 1 bekommt niedrigen Schwierigkeitsparameter (-1) & Item 2 hohen (+1) - Löst Person 1 beide Items, bekommt sie eine hohe Merkmalsausprägung (2), löst - Person 2 nur ein Item, bekommt sie eine mittlere Ausprägung (0), löst Person 3 kein Item, bekommt sie eine niedrige Ausprägung (-2). Die Parameter müssen sich immer zu 0 addieren. • Likelihood erreicht Maximum, wenn die geschätzten Item- und Personenparameter optimal sind. • Likelihood: „Ermittlung aus den Zellen- und Spaltensummen der Datenmatrix —> erschöpfende Statistik. • Bedingte ML-Methode: („Conditional Maximum Likelihood“) - Itemparameter lassen sich ohne Berücksichtigung der Personenparameter schätzen. - Separierbarkeit der Parameter. - Rechentechnisch aufwendig. - Itemparameter werden iterativ bestimmt, so dass sie optimal zu den empirisch beobachteten Daten passen. (Lösungswahrschein. > 0,5 wäre 1; < 0,5 wäre 0) 66 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart (Schätzung der Itemparameter: Erfolgt mittels Maximum-Likelihood-Methode. Ist die Schätzung erfolgreich, so sind die Modellannahmen in dem Validierungsdatensatz gegeben.) Modellkonformität: • Likelihoodschätzung sagt nichts darüber aus, ob die getroffenen Modellannahmen auch zutreffen. • Es muss also empirisch geprüft werden, ob die empirischen Daten den Modellannahmen entsprechen. „Wie gut passen Parameter zum Modell; wie konform sind die Daten zum Modell?“ • Es könnte sein, dass die optimal geschätzten Parameter nur zu verhältnismäßig geringen Wahrscheinlichkeiten für die Daten führen. • Voraussetzung der Stichprobenunabhängigkeit durch die Aufteilung der Gesamtstichprobe in 2 Substichproben anhand eines relevanten Kriteriums. - So können getrennte Itemparameter geschätzt werden, die bei ausreichender Modellkonformität nur zufällig variieren dürfen. - Grafischer Modelltest: in einem Streudiagramm sollten die Itemparameter nahe der Hauptdiagonalen liegen. - Nullhypothese: „Modellkonformität gegeben“ - Prüfung mit dem Likelihood-Quotienten-Test nach Anderson: nimmer für jede Stichprobe eine eigene CML-Schätzung vor und testet die Nullhypothese der Gleichheit der Schätzungen —> sollte nicht signifikant werden. • Liegen Itemparameter (kalibrierte Items) vor, und ist Modellkonformität bestätigt, muss nicht für jede Person der eigene Personenparameter geschätzt werden. - Alle Personen mit gleichen Zeilensummenscore haben den gleichen Parameter. - Wenn kein Item gelöst: Zeilensummenscore = 0 - Alle Items gelöst: Zeilensummenscore = m (Anzahl der Items) - Nicht genau bestimmbar, wie der Personenparameter gegen - ∞ und + ∞ strebt. - Durch Normierung können aber plausible Parameter zugewiesen werden. • • • • Ob sich Personen modellkonform verhalten kann mit Person-fit-indices festgestellt werden. Es wird anhand des Antwortmusters eingeschätzt, ob die Testergebnisse plausibel sind. Lösen die Probanden die Items so, wie sie es nach ihrer Schwierigkeit sollten. Fällt der Person-fit-Index ungünstig aus, muss entschieden werden ob noch eine sinnvolle Interpretation möglich ist. • Modellkonform kann auch sein, dass Personen einen abweichenden Arbeitsstil zur Mehrheit besitzen. • Ist Modellkonformität gegeben resultiert „spezifische Objektivität der Vergleiche“ Spezifische Objektivität: • Wenn IC-Funktionen aller Items die gleiche Form aufweisen und entlang der x-Achse parallel verschoben sind. • Ermöglicht Schwierigkeitsunterschied zweier Items unabhängig von Merkmalsausprägung einer Person festzustellen. • Ebenso: Unterschiede zwischen Personenparameter können unabhängig von der Itemschwierigkeit festgestellt werden. 67 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart (8 Items, 2 Personen — Grün = Item gelöst; Rot = nicht gelöst — Person 1 ist im gesamten Test fähiger. Teilt man die Tests jedoch auf, ist es anders.) Welche Antwortsequenzen korrespondieren? Welche können dargestellt werden? P5 und P6 darf nicht vorkommen, da es inkonformes Antwortverhalten ist. Man kann nicht sagen „ich bin nicht schwerer als 60kg“ und dann „ich bin schwerer als 100kg“ (Spez. Obj. in der Guttman-Skala: Person 4 ist am fähigsten. Schneiden wir Item 4 raus, bleibt es so. Schneiden wir 3 und 4 raus, verändert sich schon die Rangreihe (Person 3 und 4 teilen sich den Platz). Schneiden wir 3 Items raus, ändert sich wieder etwas. Die Rangreihe bleibt gleich, egal welche Items ich rausnehme) 68 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart (Spezifische Objektivität: Rangreihe der Probanden verschiebt sich nicht, wenn unterschiedliche Itemstichproben vorgegeben werden) (Stichprobenunabhängigkeit: Schätzung der Kennwerte ist weitestgehend unabhängig von der Validierungsstichprobe) Testbeispiel: TIPI (Trierer Integriertes Persönlichkeitsinventar) (Dieser Test entspricht der probabilistischen Testtheorie, dem Rasch-Modell) Iteminformation: • Definition: „Beschreibt den Beitrag eines Items zur Messung des entsprechenden Merkmals. Je höher der Informationswert, desto mehr trägt das Item zur Messung eines Merkmals bei. Der Informationswert ist somit das Pendant zum Standardmessfehler eines Tests aus der klassischen Testtheorie, der allerdings nicht als konstantes Merkmal des Tests, sondern als Funktion der Personenkennwerte beschrieben wird.“ • zeigt an, wie viel Information ein Item in einem bestimmten Fähigkeitsbereich über die Unterschiedlichkeit der Probanden liefert. (Differenz zwischen Probanden- und Itemschwierigkeit — Maximale Information liefert das Item auf dem Niveau seiner Schwierigkeit) • Je größer die Steigung der IC-Funktion, desto höher der Informationsgewinn durch Anwendung des Items i bei einer bestimmten Person. • Jedes Item liefert unterschiedliche Informationen über die Merkmalsausprägungen verschiedener Personen. (erste Ableitung aus der logistischen Funktion) 69 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart - In den Randbereichen wäre die Lösungswahrscheinlichkeit 0 bzw. 1. In diesen Bereichen werden Items gelöst oder nicht, d.h. man bekommt dadurch kaum Information. Das Maximum ist immer dort, wo die Lösungswahrscheinlichkeit genau 0,5 (50%) ist. - Rot = Iteminformationsfunktion — Da, wo sie hohe Werte hat, liefert sie viele Informationen. (das Item liefert viele Informationen) • Der Verlauf des Informationsgewinns wird in der „Iteminformationsfunktion“ I ausgedrückt. - varriiert mit dem Grad der Übereinstimmung zwischen Itemschwierigkeit und der Fähigkeit. - Erreicht ihr Maximum, wenn Itemschwierigkeit = Fähigkeit - Bei zunehmender Differenz fällt sie zu beiden Seiten ab und strebt gegen 0 —> Item-schwierigkeit weicht zunehmend von den Fähigkeiten ab. - Entspricht dem Produkt aus bedingter Lösungswahrscheinlichkeit und Nichtlösungswahrscheinlichkeit des Items bei gegebener Fähigkeit. - Durch Addition der einzelnen Iteminformationsbeiträge kann für einen bestimmten Probanden die Testinformation additiv bestimmt werden. - Bei Anstieg der Testinformation steigt die Testgenauigkeit für den Probanden. Fähigkeit, Schwierigkeit, Information Iteminformation als Zahl getroffener Unterscheidungen: Wenn man eine Person von der anderen unterschieden hat, gibt es einen „Gewinner“ und einen „Verlierer“ („sie schütteln sich praktisch die Hand“) „100 Probanden bearbeiten ein Item. Wie viele Unterscheidungen zwischen Probanden können getroffen werden?“ 70 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 2.) Zweiparameter-Logistisches Modell: Birnbaum-Modell • zusätzlich: Itemdiskriminationsparameter • Gibt an, wie stark sich die Lösungswahrscheinlichkeiten in Abhängigkeit von der • • • • Merkmalsausprägung ändern. Maß für die Sensitivität der Items für Merkmalsunterschiede Je kleiner der Parameter, desto geringer die Diskriminationsfähigkeit des Items. Ein solches Item ist aber sensitiv im oberen oder unteren Bereich. Entspricht etwa der Trennschärfe in der KTT Bei den 2PL-Modellen werden zusätzlich Unterschiede in der Steigung der ICC berücksichtigt. (Die Steigung sagt uns, wie gut man zwischen fähigen und weniger fähigen Probanden unterscheiden kann.) 71 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart 3.) Dreiparameter-Logistisches Modell: Rate-Modell • Dritter Itemparameter: Rateparameter Bei den 3PL-Modellen wird zusätzlich die Ratewahrscheinlichkeit der einzelnen Items berücksichtigt. (y Achsenabschnitt = Ratewahrscheinlichkeit) Modellvergleich: • Das Rasch-Modell ist hinsichtlich seiner Gültigkeit mit Modelltests überprüfbar. • Gültigkeit meint: erschöpfende Statistiken, spezifische Objektivität, Stichprobenunabhängigkeit, Intervallskalierung • 2PL und 3PL Modell nicht! —> obwohl umfassendere Modellierung des Probandenverhaltens • Es gibt hier nur Goodness-of-Fit-Maße —> keine Rückschlüsse auf das Zutreffen der Modellimplikationen möglich • 1PL Modell hat also vorteilhaftere Modelleigenschaften —> deshalb häufige Anwendung Intervallskalenqualität: Profile eines Probanden. Einmal als Personenparameter (PTT - oben) ausgewertet und einmal nach der KTT (unten) ausgewertet. 72 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart • Es geht immer in die gleiche Richtung, sowohl negativ als auch positiv. • Überdurchschnittliche Fähigkeit = überdurchschnittliche Werte • Bei der PTT herrscht intervallskalenniveau (d.h. die Ausschläge sind stärker/akzentuierter/ präziser. Hoher Personenparameter bei lösen von sehr schweren Items) • Bei der KTT herrscht rangskalenniveau (d.h. Abstände können nicht interpretiert werden, Rangreihe informiert nicht über Details) (Intervallskalenqualität: Abstände zwischen den Messwerten einzelner Probanden können sinnvoller Interpretiert werden.) Schlussfolgerung bei Modellgeltung: Können die Modellparameter hinreichend genau geschätzt werden, so gelten die Modellannahmen, die der Schätzung zugrunde liegen, als erfüllt. (Modellparameter = Itemschwierigkeit, Probandenfähigkeit, Steigung, Ratewahrscheinlichkeit — umso mehr Parameter, desto mehr Freiheitsgrade habe ich —> 3PL = 3 df) Es gelten damit: - Rasch-Homogenität: Die ICC’s verlaufen entsprechend dem Schätzmodell (z.B. 1PL-,2PLoder 3PL-Modell) - Lokale stochastische Unabhängigkeit: Alle Items erfassen die gleiche eindimensionale latente Variable (im Prinzip die Reliabilitätsprüfung der PTT) - Spezifische Objektivität & Stichprobenunabhängigkeit: Die Parameterschätzung ist unabhängig von der Itemstichprobe und der Personenstichprobe (egal welche Person oder welche Items ich nehme, ich komme immer auf dieselben Schwierigkeiten) - Intervallskalenqualität: Unterschiede zwischen Probanden können als Abstände interpretiert werden und nicht nur als Rangreihe (Man darf also auch sagen „doppelt so groß wie…“ etc. — das gilt bei der KTT nicht.) f.) Vergleich PTT und KTT: • KTT stellt keinen expliziten Bezug zwischen der Leistung einer Person und der Schwierigkeit eines Items her. • Bei der PTT werden Fähigkeitsschätzungen & Itemschwierigkeiten auf einer „joint scale“ • • • • abgebildet. Eindeutig ist die relative Lokalisation der Personenfähigkeit zu der Itemschwierigkeit nur dann, wenn die IC-Funktionen aller Items parallel verlaufen. KTT liefert als Messfehlertheorie Konzepte zur Reliabilitätsschätzung PTT expliziert Beziehungen zwischen Antworten von Probanden und dahinterstehenden latenten Merkmalen. Beide Ansätze ergänzen sich daher. Unterschiede KTT und PTT: - Bei der KTT wird bei der Testwertbildung die Antwort auf die Items des Tests mit der Messung des im Test erfassten Konstruktes gleichgesetzt. - Bei der IRT hingegen wird das im Test gezeigte Verhalten (also die Antwort) auf eine Fähigkeit oder Eigenschaft zurückgeführt, die das Testverhalten „verursacht“. - Somit ist das beobachtete Verhalten (manifeste Variable) bei der PTT lediglich ein Indikator für das dahinterliegende Konstrukt, dessen Messung nur indirekt erfolgen kann & die Ausprägung der latenten Variable nur erschlossen werden kann. 73 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart g.) Adaptives Testen: • Tests, die den Modellansprüchen der IRT (PTT) genügen, haben in der psychodiagnostischen Praxis mit einem ökonomischen Vorteil die Möglichkeit, eingesetzt zu werden. • Aufgrund der spezifischen Objektivität ist es nicht notwendig, dass alle Probanden alle Items bearbeiten. (unabhängig von den Items die ich rausnehme, soll das selbe Ergebnis rauskommen) • Vielmehr können den Probanden Teile der Skala vorgegeben werden, die maximal informativ für die Abschätzung der Ausprägung der latenten Variable sind. • Diese Vorgehensweise wird als „adaptives Testen“ bezeichnet. Soziale & sachliche Folgerichtigkeit (Subtest) • 5 Karten mit Szenen, die man in die richtige Reihenfolge bringen soll. 74 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Realitätssicherheit (Subtest) • Ein Bild wird vorgegeben, es fehlt immer eine Komponente. (Hier z.B. die Zügel und die „0“) Soziales Erfassen und sachliches Reflektieren (Subtest) Adaptives Testen im AID-2 (Itemvorgabe - entsprechend der Fähigkeit des Probanden) (Alter des Kindes) (Nach Links einfacher, nach Rechts schwieriger — Übereinander = Gleichschwer) 75 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Bsp.: 10 Jahre 5 Monate. • Man startet bei Block 5 • hat das Kind keine Aufgabe oder nur 1 richtig gelöst, dann geht man zu leichteren Aufgaben (Testblock 4) etc. über. • das macht man 3 mal und dann ist der Test beendet. (Pfeile geben an wie viele man mindestens richtig haben sollte um weiterzukommen) • Querpfeile —> man sollte nicht mehr zu bereits bearbeiteten Blöcken zurückgehen, da diese Items bereits gelöst wurden (oder nicht) - demnach also bekannt sind. Habe ich also bei 5 nicht genug, gehe ich zu 4… löse ich dort viele, darf ich nicht wieder zurück zu 5 gehen. (Adaptives Testen: Gilt spezifische Objektivität, so können den Probanden lediglich die Items vorgegeben werden, die für die Erfassung der latenten Variable maximal informativ sind) —————————————————————————————————————————— Allgemeines: • Das Adaptive Testen bietet sich besonders bei Testverfahren an, die auf der Grundlage der Probabilistischen Testtheorie konstruiert werden. • Die Auswahl aus einem Itempool bzw. die Vorgabe einzelner Items orientiert sich am spezifischen Antwortverhalten einzelner Probanden. • Erfolgt meist durch Anpassung der Itemauswahl hinsichtlich ihrer Schwierigkeit an die Fähigkeit des Probanden. • Die angepasste Vorgabe von Items soll dabei mehr diagnostischen Nutzen bringen (möglichst exakte Informationen zur individuellen Merkmalsausprägung) und gleichzeitig testökonomisch sein. Steuerung des psychometrisch orientieren Vorgehens: • Adaptiver Algorithmus. Dieser regelt die Itemauswahl zu Beginn & während der Testung sowie Kriterien zur Testbeendigung. • D.h. Probanden mit unterschiedlicher Merkmalsausprägung bekommen unterschiedliche Items vorgelegt. • PTT Modelle erlauben es, vergleichbare Personenparameter zu bestimmten, wenn lokale stochastische Unabhängigkeit für die Items besteht. Eine Sonderform stellt dabei das „selbstadaptierte Testen“ dar: - hier entscheidet nicht ein von außen regelnder Algorithmus, sondern die Probanden selber über die Schwierigkeit des nachfolgenden Items. Strategien zur Vorgabe des ersten Items: • Vor dem Testen sind i.d.R. noch keine Informationen über die Fähigkeit eines Probanden vorhanden. • Daher wird häufig ein Item mittlerer Schwierigkeit (p=0,5) verwendet, oder ein leichteres Item (p=0,8). • Sind Informationen vorhanden, können diese zu einer vorläufigen Schätzung der Merkmalsausprägung herangezogen werden, um ein passendes Item mit der gewünschten Schwierigkeit aus dem Itempool auszuwählen. 76 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Strategien zur Vorgabe nachfolgender Items: • Durch einfache Regel gelöst: Löst der Proband das erste Item, wird als Nächstes ein schwierigeres vorgelegt. Löst er das erste Item nicht, wird ein leichteres vorgelegt. • Bei dieser Strategie entscheidet jede Antwort des Probanden über die Auswahl des nachfolgenden Items. 1. Branched Testing: (siehe Beispiel AID2) • Ausgehend vom Erfolg der Bearbeitung einer Aufgabe wird anhand fester Verzweigungsregeln entschieden, welches Item als Nächstes vorgelegt wird. • Die individuelle Merkmalsausprägung am Ende des Tests wird dann entweder anhand der Schwierigkeit des Items ermittelt, das als Nächstes vorgelegt worden wäre, oder aus der mittleren Schwierigkeit aller vorgelegten Items. (exklusive des ersten Items) zuzüglich des Items, das als Nächstes vorgelegt worden wäre. 2. Tailored Testung: (z.B. FAKT - „Frankfurter Adaptive Konzentrations-Leistungstests) • Hier wird das Fähigkeitsniveau (Personenparameter) mit jeder gelösten Aufgabe neu geschätzt. • Dabei wird das Item anhand seiner optimalen Eigenschaften unter der Bedingung von Ksi gewählt. • Beendet wird die Testung, wenn ein definiertes Ziel- oder Abbruchkriterium erreicht ist. • Diese Form kann aufgrund des Rechenaufwands allerdings nur bei computerbasierten Verfahren eingesetzt werden. - Tailored Testing wird inzwischen vorrangig benutzt. - Die Auswahl der Items, werden entweder an der maximalen Iteminformationsfunktion I orientiert oder durch Minimierung des Standardfehlers in Abhängigkeit der gegebenen Antworten geschätzt. - Die Wahl nach der Iteminformationsfunktion garantiert, dass die Itemschwierigkeit die bestmögliche Übereinstimmung mit dem geschätzten Personenparameter aufweist — jedoch nur beim Rasch-Modell gewährleistet. - Beide Vorgehensweisen können dazu führen, dass bestimmte Items sehr häufig oder selten zur Bearbeitung ausgewählt werden. Daher muss durch Hinzufügen einer stochastischen Komponente das Item aus mehreren Alternativen ausgewählt werden, bei denen die maximale Iteminformation gleichermaßen gegeben ist. - Dies setzt einen hinreichend großen Itempool voraus. Zur Schätzung des Personenparameters werden beim Tailored Testing entweder MaximumLikelihood-Schätzer oder Bayes-statistische Schätzer eingesetzt. Strategien zur Beendigung eines adaptiven Tests: • Orientiert sich an der Erreichung eines Ziel- bzw. Erfüllung eines Abbruchkriteriums. • Zielkriterien: z.B. bestimmte Anzahl von präsentierten Items oder die minimierte Schwankung des Standardfehlers bei der Personenparameterschätzung. • Abbruchkriterien: z.B. Erreichung einer maximalen Testzeit oder das Ausschöpfen aller verfügbaren Items. • Diese Entscheidung hängt i.d.R. von der Testart (Einzel- oder Gruppentests) & den Eigenschaften des Itempools ab. 77 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Vorteile adaptiven Testens: - Erhöhte Durchführungs- und Auswertungsobjektivität durch einen standardisierten Testablauf. Fehlerfreie Testwertbestimmung. höhere Individualisierbarkeit der Testgeschwindigkeit. Verwendung interaktiver Items. Besonders da gut, wo eine hohe Messeffizienz angestrebt wird. positive Auswirkungen auf die konvergente und diskriminante Validität. Nachteile adaptiven Testens: - eingeschränkte Testfairness bei computerbezogenen Personenmerkmalen. - höhere Kosten in der Testentwicklung, da häufig großer Itempool benötigt wird. 78 Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart Quellen: • Pospeschill, M. (2010). Testtheorie, Testkonstruktion, Testevaluation: mit 77 Fragen zur Wiederholung. Reinhardt. • Sämtliche Materialien von Dr. Nicolas Becker aus dem Sommersemester des Studiengangs „Psychologie“ an der Universität des Saarlandes 2015 (Testtheorie und Testkonstruktion) 79