qwertyuiopasdfghjklzxcvbnmqwerty uiopasdfghjklzxcvbnmqwertyuiopasd fghjklzxcvbnmqwertyuiopasdfghjklzx cvbnmqwertyuiopasdfghjklzxcvbnmq
by user
Comments
Transcript
qwertyuiopasdfghjklzxcvbnmqwerty uiopasdfghjklzxcvbnmqwertyuiopasd fghjklzxcvbnmqwertyuiopasdfghjklzx cvbnmqwertyuiopasdfghjklzxcvbnmq
qwertyuiopasdfghjklzxcvbnmqwerty uiopasdfghjklzxcvbnmqwertyuiopasd fghjklzxcvbnmqwertyuiopasdfghjklzx cvbnmqwertyuiopasdfghjklzxcvbnmq wertyuiopasdfghjklzxcvbnmqwertyui DIAGNOSTIK opasdfghjklzxcvbnmqwertyuiopasdfg hjklzxcvbnmqwertyuiopasdfghjklzxc vbnmqwertyuiopasdfghjklzxcvbnmq wertyuiopasdfghjklzxcvbnmqwertyui opasdfghjklzxcvbnmqwertyuiopasdfg hjklzxcvbnmqwertyuiopasdfghjklzxc vbnmqwertyuiopasdfghjklzxcvbnmq wertyuiopasdfghjklzxcvbnmqwertyui opasdfghjklzxcvbnmqwertyuiopasdfg hjklzxcvbnmrtyuiopasdfghjklzxcvbn mqwertyuiopasdfghjklzxcvbnmqwert yuiopasdfghjklzxcvbnmqwertyuiopas dfghjklzxcvbnmqwertyuiopasdfghjklz xcvbnmqwertyuiopasdfghjklzxcvbnm INHALT Einführung .........................................................................................................................................................................6 Definitionen .....................................................................................................................................................................6 Arten von Diagnostik ...................................................................................................................................................7 Diagnostisches Dreieck ...............................................................................................................................................8 Bsp. Diagnostik bei Minderbegabung ..............................................................................................................9 Gütekriterien..................................................................................................................................................................... 10 Hauptgütekriterien .................................................................................................................................................... 10 Objektivität............................................................................................................................................................... 10 Reliabilität ................................................................................................................................................................ 11 Validität ..................................................................................................................................................................... 15 Konstruktvalidität ................................................................................................................................................. 18 Ursachen für mangelnde Validität .............................................................................................................. 20 Zusammenhänge zwischen den Hauptgütekriterien.............................................................................. 20 Nebengütekriterien ................................................................................................................................................... 20 Normierung.............................................................................................................................................................. 21 Testtheorie......................................................................................................................................................................... 24 Was ist ein Test? ......................................................................................................................................................... 24 Was ist eine Testtheorie? ........................................................................................................................................ 24 Die klassische Testtheorie ...................................................................................................................................... 26 Axiome der klassischen Testtheorie.............................................................................................................. 26 Formelherleitung................................................................................................................................................... 29 Minderungskorrektur .......................................................................................................................................... 44 Zusammenhang von Reliabilität und Testlänge ....................................................................................... 47 Zusammenfassung der klassischen Testtheorie ....................................................................................... 53 Kritik an der klassischen Testtheorie ........................................................................................................... 54 Pro KTT ...................................................................................................................................................................... 55 Item Response Theorie (IRT) ..................................................................................................................................... 56 Modellannahmen der IRT ....................................................................................................................................... 56 Deterministische vs. probabilistische Modelle ......................................................................................... 56 Vorteile probabilistischer Verfahren ............................................................................................................ 64 Zusammenfassung der Item-Response-Theorie.......................... Error! Bookmark not defined. Konstruktionsprinzipien psychologischer Tests ............................................................................................... 65 Arten psychologischer Tests ................................................................................................................................. 65 Aufgabentypen in psychologischen Tests ........................................................................................................ 69 Fehlerquellen bei der Itembeantwortung ................................................................................................... 74 Konstruktionsprinzipien psychometrischer Tests....................................................................................... 75 Rational-deduktive Konstruktion ................................................................................................................... 75 External-kriteriumsbezogene Konstruktion .............................................................................................. 76 Induktive Konstruktion ...................................................................................................................................... 78 Prototypenansatz .................................................................................................................................................. 79 Weitere ansätze...................................................................................................................................................... 79 Vergleichende Würdigung ................................................................................................................................. 80 Grundzüge von Itemanalysen........................................................................................................................... 80 Multitrait-multi-method analysen ........................................................................................................................... 87 Das Design der MTMM Analyse ............................................................................................................................ 88 Ein empirisches Beispiel der MTMM Analyse ........................................................................................... 92 Probleme und grenzen der Mtmm analyse nach Campbell und Fiske (1959).................................. 94 Die konfirmatorische MTMM analyse................................................................................................................ 95 Umsetzung des konfirmatorischen Faktorenmodells ............................................................................ 95 Empirisches Beispiel ............................................................................................................................................ 96 Regressionsmodelle .................................................................................................................................................... 102 Die einfache lineare Regression ........................................................................................................................ 102 Multiple Regression................................................................................................................................................ 104 Probleme und Differenzierung von Prognosen ............................................................................................... 108 Probleme von Prognosen: Verhaltensvariabilität ..................................................................................... 108 Probleme von Prognosen: Testfairness ......................................................................................................... 110 Prominente Fairnessmodelle ........................................................................................................................ 110 Probleme von Prognosen: Moderation .......................................................................................................... 116 Verfahren zur Überprüfung von Moderatoreffekten........................................................................... 117 Probleme von prognosen: spezifische und geteilte varianz .................................................................. 120 Exkurs: Partialkorrelation/Semi-partialkorrelation ........................................................................... 121 Kommunalitätenanalyse.................................................................................................................................. 122 Suppressorvariablen ......................................................................................................................................... 123 Mediatorvariablen.............................................................................................................................................. 126 Validitätsgeneralisierung.......................................................................................................................................... 129 Sinnhaftigkeit der Zusammenfassung vonForschungsbefunden ........................................................ 129 Grundidee der Validitätsgeneralisierung ...................................................................................................... 129 Vorgehen bei der Validitätsgeneralisierug (Überblick) .......................................................................... 130 Vorgehen im Einzelnen: Korrektur von Artefakten ............................................................................. 130 Homogenitätsprüfung ...................................................................................................................................... 132 Suche nach Moderatoren................................................................................................................................. 133 Signifikanzprüfung............................................................................................................................................. 134 Kritik/Probleme bei der Validitätsgeneralisierung .................................................................................. 134 Empirisches Beispiel einer Validitätsgeneraliseriung ............................................................................. 135 Metaanalyse.................................................................................................................................................................... 135 Exkurs: Effektgröße ............................................................................................................................................... 136 Vorgehen bei der metaanalyse .......................................................................................................................... 137 Vereinheitlichung von Kennwerten............................................................................................................ 137 Homogenitätstests für verschiedene deltamaße .................................................................................. 138 Suche nach Moderatoren................................................................................................................................. 139 Signifikanztest mittels Konfidenzintervall............................................................................................... 139 Beispiel: Schmidt & Hunter (1998)............................................................................................................ 139 INHALTE DES SOMMERSEMESTER 2007 (Julia) ............................................................................................ 154 SS 1 ................................................................................................................................................................................ 154 SS 2 ................................................................................................................................................................................ 154 SS 3 ................................................................................................................................................................................ 155 SS 4 ...................................................................................................................... Error! Bookmark not defined. SS 5 ................................................................................................................................................................................ 155 SS 6 ................................................................................................................................................................................ 158 SS 7 ................................................................................................................................................................................ 158 SS 8 ................................................................................................................................................................................ 159 SS 9 ................................................................................................................................................................................ 160 DIAGNOSTIK EINFÜHRUNG DEFINITIONEN Diagnose / Diagnostik o = kognitive Funktion die folgendes beinhaltet: gründlich kennen lernen entscheiden beschließen Psychodiagnostik o = Methode der angewandten Psychologie o dient der Erfassung (jetzt) interindividueller Unterschiede im Verhalten und Erleben unter standardisierten Bedingungen intraindividueller Merkmale und Veränderungen o und der präzisen Vorhersage (Zukunft) des künftigen Verhaltens und Erlebens möglicher Veränderungen in definierten Situationen o beurteilt werden: Einzelpersonen, Gruppen, Institutionen, Situationen und Gegenstände (Bsp. Evaluation von Lehrveranstaltungen) o oberstes Ziel der psychologischen Diagnostik: Optimierung der Entscheidungsfindung und NICHT möglichst genaue Vorhersage (Validität) ABER Güte der Entscheidung ist u.a. abhängig von der Güte der Vorhersage 1 Design, Auswahl und Interpretation eines Tests ist abhängig von der Entscheidungssituation (Bsp. Diagnostik bei Minderbegabung) 1 d.h. ein Test der in einer Situation sinnvoll ist, kann in einer anderen völlig unbrauchbar sein ARTEN VON DIAGNOSTIK klinische Psychologie: Erscheinungsform, Ursache und Auslöser von Verhaltensproblemen müssen erfasst werden, bevor ein Behandlungsplan erstellt werden kann; Am Ende muss diagnostisch der Erfolg einer Intervention überprüft werden; Modifikation kann also das Verhalten selbst betreffen (z.B. Zwänge aufgeben) oder die externen Bedingungen (z.B. Mobbing Umplatzierung am Arbeitsplatz) Modifikationsdiagnostik als Prozessdiagnostik (wiederholte Untersuchungen erfassen Verhaltensveränderungen) ABO und Pädagogische Psychologie: Personenselektion bedeutet, dass eine geeignete Person aus vielen Konkurrenten für bestimmte Anforderungen ermittelt wird (z.B. Arbeitsplatz: viele Bewerber im Assessment Center); Bedingungsselektion bedeutet die Auswahl von geeigneten Bedingungen unter denen eine Person mit bestimmten Eignungsmerkmalen erfolgreich sein kann (z.B. Studienberatung: eher HTW mit praktischer Orientierung oder Uni mit theoretischer Orientierung) Selektionsdiagnostik als normorientierte Statusdiagnostik (wie ist der Ist-Zustand gemessen an einer Norm) DIAGNOSTISCHES DREIECK psychologische Diagnostik: basiert auf der Grundlagenforschung (bspw. zur Intelligenz), wird durch eine bestimmte Methode umgesetzt und findet in den verschiedenen Bereichen der Psychologie Anwendung BSP. DIAGNOSTIK BEI MINDERBEGABUNG GÜTEKRITERIEN Bündelung von Items bilden Tests bzw. Skalen 2 Gütekriterien geben an wie gut sich ein Test / eine Skala für eine bestimmte Fragestellung eignet o bis dato kein einheitlicher Katalog einschlägiger Kriterien definiert allgemein unterscheidet man zwischen Haupt- und Nebengütekriterien o 3 Hauptgütekriterien: Objektivität, Reliabilität und Validität o Vielzahl Nebengütekriterien (Bsp. Normierung, Ökonomie) HAUPTGÜTEKRITERIEN OBJEKTIVITÄT Allgemein: der Grad, in dem die Ergebnisse eines Tests unabhängig von der Person des Testleiters sind Man unterscheidet: o Durchführungsobjektivität: Standardisierung der Testsituation d.h. keine Variation im Verhalten der Testleiters (abgefasste Instruktion, gleiche Zeitvorgabe, gleiche Testunterlagen, Abfassung von Regeln für mögliche Nachfragen) Bsp.: Testleiter darf nicht einmal die Instruktion „arbeite so schnell wie möglich“ und ein anderes mal „arbeite so schnell, aber auch so genau wie möglich“ geben nicht objektiv in der Durchführung Problem: quantitative Bestimmung (eine Vp den gleichen Test von verschiedenen Testleitern machen zu lassen ist nicht ökonomisch und zumutbar) o Auswertungsobjektivität: Skalen: die gebündelten Items sagen mehr aus als die einzelnen Items; Addition der Itemantworten (einer Skala) reduziert den Fehler und erhöht den wahren Wert 2 Verhalten wird durch Items- und Testsscores eindeutig quantifiziert, d.h. jeder Auswerter muss die gleichen Punkt- oder Leistungswerte eines Probanden ermitteln gleiches Verhalten wird in einem objektiven Test nach exakt den selben Regeln abgebildet hohe Auswertungsobjektivität: Lösungen des Tests sind mittels Lösungsschlüssel festlegt (z.B. Zahlen-Symbol-Test im Hawik klares richtig oder falsch mittels Schablone feststellbar) mittlere Auswertungsobjektivität: ungebundene Antworten (Bsp. Gemeinsamkeiten finden im HAWIK) reduzieren Auswertungsobjektivität, da manche Antworten nicht im Handbuch sind Ermessenspielraum des Testleiters Überprüfung der Auswertungsobjektivität: 2 Auswerter Auswertungsprotokoll vergleichen o Interpretationsobjektivität: Jeder Untersucher sollte zur gleichen Beurteilung bzw. Interpretation der Testergebnisse kommen Schließt große Normstichproben und ausreichend geprüfte Gütekriterien mit ein, so dass man davon ausgehen kann, dass jede Person mit dem gleichen Maßstab beurteilt wird „statistische“ Vorgehensweise: Normtabelle hohe Interpretationsobjektivität „klinisches“ Vorgehen: Ermessensspielraum des Testleiters bedingt Interpretation und Hypothesengenerierung (z.B. bei der Interpretation von projektiven Tests) geringe Interpretationsobjektivität Voraussetzung: Testverfahren (Durchführung (Testunterlagen, Testdarbietung), Testauswertung und Testinterpretation) ist ganz genau festgelegt Objektivität ist dann erfüllt, wenn das Testverfahren so genau festgelegt ist, dass der Test unabhängig von o Testleiter, o Testauswerter, o Ort und Zeit durchgeführt werden könnte und dennoch zum selben Ergebnis käme Hier entstehen viele Fehler bspw. misst der Test nicht den IQ des Probanden sondern den seines Nachbarn (da dieser abgeschrieben hat) RELIABILITÄT Reliabilität beschreibt die Genauigkeit mit der eine Merkmalsdimension erfasst wird, unabhängig davon ob es sich dabei um die Merkmalsdimension handelt, die intendiert ist (damit beschäftigt sich nämlich die Validität) o d.h. ein Test ist „perfekt“ reliabel, wenn eine Person zu 2 Testzeitpunkten (unter gleichen Bedingungen und ohne Merkmalsveränderung) exakt dasselbe Ergebnis erzielt (Reliabilitätskoeffizient wäre dann 1) bei der Reliabilitätstestung wird die Itemreliabilität für eine Skala berechnet (Items verschiedener Skalen sollen gering bzw. gar nicht korrelieren) formal ist die Reliabilität definiert als der Anteil der wahren Varianz an der Gesamtvarianz der Testwerte (restlicher Anteil ist der Messfehler) die Reliabilität ist umso größer je mehr wahre Varianz sie enthält (logisch, weil es ja ein Quotient ist) Methoden der Reliabilitätmessung sind: o Retest - Reliabilität o Paralleltest - Reliabilität o Innere Konsistenz o WICHTIG: kein Kennwert ist dem anderen vorzuziehen; umfassender Überblick entsteht durch Berücksichtigung aller Kennwerte RETEST - RELIABILITÄT Dilemma bei der Bestimmung des optimalen Zeitintervalls: Erinnerungs- und Übungseffekte sollten vermieden werden (längeres Zeitintervall notwendig); aber wenn das Zeitintervall zu lane ist, können reale Veränderungen des zu messenden Merkmals auftreten o Bsp. für Übungs- oder Gedächtniseffekte: Intelligenztests (umso stärker je weniger Items pro Skala, je ungewöhnlicher die Items, je kürzer Retest-Intervall) o Bsp. für reale Veränderung: Depressionsmaße vor und nach Therapie Retest – Reliabilität ist ein konservativer Schätzer, da Übungsgewinne abhängig von Leistungsstand, Lernfähigkeit und Gedächtnis d.h. Unterschiede zwischen 2 Testzeitpunkten und die daraus folgende geringere Korrelation gehen nicht auf die Ungenauigkeit des Tests zurück (was die geringere Korrelation ja behaupten würde deshalb konservativ), sondern auf den Lerneffekt der Vp Retest – Reliabilität gut anwendbar bei Speedtests oder Persönlichkeitstests EXKURS: NIVEAU- VS RANGREIHENVERSCHIEBUNG Niveauverschiebung: o hier hat eine Leistungsverbesserung bei allen Probanden stattgefunden o die Rangreihe ist jedoch gleich geblieben, deswegen ist ein rtt von 1 möglich d.h. der Test differenziert zu beiden Zeitpunkten absolut zuverlässig zwischen den Probanden, obwohl sich das Niveau insgesamt verändert hat (perfekte Retestreliabilität nur möglich, wenn sich die Abstände bei allen Probanden exakt gleich verändert haben und der Test perfekt misst) Rangreihenverschiebung: o hat negative Konsequenz für die Retest – Reliabilität o Ursache: bspw. Aufmerksamkeit zu unterschiedlichen Testzeitpunkten rtt wird unterschätzt PARALLELTEST RELIABILITÄT Tests sind parallel, wenn die beobachteten Mittelwerte und Standardabweichungen identisch sind und hoch korrelieren, obwohl sie aus dem gleichen ABER nicht identischen Itempool stammen Bsp. CFT – 20R bei Speedtest braucht man keine Parallelform, da es für die zweite Vorgabe keinen Unterschied macht, ob die gleichen oder leicht abgewandelten Items dargeboten werden Herstellung eines Paralleltest ist dann erschwert, wenn es sich um die Erfassung eng begrenzter Eigenschaften handelt und das Universum denkbarer Items somit nur klein ist oder wenn eine parallele Version den Transfer auf die Aufgabenlösung stärker vorgeben würde TESTHALBIERUNG: INNERE KONSISTENZ Retest – und Paralleltestreliabilität sind oft problematisch weitere Möglichkeit der Testung der Reliabilität: Teile EINES Tests werden als parallele Testversionen verstanden und die Reliabilität als Zusammenhang der beiden Teile anzunehmen einfachster Fall: Split Half Bsp.: HAWIK, mehrere Untertest zum Sprachverständnis. In den Tests werden gleich hohe Werte erreicht. Hat man ein gutes Sprachverständnis, zeigt sich das in gleichem Maße in Testhälfte 1 und 2, das heißt die Testhälften korrelieren hoch miteinander Split Half Strategien: o Testhalbierung: Testteilung in der Mitte o „odd – even“: Items mit geraden Nummern bilden eine Testhälfte und vice versa o Zufallsaufteilung: zufällige Zuteilung zu 2 Testhälften o Parallelisierung: Aufteilung der Items nach Trennschärfe und Schwierigkeit (d.h. beide Testhälften sollen gleich schwierig sein) Bildung von Paarlingen (Päärchen von Items werden gebildet, die jeweils gleich sind bzgl. Trennschärfe und Schwierigkeit es gibt also Päärchen von trennscharfen und nicht so trennscharfen Items) zufällige Zuteilung der einzelnen Items der Paarlinge zu den Halbskalen (aus dem „trennscharf-Päärchen“ wird ein Item der einen, das andere der anderen Skala „blind“ zugeordnet, beim „nicht-so-trennscharf-Päärchen“ analog, usw.) o Halbierung nach Zeit: Bei Speedtest: nach der Hälfte der Zeit Abbruch und Beginn bei zweitem Teil Problem: o kürzere Tests sind weniger reliabel Aufwertung der Korrelation zwischen den Testhälften mittels Spearman-Brown-Formel (siehe KTT) auf die ursprüngliche Skalenlänge (weil man die Reliabilität der gesamten Skala wissen will und nicht der halben) o Differenzen zwischen den verschiedenen möglichen Aufteilung der Testhälften können nur schwer interpretiert werden (Bsp. Differenz zwischen „odd even“ und Zufallsaufteilung) Ausweg: Cronbachs Alpha Cronbachs Apha = mittlere Reliabilität aller möglichen Testhalbierungen, d.h. der Test wird in so viele Teile zerlegt, wie er Items hat sinnvolle Alpha Werte liegen zwischen 0 und 1; Untergrenze der Reliabilität 0.7 je höher die Testteile korrelieren, desto höher Cronbachs Alpha, desto höher die interne Konsistenz Anm.: aber auch Cronbachs Alpha muss danach mittels Spearman Brown Formel korrigiert werden (weil ja die Skala trotzdem halbiert ist) Formel für Split Half Reliabilität VALIDITÄT Ein Test gilt als valide, wenn er das Merkmal misst, was er zu messen vorgibt und nicht irgendein anderes ist das höchste Gütekriterium, Objektivität und Reliabilität sind Voraussetzungen für die Validität o ein Test, der eine niedrige Reliabilität hat, kann keine hohe Validität haben hohe Validität erlaubt die Generalisierung aus dem numerischen Relativ auf ein empirisches Relativ des Zielmerkmals; also den Schluss von einem Verhalten in der Testsituation auf ein Verhalten außerhalb der Testsituation verschiedene Aspekte von Validität: o Inhaltsvalidität o Kriteriumsvalidität o Konstruktvalidität INHALTSVALIDITÄT Inhaltsvalidität beschreibt den Grad der Genauigkeit, in dem Schluss von Testsituation auf Realsituation möglich ist (Repräsentationsschluss) ist das zu messende Konstrukt durch die enthaltenen Items hinreichend repräsentiert? o erfassen alle Items das Konstrukt? o sind alle denkbaren Items enthalten? hohe Inhaltsvalididtät: Anforderung im Test und in der Realität stimmen überein (Bsp. Fahrprüfung als Test für Fahreignung) o Augenscheinvalidität d.h. auch Laien können Bezüge zwischen Item und Konstrukt herstellen (Bsp. „manchmal verspüre ich den Drang jemanden zu schlagen“ sehr augenscheinvalide vs. „ich habe eine Freundin in der Nachbarschaft“ weniger augenscheinvalide) Bestimmung der Inhaltsvalidität: o Eine numerische Bestimmung der Inhaltsvalidität ist eher unüblich o Eher über Expertenurteil oder Befunde aus der Literatur, wenn keine Augenscheinvalidität vorliegt o Übereinstimmungskoeffizient: o experimentelle Bestimmung: 2 Gruppen: bekommen Regeln vorgeben, nach denen sie Items zu einem Konstrukt generieren sollen 2 Tests beide Tests werden von großer Stichprobe bearbeitet Korrelation zwischen den Tests Maß für die Inhaltsvalidität (Items bilden inhaltlich das ab, was sie abbilden sollen) KRITERIUMSVALIDITÄT Zusammenhang zwischen dem Testwert und einem oder mehreren interessierenden Kriterien Korrelationsschluss Es geht um die praktische Anwendbarkeit, also die Vorhersage des Kriteriums aus dem Testwert (z.B. Schulerfolg aus Testwert im IQ-Test) Berechnung: Korrelation zwischen Testwert und Kriteriumswert (rtc) Einflussfaktoren auf die Kriteriumsvalidität rtc : o Reliabilität des Tests und des Kriteriums3 o Grad der Gemeinsamkeit zwischen Test und Kriterium (wenn Test und Kriterium nichts gemeinsam haben, kann das eine ja nicht zur Vorhersage des anderen dienen) wenn eine Variable nicht mit sich selbst korreliert, dann kann sie erst recht nicht mit anderen kovariieren 3 links: o bessere Vorhersage, da Gerade linear ansteigt (je höher Prädiktor desto höher Kriterium) o geringe Abstände der Punkte zur Geraden: gute Kriteriumsvalidität rechts: o schlechtere Vorhersage, da Gerade nur gering linear abnimmt (je höher Prädiktor desto geringer Kriterium) o große Absände der Punkte zur Geraden: schlechte Kriteriumsvalidität ARTEN VON KRITERIEN Echtes Kriterium: zwischen Testwert und Kriterium besteht eine hohe semantische und theoretische Ähnlichkeit und das Kriterium weist einen höheren Status auf Quasikriterium: das Kriterium weist keinen höheren Status auf und bedarf einer Validierung an „echten“ Kriterien; kein Test ist perfekt Kriterium stützt sich auf ein Messfehler behaftetes Konstrukt (Bsp. neuer Test wird an einem alten Test validiert, z.B. wie gut sagen die Testwerte im HAWIK III die Testwerte im HAWIK IV voraus) Target – Kriterium: Kriterien, die aufgrund von Sachzwängen vorhergesagt werden müssen und zwar auf der Basis irgendwelcher Informationen (Ziel ist die Maximierung der Trefferquote, wofür jeder Prädiktor willkommen ist, die für dieses Ziel hilfreich ist) weitere Unterteilung der Kriteriumsvalidität: o konkurrente Validität (Übereinstimmungsvalidität): Test- und Kriteriumswert werden beinahe gleichzeitg erhoben Bsp.: Messung der Konzentrationsleistung vor der Klausur und dann Korrelation mit der Klausurnote hohe Korrelation Übereinstimmungsvalidität aber „Henne-Ei-Problem“: Richtung unklar: sagt Konzentration Klausurerfolg vorher oder Klausurerfolg die Konzentration o prädiktive Validität: Zeitpunkt der Erhebung des Testwertes und Kriteriumwertes liegen weit auseinander prädiktive Validität ist hoch, wenn eine Testwert zum Zeitpunkt t1 einen Kriteriumswert t2 vorhersagen kann (d.h. Schulleistungstest Berufserfolg) prädiktive Validität häufig geringer als Übereinstimmungsvalidität, da größerers Zeitintervall o inkrementelle Validität: Beitrag des Tests zur Verbesserung der Vorhersage eines Kriteriums Bsp.: IQ-Test sagt Berufserfolg gut vorher, d.h. jedes andere diagnostische Mittel muss sich daran messen lassen, ob es über die Intelligenz hinaus noch etwas zu Vorhersage von Berufserfolg leisten kann (Bsp. womit das in dem Fall geht, ist das strukturierte Interview) KONSTRUKTVALIDITÄT Zusammenhang zwischen Testwerten inhaltsähnlicher oder inhaltsfremder Konstrukte konvergente Validität: o d.h. Testwerte zweier Verfahren, die dasselbe Konstrukt messen, sollen hoch übereinstimmen o Bsp.: HAWIE und IST-2000 R sollten hohe Zusammenhänge zeigen, weil beide Intelligenz messen diskriminante Validität: o d.h. Testwerte zweier Verfahren, die zwei unterschiedliche Konstrukte messen, sollen NICHT oder gering übereinstimmen o Bsp.: Neurotizismus und Extraversion sollten keine hohen Korrelationen zeigen, weil verschiedene Konstrukte gemessen werden Bestimmung der Konstruktvalidität ist eher als Prozess anzusehen: o hinsichtlich des Konstruktes werden viele Hypothesen generiert, die mittels verschiedener Methoden (Mittelwertsvergleich, Faktoren-, Clusteranalyse, etc.) untersucht werden o Bestimmung der Konstruktvalidität über verschiedene Methoden: - Korrelationen von testnahen und testfremden Konstrukten (oft in Testhandbüchern angegeben) - Faktorenanalyse (konstruktnahe Inhaltsbereiche werden zusammengefasst und von anderen Inhaltsbereichen getrennt) - Multi-Trait-Multi-Method-Analyse (MTMM) (Campbell und Fiske, 1959) MTMM Grundlage für die Durchführung einer MTMM o Methoden die ähnliche und unterschiedliche Traits (Konstrukte) erfassen o Bsp.: Methoden Neo – FFI (M1) und EPI (M2); Konstrukte: Neurotizismus (T1) und Extraversion (T2) o Variablen werden korreliert und in MTMM Matrix eingetragen Ursachen für mangelnde Validität Methodenfaktoren (Bsp.: Ja-Sage-Tendenz in Fragebögen) Kriteriumskontamination: Kriterium erfasst etwas anderes als beabsichtigt (Bsp. als Kriterium für Berufserfolg wird der Umsatz der Mitarbeiter herangezogen aber Umsatz wird ja auch von der Größe des Verkaufsgebietes mitbestimmt) Kriteriumsdefizienz: wichtige Aspekte sind nicht im Kriterium enthalten (Bsp. Kriterium Umsatz ist defizient, weil z.B. Kundenzufriedenheit nicht mit abgedeckt wird hoher Umsatz könnte auch durch falsche Versprechungen der Verkäufer kurzzeitig zustande kommen, aber langfristig Absinken des Umsatzes wegen Kundenunzufriedenheit) Mangelnde Symmetrie zwischen Kriterium und Prädiktor: wenn unterschiedlich breite Eigenschaften gemessen werden (z.B. Korrelation zw. Geselligkeit und Gewissenhaftigkeit kann nicht so hoch ausfallen, da das eine einen kleinen Teil einer Dimension darstellt und das andere eine Gesamtdimension) Streuungsrestriktion: Varianzeinschränkung aufgrund von Vorselektion (Bsp.: Sagt Abiturnote die Note im Vordiplom Psychologie vorher? Problem: geringe Varianz, weil NC als Vorselektion, dies wirkt sich mindernd auf die Korrelation aus. Man käme fälschlicherweise zu dem Schluss, dass die Abiturnote und die Vordiplomsnote bei Psychologen nicht stark korreliert sind) Mangelnde Reliabilität im Kriterium oder Prädiktor ZUSAMMENHÄNGE ZWISCHEN DEN HAUPTGÜTEKRITERIEN NEBENGÜTEKRITERIEN es gibt eine Vielzahl an Nebengütekriterien einige Nebengütekriterien o Normierung (siehe unten) o Vergleichbarkeit: gleiche Konstrukte verschiedener Tests sollten ähnlich bezeichnet werden o Ökonomie: diagnostischer Erkenntnisgewinn und Aufwand stehen in einem angemessenen Verhältnis (kurze Durchführungszeit, geringer Materialaufwand, einfach in der Handhabung, als Gruppentest durchführbar, schnell und bequem auszuwerten wären z.B. Ökonomiekriterien) o Nützlichkeit: Test erfasst eine Verhaltensweise oder ein Merkmal, deren/dessen Erfassung tatsächlich einen praktischen Nutzen hat o Zumutbarkeit: ist dann gegeben, wenn der resultierende Nutzen durch die Testanwendung die zu testende Person nicht unverhältnismäßig stark physisch oder psychisch belastet. o Unverfälschbarkeit: Testverfahren sollten so konstruiert sein, dass sich die Ausprägungen der Testwerte nicht durch ein bewusst manipuliertes Testverhalten verändern lassen o Testfairness: Ergebnisse eines Tests sollten nicht zu einer systematischen Benachteiligung bestimmter Personengruppen führen. Schlussfolgerungen aus den Testwerten dürfen in diesem Sinne nicht diskriminierend hinsichtlich ethnischer, soziokultureller oder geschlechtsspezifischer Merkmale sein. NORMIERUNG Die Normierung eines Tests liefert das Bezugssystem, um die individuellen Testwerte im Vergleich zu denen einer größeren, meist „repräsentativen“ Stichprobe einordnen zu können Bsp.: wenn eine Person 15 von 15 Items korrekt beantwortet ist dies nicht selbsterklärend, sondern es kommt darauf an, ob die meisten Teilnehmer alle 15 Items richtig beantworten oder ob das nur wenige tun, damit eingeschätzt werden kann, welche Aussagekraft diese Zahlen haben Ergebnis einer Versuchsperson wird transformiert und mit der Norm verglichen d.h. der Versuchsperson wird innerhalb der Norm ein Rang zugeordnet bei der Transformation unterscheidet man: o Äquivalentnormen: Zuordnung des Rohwertes zu bestimmten Zeitabschnitten (bei Intelligenz z.B. das Alter (Intelligenzalter), bei Entwicklung z.B. der Reifestatus (Entwicklungsalter)); Problem: Leistungszuwachs stagniert ab einem gewissen Alter (IA: Intelligenzalter; LA: Lebensalter) o Variabilitäts- und Abweichungsnormen: setzen Häufigkeitsverteilungen (Normalverteilungen voraus) o Prozentrangnormen: Transformation des Wertes in Position auf der nach der Größe aufgereihten Messwertskala der Bezugsgruppe PR .90 nur 10% sind besser Vorteil bei Prozenträngen: keine Voraussetzung an die Verteilungsform gleiche PR Abstände stellen in Standardwerten unterschiedliche Abstände dar (Bsp.: PR.05-.15 und .5 -.6 Abstand von .1; in z. Werte ergibt sich einmal eine Differenz von 2.5 und einmal von 5) gleich Abstände haben unter Umständen unterschiedliche Bedeutungen !!! 1 SD = Wert des Wendepunkts ÜBERFÜHRBARKEIT VON NORMEN alle Normen können mittels z- Transformation in einer andere Norm dargestellt werden (Bsp.: IQ (M=100, SD=15) in Stanine (M=5, SD=2). BEWERTUNG VON NORMEN Güte der Norm bedingen Güte der individualdiagnostischen Entscheidung o Charakteristika der Testung des einen Probanden muss denen bei der Testung der Normgruppe entsprechen o (bspw. Motivation der Probanden, wenn die Normstichprobe Geld bekommen haben, die Vergleichsprobanden aber nicht) Gütekriterien der Norm: o Repräsentativität (z.B. repräsentativ für Deutschland, für Psychologen, für Schizophrene, etc.) o Alter der Normen (d.h. wann wurde Normdaten erhoben, sollten nicht älter als 8 Jahre sein, z.B. bei LPS sehr veraltete Normen) o Testbedingung (unter welchen Bedingungen fand die Testung statt, z.B. wurde in einer Bewerbungssituation oder einem klinischen Setting getestet? Gab es eine Rückmeldung der Ergebnisse? Wurden die Teilnehmer bezahlt? Einzel- oder Gruppentest? etc….) o Anwerbung der Stichprobe (z.B. Zeitung, Testinstitut, Anwerbung durch Hilfkräfte) o Stichprobengröße: min. 300 um Stichprobenfehler auszuschließen TESTTHEORIE WAS IST EIN TEST? ein Test o ist ein wissenschaftliches Routineverfahren wissenschaftlich: es gibt eine Theorie, die angibt unter welchen Bedingungen aus den Testergebnissen welche Aussagen über die getesteten Personen abgeleitet werden können (eben eine „Testtheorie“) Routineverfahren an einer großen Stichprobe erprobt bzgl. Durchführung und Auswertung detailliert beschrieben o untersucht eines oder mehrere empirisch abgrenzbare Persönlichkeitsmerkmale Persönlichkeitsmerkmal ist stabil und konsistent verantwortlich für das im Test gezeigte Verhalten o hat zum Ziel eine quantitative oder qualitative Aussage über die individuelle Ausprägung eines Merkmals zu machen ein Test ist ein spezielle Experimentform, bei dem es darum geht vergleichende Aussagen über die Personen abzuleiten o Besonderheiten: 2 UV (Item, Person) AV (= Antwort auf Item) wird nicht wiederholt (im anderen Experimenten immer viele Wiederholungen) die beobachtete AV ist nicht metrisch skaliert, sondern hat maximal Ordinalskalenniveau Erkenntnisinteresse: Haupteffekt der UV Person Überschaubare Interaktionseffekte der Personen mit den Items d.h. Ziel ist der Vergleich von Aussagen über die Personen hinweg WAS IST EINE TESTTHEORIE? Theorien sind o Abbilder der Welt o Man kann den Wahrheitsgehalt von wissenschaftlichen Theorien nicht objektiv beweisen, aber sie stehen mit vielen Beobachtungen im Einklang bzw. sind zumindest nicht von diesen widerlegt Voraussetzung für die Formulierung einer Theorie: o der Wahrheitsgehalt muss überprüfbar sein o es müssen drei Bestimmungsstücke enthalten sein: welche Verhaltensweise muss bei welchen Personen in welchen Situationen beobachtet werden? Frage: Wie beeinflusst das zu erfassende psychische Merkmal das Verhalten einer Person bei der Testung? o Testtheorien versuchen diese Frage des Zusammenhangs zwischen Testverhalten und Personenmerkmal zu beantworten Antwort ist wichtig, da man bei der Auswertung den umgekehrten Weg geht o es gibt Annahmen über die Personenmerkmale, welche sich im Test auf eine bestimmte Art und Weise zeigen sollen o Problem: das Personenmerkmal ist nicht direkt messbar sondern nur über das Verhalten erschließbar 4 Man braucht keine Theorie wenn: o das Antwortverhalten im Test selbst dasjenige ist, was erfasst werden soll (Bsp. wenn die Mitgliedschaft in einer Umweltorganisation als Tatsache interessiert und nicht als Indikator für Umweltbewusstsein genommen werden soll) o man rein operationale Definitionen benutzt (Bsp. „Intelligenz ist das was ein Intelligenztest misst“) Problem: ein Verfahren, was ausschließlich auf operationalen Definitionen aufbaut, läuft Gefahr, theorielos zu werden Testmodelle überprüfen die Theorie: o ein formales Modell ist gewissermaßen die Vorstufe zur Theorie hinzukommen müssen 2 Dinge: ein konkreter Realitätsbereich, auf den das Modell angewendet wird und die Schätzung der freien Modellparameter für diesen Realitätsbereich o ein Modell ist ein reduziertes Abbild der Wirklichkeit o Testmodelle erklären mittels einer angenommenen latenten Variablen (Konstrukt) den Zusammenhang zwischen vielen manifesten Variablen externe Validität: Ausmaß des Zusammenhangs zwischen dem Testergebnis und dem externen Kriterium Schluss auf Richtigkeit des Messvorgangs nicht problemlos möglich!!! 4 DIE KLASSISCHE TESTTHEOR IE KTT ist die Grundlage der meisten gebräuchlichen Tests Alternative zur KTT: modernere probabilistische Testtheorien (versuchen verschiedene Nachteile der KTT zu vermeiden) KTT = Messfehlertheorie Um die Messfehlerbehaftetheit der Messung bestimmen zu können, sind theoretische Grundannahmen erforderlich, die in Form von Axiomen formuliert werden AXIOME DER KLASSISCHEN TESTTHEORIE Axiome o = sind Grundsätze, die nicht hinterfragt werden d.h. die nicht falsifizierbar sind o es werden 3 Axiome unterschieden: Existenzaxiom Verknüpfungsaxiom Unabhängigkeitsaxiom EXISTENZAXIOM Annahme: o bei einer unendlichen Wiederholung der Testung ist der wahre Wert IMMER gleich und unveränderlich (d.h. unendliche Wiederholung der Testung bringt den wahren Wert hervor) o wahrer Wert = Erwartungswert o Mittelwertbildung führt zur Neutralisierung von Fehlern 5 ABER bei Persönlichkeits- und Leistungstest führen Wiederholungen zu Erinnerungseinflüssen etc. o deswegen erfolgt hier die Wiederholung durch verschiedene Items, die dasselbe Merkmal messen o das Zusammenfügen der verschiedenen Items Neutralisation des Messfehlers (entspricht der Wiederholungsmessung) 5 Erklärung der Indizes: j = Person; t = Test VERKNÜPFUNGSAXIOM ABER: verändert sich bei der Testwiederholung der beobachtete Wert ist das ALLEIN auf den Messfehler zurück zu führen Messfehler = alle unsystematischen, nicht kontrollierbaren oder vorhersagbaren Einflussgrößen BSP. WAHRER WERT UND MESSFEHLER VERBINDUNGUNG VON EXISTENZ- UND VERKNÜPFUNGSSAXIOM bei unendlicher Wiederholung der Messung zeigt sich der wahre Wert d.h. der Messfehler geht gegen Null ein guter Test hat einen geringen Messfehler; Tests mit größeren Messfehler sollten wiederholt werden und die Ergebnisse gemittelt werden MESSFEHLER ALS ZUFALLSVARIABLE UNABHÄNGIGKEITSAXIOM FAZIT FORMELHERLEITUNG Hintergrund o man will vom beobachteten Wert x (Testverhalten) auf den wahren Wert w (Personenmerkmal) schließen: Suche nach dem wahren Wert!!! o Problem: durch den Messfehler streut der beobachtete Wert irgendwo um den wahren Wert ( Beschäftigung mit Dispersionsmaßen im Folgenden) o NICHT VERGESSEN: Varianz und Streuung beziehen sich nicht auf eine Einzelperson, sondern immer nur auf Stichproben und Populationen!!! STREUUNG, VARIANZ, KOVARIANZ UND KORRELATION Verteilungen, die sich hinsichtlich ihrer zentralen Tendenz ähneln, können sich dennoch aufgrund unterschiedlicher Streuungen der einzelnen Werte stark voneinander unterscheiden. Hierbei informieren die Dispersionsmaße über die Unterschiedlichkeit der Werte DISPERSIONSMAßE (VARIANZ UND STD) BERECHNUNG DER VARIANZ UND DER STANDARDABWEICHUNG KOVARIANZ Die Kovarianz ist ein Maß, das über die Enge des Zusammenhangs zweier Merkmale informiert Kovarianz = geteilte Varianz zweier Merkmale d.h. haben die Abweichungen das gleiche Vorzeichen, vergrößert sich die Kovarianz, ist das Vorzeichen nicht gleich (man addiert mal, man subtrahiert mal), ist die Kovarianz kleiner je größer die Kovarianz, desto größer die Übereinstimmung bei vollständiger Übereinstimmung entspricht die Kovarianz der Varianz DATENBEISPIEL BERECHNUNG DER KOVARIANZ ZUSAMMENHANG VON KOVARIANZ UND VARIANZ Anm.: die Kovarianz einer Variable = Varianz, weil die eine Variable die gleiche Varianz hat; die Varianz enthält dann nur noch die wahre Varianz, da sich die Fehlervarianz gemäß des Verknüpfungsaxioms herausrechnet PRODUKTMOMENT KORRELATION Bestimmung des Zusammenhangs unabhängig von Maßstabsveränderung des Merkmals d.h. eine Standardisierung der Kovarianz 6 Korrelationskoeffizient r Kovarianz ist schlecht vergleichbar, weil nicht standardisiert: macht nur Aussage, dass zwei Variablen unterschiedliche/ähnliche Varianzen haben; Korrelation ist standardisiert und ermöglicht daher Vergleichbarkeit unabhängig von Skalierungen der VAriablen; die Kovarianz kann jeden reellen Zahlenwert annehmen, die Korrelation nur Werte zwischen -1 und +1 6 die Korrelation eines Tests mit sich selbst Retest – Reliabilität die Korrelation (im Sinne der Reliabilität) informiert über wahre Varianz und Fehlervarianz VARIANZZERLEGUNG KOVARIANZ ZWISCHEN ZWEI TESTUNGEN lediglich die Werte wt und wt‘ können kovariieren, alle anderen Kovariationen sind gleich Null, da laut dem Unabhängigkeitsaxiom der Messfehler unkorreliert ist mit: es folgt: Die beobachtete Kovarianz = der wahren Kovarianz da bei einer Testwiederholung die Varianzen der beiden gleichen Test gleich sind Kovarianz der beiden gleichen Tests = Varianz des einen Tests BEZUG ZUR RELIABILITÄT um nun die Korrelation / Reliabilität eines Tests zu erhalten muss man den Test mit sich selber korrelieren o d.h. die Kovarianz standardisieren die Kovarianz eines Tests mit sich selbst = wahre Varianz die gesamte Varianz bleibt auch bei der Testwiederholung gleich siehe Nenner Bsp. rtt= .80 80% wahre Varianz und 20% Messfehler 7 Die Formel der Retest-Reliabilität als Quotient aus wahrer Varianz/beobachtete Varianz ist die wichtigste Ableitung aus den Annahmen der klassischen Testtheorie 7 STANDARDMESSFEHLER Umstellung aus dem Term gehr hervor, dass der Standardmessfehler abhängig ist von der Streuung und dem Reliabilitätskoeffizienten o Bei perfekter Reliabilität (r = 1) wird das gesamte Produkt null, somit auch der Standardmessfehler o Bei r = 0, also beim vollkommenen Fehlen wahrer Varianz an der Gesamtvarianz entspricht der Standardmessfehler der Streuung der beobachteten Wert o Also: je größer die Reliabilität, umso kleiner der Standardmessfehler und umgekehrt o Reliabilität kann erhöht werden durch Verdopplung der Testlänge (bspw. durch Anhängen eines parallelen Tests) o siehe Spearman Brown Korrelation (weiter unten) o Vervierfachung des wahren Wertes und Verdopplung des Fehlerwertes Der Standardmessfehler gibt die Streuung der beobachteten Werte um die entsprechenden wahren Werte an, sowohl über alle Testpersonen bei einmaliger Testung als auch für eine Testperson bei oftmaliger Testung unter (nur theoretisch möglichern) identischen Bedingungen SCHÄTZUNG DES KONFIDENZINTERVALLS der wahre Wert wird aus den empirischen Daten nur „geschätzt“ d.h. es besteht eine Unsicherheit, dass der geschätzte Wert dem wahren Wert entspricht diese Unsicherheit wird durch den Standardmessfehler berücksichtigt o mittels Standardmessfehler wird ein Vertrauensintervall um den „geschätzten wahren Wert“ gelegt o das Konfidenzintervall kennzeichnet denjenigen Bereich eines Merkmals, in dem sich 95%/99% (je nach α-Niveau) aller möglichen wahren Werte befinden, die den Stichprobenschätzwert erzeugt haben könnten 8 Unter der Annahme, dass die Fehler normalverteilt sind, wird das Konfidenzintervall bei großen Stichproben (n≥60) mit Hilfe der z-Verteilung bestimmt; bei kleineren Stichproben (n≤30) wird statt der z-Verteilung die t-Verteilung zur Bildung der Konfidenzintervalle herangezogen z-Wert oder t-Wert aus der Tabelle raussuchen und in die Formel oben einsetzen 8 je reliabler der Test desto geringer ist das Konfidenzintervall umso genauer kann der wahre Wert geschätzt werden KRITISCHE DIFFERENZ fällt die Differenz von Proband 1 und Proband 2 in Dkrit Unterschied ist nicht signifikant ist die Differenz von Proband 1 und Proband 2 größer als Dkrit Unterschied ist signifikant kann nicht durch Messfehler erklärt werden, sondern wird durch tatsächlichen Unterschied erklärt Beispiel 9 Validität: Lehrerurteil = Inhaltsvalidität; Schulnote = Kriteriumsvaldidtät; andere Intelligenztests = Konstruktvalidität 9 MINDERUNGSKORREKTUR KORRELATIONEN BEI ZWEI VERSCHIEDENEN 10 TESTS bei der Formelherleitung ging es immer um die Korrelation eines Tests mit sich selbst, hier geht es um die VALIDITÄT, also die Korrelation zwischen einem Testwert und einem Kriteriumswert 10 RECHENBEISPIEL VERDÜNNUNGSPARADOXON RELIABILITÄTINDEX Eine Variable (ein Test) kann mit einer anderen Variablen nicht höher korrelieren als mit ihren (seinen) wahren Werten. Die obere Grenze dafür definiert der sog. Reliabilitätsindex Höhere Koeffizienten müssen auf Artefakten beruhen Der Reliabilitätsindex bezieht sich auch auf das Verhältnis von Reliabilität und Validität: die Validität kann nie höher sein als die Wurzel der Reliabilität ZUSAMMENHANG VON RELIABILITÄT UND TESTLÄNGE EXKURS VARIANZ VON ITEMS UND SKALENWERTEN TESTVERLÄNGERUNG UND STEIGERUNG DER WAHREN VARIANZ SPEARMAN BROWN FORMEL Die Spearman-Brown-Formel kann auch dazu genutzt werden, wenn der Test z.B. aus Kostengründen oder aufgrund von Zumutbarkeit gekürzt werden soll wie kurz darf ein Test ausfallen, wenn eine bestimmte Reliabilität nicht unterschritten werden sollte? Bsp: Ein Test mit der Reliabilität von r = .90 soll von 100 auf 60 Items gekürzt werden. Wie beeinflusst das die Reliabilität? n = 60/100 = 0.6 corr r = 0.6 ∙ 0.9/ 1 + (0.6 -1) ∙ 0.9 = 0.84 die Reliabilität sinkt also auf .84 bei der Verkürzung TESTVERLÄNGERUNG UND CRONBACHS ALPHA ZUSAMMENFASSUNG DER KLASSISCHEN TESTTHEORIE KRITIK AN DER KLASSISCHEN TESTTHEORIE Anhand der KTT werden mathematische Wahrscheinlichkeitsaussagen getroffen, die sich per definitionem nicht auf Einzelfälle beziehen (die Übertragbarkeit von gruppenstatistischen Kennwerten auf den Einzelfall ist immer problematisch, wenn die Reliabilität und/oder Validität kleiner 1 ist/sind, was praktisch immer der Fall ist) Das Reliabilitäts-Validitätsdilemma o Veränderungsmessungen sind im Rahmen der KTT problematisch (Veränderungen z.B. bei stimmungs-, müdigkeits- und tageszeitabhängigen Variablen, aber auch bei Veränderungen im Leistungs- und Persönlcikeitsbereich mit dem Alter oder durch Interventionen) - - Retest-Reliabilität stützt sich auf die Annahme, dass Variablen über die Zeit hinweg stabil sind (also, dass es einen wahren Wert gibt) Die Retest-Reliabilität ist umso höher, je besser 2 Variablen zu 2 Zeitpunkten übereinstimmen Bei der Veränderungsmessung will man aber wissen, ob die Differenz zwischen 2 Testwerten zu 2 Zeitpunkten zuverlässig gemessen wird (also wahre Veränderung abbildet) Da kommt das Dilemma: - 1. Je höher die Korrelation zwischen Erst- und Zweitmessung, desto niedriger ist die Reliabilität der Differenzwerte. - 2. Je niedriger die Korrelation zwischen Erst- und Zweitmessung, desto niedriger ist die Validität dieser Werte. PRO KTT ITEM RESPONSE THEORIE (IRT) Item-Response-Theorie im deutschen Sprachraum auch als probabilistische Testtheorie bekannt Ziel der IRT: Instrumente konstruieren, die messtheoretisch höheren Anforderungen genügen als Verfahren der KTT (d.h. Messung auf Intervallskalenniveau) Grundannahme: die zu erfassenden psychischen Merkmale werden als latente Variablen interpretiert der beobachtete Testwert dient als Indikator für die Beschaffenheit des latenten Traits (siehe auch weiter unten) MODELLANNAHMEN DER IRT 11 DETERMINISTISCHE VS. PROBABILISTISCHE MODELLE DETERMINISTISCHE MODELLE Deterministische Modelle gehen davon aus, dass das Antwortverhalten der Probanden durch die Item- und Personenparameter vollständig bestimmt ist o Löst ein Proband ein Item, muss er auch alle leichteren Items lösen o Löst ein Proband ein Item nicht, darf er kein schwereres Item lösen o Illustration der Guttmann-Skala Die Abbildung des Personen- und des Itemparameters auf einer eindimensionalen Skala ermöglicht es zu entscheiden, ob der Personenparameter größer, kleiner oder gleich dem Itemparameter ist 11 Die Wahrscheinlichkeit, die Frage mit Ja zu beantworten, springt ab einem bestimmten Punkt von null auf eins (es gibt in deterministischen Modellen nur die Lösungswahrscheinlichkeit 0 oder 1) die ICC der Guttmann-Skala ist also eine Treppen-Funktion o Problem der Guttmann-Skala: - Die relativ strengen Modellannahmen der Guttman-Skala werden in der psychodiagnostischen Praxis üblicherweise nicht erfüllt (Modell müsste ja immer verworfen werden, wenn eine Person ein schwereres Item löst, obwohl sie ein leichteres nicht gelöst hat) PROBABILISTISCHE MODELLE Probabilistische Modelle gehen davon aus, dass es eine stochastische Beziehung gibt zwischen dem Antwortverhalten des Probanden und den Personen- und Itemparametern o Ist ein Proband fähig, löst er wahrscheinlich schwere Items o Ist ein Proband weniger fähig, löst er schwere Items wahrscheinlich nicht o In probabilistischen Modellen werden anstelle der Guttmann´schen Treppenfunktion in der Regel monoton steigende Funktionen als itemcharakteristische Funktion (IC-Funktion)12 angenommen RASCH-MODELLE In Rasch-Modellen wird der Zusammenhang von Fähigkeit der Person, Itemschwierigkeit und Lösungswahrscheinlichkeit durch die logistische Funktion beschrieben: 13 12 Die IC-Funktion ordnet jeder Ausprägung der latenten Variable eine Wahrscheinlichkeit zu, mit der ein bestimmtes Item gelöst (bzw. dem Item zugestimmt) wird o Rechenbeispiel (sei ξv und σi jeweils 1) [gelb in der Abbildung] p = exp(1-1)/1+exp(1-1) = exp(0)/1+exp(0) = 1/2 = 0.5 wird σi größer als ξv, dann sinkt die Lösungswahrscheinlichkeit unter 0.5, wird σi kleiner als ξv, dann steigt die Lösungswahrscheinlichkeit über 0.5 14 exp (x) steht für Exponentialfunktion; Euler´sche Zahl: e = 2,71… hoch irgendwas; E-Funktion beschreibt Wachstumsvorgänge; wichtig: e-Funktion wird nie null exp (0) = 1 13 14 Die Itemschwierigkeit ist immer der Punkt, an dem die Funktion die y-Achse schneidet; ist das Item schwerer, verschiebt sich die Funktion nach rechts, ist es leichter, dann verschiebt sich die Funktion nach links VERSCHIEDENE ARTEN VON RASCH-MODELLEN Das 1-Parameter-logistische Modell ist das einfachste Rasch-Modell und wird auch als dichotomes Rasch-Modell bezeichnet, weil es Wahrscheinlichkeiten angibt für jede dichotome Reaktion (Lösung/Nicht-Lösung) alle Items haben die gleiche logistische Funktion Im Birnbaum-Modell geht in die Formel zusätzlich die Steigung der Kurve (λ) mit ein: dies ist der Itemdiskriminationsparameter dadurch wird berücksichtigt, dass unterschiedliche Items unterschiedliche Sensitivität besitzen, um zwischen schwächeren und stärkeren Merkmalsausprägungen unterscheiden zu können o Starke Steigung bedeutet, dass der Unterschied zwischen den Probanden, die Items lösen und die Items nicht lösen, sehr gering ist geringe Steigung bedeutet bessere Differenzierbarkeit ITEMINFORMATIONSFUNKTION Nicht jedes Item liefert gleich viel Information über die Merkmalsausprägung der latenten Variable einer Person Die Iteminformationsfunktion zeigt an, wie viel Information ein Item in einem bestimmten Fähigkeitsbereich über die Unterschiedlichkeit der Probanden liefert Die Berechnung erfolgt folgendermaßen: Die maximale Information liefert das Item auf dem Niveau seiner Schwierigkeit PARAMETERSCHÄTZUNG Zu Beginn einer Testkonstruktion sind weder Item- noch Personenparameter bekannt, sie gehen nur in die empirische Datenmatrix ein und müssen geschätzt werden Um eine Schätzung der Item- und Personenparameter vornehmen zu können, wird ein Ausdruck benötigt, der die Wahrscheinlichkeit aller beobachteten Daten angibt; diese wird als Likelihoodfunktion L bezeichnet: Das Multiplikationssymbol Π bedeutet für eine Berechnung, dass für alle Reaktionen xvi (die sich über n Personen und m Items erheben lassen) je eine Wahrscheinlichkeit p(xvi) berechnet wird, die dann mit allen anderen Wahrscheinlichkeiten (pro Reaktion) zu einem Wert multipliziert wird. Als Ergebnis gibt diese Funktion die Wahrscheinlichkeit (mit Werten zwischen 0 und 1) für eine Datenmatrix X an, in der für n Personen und m Items alle Reaktionen xvi abgetragen sind. Werden passende Werte für den Item- und Personenparameter verwendet, steigt die Wahrscheinlichkeit, sind die Werte hingegen unpassend, sinkt die Wahrscheinlichkeit. Maximum-Likelihood-Methode prüft, ob die geschätzte Datenmatrix statistisch (χ²-Vergleich) bedeutend von der empirischen Matrix abweicht keine signifikante Abweichung, dann sind Parameter geeignet Kann die empirische Matrix mit der Maximum-Likelihood-Methode hinreichend genau geschätzt werden, so gelten die Modellannahmen, die der Schätzung zugrunde liegen, als erfüllt, d.h. es besteht: o Rasch-Homogenität: - o homogene Items sind solche Items, deren itemcharakteristische Kurven sich nicht schneiden würden sich die Kurven schneiden, wären die Items inhomogen, d.h. dass z.B. Item 2 nicht durchgängig leichter wäre als Item 3 (die Wahrscheinlichkeit Item 3 zu lösen wäre also manchmal höher als Item 2 zu lösen, was nach Annahmen des Rasch-Modells nicht sein darf) inhomogene Items werden bei Testkonstruktionen nach IRT eliminiert lokale stochastische Unabhängigkeit - alle Items erfassen die gleiche eindimensionale latente Variable Exkurs: Stochastische Unabhängigkeit am Beispiel im Vierfelderschema o Spezifische Objektivität von Skala und Items: - o In der Rangreihe der Personenparameter ergeben sich keine Verschiebungen, gleichgültig, welche Items bearbeitet wurden d.h. innerhalb einer Population, für die Modellkonformität festgestellt ist, werden die Probanden immer denselben Rangplätzen zugeordnet gleichgültig welche Items bearbeitet werden Stichprobenunabhängigkeit der Kennwerte: - Itemparameter fallen immer gleich aus, egal welche Stichprobe zur Validierung des Verfahrens benutzt wurde Itemparameter können also geschätzt werden, ohne dass die Personenparameter bekannt sind und ohne Annahmen über deren Verteilung machen zu müssen Stichprobenabhängigkeit würde sich graphisch vielleicht so zeigen, dass eine Punktewolke entstehen würde statt einer Geraden AUF SEITE 75 nochmal die Überprüfung der Modellkonformität anschauen!!!! VORTEILE PROBABILISTISCHER VERFAHREN Möglichkeit zum adaptiven Testen - - - Intervallskalenqualität der Messwerte - Beim adaptiven Testen werden bei einem Probanden nur diejenigen Items zur Anwendung gebracht, die für das Fähigkeitsniveau des Probanden eine hohe Messgenauigkeit (Iteminformation) aufweisen; auf die anderen Items hingegen wird verzichtet Aufgrund der spezifischen Objektivität von Rasch-Skalen ist es nicht notwendig, dass alle Probanden alle Items bearbeiten. Vielmehr können den Probanden Teile der Skala vorgegeben werden, die maximal informativ für die Abschätzung der Ausprägung der latenten Variable sind (also nur diejenigen Items, die für das Fähigkeitsniveau des Probanden eine hohe Messgenauigkeit (Iteminformation) aufweisen) Adaptives Testen trägt steigert die Testökonomie erheblich Adaptives Testen funktioniert entweder manuell mithilfe geeigneter Verzweigungen (branched testing, z.B. Adaptives Intelligenz Diagnostikum) oder durch computergestütztes „Hochrechnen“ des individuellen Personenparameterwertes nach maßgeschneiderter Auswahl der Itemschwierigkeit (tailored testing, z.B. Frankfurter Adaptiver Konzentrationsleistungstest) Den Messwerten aus klassischen Verfahren kann streng genommen lediglich ordinale Skalenqualität zugesprochen werden. Test, die den Anforderungen der IRT entsprechen, liefern intervallskalierte Messwerte. Hiermit können Abstände zwischen den Messwerten von Probanden eindeutiger dargestellt werden Die Eindimensionalität (Konstruktvalidität) des gemessenen Merkmals kann empirisch überprüft werden (lokale stochastische Unabhängigkeit) Die Personen- und Itemhomogenität kann empirisch geprüft werden Die Schätzung der Kennwerte ist weitgehend unabhängig von der Validierungsstichprobe (in der KTT wird das empirisch ungeprüft vorausgesetzt, da versucht man es über Repräsentativität der Validierungsstichprobe) Spezifische Objektivität: Rangreihe der Probanden verschiebt sich nicht, wenn unterschiedliche Itemstichproben vorgegeben werden NACHTEILE DER IRT Item- und Personenparameter sind experimentell nicht trennbar und lassen sich daher auch nicht eindeutig definieren (Restfehlerwahrscheinlichkeit bei der Schätzung der Parameter) Vorhersagekraft: o Da, aufgrund der Forderung nach Homogenität, Items und Personen eliminiert werden können ist letztendlich nicht klar, ob die Variable gemessen wird, die gemessen werden soll und demnach die gewünschte Vorhersagekraft hat o Frage nach der diagnostischen Relevanz (Generalisierung), da die Stichprobe sehr klein und spezifisch ist (durch das Eliminieren wird die Stichprobe, an der validiert wird, kleiner) Homogenität des Rasch-Modells beachtet nicht Interkorrelationen wie Konsistenz, Reliabilität, Objektivität und Validität Infos, die Gütekriterien bringen, werden nicht vom Rasch-Modell ersetzt KONSTRUKTIONSPRINZIPIEN PSYCHOLOGISCHER TESTS ARTEN PSYCHOLOGISCHER TESTS LEISTUNGSTESTS: PERSÖNLICHKEITSTESTS PROJEKTIVE VERFAHREN APPARATIVE VERFAHREN OBJEKTIVE TESTS KRITERIUMSORIENTIERTE TESTS o = inhaltsvalide Testverfahren, es geht um das Erreichen/Verfehlen eines best. Kriteriums NICHT Position einer Person in Relation zu einer Vergleichsnorm o Es muss ein sachgerechter Cut-Off Wert festgelegt werden (z.B. wie viel Fehler maximal in der Führerscheinprüfung) o Kriteriumsorientierte Tests sind z.B. solche Tests, wo Testsituation und Kriterium inahltlich sehr ähnlich sind (wie beim Flugsimulator) AUFGABENTYPEN IN PSYCHOLOGISCHEN TESTS Aufgabentypen mit freiem Antwortformat o Beispiel Ergänzungsaufgabe: Allgemeines Wissen im HAWIK III o Beispiel Kurzaufsatzaufgabe: Kreativitätstests (z.B. Geben Sie so viele kreative Ideen wie möglich am, was man mit einem Nagel und einer Garnrolle machen könnte) Aufgabentypen mit gebundenem Aufgabenformat o Beispiele für Ordnungsaufgaben: o Beispiele für Auswahlaufgaben: - - Auswahlaufgaben können z.B. dichotome Auswahlaufgaben sein (ja/nein; stimmt/stimmt nicht,…) oder multiple choice Aufgaben sein (Mehrfachwahlaufgaben, wobei entweder nur eine oder aber mehrere Lösungen richtig sein können) Problem bei dichotomen Antwortformaten: 50% Ratewahrscheinlichkeit (schlecht bei Leistungstests) oder Problem der Ja-Sage-Tendenz (bei Persönlichkeitstests) Vorteil bei multiple choice mit mehreren Antwortmöglichkeiten: Sinken der Ratewahrscheinlichkeit o Welches Ratingformat eingesetzt wird, ist abhängig von der Fragestellung o Bei der Konstruktion der Antwortskala berücksichtigt man 6 Aspekte: 1. Skalenstufen: ja oder nein? - visuelle Analogskala: es können sehr feine Abstufungen gemacht werden, die auch am PC gut zu verrechnen sind, aber es gibt selten Aufgabenstellungen, bei der die Differenziertheit der Skala der Differenziertheit des Urteils entspricht - diskret gestufte Skalen: meist bringt eine Stufung >7 keinen Informationszugewinn 2. bipolare oder unipolare Antwortskala? - Entscheidung ist abhängig von den Iteminhalten bzw. von der zu erfassenden Eigenschaft 3. Bezeichnung der Skalenpunkte? - numerische Bezeichnungen: erwecken den Anschein einer sehr präzisen Messung auf Intervallskalenniveau, wobei die Gleichheit der Abstände zwischen den Skalenpunkten aber nicht gleichzusetzen ist mit gleichen Abständen im Urteil des Probanden; Wahl des Zahlenformates ist willkürlich - verbale Bezeichnungen: Interpretation der Skalenpunkte wird intersubjektiv einheitlicher, Personen müssen sich nicht vorstellen, was hinter den Skalenpunkten steckt; oft ist es aber schwierig adäquate verbale Beschreibungen für exakte Abstände zu finden - optische Skalen: vermeiden den Eindruck einer übertriebenen mathematischen Exaktheit - von der Kombination der Skalenbezeichnungen erhofft man sich Vorteile der beiden Formate; es sollte dann sichergestellt werden, dass die verbalen und numerischen Bezeichnungen aber möglichst genau zusammenpassen - ein allgemeines Problem bei Ratingskalen ist immer, dass man gerne Intervallskalenniveau annehmen möchte, dass messtheoretisch gesehen aber eigentlich nur Ordinalskalenniveau zu rechtfertigen ist 4. neutrale Mittelkategorie ja oder nein? - häufig nicht instruktionsgemäß als Mittelkategorie verwendet sondern von Probanden als Ausweichoption genutzt, wenn z.B. der Wortlaut als unpassend empfunden wird oder der Proband die Antwort verweigert oder nicht kennt 5. „weiß nicht“- Kategorie ja oder nein? - muss sorgfältig abgewogen werden - vor allem sinnvoll, wenn davon ausgegangen werden kann, dass einige Probanden nicht über notwendige Kompetenz verfügen, Frage zu beantworten - wird die Kategorie benutzt, sollte sie gesondert aufgeführt werden, dann kann die mittlere Kategorie tatsächlich als solche genutzt werden 6. können asymmetrische Beurteilungsskalen eingesetzt werden? - vor allem dann eingesetzt, wenn kein symmetrisches Antwortverhalten erwartet wird (Bsp. Marktforschung: Schokolade meist so positiv bewertet, dass symmetrische Skala nicht ausreichend im Positivbereich differenzieren würde) Aufgaben mit atypischem Antwortformat o Beispiele: o FEHLERQUELLEN BEI DER ITEMBEANTWORTUNG Soziale Erwünschtheit o Tendenz sich in einem möglichst günstigen Licht zu präsentieren o Besteht aus 2 Komponenten: Selbsttäuschung und Fremdtäuschung o Äußert sich z.B. im Verneinen von Antworten/Verhaltensweisen, die zwar weit verbreitet sind, aber auf soziale Ablehnung stoßen (Bsp.: Manchmal komme ich zu spät zur Arbeit; Ich ärgere mich, wenn man mich um einen Gefallen bittet;…) o Soziale Erwünschtheit eher bei mündlichen Interviews, da Testleiter anwesend und keine Anonymität o Um soziale Erwünschtheit im Rahmen wissenschaftlicher Studien zu verringern, sollten Probanden über Untersuchungsgegenstand weitest möglich aufgeklärt werden und die Anonymisierung der Daten zugesichert werden o Möglichkeit zum Einsatz einer „Lügenskala“ (vgl. MMPI), um die Tendenz einer Person entsprechend sozialer Erwünschtheit zu antworten, einzuschätzen Ja-Sage-Tendenz/Zustimmungstendenz o Tatsächliche Meinung wird verzerrt, je nachdem wie rum das Item formuliert ist o Um Verzerrungseffekte zu erkennen, eignet sich die Invertierung von Itemformulierungen o Am häufigsten manifestiert sich die Zustimmungstendenz bei Ja/Nein-Aufgaben, bei Personen mit begrenzten kognitiven Fähigkeiten, bei schwierigen Aufgaben, im Zustand der Müdigkeit und eher in unpersönlichen Befragungen (z.B. Telefoninterviews) Tendenz zur Mitte o Bewusste oder unbewusste Bevorzugung der mittleren (neutralen) Antwortkategorien o Aufgrund von subjektiv unzureichendem Wissen (ich weiß zu wenig für ein sicheres Urteil, mit der Mitte mache ich am wenigsten falsch) oder aufgrund der Ansicht, dass sich die Antwortalternativen nicht gut zur Beurteilung eignen o Tendenz kann verringert werden durch Weglassen der Mittelkategorie oder durch die Wahl keiner allzu extremen sprachlichen Bezeichnungen für die jeweiligen Pole oder durch das Anbieten einer „weiß nicht“ Kategorie KONSTRUKTIONSPRIQNZIPIEN PSYCHOMETRISCHER TESTS Was muss vorher bedacht worden sein? - Art des zu erfassenden Merkmals (Bsp. states vs. traits) Testart (Fragebogen, Interview, etc.) Eingrenzung des intendierten Anwendungsbereiches und der Zielgruppe (je breiter der Geltungsbereich und Zielgruppe, desto breiter/heterogener müssen die Aufgaben sein) Festlegung der Testlänge Welche Fehlerquellen könnten auftreten (Motivation, Antworttendenzen, etc.) Analysestichprobe (an der der Test entwickelt wird) und Eichstichprobe (an der normiert wird) dürfen nicht dieselbe sein Dann kommt man zum Kern der Testentwicklung: Konstruktionsprinzipien des Tests und konkrete Generierung von Testaufgaben RATIONAL-DEDUKTIVE KONSTRUKTION Bei der rational-deduktiven Konstruktion werden Items auf Basis einer bestehenden Theorie generiert Hierbei sind folgende Gesichtspunkte als wichtig zu erachten o Theorien liefern Konstrukte, die erfasst werden sollen (z.B. Intelligenz, Motivation, Angst) o Theorien beschreiben, welche Verhaltensindikatoren bei der Erfassung des Konstrukts herangezogen werden können (z.B. für das Konstrukt „schulische Leistungsfähigkeit“: rechnerische und sprachliche Fähigkeiten) o Theorien legen fest, welche Antwortformate sich zur Erfassung des Konstrukts eignen (z.B.: Verhaltensorientierte Persönlichkeitstheorien: Selbst- und Fremdbeschreibungen; tiefenpsychologische Persönlichkeitstheorien: projektive Verfahren) Vorgehensweise bei rationaler Skalenkonstruktion: o 1. Generierung der Items o 2. Erhebung einer Validierungsstichprobe o 3. Prüfung von Reliabilitätskennwerten (α, rsh, rtt) o 4. Eliminierung ungeeigneter Items o 5. Überprüfung der Validität in Bezug auf externe Kriterien Beispiele für Skalen, die nach der rational-deduktiven Methode entworfen wurden: o Leistungstests (HAWIE, HAWIK, diverse Konzentrationstests, Tests zur Prüfung motorischer Fertigkeiten) o Tests aus dem Persönlichkeitsbereich (State-Trait-Anxiety Inventory) o Projektive Tests (deshalb rational konstruiert, weil sie logische Ableitungen aus der psychoanalytischen Theorie sind) Vorteil rationaler Skalenkonstruktion: o Ökonomisch zu entwickeln o Kommunizierbarkeit: den getesteten Personen sind die Ergebnisse der erhaltenen Testwerte leicht kommunizierbar, da die Dimensionen an den alltäglichen Sprachgebrauch angelehnt sind EXTERNAL-KRITERIUMSBEZOGENE KONSTRUKTION Voraussetzung für externale Konstruktionsstrategien ist das Vorliegen verschiedener Gruppen, die sich in Bezug auf das Kriterium unterscheiden (z.B.: Alkoholiker vs. Nicht-Alkoholiker, Misshandler vs. Nicht-Misshandler) Den Mitgliedern der Gruppen wird eine große Zahl möglichst breit gefächerter Items vorgelegt. Hypothesen, welche Items zwischen den Gruppen differenzieren könnten, sind nicht erforderlich, aber aus Gründen der Testökonomie sinnvoll (also spielen auch deduktive Gesichtspunkte eine gewisse Rolle innerhalb der externalen Skalenkonstruktion, auch intuitive Itemgenerierung) basierend auf den Items wird eine Vorhersagegleichung erstellt, o die Diskriminanzfunktion: a∙x1+b∙x2+….g∙x15 + f o x1, x2 u.s.w. sind die Items/Prädiktoren o a, b, etc. sind die Gewichtungen der Items o die Items, die stark zwischen den Gruppen differenzieren, erhalten größere Gewichtungen mittels Diskriminanzanalyse15 kann also die Wahrscheinlichkeit geschätzt werden ab wann ein Proband zu einer bestimmten Gruppe gehört Diskriminanzfunktion ist unstandardisiert und liefert einen Cut off Wert in der Einheit des Kriteriums; der Unterschied zur multiplen Regression ist der, dass diese standardisierte Werte bringt 15 Da diese Schätzungen in einem hohen Grade von der Zusammensetzung der Validierungsstichprobe abhängig sind, ist eine Kreuzvalidierung unerlässlich Veranschaulichung der Notwendigkeit der Kreuzvalidierung: Logik der einfachen Kreuzvalidierung: Logik der doppelten Kreuzvalidierung: Beispiele für Skalen, die nach der external-kriteriumsbezogenen Konstruktion erstellt wurden: o MMPI von Hathaway und McKinley (1951) o Alkoholismus Skala von MacAndrew (1965) Vorteil von external konstruierten Skalen: o Es besteht eine relativ geringe Verfälschbarkeit durch den Testbeantworter, da die Messintention oft verborgen bleibt (z.B. wird es weniger klar, wie man antworten muss, um „einen guten Eindruck“ zu machen) Nachteil: o Interne Konsistenz gering, da die Items sehr heterogen o Nicht so ökonomisch, da großer Itempool benötigt INDUKTIVE KONSTRUKTION Bei induktiven Konstruktionsstrategien liegen weder eine Theorie noch bestimmte Kriteriumsgruppen vor; die Konstruktion erfolgt rein empirisch Der Konstrukteur stützt sich auf eine spezifische Methode: die Korrelationsrechnung o Items, die hohe Korrelationen zeigen, werden zu Skalen zusammengefasst Diese Vorgehensweise wird auch als „blind-analytisch“ bezeichnet, da bei der Konstruktion keine Rücksicht auf inhaltliche Gesichtspunkte genommen wird Bei umfangreicheren Testsystemen werden zur Konstruktion der Skalen zumeist explorative Faktoranalysen durchgeführt o Items, die hohe Ladungen auf dem gleichen Faktor zeigen werden zu einer Skala zusammengefasst - Das verhindert Redundanz und erleichtert die Interpretation Beispiele für Skalen, die nach der induktiven Konstruktion erstellt wurden: o Intelligenztests nach Thurstone (primary mental abilities), z.B. der darauf aufbauende Intelligenz-Struktur-Test IST-2000-R von Amthauer o FPI o NEO-PI-R (NEO-FFI) Vorteile o Wenn noch keine Theorie da ist, liefert das induktive Verfahren Anhaltspunkte, in welche Richtung es inhaltlich gehen könnte (durch FA) Nachteile o Stichprobenabhängigkeit PROTOTYPENANSATZ Bei dem Prototypenansatz werden Konstrukte als natürliche Kategorien menschlicher Wahrnehmung aufgefasst (z.B. Blumen). Ihre Mitglieder besitzen unterschiedliche Typikalität (z.B. Rosen werden als typischere Vertreter der Kategorie Blumen aufgefasst als Orchideen) Prototypen sind hierbei die Mitglieder, die die höchste Typikalität besitzen Vorgehensweise: Items werden hinsichtlich der Prototypizität für eine oder mehrere Kategorien eingeschätzt, wobei die Items mit der höchsten Prototypizitätseinschätzung beibehalten werden Beispiel für den Prototypenansatz: o Act Frequency Approach (Buss & Craik, 1980) - 1. Probanden sollen an Personen in ihrem Bekanntenkreis denken, die eine bestimmt Eigenschaft (z.B. Unterwürfigkeit) besonders stark repräsentieren 2. Die Probanden sollen konkrete Verhaltensweisen der Personen nennen, die ihrer Meinung nach indikativ für das Vorhandensein der entsprechenden Eigenschaft sind (z.B. „Sie erhielt eine unfaire Note und beschwerte sich nicht darüber“) 3. Die genannten Verhaltensweisen werden von einer anderen Probandengruppe hinsichtlich der Prototypizität für die entsprechende Eigenschaft eingeschätzt 4. Die Items mit den höchsten Prototypizitätseinschätzungen werden als Grundlage der weiteren Validierung des Verfahrens verwendet Vorteil: o kürzere Skalen, weil nur hoch prototypische Items verwendet werden o hohe Validität bei Selbst- und Fremdeinschätzung o besondere Bereicherung bzgl. Validität im Persönlichkeits- und Temperamentsbereich Nachteil o Gefahr der Erzeugung von Stigmata WEITERE ANSÄTZE Konstruktionsstrategien müssen nicht unbedingt in „Reinform“ vorkommen, sondern können auch miteinander gemischt werden (eine Methode schließt die andere nicht aus) und sich wechselseitig ergänzen o Ein Itempool kann z.B. nach rationalen Kriterien festgelegt werden, dann faktorenanalytisch bereinigt werden (induktive Methode) und am Ende gegenüber Extremgruppen von Personen (externale Methode) überprüft werden, prototypisch könnte die Items eliminieren, die wenig zur Validität beitragen Intuitive Konstruktionsstrategie: am Anfang eines Forschungszweiges, die Konstruktion ist abhängig vom Testkonstrukteur VERGLEICHENDE WÜRDIGUNG Es gibt keine Überlegenheit einer Konstruktionstechnik gegenüber einer anderen Alle sind in ein etwas gleicher Weise zielführend und es hängt im wesentlichen von den Vorlieben und Notwendigkeiten ab, welche Strategie verwendet wird GRUNDZÜGE VON ITEMANALYSEN Die Auswahl und Erprobung von Items erfolgt ganz unterschiedlich, je nachdem nach welchen Grundprinzipen das Testverfahren als Ganzes entwickelt wird (induktiv, rational, external) o Bei der induktiven Methode steht z.B. die Interitemkorrelation im Vordergrund, bei der externalen Methode dagegen die Korrelation mit einem Außenkriterium o Induktive Methode hohe Homogenität der Items o Externale Methode niedrige Homogenität der Items EIGENSCHAFTEN VON ITEMS Itemschwierigkeit o Die Schwierigkeit eines Items bezeichnet den relativen Anteil aller Probanden, die ein Item „richtig“ beantworten - o Bei Leistungstests hieße das die richtig Lösung zu geben Bei Persönlichkeitstests hieße das eine Antwort zu geben, die indikativ ist für eine höhere Ausprägung auf dem untersuchten Merkmal Der Schwierigkeitsindex eines Items berechnet sich wie folgt: - o Hohe Werte von P stehen also für eine niedrige Itemschwierigkeit und niedrige Werte für eine hohe Itemschwierigkeit Der Schwierigkeitsindex kann aber nur nach der o.g. einfachen Formel berechnet werden, wenn der Einfluss von Zufall (z.B. Raten der Probanden oder wahlloses Ankreuzen) ausgeschlossen werden kann Das wäre z.B. der Fall bei einem freien ungebundenen Antwortformat in Form von Ergänzungsaufgaben, Kurzaufsätzen oder bei Auswahl-/Zuordnungsaufgaben, wenn sehr viele Distraktoren gegeben sind Korrigierte Formeln der Itemschwierigkeit o Itemschwierigkeit bei Ratingskalen - Wenn keine dichotomen Kategorien vorliegen (richtig/falsch, stimmt/stimmt nicht), muss die Itemschwierigkeit anders berechnet werden: - Rechenbeispiel: Trennschärfe o Die Trennschärfe eines Items bezeichnet üblicherweise die Korrelation zwischen der Antwort auf ein Item und dem Summenwert einer Skala, zu der dieses Item gehört - o Kommt man aufgrund des Items zur selben Beurteilung der Vp wie aufgrund der Gesamtskala, hat man ein trennscharfes Item Trennschärfe sagt also etwas darüber aus, wie gut ein Item niedrige und hohe Merkmalsausprägungen differenzieren kann o Wenn ein Item nicht trennscharf ist, kann das z.B. an einer schlechten Itemformulierung liegen o Trennschärfe kann unterschieden werden in konvergente und in diskriminante Trennschärfe - - Konvergente Trennschärfe: Korrelation mit der eigenen Skala Diskriminante Trennschärfe: Korrelation mit einer anderen Skala Wenn Items einer Skala höher mit dem Gesamtscore einer anderen Skala korrelieren als mit der eigentlichen Skala, muss man sich die Frage nach der richtigen Zuordnung der Items stellen (bei früheren Formen des 16 PF war dies häufiger der Fall) Die Faktorenanalyse ist ein geeignetes Mittel zur Erreichung von Trennschärfe Graphische Veranschaulichung von Trennschärfe: o Je nach Skalenniveau kann nicht immer die Pearson-Korrelation als Maß zur Trennschärfe genutzt werden o „gute“ Trennschärfewerte liegen im Bereich .4 bis .7, ein Wert von null heißt, dass das Item ungeeignet ist zwischen hohen und niedrigen Ausprägungen zu unterscheiden, eine Trennschärfe mit negativem Wert vorkommen, ist das darauf zurückzuführen, dass Items nicht rückinvertiert worden sind oder Mängel in der Instruktion oder Itemformulierung vorlagen o Bei der Berechnung der konvergenten Trennschärfe wird die Korrelation zwischen den Antworten auf ein Item und den Summenwerten der Skala ermittelt - - Problem: Da die Werte des Items auch in die Skalensumme eingehen, entsteht algebraische Abhängigkeit (die Korrelation ist partiell auch eine Korrelation der Variablen mit sich selbst) und die Korrelation wird überschätzt Lösung: Part-whole-Korrektur (Teil-Ganzheit-Korrektur) Hierbei wird das jeweilige Item nicht in den Summenwert eingerechnet. Da der Summenwert in diesem Fall nicht durch das Item konfundiert ist, kann diese Korrelation sinnvoller interpretiert werden Generell ist die unkorrigierte Trennschärfe eines Items höher als die part-wholekorrigierte Trennschärfe. Dies ist darauf zurückzuführen, dass der Summenwert in letzterem Fall nicht durch den Einfluss des Items konfundiert ist Die Part-Whole-Korrektur hat vor allem dann einen starken Effekt, wenn die Skala aus wenigen Items besteht oder wenn die Skala relativ geringe Trennschärfen aufweist (d.h. inhomogen ist) Anders ausgedrückt: die Part-whole-Korrektur hat einen geringeren Einfluss je mehr Items eine Skala hat (weil dann der relative Beitrag jedes einzelnen Items geringer wird) und je homogener die Skala ist (weil in homogenen Skalen die übrigen Items weitgehend ähnliches erfassen und es deshalb auf den Beitrag eines bestimmten Items weniger stark ankommt) Zusammenhang von Itemschwierigkeit und Trennschärfe Die Wahl der „richtigen“ Itemschwierigkeit und von trennscharfen Items wirkt sich positiv auf die Reliabilität eines Verfahrens aus man muss also je nach Intention immer abwägen, ob man sehr leichte und sehr schwere Items drinlässt (wenn es wichtig ist auch Randbereiche auszuloten), selbst wenn dadurch die Trennschärfe verringert wird Exkurs: Varianzeinschränkung MULTITRAIT-MULTI-METHOD ANALYSEN MTMM Analysen sind Verfahren zum Nachweise der Konstruktvalidität eines Tests oder Fragebogens Konstruktvalidität wird unterschieden in konvergente und diskriminante Validität o Konvergente Validität: Messungen eines Konstruktes, das mit verschiedenen Methoden erfasst wird, korrelieren hoch miteinander - o Es sollte eine signifikante Korrelation bestehen, wenn ein und dasselbe Konstrukt mit verschiedenen Methoden erfasst wurde - Bsp.: ein neuer Fragebogen zur Erfassung von Extraversion, sollte hoch korrelieren mit anderen Verfahren, die auch Extraversion messen Diskriminante Validität: Messungen verschiedener Konstrukte korrelieren nicht oder nur gering miteinander - - Mit der gleichen Methode und erst recht mit verschiedenen Methoden erfasste verschiedene Konstrukte sollten niedrig (möglichst nicht signifikant) miteinander korrelieren Bsp.: ein neuer Fragebogen zur Erfassung von Extraversion, sollte nicht korrelieren mit einem Verfahren zur Messung des trait-fremden Konstruktes Neurotizismus oder zumindest niedriger als mit einem anderen Extraversionstest Jedes Konstrukt ist zumindest teilweise abhängig von der vorgenommenen Operationalisierung Konfundierung von Konstrukt und Methode zur Erfassung des Traits o Durch Methodenartefakte können künstliche Korrelationen zwischen Merkmalen entstehen o Durch Kombination aus negativem Einfluss der Methode und positivem Einfluss des Konstruktes können Nullkorrelationen entstehen, obwohl eigentlich signifikante Zusammenhänge existieren o Zugang zur Trennung dieser Aspekte: Multitrait-Multimethod-Analyse (MTMM) Methodeneffekte ist ein Sammelbegriff für verschiedene systematische Varianzquellen, die sich über den Trait hinaus auf die Messung auswirken Methodeneffekte können sein: o Messinstrument (Method): - Verzerrung der Beziehung zwischen Merkmalen durch Art des Messinstrumentes Bsp.: Es werden verschiedene Messinstrumente (Fragbogen oder sprachfreier Test) zur Messung verschiedener Merkmale (logisches Denken, räumliches Verständnis) verwendet. Die Zusammenhänge zwischen den Merkmalen können möglicherweise anders ausfallen, je nachdem ob der Fragebogen oder der sprachfreie Test angewendet wird Beurteiler (Informant): eventuell systematisch andere Einschätzung durch verschiedene Beurteiler - Bsp.: Schüler werden bzgl. Persönlichkeitseigenschaften von Mitschülern und von Lehrern eingeschätzt. Die Beziehung zwischen den Merkmalen kann eine systematische Verzerrung aufweisen, dadurch dass beide Gruppen anders urteilen. Die Verzerrung kann sich so auswirken, dass die Merkmale in der einen Untersuchung höher/niedriger miteinander korrelieren als in der anderen, was zu Validitätsverfälschungen führen würde. Kontext (Occasion): unterschiedliche Situationen/Umgebungsbedingungen - Bsp.: in verschiedenen Situationen (normales Wetter vs. schwülheißer Sommertag) werden Studierende bzgl. mehrerer Merkmale untersucht (Aufmerksamkeit, Gedächtnis, etc.). Umgebungsbedingungen können sich systematisch auf die Beziehung zwischen den Merkmalen auswirken, da an einem schwülheißen Tag möglicherweise andere Leistungen erbracht werden als bei normalem Wetter o o Um Methodeneffekte zu isolieren, muss je nach Fragestellung der messmethodenspezifische, der beurteilerspezifische oder der kontextspezifische Bias der Beziehung zwischen den Merkmalen kontrolliert werden DAS DESIGN DER MTMM ANALYSE Annahme: Valide Messungen liegen nur dann vor, wenn… o einerseits Messungen desselben Konstruktes mit verschiedenen Methoden zu hoher Merkmalskonvergenz führen (konvergente Validität) und andererseits o eine Diskrimination inhaltlich unterschiedlicher Konstrukte innerhalb einer Methode und zwischen verschiedenen Methoden nachgewiesen werden kann (diskriminante Valdidität) - o so soll verhindert werden, dass hohe Korrelationen (die aber nur auf Methodeneinflüsse zurückgehen) fälschlicherweise im Sinne einer hohen Merkmalskonvergenz interpretiert werden d.h. valide Messungen sollten einen möglichst geringen methodenspezifischen Anteil aufweisen Konvergente und diskriminante Validität der Messungen können anhand der MTMM Matrix (systematische Korrelationsmatrix aller Traits, die jeweils mit allen Methoden gemessen wurden) abgelesen werden In der Hauptdiagonalen der Matrix befinden sich die Reliabilitätskoeffizienten der Messinstrumente (deshalb auch Reliabilitätsdiagonale genannt), also die MonotraitMonomethod-Reliabilitätskoeffizienten (z.B. Reliabilität von N gemessen mit Selbstbericht) o Die sollten möglichst hoch und nicht zu unterschiedlich sein (ist in der Praxis jedoch schwierig und selten eingehalten) Die Heterotrait-Monomethod-Koeffizienten sind angeordnet als Dreiecksmatrizen der Monomethodblöcke unterhalb der Reliabilitätsdiagonalen - Beinhalten unterschiedliche Traits, die jeweils mit der selben Methode gemessen wurden, z.B. N mit Selbstbericht und E mit Selbstbericht Die Heterotrait-Heteromethod-Koeffizienten (unterhalb bzw. oberhalb der Validitätsdiagonalen, s.u.) beinhalten die Korrelationen zwischen unterschiedlichen Traits, die mit unterschiedlichen Methoden gemessen wurden (z.B. N mit Selbstbericht und E mit Fremdbericht) Die Monotrait-Heteromethod-Koeffizienten (Nebendiagonalen zur Reliabilitätsdiagonalen) geben die konvergente Validität an (Validitätsdiagonalen) und beinhalten Korrelationen zwischen gleichen Traits, die mit unterschiedlichen Methoden gemessen wurden (z.B. N mit Selbstbericht und N mit Fremdbericht) - - Damit konvergente Validität gegeben ist, müssen sich die Korrelationen eines Traits gemessen mit unterschiedlichen Methoden statistisch signifikant von null unterscheiden und die Korrelationen sollten hoch sein Ist das nicht der Fall, muss davon ausgegangen werden, dass mit unterschiedlichen Mthoden unterschiedliche Konstrukte gemessen werden Diskriminante Validitätskoeffizienten in der MTMM Matrix - sind die Heterotrait-Monomethod-Koeffizienten und die Heterotrait-HeteromethodKoeffizienten zusammen - damit diskriminante Validiät gegeben ist, sollten 3 Kriterien erfüllt sein 1. verschiedene Traits, die mit einer Methode erfasst werden, sollen geringer korrelieren als Messungen desselben Traits mit verschiedenen Methoden (konvergente Validitätskoefizienten) 2. verschiedene Traits, die mit verschiedenen Methoden erfasst werden, sollten geringer korrelieren als Messungen desselben Traits mit verschiedenen Methoden (konvergente Validitätskoefizienten) ( ist das nicht der Fall, dann diskriminieren die inhaltlich verschiedenen Konstrukte nicht, Ursache könnte z.B. ein gemeinsamer Faktor sein) 3. die Heterotrait-Monomethod-Koeffizienten und die Heterotrait-HeteromethodKoeffizienten sollten etwa gleich sein (es gibt aber kein exaktes Kriterium) - am häufigsten wird überprüft, ob die Rangreihe der Korrelationen über die Teilmatrizen hinweg konstant ist (bei Methode 1 korreliert Trait 1 am höchsten, Trait 2 am zweithöchsten und Trait 3 am dritthöchsten, dann sollte das bei Methode 2 auch so sein) oder - ob die Vorzeichen der Korrelationen in allen Heterotrait-Teilmatrizen übereinstimmen - erhöhte Korrelationen innerhalb einer Methode können auf einen Methodeneffekt hinweisen erhöhte Korrelationen zwischen 2 Methoden können auf korrelierte Methoden hinweisen (Beispiel????) nochmal zusammenfassend die Kriterien: um eine korrelationsbasierte MTMM Analyse praktisch zu rechnen, kann man jedes Statistikprogramm nehmen (z.B. SPSS), welches Korrelationen berechnet EIN EMPIRISCHES BEISPIEL DER MTMM ANALYSE PROBLEME UND GRENZEN DER MTMM ANALYSE NACH CAMPBELL UND FISKE (1959) Auswertung auf Korrelationsebene erfolgt über einfache Häufigkeitsauszählungen bzw. viele Einzelvergleiche von Korrelationskoeffizienten o Das ist geeignet um einen groben Überblick über die Datenstruktur zu erhalten o Das Auswerten auf Korrelationsebene bringt jedoch verschiedene Probleme mit sich: 1. Häufigkeitsauszählungen oder Einzelvergleiche sind kein zufallskritisches Vorgehen, denn in der Statistik werden Korrelationskoeffizienten üblicherweise nur unter Berücksichtigung eines Konfidenzintervalls als „größer“ oder „kleiner“ bezeichnet 2. die Auswertung der Korrelationsmatrix basiert auf manifesten Variablen, die Interpretation bezieht sich aber auf latente Traits und Methoden 3. Die Entscheidungen darüber, was bei Verletzung eines der 4 Kriterien zur Annahme oder Ablehnung konvergenter und diskriminaterValidität passiert, bleiben dem Anwender überlassen ( Subjektivität, da keine exakten Entscheidungsregeln) 4. konvergente und diskriminante Validität können nicht unabhängig voneinander bestimmt werden, da Trait- und Methodeneffekte in den Schlussfolgerungen über konvergente und diskriminante Validität konfundiert sind 5. die MTMM Analyse setzt strenggenommen voraus, dass alle Merkmale mit der gleichen Reliabilität gemessen werden, was jedoch nur sehr selten eingehalten wird (wenn sich die Methoden also systematisch in ihrer Reliabilität unterscheiden, dann sind auch de Korrelationen in der zuverlässigeren Methode generell höher als in der unreliableren Methode) DIE KONFIRMATORISCHE MTMM ANALYSE wird eingesetzt um die methodischen Probleme der ursprünglichen MTMM Analyse zu überwinden Vorteile bei der konfirmatorischen Faktorenanalyse: 1. erlaubt Trennung von Trait-, Methoden- und Messfehleranteilen 2. ermöglicht die Überprüfung der Gültigkeit der zugrunde liegenden Annahmen, also die Eindimensionalität der einzelnen Traits und die Unkorreliertheit von Trait- und Methodenfaktoren 3. zusätzlich zur Konstruktvalidität kann auch die Kriteriumsvalidität überprüft werden, d.h. es besteht die Möglichkeit die latenten Traitfaktoren mit Kriterien in Beziehung zu setzen UMSETZUNG DES KONFIRMATORISCHEN FAKTORENMODELLS Traits und Methoden werden als Faktoren spezifiziert Dazu sollten mindestens 3 Traits und 3 Methoden vorliegen, die durch mindestens 9 (3x3) Indikatoren (Messvariablen, z.B. Trait 1 mit Methode 1, Trait 1 mit Methode 2, usw.) gemessen werden o Jeder Indikator sollte auf einem Traitfaktor und auf einem Methodenfaktor laden, nicht jedoch auf den anderen Faktoren o Jede Messung setzt sich zusammen aus einem Traitanteil, einem Methodenanteil und einem unsystematischen Messfehleranteil Die Trait- und Methodenvarianz der Indikatoren wird getrennt voneinander geschätzt und konvergente und diskriminante Validität können unabhängig von der verwendeten Methode bestimmt werden Graphische Darstellung der konfirmatorischen Faktorenanalyse: Anm.: die gestrichelten Pfeile stehen für die möglichen Korrelationen zwischen den Traits bzw. Methoden, die kleinen Pfeile stehen für die Messfehler Anm.: die Indikatoren A1, A2 usw. sind die einzelnen Kästchen in der Korrelationsmatrix Zum praktischen Rechnen einer konfirmatorischen Faktorenanalyse können Verfahren zur Analyse von linearen Srukturgleichungsmodellen benutzt werden (z.B. LISREL oder Mplus) EMPIRISCHES BEISPIEL Überprüfung der Trait- und Methodenanteile bei der Messung von Extraversion, Gewissenhaftigekeit und Vertäglichkeit mit den Methoden Selbsteinschätzung, Elternurteil und Einschätzung durch die Peer-Gruppe Bei der Indikatorvariable B3 (Extraversion mit Peer-Einschätzung) ist die Traitvarianz .45 (weil .67x.67=.45) und die Methodenvarianz .07 (.27x.27) o Das bedeutet: es wird zu einem großen Anteil der Trait gemessen und kaum die Methode Bei der Indikatorvariable A1 (Verträglichkeit mittels Selbsteinschätzung) beträgt die Traitvarianz nur .18, die Methodenvarianz hingegen .61 (die Fehlervarianz beträgt dann logischerweise .21) o Das bedeutet: es wird nur zu einem geringen Anteil der Trait gemessen, sondern eher die Methode o Für das konkrete Beispiel könnte die Ursache sein, dass nur Studenten untersucht wurden, welche im allgemeinen eher verträglich sind und sich in diesem Konstrukt wenig unterscheiden (Problem der Varianzeinschränkung) würde man eine weniger homogene Population untersuchen, dann dürfte die Traitvarianz einen höheren Anteil an der Gesamtvarianz aufweisen REGRESSIONSMODELLE Wozu dient die Regression: o Sind 2 stochastisch abhängige Variablen x und y miteinander verknüpft, kann man die eine Variable zur Vorhersage der anderen Variable einsetzen (das macht die Regressionsgleichung) o In den meisten praktischen Anwendungsfeldern werden Regressionsgleichungen bestimmt, um eine nur schwer zu erfassende Variable mit einer einfacher messbaren Variable vorherzusagen - - - Prädiktorvariable (unabhängige Variable) sagt die Kriteriumsvariable (abhängige Variable) vorher, wobei das nicht unbedingt einen Kausalzusammenhang darstellen muss Bsp.: Leistung im Schulreifetest kann als Prädiktor oder Indikator für Schulreife (in einem Kriterium, was sich im Unterricht zeigt) herangezogen werden, ohne dass „Leistung im Schulreifetest“ die Ursache für die Leistung im Unterricht ist Ist ein Test ein brauchbarer Prädiktor, wird er als valide bezeichnet Damit ein Test ein brauchbarer Prädiktor sein kann, muss die Regressionsgleichung jedoch zuvor an einer repräsentativen Stichprobe ermittelt worden sein DIE EINFACHE LINEARE REGRESSION o Formelerklärung: o - y = Wert auf der Ordinate (Kriterium) - x = Wert auf der Abszisse (Prädiktor) - a = y-Achsen-Abschnitt (die Höhenlage bzw. Schnittpunkt mit der y-Achse) - b = die Steigung der Geraden am Beispiel: o Steigung der Regressionsgeraden: Die lineare Regression ermöglicht ja nur die Vorhersage von linearen Zusammenhängen o es gibt jedoch Sachverhalte, bei denen die Beziehung zwischen Prädiktor und Kriterium besser durch einen nonlinearen Zusammenhang erfasst wird Beispiele für nonlineare Zusammenhänge (siehe Grafik) o a) exponentieller Zusammenhang: Reproduzierbarkeit von Gedächtnisinhalten nimmt über die Zeit hinweg nicht linear, sondern exponentiell ab o b) parabolischer Zusammenhang: beim Bewerten ästhetischer Reize, werden Reize die einen mittleren Informationsgehalt haben am positivsten bewertet, solche mit einem sehr hohen oder sehr niedrigen Informationsgehalt am negativsten o c) umgekehrt s-förmiger bzw. kubischer Zusammenhang: Zusammenhang zwischen Übungsstunden und Fähigkeit beim Erlernen eines komplexen Musikinstruments, es gibt an einem bestimmten Punkt der Lernphase ein Plateau, wo eine Weile keine Fortschritte mehr gemacht werden o d) logarithmischer Zusammenhang: Vpn soll sich so viele Namen wie möglich einfallen lassen (Entleerung des Assoziationsreservoirs) über die Zeit ergibt die kumulierte Häufigkeitsverteilung logarithmische Form (am Anfang rapider Anstieg, dann immer mehr Abflachen) MULTIPLE REGRESSION Erklärung der Formel: o y = Kriterium o x₁ = Wert Prädiktor 1 o x₂ = Wert Prädiktor 2 o b₁ und b₂ = Steigungen der Prädiktoren 1 und 2 (B-Gewichte) o a = y-Achsen-Abschnitt Veranschaulichung: Der multiple Korrelationskoeffizient R (im Unterschied zur Produkt-Moment-Korrealtion r) erfasst also den Zusammenhang zwischen k Prädiktoren und einer Kriteriumsvariablen (R hat den Wertebereich von 0 bis1) o Er entspricht der Produkt-Moment-Korrelation zwischen den eigentlichen und den durch die Regressionsgleichung vorhergesagten Werten Voraussetzung für die Durchführung einer multiplen Regression ist die multivariate Normalverteilung aller beteiligten Variablen und ein genügend großer Stichprobenumfang (ca. n=40 bei k<10) Durchführung einer multiplen Regression in SPSS o Beispiel: Intelligenz von 10 Schülern soll anhand ihrer Gedächtnisleistung und ihrer Deutschnote vorhergesagt werden (Gedächtnis wird erhoben über Fehler in einem Test, d.h. je höher die Zahl, desto schlechter die Gedächtnisleistung) 16 R² =Anteil der Varianz des Kriteriums, welcher durch die Prädiktoren „erklärt“ werden kann; korrigiertes R² = Schrumpfungskorrektur, da die multiple Korrelation den wahren multiplen Zusammenhang überschätzt (v.a. bei kleinen Stichproben und vielen Prädiktoren) 16 o Schaut man sich die b-Gewichte an, erkennt man folgendes: - - - - Beide b-Gewichte haben negative Vorzeichen, was Sinn macht, da geringe Zahlen in der Variable Gedächtnis für weniger Fehler stehen und geringere Zahlen bei Noten für bessere Leistung stehen; niedrigere Zahlen in beiden Prädiktoren stehen für eine höhere Ausprägung im Kriterium (das sagt mir die negative Korrelation) Vergleicht man die beiden b-Gewichte untereinander, sieht man dass die Deutschnote hier erheblich stärker an der Vorhersage der Kriteriumsvariablen beteiligt ist als die Gedächtnisleistung Allgemein: je höher das b-Gewicht, umso bedeutsamer ist die Prädiktorvariable zur Vorhersage der Kriteriumsvariable. Anders ausgedrückt: Dem b-Gewicht ist zu entnehmen, welchen Beitrag ein einzelner Prädiktor im Kontext aller übrigen Prädiktoren zur Klärung der tatsächlichen Kriteriumsvarianz leistet Die b-Gewichte sind nicht standardisiert und können deshalb beliebige Beträge annehmen (je nach Skalierung) zur Vergleichbarkeit guckt man sich Beta an PROBLEME UND DIFFERENZIERUNG VON PROGNOSEN PROBLEME VON PROGNOSEN: VERHALTENSVARIABILITÄT Bestimmte Situationen engen den Verhaltensspielraum in einem Maße ein, dass interindividuelle Unterschiede nahezu verschwinden (selbst wenn diese bestehen) o Situativer Druck führt zu Verhaltenskonformität, wodurch traitgeleitete individuelle Verhaltensunterschiede verschwinden Das führt zu dem Problem, dass Vorhersagen und Varianzaufklärung auf der Basis von Eigenschaftsmaßen nicht mehr funktionieren o Dieses Problem haben insbesondere Persönlichkeitsfragebögen im Rahmen von Konkurrenz- oder Auslesesituationen (sozial erwünschtes Antworten aus dem Druck heraus sich gut zu präsentieren) o Leistungstests können als Ausnahme betrachtet werden, weil zumindest eine Fehldarstellung der eigenen Person „nach oben“ nicht funktioniert Eine Möglichkeit zur Lösung dieses Problems ist die Aggregation von Daten über verschiedene Situationen hinweg: o Aggregation von Daten über Beobachtungszeitpunkte, Verhaltensweisen und Situationen hinweg kann zur Erhöhung der Reliabilität führen und somit auch zu einer substantiellen Erhöhung der Validität o Problem: wenn das Verhalten einer Personen in einer bestimmten Situation interessiert, wird’s schwierig mit der Aggregation, außerdem ist die Aggregation aufwändig Eine andere Möglichkeit zur Erhöhung der prognostischen Validität bei inhaltsvaliden Tests ist die Erhöhung der selbstzentrierten Aufmerksamkeit o Studie von Pryoret al. (1977): Selbstaufmerksamkeit erhöht Validität von Selbstberichten über Soziabilität (= Fähigkeit Einzelner ohne große Umstände neue soziale Beziehungen aufzunehmen und zu pflegen) o Design: Variation des Ausmaßes selbstzentrierter Aufmerksamkeit durch Ausfüllen des Fragebogens vor einem Spiegel vs. Ausfüllen ohne Spiegel o Kriterium (Soziabilität) wurde als Kombination aus Fremdrating und Verhaltensbefunden (Anzahl der in der Warteraumsituation gesprochenen Worte) erhoben o Fragebogendaten und Kriteriumswerte wurden innerhalb der einzelnen Bedingungen miteinander korreliert o Ergebnis: Starke Unterschiede zwischen der üblichen Bedingung (r = .16) und der Spiegelbedingung (r = .62) o Wicklund (1977) schließt, dass die Induktion selbstzentrierter Aufmerksamkeit bei einem inhaltsvaliden Messverfahren ein Instrument ist, das die Vorhersagevalidität eines Verfahrens erhöhen kann PROBLEME VON PROGNOSEN: TESTFAIRNESS PROMINENTE FAIRNESSMODELLE DAS MODELL DER PROPORTIONALEN REPRÄSENTATION Beispiel Probleme des Quotenmodells: o mangelnde Berücksichtigung systematischer Leistungsunterschiede zwischen Bewerbergruppen o Es wird implizit angenommen, dass die Gruppen gleich leistungsfähig sind und der Test Gruppenunterschiede aufgrund fehlerhafter Konstruktion nur vortäuscht o Aussagen über die Effizienz des Verfahrens (im Hinblick auf den Erfolg der ausgewählten Bewerber) werden daher ausgeblendet o Der Umgang mit systematischen Gruppenunterschieden (z.B. getrennte Normierung) entspringt der Überzeugung, dass es derartige Unterschiede nicht geben darf o Konkrete Verdeutlichung des Problem: Es wäre unsinnig einen 50 jährigen Alkoholkranken mit einer anspruchs- und verantwortungsvollen Überwachungsaufgabe nur deshalb zu betrauen, weil er im Vergleich zu anderen altersgleichen Alkoholkranken hervorragende Leistungen in den einschlägigen Tests zeigt die Entscheidung muss eher von dem Umstand abhängig gemacht werden, welches Maß an faktischer Bewährung zu erwarten ist o In der psychologischen Literatur wird das Quotenmodell nicht ernsthaft vertreten, es stehen mehr solche Modelle im Vordergrund, bei denen Erfolg im Kriterium die vorderrangige Rolle spielt o Praktische Anwendung des Quotenmodells: Frauenquoten, Behindertenquoten (z.B. in Unijobs) DAS REGRESSIONSMODELL VON CLEARY Diese Modell wird am häufigsten verwendet Ein Selektionsverfahren ist dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht o Diese Bedingung ist erfüllt, wenn die gruppenspezifischen Regressionsgeraden miteinander identisch sind (d.h. die gleiche Steigung haben und die Ordinate an der selben Stelle schneiden) o Konkret: der Test (Wert auf der x-Achse) sagt das Kriterium (Wert auf der y-Achse) für beide Gruppen gleich vorher Anm.: die Regressionsgerade hier ist für beide Gruppen gleich Was passiert, wenn die Regressionsgeraden nicht identisch sind? Über-/Unterschätzung in Subgruppen: Wie sieht die Überprüfung der Fairness nach diesem Modell aus: Implikationen des Regressionsmodells: o Wenn der Auswahlprozess im Rahmen des Regressionsmodells von Cleary als fair zu erachten ist, findet die Auswahl anhand der geschätzten Kriteriumsleistung statt o Es werden diejenigen Kandidaten ausgewählt, die voraussichtlich die besten Kriteriumsleistungen zeigen werden. Die Erfolgsrate, d.h. die durchschnittliche Leistung der ausgewählten Kandidaten, wird daher maximiert o Diese Vorgehensweise ist fair für jeden einzelnen Kandidaten, da jeder voraussichtlich im Kriterium bessere jedem voraussichtlich weniger leistungsfähigen Bewerber vorgezogen wird. Dieser Standpunkt wird als der des „qualified individualism“ (vgl. Hunter & Schmidt, 1976) bezeichnet o Kritik an diesem Modells durch Thorndike (1971): - Er weist nach, dass bei einer derartigen Auswahl relativ mehr Auswahlfehler zu Ungunsten der Probanden in der leistungsschwächeren Gruppe (mehr falsch abgelehnte als richtig angenommene in der leistungsschwächeren Gruppe, bei der leistungsstärkeren Gruppe ist es umgekehrt hat man mehr richtig angenommene als falsch abgelehnte diese Unfairness der Verhältnisse soll durch Thorndikes Modell aufgehoben werden) Praktische Anwendung: bei allgemeinen Selektionsverfahren („Managerin, die an Dollars interessiert ist“, und nur die Bewerber will, der am wahrscheinlichsten Erfolg im Kriterium haben) DAS MODELL KONSTANTER VERHÄLTNISSE (CONSTANT RATIO) VON THORNDIKE Implikationen des Thorndike Modells: o Es wurde gezeigt, dass die von Thorndike (1971) geforderte Konstanz der Verhältnisse lediglich durch die Absenkung des Cut-offs (bzw. die Parallelverschiebung der Regressionsgeraden) in der leistungsschwächeren Gruppe gewährleistet werden kann o Da hierdurch zwangsweise auch leistungsschwächere Kandidaten angenommen werden müssen, reduziert sich die durchschnittliche Kriteriumsleistung der ausgewählten Kandidaten o Diese Vorgehensweise ist fair gegenüber den ausgewählten Kandidaten der leistungsschwächeren Gruppe, da die Fehler, die bei deren Auswahl begangen werden, denen in der leistungsfähigeren Gruppe entsprechen o Die Vorgehensweise ist unfair gegenüber den Abgelehnten aus der leistungsstärkeren Gruppe. Obwohl bei Ihnen höhere Kriteriumsleistungen zu erwarten wären, werden sie nicht angenommen Praktische Anwendung: z.B. Studienplatzvergabe an schwarze und weiße Studenten PROBLEME VON PROGNOSEN: MODERATION Graphische Veranschaulichung eines Moderatoreffektes: Studie von Melville & Frederiksen (1954) o Vorhersage von Studienleistung aus Interessenstests o Die Vorhersagekraft unterscheidet sich deutlich, wenn man nicht die Gesamtgruppe betrachtet, sondern wenn man die Studierenden in 2 Subgruppen einteilt - o - Rigide Studierende: Tendenz zum Perfektionismus ungeachtet des Interesses für das Fach Flexible Studierende: Anstrengung in einem Fach abhängig vom Interesse Der Moderatoreffekt erfolgt also durch die Variable Rigidität d.h. bei flexiblen Studierenden funktioniert die Vorhersage von „Leistung“ aus „Interesse“ besser als bei rigiden Studierenden Inhaltliche Bedeutung des Moderationskonzeptes: o Das einführende Beispiel hat gezeigt, dass Szenarien denkbar sind, in denen für verschiedene Individuen verschiedene Vorhersagen getroffen werden müssen o Variablen, die „interindividuelle Differenzen in der Voraussagbarkeit eines Kriteriums“(Bartussek, 1970) erklären, werden konventionell als Moderatorvariablen bezeichnet o Moderatorvariablen sind daher mit der Validität eines Tests korreliert o Korrelationen des Moderators mit Prädiktor oder Kriterium müssen nicht zwingend bestehen (weil der Moderator nur auf den Zusammenhang von P und K wirkt, nicht auf unbedingt auf die einzelnen?) VERFAHREN ZUR ÜBERPRÜFUNG VON MODERATOREFFEKTEN FRAKTIONIERUNGSMETHODE Die einfachste Methode (und in der Literatur am häufigsten verwendet) besteht darin, die Gesamtgruppe nach einer inhaltlich belangvollen Variablen in homogenere Subgruppen aufzuteilen (meist 2-3) Für jede dieser Gruppen werden dann getrennt die Test-Kriteriums-Korrelationen (Validitätskoeffizienten) berechnet Unterscheiden sich diese Validitätskoeffizienten signifikant voneinander, so übt die Teilungsvariable einen bedeutsamen Moderatoreffekt aus Unterscheiden sich die Validitätskoeffizienten nicht signifikant voneinander, dann übt die Teilungsvariable keinen moderierenden Effekt aus Probleme der Fraktionierungsmethode: o Die Fraktionierungsmethode bietet sich vor allem dann an, wenn die Validität eines Tests in Gruppen bestimmt werden soll, die in der Realität in alternativer Form (z.B. männlich/weiblich) oder in mehrstufig diskreter Form vorliegen (z.B. ethnische Abstammung: kaukasoid/mongolid/negroid) o Liegt der potentielle Moderator in kontinuierlichen Form vor (z.B. Werte in einem Rigiditätstest, siehe o.g. Studie), so ist die Fraktionierungsmethode vor allem aus drei Gründen heraus als problematisch zu beurteilen - - - Will man kontinuierlich-quantitative Variablen in (viele) separate Teilgruppen untergliedern, hat dies den Nachteil, dass sich der Stichprobenfehler vergrößert. Die zufallskritische Absicherung der Unterschiede zwischen den Validitäten in den Stichproben wird erschwert Außerdem würde die Teilung vermutlich willkürlich (z.B. mittels Mediansplit) entlang des Wertekontinuums vorgenommen, ohne dass tatsächliche qualitative Unterschiede bestehen Die in den einzelnen Subgruppen erhaltenen Korrelationen können nicht im Sinne einer exakten Beziehung zwischen Moderatorvariable und Validität des Tests interpretiert werden MODERIERTE REGRESSION Aufgrund der bei der Fraktionierungsmethode bestehenden Probleme schlägt Saunders (1956) ein regressionsanalytisches Verfahren vor Zentral ist die Idee, die Steigung (b) und Konstante (a) der einfachen linearen Regression (Fraktionierungsmethode nutzt die einfache lineare Regression) mithilfe der Moderatorvariablen vorherzusagen Bei Hinzunahme eines weiteren Prädiktors entsteht eine Regressionsfläche. Die „Falte“ in der Abbildung entsteht, da sich in Abhängigkeit von der Moderatorvariablen (Ausprägung auf z) andere Steigungen ergeben (AB, CD, EF, usw.) o Unterschied zur multiplen Regression: da wäre die Fläche flach, also keine „Falte“ Herleitung der Regressionsgleichung: Bedeutung der Regressionsgleichung: o x∙z ist der Interaktionsterm: das sind die multiplizierten Prädiktor- und Moderatorvariablen für jede einzelne Versuchsperson (Anm. In SPSS müsste man also eine neue Variable bilden, erst dann kann die moderierte Regression gerechnet werden) o f ist das Gewicht des Interaktionsterms o Man kann also sagen, dass die moderierte Regressionsgleichung das Kriterium y auf Basis von 3 Prädiktoren vorhersagt: - Vorhersage von y durch den Prädiktor x Vorhersage von y durch den Moderator z Vorhersage von y durch die Wechselwirkung von x und z o Entscheidend für die Beurteilung des Moderationseffekts ist die Signifikanz des Gewichts des Interaktionsterms. Wird das Gewicht signifikant, so kann der Moderationseffekt angenommen werden o Es geht bei der Frage nach Moderation nicht darum, ob der Haupteffekt des Prädiktors oder der Haupteffekt des Moderators signifikant wird. Dieser würde aussagen, ob sich das Kriterium hinreichend genau aus Prädiktor oder Moderator vorhersagen lässt o Wenn also die multiple Korrelation zur Vorhersage des Kriteriums y steigt, wenn zusätzlich der Term x∙z aufgenommen wird, dann liegt mit der Skala z ein bedeutsamer Moderator vor EMPIRISCHE BEFUNDE ZU MODERATOREFFEKTEN Schulische Leistungen sind aus Intelligenztests besser vorhersagbar für solche Schüler, die eine hohe Konformität an den schulischen Betrieb und eine gute Betragensnote aufweisen (Amelang & Vagt, 1970) Die Validität von Fremdeinschatzungen (gegenüber Selbstbericht) ist für solche Personen höher, die ihr eigenschaftsrelevantes Verhalten als gut beobachtbar bezeichnen (Amelang & Borkenau, 1986) Für Personen mit hohen Punktwerten in Lügenskalen (im Gegensatz zu Personen mit mittleren oder niedrigeren Werten) kann von geringerer Validität ihrer Fragebogenbeantwortung ausgegangen werden (Amelang& Borkenau, 1981) Selbsteingeschätzte transsituationale Konsistenz (vs. Variabilität) ist ein Moderator für die Prognostizierbarkeit von Persönlichkeit (Bem& Allen, 1974) PROBLEME VON PROGNOSEN: SPEZIFISCHE UND GETEILTE VARIANZ Die Kombination von mehreren Prädiktoren führt bekanntlich dann zu einem erheblichen Zuwachs an Validität, wenn o jeder einzelne Prädiktor hoch mit dem Kriterium korreliert o die Prädiktoren untereinander niedrig miteinander korrelieren o In einem solchen Fall deckt jeder Prädiktor einen anderen Teil des Kriteriums ab, was sich positiv auf die Validität der Testbatterie als ganzes auswirkt Problem: Hohe Validität entsteht auch wenn Variablen in eine Testbatterie aufgenommen werden, die o hoch mit den anderen Prädiktoren korrelieren o aber niedrig mit dem Kriterium korrelieren o was dann passiert ist, dass kriteriumsirrelevante Varianz unterdrückt wird Suppression (siehe weiter unten: Suppressoreffekte) Mittels schrittweiser multipler Regression kann überprüft werden, ob eine Variable über eine andere Variable hinaus Varianz aufklären kann (= inkrementelle Validität) o Diese Betrachtung ignoriert jedoch die Frage, wie viel Varianz sich beide Prädiktoren im Kriterium teilen (ab), implizit wird angenommen, dass die Prädiktoren unabhängig sind, was aber nicht stimmen muss (siehe Grafik) o Gemeinsame Varianzbeträge werden in der Regel dem varianzstärkeren Prädiktor zugeschrieben, was zu einer Überschätzung dieses Prädiktors führt und zu einer Unterschätzung des anderen Prädiktors o Dieses Problem kann die Kommunalitätenanalyse lösen!!! EXKURS: PARTIALKORRELATION/SEMI-PARTIALKORRELATION Der Einfluss einer dritten Variable auf zwei andere Variablen wird herausgerechnet Partialkorrelation o Zusammenhang zweier Variablen, bei denen der Einfluss der dritten Variable komplett rausgerechnet wurde Semipartialkorrelation o Zusammenhang zweier Variablen, bei denen der Einfluss der dritten Variable nur aus einer der beiden Variablen rausgerechnet wurde KOMMUNALITÄTENANALYSE17 Die Kommunalitätenanalyse ermöglicht es gemeinsame (ab) und spezifische (a und b) Varianzanteile in nur vier Schritten festzustellen Die Kommunalitätenanalyse ändert nichts an der Signifikanz der beta-Gewichte liefert also kaum mehr Information, deshalb wird sie auch nicht so häufig gemacht Beispiel: Studie von Klingbeil (2004) Der Teil der Gesamtvarianz der durch alle extrahierten Faktoren erklärt wird, wird in der Faktorenanalyse als Kommunalität bezeichnet, Kommunalität werden als r² geschrieben 17 SUPPRESSORVARIABLEN Üblicherweise wird die Vorhersage (Validität) verbessert, wenn Prädiktoren berücksichtigt werden, die hoch mit dem Kriterium und niedrig untereinander korreliert sind Eine interessante Ausnahme stellen Suppressorvariablen dar o Wieso können Suppressoren die Vorhersage verbessern, also die Validität steigern, obwohl sie nicht mit dem Kriterium korrelieren? o Diese sind lediglich gering mit dem Kriterium, dafür aber sehr hoch mit den übrigen Prädiktoren korreliert (in der Grafik sind Suppressor und Kriterium gar nicht korreliert, d.h. die Korrelation von Prädiktor und Suppressor ist für die Vorhersage des Kriteriums irrelevant) auf Grund der hohen Korrelationen zwischen den zusätzlichen Variablen und den Prädiktoren, werden die kriteriumsirrelevanten Varianzanteile gebunden oder unterdrückt die Validitätssteigerung durch den Suppressor ist abhängig von o der Enge des Zusammenhangs zwischen Prädiktor und Suppressor o dem eigentlichen Zusammenhang zwischen Prädiktor und Kriterium Ein empirisches Beispiel für einen Suppressoreffekt ist eine Studie von Horst (1966) o Dieser versuchte den Ausbildungserfolg von Piloten aus mechanischer, numerischer, räumlicher und verbaler Fähigkeit vorherzusagen. o Es zeigte sich dass - o mechanische, numerische und räumliche Fähigkeiten hoch mit dem Kriterium korrelierten verbale Fähigkeit gering mit dem Kriterium, aber hoch mit den übrigen 3 Prädiktoren korreliert war Trotz der Nullkorrelation von verbalen Fähigkeiten und Ausbildungserfolg verbesserte sich die Validität der Testbatterie, wenn verbale Fähigkeit berücksichtigt wurde Ein fiktives Datenbeispiel zu der Horst-Studie in SPSS o Korrelationsmatrix für Prädiktoren, Suppressor und Kriterium o Untereinander korrelieren die Prädiktoren hoch Verbal korreliert niedrig mit Kriterium Übrige Prädiktoren korrelieren hoch mit Kriterium Varianzaufklärung mit und ohne verbale Fähigkeiten o Ohne verbale Fähigkeiten (1): aufgeklärte Varianz = .387 Mit verbale Fähigkeiten (2): aufgeklärte Varianz = .462 Die Veränderungen zwischen den Modellen ist signifikant Betrachtung der Koeffizienten - Modell 1: Beta-Gewichte sind kleiner, geringere Signifikanz Modell 2: Beta-Gewichte sind größer, größere Signifikanz (den Suppressor in Modell erkennt man am negativen Vorzeichen des Beta-Gewichtes) In Modell 2 wird die irrelevante Varianz durch das negative Beta-Gewicht abezogen Abschließende Bemerkung zum Suppressorkonzept o Ein Suppressor muss deutlich mehr Varianz im Prädiktor erklären als ein weiterer Prädiktor an Varianz im Kriterium erklären muss um Validitätssteigerung zu erbringen (viermal so viel) o Deshalb wird in der Praxis eher nach weiteren Prädiktoren statt nach Suppressoren gesucht o Der Vorteil am Suppressor ist aber dennoch, dass er irrelevante Varianz im Prädiktor bindet und somit unterdrückt MEDIATORVARIABLEN Definition: Eine Mediatorvariable ist eine Variable, die den Einfluss des Prädiktors auf das Kriterium vermittelt Beispiel für einen Mediatoreffekt (Lindenberger & Baltes, 1997): Überprüfung von Mediatoreffekten: Überprüfung von Mediatoreffekten an einem empirischen Beispiel in SPSS: Intelligenzabbau im Alter o Regression von Intelligenz auf Alter: - o Regression von Sensorik auf Alter: o Intelligenz kann durch Alter signifikant vorhergesagt werden Sensorik kann durch Alter signifikant vorhergesagt werden Regression von Intelligenz auf Sensorik und Alter: - Bei der Kontrolle von Sensorik kann Intelligenz nicht mehr signifikant durch Alter vorhergesagt werden Probleme bei Mediatoranalysen o Mit der Mediatoranalyse können kausale Wirkmechanismen untersucht werden. Hierbei soll die Frage nach distalen (= vorgelagerten) und proximalen (= nachgelagerten) Ursachen psychologischer Phänomene geklärt werden o Zentrales Problem bei der Vorgehensweise nach Baron und Kenny (1986) ist, dass es sich um eine „blindanalytische“ Methode handelt, bei der theoretische Überlegungen außer Acht gelassen werden o Das bedeutet, dass das Modell, das aus den Daten geschätzt wird, nicht unbedingt den Überlegungen des Forschers entsprechen muss. Kann die eigentlich als Prädiktor vorgesehene Variable mehr Varianz aufklären, als die eigentlich als Mediator vorgesehene Variable, so wird der Prädiktor als Mediator geschätzt o Einen Ausweg aus dieser Problematik bieten lineare Strukturgleichungsmodelle, bei denen die Plausibilität verschiedener vorgegebener Modelle miteinander verglichen werden kann (vgl. Frazier, Tix & Barron, 2004) Abgrenzung Mediator- und Moderatorvariablen o Moderator: Korrelationen des Moderators mit Prädiktor oder Kriterium müssen nicht zwingend bestehen o Mediator: Korrelation für Mediator und Prädiktor und Korrelation für Mediator und Kriterium muss signifikant sein Mediator VALIDITÄTSGENERALISIERUNG SINNHAFTIGKEIT DER ZUSAMMENFASSUNG VON FORSCHUNGSBEFUNDEN Beispiel: Grundproblem: In der Literatur finden sich viele (auch widersprüchliche) Forschungsbefunde o Einen Überblick über Primärstudien zu gewinnen erfordert viel Aufwand Aggregation als Ausweg aus der Problematik o Traditionelle Form der Verdichtung von Forschungsbefunden ist das narrative Review, in dem die wichtigsten Befunde zu einer Thematik besprochen werden o Eine neuere Möglichkeit ist die numerische Aggregation von Forschungsbefunden. Die einfachste Form wäre die Ermittlung der mittleren Validität Auffassung in den 50/60er Jahren o Die numerische Aggregation von Validitätsbefunden sei nicht sinnvoll o Validität von Tests sei hochgradig situationsspezifisch (Ghiselli, 1966) - Beobachtung, dass Validitätskoeffizienten selbst dann stark variieren, auch wenn gleichartige Tests und Kriterien eingesetzt werden damalige Erklärungsansätze: Faktorenstruktur für Leistung unterscheidet sich von Job zu Job; Anforderungsunterschiede zwischen den Tests werden übersehen daraus ergäbe sich die Notwendigkeit Testverfahren für jede Anwendungssituation neu zu validieren Schmidt und Hunter (1977) plädieren dementgegen für die Aggregation GRUNDIDEE DER VALIDITÄTSGENERALISIERUNG Die beobachtete/gemessene Validität eines Tests besteht laut KTT aus 2 Komponenten: o Aus der wahren Validität o und unsystematischen Messfehlern o Könnte man fehlerfrei messen, so sollten sich in allen Studien gleiche Validitäten ergeben, also die wahren Validitäten, da sich die Fehler rausmitteln würden Annahme: Der Großteil der Varianz (Unterschiedlichkeit) der Testvaliditäten geht auf studienspezifische Störeinflüsse (=Artefakte) zurück d.h. die wahren Validitäten sind ähnlich oder gleich, nur die Fehlerkomponente ist unterschiedlich daher entsteht in der Verteilung der Validitäten Streuung Werden die Artefakte aus den einzelnen Studien herausgerechnet, so sollte sich die Streuung reduzieren Besteht nach der Korrektur keine Streuung mehr, so kann die mittlere Validität als wahre Validität angenommen werden VORGEHEN BEI DER VALIDITÄTSGENERALISIERUG (ÜBERBLICK) VORGEHEN IM EINZELNEN: KORREKTUR VON ARTEFAKTEN Es gibt 5 Arten von statistischen Artefakten o 2 nicht korrigierbare Artefakte: - o 3 korrigierbare Artefakte: - - - 1. Fehler bei der Datenverarbeitung (Auftretenshäufigkeit unbekannt und daher nicht korrigierbar) 2. Ausmaß der Kriteriumskontamination (Kriterienvermischung) - Beispiel: eigentliches Kriterium lebenslanger Berufserfolg aktuelles Kriterium aktueller bzw. bisheriger Berufserfolg - abhängig vom Erhebungszeitpunkt resultieren unterschiedliche Kennwerte - Bsp. Beurteiler sind später auch Vorgesetze; da sie ihre Entscheidung nicht in Frage stellen wollen, stufen sie den Kandidaten bzgl. des Berufserfolg hoch ein 1. Reliabilität von Prädiktor und Kriterium - Man erstellt eine Verteilung der Reliabilitäten - Dann bestimmt man die Varianz, die ausschließlich auf mangelnde Reliabilität zurückgeht und korrigiert diese doppelte Minderungskorrektur für die Unreliabilitat des Prädiktors und Reliabilitat des Kriteriums einfache Minderungskorrektur, wenn nur die Unzuverlässigkeit des Tests oder des Kriteriums interessiert/ behebbar erscheint 2. Größe der Stichprobe - Bei kleinem n ist mehr Zufall in den Daten und der wahre Zusammenhang ist verzerrt - Varianzeinschränkung durch geringe Auswahlquote geringere Varianz Korrelation braucht Varianz um signifikant zu werden niedrige Validität (und vice versa) - d.h. je geringer die Auswahlquote desto geringer ist die Varianz - deswegen: Validitätskoeffizienten auf größere repräsentative Streuung aufwerten - Schätzer: 1/ (N-3), wobei N = durchschnittliche Stichprobengröße der publizierten Studien - je größer N, desto genauer ist die Schätzung des Effekts aus der Stichprobe - gemittelter Effekt = (Summe N i+Effekt i)/Summe N i Bei der Mittelung des Effekts wird jede Effektgröße durch die Stichprobengröße gewichtet 3. Varianzeinschränkung in Prädiktor und Kriterium - Varianzeinschränkung im Prädiktor: bspw. werden Bewerber nur aufgrund eines besonders hohen Wertes in die Stichprobe aufgenommen, IQ>110 - Varianzeinschränkung im Kriterium: bspw. wird besonders schlechten Personen in der Probezeit gekündigt, besonders gute Personen suchen und finden von selbst eine neue Stelle Effekte der Artefaktkorrektur: Zusammenfassung des Vorgehens bisher: o Suche nach Validitätskoeffizienten aus verschiedenen Studien o Fisher’s Z-Transformation um vergleichbare Werte zu haben o Abziehen der Varianz aus den 3 korrigierbaren Fehlerquellen o die Fehlervarianz, die übrig bleibt, ist auf Situationsspezifika zurückzuführen o diese Fehlervarianz muss auf Unterschiedlichkeit zu Null getestet werden Homogenitätstestung HOMOGENITÄTSPRÜFUNG Die Streuung der Validitätskoeffizienten reduziert sich durch die Korrektur der Artefakte üblicherweise Trotzdem ist die Streuung in der Regel auch nach der Korrektur numerisch nicht exakt Null Daher muss mittels eines sogenannten Homogenitätstests überprüft werden, ob in der korrigierten Verteilung noch bedeutsame Streuung besteht, (wenn keine signifikante Streuung mehr, dann ist die mittlere Validität = wahren Validität) Es gibt 2 Arten von Homogenitätsprüfung durchzuführen: o Homogenitätsprüfung mittels Chi-Quadrat Verfahren - o Homogenitätsprüfung mittels 75%-Regel - o Bei der Anwendung der 75%-Regel wir überprüft, ob sich die Streuung der Validitäten durch die Korrektur mindestens um 75% reduziert hat Homogenitätstest vs. 75%-Regel: - - prüft ob die restliche Streuung statistisch signifikant von 0 verschieden ist Der Homogenitätstest hat einen geringeren α-Fehler (d.h. fälschliche Entscheidung zugunsten der Homogenitätsannahme) während die 75%-Regel einen geringeren β-Fehler (d.h. fälschliche Ablehnung der Homogenitätsannahme) Die Entscheidung für eines der beiden Verfahren hängt davon ab, welcher Fehler eher in Kauf genommen werden soll Besteht nach der Korrektur keine signifikante Streuung mehr, dann ist die mittlere Validität = wahren Validität Validität des Tests ist generalisierbar (H1 wird angenommen) geschätzter wahrer mittlerer Validitätskoeffizient wird bestimmt (Vorgehen: Korrektur um mangelnde Kriteriumsreliabilität und Varianzeinschränkung) Besteht nach der Korrektur noch eine bedeutsame Streuung, dann ist eine Generalisierung nicht möglich Moderatoren suchen SUCHE NACH MODERATOREN Liegt Homogenität jeweils auf der Moderatorebene vor, dann kann angenommen werden, dass die mittlere Validität auf Moderatorstufe der wahren Validität auf Moderatorstufe entspricht SIGNIFIKANZPRÜFUNG Die Null liegt nicht im Konfidenzintervall um die mittlere korrigierte Korrelation Mit 95%iger Wahrscheinlichkeit kann die wahre Validität größer Null angenommen werden Die Null liegt in dem Konfidenzintervall um die mittlere korrigierte Korrelation Die wahre Validität kann nicht mit 95%iger Wahrscheinlichkeit größer Null angenommen werden Je höher die mittlere Validität, desto unwahrscheinlicher ist es, dass die Null in dem Konfidenzintervall liegt, da dieses weiter von der Null entfernt ist Je geringer die Streuung ist, desto unwahrscheinlicher ist es, dass die Null in dem Konfidenzintervall liegt, da dieses dann kleiner ist Fazit o ist die mittlere korrigierte Korrelation also von Null verschieden, kann die wahre Validität zwar nicht exakt bestimmt werden, aber auf jeden Fall größer Null angenommen werden o ist die mittlere korrigierte Korrelation nicht von Null verschieden, dann heißt das, dass die Fehlervarianz durch Situationsspezifika nicht eliminiert werden kann und somit keine Generalisierung möglich ist KRITIK/PROBLEME BEI DER VALIDITÄTSGENERALISIERUNG „Garbage-in – Garbage-out“ Problematik o Dieses Argument kritisiert, dass die methodische Qualität der Primärstudien im Rahmen der Validitätsgeneralisierung per se nicht geprüft wird o Zur Reduktion dieser Problematik können Expertenratings der Qualität der Primärstudien herangezogen werden. Entsprechend der Einschätzungen können Studien ausgeschlossen werden o es sollten nur Primärstudien eingehen, die methodische Mindeststandards erfüllen (rein oberflächlich kann man methodische Qualität schon erkennen, von welchem Publikationsorgan eine Studie veröffentlicht wurde, z.B. APA) o Umgang mit Studien unterschiedlicher methodischer Qualitat: - Gewichtung: bessere Studien bekommen starkeres Gewicht - separate Analysen für die unterschiedlichen Klassen „Äpfel und Birnen“ Problematik o Stellt die Frage, ob Prädiktoren bzw. Kriterien als gleiche Konstrukte zu Werten sind (bspw. ist Intelligenz im HAWIE das Gleiche wie Intelligenz in den APM) o Die Berücksichtigung der Homogenität der betrachteten Variablen ist daher von großer Bedeutung. Wird dies nicht getan, so kann ein möglicherweise in homogenen Subgruppen bestehender Effekt nicht erkannt werden Problematik abhängiger Untersuchungsergebnisse o Werden Teilergebnisse aus einer Studie verwendet, die an ein und derselben Stichprobe durchgeführt wurde, so geht diese Stichprobe mehrfach in die Analyse ein. Der Einfluss dieser Stichprobe wäre in diesem Falle übermäßig stark o Aufgrund dieser Problematik sollten in einer Validitätsgeneralisierung lediglich Ergebnisse aus unabhängigen Stichproben verwendet werden. Werden in einer Studie mehrere Teilergebnisse dargestellt, so werden diese gemittelt und als einzelne Validität eingegeben „Filedrawer“ Problematik/Publication-Bias o Die Publikationspolitik wissenschaftlicher Zeitschriften begünstigt positive metaanalytische Ergebnisse, weil überwiegend Studien mit signifikanten Ergebnissen veröffentlicht werden und Studien mit nicht-signifikanten Ergebnissen unberücksichtigt bleiben o Zur Reduktion dieser Problematik werden sogenannte „Fail-Safe“-N´s berechnet. Diese geben die Anzahl nicht-signifikanter Untersuchungen an, die noch aufgenommen werden müssten, um den Gesamteffekt auf Null abzusenken EMPIRISCHES BEISPIEL EINER VALIDITÄTSGENERALISERIUNG Studie von Wiesner & Cronshaw (1988) führten eine Metaanalyse der prädiktiven Validität verschiedener Interviewarten (strukturierte vs. unstrukturierte Vorstellungsgespräche) durch - alle Studien: r = .47 [0.08; 1.00] (Validität generalisierbar, 0 nicht im Intervall) - bei einer durch Artefakte aufgeklärten Varianz von 14% - d. h. Suche nach Moderatoren ist sinnvoll - Strukturiertheit des Interviews zeigt Moderatorwirkung o strukturierte Vorstellungsgespräche erweisen sich als valide (r=.40) o unstrukturierte nicht (r=.13) - strukturiert: Interviewer mit Leitfaden o Reihenfolge o Dauer des Gesprächs o Skalen zur Bewertung METAANALYSE Definition Metaanalyse o „Gruppe von Verfahren, mit denen die Ergebnisse verschiedener Untersuchungen zu einer gemeinsamen Thematik zusammengefasst werden, um so einen Überblick über den aktuellen Stand der Forschung zu gewinnen“ (Bortz & Döring, 1995, S.589) o meist geht es um die Frage der Wirksamkeit (des Effekts) eines Treatments o durch die vielen Einzeluntersuchungen wird der wahre Effekt geschätzt Grundannahme: die Stichproben der eingehenden Studien sind vergleichbar d.h. aus einer Population Ziele: o Beschreibung von Forschungsfeldern - spezifische Beschreibungsdimension hinsichtlich der Konstruktdefinition, allgemein beschreibende Merkmale wie bspw. der Umfang des Forschungsvolumens Beschreibung von kausalen Beziehungen - Präzisierung der Richtung und Stärke des Zusammenhangs durch große Anzahl an Studien Prüfung und Entwicklung von Theorien o o Pro: o Metaanalysen wählen Studien entsprechend bestimmten statistischen Indikatoren aus o die Beschreibung der kausalen Beziehung erhöht die: - statistische Validität: durch die Aggregation erhalt man hoch reliable mittlere Differenzen - Konstruktvaliditat: heterogene Operationalisierungen machen die Übertragung von Ergebnissen möglich - interne Validität: Aufnahme vieler Primärstudien gleicht die methodischen Artefakte aus - externe Validitat: durch systematische Prüfung der Generalisierbarkeit Contra: o geringerer Fokus; macht lediglich Aussagen darüber ob ein fraglicher Effekt existiert und wie groß er ist o macht nicht Halt vor Studien mit methodischen Mangeln o Äpfel – Birnen Problem (siehe oben Validitatsgeneralisierung) Abgrenzung Validitätsgeneralisierung vs. Metaanalyse o Validitätsgeneralisierung ist ausschließlich auf Validitäten, d.h. den Zusammenhang zwischen Prädiktoren und Kriterien bezogen o Werden auch andere Forschungsbefunde (z.B. Mittelwertsunterschiede) in die Analyse miteinbezogen so spricht man von einer Metaanalyse o Merke: Jede Validitätsgeneralisierung ist eine Metaanalyse aber nicht jede Metaanalyse ist eine Valditätsgeneralisierung EXKURS: EFFEKTGRÖßE 10.2.1 Exkurs Effektgröße o Definition Effektgröße: - ist ein standardisiertes statistische Maß gibt die relative Größe der Mittelwertsdifferenz zwischen 2 Populationen an, d.h. es beschreibt den systematischen Unterschied zwischen 2 Populationen mittels des Effekts kann die praktische Relevanz von signifikanten Ergebnissen verdeutlicht werden o Zeichen der Effektgrose: ε (Epsilon) o Formel für Mittelwertsunterschiede: ε = (m - n) / s - (m = Mittelwert Gruppe1, n = Mittelwert Gruppe 2; s = Standardabweichung, errechnet aus beiden Verteilungen) MERKE: - je größer der Unterschied zwischen den experimentellen Bedingungen, desto größer der Effekt je kleiner die Varianz innerhalb der Bedingungen, desto größer die Effektstärke o o Konventionen: o abhängige vs. unabhängige Effektgrößen: - o unabhängig: verschiedene Stichproben innerhalb einer Studie verschiedene Effektgrößen Mittelung der Effektgrößen aus den verschiedenen Stichproben abhängig : verschiedene AVs an einer Stichprobe eine Effektgröße, da Personen mit einer hohen Ausprägung auf dem einen Wert auch eine hohe Ausprägung auf dem anderen haben Problemlösung: Mittelung der abhängigen Effektgrößen Signifikanztests anstelle von Effektstärkenberechnung: - würden zu völlig falschen Ergebnissen führen, da Zufallseinflüsse das einzelne Ergebnis einer Studie verfälschen - Die Abweichung vom Populationsmittelwert ist allein auf den Zufall zurückzuführen o bei der Metaanalyse ist das Ergebnis aussagekräftiger, da sich die Extremwerte bei der Mittelwertberechnung neutralisieren VORGEHEN BEI DER METAANALYSE VEREINHEITLICHUNG VON KENNWERTEN Da im Rahmen einer Metaanalyse unterschiedliche Testkennwerte (z.B. t-Werte, χ2-Werte) einbezogen werden, müssen diese vor der Aggregation in ein einheitliches Maß umgerechnet werden Bortz und Döring (2002) besprechen in diesem Zusammenhang den Delta-Koeffizienten (Δ) von Kraemer (1985) Folgende Kennwerte lassen sich in das Delta-Maß überführen: o Produkt-Moment-Korrelation o t-Test für unabhängige Stichproben o t-Test für abhängige Stichproben o χ2-Werte aus Vierfeldertests o χ2-Werte aus rxc-Kontingenztafeln o Effektstärken aus Varianzanalysen (η2) o Spearmans rho o Kendalls tau (τ) sind die Effekte in die Studien nicht angegeben wird mit kombinierten Signifikanztests gerechnet o aus einfachen Signifikanzaussagen wird eine Gesamtaussage über die Existenz eines Effekts gemacht o Problem: o kombinierte Signifikanztest können keine Aussage über die Stärke des Effekts machen d.h. eigentliches Ziel der Metaanalyse wird verfehlt sind die Effekte der Primärstudie nicht bekannt, lässt sich ihre Homogenität nicht bestimmen weitere Möglichkeiten bei fehlenden Effekten Auszählung signifikant positiver / negativer und nicht signifikanter Ergebnisse Vergleich positiver und negativer Ergebnisse (Vorzeichentest) Überprufung der signifikanten Ergebnisse auf Zufälligkeit (Binomialtest) Zusammenfassung exakter Irrtumswahrscheinlichkeiten (Stouffer-Methode) Der weitere Ablauf ist analog zur Validitätsgeneralisierung HOMOGENITÄTSTESTS FÜR VERSCHIEDENE DELTAMAßE Delta Maße der verschiedenen Studien dürfen nicht einfach zusammengefasst werden es muss vorerst bewiesen werden, dass die Effektgrößen der Studien als Schätzung eines gemeinsamen Populationsparameters anzusehen sind ein signifikanter Q Wert besagt, dass die Streuung der Zi Werte größer ist als die zufallsbedingte Streuung heterogene Zi Werte d.h. unterschiedliche Effektparameter ( Random Effects Models) nicht signifikanter Q Wert = Effektgrößen der Studien können als Schätzung eines gemeinsamen Populationsparameters angesehen werden wenn Q Wert signifikant, Suche nach Moderatoren SUCHE NACH MODERATOREN Moderatorvariablen erfassen Besonderheiten der Studien Moderatorvariablen sollten varianzanalytisch erfasst werden Moderatorvariablen unterteilen die k Studien in Substichproben, wobei Q(zwischen) signifikant und Q(innerhalb) nicht signifikant sein sollte Auswahl der Moderatorvariablen: o Sollte theoriegeleitet geschehen o liegen keine Hypothesen vor: - Korrelation zwischen potentiellen Moderatorvariablen und studienspezifischen Delta – Maßen die Höhe der Korrelation informiert über die Bedeutung der Studienmerkmale für die Heterogenität der Delta Maße signifikante Beta – Gewichte geben Hinweis auf mögliche Moderatorvariablen diese Moderatorvariablen müssen aber auch varianzanalytisch überprüft werden SIGNIFIKANZTEST MITTELS KONFIDENZINTERVALL Analog zu Validitätsgeneralisierung BEISPIEL: SCHMIDT & HUNTER (1998) Beispiel einer Metaanalyse Studie von Schmidt & Hunter (1998) - zusammenfassende Darstellung der Validität von 19 Auswahlmethoden bei der Vorhersage von Berufs- und Ausbildungserfolg - Vorstellung der inkrementellen Validität der paarweisen Kombination von „allgemeiner kognitiver Fähigkeit“ (general mental ability, GMA) mit den übrigen 18 Maßen - in den Wert für die prädiktive Validität von GMA gingen 32.000 Datensätze aus 515 nichtmilitärischen Jobs ein - Prädiktive Validität von Intelligenz aufgeschlüsselt nach Berufskategorien o .58 Tätigkeit mit Führungsaufgaben, gehobene Ausbildung o .56 Fachtätigkeiten hoher Komplexität o .51 Fachtätigkeiten ittlerer Komplexität o .40 Fachtätigkeiten niedriger Komplexität o .23 Hilfstätigkeiten - Intelligenz als bester Prädiktor für Berufserfolg - ABER Komplexität des Jobs erweist sich als Moderator o je höherwertiger der Job, desto besser sagt Intelligenz den Berufserfolg voraus CONCEPT MAPS POSPESCHILL DIAGNOSTISCHER PROZESS UND PSYCHOLOGISCHES GUTACHTEN GUTACHTEN (AUCH SS SPINATH) Bereiche, in denen Gutachten benötigt werden: o Universität/Hochschule (Zulassung zum Studium) o Schule (z.B. Schulfähigkeit) o Versicherungsträger (z.B. Rentenfragen) o Gesundheitswesen (klinisch-psychologische Interventionen) o öffentliche Verwaltung (z.B. Städteplanung) o Arbeitsamt (z.B. Berufseignung) o Verkehrsbehörden (Fahreignung) o Kreiswehrersatzamt (Wehrdiensttauglichkeit) o verschiedene Gerichte (z.B. Familiengericht: Sorgerecht) Kriterien bei der Erstellung von Gutachten o Sorgfaltspflicht: - o sachlich und wissenschaftlich fundierte Expertise der Diagnostiker muss auf geeignete diagnostische Erhebungsverfahren rekurrieren, relevante Hypothesen formulieren und auf empirisch begründetes Wissen zurückgreifen kann. Transparenz: - o Der Auftraggeber (Adressat) eines Gutachtens ist angemessen und nachvollziehbar über die diagnostischen Verfahrensschritte, die zur Gewinnung der Befunde vollzogen wurden zu informieren. Ethische und rechtliche Standards: - o Gutachtertätigkeiten können durch eine Vielzahl ethischer Auflagen und rechtlicher Bestimmungen vorstrukturiert sein. Der freiwillige Kontakt (bei dem zumeist begutachtete Person und Auftraggeber zusammenfallen) setzt dabei andere ethische Limitierungen als mehr oder weniger erzwungene Kontakte (z. B. bei einem Sorge- und Umgangsrechtsstreit). Einsichtnahme - Eine Einsicht in das Gutachten erhält zunächst nur der Auftraggeber. Gutachter und Auftraggeber sollten sich allerdings immer darüber verständigen, ob auch anderen Personen (z. B. der begutachteten Person) Einsicht in das Gutachten gewährt wird. Wird die Einsichtnahme prinzipiell ausgeschlossen, ist die begutachtete Person davon in Kenntnis zu setzen und die Weitergabe an den Auftraggeber schriftlich zu bestätigen. Mängel bei Gutachten Mängel bei Aktenanalyse Mängel bei der Verarbeitung von Fachliteratur u. wissenschaftl. Konzepten Tests, die die Gütekriterien nicht hinreichend erfüllen Bsp.: Fahreignungsdiagnostik MPU: Medizinisch- psychologische Untersuchung Weniger Untersuchungen aufgrund weniger Alkoholauffälligkeiten die meisten Gutachten aufgrund Alkoholauffälligkeiten (hauptsächlich erstmalig auffällig) ca. 40% positives, 40% negatives, 16% Nachschulungsfähig wann? BAK> 1,6 Promille, mehrere Trunkenfahrten, 18 Punkte in Flensburg. warum ist BAK so wichtig? Rückschlüsse auf getrunkene Alkoholmenge Rückschlüsse auf Alkoholgewöhnung Leistungstest ART-90 Computersystem ART-90 ist eine Leistungsbatterie, die speziell für verkehrspsychologische Anwendung. (nonverbaler Intelligenztest M30, Aufmerksamkeit, verkehrspsychologischer Tachistoskoptest, Linienlabyrinthtest, Entscheidungs- Reaktionstest, reaktiver Dauerbelastbarkeitstest mit Wiener Determinationsgerät, sensumotorischer Koordinationstest mit einfachem Fahrsimulator) Im ART- 90 integriert: verkehrsbezogener Persönlichkeitstest (u. a. Selbstkontrolle, soziale Anpassung…), Fragebogen zur Risikobereitschaft (physisch, sozial, finanziell), verkehrsspezifische Einstellungen (u. a. aggressive Interaktion, emotionales Autofahren) Nonverbaler Intelligenztest M30 Matrizentest 15 min Split- Half: .89 Validität: Signifikante Beziehung zu Merkmalen des Fahrverhaltens. PÄDAGOGISCH PSYCHOLOGISCHE DIAGNOSTIK DEFINITION individuelles Lernverhalten wird in der pädagogischen Psychologie analysiert Erkenntnisse über das individuelle Lernverhalten bilden die Grundlage für: o individuelle Schülerhilfe: für Eltern / Pädagogen die mit Störung eines Kindes konfrontiert sind o Schullaufbahn-, Aus- und Weiterbildungsberatung: Orientierungs-, Entscheidungshilfe für die Realisierung der Bildungsziele o Erziehungsberatung: Erfassung von Kontext/ Lernumwelt und Veränderung der Rahmenbedingungen DIAGNOSE: ERFASSUNG PÄDAGOGISCHER DIAGNOSTISCHER MERKMALE LERNVORRAUSSETZUNG die Lernvoraussetzung beinhaltet o den Entwicklungsstand und das Entwicklungspotential das im Zuge der kognitiven Reifung erwarten kann o die Konzentrations- und Aufmerksamkeitsleistung o emotionale und motivationale Aspekte o Bewältigungsfähigkeiten ENTWICKLUNGSSTAND Untersuchung mittels o Breibanddiagnostik (Wiener Entwicklungstest) o spezifische Fähigkeiten (HAWIK IV) Problem: „kognitive Entwicklung unterliegt einer altersbedingten inter- und intraindividuellen Dynamik“ o wird von den IQ Tests nicht erfasst o dynamische Tests Lernsituationen (Kurzzeit- und Langzeitlerntests) werden in Test eingebaut aktiviert Reserven Probanden profitieren von der Lernsituation; deutlicher Validitätszuwachs im Vgl. zu IQ Tests ABER sehr hoher Aufwand und lediglich Vorliegen einer vorläufigen Normierung und Validierung KONZENTRATIONS- UND AUFMERKSAMKEITSLEISTUNG Messung: „Vorgabe einfacher Aufgaben“ o Anzahl bearbeiteter Items + Fehler (entspricht Konzentrationsleistungsmaß) Bsp.: d2, KLT – R EMOTIONALE UND MOTIVATIONALE ASPEKTE Ängstlichkeit (Bsp. Bewertungsangst, Prüfungsangst) Selbstwirksamkeitserwartung Kontrollüberzeugungen (Konsequenzen / Resultate internal vs. external attribuieren) Selbstkonzept Leistungsmotivation Test: AFS (Angstfragebogen); FKS (Frankfurter Kinderselbstkonzeptinventar); FKL (Fragebogen der Kausalattribuierung in Leistungssituationen) BEWÄLTIGUNGSFÄHIGKEITEN bzgl. sozialer Probleme mit Mitschülern Test: SSKJ – R (Fragbogen zur Erhebung von Stress und Stressbewältigung im Kindes- und Jugendalter) ERFASSUNG DER LERNLEISTUNG SCHULLEISTUNGSTESTS Schulleistungstest können informeller und formeller Art sein die Test geben Hinweise auf mögliche pädagogische – didaktische Maßnahmen FORMELL formelle Schulleistungstests: o basieren auf psychometrischen Modellen oder Methoden o sind normiert für Klassenstufe und Schulart o ermöglichen einen überregionalen Leistungsvergleich INFORMELL informelle Schulleistungstests: o werden vom Lehrenden selber entwickelt o geben Info über den Wissenstand der Schüler und ermöglichen eine Anpassung des Lehrplans LEHRZIELORIENTIERTE TESTS Lehrzielorientierte Tests (Bsp.: mündliche Prüfung): o erfassen, ob Lernziel erreicht wurde o müssen folgende Gütekriterien erfüllen; Inhaltsvalididtät: Aufgaben decken den gesamten inhaltlichen Bereich ab Kriteriumsvalidität: Test muss angeben, ob und in welchem Ausmaß das Kriterium / Ziel erreicht wurde o Lehrziel wird auf 4 Anforderungsebenen gemessen (Anforderungsebenen kennzeichnen den Grad des Abstraktionsvermögens) Reproduktion (Wiedergabe von Wissen) Reorganisation (Wiedergabe von Wissen unter veränderten Parametern) Transfer (Anwendung gelernter Methode in neuem Gebiet) Problemlösen (selbständiges Lösungen finden, schlussfolgern, bewerten und Anwendung von Methoden in neuen Situationen) SCHULLAUFBAHNBERATUNG optimale Passung der Lernvoraussetzung und den Anforderungen SCHULFÄHIGKEIT / EINSCHULUNG Test: o WTA (Weilburger Testaufgaben für Schulanfänger) o Anwendung NUR in kritischen Fällen, zusätzliche Absicherung mit Entwicklungstests o Meist ist aber die Bewährung in der ersten Klasse das beste Kriterium SONDERSCHULE angezeigt bei physischer Störung, Verhaltensstörung, kognitiver oder emotionaler Behinderung) allgemeine Kriterien: o es liegt ein nicht aufholbarer Leistungsstand vor (d.h. Wiederholung der Klasse würde nichts bringen) Schulleistungstest o IQ < 85 Ist der IQ < 85 nimmt man an, dass der Leistungsrückstand auch durch den geringen IQ bedingt ist und nicht aufgeholt werden kann ABER : Es sollte mittels Förder- und integrativer Maßnahmen versucht werden eine Sonderbeschulung zu verhindern Es sollte vermieden werden, dass „Problemkinder“ in den Grundschulen abgeschoben werden auf die Sonderschule WEITERFÜHRENDE SCHULEN Aufnahmeprüfungen und Empfehlungen der Grundschule reichen nicht (Subjektiv) Entwicklungstests und Übertrittstests sind nur für kurz und mittelfristigen Prognosen valide (max .60) Empfehlungen der Grundschule sind zuverlässiger, wegen langer Beobachtungszeiträume; aber kein Vergleich der Schulnoten möglich; unzureichende Antizipation der Lehrer besser: Bewährungsphase in gewünschter Schulform: Prozessdiagnostik statt Statusdiagnostik UNIVERSITÄT Problem: „Nachfrage und Angebot stehen in einem Verhältnis 2:1“ Möglichkeiten der Diagnostik: o Abinote: allgemeine Studieneignung o studienfachbezogene Eignungstests und Interviews sollen eine bessere Passung zwischen individuellen Voraussetzungen und Neigungen zeigen Verringerung der Studienabbrüche oder Studienfachwechsel HOCHBEGABUNG Kriterium: 2 Standardabweichungen über dem Mittelwert (IQ = 130, Pr: .98) VORSICHT: o Lehrerurteil ist wenig reliabel, kann lediglich der Vorselektion dienen o Hochbegabung ist NICHT gleichzusetzen mit guter Leistung Förderung (bspw. Klasse überspringen) nötig (d.h. schlecht Leistung ist durch Unterforderung erklärbar) Test muss folgenden Kriterien genügen: o mehrere Intelligenzbereiche müssen getestet werden o der Test muss aktuell sein (Problem Flynn Effekt) o muss im oberen Bereich gut differenzieren Differenzierung zwischen Achievement und Underachievement (Personen zeigen Leistung die unter ihrem eigentlichen Potential liegt) ist nur mit spezieller Diagnostik möglich Man muss auch von Normalbegabten Overachievern differenzieren können (die im IQ-Test hervorragend waren, aber eigentlich nicht hochbegabt sind) Problem mit dem Konfidenzintervall bei Tests nach KTT DIAGNOSTIK VON KONTEXTFAKTOREN DES SCHULUMFELDS SCHULKLIMA: entscheidet über Erfolg / Misserfolg in der Schule beeinflusst die kog., emotionale und soziale Entwicklung von Kindern ist ein multivariates Konstrukt das sich zusammensetzt aus der subjektiven Wahrnehmung o der Beziehung zwischen Schülern und der zwischen Schülern und Lehrern Merkmal der Interaktion: Lehrer – Schüler (Disziplin, Vertrautheit); Schüler – Schüler (Disziplin, Konkurrenz); Lehrer – Lehrer (Respekt, Kooperation) o der individuelle Merkmale individuelle Merkmale der Schüler bzw. der Schülerschaft (Bsp.: Geschlecht, Alter, soziale Kompetenz) individuelle Merkmale, Verhalten und Unterricht des Lehrers (Bsp.: Alter, Geschlecht, Lehrkompetenz) Merkmale der Schule (Bsp.: Lage, Größe) TESTUNG: Erfassung des Verhältnisses: o Schüler – Schüler; Lehrer – Schüler; kollektive Einstellung und Verhaltensbereitschaft von Lehrern und Schülern o LFSK 4 – 8 / 8 – 13 (Linzer Fragebogen zum Schul und Klassenklima) Lehrer – Schüler Interaktion o mittels systematischer Beobachtungsverfahren werden Sprechakte bei Lehrern und Schülern erfasst: FIAC (Flanders interaction categories) methodische didaktische Aspekte des Lehrverhaltens erfasst: LVI (Lehrverhaltensinventar) INTERVENTIONEN ZUR KLIMAVERBESSERUNG sind abhängig von der Gruppe es ist erwiesen, dass kooperative Arbeitsstrukturen im Vergleich zum Wettbewerbsklima die Zufriedenheit steigern DIAGNOSTIK IN DER ABO-PSYCHOLOGIE ABO ist bezogen auf praktische Bedürfnisse von Organisationen im industriellen Bereich Anwendung: o Diagnostik und Entwicklung von Organisationen o Beurteilung und Entwicklung von Personal (Individuum) o Analyse und psychologische Gestaltung der Arbeit (Arbeitsbedingungen) Bereiche, für die Diagnostik und Interventionen wichtig sind: o Individuen o Aufgaben o Gruppen (inkl. Konflikte zwischen Personen) o Organisationen > übergeordnete Stellung, da Integration der 3 anderen Bereiche ORGANISATIONSDIAGNOSTIK Betriebswirtschaftlich ausgerichtete Organisationsdiagnostik: o systematische Untersuchung des Gesamtzustandes einzelner Organisationen o Ziel: Probleme aufdecken und Organisation ändern Psychologisch ausgerichtete Organisationsdiagnostik: o psychologische Aspekte des Erlebens und Verhaltens von Mitgliedern in Organisationen diagnostizieren o Ziel: Regelhaftigkeiten im Erleben, im Verhalten und in den Interaktionen beschreiben, erklären und prognostizieren (Büssing) o Allerdings kaum genormte Verfahrensweisen > eher Programm als Sozialtechnologie 2 grundlegende Muster: o Strukturdiagnostik: - o Kontingenzansatz: Unterschiede zwischen Organisationsstrukturen sind auf Unterschiede in den Situationen zurückzuführen, in denen sich die Organisation befinden (z.B. bestimmte Technologien oder Größe eines Unternehmens) Anwendung: Vergleichende Organisationsforschung einmalige Datengewinnung Prozessdiagnostik: - Annahme: Merkmale und Bedingungen einer Organisation verändern sich fortwährend Anwendung: Diagnose von - organisationalen Veränderungen - sozialer Interaktion und Kommunikation - Wechselwirkungen zw. Strukturmerkmalen, situativen Faktoren und Erleben/Verhalten von Organisationen mehrfache Datengewinnung ABER: übergreifende und hinreichend kohärente Organisationsdiagnostik nur schwer zu operationalisieren > Begriff „Organisationsdiagnostik“ eher theoretische Fiktion PERSONALBEURTEILUNG EIGNUNGSDIAGNOSTIK Ziel: Bemühungen zur Maximierung beruflicher Zufriedenheit und Leistung o größtmögliche Übereinstimmung zw. beruflichen Anforderungen und optimaler Bewerberauswahl und -zuordnung 3 prototypische Konstellationen (mit fließenden Übergängen): o Mehrere freie Stellen, ein Bewerber > Auswahl der bestgeeigneten Stelle oder Funktion > Eignungsdiagnostik o Zahl der offenen Stellen = Zahl der Bewerber > optimale Zuordnung oder Platzierung o Nur eine freie Stelle, mehrere Bewerber > Ermittlung der bestgeeigneten Person > Konkurrenzauslese/Selektion Leitsätze für Vorgehensweise: o Anforderungsbezug der Verfahren o Informationen über Arbeitsplatz möglichst vorab geben o Vorgehensweise der Vorauswahl und Auswahlkriterien festlegen o Kandidaten über Untersuchungssituation aufklären und angemessen gestalten o gesetzliche Vorgaben beachten o Anforderungen an Objektivität, Reliabilität und Validität Instrumente der beruflichen Eignungsdiagnostik/ Prädiktortypen: Bewerbungsgespräch: besondere Bedeutung, besser strukturierte Interviews, da sonst Gesprächsleiter implizit Einfluss nehmen kann Tests zur allgemeinen Intelligenz: Zusammenhang mit berufl. Leistungshöhe vielfach belegt Tests zur Wahrnehmungsgeschwindigkeit, Psychomotorik, berufsrelevantes Wissen Leistungsmotivation: Messung durch Fragebogen oder projektive Tests (TAT) Metastudien zeigten (schwachen) Zusammenhang zw. Leistungsmotivation und verschiedenen Leistungsmaßen (.13 - .22) biografischer Fragebogen: Erfahrungen und deren subjektive Verarbeitung als Prädiktoren > Validität hängt stark von jeweiliger Gruppe ab (Wissenschaftler > Jugendliche) Integritätstests: beachtliche Validität und inkrementelle Validität gegenüber Intelligenz Big-Five: nur schwacher Zusammenhang (am höchsten: Gewissenhaftigkeit: .12) kognitive Leistungstests, andere Leistungstests und Arbeitsproben haben höchste Validitätskoeffizienten, werden aber nur selten benutzt (s. Tab. S. 450) nahezu alle verfügbaren Instrumente werden benutzt (außer projektive Verfahren) Probleme der Eignungsdiagnostik: viele Verfahren werden nicht auf Testgütekriterien hin überprüft, da viele Unternehmen eigene spez. Verfahren entwickeln meist nur Status- und nicht Prozessdiagnostik > Tagesform der Bewerber bestimmt Chance; punktuelle Messungen eröffnen nur geringe Möglichkeiten, treffsichere Aussagen über künftige Entwicklungen zu machen Alternativen: o Assessment Center EXKURS ASSESSMENTCENTER = Methode der Personalauswahl und Personalentwicklung (früher v.a. für Führungspositionen) unfassendes, standardisiertes Verfahren mit vielfältigen Leistungs- und Persönlichkeitstests, Gruppen- und Kommunikationsübungen, Simulation von Arbeits- und Gruppenprozessen 3-5 Tage werden Teilnehmer beobachtet (gut, da nicht nur Tagesform berücksichtigt) Ausgebildete Beobachter Ziel: können Bewerber Jobanforderungen erfüllen? o Versuch, zukünftige Anforderungen zu simulieren, um individuelle Fähigkeiten im Verhalten beobachtbar zu machen Prinzipien: o Verhaltensorientierung: nicht Persönlichkeitseigenschaften, sondern Verhaltensweisen als Indikatoren der Eignung möglichst realistische Simulation o Anforderungsbezogenheit: Eignung lässt sich nur durch das „geeignet wofür?“ bestimmen detaillierte Anforderungsanalyse o Methodenvielfalt: um Fehlerquellen auszugleichen o Mehrfachbeurteilung: um Beobachter- und Beurteilungsfehler auszugleichen intensives Training und Schulungen der Beobachter nötig o Transparenz: offen gelegte Anforderungen und Beobachtungskriterien; Zusammenhang zw. Ziel und Verfahren ist evident Vorinformationen und Rückmeldung (führt zu hoher Akzeptanz bei den Teilnehmern) Gütekriterien o Objektivität: Durchführungsobjektivität nicht gegeben, Auswertungsobjektivität besser (Trennung von Beobachter und Beurteiler) o Reliabilität: - o da es mehrere Beurteiler gibt, ist zusätzlich eine Prüfung der Beurteilerübereinstimmung möglich (Interraterreliabilität = .50-.90), ähnliche Maße für interne Konsistenz - wenn viele versch. Aspekte von Leistungen zum Tragen kommen höchstens .50 (mittel) Wiederholungsuntersuchungen fehlen, da unterschiedliche Vorraussetzungen, wenn man 2x den gleichen Test macht Validität: - Zufriedenstellende Validität: Metaanalyse mittlere prädiktive Validität von .37 INHALTE DES SOMMERSEMESTER 2007 (JULIA) SS 1 Evaluation ist systematische Analyse und empirische Untersuchung von Konzepten, Bedingungen, Prozessen und Wirkungen zielgerichteter Aktivitäten zum Zwecke ihrer Bewertung und Modifikation. Unterscheidung: Summative und formative/begleitende Evaluation Qualitätsentwicklung im Wirtschaftsbereich: Kontinuierlicher Verbesserungs- Prozess Die systematische ständige Verbesserung aller Unternehmensbereiche durch alle Mitarbeiter. Auswertung Evaluation Vergleich von Selbst- und Fremdbeurteilung SS 2 Anwendungsfeld Hochschule: Lehrevaluation durch Studierende. Auswahl von Studierenden Auswahl von Lehrstuhlinhabern Auswahl Studierende Dilemma der Fachgruppe Kompetenz in ihrem Fachbereich immenser Entwicklungsaufwand und geringe Nutzen (geringe inkrementelle Validität nach Berücksichtigung der Abinote) Grundrate: Anteil der Geeigneten in Bewerberstichprobe Was kennzeichnet erfolgreichen Studierenden? allgemeine Fähigkeiten Kenntnis bestimmter Wissensinhalte spezifische Fertigkeiten förderlich: Persönlichkeitsmerkmale darüber hinaus: Zeit, psychische Gesundheit Studie Pospeschill und Spinath: Studienerfolg Zusammenhang Abiturnote und Vordiplomsleistung ist bedeutsam. SS 3 Besetzung einer Hochschulprofessur Bildung einer Besetzungskommission Ausschreibungstext (Stellenprofil, Bewerberprofil, Voraussetzungen, Zielvorstellungen) Sichtung der Bewerbungen Vorauswahl Vorstellung in der Kommission (Einladung: ja/nein) Auswahl der der einzuladenden Bewerber (6-8 Kandidaten) Kommissionssitzung mit dem Ziel der „Liste“ (3-4 Kandidaten) Vgl. Gutachten durch externe Experten Genehmigung der Liste durch entscheidungsrelevante Universitätsgremien Ruferteilung und Verhandlungen: Abarbeiten der Liste Familienberatung Familienbögen (Familiensystem, alle Zweierbeziehungen, eigene Funktion). Interne Konsistenz der Skalen teils sehr gering. Familien- System- Test: FAST: Brett mit Holzfiguren: Qualitative und quantitative Erfassung von familiären Beziehungsstrukturen. Kohäsion und Hierarchie. Aufstellung von typischen, idealen & Konfliktrepräsentationen. Nachbefragungen und Verhaltensbeobachtungen. Paardiagnostik im Gießen- Test: beruht auf Gießen- Test. Selbst- und Fremdbeurteilung. 16 Paartypen (Identifikation des bestpassenden Paartyps). 5 Skalen: Soziale Resonanz, Dominanz, Kontrolle, Grundstimmung, Durchlässigkeit. Psychoanalytische Orientierung. Interne Konsistenz: ca. .50-.70 Familie in Tieren: Kind zeichnet sich und seine Familie als Tiere. lediglich Hypothesen generierendes Verfahren SS 5 FORENSISCHE PSYCHOLOGIE Fragestellungen Glaubhaftigkeit von Zeugenaussagen Verantwortungsreife von strafrechtlich auffällig gewordenen Jugendlichen Schuldfähigkeit von Straftätern Sorgerechtsstreitigkeiten Entzug der Geschäftsfähigkeit Pflegeschaftsverfahren Therapieprognosen Glaubwürdigkeit Aussagenpsychologische Konstrukte personal (Zeuge) situativ (Aussage) kognitiv Zeugentüchtigkeit Aussagen- Genauigkeit motivational Glaubwürdigkeit Glaubhaftigkeit Realkennzeichen glaubwürdiger Aussagen allgemeine Merkmale logische Konsistenz unstrukturierte Darstellung qualitativer Detailreichtum spezifische Inhalte raum- zeitliche Verknüpfung Interaktionsschilderung Wiedergabe von Gesprächen Schilderungen von Komplikationen im Handlungsverlauf inhaltliche Besonderheiten Schilderungen ausgefallener Einzelheiten Schilderungen nebensächlicher Einzelheiten Schilderung eigener psychischer Vorgänge Motivationsbezogene Inhalte: spontane Verbesserung der eigenen Aussagen Eingeständnis von Erinnerungslücken Selbstbelastungen Leitfrage Könnte der Zeuge mit den geg. individuellen Voraussetzungen unter den gegeben Befragungsumständen und unter der Berücksichtigung der möglichen Einflüsse von Dritten diese spezifische Aussage machen, ohne dass sie auf einem realen Erfahrungshintergrund basiert? Mögliche Verfahren Bewertung der Aussage hinsichtlich Kriterien (s. o. ) Konzentrations- und Aufmerksamkeitstest Benton- Test (Gedächtnis) Intelligenztest Anamnese Verhaltensbeobachtung Schuldfähigkeit Schuldunfähigkeit Ohne Schuld handelt,….weil er unfähig ist, das Unrecht der Tat einzusehen oder nach dieser Einsicht zu handeln. verminderte Schuldfähigkeit erheblich vermindert,…Strafe gemildert werden. Übersetzung aus dem rechtswissenschaftlichen Begriffssystem in eine psychologisch- diagnostische Fragestellung und zurück. Vier Bedingungen unter denen die Einschränkung prinzipieller Schuldfähigkeit möglich ist. Krankhafte seelische Störung: körperlich begründbare pathologische Zustände Tiefgreifende Bewusstseinsstörung: hochgradig affektgeladene Zustände Schwachsinn: starke intellektuelle Minderbegabung schwere andere seelische Abartigkeit: andere- nicht primär körperlich begründbarepsychopathologische Entwicklungen (z. B. neurotische Entwicklung, Persönlichkeitsstörung, Sucht (!!)). Therapieprognose: Widersprüchliche Befunde hohe Person- Einrichtungsinteraktion Prädiktoren hohes Alter später Abhängigkeitsbeginn kurze Abhängigkeitsdauer gute Schulbildung „gute“ Extraversion gerichtliche Therapieauflage Erfolgsquote steigt mit zunehmender Verweildauer. Einschätzung der Therapiemotivation erwies sich als ungeeigneter Prädiktor für die Verweildauer. Diagnose Therapiemotivation z.T. unpublizierte Erhebungsinstrumente Set von 50 Karten mit Problembeschreiungen, aus denen die TP zunächst, die für sie bedeutsamen auswählt. Danach: Fragen zum Belastungsausmaß und den spezifischen ursachen- und änderungsbezogenen Attributionen. Cronbachs Alpha: .89 Fragebogen zu therapiebezogenen Einstellungen (TBE): Erfolgserwartung, Therapieabwehr, therapeutenbezogenes Misstrauen. Adjektivliste: Beschreibung eines idealen und eines antizipierten realen Suchttherapeuten. Persönlichkeitsfragebogen für Inhaftierte: Intoleranz gegenüber der Justiz. SS 6 Therapieindikation Straffälliger Problembelastung (Karten mit Problembeschreibungen) allgemeine Therapieeinstellung (Fragebogen zur therapiebezogenen Einstellung, Beschreibung idealen- antizipierten realen Therapeuten) justizbezogene Vorbehalte (Persönlichkeitsfragebogen für Inhaftierte) allgemeine Handlungskompetenz (Stressverarbeitungsbogen SVF, Frankfurter Selbstkonzeptskalen). Benton- Test 10 Karten mit geometrischen Figuren jeweils nach 10 sec. Darbietung müssen Figuren aus dem Gedächtnis nachgezeichnet werden. Auswertung: Zahl der richtigen und falschen Reproduktionen (auch qualitative Auswertung). Retest- Reliabilität: .85 FAF (Fragebogen zur Erfassung von Aggressivitätsfaktoren): Spontane Aggressivität, Reaktive Aggressivität, Erregbarkeit,… α= .61-79 Ted Bundy tötete von 1973-1978 auf brutalste Weise mindestens 28 junge Frauen. sah gut aus, war charmant, intelligent, hatte studiert wurde bei missglücktem Entführungsversuch gefasst. verteidigte sich selber. entkam zweimal psychologische Untersuchung: keine psychotische und neurotische Störungen, keine Gehirnschäden, keine Suchtprobleme. „offiziell litt er weder an Charakterstörungen noch an Amnesie oder sexuell abnormen Phantasien. Problem, das sich festmachen ließ: „Furcht davor, in seinen Verhältnissen mit Frauen gedemütigt zu werden.“ Dennis Rader Serienkiller verrät sich aufgrund Diskette, die er an Medien schickt. SS 7 Multiphasic Sex Inventory für Jugendliche dient der Erfassung psychosexueller Merkmale männlicher, sexuell auffälliger Jugendliche im Alter von 14- 18 Jahren. Lügendetektoren Messen Atmung, Bewegung, Hautwiderstand, Blutdrucks und Pulsrate USA: In vielen Bundesstaaten ist der Polygraphentest als Beweismittel zugelassen (wenn Angeklagter und Staatsanwalt einverstanden sind) Einsatz bei Personalentscheidungen (z. B. Polizeischulanwärter) arbeiten mit Kontrollfragen (provozieren Lüge Aufnehmen der physiologischen Reaktion beim Lügen) o ehrliche Menschen haben i. Vgl. zu Kontrollfragen wenig Arousal bei relevanten Fragen o schuldige Menschen habe i. Vgl. zu Kontrollfragen stärkeres Arousal Lügendetektor wenig wissenschaftliche Untersuchungen, keine nachgewiesene Validität Polygraphgenauigkeit abhängig von Training, Erfahrung In Deutschland o 1998 bei deutschem Strafgericht als Beweismittel zugelassen o Andeutung des Bundesverfassungsgericht 1998: Zur Entlastung von Angeklagten zugelassen, zur Belastung weiterhin verboten. o In Zivilprozessen schon länger zugelassen. o Bundesgerichtshof 1998: Polygraphen sind unzulässige Beweismittel. Kein Erkenntniswert. o wissenschaftliche Gutachten vertraten unterschiedliche Meinungen (Prof Undeutsch) SS 8 Studie mit experimentellem Design: Fördert Stillen die Intelligenz? Die Gruppe, in der mehr gestillt wurde höhere Intelligenzwerte aber Effekt verschwindet, wenn die kognitive Kompetenz der Mutter und andere soziologischeumfeldbedingte Variablen kontrolliert werden. (außerdem: allgemeine Sensibilisierung bezüglich des Umgangs mit dem Kind durch Coaching, mit dem Stillen einhergehende Beschäftigungen mit dem Kind) Beurteilungsfehler als Geschäftsidee Typische Beurteilungsfehler Halo- Effekt: Vorherrschender positiver oder negativer Gesamteindruck überstrahlt alle anderen Eigenschaften. Strenge/Milde- Effekt: Tendenz, besonders streng (hoher Maßstab), besonders mild (niedriger Maßstab) zu beurteilen Tendenz zur Mitte: Vermeidung von Extremen Erster Eindruck: Erster Eindruck beeinflusst die spätere Gesamtbeurteilung erheblich Kontrast: Die Bewertung einer Person wird durch die Bewertung der vorherigen Person beeinflusst. Metaanalyse von Woehr& Huffcutt (1994) zur Effektivität von Ratertraining. Vier unterschiedliche Trainingsansätze: 1. Beurteilungsfehlertraining: Sensibilisierung für typischen Beobachterfehler 2. Training zur Verwendung der Beurteilungsdimensionen: Identifikation beurteilungsrelevanter Information und korrekte Zuweisung zur Dimension 3. Bezugsrahmentheorie: Verwendung von Beurteilungsdimensionen, Ausprägungsgrade, Beurteilungsstandard 4. Verhaltensbeobachtungstraining: Trennung von Beobachtung und Bewertung. Vier mögliche Trainingseffekte 1. 2. 3. 4. Reduktion Halo- Fehler Reduktion Milde- Fehler Verbesserung der Beobachtungsakkuratheit Verbesserung der Beurteilungsakkuratheit Hauptbefunde: Beurteilerschulungen verbessern die Validität von Berurteilereinschätzungen Es gibt differentielle Effekte in Abhängigkeit von Trainingsinhalten und –effekten. (z. B. Beurteilerfehlertraining wirkt sich positiv auf die Vermeidung von Halo- und Mildefehler aus, aber negativ auf die Beobachtungsakkuratheit) Für die Beurteilertrainingspraxis bietet die Metaanalyse eine Orientierungshilfe dahingehen, welche Kombination von Trainingselementen für welchen angestrebten Effekt optimal ist. SS 9 Klinische Diagnostik benötigt sowohl die kategoriale psychiatrische Diagnostik (DSM, ICD) als auch die dimensionale Diagnostik. Kategorial psychiatrischer Diagnostik (DSM, ICD) Krankheitswertigkeit des Leidens bestimmen Für Kommunikation in der Psychiatrie Für Indikation von medikamentöser Therapie Zugriff auf störungsspezifische Literatur Recht, mit Kassen abzurechnen Dimensionale Diagnostik Insbesondere Quantifizierung klinischer Auffälligkeiten Breite und ökonomische Erfassung möglich (Screening) Krankheitswertigkeit durch Norm- oder Cut-off- Werte operationalisierbar Verlauf und Therapieerfolg quantifizierbar Klassifikationssysteme: ICD-10 und DSM-IV Art der Verfahren (Checklisten): ICD-10, DSM-IV IDCL: Internationalen Diagnosechecklisten „ , „ IDCL-P: IDCL für Persönlichkeitsstörungen (Achse-II) Interviews DSM-IV SKID: Strukturiertes Klinisches Interview „ SKID-II: SKID für Persönlichkeitsstörungen (Achse- II) „ DIPS: Diagnostisches Interview bei psychischen Störungen „ Mini- DIPS: DIPS- Kurzform „ Kinder- DIPS: DIPS für Patienten im Kindes- und Jugendalter Exkurs Sensitivität: