...

qwertyuiopasdfghjklzxcvbnmqwerty uiopasdfghjklzxcvbnmqwertyuiopasd fghjklzxcvbnmqwertyuiopasdfghjklzx cvbnmqwertyuiopasdfghjklzxcvbnmq

by user

on
Category: Documents
321

views

Report

Comments

Transcript

qwertyuiopasdfghjklzxcvbnmqwerty uiopasdfghjklzxcvbnmqwertyuiopasd fghjklzxcvbnmqwertyuiopasdfghjklzx cvbnmqwertyuiopasdfghjklzxcvbnmq
qwertyuiopasdfghjklzxcvbnmqwerty
uiopasdfghjklzxcvbnmqwertyuiopasd
fghjklzxcvbnmqwertyuiopasdfghjklzx
cvbnmqwertyuiopasdfghjklzxcvbnmq
wertyuiopasdfghjklzxcvbnmqwertyui
DIAGNOSTIK
opasdfghjklzxcvbnmqwertyuiopasdfg
hjklzxcvbnmqwertyuiopasdfghjklzxc
vbnmqwertyuiopasdfghjklzxcvbnmq
wertyuiopasdfghjklzxcvbnmqwertyui
opasdfghjklzxcvbnmqwertyuiopasdfg
hjklzxcvbnmqwertyuiopasdfghjklzxc
vbnmqwertyuiopasdfghjklzxcvbnmq
wertyuiopasdfghjklzxcvbnmqwertyui
opasdfghjklzxcvbnmqwertyuiopasdfg
hjklzxcvbnmrtyuiopasdfghjklzxcvbn
mqwertyuiopasdfghjklzxcvbnmqwert
yuiopasdfghjklzxcvbnmqwertyuiopas
dfghjklzxcvbnmqwertyuiopasdfghjklz
xcvbnmqwertyuiopasdfghjklzxcvbnm
INHALT
Einführung .........................................................................................................................................................................6
Definitionen .....................................................................................................................................................................6
Arten von Diagnostik ...................................................................................................................................................7
Diagnostisches Dreieck ...............................................................................................................................................8
Bsp. Diagnostik bei Minderbegabung ..............................................................................................................9
Gütekriterien..................................................................................................................................................................... 10
Hauptgütekriterien .................................................................................................................................................... 10
Objektivität............................................................................................................................................................... 10
Reliabilität ................................................................................................................................................................ 11
Validität ..................................................................................................................................................................... 15
Konstruktvalidität ................................................................................................................................................. 18
Ursachen für mangelnde Validität .............................................................................................................. 20
Zusammenhänge zwischen den Hauptgütekriterien.............................................................................. 20
Nebengütekriterien ................................................................................................................................................... 20
Normierung.............................................................................................................................................................. 21
Testtheorie......................................................................................................................................................................... 24
Was ist ein Test? ......................................................................................................................................................... 24
Was ist eine Testtheorie? ........................................................................................................................................ 24
Die klassische Testtheorie ...................................................................................................................................... 26
Axiome der klassischen Testtheorie.............................................................................................................. 26
Formelherleitung................................................................................................................................................... 29
Minderungskorrektur .......................................................................................................................................... 44
Zusammenhang von Reliabilität und Testlänge ....................................................................................... 47
Zusammenfassung der klassischen Testtheorie ....................................................................................... 53
Kritik an der klassischen Testtheorie ........................................................................................................... 54
Pro KTT ...................................................................................................................................................................... 55
Item Response Theorie (IRT) ..................................................................................................................................... 56
Modellannahmen der IRT ....................................................................................................................................... 56
Deterministische vs. probabilistische Modelle ......................................................................................... 56
Vorteile probabilistischer Verfahren ............................................................................................................ 64
Zusammenfassung der Item-Response-Theorie.......................... Error! Bookmark not defined.
Konstruktionsprinzipien psychologischer Tests ............................................................................................... 65
Arten psychologischer Tests ................................................................................................................................. 65
Aufgabentypen in psychologischen Tests ........................................................................................................ 69
Fehlerquellen bei der Itembeantwortung ................................................................................................... 74
Konstruktionsprinzipien psychometrischer Tests....................................................................................... 75
Rational-deduktive Konstruktion ................................................................................................................... 75
External-kriteriumsbezogene Konstruktion .............................................................................................. 76
Induktive Konstruktion ...................................................................................................................................... 78
Prototypenansatz .................................................................................................................................................. 79
Weitere ansätze...................................................................................................................................................... 79
Vergleichende Würdigung ................................................................................................................................. 80
Grundzüge von Itemanalysen........................................................................................................................... 80
Multitrait-multi-method analysen ........................................................................................................................... 87
Das Design der MTMM Analyse ............................................................................................................................ 88
Ein empirisches Beispiel der MTMM Analyse ........................................................................................... 92
Probleme und grenzen der Mtmm analyse nach Campbell und Fiske (1959).................................. 94
Die konfirmatorische MTMM analyse................................................................................................................ 95
Umsetzung des konfirmatorischen Faktorenmodells ............................................................................ 95
Empirisches Beispiel ............................................................................................................................................ 96
Regressionsmodelle .................................................................................................................................................... 102
Die einfache lineare Regression ........................................................................................................................ 102
Multiple Regression................................................................................................................................................ 104
Probleme und Differenzierung von Prognosen ............................................................................................... 108
Probleme von Prognosen: Verhaltensvariabilität ..................................................................................... 108
Probleme von Prognosen: Testfairness ......................................................................................................... 110
Prominente Fairnessmodelle ........................................................................................................................ 110
Probleme von Prognosen: Moderation .......................................................................................................... 116
Verfahren zur Überprüfung von Moderatoreffekten........................................................................... 117
Probleme von prognosen: spezifische und geteilte varianz .................................................................. 120
Exkurs: Partialkorrelation/Semi-partialkorrelation ........................................................................... 121
Kommunalitätenanalyse.................................................................................................................................. 122
Suppressorvariablen ......................................................................................................................................... 123
Mediatorvariablen.............................................................................................................................................. 126
Validitätsgeneralisierung.......................................................................................................................................... 129
Sinnhaftigkeit der Zusammenfassung vonForschungsbefunden ........................................................ 129
Grundidee der Validitätsgeneralisierung ...................................................................................................... 129
Vorgehen bei der Validitätsgeneralisierug (Überblick) .......................................................................... 130
Vorgehen im Einzelnen: Korrektur von Artefakten ............................................................................. 130
Homogenitätsprüfung ...................................................................................................................................... 132
Suche nach Moderatoren................................................................................................................................. 133
Signifikanzprüfung............................................................................................................................................. 134
Kritik/Probleme bei der Validitätsgeneralisierung .................................................................................. 134
Empirisches Beispiel einer Validitätsgeneraliseriung ............................................................................. 135
Metaanalyse.................................................................................................................................................................... 135
Exkurs: Effektgröße ............................................................................................................................................... 136
Vorgehen bei der metaanalyse .......................................................................................................................... 137
Vereinheitlichung von Kennwerten............................................................................................................ 137
Homogenitätstests für verschiedene deltamaße .................................................................................. 138
Suche nach Moderatoren................................................................................................................................. 139
Signifikanztest mittels Konfidenzintervall............................................................................................... 139
Beispiel: Schmidt & Hunter (1998)............................................................................................................ 139
INHALTE DES SOMMERSEMESTER 2007 (Julia) ............................................................................................ 154
SS 1 ................................................................................................................................................................................ 154
SS 2 ................................................................................................................................................................................ 154
SS 3 ................................................................................................................................................................................ 155
SS 4 ...................................................................................................................... Error! Bookmark not defined.
SS 5 ................................................................................................................................................................................ 155
SS 6 ................................................................................................................................................................................ 158
SS 7 ................................................................................................................................................................................ 158
SS 8 ................................................................................................................................................................................ 159
SS 9 ................................................................................................................................................................................ 160
DIAGNOSTIK
EINFÜHRUNG
DEFINITIONEN

Diagnose / Diagnostik
o = kognitive Funktion die folgendes beinhaltet:


gründlich kennen lernen

entscheiden

beschließen
Psychodiagnostik
o = Methode der angewandten Psychologie
o dient der Erfassung (jetzt)

interindividueller Unterschiede im Verhalten und Erleben unter
standardisierten Bedingungen

intraindividueller Merkmale und Veränderungen
o und der präzisen Vorhersage (Zukunft)

des künftigen Verhaltens und Erlebens

möglicher Veränderungen in definierten Situationen
o beurteilt werden: Einzelpersonen, Gruppen, Institutionen, Situationen und
Gegenstände (Bsp. Evaluation von Lehrveranstaltungen)
o oberstes Ziel der psychologischen Diagnostik:

Optimierung der Entscheidungsfindung und NICHT möglichst genaue
Vorhersage (Validität)
 ABER Güte der Entscheidung ist u.a. abhängig von der Güte der
Vorhersage

1
Design, Auswahl und Interpretation eines Tests ist abhängig von der
Entscheidungssituation (Bsp. Diagnostik bei Minderbegabung) 1
d.h. ein Test der in einer Situation sinnvoll ist, kann in einer anderen völlig unbrauchbar sein
ARTEN VON DIAGNOSTIK

klinische Psychologie: Erscheinungsform, Ursache und Auslöser von Verhaltensproblemen
müssen erfasst werden, bevor ein Behandlungsplan erstellt werden kann; Am Ende muss
diagnostisch der Erfolg einer Intervention überprüft werden; Modifikation kann also das
Verhalten selbst betreffen (z.B. Zwänge aufgeben) oder die externen Bedingungen (z.B.
Mobbing  Umplatzierung am Arbeitsplatz)
 Modifikationsdiagnostik als Prozessdiagnostik (wiederholte Untersuchungen erfassen
Verhaltensveränderungen)

ABO und Pädagogische Psychologie: Personenselektion bedeutet, dass eine geeignete
Person aus vielen Konkurrenten für bestimmte Anforderungen ermittelt wird (z.B.
Arbeitsplatz: viele Bewerber im Assessment Center); Bedingungsselektion bedeutet die
Auswahl von geeigneten Bedingungen unter denen eine Person mit bestimmten
Eignungsmerkmalen erfolgreich sein kann (z.B. Studienberatung: eher HTW mit praktischer
Orientierung oder Uni mit theoretischer Orientierung)
 Selektionsdiagnostik als normorientierte Statusdiagnostik (wie ist der Ist-Zustand
gemessen an einer Norm)
DIAGNOSTISCHES DREIECK

psychologische Diagnostik: basiert auf der Grundlagenforschung (bspw. zur Intelligenz), wird
durch eine bestimmte Methode umgesetzt und findet in den verschiedenen Bereichen der
Psychologie Anwendung
BSP. DIAGNOSTIK BEI MINDERBEGABUNG
GÜTEKRITERIEN



Bündelung von Items bilden Tests bzw. Skalen 2
Gütekriterien geben an wie gut sich ein Test / eine Skala für eine bestimmte Fragestellung
eignet
o bis dato kein einheitlicher Katalog einschlägiger Kriterien definiert
allgemein unterscheidet man zwischen Haupt- und Nebengütekriterien
o 3 Hauptgütekriterien: Objektivität, Reliabilität und Validität
o Vielzahl Nebengütekriterien (Bsp. Normierung, Ökonomie)
HAUPTGÜTEKRITERIEN
OBJEKTIVITÄT


Allgemein: der Grad, in dem die Ergebnisse eines Tests unabhängig von der Person des
Testleiters sind
Man unterscheidet:
o Durchführungsobjektivität:
 Standardisierung der Testsituation d.h. keine Variation im Verhalten der
Testleiters (abgefasste Instruktion, gleiche Zeitvorgabe, gleiche
Testunterlagen, Abfassung von Regeln für mögliche Nachfragen)
 Bsp.: Testleiter darf nicht einmal die Instruktion „arbeite so schnell wie
möglich“ und ein anderes mal „arbeite so schnell, aber auch so genau wie
möglich“ geben  nicht objektiv in der Durchführung
 Problem: quantitative Bestimmung (eine Vp den gleichen Test von
verschiedenen Testleitern machen zu lassen ist nicht ökonomisch und
zumutbar)
o Auswertungsobjektivität:
Skalen: die gebündelten Items sagen mehr aus als die einzelnen Items; Addition der Itemantworten
(einer Skala) reduziert den Fehler und erhöht den wahren Wert
2




Verhalten wird durch Items- und Testsscores eindeutig quantifiziert, d.h. jeder
Auswerter muss die gleichen Punkt- oder Leistungswerte eines Probanden
ermitteln
  gleiches Verhalten wird in einem objektiven Test nach exakt den
selben Regeln abgebildet
 hohe Auswertungsobjektivität: Lösungen des Tests sind mittels
Lösungsschlüssel festlegt (z.B. Zahlen-Symbol-Test im Hawik  klares
richtig oder falsch mittels Schablone feststellbar)
 mittlere Auswertungsobjektivität: ungebundene Antworten (Bsp.
Gemeinsamkeiten finden im HAWIK) reduzieren Auswertungsobjektivität, da
manche Antworten nicht im Handbuch sind  Ermessenspielraum des
Testleiters
 Überprüfung der Auswertungsobjektivität: 2 Auswerter 
Auswertungsprotokoll vergleichen
o Interpretationsobjektivität:
 Jeder Untersucher sollte zur gleichen Beurteilung bzw. Interpretation der
Testergebnisse kommen
 Schließt große Normstichproben und ausreichend geprüfte Gütekriterien mit
ein, so dass man davon ausgehen kann, dass jede Person mit dem gleichen
Maßstab beurteilt wird
 „statistische“ Vorgehensweise: Normtabelle  hohe
Interpretationsobjektivität
 „klinisches“ Vorgehen: Ermessensspielraum des Testleiters bedingt
Interpretation und Hypothesengenerierung (z.B. bei der Interpretation von
projektiven Tests)  geringe Interpretationsobjektivität
Voraussetzung: Testverfahren (Durchführung (Testunterlagen, Testdarbietung),
Testauswertung und Testinterpretation) ist ganz genau festgelegt
Objektivität ist dann erfüllt, wenn das Testverfahren so genau festgelegt ist, dass der Test
unabhängig von
o Testleiter,
o Testauswerter,
o Ort und Zeit
durchgeführt werden könnte und dennoch zum selben Ergebnis käme
Hier entstehen viele Fehler bspw. misst der Test nicht den IQ des Probanden sondern den
seines Nachbarn (da dieser abgeschrieben hat)
RELIABILITÄT





Reliabilität beschreibt die Genauigkeit mit der eine Merkmalsdimension erfasst wird,
unabhängig davon ob es sich dabei um die Merkmalsdimension handelt, die intendiert ist
(damit beschäftigt sich nämlich die Validität)
o d.h. ein Test ist „perfekt“ reliabel, wenn eine Person zu 2 Testzeitpunkten (unter
gleichen Bedingungen und ohne Merkmalsveränderung) exakt dasselbe Ergebnis
erzielt (Reliabilitätskoeffizient wäre dann 1)
bei der Reliabilitätstestung wird die Itemreliabilität für eine Skala berechnet (Items
verschiedener Skalen sollen gering bzw. gar nicht korrelieren)
formal ist die Reliabilität definiert als der Anteil der wahren Varianz an der Gesamtvarianz der
Testwerte (restlicher Anteil ist der Messfehler)
die Reliabilität ist umso größer je mehr wahre Varianz sie enthält (logisch, weil es ja ein
Quotient ist)
Methoden der Reliabilitätmessung sind:
o Retest - Reliabilität
o Paralleltest - Reliabilität
o Innere Konsistenz
o WICHTIG: kein Kennwert ist dem anderen vorzuziehen; umfassender Überblick
entsteht durch Berücksichtigung aller Kennwerte
RETEST - RELIABILITÄT



Dilemma bei der Bestimmung des optimalen Zeitintervalls: Erinnerungs- und Übungseffekte
sollten vermieden werden (längeres Zeitintervall notwendig); aber wenn das Zeitintervall zu
lane ist, können reale Veränderungen des zu messenden Merkmals auftreten
o Bsp. für Übungs- oder Gedächtniseffekte: Intelligenztests (umso stärker je weniger
Items pro Skala, je ungewöhnlicher die Items, je kürzer Retest-Intervall)
o Bsp. für reale Veränderung: Depressionsmaße vor und nach Therapie
Retest – Reliabilität ist ein konservativer Schätzer, da Übungsgewinne abhängig von
Leistungsstand, Lernfähigkeit und Gedächtnis  d.h. Unterschiede zwischen 2
Testzeitpunkten und die daraus folgende geringere Korrelation gehen nicht auf die
Ungenauigkeit des Tests zurück (was die geringere Korrelation ja behaupten würde  deshalb
konservativ), sondern auf den Lerneffekt der Vp
Retest – Reliabilität gut anwendbar bei Speedtests oder Persönlichkeitstests
EXKURS: NIVEAU- VS RANGREIHENVERSCHIEBUNG


Niveauverschiebung:
o hier hat eine Leistungsverbesserung bei allen Probanden stattgefunden
o die Rangreihe ist jedoch gleich geblieben, deswegen ist ein rtt von 1 möglich  d.h.
der Test differenziert zu beiden Zeitpunkten absolut zuverlässig zwischen den
Probanden, obwohl sich das Niveau insgesamt verändert hat (perfekte
Retestreliabilität nur möglich, wenn sich die Abstände bei allen Probanden exakt
gleich verändert haben und der Test perfekt misst)
Rangreihenverschiebung:
o hat negative Konsequenz für die Retest – Reliabilität
o Ursache: bspw. Aufmerksamkeit zu unterschiedlichen Testzeitpunkten  rtt wird
unterschätzt
PARALLELTEST RELIABILITÄT




Tests sind parallel, wenn die beobachteten Mittelwerte und Standardabweichungen identisch
sind und hoch korrelieren, obwohl sie aus dem gleichen ABER nicht identischen Itempool
stammen
Bsp. CFT – 20R
bei Speedtest braucht man keine Parallelform, da es für die zweite Vorgabe keinen
Unterschied macht, ob die gleichen oder leicht abgewandelten Items dargeboten werden
Herstellung eines Paralleltest ist dann erschwert, wenn es sich um die Erfassung eng
begrenzter Eigenschaften handelt und das Universum denkbarer Items somit nur klein ist oder
wenn eine parallele Version den Transfer auf die Aufgabenlösung stärker vorgeben würde
TESTHALBIERUNG: INNERE KONSISTENZ





Retest – und Paralleltestreliabilität sind oft problematisch
weitere Möglichkeit der Testung der Reliabilität: Teile EINES Tests werden als parallele
Testversionen verstanden und die Reliabilität als Zusammenhang der beiden Teile
anzunehmen  einfachster Fall: Split Half
Bsp.: HAWIK, mehrere Untertest zum Sprachverständnis. In den Tests werden gleich hohe
Werte erreicht. Hat man ein gutes Sprachverständnis, zeigt sich das in gleichem Maße in
Testhälfte 1 und 2, das heißt die Testhälften korrelieren hoch miteinander
Split Half Strategien:
o Testhalbierung:
 Testteilung in der Mitte
o „odd – even“:
 Items mit geraden Nummern bilden eine Testhälfte und vice versa
o Zufallsaufteilung:
 zufällige Zuteilung zu 2 Testhälften
o Parallelisierung:
 Aufteilung der Items nach Trennschärfe und Schwierigkeit (d.h. beide
Testhälften sollen gleich schwierig sein)
  Bildung von Paarlingen (Päärchen von Items werden gebildet, die jeweils
gleich sind bzgl. Trennschärfe und Schwierigkeit es gibt also Päärchen von
trennscharfen und nicht so trennscharfen Items)
  zufällige Zuteilung der einzelnen Items der Paarlinge zu den Halbskalen
(aus dem „trennscharf-Päärchen“ wird ein Item der einen, das andere der
anderen Skala „blind“ zugeordnet, beim „nicht-so-trennscharf-Päärchen“
analog, usw.)
o Halbierung nach Zeit:
 Bei Speedtest: nach der Hälfte der Zeit Abbruch und Beginn bei zweitem Teil
Problem:
o kürzere Tests sind weniger reliabel  Aufwertung der Korrelation zwischen den
Testhälften mittels Spearman-Brown-Formel (siehe KTT) auf die ursprüngliche
Skalenlänge (weil man die Reliabilität der gesamten Skala wissen will und nicht der
halben)
o Differenzen zwischen den verschiedenen möglichen Aufteilung der Testhälften
können nur schwer interpretiert werden (Bsp. Differenz zwischen „odd even“ und
Zufallsaufteilung)  Ausweg: Cronbachs Alpha
 Cronbachs Apha = mittlere Reliabilität aller möglichen Testhalbierungen, d.h.
der Test wird in so viele Teile zerlegt, wie er Items hat
 sinnvolle Alpha Werte liegen zwischen 0 und 1; Untergrenze der Reliabilität
0.7
 je höher die Testteile korrelieren, desto höher Cronbachs Alpha, desto höher
die interne Konsistenz
 Anm.: aber auch Cronbachs Alpha muss danach mittels Spearman Brown
Formel korrigiert werden (weil ja die Skala trotzdem halbiert ist)
Formel für Split Half Reliabilität
VALIDITÄT




Ein Test gilt als valide, wenn er das Merkmal misst, was er zu messen vorgibt und nicht
irgendein anderes
ist das höchste Gütekriterium, Objektivität und Reliabilität sind Voraussetzungen für die
Validität
o ein Test, der eine niedrige Reliabilität hat, kann keine hohe Validität haben
hohe Validität erlaubt die Generalisierung aus dem numerischen Relativ auf ein empirisches
Relativ des Zielmerkmals; also den Schluss von einem Verhalten in der Testsituation auf ein
Verhalten außerhalb der Testsituation
verschiedene Aspekte von Validität:
o Inhaltsvalidität
o Kriteriumsvalidität
o Konstruktvalidität
INHALTSVALIDITÄT




Inhaltsvalidität beschreibt den Grad der Genauigkeit, in dem Schluss von Testsituation auf
Realsituation möglich ist (Repräsentationsschluss)
ist das zu messende Konstrukt durch die enthaltenen Items hinreichend repräsentiert?
o erfassen alle Items das Konstrukt?
o sind alle denkbaren Items enthalten?
hohe Inhaltsvalididtät: Anforderung im Test und in der Realität stimmen überein (Bsp.
Fahrprüfung als Test für Fahreignung)
o  Augenscheinvalidität d.h. auch Laien können Bezüge zwischen Item und Konstrukt
herstellen (Bsp. „manchmal verspüre ich den Drang jemanden zu schlagen“  sehr
augenscheinvalide vs. „ich habe eine Freundin in der Nachbarschaft“  weniger
augenscheinvalide)
Bestimmung der Inhaltsvalidität:
o Eine numerische Bestimmung der Inhaltsvalidität ist eher unüblich
o Eher über Expertenurteil oder Befunde aus der Literatur, wenn keine
Augenscheinvalidität vorliegt
o Übereinstimmungskoeffizient:
o experimentelle Bestimmung:
 2 Gruppen: bekommen Regeln vorgeben, nach denen sie Items zu einem
Konstrukt generieren sollen  2 Tests
 beide Tests werden von großer Stichprobe bearbeitet  Korrelation zwischen
den Tests  Maß für die Inhaltsvalidität (Items bilden inhaltlich das ab, was
sie abbilden sollen)
KRITERIUMSVALIDITÄT

Zusammenhang zwischen dem Testwert und einem oder mehreren interessierenden Kriterien
 Korrelationsschluss
Es geht um die praktische Anwendbarkeit, also die Vorhersage des Kriteriums aus dem
Testwert (z.B. Schulerfolg aus Testwert im IQ-Test)
Berechnung: Korrelation zwischen Testwert und Kriteriumswert (rtc)
Einflussfaktoren auf die Kriteriumsvalidität rtc :



o
Reliabilität des Tests und des Kriteriums3
o
Grad der Gemeinsamkeit zwischen Test und Kriterium (wenn Test und Kriterium nichts
gemeinsam haben, kann das eine ja nicht zur Vorhersage des anderen dienen)
wenn eine Variable nicht mit sich selbst korreliert, dann kann sie erst recht nicht mit anderen
kovariieren
3


links:
o bessere Vorhersage, da Gerade linear ansteigt (je höher Prädiktor desto höher
Kriterium)
o geringe Abstände der Punkte zur Geraden: gute Kriteriumsvalidität
rechts:
o schlechtere Vorhersage, da Gerade nur gering linear abnimmt (je höher Prädiktor
desto geringer Kriterium)
o große Absände der Punkte zur Geraden: schlechte Kriteriumsvalidität
ARTEN VON KRITERIEN


Echtes Kriterium: zwischen Testwert und Kriterium besteht eine hohe semantische und
theoretische Ähnlichkeit und das Kriterium weist einen höheren Status auf
Quasikriterium: das Kriterium weist keinen höheren Status auf und bedarf einer Validierung
an „echten“ Kriterien; kein Test ist perfekt  Kriterium stützt sich auf ein Messfehler
behaftetes Konstrukt (Bsp. neuer Test wird an einem alten Test validiert, z.B. wie gut sagen
die Testwerte im HAWIK III die Testwerte im HAWIK IV voraus)

Target – Kriterium: Kriterien, die aufgrund von Sachzwängen vorhergesagt werden müssen
und zwar auf der Basis irgendwelcher Informationen (Ziel ist die Maximierung der
Trefferquote, wofür jeder Prädiktor willkommen ist, die für dieses Ziel hilfreich ist)

weitere Unterteilung der Kriteriumsvalidität:
o konkurrente Validität (Übereinstimmungsvalidität):
 Test- und Kriteriumswert werden beinahe gleichzeitg erhoben
 Bsp.: Messung der Konzentrationsleistung vor der Klausur und dann
Korrelation mit der Klausurnote
 hohe Korrelation  Übereinstimmungsvalidität
 aber „Henne-Ei-Problem“: Richtung unklar: sagt Konzentration Klausurerfolg
vorher oder Klausurerfolg die Konzentration
o prädiktive Validität:
 Zeitpunkt der Erhebung des Testwertes und Kriteriumwertes liegen weit
auseinander
 prädiktive Validität ist hoch, wenn eine Testwert zum Zeitpunkt t1 einen
Kriteriumswert t2 vorhersagen kann (d.h. Schulleistungstest  Berufserfolg)
 prädiktive Validität häufig geringer als Übereinstimmungsvalidität, da
größerers Zeitintervall
o inkrementelle Validität:
 Beitrag des Tests zur Verbesserung der Vorhersage eines Kriteriums
 Bsp.: IQ-Test sagt Berufserfolg gut vorher, d.h. jedes andere diagnostische
Mittel muss sich daran messen lassen, ob es über die Intelligenz hinaus noch
etwas zu Vorhersage von Berufserfolg leisten kann (Bsp. womit das in dem
Fall geht, ist das strukturierte Interview)
KONSTRUKTVALIDITÄT




Zusammenhang zwischen Testwerten inhaltsähnlicher oder inhaltsfremder Konstrukte
konvergente Validität:
o d.h. Testwerte zweier Verfahren, die dasselbe Konstrukt messen, sollen hoch
übereinstimmen
o Bsp.: HAWIE und IST-2000 R sollten hohe Zusammenhänge zeigen, weil beide
Intelligenz messen
diskriminante Validität:
o d.h. Testwerte zweier Verfahren, die zwei unterschiedliche Konstrukte messen, sollen
NICHT oder gering übereinstimmen
o Bsp.: Neurotizismus und Extraversion sollten keine hohen Korrelationen zeigen, weil
verschiedene Konstrukte gemessen werden
Bestimmung der Konstruktvalidität ist eher als Prozess anzusehen:
o hinsichtlich des Konstruktes werden viele Hypothesen generiert, die mittels
verschiedener Methoden (Mittelwertsvergleich, Faktoren-, Clusteranalyse, etc.)
untersucht werden
o Bestimmung der Konstruktvalidität über verschiedene Methoden:
- Korrelationen von testnahen und testfremden Konstrukten (oft in
Testhandbüchern angegeben)
- Faktorenanalyse (konstruktnahe Inhaltsbereiche werden zusammengefasst und
von anderen Inhaltsbereichen getrennt)
- Multi-Trait-Multi-Method-Analyse (MTMM) (Campbell und Fiske, 1959)
MTMM

Grundlage für die Durchführung einer MTMM
o Methoden die ähnliche und unterschiedliche Traits (Konstrukte) erfassen
o Bsp.: Methoden Neo – FFI (M1) und EPI (M2);
Konstrukte: Neurotizismus (T1) und Extraversion (T2)
o Variablen werden korreliert und in MTMM Matrix eingetragen
Ursachen für mangelnde Validität

Methodenfaktoren (Bsp.: Ja-Sage-Tendenz in Fragebögen)

Kriteriumskontamination: Kriterium erfasst etwas anderes als beabsichtigt (Bsp. als Kriterium
für Berufserfolg wird der Umsatz der Mitarbeiter herangezogen  aber Umsatz wird ja auch
von der Größe des Verkaufsgebietes mitbestimmt)

Kriteriumsdefizienz: wichtige Aspekte sind nicht im Kriterium enthalten (Bsp. Kriterium
Umsatz ist defizient, weil z.B. Kundenzufriedenheit nicht mit abgedeckt wird  hoher
Umsatz könnte auch durch falsche Versprechungen der Verkäufer kurzzeitig zustande
kommen, aber langfristig Absinken des Umsatzes wegen Kundenunzufriedenheit)

Mangelnde Symmetrie zwischen Kriterium und Prädiktor: wenn unterschiedlich breite
Eigenschaften gemessen werden (z.B. Korrelation zw. Geselligkeit und Gewissenhaftigkeit
kann nicht so hoch ausfallen, da das eine einen kleinen Teil einer Dimension darstellt und das
andere eine Gesamtdimension)

Streuungsrestriktion: Varianzeinschränkung aufgrund von Vorselektion (Bsp.: Sagt Abiturnote
die Note im Vordiplom Psychologie vorher?  Problem: geringe Varianz, weil NC als
Vorselektion, dies wirkt sich mindernd auf die Korrelation aus. Man käme fälschlicherweise
zu dem Schluss, dass die Abiturnote und die Vordiplomsnote bei Psychologen nicht stark
korreliert sind)

Mangelnde Reliabilität im Kriterium oder Prädiktor
ZUSAMMENHÄNGE ZWISCHEN DEN HAUPTGÜTEKRITERIEN
NEBENGÜTEKRITERIEN

es gibt eine Vielzahl an Nebengütekriterien

einige Nebengütekriterien
o Normierung (siehe unten)
o Vergleichbarkeit: gleiche Konstrukte verschiedener Tests sollten ähnlich bezeichnet
werden
o Ökonomie: diagnostischer Erkenntnisgewinn und Aufwand stehen in einem
angemessenen Verhältnis (kurze Durchführungszeit, geringer Materialaufwand,
einfach in der Handhabung, als Gruppentest durchführbar, schnell und bequem
auszuwerten wären z.B. Ökonomiekriterien)
o Nützlichkeit: Test erfasst eine Verhaltensweise oder ein Merkmal, deren/dessen
Erfassung tatsächlich einen praktischen Nutzen hat
o Zumutbarkeit: ist dann gegeben, wenn der resultierende Nutzen durch die
Testanwendung die zu testende Person nicht unverhältnismäßig stark physisch oder
psychisch belastet.
o Unverfälschbarkeit: Testverfahren sollten so konstruiert sein, dass sich die
Ausprägungen der Testwerte nicht durch ein bewusst manipuliertes Testverhalten
verändern lassen
o Testfairness: Ergebnisse eines Tests sollten nicht zu einer systematischen
Benachteiligung bestimmter Personengruppen führen. Schlussfolgerungen aus den
Testwerten dürfen in diesem Sinne nicht diskriminierend hinsichtlich ethnischer,
soziokultureller oder geschlechtsspezifischer Merkmale sein.
NORMIERUNG




Die Normierung eines Tests liefert das Bezugssystem, um die individuellen Testwerte im
Vergleich zu denen einer größeren, meist „repräsentativen“ Stichprobe einordnen zu können
Bsp.: wenn eine Person 15 von 15 Items korrekt beantwortet ist dies nicht selbsterklärend,
sondern es kommt darauf an, ob die meisten Teilnehmer alle 15 Items richtig beantworten
oder ob das nur wenige tun, damit eingeschätzt werden kann, welche Aussagekraft diese
Zahlen haben
Ergebnis einer Versuchsperson wird transformiert und mit der Norm verglichen d.h. der
Versuchsperson wird innerhalb der Norm ein Rang zugeordnet
bei der Transformation unterscheidet man:
o Äquivalentnormen: Zuordnung des Rohwertes zu bestimmten Zeitabschnitten (bei
Intelligenz z.B. das Alter (Intelligenzalter), bei Entwicklung z.B. der Reifestatus
(Entwicklungsalter)); Problem: Leistungszuwachs stagniert ab einem gewissen Alter

(IA: Intelligenzalter; LA: Lebensalter)
o Variabilitäts- und Abweichungsnormen: setzen Häufigkeitsverteilungen
(Normalverteilungen voraus)
o Prozentrangnormen: Transformation des Wertes in Position auf der nach der Größe
aufgereihten Messwertskala der Bezugsgruppe
 PR .90  nur 10% sind besser
 Vorteil bei Prozenträngen: keine Voraussetzung an die Verteilungsform
 gleiche PR Abstände stellen in Standardwerten unterschiedliche Abstände dar
(Bsp.: PR.05-.15 und .5 -.6  Abstand von .1; in z. Werte ergibt sich einmal
eine Differenz von 2.5 und einmal von 5)  gleich Abstände haben unter
Umständen unterschiedliche Bedeutungen !!!

1 SD = Wert des Wendepunkts
ÜBERFÜHRBARKEIT VON NORMEN

alle Normen können mittels z- Transformation in einer andere Norm dargestellt werden (Bsp.:
IQ (M=100, SD=15) in Stanine (M=5, SD=2).
BEWERTUNG VON NORMEN


Güte der Norm bedingen Güte der individualdiagnostischen Entscheidung
o  Charakteristika der Testung des einen Probanden muss denen bei der Testung der
Normgruppe entsprechen
o (bspw. Motivation der Probanden, wenn die Normstichprobe Geld bekommen haben,
die Vergleichsprobanden aber nicht)
Gütekriterien der Norm:
o Repräsentativität (z.B. repräsentativ für Deutschland, für Psychologen, für
Schizophrene, etc.)
o Alter der Normen (d.h. wann wurde Normdaten erhoben, sollten nicht älter als 8 Jahre
sein, z.B. bei LPS sehr veraltete Normen)
o Testbedingung (unter welchen Bedingungen fand die Testung statt, z.B. wurde in einer
Bewerbungssituation oder einem klinischen Setting getestet? Gab es eine
Rückmeldung der Ergebnisse? Wurden die Teilnehmer bezahlt? Einzel- oder
Gruppentest? etc….)
o Anwerbung der Stichprobe (z.B. Zeitung, Testinstitut, Anwerbung durch Hilfkräfte)
o Stichprobengröße: min. 300 um Stichprobenfehler auszuschließen
TESTTHEORIE
WAS IST EIN TEST?

ein Test
o ist ein wissenschaftliches Routineverfahren

wissenschaftlich:
 es gibt eine Theorie, die angibt unter welchen Bedingungen aus den
Testergebnissen welche Aussagen über die getesteten Personen
abgeleitet werden können (eben eine „Testtheorie“)

Routineverfahren
 an einer großen Stichprobe erprobt bzgl. Durchführung und
Auswertung
 detailliert beschrieben
o untersucht eines oder mehrere empirisch abgrenzbare Persönlichkeitsmerkmale

Persönlichkeitsmerkmal ist stabil und konsistent  verantwortlich für das im
Test gezeigte Verhalten
o hat zum Ziel eine quantitative oder qualitative Aussage über die individuelle
Ausprägung eines Merkmals zu machen

ein Test ist ein spezielle Experimentform, bei dem es darum geht vergleichende Aussagen
über die Personen abzuleiten
o Besonderheiten:

2 UV (Item, Person)

AV (= Antwort auf Item)
 wird nicht wiederholt (im anderen Experimenten immer viele
Wiederholungen)
 die beobachtete AV ist nicht metrisch skaliert, sondern hat maximal
Ordinalskalenniveau

Erkenntnisinteresse:
 Haupteffekt der UV Person
 Überschaubare Interaktionseffekte der Personen mit den Items
  d.h. Ziel ist der Vergleich von Aussagen über die Personen hinweg
WAS IST EINE TESTTHEORIE?



Theorien sind
o Abbilder der Welt
o Man kann den Wahrheitsgehalt von wissenschaftlichen Theorien nicht objektiv
beweisen, aber sie stehen mit vielen Beobachtungen im Einklang bzw. sind zumindest
nicht von diesen widerlegt
Voraussetzung für die Formulierung einer Theorie:
o der Wahrheitsgehalt muss überprüfbar sein
o es müssen drei Bestimmungsstücke enthalten sein: welche Verhaltensweise muss bei
welchen Personen in welchen Situationen beobachtet werden?
Frage: Wie beeinflusst das zu erfassende psychische Merkmal das Verhalten einer Person
bei der Testung?
o Testtheorien versuchen diese Frage des Zusammenhangs zwischen Testverhalten und
Personenmerkmal zu beantworten
 Antwort ist wichtig, da man bei der Auswertung den umgekehrten Weg geht
o es gibt Annahmen über die Personenmerkmale, welche sich im Test auf eine
bestimmte Art und Weise zeigen sollen
o Problem:
 das Personenmerkmal ist nicht direkt messbar sondern nur über das Verhalten
erschließbar
4

Man braucht keine Theorie wenn:
o das Antwortverhalten im Test selbst dasjenige ist, was erfasst werden soll (Bsp. wenn
die Mitgliedschaft in einer Umweltorganisation als Tatsache interessiert und nicht als
Indikator für Umweltbewusstsein genommen werden soll)
o man rein operationale Definitionen benutzt (Bsp. „Intelligenz ist das was ein
Intelligenztest misst“)  Problem: ein Verfahren, was ausschließlich auf
operationalen Definitionen aufbaut, läuft Gefahr, theorielos zu werden

Testmodelle überprüfen die Theorie:
o ein formales Modell ist gewissermaßen die Vorstufe zur Theorie  hinzukommen
müssen 2 Dinge: ein konkreter Realitätsbereich, auf den das Modell angewendet wird
und die Schätzung der freien Modellparameter für diesen Realitätsbereich
o
ein Modell ist ein reduziertes Abbild der Wirklichkeit
o Testmodelle erklären mittels einer angenommenen latenten Variablen (Konstrukt) den
Zusammenhang zwischen vielen manifesten Variablen
externe Validität: Ausmaß des Zusammenhangs zwischen dem Testergebnis und dem externen
Kriterium  Schluss auf Richtigkeit des Messvorgangs nicht problemlos möglich!!!
4
DIE KLASSISCHE TESTTHEOR IE

KTT ist die Grundlage der meisten gebräuchlichen Tests

Alternative zur KTT: modernere probabilistische Testtheorien (versuchen verschiedene
Nachteile der KTT zu vermeiden)

KTT = Messfehlertheorie

Um die Messfehlerbehaftetheit der Messung bestimmen zu können, sind theoretische
Grundannahmen erforderlich, die in Form von Axiomen formuliert werden
AXIOME DER KLASSISCHEN TESTTHEORIE

Axiome
o = sind Grundsätze, die nicht hinterfragt werden  d.h. die nicht falsifizierbar sind
o es werden 3 Axiome unterschieden:
 Existenzaxiom
 Verknüpfungsaxiom
 Unabhängigkeitsaxiom
EXISTENZAXIOM

Annahme:
o bei einer unendlichen Wiederholung der Testung ist der wahre Wert IMMER gleich
und unveränderlich (d.h. unendliche Wiederholung der Testung bringt den wahren
Wert hervor)
o  wahrer Wert = Erwartungswert
o Mittelwertbildung führt zur Neutralisierung von Fehlern
5

ABER bei Persönlichkeits- und Leistungstest führen Wiederholungen zu
Erinnerungseinflüssen etc.
o deswegen erfolgt hier die Wiederholung durch verschiedene Items, die dasselbe
Merkmal messen
o das Zusammenfügen der verschiedenen Items  Neutralisation des Messfehlers
(entspricht der Wiederholungsmessung)
5
Erklärung der Indizes: j = Person; t = Test
VERKNÜPFUNGSAXIOM

ABER:

verändert sich bei der Testwiederholung der beobachtete Wert ist das ALLEIN auf den
Messfehler zurück zu führen
Messfehler = alle unsystematischen, nicht kontrollierbaren oder vorhersagbaren
Einflussgrößen

BSP. WAHRER WERT UND MESSFEHLER
VERBINDUNGUNG VON EXISTENZ- UND VERKNÜPFUNGSSAXIOM

bei unendlicher Wiederholung der Messung zeigt sich der wahre Wert d.h. der Messfehler
geht gegen Null

ein guter Test hat einen geringen Messfehler; Tests mit größeren Messfehler sollten wiederholt
werden und die Ergebnisse gemittelt werden
MESSFEHLER ALS ZUFALLSVARIABLE
UNABHÄNGIGKEITSAXIOM
FAZIT
FORMELHERLEITUNG

Hintergrund
o man will vom beobachteten Wert x (Testverhalten) auf den wahren Wert w
(Personenmerkmal) schließen: Suche nach dem wahren Wert!!!
o Problem: durch den Messfehler streut der beobachtete Wert irgendwo um den wahren
Wert ( Beschäftigung mit Dispersionsmaßen im Folgenden)
o NICHT VERGESSEN: Varianz und Streuung beziehen sich nicht auf eine
Einzelperson, sondern immer nur auf Stichproben und Populationen!!!
STREUUNG, VARIANZ, KOVARIANZ UND KORRELATION

Verteilungen, die sich hinsichtlich ihrer zentralen Tendenz ähneln, können sich dennoch
aufgrund unterschiedlicher Streuungen der einzelnen Werte stark voneinander unterscheiden.
Hierbei informieren die Dispersionsmaße über die Unterschiedlichkeit der Werte
DISPERSIONSMAßE (VARIANZ UND STD)
BERECHNUNG DER VARIANZ UND DER STANDARDABWEICHUNG
KOVARIANZ


Die Kovarianz ist ein Maß, das über die Enge des Zusammenhangs zweier Merkmale
informiert
Kovarianz = geteilte Varianz zweier Merkmale


d.h. haben die Abweichungen das gleiche Vorzeichen, vergrößert sich die Kovarianz, ist das
Vorzeichen nicht gleich (man addiert mal, man subtrahiert mal), ist die Kovarianz kleiner
je größer die Kovarianz, desto größer die Übereinstimmung  bei vollständiger
Übereinstimmung entspricht die Kovarianz der Varianz
DATENBEISPIEL
BERECHNUNG DER KOVARIANZ
ZUSAMMENHANG VON KOVARIANZ UND VARIANZ

Anm.: die Kovarianz einer Variable = Varianz, weil die eine Variable die gleiche Varianz hat; die
Varianz enthält dann nur noch die wahre Varianz, da sich die Fehlervarianz gemäß des
Verknüpfungsaxioms herausrechnet
PRODUKTMOMENT KORRELATION

Bestimmung des Zusammenhangs unabhängig von Maßstabsveränderung des Merkmals d.h.
eine Standardisierung der Kovarianz 6 Korrelationskoeffizient r
Kovarianz ist schlecht vergleichbar, weil nicht standardisiert: macht nur Aussage, dass zwei Variablen
unterschiedliche/ähnliche Varianzen haben; Korrelation ist standardisiert und ermöglicht daher
Vergleichbarkeit unabhängig von Skalierungen der VAriablen; die Kovarianz kann jeden reellen
Zahlenwert annehmen, die Korrelation nur Werte zwischen -1 und +1
6

die Korrelation eines Tests mit sich selbst  Retest – Reliabilität

die Korrelation (im Sinne der Reliabilität) informiert über wahre Varianz und Fehlervarianz
VARIANZZERLEGUNG
KOVARIANZ ZWISCHEN ZWEI TESTUNGEN

lediglich die Werte wt und wt‘ können kovariieren, alle anderen Kovariationen sind gleich
Null, da laut dem Unabhängigkeitsaxiom der Messfehler unkorreliert ist mit:


es folgt: Die beobachtete Kovarianz = der wahren Kovarianz
da bei einer Testwiederholung die Varianzen der beiden gleichen Test gleich sind 
Kovarianz der beiden gleichen Tests = Varianz des einen Tests
BEZUG ZUR RELIABILITÄT

um nun die Korrelation / Reliabilität eines Tests zu erhalten muss man den Test mit sich selber
korrelieren
o d.h. die Kovarianz standardisieren

die Kovarianz eines Tests mit sich selbst = wahre Varianz

die gesamte Varianz bleibt auch bei der Testwiederholung gleich  siehe Nenner

Bsp. rtt= .80  80% wahre Varianz und 20% Messfehler
7
Die Formel der Retest-Reliabilität als Quotient aus wahrer Varianz/beobachtete Varianz ist die
wichtigste Ableitung aus den Annahmen der klassischen Testtheorie
7
STANDARDMESSFEHLER
Umstellung 
 aus dem Term gehr hervor, dass der Standardmessfehler abhängig ist von der Streuung und dem
Reliabilitätskoeffizienten
o
Bei perfekter Reliabilität (r = 1) wird das gesamte Produkt null, somit auch der
Standardmessfehler
o
Bei r = 0, also beim vollkommenen Fehlen wahrer Varianz an der Gesamtvarianz entspricht
der Standardmessfehler der Streuung der beobachteten Wert
o
Also: je größer die Reliabilität, umso kleiner der Standardmessfehler und umgekehrt
o
Reliabilität kann erhöht werden durch Verdopplung der Testlänge (bspw. durch Anhängen
eines parallelen Tests)
o
siehe Spearman Brown Korrelation (weiter unten)
o
 Vervierfachung des wahren Wertes und Verdopplung des Fehlerwertes
 Der Standardmessfehler gibt die Streuung der beobachteten Werte um die entsprechenden wahren
Werte an, sowohl über alle Testpersonen bei einmaliger Testung als auch für eine Testperson bei
oftmaliger Testung unter (nur theoretisch möglichern) identischen Bedingungen
SCHÄTZUNG DES KONFIDENZINTERVALLS

der wahre Wert wird aus den empirischen Daten nur „geschätzt“

 d.h. es besteht eine Unsicherheit, dass der geschätzte Wert dem wahren Wert entspricht

 diese Unsicherheit wird durch den Standardmessfehler berücksichtigt
o mittels Standardmessfehler wird ein Vertrauensintervall um den „geschätzten wahren
Wert“ gelegt
o das Konfidenzintervall kennzeichnet denjenigen Bereich eines Merkmals, in dem sich
95%/99% (je nach α-Niveau) aller möglichen wahren Werte befinden, die den
Stichprobenschätzwert erzeugt haben könnten
8
Unter der Annahme, dass die Fehler normalverteilt sind, wird das Konfidenzintervall bei großen
Stichproben (n≥60) mit Hilfe der z-Verteilung bestimmt; bei kleineren Stichproben (n≤30) wird statt der
z-Verteilung die t-Verteilung zur Bildung der Konfidenzintervalle herangezogen  z-Wert oder t-Wert aus
der Tabelle raussuchen und in die Formel oben einsetzen
8

je reliabler der Test desto geringer ist das Konfidenzintervall  umso genauer kann der wahre
Wert geschätzt werden
KRITISCHE DIFFERENZ

 fällt die Differenz von Proband 1 und Proband 2 in Dkrit  Unterschied ist nicht signifikant

 ist die Differenz von Proband 1 und Proband 2 größer als Dkrit  Unterschied ist
signifikant kann nicht durch Messfehler erklärt werden, sondern wird durch
tatsächlichen Unterschied erklärt
Beispiel
9
Validität: Lehrerurteil = Inhaltsvalidität; Schulnote = Kriteriumsvaldidtät; andere Intelligenztests =
Konstruktvalidität
9
MINDERUNGSKORREKTUR
KORRELATIONEN BEI ZWEI VERSCHIEDENEN 10 TESTS
bei der Formelherleitung ging es immer um die Korrelation eines Tests mit sich selbst, hier geht es um
die VALIDITÄT, also die Korrelation zwischen einem Testwert und einem Kriteriumswert
10
RECHENBEISPIEL
VERDÜNNUNGSPARADOXON
RELIABILITÄTINDEX
Eine Variable (ein Test) kann mit einer anderen Variablen nicht höher korrelieren als mit ihren
(seinen) wahren Werten. Die obere Grenze dafür definiert der sog. Reliabilitätsindex
 Höhere Koeffizienten müssen auf Artefakten beruhen
Der Reliabilitätsindex bezieht sich auch auf das Verhältnis von Reliabilität und Validität: die Validität
kann nie höher sein als die Wurzel der Reliabilität
ZUSAMMENHANG VON RELIABILITÄT UND TESTLÄNGE
EXKURS VARIANZ VON ITEMS UND SKALENWERTEN
TESTVERLÄNGERUNG UND STEIGERUNG DER WAHREN VARIANZ
SPEARMAN BROWN FORMEL
Die Spearman-Brown-Formel kann auch dazu genutzt werden, wenn der Test z.B. aus Kostengründen
oder aufgrund von Zumutbarkeit gekürzt werden soll  wie kurz darf ein Test ausfallen, wenn eine
bestimmte Reliabilität nicht unterschritten werden sollte?
Bsp: Ein Test mit der Reliabilität von r = .90 soll von 100 auf 60 Items gekürzt werden. Wie
beeinflusst das die Reliabilität?
n = 60/100 = 0.6
corr r = 0.6 ∙ 0.9/ 1 + (0.6 -1) ∙ 0.9 = 0.84  die Reliabilität sinkt also auf .84 bei der Verkürzung
TESTVERLÄNGERUNG UND CRONBACHS ALPHA
ZUSAMMENFASSUNG DER KLASSISCHEN TESTTHEORIE
KRITIK AN DER KLASSISCHEN TESTTHEORIE

Anhand der KTT werden mathematische Wahrscheinlichkeitsaussagen getroffen, die sich per
definitionem nicht auf Einzelfälle beziehen (die Übertragbarkeit von gruppenstatistischen
Kennwerten auf den Einzelfall ist immer problematisch, wenn die Reliabilität und/oder
Validität kleiner 1 ist/sind, was praktisch immer der Fall ist)

Das Reliabilitäts-Validitätsdilemma
o
Veränderungsmessungen sind im Rahmen der KTT problematisch (Veränderungen z.B. bei
stimmungs-, müdigkeits- und tageszeitabhängigen Variablen, aber auch bei Veränderungen
im Leistungs- und Persönlcikeitsbereich mit dem Alter oder durch Interventionen)
-
-
Retest-Reliabilität stützt sich auf die Annahme, dass Variablen über die Zeit hinweg stabil
sind (also, dass es einen wahren Wert gibt)
Die Retest-Reliabilität ist umso höher, je besser 2 Variablen zu 2 Zeitpunkten
übereinstimmen
Bei der Veränderungsmessung will man aber wissen, ob die Differenz zwischen 2
Testwerten zu 2 Zeitpunkten zuverlässig gemessen wird (also wahre Veränderung
abbildet)
Da kommt das Dilemma:
- 1. Je höher die Korrelation zwischen Erst- und Zweitmessung, desto niedriger ist die
Reliabilität der Differenzwerte.
- 2. Je niedriger die Korrelation zwischen Erst- und Zweitmessung, desto niedriger ist
die Validität dieser Werte.
PRO KTT
ITEM RESPONSE THEORIE (IRT)

Item-Response-Theorie im deutschen Sprachraum auch als probabilistische Testtheorie bekannt

Ziel der IRT: Instrumente konstruieren, die messtheoretisch höheren Anforderungen genügen als
Verfahren der KTT (d.h. Messung auf Intervallskalenniveau)

Grundannahme: die zu erfassenden psychischen Merkmale werden als latente Variablen
interpretiert  der beobachtete Testwert dient als Indikator für die Beschaffenheit des latenten
Traits (siehe auch weiter unten)
MODELLANNAHMEN DER IRT
11
DETERMINISTISCHE VS. PROBABILISTISCHE MODELLE
DETERMINISTISCHE MODELLE

Deterministische Modelle gehen davon aus, dass das Antwortverhalten der Probanden durch die
Item- und Personenparameter vollständig bestimmt ist
o
Löst ein Proband ein Item, muss er auch alle leichteren Items lösen
o
Löst ein Proband ein Item nicht, darf er kein schwereres Item lösen
o
Illustration der Guttmann-Skala
Die Abbildung des Personen- und des Itemparameters auf einer eindimensionalen Skala ermöglicht es
zu entscheiden, ob der Personenparameter größer, kleiner oder gleich dem Itemparameter ist
11
Die Wahrscheinlichkeit, die Frage mit Ja zu beantworten, springt ab einem bestimmten Punkt von
null auf eins (es gibt in deterministischen Modellen nur die Lösungswahrscheinlichkeit 0 oder 1) 
die ICC der Guttmann-Skala ist also eine Treppen-Funktion
o
Problem der Guttmann-Skala:
-
Die relativ strengen Modellannahmen der Guttman-Skala werden in der
psychodiagnostischen Praxis üblicherweise nicht erfüllt (Modell müsste ja immer
verworfen werden, wenn eine Person ein schwereres Item löst, obwohl sie ein leichteres
nicht gelöst hat)
PROBABILISTISCHE MODELLE

Probabilistische Modelle gehen davon aus, dass es eine stochastische Beziehung gibt zwischen
dem Antwortverhalten des Probanden und den Personen- und Itemparametern
o
Ist ein Proband fähig, löst er wahrscheinlich schwere Items
o
Ist ein Proband weniger fähig, löst er schwere Items wahrscheinlich nicht
o
In probabilistischen Modellen werden anstelle der Guttmann´schen Treppenfunktion in der
Regel monoton steigende Funktionen als itemcharakteristische Funktion (IC-Funktion)12
angenommen
RASCH-MODELLE

In Rasch-Modellen wird der Zusammenhang von Fähigkeit der Person, Itemschwierigkeit und
Lösungswahrscheinlichkeit durch die logistische Funktion beschrieben:
13
12
Die IC-Funktion ordnet jeder Ausprägung der latenten Variable eine Wahrscheinlichkeit zu, mit der ein
bestimmtes Item gelöst (bzw. dem Item zugestimmt) wird
o
Rechenbeispiel (sei ξv und σi jeweils 1) [gelb in der Abbildung]
p = exp(1-1)/1+exp(1-1)
= exp(0)/1+exp(0)
= 1/2
= 0.5
 wird σi größer als ξv, dann sinkt die Lösungswahrscheinlichkeit unter 0.5,
wird σi kleiner als ξv, dann steigt die Lösungswahrscheinlichkeit über 0.5
14
exp (x) steht für Exponentialfunktion; Euler´sche Zahl: e = 2,71… hoch irgendwas; E-Funktion beschreibt
Wachstumsvorgänge; wichtig: e-Funktion wird nie null  exp (0) = 1
13
14
Die Itemschwierigkeit ist immer der Punkt, an dem die Funktion die y-Achse schneidet; ist das Item schwerer,
verschiebt sich die Funktion nach rechts, ist es leichter, dann verschiebt sich die Funktion nach links
VERSCHIEDENE ARTEN VON RASCH-MODELLEN

Das 1-Parameter-logistische Modell ist das einfachste Rasch-Modell und wird auch als
dichotomes Rasch-Modell bezeichnet, weil es Wahrscheinlichkeiten angibt für jede dichotome
Reaktion (Lösung/Nicht-Lösung)  alle Items haben die gleiche logistische Funktion

Im Birnbaum-Modell geht in die Formel zusätzlich die Steigung der Kurve (λ) mit ein: dies ist der
Itemdiskriminationsparameter  dadurch wird berücksichtigt, dass unterschiedliche Items
unterschiedliche Sensitivität besitzen, um zwischen schwächeren und stärkeren
Merkmalsausprägungen unterscheiden zu können
o
Starke Steigung bedeutet, dass der Unterschied zwischen den Probanden, die Items lösen
und die Items nicht lösen, sehr gering ist  geringe Steigung bedeutet bessere
Differenzierbarkeit
ITEMINFORMATIONSFUNKTION

Nicht jedes Item liefert gleich viel Information über die Merkmalsausprägung der latenten
Variable einer Person

Die Iteminformationsfunktion zeigt an, wie viel Information ein Item in einem bestimmten
Fähigkeitsbereich über die Unterschiedlichkeit der Probanden liefert

Die Berechnung erfolgt folgendermaßen:

Die maximale Information liefert das Item auf dem Niveau seiner Schwierigkeit
PARAMETERSCHÄTZUNG

Zu Beginn einer Testkonstruktion sind weder Item- noch Personenparameter bekannt, sie gehen
nur in die empirische Datenmatrix ein und müssen geschätzt werden

Um eine Schätzung der Item- und Personenparameter vornehmen zu können, wird ein Ausdruck
benötigt, der die Wahrscheinlichkeit aller beobachteten Daten angibt; diese wird als
Likelihoodfunktion L bezeichnet:

Das Multiplikationssymbol Π bedeutet für eine Berechnung, dass für alle Reaktionen xvi (die
sich über n Personen und m Items erheben lassen) je eine Wahrscheinlichkeit p(xvi) berechnet
wird, die dann mit allen anderen Wahrscheinlichkeiten (pro Reaktion) zu einem Wert multipliziert
wird. Als Ergebnis gibt diese Funktion die Wahrscheinlichkeit (mit Werten zwischen 0 und 1) für
eine Datenmatrix X an, in der für n Personen und m Items alle Reaktionen xvi abgetragen sind.
Werden passende Werte für den Item- und Personenparameter verwendet, steigt die
Wahrscheinlichkeit, sind die Werte hingegen unpassend, sinkt die Wahrscheinlichkeit.

Maximum-Likelihood-Methode prüft, ob die geschätzte Datenmatrix statistisch (χ²-Vergleich)
bedeutend von der empirischen Matrix abweicht  keine signifikante Abweichung, dann sind
Parameter geeignet

Kann die empirische Matrix mit der Maximum-Likelihood-Methode hinreichend genau geschätzt
werden, so gelten die Modellannahmen, die der Schätzung zugrunde liegen, als erfüllt, d.h. es
besteht:
o
Rasch-Homogenität:
-
o
homogene Items sind solche Items, deren itemcharakteristische Kurven sich nicht
schneiden
würden sich die Kurven schneiden, wären die Items inhomogen, d.h. dass z.B. Item 2
nicht durchgängig leichter wäre als Item 3 (die Wahrscheinlichkeit Item 3 zu lösen wäre
also manchmal höher als Item 2 zu lösen, was nach Annahmen des Rasch-Modells nicht
sein darf)  inhomogene Items werden bei Testkonstruktionen nach IRT eliminiert
lokale stochastische Unabhängigkeit
-
alle Items erfassen die gleiche eindimensionale latente Variable
Exkurs: Stochastische Unabhängigkeit am Beispiel im Vierfelderschema
o
Spezifische Objektivität von Skala und Items:
-
o
In der Rangreihe der Personenparameter ergeben sich keine Verschiebungen, gleichgültig,
welche Items bearbeitet wurden
d.h. innerhalb einer Population, für die Modellkonformität festgestellt ist, werden die
Probanden immer denselben Rangplätzen zugeordnet gleichgültig welche Items bearbeitet
werden
Stichprobenunabhängigkeit der Kennwerte:
-
Itemparameter fallen immer gleich aus, egal welche Stichprobe zur Validierung des
Verfahrens benutzt wurde
Itemparameter können also geschätzt werden, ohne dass die Personenparameter bekannt
sind und ohne Annahmen über deren Verteilung machen zu müssen
 Stichprobenabhängigkeit würde sich graphisch vielleicht so zeigen, dass eine Punktewolke
entstehen würde statt einer Geraden
AUF SEITE 75 nochmal die Überprüfung der Modellkonformität anschauen!!!!
VORTEILE PROBABILISTISCHER VERFAHREN

Möglichkeit zum adaptiven Testen
-
-
-

Intervallskalenqualität der Messwerte
-

Beim adaptiven Testen werden bei einem Probanden nur diejenigen Items zur Anwendung
gebracht, die für das Fähigkeitsniveau des Probanden eine hohe Messgenauigkeit
(Iteminformation) aufweisen; auf die anderen Items hingegen wird verzichtet
Aufgrund der spezifischen Objektivität von Rasch-Skalen ist es nicht notwendig, dass alle
Probanden alle Items bearbeiten. Vielmehr können den Probanden Teile der Skala
vorgegeben werden, die maximal informativ für die Abschätzung der Ausprägung der
latenten Variable sind (also nur diejenigen Items, die für das Fähigkeitsniveau des
Probanden eine hohe Messgenauigkeit (Iteminformation) aufweisen)
Adaptives Testen trägt steigert die Testökonomie erheblich
Adaptives Testen funktioniert entweder manuell mithilfe geeigneter Verzweigungen
(branched testing, z.B. Adaptives Intelligenz Diagnostikum) oder durch
computergestütztes „Hochrechnen“ des individuellen Personenparameterwertes nach
maßgeschneiderter Auswahl der Itemschwierigkeit (tailored testing, z.B. Frankfurter
Adaptiver Konzentrationsleistungstest)
Den Messwerten aus klassischen Verfahren kann streng genommen lediglich ordinale
Skalenqualität zugesprochen werden. Test, die den Anforderungen der IRT entsprechen,
liefern intervallskalierte Messwerte. Hiermit können Abstände zwischen den Messwerten
von Probanden eindeutiger dargestellt werden
Die Eindimensionalität (Konstruktvalidität) des gemessenen Merkmals kann empirisch überprüft
werden (lokale stochastische Unabhängigkeit)

Die Personen- und Itemhomogenität kann empirisch geprüft werden

Die Schätzung der Kennwerte ist weitgehend unabhängig von der Validierungsstichprobe (in der
KTT wird das empirisch ungeprüft vorausgesetzt, da versucht man es über Repräsentativität der
Validierungsstichprobe)

Spezifische Objektivität: Rangreihe der Probanden verschiebt sich nicht, wenn unterschiedliche
Itemstichproben vorgegeben werden
NACHTEILE DER IRT

Item- und Personenparameter sind experimentell nicht trennbar und lassen sich daher auch nicht
eindeutig definieren (Restfehlerwahrscheinlichkeit bei der Schätzung der Parameter)

Vorhersagekraft:

o
Da, aufgrund der Forderung nach Homogenität, Items und Personen eliminiert werden können
ist letztendlich nicht klar, ob die Variable gemessen wird, die gemessen werden soll und
demnach die gewünschte Vorhersagekraft hat
o
Frage nach der diagnostischen Relevanz (Generalisierung), da die Stichprobe sehr klein und
spezifisch ist (durch das Eliminieren wird die Stichprobe, an der validiert wird, kleiner)
Homogenität des Rasch-Modells beachtet nicht Interkorrelationen wie Konsistenz, Reliabilität,
Objektivität und Validität  Infos, die Gütekriterien bringen, werden nicht vom Rasch-Modell
ersetzt
KONSTRUKTIONSPRINZIPIEN PSYCHOLOGISCHER TESTS
ARTEN PSYCHOLOGISCHER TESTS

LEISTUNGSTESTS:

PERSÖNLICHKEITSTESTS

PROJEKTIVE VERFAHREN

APPARATIVE VERFAHREN

OBJEKTIVE TESTS

KRITERIUMSORIENTIERTE TESTS
o
= inhaltsvalide Testverfahren, es geht um das Erreichen/Verfehlen eines best. Kriteriums
NICHT Position einer Person in Relation zu einer Vergleichsnorm
o
Es muss ein sachgerechter Cut-Off Wert festgelegt werden (z.B. wie viel Fehler maximal in
der Führerscheinprüfung)
o
Kriteriumsorientierte Tests sind z.B. solche Tests, wo Testsituation und Kriterium inahltlich
sehr ähnlich sind (wie beim Flugsimulator)
AUFGABENTYPEN IN PSYCHOLOGISCHEN TESTS

Aufgabentypen mit freiem Antwortformat

o
Beispiel Ergänzungsaufgabe: Allgemeines Wissen im HAWIK III
o
Beispiel Kurzaufsatzaufgabe: Kreativitätstests (z.B. Geben Sie so viele kreative Ideen wie
möglich am, was man mit einem Nagel und einer Garnrolle machen könnte)
Aufgabentypen mit gebundenem Aufgabenformat
o
Beispiele für Ordnungsaufgaben:
o
Beispiele für Auswahlaufgaben:
-
-
Auswahlaufgaben können z.B. dichotome Auswahlaufgaben sein (ja/nein; stimmt/stimmt
nicht,…) oder multiple choice Aufgaben sein (Mehrfachwahlaufgaben, wobei entweder
nur eine oder aber mehrere Lösungen richtig sein können)
Problem bei dichotomen Antwortformaten: 50% Ratewahrscheinlichkeit (schlecht bei
Leistungstests) oder Problem der Ja-Sage-Tendenz (bei Persönlichkeitstests)
Vorteil bei multiple choice mit mehreren Antwortmöglichkeiten: Sinken der
Ratewahrscheinlichkeit
o
Welches Ratingformat eingesetzt wird, ist abhängig von der Fragestellung
o
Bei der Konstruktion der Antwortskala berücksichtigt man 6 Aspekte:
1. Skalenstufen: ja oder nein?
- visuelle Analogskala: es können sehr feine Abstufungen gemacht werden,
die auch am PC gut zu verrechnen sind, aber es gibt selten
Aufgabenstellungen, bei der die Differenziertheit der Skala der
Differenziertheit des Urteils entspricht
- diskret gestufte Skalen: meist bringt eine Stufung >7 keinen
Informationszugewinn
2. bipolare oder unipolare Antwortskala?
- Entscheidung ist abhängig von den Iteminhalten bzw. von der zu erfassenden
Eigenschaft
3. Bezeichnung der Skalenpunkte?
- numerische Bezeichnungen: erwecken den Anschein einer sehr präzisen
Messung auf Intervallskalenniveau, wobei die Gleichheit der Abstände
zwischen den Skalenpunkten aber nicht gleichzusetzen ist mit gleichen
Abständen im Urteil des Probanden; Wahl des Zahlenformates ist willkürlich
- verbale Bezeichnungen: Interpretation der Skalenpunkte wird intersubjektiv
einheitlicher, Personen müssen sich nicht vorstellen, was hinter den
Skalenpunkten steckt; oft ist es aber schwierig adäquate verbale
Beschreibungen für exakte Abstände zu finden
- optische Skalen: vermeiden den Eindruck einer übertriebenen
mathematischen Exaktheit
- von der Kombination der Skalenbezeichnungen erhofft man sich Vorteile der
beiden Formate; es sollte dann sichergestellt werden, dass die verbalen und
numerischen Bezeichnungen aber möglichst genau zusammenpassen
- ein allgemeines Problem bei Ratingskalen ist immer, dass man gerne
Intervallskalenniveau annehmen möchte, dass messtheoretisch gesehen aber
eigentlich nur Ordinalskalenniveau zu rechtfertigen ist
4. neutrale Mittelkategorie ja oder nein?
- häufig nicht instruktionsgemäß als Mittelkategorie verwendet sondern von
Probanden als Ausweichoption genutzt, wenn z.B. der Wortlaut als
unpassend empfunden wird oder der Proband die Antwort verweigert oder
nicht kennt
5. „weiß nicht“- Kategorie ja oder nein?
- muss sorgfältig abgewogen werden
- vor allem sinnvoll, wenn davon ausgegangen werden kann, dass einige
Probanden nicht über notwendige Kompetenz verfügen, Frage zu
beantworten
- wird die Kategorie benutzt, sollte sie gesondert aufgeführt werden, dann
kann die mittlere Kategorie tatsächlich als solche genutzt werden
6. können asymmetrische Beurteilungsskalen eingesetzt werden?
- vor allem dann eingesetzt, wenn kein symmetrisches Antwortverhalten
erwartet wird (Bsp. Marktforschung: Schokolade meist so positiv bewertet,
dass symmetrische Skala nicht ausreichend im Positivbereich differenzieren
würde)

Aufgaben mit atypischem Antwortformat
o
Beispiele:
o
FEHLERQUELLEN BEI DER ITEMBEANTWORTUNG



Soziale Erwünschtheit
o
Tendenz sich in einem möglichst günstigen Licht zu präsentieren
o
Besteht aus 2 Komponenten: Selbsttäuschung und Fremdtäuschung
o
Äußert sich z.B. im Verneinen von Antworten/Verhaltensweisen, die zwar weit verbreitet
sind, aber auf soziale Ablehnung stoßen (Bsp.: Manchmal komme ich zu spät zur Arbeit;
Ich ärgere mich, wenn man mich um einen Gefallen bittet;…)
o
Soziale Erwünschtheit eher bei mündlichen Interviews, da Testleiter anwesend und keine
Anonymität
o
Um soziale Erwünschtheit im Rahmen wissenschaftlicher Studien zu verringern, sollten
Probanden über Untersuchungsgegenstand weitest möglich aufgeklärt werden und die
Anonymisierung der Daten zugesichert werden
o
Möglichkeit zum Einsatz einer „Lügenskala“ (vgl. MMPI), um die Tendenz einer Person
entsprechend sozialer Erwünschtheit zu antworten, einzuschätzen
Ja-Sage-Tendenz/Zustimmungstendenz
o
Tatsächliche Meinung wird verzerrt, je nachdem wie rum das Item formuliert ist
o
Um Verzerrungseffekte zu erkennen, eignet sich die Invertierung von Itemformulierungen
o
Am häufigsten manifestiert sich die Zustimmungstendenz bei Ja/Nein-Aufgaben, bei
Personen mit begrenzten kognitiven Fähigkeiten, bei schwierigen Aufgaben, im Zustand der
Müdigkeit und eher in unpersönlichen Befragungen (z.B. Telefoninterviews)
Tendenz zur Mitte
o
Bewusste oder unbewusste Bevorzugung der mittleren (neutralen) Antwortkategorien
o
Aufgrund von subjektiv unzureichendem Wissen (ich weiß zu wenig für ein sicheres Urteil,
mit der Mitte mache ich am wenigsten falsch) oder aufgrund der Ansicht, dass sich die
Antwortalternativen nicht gut zur Beurteilung eignen
o
Tendenz kann verringert werden durch Weglassen der Mittelkategorie oder durch die Wahl
keiner allzu extremen sprachlichen Bezeichnungen für die jeweiligen Pole oder durch das
Anbieten einer „weiß nicht“ Kategorie
KONSTRUKTIONSPRIQNZIPIEN PSYCHOMETRISCHER TESTS
Was muss vorher bedacht worden sein?
-
Art des zu erfassenden Merkmals (Bsp. states vs. traits)
Testart (Fragebogen, Interview, etc.)
Eingrenzung des intendierten Anwendungsbereiches und der Zielgruppe (je breiter der
Geltungsbereich und Zielgruppe, desto breiter/heterogener müssen die Aufgaben sein)
Festlegung der Testlänge
Welche Fehlerquellen könnten auftreten (Motivation, Antworttendenzen, etc.)
Analysestichprobe (an der der Test entwickelt wird) und Eichstichprobe (an der normiert
wird) dürfen nicht dieselbe sein
Dann kommt man zum Kern der Testentwicklung: Konstruktionsprinzipien des Tests und konkrete
Generierung von Testaufgaben
RATIONAL-DEDUKTIVE KONSTRUKTION

Bei der rational-deduktiven Konstruktion werden Items auf Basis einer bestehenden Theorie
generiert

Hierbei sind folgende Gesichtspunkte als wichtig zu erachten


o
Theorien liefern Konstrukte, die erfasst werden sollen (z.B. Intelligenz, Motivation, Angst)
o
Theorien beschreiben, welche Verhaltensindikatoren bei der Erfassung des Konstrukts
herangezogen werden können (z.B. für das Konstrukt „schulische Leistungsfähigkeit“:
rechnerische und sprachliche Fähigkeiten)
o
Theorien legen fest, welche Antwortformate sich zur Erfassung des Konstrukts eignen (z.B.:
Verhaltensorientierte Persönlichkeitstheorien: Selbst- und Fremdbeschreibungen;
tiefenpsychologische Persönlichkeitstheorien: projektive Verfahren)
Vorgehensweise bei rationaler Skalenkonstruktion:
o
1. Generierung der Items
o
2. Erhebung einer Validierungsstichprobe
o
3. Prüfung von Reliabilitätskennwerten (α, rsh, rtt)
o
4. Eliminierung ungeeigneter Items
o
5. Überprüfung der Validität in Bezug auf externe Kriterien
Beispiele für Skalen, die nach der rational-deduktiven Methode entworfen wurden:
o
Leistungstests (HAWIE, HAWIK, diverse Konzentrationstests, Tests zur Prüfung motorischer
Fertigkeiten)
o
Tests aus dem Persönlichkeitsbereich (State-Trait-Anxiety Inventory)
o

Projektive Tests (deshalb rational konstruiert, weil sie logische Ableitungen aus der
psychoanalytischen Theorie sind)
Vorteil rationaler Skalenkonstruktion:
o
Ökonomisch zu entwickeln
o
Kommunizierbarkeit: den getesteten Personen sind die Ergebnisse der erhaltenen Testwerte
leicht kommunizierbar, da die Dimensionen an den alltäglichen Sprachgebrauch angelehnt sind
EXTERNAL-KRITERIUMSBEZOGENE KONSTRUKTION

Voraussetzung für externale Konstruktionsstrategien ist das Vorliegen verschiedener Gruppen, die
sich in Bezug auf das Kriterium unterscheiden (z.B.: Alkoholiker vs. Nicht-Alkoholiker,
Misshandler vs. Nicht-Misshandler)

Den Mitgliedern der Gruppen wird eine große Zahl möglichst breit gefächerter Items vorgelegt.
Hypothesen, welche Items zwischen den Gruppen differenzieren könnten, sind nicht erforderlich,
aber aus Gründen der Testökonomie sinnvoll (also spielen auch deduktive Gesichtspunkte eine
gewisse Rolle innerhalb der externalen Skalenkonstruktion, auch intuitive Itemgenerierung)

basierend auf den Items wird eine Vorhersagegleichung erstellt,

o
die Diskriminanzfunktion: a∙x1+b∙x2+….g∙x15 + f
o
x1, x2 u.s.w. sind die Items/Prädiktoren
o
a, b, etc. sind die Gewichtungen der Items
o
die Items, die stark zwischen den Gruppen differenzieren, erhalten größere Gewichtungen
mittels Diskriminanzanalyse15 kann also die Wahrscheinlichkeit geschätzt werden ab wann ein
Proband zu einer bestimmten Gruppe gehört
Diskriminanzfunktion ist unstandardisiert und liefert einen Cut off Wert in der Einheit des Kriteriums;
der Unterschied zur multiplen Regression ist der, dass diese standardisierte Werte bringt
15

Da diese Schätzungen in einem hohen Grade von der Zusammensetzung der
Validierungsstichprobe abhängig sind, ist eine Kreuzvalidierung unerlässlich
Veranschaulichung der Notwendigkeit der Kreuzvalidierung:
Logik der einfachen Kreuzvalidierung:
Logik der doppelten Kreuzvalidierung:


Beispiele für Skalen, die nach der external-kriteriumsbezogenen Konstruktion erstellt wurden:
o
MMPI von Hathaway und McKinley (1951)
o
Alkoholismus Skala von MacAndrew (1965)
Vorteil von external konstruierten Skalen:
o

Es besteht eine relativ geringe Verfälschbarkeit durch den Testbeantworter, da die
Messintention oft verborgen bleibt (z.B. wird es weniger klar, wie man antworten muss, um
„einen guten Eindruck“ zu machen)
Nachteil:
o
Interne Konsistenz gering, da die Items sehr heterogen
o
Nicht so ökonomisch, da großer Itempool benötigt
INDUKTIVE KONSTRUKTION

Bei induktiven Konstruktionsstrategien liegen weder eine Theorie noch bestimmte
Kriteriumsgruppen vor; die Konstruktion erfolgt rein empirisch

Der Konstrukteur stützt sich auf eine spezifische Methode: die Korrelationsrechnung
o
Items, die hohe Korrelationen zeigen, werden zu Skalen zusammengefasst

Diese Vorgehensweise wird auch als „blind-analytisch“ bezeichnet, da bei der Konstruktion keine
Rücksicht auf inhaltliche Gesichtspunkte genommen wird

Bei umfangreicheren Testsystemen werden zur Konstruktion der Skalen zumeist explorative
Faktoranalysen durchgeführt
o
Items, die hohe Ladungen auf dem gleichen Faktor zeigen werden zu einer Skala
zusammengefasst


- Das verhindert Redundanz und erleichtert die Interpretation
Beispiele für Skalen, die nach der induktiven Konstruktion erstellt wurden:
o
Intelligenztests nach Thurstone (primary mental abilities), z.B. der darauf aufbauende
Intelligenz-Struktur-Test IST-2000-R von Amthauer
o
FPI
o
NEO-PI-R (NEO-FFI)
Vorteile
o

Wenn noch keine Theorie da ist, liefert das induktive Verfahren Anhaltspunkte, in welche
Richtung es inhaltlich gehen könnte (durch FA)
Nachteile
o
Stichprobenabhängigkeit
PROTOTYPENANSATZ

Bei dem Prototypenansatz werden Konstrukte als natürliche Kategorien menschlicher
Wahrnehmung aufgefasst (z.B. Blumen). Ihre Mitglieder besitzen unterschiedliche Typikalität
(z.B. Rosen werden als typischere Vertreter der Kategorie Blumen aufgefasst als Orchideen)

Prototypen sind hierbei die Mitglieder, die die höchste Typikalität besitzen

Vorgehensweise: Items werden hinsichtlich der Prototypizität für eine oder mehrere Kategorien
eingeschätzt, wobei die Items mit der höchsten Prototypizitätseinschätzung beibehalten werden

Beispiel für den Prototypenansatz:
o
Act Frequency Approach (Buss & Craik, 1980)
-


1. Probanden sollen an Personen in ihrem Bekanntenkreis denken, die eine bestimmt
Eigenschaft (z.B. Unterwürfigkeit) besonders stark repräsentieren
2. Die Probanden sollen konkrete Verhaltensweisen der Personen nennen, die ihrer
Meinung nach indikativ für das Vorhandensein der entsprechenden Eigenschaft sind
(z.B. „Sie erhielt eine unfaire Note und beschwerte sich nicht darüber“)
3. Die genannten Verhaltensweisen werden von einer anderen Probandengruppe
hinsichtlich der Prototypizität für die entsprechende Eigenschaft eingeschätzt
4. Die Items mit den höchsten Prototypizitätseinschätzungen werden als Grundlage der
weiteren Validierung des Verfahrens verwendet
Vorteil:
o
kürzere Skalen, weil nur hoch prototypische Items verwendet werden
o
hohe Validität bei Selbst- und Fremdeinschätzung
o
besondere Bereicherung bzgl. Validität im Persönlichkeits- und Temperamentsbereich
Nachteil
o
Gefahr der Erzeugung von Stigmata
WEITERE ANSÄTZE

Konstruktionsstrategien müssen nicht unbedingt in „Reinform“ vorkommen, sondern können auch
miteinander gemischt werden (eine Methode schließt die andere nicht aus) und sich wechselseitig
ergänzen
o

Ein Itempool kann z.B. nach rationalen Kriterien festgelegt werden, dann faktorenanalytisch
bereinigt werden (induktive Methode) und am Ende gegenüber Extremgruppen von Personen
(externale Methode) überprüft werden, prototypisch könnte die Items eliminieren, die wenig
zur Validität beitragen
Intuitive Konstruktionsstrategie: am Anfang eines Forschungszweiges, die Konstruktion ist
abhängig vom Testkonstrukteur
VERGLEICHENDE WÜRDIGUNG

Es gibt keine Überlegenheit einer Konstruktionstechnik gegenüber einer anderen

Alle sind in ein etwas gleicher Weise zielführend und es hängt im wesentlichen von den Vorlieben
und Notwendigkeiten ab, welche Strategie verwendet wird
GRUNDZÜGE VON ITEMANALYSEN

Die Auswahl und Erprobung von Items erfolgt ganz unterschiedlich, je nachdem nach welchen
Grundprinzipen das Testverfahren als Ganzes entwickelt wird (induktiv, rational, external)
o
Bei der induktiven Methode steht z.B. die Interitemkorrelation im Vordergrund, bei der
externalen Methode dagegen die Korrelation mit einem Außenkriterium
o
Induktive Methode  hohe Homogenität der Items
o
Externale Methode  niedrige Homogenität der Items
EIGENSCHAFTEN VON ITEMS

Itemschwierigkeit
o
Die Schwierigkeit eines Items bezeichnet den relativen Anteil aller Probanden, die ein Item
„richtig“ beantworten
-
o
Bei Leistungstests hieße das die richtig Lösung zu geben
Bei Persönlichkeitstests hieße das eine Antwort zu geben, die indikativ ist für eine höhere
Ausprägung auf dem untersuchten Merkmal
Der Schwierigkeitsindex eines Items berechnet sich wie folgt:
-
o
Hohe Werte von P stehen also für eine niedrige Itemschwierigkeit und niedrige Werte für
eine hohe Itemschwierigkeit
Der Schwierigkeitsindex kann aber nur nach der o.g. einfachen Formel berechnet werden,
wenn der Einfluss von Zufall (z.B. Raten der Probanden oder wahlloses Ankreuzen)
ausgeschlossen werden kann
 Das wäre z.B. der Fall bei einem freien ungebundenen Antwortformat in Form von
Ergänzungsaufgaben, Kurzaufsätzen oder bei Auswahl-/Zuordnungsaufgaben, wenn
sehr viele Distraktoren gegeben sind
Korrigierte Formeln der Itemschwierigkeit
o
Itemschwierigkeit bei Ratingskalen
-
Wenn keine dichotomen Kategorien vorliegen (richtig/falsch, stimmt/stimmt nicht), muss
die Itemschwierigkeit anders berechnet werden:
-
Rechenbeispiel:

Trennschärfe
o
Die Trennschärfe eines Items bezeichnet üblicherweise die Korrelation zwischen der Antwort
auf ein Item und dem Summenwert einer Skala, zu der dieses Item gehört
-
o
Kommt man aufgrund des Items zur selben Beurteilung der Vp wie aufgrund der
Gesamtskala, hat man ein trennscharfes Item
Trennschärfe sagt also etwas darüber aus, wie gut ein Item niedrige und hohe
Merkmalsausprägungen differenzieren kann
o
Wenn ein Item nicht trennscharf ist, kann das z.B. an einer schlechten Itemformulierung liegen
o
Trennschärfe kann unterschieden werden in konvergente und in diskriminante Trennschärfe
-
-
Konvergente Trennschärfe: Korrelation mit der eigenen Skala
Diskriminante Trennschärfe: Korrelation mit einer anderen Skala
Wenn Items einer Skala höher mit dem Gesamtscore einer anderen Skala korrelieren als
mit der eigentlichen Skala, muss man sich die Frage nach der richtigen Zuordnung der
Items stellen (bei früheren Formen des 16 PF war dies häufiger der Fall)
Die Faktorenanalyse ist ein geeignetes Mittel zur Erreichung von Trennschärfe
Graphische Veranschaulichung von Trennschärfe:
o
Je nach Skalenniveau kann nicht immer die Pearson-Korrelation als Maß zur Trennschärfe
genutzt werden
o
„gute“ Trennschärfewerte liegen im Bereich .4 bis .7, ein Wert von null heißt, dass das Item
ungeeignet ist zwischen hohen und niedrigen Ausprägungen zu unterscheiden, eine
Trennschärfe mit negativem Wert vorkommen, ist das darauf zurückzuführen, dass Items
nicht rückinvertiert worden sind oder Mängel in der Instruktion oder Itemformulierung
vorlagen
o
Bei der Berechnung der konvergenten Trennschärfe wird die Korrelation zwischen den
Antworten auf ein Item und den Summenwerten der Skala ermittelt
-
-
Problem: Da die Werte des Items auch in die Skalensumme eingehen, entsteht
algebraische Abhängigkeit (die Korrelation ist partiell auch eine Korrelation der Variablen
mit sich selbst) und die Korrelation wird überschätzt
Lösung: Part-whole-Korrektur (Teil-Ganzheit-Korrektur)
 Hierbei wird das jeweilige Item nicht in den Summenwert eingerechnet. Da der
Summenwert in diesem Fall nicht durch das Item konfundiert ist, kann diese
Korrelation sinnvoller interpretiert werden

Generell ist die unkorrigierte Trennschärfe eines Items höher als die part-wholekorrigierte Trennschärfe. Dies ist darauf zurückzuführen, dass der Summenwert in
letzterem Fall nicht durch den Einfluss des Items konfundiert ist


Die Part-Whole-Korrektur hat vor allem dann einen starken Effekt, wenn die Skala
aus wenigen Items besteht oder wenn die Skala relativ geringe Trennschärfen
aufweist (d.h. inhomogen ist)

Anders ausgedrückt: die Part-whole-Korrektur hat einen geringeren Einfluss je mehr
Items eine Skala hat (weil dann der relative Beitrag jedes einzelnen Items geringer
wird) und je homogener die Skala ist (weil in homogenen Skalen die übrigen Items
weitgehend ähnliches erfassen und es deshalb auf den Beitrag eines bestimmten Items
weniger stark ankommt)
Zusammenhang von Itemschwierigkeit und Trennschärfe
 Die Wahl der „richtigen“ Itemschwierigkeit und von trennscharfen Items wirkt sich positiv auf die
Reliabilität eines Verfahrens aus
 man muss also je nach Intention immer abwägen, ob man sehr leichte und sehr schwere Items
drinlässt (wenn es wichtig ist auch Randbereiche auszuloten), selbst wenn dadurch die Trennschärfe
verringert wird
Exkurs: Varianzeinschränkung
MULTITRAIT-MULTI-METHOD ANALYSEN

MTMM Analysen sind Verfahren zum Nachweise der Konstruktvalidität eines Tests oder
Fragebogens

Konstruktvalidität wird unterschieden in konvergente und diskriminante Validität
o
Konvergente Validität: Messungen eines Konstruktes, das mit verschiedenen Methoden erfasst
wird, korrelieren hoch miteinander
-
o
Es sollte eine signifikante Korrelation bestehen, wenn ein und dasselbe Konstrukt mit
verschiedenen Methoden erfasst wurde
- Bsp.: ein neuer Fragebogen zur Erfassung von Extraversion, sollte hoch korrelieren mit
anderen Verfahren, die auch Extraversion messen
Diskriminante Validität: Messungen verschiedener Konstrukte korrelieren nicht oder nur
gering miteinander
-
-

Mit der gleichen Methode und erst recht mit verschiedenen Methoden erfasste
verschiedene Konstrukte sollten niedrig (möglichst nicht signifikant) miteinander
korrelieren
Bsp.: ein neuer Fragebogen zur Erfassung von Extraversion, sollte nicht korrelieren mit
einem Verfahren zur Messung des trait-fremden Konstruktes Neurotizismus oder
zumindest niedriger als mit einem anderen Extraversionstest
Jedes Konstrukt ist zumindest teilweise abhängig von der vorgenommenen Operationalisierung 
Konfundierung von Konstrukt und Methode zur Erfassung des Traits
o
Durch Methodenartefakte können künstliche Korrelationen zwischen Merkmalen entstehen
o
Durch Kombination aus negativem Einfluss der Methode und positivem Einfluss des
Konstruktes können Nullkorrelationen entstehen, obwohl eigentlich signifikante
Zusammenhänge existieren
o
Zugang zur Trennung dieser Aspekte: Multitrait-Multimethod-Analyse (MTMM)

Methodeneffekte ist ein Sammelbegriff für verschiedene systematische Varianzquellen, die sich
über den Trait hinaus auf die Messung auswirken

Methodeneffekte können sein:
o
Messinstrument (Method):
-
Verzerrung der Beziehung zwischen Merkmalen durch Art des Messinstrumentes
Bsp.: Es werden verschiedene Messinstrumente (Fragbogen oder sprachfreier Test) zur
Messung verschiedener Merkmale (logisches Denken, räumliches Verständnis)
verwendet. Die Zusammenhänge zwischen den Merkmalen können möglicherweise
anders ausfallen, je nachdem ob der Fragebogen oder der sprachfreie Test angewendet
wird
Beurteiler (Informant): eventuell systematisch andere Einschätzung durch verschiedene
Beurteiler
-
Bsp.: Schüler werden bzgl. Persönlichkeitseigenschaften von Mitschülern und von
Lehrern eingeschätzt. Die Beziehung zwischen den Merkmalen kann eine systematische
Verzerrung aufweisen, dadurch dass beide Gruppen anders urteilen. Die Verzerrung kann
sich so auswirken, dass die Merkmale in der einen Untersuchung höher/niedriger
miteinander korrelieren als in der anderen, was zu Validitätsverfälschungen führen würde.
Kontext (Occasion): unterschiedliche Situationen/Umgebungsbedingungen
-
Bsp.: in verschiedenen Situationen (normales Wetter vs. schwülheißer Sommertag)
werden Studierende bzgl. mehrerer Merkmale untersucht (Aufmerksamkeit, Gedächtnis,
etc.). Umgebungsbedingungen können sich systematisch auf die Beziehung zwischen den
Merkmalen auswirken, da an einem schwülheißen Tag möglicherweise andere Leistungen
erbracht werden als bei normalem Wetter
o
o

Um Methodeneffekte zu isolieren, muss je nach Fragestellung der messmethodenspezifische, der
beurteilerspezifische oder der kontextspezifische Bias der Beziehung zwischen den Merkmalen
kontrolliert werden
DAS DESIGN DER MTMM ANALYSE

Annahme: Valide Messungen liegen nur dann vor, wenn…
o
einerseits Messungen desselben Konstruktes mit verschiedenen Methoden zu hoher
Merkmalskonvergenz führen (konvergente Validität) und andererseits
o
eine Diskrimination inhaltlich unterschiedlicher Konstrukte innerhalb einer Methode und
zwischen verschiedenen Methoden nachgewiesen werden kann (diskriminante Valdidität)
-
o

so soll verhindert werden, dass hohe Korrelationen (die aber nur auf Methodeneinflüsse
zurückgehen) fälschlicherweise im Sinne einer hohen Merkmalskonvergenz interpretiert
werden
d.h. valide Messungen sollten einen möglichst geringen methodenspezifischen Anteil
aufweisen
Konvergente und diskriminante Validität der Messungen können anhand der MTMM Matrix
(systematische Korrelationsmatrix aller Traits, die jeweils mit allen Methoden gemessen wurden)
abgelesen werden

In der Hauptdiagonalen der Matrix befinden sich die Reliabilitätskoeffizienten der
Messinstrumente (deshalb auch Reliabilitätsdiagonale genannt), also die MonotraitMonomethod-Reliabilitätskoeffizienten (z.B. Reliabilität von N gemessen mit Selbstbericht)
o

Die sollten möglichst hoch und nicht zu unterschiedlich sein (ist in der Praxis jedoch
schwierig und selten eingehalten)
Die Heterotrait-Monomethod-Koeffizienten sind angeordnet als Dreiecksmatrizen der
Monomethodblöcke unterhalb der Reliabilitätsdiagonalen
-
Beinhalten unterschiedliche Traits, die jeweils mit der selben Methode gemessen wurden,
z.B. N mit Selbstbericht und E mit Selbstbericht

Die Heterotrait-Heteromethod-Koeffizienten (unterhalb bzw. oberhalb der
Validitätsdiagonalen, s.u.) beinhalten die Korrelationen zwischen unterschiedlichen Traits, die mit
unterschiedlichen Methoden gemessen wurden (z.B. N mit Selbstbericht und E mit Fremdbericht)

Die Monotrait-Heteromethod-Koeffizienten (Nebendiagonalen zur Reliabilitätsdiagonalen)
geben die konvergente Validität an (Validitätsdiagonalen) und beinhalten Korrelationen zwischen
gleichen Traits, die mit unterschiedlichen Methoden gemessen wurden (z.B. N mit Selbstbericht
und N mit Fremdbericht)
-
-
Damit konvergente Validität gegeben ist, müssen sich die Korrelationen eines Traits
gemessen mit unterschiedlichen Methoden statistisch signifikant von null unterscheiden
und die Korrelationen sollten hoch sein
Ist das nicht der Fall, muss davon ausgegangen werden, dass mit unterschiedlichen
Mthoden unterschiedliche Konstrukte gemessen werden

Diskriminante Validitätskoeffizienten in der MTMM Matrix
-
sind die Heterotrait-Monomethod-Koeffizienten und die Heterotrait-HeteromethodKoeffizienten zusammen
- damit diskriminante Validiät gegeben ist, sollten 3 Kriterien erfüllt sein
1. verschiedene Traits, die mit einer Methode erfasst werden, sollen geringer korrelieren als
Messungen desselben Traits mit verschiedenen Methoden (konvergente
Validitätskoefizienten)
2. verschiedene Traits, die mit verschiedenen Methoden erfasst werden, sollten geringer
korrelieren als Messungen desselben Traits mit verschiedenen Methoden (konvergente
Validitätskoefizienten) ( ist das nicht der Fall, dann diskriminieren die inhaltlich
verschiedenen Konstrukte nicht, Ursache könnte z.B. ein gemeinsamer Faktor sein)
3. die Heterotrait-Monomethod-Koeffizienten und die Heterotrait-HeteromethodKoeffizienten sollten etwa gleich sein (es gibt aber kein exaktes Kriterium)
- am häufigsten wird überprüft, ob die Rangreihe der Korrelationen über die
Teilmatrizen hinweg konstant ist (bei Methode 1 korreliert Trait 1 am höchsten, Trait
2 am zweithöchsten und Trait 3 am dritthöchsten, dann sollte das bei Methode 2 auch
so sein) oder
- ob die Vorzeichen der Korrelationen in allen Heterotrait-Teilmatrizen übereinstimmen
-
erhöhte Korrelationen innerhalb einer Methode können auf einen Methodeneffekt
hinweisen
erhöhte Korrelationen zwischen 2 Methoden können auf korrelierte Methoden
hinweisen (Beispiel????)

nochmal zusammenfassend die Kriterien:

um eine korrelationsbasierte MTMM Analyse praktisch zu rechnen, kann man jedes
Statistikprogramm nehmen (z.B. SPSS), welches Korrelationen berechnet
EIN EMPIRISCHES BEISPIEL DER MTMM ANALYSE
PROBLEME UND GRENZEN DER MTMM ANALYSE NACH CAMPBELL UND
FISKE (1959)

Auswertung auf Korrelationsebene erfolgt über einfache Häufigkeitsauszählungen bzw. viele
Einzelvergleiche von Korrelationskoeffizienten
o
Das ist geeignet um einen groben Überblick über die Datenstruktur zu erhalten
o
Das Auswerten auf Korrelationsebene bringt jedoch verschiedene Probleme mit sich:
1. Häufigkeitsauszählungen oder Einzelvergleiche sind kein zufallskritisches Vorgehen, denn
in der Statistik werden Korrelationskoeffizienten üblicherweise nur unter
Berücksichtigung eines Konfidenzintervalls als „größer“ oder „kleiner“ bezeichnet
2. die Auswertung der Korrelationsmatrix basiert auf manifesten Variablen, die
Interpretation bezieht sich aber auf latente Traits und Methoden
3. Die Entscheidungen darüber, was bei Verletzung eines der 4 Kriterien zur Annahme oder
Ablehnung konvergenter und diskriminaterValidität passiert, bleiben dem Anwender
überlassen ( Subjektivität, da keine exakten Entscheidungsregeln)
4. konvergente und diskriminante Validität können nicht unabhängig voneinander bestimmt
werden, da Trait- und Methodeneffekte in den Schlussfolgerungen über konvergente und
diskriminante Validität konfundiert sind
5. die MTMM Analyse setzt strenggenommen voraus, dass alle Merkmale mit der gleichen
Reliabilität gemessen werden, was jedoch nur sehr selten eingehalten wird (wenn sich die
Methoden also systematisch in ihrer Reliabilität unterscheiden, dann sind auch de
Korrelationen in der zuverlässigeren Methode generell höher als in der unreliableren
Methode)
DIE KONFIRMATORISCHE MTMM ANALYSE

wird eingesetzt um die methodischen Probleme der ursprünglichen MTMM Analyse zu
überwinden

Vorteile bei der konfirmatorischen Faktorenanalyse:
1. erlaubt Trennung von Trait-, Methoden- und Messfehleranteilen
2. ermöglicht die Überprüfung der Gültigkeit der zugrunde liegenden Annahmen, also die
Eindimensionalität der einzelnen Traits und die Unkorreliertheit von Trait- und
Methodenfaktoren
3. zusätzlich zur Konstruktvalidität kann auch die Kriteriumsvalidität überprüft werden, d.h. es
besteht die Möglichkeit die latenten Traitfaktoren mit Kriterien in Beziehung zu setzen
UMSETZUNG DES KONFIRMATORISCHEN FAKTORENMODELLS

Traits und Methoden werden als Faktoren spezifiziert

Dazu sollten mindestens 3 Traits und 3 Methoden vorliegen, die durch mindestens 9 (3x3)
Indikatoren (Messvariablen, z.B. Trait 1 mit Methode 1, Trait 1 mit Methode 2, usw.) gemessen
werden

o
Jeder Indikator sollte auf einem Traitfaktor und auf einem Methodenfaktor laden, nicht
jedoch auf den anderen Faktoren
o
Jede Messung setzt sich zusammen aus einem Traitanteil, einem Methodenanteil und einem
unsystematischen Messfehleranteil
Die Trait- und Methodenvarianz der Indikatoren wird getrennt voneinander geschätzt und
konvergente und diskriminante Validität können unabhängig von der verwendeten Methode
bestimmt werden

Graphische Darstellung der konfirmatorischen Faktorenanalyse:
Anm.: die gestrichelten Pfeile stehen
für die möglichen Korrelationen
zwischen den Traits bzw. Methoden,
die kleinen Pfeile stehen für die
Messfehler
Anm.: die Indikatoren A1, A2 usw. sind
die einzelnen Kästchen in der
Korrelationsmatrix

Zum praktischen Rechnen einer konfirmatorischen Faktorenanalyse können Verfahren zur
Analyse von linearen Srukturgleichungsmodellen benutzt werden (z.B. LISREL oder Mplus)
EMPIRISCHES BEISPIEL

Überprüfung der Trait- und Methodenanteile bei der Messung von Extraversion,
Gewissenhaftigekeit und Vertäglichkeit mit den Methoden Selbsteinschätzung, Elternurteil und
Einschätzung durch die Peer-Gruppe

Bei der Indikatorvariable B3 (Extraversion mit Peer-Einschätzung) ist die Traitvarianz .45 (weil
.67x.67=.45) und die Methodenvarianz .07 (.27x.27)
o

Das bedeutet: es wird zu einem großen Anteil der Trait gemessen und kaum die Methode
Bei der Indikatorvariable A1 (Verträglichkeit mittels Selbsteinschätzung) beträgt die Traitvarianz
nur .18, die Methodenvarianz hingegen .61 (die Fehlervarianz beträgt dann logischerweise .21)
o
Das bedeutet: es wird nur zu einem geringen Anteil der Trait gemessen, sondern eher die
Methode
o
Für das konkrete Beispiel könnte die Ursache sein, dass nur Studenten untersucht wurden,
welche im allgemeinen eher verträglich sind und sich in diesem Konstrukt wenig
unterscheiden (Problem der Varianzeinschränkung)  würde man eine weniger homogene
Population untersuchen, dann dürfte die Traitvarianz einen höheren Anteil an der
Gesamtvarianz aufweisen
REGRESSIONSMODELLE

Wozu dient die Regression:
o
Sind 2 stochastisch abhängige Variablen x und y miteinander verknüpft, kann man die eine
Variable zur Vorhersage der anderen Variable einsetzen (das macht die
Regressionsgleichung)
o
In den meisten praktischen Anwendungsfeldern werden Regressionsgleichungen bestimmt,
um eine nur schwer zu erfassende Variable mit einer einfacher messbaren Variable
vorherzusagen
-
-
-
Prädiktorvariable (unabhängige Variable) sagt die Kriteriumsvariable (abhängige
Variable) vorher, wobei das nicht unbedingt einen Kausalzusammenhang darstellen
muss
Bsp.: Leistung im Schulreifetest kann als Prädiktor oder Indikator für Schulreife (in
einem Kriterium, was sich im Unterricht zeigt) herangezogen werden, ohne dass
„Leistung im Schulreifetest“ die Ursache für die Leistung im Unterricht ist
Ist ein Test ein brauchbarer Prädiktor, wird er als valide bezeichnet
Damit ein Test ein brauchbarer Prädiktor sein kann, muss die Regressionsgleichung
jedoch zuvor an einer repräsentativen Stichprobe ermittelt worden sein
DIE EINFACHE LINEARE REGRESSION
o
Formelerklärung:
o
- y = Wert auf der Ordinate (Kriterium)
- x = Wert auf der Abszisse (Prädiktor)
- a = y-Achsen-Abschnitt (die Höhenlage bzw. Schnittpunkt mit der y-Achse)
- b = die Steigung der Geraden
am Beispiel:
o
Steigung der Regressionsgeraden:

Die lineare Regression ermöglicht ja nur die Vorhersage von linearen Zusammenhängen
o

es gibt jedoch Sachverhalte, bei denen die Beziehung zwischen Prädiktor und Kriterium
besser durch einen nonlinearen Zusammenhang erfasst wird
Beispiele für nonlineare Zusammenhänge (siehe Grafik)
o
a) exponentieller Zusammenhang: Reproduzierbarkeit von Gedächtnisinhalten nimmt über
die Zeit hinweg nicht linear, sondern exponentiell ab
o
b) parabolischer Zusammenhang: beim Bewerten ästhetischer Reize, werden Reize die
einen mittleren Informationsgehalt haben am positivsten bewertet, solche mit einem sehr
hohen oder sehr niedrigen Informationsgehalt am negativsten
o
c) umgekehrt s-förmiger bzw. kubischer Zusammenhang: Zusammenhang zwischen
Übungsstunden und Fähigkeit beim Erlernen eines komplexen Musikinstruments, es gibt an
einem bestimmten Punkt der Lernphase ein Plateau, wo eine Weile keine Fortschritte mehr
gemacht werden
o
d) logarithmischer Zusammenhang: Vpn soll sich so viele Namen wie möglich einfallen
lassen (Entleerung des Assoziationsreservoirs)  über die Zeit ergibt die kumulierte
Häufigkeitsverteilung logarithmische Form (am Anfang rapider Anstieg, dann immer mehr
Abflachen)
MULTIPLE REGRESSION

Erklärung der Formel:
o
y = Kriterium
o
x₁ = Wert Prädiktor 1
o
x₂ = Wert Prädiktor 2
o
b₁ und b₂ = Steigungen der Prädiktoren 1 und 2 (B-Gewichte)
o
a = y-Achsen-Abschnitt

Veranschaulichung:

Der multiple Korrelationskoeffizient R (im Unterschied zur Produkt-Moment-Korrealtion r)
erfasst also den Zusammenhang zwischen k Prädiktoren und einer Kriteriumsvariablen (R
hat den Wertebereich von 0 bis1)
o
Er entspricht der Produkt-Moment-Korrelation zwischen den eigentlichen und den durch die
Regressionsgleichung vorhergesagten Werten

Voraussetzung für die Durchführung einer multiplen Regression ist die multivariate
Normalverteilung aller beteiligten Variablen und ein genügend großer Stichprobenumfang (ca.
n=40 bei k<10)

Durchführung einer multiplen Regression in SPSS
o
Beispiel: Intelligenz von 10 Schülern soll anhand ihrer Gedächtnisleistung und ihrer
Deutschnote vorhergesagt werden (Gedächtnis wird erhoben über Fehler in einem Test, d.h.
je höher die Zahl, desto schlechter die Gedächtnisleistung)
16
R² =Anteil der Varianz des Kriteriums, welcher durch die Prädiktoren „erklärt“ werden kann;
korrigiertes R² = Schrumpfungskorrektur, da die multiple Korrelation den wahren multiplen
Zusammenhang überschätzt (v.a. bei kleinen Stichproben und vielen Prädiktoren)
16
o
Schaut man sich die b-Gewichte an, erkennt man folgendes:
-
-
-
-
Beide b-Gewichte haben negative Vorzeichen, was Sinn macht, da geringe Zahlen in
der Variable Gedächtnis für weniger Fehler stehen und geringere Zahlen bei Noten für
bessere Leistung stehen; niedrigere Zahlen in beiden Prädiktoren stehen für eine höhere
Ausprägung im Kriterium (das sagt mir die negative Korrelation)
Vergleicht man die beiden b-Gewichte untereinander, sieht man dass die Deutschnote
hier erheblich stärker an der Vorhersage der Kriteriumsvariablen beteiligt ist als die
Gedächtnisleistung
Allgemein: je höher das b-Gewicht, umso bedeutsamer ist die Prädiktorvariable zur
Vorhersage der Kriteriumsvariable.
Anders ausgedrückt: Dem b-Gewicht ist zu entnehmen, welchen Beitrag ein einzelner
Prädiktor im Kontext aller übrigen Prädiktoren zur Klärung der tatsächlichen
Kriteriumsvarianz leistet
Die b-Gewichte sind nicht standardisiert und können deshalb beliebige Beträge
annehmen (je nach Skalierung)  zur Vergleichbarkeit guckt man sich Beta an
PROBLEME UND DIFFERENZIERUNG VON PROGNOSEN
PROBLEME VON PROGNOSEN: VERHALTENSVARIABILITÄT

Bestimmte Situationen engen den Verhaltensspielraum in einem Maße ein, dass interindividuelle
Unterschiede nahezu verschwinden (selbst wenn diese bestehen)
o

Situativer Druck führt zu Verhaltenskonformität, wodurch traitgeleitete individuelle
Verhaltensunterschiede verschwinden
Das führt zu dem Problem, dass Vorhersagen und Varianzaufklärung auf der Basis von
Eigenschaftsmaßen nicht mehr funktionieren
o
Dieses Problem haben insbesondere Persönlichkeitsfragebögen im Rahmen von
Konkurrenz- oder Auslesesituationen (sozial erwünschtes Antworten aus dem Druck heraus
sich gut zu präsentieren)
o

Leistungstests können als Ausnahme betrachtet werden, weil zumindest eine
Fehldarstellung der eigenen Person „nach oben“ nicht funktioniert
Eine Möglichkeit zur Lösung dieses Problems ist die Aggregation von Daten über verschiedene
Situationen hinweg:
o
Aggregation von Daten über Beobachtungszeitpunkte, Verhaltensweisen und Situationen
hinweg kann zur Erhöhung der Reliabilität führen und somit auch zu einer substantiellen
Erhöhung der Validität
o

Problem: wenn das Verhalten einer Personen in einer bestimmten Situation interessiert,
wird’s schwierig mit der Aggregation, außerdem ist die Aggregation aufwändig
Eine andere Möglichkeit zur Erhöhung der prognostischen Validität bei inhaltsvaliden Tests ist die
Erhöhung der selbstzentrierten Aufmerksamkeit
o
Studie von Pryoret al. (1977): Selbstaufmerksamkeit erhöht Validität von Selbstberichten
über Soziabilität (= Fähigkeit Einzelner ohne große Umstände neue soziale Beziehungen
aufzunehmen und zu pflegen)
o
Design: Variation des Ausmaßes selbstzentrierter Aufmerksamkeit durch Ausfüllen des
Fragebogens vor einem Spiegel vs. Ausfüllen ohne Spiegel
o
Kriterium (Soziabilität) wurde als Kombination aus Fremdrating und Verhaltensbefunden
(Anzahl der in der Warteraumsituation gesprochenen Worte) erhoben
o
Fragebogendaten und Kriteriumswerte wurden innerhalb der einzelnen Bedingungen
miteinander korreliert
o
Ergebnis: Starke Unterschiede zwischen der üblichen Bedingung (r = .16) und der
Spiegelbedingung (r = .62)
o
Wicklund (1977) schließt, dass die Induktion selbstzentrierter Aufmerksamkeit bei einem
inhaltsvaliden Messverfahren ein Instrument ist, das die Vorhersagevalidität eines
Verfahrens erhöhen kann
PROBLEME VON PROGNOSEN: TESTFAIRNESS
PROMINENTE FAIRNESSMODELLE
DAS MODELL DER PROPORTIONALEN REPRÄSENTATION

Beispiel

Probleme des Quotenmodells:
o
mangelnde Berücksichtigung systematischer Leistungsunterschiede zwischen
Bewerbergruppen
o
Es wird implizit angenommen, dass die Gruppen gleich leistungsfähig sind und der Test
Gruppenunterschiede aufgrund fehlerhafter Konstruktion nur vortäuscht
o
Aussagen über die Effizienz des Verfahrens (im Hinblick auf den Erfolg der ausgewählten
Bewerber) werden daher ausgeblendet
o
Der Umgang mit systematischen Gruppenunterschieden (z.B. getrennte Normierung)
entspringt der Überzeugung, dass es derartige Unterschiede nicht geben darf
o
Konkrete Verdeutlichung des Problem: Es wäre unsinnig einen 50 jährigen Alkoholkranken
mit einer anspruchs- und verantwortungsvollen Überwachungsaufgabe nur deshalb zu
betrauen, weil er im Vergleich zu anderen altersgleichen Alkoholkranken hervorragende
Leistungen in den einschlägigen Tests zeigt  die Entscheidung muss eher von dem
Umstand abhängig gemacht werden, welches Maß an faktischer Bewährung zu erwarten ist
o
In der psychologischen Literatur wird das Quotenmodell nicht ernsthaft vertreten, es stehen
mehr solche Modelle im Vordergrund, bei denen Erfolg im Kriterium die vorderrangige
Rolle spielt
o
Praktische Anwendung des Quotenmodells: Frauenquoten, Behindertenquoten (z.B. in
Unijobs)
DAS REGRESSIONSMODELL VON CLEARY

Diese Modell wird am häufigsten verwendet

Ein Selektionsverfahren ist dann fair, wenn bei seiner Anwendung für keine der miteinander
verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht
o
Diese Bedingung ist erfüllt, wenn die gruppenspezifischen Regressionsgeraden miteinander
identisch sind (d.h. die gleiche Steigung haben und die Ordinate an der selben Stelle
schneiden)
o
Konkret: der Test (Wert auf der x-Achse) sagt das Kriterium (Wert auf der y-Achse) für
beide Gruppen gleich vorher
Anm.: die Regressionsgerade hier ist für beide Gruppen
gleich

Was passiert, wenn die Regressionsgeraden nicht identisch sind?
 Über-/Unterschätzung in Subgruppen:

Wie sieht die Überprüfung der Fairness nach diesem Modell aus:

Implikationen des Regressionsmodells:
o
Wenn der Auswahlprozess im Rahmen des Regressionsmodells von Cleary als fair zu
erachten ist, findet die Auswahl anhand der geschätzten Kriteriumsleistung statt
o
Es werden diejenigen Kandidaten ausgewählt, die voraussichtlich die besten
Kriteriumsleistungen zeigen werden. Die Erfolgsrate, d.h. die durchschnittliche Leistung der
ausgewählten Kandidaten, wird daher maximiert
o
Diese Vorgehensweise ist fair für jeden einzelnen Kandidaten, da jeder voraussichtlich im
Kriterium bessere jedem voraussichtlich weniger leistungsfähigen Bewerber vorgezogen
wird. Dieser Standpunkt wird als der des „qualified individualism“ (vgl. Hunter & Schmidt,
1976) bezeichnet
o
Kritik an diesem Modells durch Thorndike (1971):
-

Er weist nach, dass bei einer derartigen Auswahl relativ mehr Auswahlfehler zu
Ungunsten der Probanden in der leistungsschwächeren Gruppe (mehr falsch abgelehnte
als richtig angenommene in der leistungsschwächeren Gruppe, bei der leistungsstärkeren
Gruppe ist es umgekehrt  hat man mehr richtig angenommene als falsch abgelehnte 
diese Unfairness der Verhältnisse soll durch Thorndikes Modell aufgehoben werden)
Praktische Anwendung: bei allgemeinen Selektionsverfahren („Managerin, die an Dollars
interessiert ist“, und nur die Bewerber will, der am wahrscheinlichsten Erfolg im Kriterium haben)
DAS MODELL KONSTANTER VERHÄLTNISSE (CONSTANT RATIO) VON THORNDIKE

Implikationen des Thorndike Modells:
o
Es wurde gezeigt, dass die von Thorndike (1971) geforderte Konstanz der Verhältnisse
lediglich durch die Absenkung des Cut-offs (bzw. die Parallelverschiebung der
Regressionsgeraden) in der leistungsschwächeren Gruppe gewährleistet werden kann
o
Da hierdurch zwangsweise auch leistungsschwächere Kandidaten angenommen werden
müssen, reduziert sich die durchschnittliche Kriteriumsleistung der ausgewählten
Kandidaten

o
Diese Vorgehensweise ist fair gegenüber den ausgewählten Kandidaten der
leistungsschwächeren Gruppe, da die Fehler, die bei deren Auswahl begangen werden,
denen in der leistungsfähigeren Gruppe entsprechen
o
Die Vorgehensweise ist unfair gegenüber den Abgelehnten aus der leistungsstärkeren
Gruppe. Obwohl bei Ihnen höhere Kriteriumsleistungen zu erwarten wären, werden sie
nicht angenommen
Praktische Anwendung: z.B. Studienplatzvergabe an schwarze und weiße Studenten
PROBLEME VON PROGNOSEN: MODERATION

Graphische Veranschaulichung eines Moderatoreffektes:

Studie von Melville & Frederiksen (1954)
o
Vorhersage von Studienleistung aus Interessenstests
o
Die Vorhersagekraft unterscheidet sich deutlich, wenn man nicht die Gesamtgruppe
betrachtet, sondern wenn man die Studierenden in 2 Subgruppen einteilt
-
o
-
Rigide Studierende: Tendenz zum Perfektionismus ungeachtet des Interesses für das Fach
Flexible Studierende: Anstrengung in einem Fach abhängig vom Interesse
Der Moderatoreffekt erfolgt also durch die Variable Rigidität
d.h. bei flexiblen Studierenden funktioniert die Vorhersage von „Leistung“ aus „Interesse“
besser als bei rigiden Studierenden

Inhaltliche Bedeutung des Moderationskonzeptes:
o
Das einführende Beispiel hat gezeigt, dass Szenarien denkbar sind, in denen für
verschiedene Individuen verschiedene Vorhersagen getroffen werden müssen
o
Variablen, die „interindividuelle Differenzen in der Voraussagbarkeit eines
Kriteriums“(Bartussek, 1970) erklären, werden konventionell als Moderatorvariablen
bezeichnet
o
Moderatorvariablen sind daher mit der Validität eines Tests korreliert
o
Korrelationen des Moderators mit Prädiktor oder Kriterium müssen nicht zwingend
bestehen (weil der Moderator nur auf den Zusammenhang von P und K wirkt, nicht auf
unbedingt auf die einzelnen?)
VERFAHREN ZUR ÜBERPRÜFUNG VON MODERATOREFFEKTEN
FRAKTIONIERUNGSMETHODE

Die einfachste Methode (und in der Literatur am häufigsten verwendet) besteht darin, die
Gesamtgruppe nach einer inhaltlich belangvollen Variablen in homogenere Subgruppen
aufzuteilen (meist 2-3)

Für jede dieser Gruppen werden dann getrennt die Test-Kriteriums-Korrelationen
(Validitätskoeffizienten) berechnet

Unterscheiden sich diese Validitätskoeffizienten signifikant voneinander, so übt die
Teilungsvariable einen bedeutsamen Moderatoreffekt aus

Unterscheiden sich die Validitätskoeffizienten nicht signifikant voneinander, dann übt die
Teilungsvariable keinen moderierenden Effekt aus

Probleme der Fraktionierungsmethode:
o
Die Fraktionierungsmethode bietet sich vor allem dann an, wenn die Validität eines Tests in
Gruppen bestimmt werden soll, die in der Realität in alternativer Form (z.B.
männlich/weiblich) oder in mehrstufig diskreter Form vorliegen (z.B. ethnische
Abstammung: kaukasoid/mongolid/negroid)
o
Liegt der potentielle Moderator in kontinuierlichen Form vor (z.B. Werte in einem
Rigiditätstest, siehe o.g. Studie), so ist die Fraktionierungsmethode vor allem aus drei
Gründen heraus als problematisch zu beurteilen
-
-
-
Will man kontinuierlich-quantitative Variablen in (viele) separate Teilgruppen
untergliedern, hat dies den Nachteil, dass sich der Stichprobenfehler vergrößert. Die
zufallskritische Absicherung der Unterschiede zwischen den Validitäten in den
Stichproben wird erschwert
Außerdem würde die Teilung vermutlich willkürlich (z.B. mittels Mediansplit) entlang
des Wertekontinuums vorgenommen, ohne dass tatsächliche qualitative Unterschiede
bestehen
Die in den einzelnen Subgruppen erhaltenen Korrelationen können nicht im Sinne einer
exakten Beziehung zwischen Moderatorvariable und Validität des Tests interpretiert
werden
MODERIERTE REGRESSION

Aufgrund der bei der Fraktionierungsmethode bestehenden Probleme schlägt Saunders (1956) ein
regressionsanalytisches Verfahren vor

Zentral ist die Idee, die Steigung (b) und Konstante (a) der einfachen linearen Regression
(Fraktionierungsmethode nutzt die einfache lineare Regression) mithilfe der Moderatorvariablen
vorherzusagen

Bei Hinzunahme eines weiteren Prädiktors entsteht eine Regressionsfläche. Die „Falte“ in der
Abbildung entsteht, da sich in Abhängigkeit von der Moderatorvariablen (Ausprägung auf z)
andere Steigungen ergeben (AB, CD, EF, usw.)
o
Unterschied zur multiplen Regression: da wäre die Fläche flach, also keine „Falte“

Herleitung der Regressionsgleichung:

Bedeutung der Regressionsgleichung:
o
x∙z ist der Interaktionsterm: das sind die multiplizierten Prädiktor- und
Moderatorvariablen für jede einzelne Versuchsperson (Anm. In SPSS müsste man also eine
neue Variable bilden, erst dann kann die moderierte Regression gerechnet werden)
o
f ist das Gewicht des Interaktionsterms
o
Man kann also sagen, dass die moderierte Regressionsgleichung das Kriterium y auf Basis
von 3 Prädiktoren vorhersagt:
-
Vorhersage von y durch den Prädiktor x
Vorhersage von y durch den Moderator z
Vorhersage von y durch die Wechselwirkung von x und z
o
Entscheidend für die Beurteilung des Moderationseffekts ist die Signifikanz des Gewichts
des Interaktionsterms. Wird das Gewicht signifikant, so kann der Moderationseffekt
angenommen werden
o
Es geht bei der Frage nach Moderation nicht darum, ob der Haupteffekt des Prädiktors
oder der Haupteffekt des Moderators signifikant wird. Dieser würde aussagen, ob sich das
Kriterium hinreichend genau aus Prädiktor oder Moderator vorhersagen lässt
o
Wenn also die multiple Korrelation zur Vorhersage des Kriteriums y steigt, wenn zusätzlich
der Term x∙z aufgenommen wird, dann liegt mit der Skala z ein bedeutsamer Moderator vor
EMPIRISCHE BEFUNDE ZU MODERATOREFFEKTEN

Schulische Leistungen sind aus Intelligenztests besser vorhersagbar für solche Schüler, die eine
hohe Konformität an den schulischen Betrieb und eine gute Betragensnote aufweisen (Amelang
& Vagt, 1970)

Die Validität von Fremdeinschatzungen (gegenüber Selbstbericht) ist für solche Personen höher,
die ihr eigenschaftsrelevantes Verhalten als gut beobachtbar bezeichnen (Amelang &
Borkenau, 1986)

Für Personen mit hohen Punktwerten in Lügenskalen (im Gegensatz zu Personen mit mittleren
oder niedrigeren Werten) kann von geringerer Validität ihrer Fragebogenbeantwortung
ausgegangen werden (Amelang& Borkenau, 1981)

Selbsteingeschätzte transsituationale Konsistenz (vs. Variabilität) ist ein Moderator für die
Prognostizierbarkeit von Persönlichkeit (Bem& Allen, 1974)
PROBLEME VON PROGNOSEN: SPEZIFISCHE UND GETEILTE VARIANZ



Die Kombination von mehreren Prädiktoren führt bekanntlich dann zu einem erheblichen
Zuwachs an Validität, wenn
o
jeder einzelne Prädiktor hoch mit dem Kriterium korreliert
o
die Prädiktoren untereinander niedrig miteinander korrelieren
o
In einem solchen Fall deckt jeder Prädiktor einen anderen Teil des Kriteriums ab, was sich
positiv auf die Validität der Testbatterie als ganzes auswirkt
Problem: Hohe Validität entsteht auch wenn Variablen in eine Testbatterie aufgenommen werden,
die
o
hoch mit den anderen Prädiktoren korrelieren
o
aber niedrig mit dem Kriterium korrelieren
o
was dann passiert ist, dass kriteriumsirrelevante Varianz unterdrückt wird  Suppression
(siehe weiter unten: Suppressoreffekte)
Mittels schrittweiser multipler Regression kann überprüft werden, ob eine Variable über eine
andere Variable hinaus Varianz aufklären kann (= inkrementelle Validität)
o
Diese Betrachtung ignoriert jedoch die Frage, wie viel Varianz sich beide Prädiktoren im
Kriterium teilen (ab), implizit wird angenommen, dass die Prädiktoren unabhängig sind,
was aber nicht stimmen muss (siehe Grafik)
o
Gemeinsame Varianzbeträge werden in der Regel dem varianzstärkeren Prädiktor
zugeschrieben, was zu einer Überschätzung dieses Prädiktors führt und zu einer
Unterschätzung des anderen Prädiktors
o
Dieses Problem kann die Kommunalitätenanalyse lösen!!!
EXKURS: PARTIALKORRELATION/SEMI-PARTIALKORRELATION

Der Einfluss einer dritten Variable auf zwei andere Variablen wird herausgerechnet

Partialkorrelation
o

Zusammenhang zweier Variablen, bei denen der Einfluss der dritten Variable komplett
rausgerechnet wurde
Semipartialkorrelation
o
Zusammenhang zweier Variablen, bei denen der Einfluss der dritten Variable nur aus einer
der beiden Variablen rausgerechnet wurde
KOMMUNALITÄTENANALYSE17

Die Kommunalitätenanalyse ermöglicht es gemeinsame (ab) und spezifische (a und b)
Varianzanteile in nur vier Schritten festzustellen

Die Kommunalitätenanalyse ändert nichts an der Signifikanz der beta-Gewichte  liefert also
kaum mehr Information, deshalb wird sie auch nicht so häufig gemacht

Beispiel: Studie von Klingbeil (2004)
Der Teil der Gesamtvarianz der durch alle extrahierten Faktoren erklärt wird, wird in der
Faktorenanalyse als Kommunalität bezeichnet, Kommunalität werden als r² geschrieben
17
SUPPRESSORVARIABLEN

Üblicherweise wird die Vorhersage (Validität) verbessert, wenn Prädiktoren berücksichtigt
werden, die hoch mit dem Kriterium und niedrig untereinander korreliert sind

Eine interessante Ausnahme stellen Suppressorvariablen dar
o

Wieso können Suppressoren die Vorhersage verbessern, also die Validität steigern, obwohl sie
nicht mit dem Kriterium korrelieren?
o

Diese sind lediglich gering mit dem Kriterium, dafür aber sehr hoch mit den übrigen
Prädiktoren korreliert (in der Grafik sind Suppressor und Kriterium gar nicht korreliert, d.h.
die Korrelation von Prädiktor und Suppressor ist für die Vorhersage des Kriteriums
irrelevant)
auf Grund der hohen Korrelationen zwischen den zusätzlichen Variablen und den
Prädiktoren, werden die kriteriumsirrelevanten Varianzanteile gebunden oder unterdrückt
die Validitätssteigerung durch den Suppressor ist abhängig von
o
der Enge des Zusammenhangs zwischen Prädiktor und Suppressor
o
dem eigentlichen Zusammenhang zwischen Prädiktor und Kriterium

Ein empirisches Beispiel für einen Suppressoreffekt ist eine Studie von Horst (1966)
o
Dieser versuchte den Ausbildungserfolg von Piloten aus mechanischer, numerischer,
räumlicher und verbaler Fähigkeit vorherzusagen.
o
Es zeigte sich dass
-
o

mechanische, numerische und räumliche Fähigkeiten hoch mit dem Kriterium korrelierten
verbale Fähigkeit gering mit dem Kriterium, aber hoch mit den übrigen 3 Prädiktoren
korreliert war
Trotz der Nullkorrelation von verbalen Fähigkeiten und Ausbildungserfolg verbesserte sich
die Validität der Testbatterie, wenn verbale Fähigkeit berücksichtigt wurde
Ein fiktives Datenbeispiel zu der Horst-Studie in SPSS
o
Korrelationsmatrix für Prädiktoren, Suppressor und Kriterium
o
Untereinander korrelieren die Prädiktoren hoch
Verbal korreliert niedrig mit Kriterium
Übrige Prädiktoren korrelieren hoch mit Kriterium
Varianzaufklärung mit und ohne verbale Fähigkeiten
o
Ohne verbale Fähigkeiten (1): aufgeklärte Varianz = .387
Mit verbale Fähigkeiten (2): aufgeklärte Varianz = .462
Die Veränderungen zwischen den Modellen ist signifikant
Betrachtung der Koeffizienten
-
Modell 1: Beta-Gewichte sind kleiner, geringere Signifikanz

Modell 2: Beta-Gewichte sind größer, größere Signifikanz (den Suppressor in Modell
erkennt man am negativen Vorzeichen des Beta-Gewichtes)
In Modell 2 wird die irrelevante Varianz durch das negative Beta-Gewicht abezogen
Abschließende Bemerkung zum Suppressorkonzept
o
Ein Suppressor muss deutlich mehr Varianz im Prädiktor erklären als ein weiterer Prädiktor
an Varianz im Kriterium erklären muss um Validitätssteigerung zu erbringen (viermal so
viel)
o
Deshalb wird in der Praxis eher nach weiteren Prädiktoren statt nach Suppressoren gesucht
o
Der Vorteil am Suppressor ist aber dennoch, dass er irrelevante Varianz im Prädiktor bindet
und somit unterdrückt
MEDIATORVARIABLEN

Definition: Eine Mediatorvariable ist eine Variable, die den Einfluss des Prädiktors auf das
Kriterium vermittelt

Beispiel für einen Mediatoreffekt (Lindenberger & Baltes, 1997):

Überprüfung von Mediatoreffekten:

Überprüfung von Mediatoreffekten an einem empirischen Beispiel in SPSS: Intelligenzabbau im
Alter
o
Regression von Intelligenz auf Alter:
-
o
Regression von Sensorik auf Alter:
o
Intelligenz kann durch Alter signifikant vorhergesagt werden
Sensorik kann durch Alter signifikant vorhergesagt werden
Regression von Intelligenz auf Sensorik und Alter:
-


Bei der Kontrolle von Sensorik kann Intelligenz nicht mehr signifikant durch Alter
vorhergesagt werden
Probleme bei Mediatoranalysen
o
Mit der Mediatoranalyse können kausale Wirkmechanismen untersucht werden. Hierbei soll
die Frage nach distalen (= vorgelagerten) und proximalen (= nachgelagerten) Ursachen
psychologischer Phänomene geklärt werden
o
Zentrales Problem bei der Vorgehensweise nach Baron und Kenny (1986) ist, dass es sich
um eine „blindanalytische“ Methode handelt, bei der theoretische Überlegungen außer Acht
gelassen werden
o
Das bedeutet, dass das Modell, das aus den Daten geschätzt wird, nicht unbedingt den
Überlegungen des Forschers entsprechen muss. Kann die eigentlich als Prädiktor
vorgesehene Variable mehr Varianz aufklären, als die eigentlich als Mediator vorgesehene
Variable, so wird der Prädiktor als Mediator geschätzt
o
Einen Ausweg aus dieser Problematik bieten lineare Strukturgleichungsmodelle, bei denen
die Plausibilität verschiedener vorgegebener Modelle miteinander verglichen werden kann
(vgl. Frazier, Tix & Barron, 2004)
Abgrenzung Mediator- und Moderatorvariablen
o
Moderator: Korrelationen des Moderators mit Prädiktor oder Kriterium müssen nicht
zwingend bestehen
o
Mediator: Korrelation für Mediator und Prädiktor und Korrelation für Mediator und
Kriterium muss signifikant sein
Mediator
VALIDITÄTSGENERALISIERUNG
SINNHAFTIGKEIT DER ZUSAMMENFASSUNG VON FORSCHUNGSBEFUNDEN

Beispiel:

Grundproblem: In der Literatur finden sich viele (auch widersprüchliche) Forschungsbefunde
o


Einen Überblick über Primärstudien zu gewinnen erfordert viel Aufwand
Aggregation als Ausweg aus der Problematik
o
Traditionelle Form der Verdichtung von Forschungsbefunden ist das narrative Review, in
dem die wichtigsten Befunde zu einer Thematik besprochen werden
o
Eine neuere Möglichkeit ist die numerische Aggregation von Forschungsbefunden. Die
einfachste Form wäre die Ermittlung der mittleren Validität
Auffassung in den 50/60er Jahren
o
Die numerische Aggregation von Validitätsbefunden sei nicht sinnvoll
o
Validität von Tests sei hochgradig situationsspezifisch (Ghiselli, 1966)
-

Beobachtung, dass Validitätskoeffizienten selbst dann stark variieren, auch wenn
gleichartige Tests und Kriterien eingesetzt werden
damalige Erklärungsansätze: Faktorenstruktur für Leistung unterscheidet sich von Job zu
Job; Anforderungsunterschiede zwischen den Tests werden übersehen
 daraus ergäbe sich die Notwendigkeit Testverfahren für jede Anwendungssituation neu
zu validieren
Schmidt und Hunter (1977) plädieren dementgegen für die Aggregation
GRUNDIDEE DER VALIDITÄTSGENERALISIERUNG

Die beobachtete/gemessene Validität eines Tests besteht laut KTT aus 2 Komponenten:
o
Aus der wahren Validität
o
und unsystematischen Messfehlern
o
Könnte man fehlerfrei messen, so sollten sich in allen Studien gleiche Validitäten ergeben,
also die wahren Validitäten, da sich die Fehler rausmitteln würden

Annahme: Der Großteil der Varianz (Unterschiedlichkeit) der Testvaliditäten geht auf
studienspezifische Störeinflüsse (=Artefakte) zurück  d.h. die wahren Validitäten sind ähnlich
oder gleich, nur die Fehlerkomponente ist unterschiedlich  daher entsteht in der Verteilung der
Validitäten Streuung

Werden die Artefakte aus den einzelnen Studien herausgerechnet, so sollte sich die Streuung
reduzieren

Besteht nach der Korrektur keine Streuung mehr, so kann die mittlere Validität als wahre Validität
angenommen werden
VORGEHEN BEI DER VALIDITÄTSGENERALISIERUG (ÜBERBLICK)
VORGEHEN IM EINZELNEN: KORREKTUR VON ARTEFAKTEN

Es gibt 5 Arten von statistischen Artefakten
o
2 nicht korrigierbare Artefakte:
-
o
3 korrigierbare Artefakte:
-
-
-

1. Fehler bei der Datenverarbeitung (Auftretenshäufigkeit unbekannt und daher nicht
korrigierbar)
2. Ausmaß der Kriteriumskontamination (Kriterienvermischung)
- Beispiel: eigentliches Kriterium lebenslanger Berufserfolg
aktuelles Kriterium  aktueller bzw. bisheriger Berufserfolg
- abhängig vom Erhebungszeitpunkt resultieren unterschiedliche Kennwerte
- Bsp. Beurteiler sind später auch Vorgesetze; da sie ihre Entscheidung nicht in Frage
stellen wollen, stufen sie den Kandidaten bzgl. des Berufserfolg hoch ein
1. Reliabilität von Prädiktor und Kriterium
- Man erstellt eine Verteilung der Reliabilitäten
- Dann bestimmt man die Varianz, die ausschließlich auf mangelnde Reliabilität
zurückgeht und korrigiert diese
 doppelte Minderungskorrektur für die Unreliabilitat des Prädiktors und Reliabilitat
des Kriteriums
 einfache Minderungskorrektur, wenn nur die Unzuverlässigkeit des Tests oder des
Kriteriums interessiert/ behebbar erscheint
2. Größe der Stichprobe
- Bei kleinem n ist mehr Zufall in den Daten und der wahre Zusammenhang ist verzerrt
- Varianzeinschränkung durch geringe Auswahlquote  geringere Varianz 
Korrelation braucht Varianz um signifikant zu werden  niedrige Validität (und vice
versa)
- d.h. je geringer die Auswahlquote desto geringer ist die Varianz
- deswegen: Validitätskoeffizienten auf größere repräsentative Streuung aufwerten
- Schätzer: 1/ (N-3), wobei N = durchschnittliche Stichprobengröße der publizierten
Studien
- je größer N, desto genauer ist die Schätzung des Effekts aus der Stichprobe
- gemittelter Effekt = (Summe N i+Effekt i)/Summe N i  Bei der Mittelung des
Effekts wird jede Effektgröße durch die Stichprobengröße gewichtet
3. Varianzeinschränkung in Prädiktor und Kriterium
- Varianzeinschränkung im Prädiktor: bspw. werden Bewerber nur aufgrund eines
besonders hohen Wertes in die Stichprobe aufgenommen, IQ>110
- Varianzeinschränkung im Kriterium: bspw. wird besonders schlechten Personen in der
Probezeit gekündigt, besonders gute Personen suchen und finden von selbst eine neue
Stelle
Effekte der Artefaktkorrektur:

Zusammenfassung des Vorgehens bisher:
o Suche nach Validitätskoeffizienten aus verschiedenen Studien
o Fisher’s Z-Transformation um vergleichbare Werte zu haben
o
Abziehen der Varianz aus den 3 korrigierbaren Fehlerquellen
o
die Fehlervarianz, die übrig bleibt, ist auf Situationsspezifika zurückzuführen
o
diese Fehlervarianz muss auf Unterschiedlichkeit zu Null getestet werden 
Homogenitätstestung
HOMOGENITÄTSPRÜFUNG

Die Streuung der Validitätskoeffizienten reduziert sich durch die Korrektur der Artefakte
üblicherweise

Trotzdem ist die Streuung in der Regel auch nach der Korrektur numerisch nicht exakt Null

Daher muss mittels eines sogenannten Homogenitätstests überprüft werden, ob in der korrigierten
Verteilung noch bedeutsame Streuung besteht, (wenn keine signifikante Streuung mehr, dann ist
die mittlere Validität = wahren Validität)

Es gibt 2 Arten von Homogenitätsprüfung durchzuführen:
o
Homogenitätsprüfung mittels Chi-Quadrat Verfahren
-
o
Homogenitätsprüfung mittels 75%-Regel
-
o
Bei der Anwendung der 75%-Regel wir überprüft, ob sich die Streuung der Validitäten
durch die Korrektur mindestens um 75% reduziert hat
Homogenitätstest vs. 75%-Regel:
-
-

prüft ob die restliche Streuung statistisch signifikant von 0 verschieden ist
Der Homogenitätstest hat einen geringeren α-Fehler (d.h. fälschliche Entscheidung
zugunsten der Homogenitätsannahme) während die 75%-Regel einen geringeren β-Fehler
(d.h. fälschliche Ablehnung der Homogenitätsannahme)
Die Entscheidung für eines der beiden Verfahren hängt davon ab, welcher Fehler eher in
Kauf genommen werden soll
Besteht nach der Korrektur keine signifikante Streuung mehr, dann ist die mittlere Validität
= wahren Validität
Validität des Tests ist generalisierbar (H1 wird angenommen)
 geschätzter wahrer mittlerer Validitätskoeffizient wird bestimmt (Vorgehen: Korrektur um
mangelnde Kriteriumsreliabilität und Varianzeinschränkung)

Besteht nach der Korrektur noch eine bedeutsame Streuung, dann ist eine Generalisierung nicht
möglich  Moderatoren suchen
SUCHE NACH MODERATOREN

Liegt Homogenität jeweils auf der Moderatorebene vor, dann kann angenommen werden, dass die
mittlere Validität auf Moderatorstufe der wahren Validität auf Moderatorstufe entspricht
SIGNIFIKANZPRÜFUNG

Die Null liegt nicht im Konfidenzintervall um die mittlere korrigierte Korrelation
 Mit 95%iger Wahrscheinlichkeit kann die wahre Validität größer Null angenommen werden

Die Null liegt in dem Konfidenzintervall um die mittlere korrigierte Korrelation
 Die wahre Validität kann nicht mit 95%iger Wahrscheinlichkeit größer Null angenommen
werden

Je höher die mittlere Validität, desto unwahrscheinlicher ist es, dass die Null in dem
Konfidenzintervall liegt, da dieses weiter von der Null entfernt ist

Je geringer die Streuung ist, desto unwahrscheinlicher ist es, dass die Null in dem
Konfidenzintervall liegt, da dieses dann kleiner ist

Fazit
o
ist die mittlere korrigierte Korrelation also von Null verschieden, kann die wahre Validität
zwar nicht exakt bestimmt werden, aber auf jeden Fall größer Null angenommen werden
o
ist die mittlere korrigierte Korrelation nicht von Null verschieden, dann heißt das, dass die
Fehlervarianz durch Situationsspezifika nicht eliminiert werden kann und somit keine
Generalisierung möglich ist
KRITIK/PROBLEME BEI DER VALIDITÄTSGENERALISIERUNG

„Garbage-in – Garbage-out“ Problematik
o
Dieses Argument kritisiert, dass die methodische Qualität der Primärstudien im Rahmen der
Validitätsgeneralisierung per se nicht geprüft wird
o
Zur Reduktion dieser Problematik können Expertenratings der Qualität der Primärstudien
herangezogen werden. Entsprechend der Einschätzungen können Studien ausgeschlossen
werden



o
es sollten nur Primärstudien eingehen, die methodische Mindeststandards erfüllen (rein
oberflächlich kann man methodische Qualität schon erkennen, von welchem
Publikationsorgan eine Studie veröffentlicht wurde, z.B. APA)
o
Umgang mit Studien unterschiedlicher methodischer Qualitat:
- Gewichtung: bessere Studien bekommen starkeres Gewicht
- separate Analysen für die unterschiedlichen Klassen
„Äpfel und Birnen“ Problematik
o
Stellt die Frage, ob Prädiktoren bzw. Kriterien als gleiche Konstrukte zu Werten sind (bspw.
ist Intelligenz im HAWIE das Gleiche wie Intelligenz in den APM)
o
Die Berücksichtigung der Homogenität der betrachteten Variablen ist daher von großer
Bedeutung. Wird dies nicht getan, so kann ein möglicherweise in homogenen Subgruppen
bestehender Effekt nicht erkannt werden
Problematik abhängiger Untersuchungsergebnisse
o
Werden Teilergebnisse aus einer Studie verwendet, die an ein und derselben Stichprobe
durchgeführt wurde, so geht diese Stichprobe mehrfach in die Analyse ein. Der Einfluss
dieser Stichprobe wäre in diesem Falle übermäßig stark
o
Aufgrund dieser Problematik sollten in einer Validitätsgeneralisierung lediglich Ergebnisse
aus unabhängigen Stichproben verwendet werden. Werden in einer Studie mehrere
Teilergebnisse dargestellt, so werden diese gemittelt und als einzelne Validität eingegeben
„Filedrawer“ Problematik/Publication-Bias
o
Die Publikationspolitik wissenschaftlicher Zeitschriften begünstigt positive metaanalytische
Ergebnisse, weil überwiegend Studien mit signifikanten Ergebnissen veröffentlicht werden
und Studien mit nicht-signifikanten Ergebnissen unberücksichtigt bleiben
o
Zur Reduktion dieser Problematik werden sogenannte „Fail-Safe“-N´s berechnet. Diese
geben die Anzahl nicht-signifikanter Untersuchungen an, die noch aufgenommen werden
müssten, um den Gesamteffekt auf Null abzusenken
EMPIRISCHES BEISPIEL EINER VALIDITÄTSGENERALISERIUNG
Studie von Wiesner & Cronshaw (1988)
 führten eine Metaanalyse der prädiktiven Validität verschiedener Interviewarten (strukturierte
vs. unstrukturierte Vorstellungsgespräche) durch
- alle Studien: r = .47 [0.08; 1.00] (Validität generalisierbar, 0 nicht im Intervall)
- bei einer durch Artefakte aufgeklärten Varianz von 14%
- d. h. Suche nach Moderatoren ist sinnvoll
- Strukturiertheit des Interviews zeigt Moderatorwirkung
o strukturierte Vorstellungsgespräche erweisen sich als valide (r=.40)
o unstrukturierte nicht (r=.13)
- strukturiert: Interviewer mit Leitfaden
o Reihenfolge
o Dauer des Gesprächs
o Skalen zur Bewertung
METAANALYSE

Definition Metaanalyse
o
„Gruppe von Verfahren, mit denen die Ergebnisse verschiedener Untersuchungen zu einer
gemeinsamen Thematik zusammengefasst werden, um so einen Überblick über den
aktuellen Stand der Forschung zu gewinnen“ (Bortz & Döring, 1995, S.589)
o
meist geht es um die Frage der Wirksamkeit (des Effekts) eines Treatments
o
durch die vielen Einzeluntersuchungen wird der wahre Effekt geschätzt

Grundannahme: die Stichproben der eingehenden Studien sind vergleichbar d.h. aus einer
Population

Ziele:
o
Beschreibung von Forschungsfeldern
-
spezifische Beschreibungsdimension hinsichtlich der Konstruktdefinition, allgemein
beschreibende Merkmale wie bspw. der Umfang des Forschungsvolumens
Beschreibung von kausalen Beziehungen
-
Präzisierung der Richtung und Stärke des Zusammenhangs durch große Anzahl an Studien
Prüfung und Entwicklung von Theorien
o
o

Pro:
o
Metaanalysen wählen Studien entsprechend bestimmten statistischen Indikatoren aus
o
die Beschreibung der kausalen Beziehung erhöht die:
-


statistische Validität: durch die Aggregation erhalt man hoch reliable mittlere
Differenzen
- Konstruktvaliditat: heterogene Operationalisierungen machen die Übertragung von
Ergebnissen möglich
- interne Validität: Aufnahme vieler Primärstudien gleicht die methodischen Artefakte aus
- externe Validitat: durch systematische Prüfung der Generalisierbarkeit
Contra:
o
geringerer Fokus; macht lediglich Aussagen darüber ob ein fraglicher Effekt existiert und
wie groß er ist
o
macht nicht Halt vor Studien mit methodischen Mangeln
o
Äpfel – Birnen Problem (siehe oben Validitatsgeneralisierung)
Abgrenzung Validitätsgeneralisierung vs. Metaanalyse
o
Validitätsgeneralisierung ist ausschließlich auf Validitäten, d.h. den Zusammenhang
zwischen Prädiktoren und Kriterien bezogen
o
Werden auch andere Forschungsbefunde (z.B. Mittelwertsunterschiede) in die Analyse
miteinbezogen so spricht man von einer Metaanalyse
o
Merke: Jede Validitätsgeneralisierung ist eine Metaanalyse aber nicht jede Metaanalyse ist
eine Valditätsgeneralisierung
EXKURS: EFFEKTGRÖßE

10.2.1 Exkurs Effektgröße
o
Definition Effektgröße:
-
ist ein standardisiertes statistische Maß
gibt die relative Größe der Mittelwertsdifferenz zwischen 2 Populationen an, d.h. es
beschreibt den systematischen Unterschied zwischen 2 Populationen
mittels des Effekts kann die praktische Relevanz von signifikanten Ergebnissen
verdeutlicht werden
o
Zeichen der Effektgrose: ε (Epsilon)
o
Formel für Mittelwertsunterschiede: ε
= (m - n) / s
-
(m = Mittelwert Gruppe1, n = Mittelwert Gruppe 2; s = Standardabweichung, errechnet
aus beiden Verteilungen)
MERKE:
-
je größer der Unterschied zwischen den experimentellen Bedingungen, desto größer der
Effekt
je kleiner die Varianz innerhalb der Bedingungen, desto größer die Effektstärke
o
o
Konventionen:
o
abhängige vs. unabhängige Effektgrößen:
-
o
unabhängig: verschiedene Stichproben innerhalb einer Studie  verschiedene
Effektgrößen  Mittelung der Effektgrößen aus den verschiedenen Stichproben
abhängig : verschiedene AVs an einer Stichprobe  eine Effektgröße, da Personen mit
einer hohen Ausprägung auf dem einen Wert auch eine hohe Ausprägung auf dem anderen
haben Problemlösung: Mittelung der abhängigen Effektgrößen
Signifikanztests anstelle von Effektstärkenberechnung:
-
würden zu völlig falschen Ergebnissen führen, da Zufallseinflüsse das einzelne Ergebnis
einer Studie verfälschen
- Die Abweichung vom Populationsmittelwert ist allein auf den Zufall zurückzuführen
o bei der Metaanalyse ist das Ergebnis aussagekräftiger, da sich die Extremwerte bei der
Mittelwertberechnung neutralisieren
VORGEHEN BEI DER METAANALYSE
VEREINHEITLICHUNG VON KENNWERTEN

Da im Rahmen einer Metaanalyse unterschiedliche Testkennwerte (z.B. t-Werte, χ2-Werte)
einbezogen werden, müssen diese vor der Aggregation in ein einheitliches Maß umgerechnet
werden

Bortz und Döring (2002) besprechen in diesem Zusammenhang den Delta-Koeffizienten (Δ) von
Kraemer (1985)

Folgende Kennwerte lassen sich in das Delta-Maß überführen:
o
Produkt-Moment-Korrelation
o
t-Test für unabhängige Stichproben

o
t-Test für abhängige Stichproben
o
χ2-Werte aus Vierfeldertests
o
χ2-Werte aus rxc-Kontingenztafeln
o
Effektstärken aus Varianzanalysen (η2)
o
Spearmans rho
o
Kendalls tau (τ)
sind die Effekte in die Studien nicht angegeben wird mit kombinierten Signifikanztests gerechnet
o
aus einfachen Signifikanzaussagen wird eine Gesamtaussage über die Existenz eines Effekts
gemacht
o
 Problem:
o

kombinierte Signifikanztest können keine Aussage über die Stärke des Effekts
machen d.h. eigentliches Ziel der Metaanalyse wird verfehlt

sind die Effekte der Primärstudie nicht bekannt, lässt sich ihre Homogenität nicht
bestimmen
weitere Möglichkeiten bei fehlenden Effekten

Auszählung signifikant positiver / negativer und nicht signifikanter Ergebnisse

Vergleich positiver und negativer Ergebnisse (Vorzeichentest)

Überprufung der signifikanten Ergebnisse auf Zufälligkeit (Binomialtest)

Zusammenfassung exakter Irrtumswahrscheinlichkeiten (Stouffer-Methode)
Der weitere Ablauf ist analog zur Validitätsgeneralisierung
HOMOGENITÄTSTESTS FÜR VERSCHIEDENE DELTAMAßE

Delta Maße der verschiedenen Studien dürfen nicht einfach zusammengefasst werden

es muss vorerst bewiesen werden, dass die Effektgrößen der Studien als Schätzung eines
gemeinsamen Populationsparameters anzusehen sind

ein signifikanter Q Wert besagt, dass die Streuung der Zi Werte größer ist als die zufallsbedingte
Streuung heterogene Zi Werte d.h. unterschiedliche Effektparameter ( Random Effects
Models)

nicht signifikanter Q Wert = Effektgrößen der Studien können als Schätzung eines gemeinsamen
Populationsparameters angesehen werden
 wenn Q Wert signifikant, Suche nach Moderatoren
SUCHE NACH MODERATOREN

Moderatorvariablen erfassen Besonderheiten der Studien

Moderatorvariablen sollten varianzanalytisch erfasst werden

Moderatorvariablen unterteilen die k Studien in Substichproben, wobei Q(zwischen) signifikant
und Q(innerhalb) nicht signifikant sein sollte

Auswahl der Moderatorvariablen:
o
Sollte theoriegeleitet geschehen
o
liegen keine Hypothesen vor:
-
Korrelation zwischen potentiellen Moderatorvariablen und studienspezifischen Delta –
Maßen
die Höhe der Korrelation informiert über die Bedeutung der Studienmerkmale für die
Heterogenität der Delta Maße
signifikante Beta – Gewichte geben Hinweis auf mögliche Moderatorvariablen
diese Moderatorvariablen müssen aber auch varianzanalytisch überprüft werden
SIGNIFIKANZTEST MITTELS KONFIDENZINTERVALL
Analog zu Validitätsgeneralisierung
BEISPIEL: SCHMIDT & HUNTER (1998)
Beispiel einer Metaanalyse
Studie von Schmidt & Hunter (1998)
- zusammenfassende Darstellung der Validität von 19 Auswahlmethoden bei der Vorhersage
von Berufs- und Ausbildungserfolg
- Vorstellung der inkrementellen Validität der paarweisen Kombination von „allgemeiner
kognitiver Fähigkeit“ (general mental ability, GMA) mit den übrigen 18 Maßen
- in den Wert für die prädiktive Validität von GMA gingen 32.000 Datensätze aus 515
nichtmilitärischen Jobs ein
- Prädiktive Validität von Intelligenz aufgeschlüsselt nach Berufskategorien
o .58
Tätigkeit mit Führungsaufgaben, gehobene Ausbildung
o .56
Fachtätigkeiten hoher Komplexität
o .51
Fachtätigkeiten ittlerer Komplexität
o .40
Fachtätigkeiten niedriger Komplexität
o .23
Hilfstätigkeiten
- Intelligenz als bester Prädiktor für Berufserfolg
- ABER Komplexität des Jobs erweist sich als Moderator
o je höherwertiger der Job, desto besser sagt Intelligenz den Berufserfolg voraus
CONCEPT MAPS POSPESCHILL
DIAGNOSTISCHER PROZESS UND PSYCHOLOGISCHES GUTACHTEN
GUTACHTEN (AUCH SS SPINATH)


Bereiche, in denen Gutachten benötigt werden:
o
Universität/Hochschule (Zulassung zum Studium)
o
Schule (z.B. Schulfähigkeit)
o
Versicherungsträger (z.B. Rentenfragen)
o
Gesundheitswesen (klinisch-psychologische Interventionen)
o
öffentliche Verwaltung (z.B. Städteplanung)
o
Arbeitsamt (z.B. Berufseignung)
o
Verkehrsbehörden (Fahreignung)
o
Kreiswehrersatzamt (Wehrdiensttauglichkeit)
o
verschiedene Gerichte (z.B. Familiengericht: Sorgerecht)
Kriterien bei der Erstellung von Gutachten
o
Sorgfaltspflicht:
-
o
sachlich und wissenschaftlich fundierte Expertise
der Diagnostiker muss auf geeignete diagnostische Erhebungsverfahren rekurrieren,
relevante Hypothesen formulieren und auf empirisch begründetes Wissen zurückgreifen
kann.
Transparenz:
-
o
Der Auftraggeber (Adressat) eines Gutachtens ist angemessen und nachvollziehbar über
die diagnostischen Verfahrensschritte, die zur Gewinnung der Befunde vollzogen wurden
zu informieren.
Ethische und rechtliche Standards:
-
o
Gutachtertätigkeiten können durch eine Vielzahl ethischer Auflagen und rechtlicher
Bestimmungen vorstrukturiert sein. Der freiwillige Kontakt (bei dem zumeist begutachtete
Person und Auftraggeber zusammenfallen) setzt dabei andere ethische Limitierungen als
mehr oder weniger erzwungene Kontakte (z. B. bei einem Sorge- und
Umgangsrechtsstreit).
Einsichtnahme
-
Eine Einsicht in das Gutachten erhält zunächst nur der Auftraggeber. Gutachter und
Auftraggeber sollten sich allerdings immer darüber verständigen, ob auch anderen
Personen (z. B. der begutachteten Person) Einsicht in das Gutachten gewährt wird. Wird
die Einsichtnahme prinzipiell ausgeschlossen, ist die begutachtete Person davon in
Kenntnis zu setzen und die Weitergabe an den Auftraggeber schriftlich zu bestätigen.
Mängel bei Gutachten



Mängel bei Aktenanalyse
Mängel bei der Verarbeitung von Fachliteratur u. wissenschaftl. Konzepten
Tests, die die Gütekriterien nicht hinreichend erfüllen
Bsp.: Fahreignungsdiagnostik
MPU: Medizinisch- psychologische Untersuchung


Weniger Untersuchungen aufgrund weniger Alkoholauffälligkeiten
die meisten Gutachten aufgrund Alkoholauffälligkeiten (hauptsächlich erstmalig auffällig)



ca. 40% positives, 40% negatives, 16% Nachschulungsfähig
wann? BAK> 1,6 Promille, mehrere Trunkenfahrten, 18 Punkte in Flensburg.
warum ist BAK so wichtig?  Rückschlüsse auf getrunkene Alkoholmenge  Rückschlüsse
auf Alkoholgewöhnung
Leistungstest ART-90


Computersystem ART-90 ist eine Leistungsbatterie, die speziell für verkehrspsychologische
Anwendung. (nonverbaler Intelligenztest M30, Aufmerksamkeit, verkehrspsychologischer
Tachistoskoptest, Linienlabyrinthtest, Entscheidungs- Reaktionstest, reaktiver
Dauerbelastbarkeitstest mit Wiener Determinationsgerät, sensumotorischer Koordinationstest mit
einfachem Fahrsimulator)
Im ART- 90 integriert: verkehrsbezogener Persönlichkeitstest (u. a. Selbstkontrolle, soziale
Anpassung…), Fragebogen zur Risikobereitschaft (physisch, sozial, finanziell),
verkehrsspezifische Einstellungen (u. a. aggressive Interaktion, emotionales Autofahren)
Nonverbaler Intelligenztest M30




Matrizentest
15 min
Split- Half: .89
Validität: Signifikante Beziehung zu Merkmalen des Fahrverhaltens.
PÄDAGOGISCH PSYCHOLOGISCHE DIAGNOSTIK
DEFINITION

individuelles Lernverhalten wird in der pädagogischen Psychologie analysiert

Erkenntnisse über das individuelle Lernverhalten bilden die Grundlage für:
o individuelle Schülerhilfe: für Eltern / Pädagogen die mit Störung eines Kindes
konfrontiert sind
o Schullaufbahn-, Aus- und Weiterbildungsberatung: Orientierungs-,
Entscheidungshilfe für die Realisierung der Bildungsziele
o Erziehungsberatung: Erfassung von Kontext/ Lernumwelt und Veränderung der
Rahmenbedingungen
DIAGNOSE: ERFASSUNG PÄDAGOGISCHER DIAGNOSTISCHER
MERKMALE
LERNVORRAUSSETZUNG

die Lernvoraussetzung beinhaltet
o den Entwicklungsstand und das Entwicklungspotential das im Zuge der kognitiven
Reifung erwarten kann
o die Konzentrations- und Aufmerksamkeitsleistung
o emotionale und motivationale Aspekte
o Bewältigungsfähigkeiten
ENTWICKLUNGSSTAND

Untersuchung mittels
o Breibanddiagnostik (Wiener Entwicklungstest)
o spezifische Fähigkeiten (HAWIK IV)

Problem: „kognitive Entwicklung unterliegt einer altersbedingten inter- und
intraindividuellen Dynamik“
o wird von den IQ Tests nicht erfasst
o  dynamische Tests

Lernsituationen (Kurzzeit- und Langzeitlerntests) werden in Test eingebaut 
aktiviert Reserven

Probanden profitieren von der Lernsituation; deutlicher Validitätszuwachs im
Vgl. zu IQ Tests

ABER sehr hoher Aufwand und lediglich Vorliegen einer vorläufigen
Normierung und Validierung
KONZENTRATIONS- UND AUFMERKSAMKEITSLEISTUNG

Messung: „Vorgabe einfacher Aufgaben“
o Anzahl bearbeiteter Items + Fehler (entspricht Konzentrationsleistungsmaß)

Bsp.: d2, KLT – R
EMOTIONALE UND MOTIVATIONALE ASPEKTE

Ängstlichkeit (Bsp. Bewertungsangst, Prüfungsangst)

Selbstwirksamkeitserwartung

Kontrollüberzeugungen (Konsequenzen / Resultate internal vs. external attribuieren)

Selbstkonzept

Leistungsmotivation

Test: AFS (Angstfragebogen); FKS (Frankfurter Kinderselbstkonzeptinventar); FKL
(Fragebogen der Kausalattribuierung in Leistungssituationen)
BEWÄLTIGUNGSFÄHIGKEITEN

bzgl. sozialer Probleme mit Mitschülern

Test: SSKJ – R (Fragbogen zur Erhebung von Stress und Stressbewältigung im Kindes- und
Jugendalter)
ERFASSUNG DER LERNLEISTUNG
SCHULLEISTUNGSTESTS

Schulleistungstest können informeller und formeller Art sein

die Test geben Hinweise auf mögliche pädagogische – didaktische Maßnahmen
FORMELL

formelle Schulleistungstests:
o basieren auf psychometrischen Modellen oder Methoden
o sind normiert für Klassenstufe und Schulart
o ermöglichen einen überregionalen Leistungsvergleich
INFORMELL

informelle Schulleistungstests:
o werden vom Lehrenden selber entwickelt
o geben Info über den Wissenstand der Schüler und ermöglichen eine Anpassung des
Lehrplans
LEHRZIELORIENTIERTE TESTS

Lehrzielorientierte Tests (Bsp.: mündliche Prüfung):
o erfassen, ob Lernziel erreicht wurde
o müssen folgende Gütekriterien erfüllen;

Inhaltsvalididtät: Aufgaben decken den gesamten inhaltlichen Bereich ab

Kriteriumsvalidität: Test muss angeben, ob und in welchem Ausmaß das
Kriterium / Ziel erreicht wurde
o Lehrziel wird auf 4 Anforderungsebenen gemessen (Anforderungsebenen
kennzeichnen den Grad des Abstraktionsvermögens)

Reproduktion (Wiedergabe von Wissen)

Reorganisation (Wiedergabe von Wissen unter veränderten Parametern)

Transfer (Anwendung gelernter Methode in neuem Gebiet)

Problemlösen (selbständiges Lösungen finden, schlussfolgern, bewerten und
Anwendung von Methoden in neuen Situationen)
SCHULLAUFBAHNBERATUNG

optimale Passung der Lernvoraussetzung und den Anforderungen
SCHULFÄHIGKEIT / EINSCHULUNG

Test:
o WTA (Weilburger Testaufgaben für Schulanfänger)
o Anwendung NUR in kritischen Fällen, zusätzliche Absicherung mit Entwicklungstests
o Meist ist aber die Bewährung in der ersten Klasse das beste Kriterium
SONDERSCHULE

angezeigt bei physischer Störung, Verhaltensstörung, kognitiver oder emotionaler
Behinderung)

allgemeine Kriterien:
o es liegt ein nicht aufholbarer Leistungsstand vor (d.h. Wiederholung der Klasse würde
nichts bringen)

Schulleistungstest
o IQ < 85

Ist der IQ < 85 nimmt man an, dass der Leistungsrückstand auch durch den
geringen IQ bedingt ist und nicht aufgeholt werden kann

ABER : Es sollte mittels Förder- und integrativer Maßnahmen versucht werden eine
Sonderbeschulung zu verhindern

Es sollte vermieden werden, dass „Problemkinder“ in den Grundschulen abgeschoben werden
auf die Sonderschule
WEITERFÜHRENDE SCHULEN

Aufnahmeprüfungen und Empfehlungen der Grundschule reichen nicht (Subjektiv)

Entwicklungstests und Übertrittstests sind nur für kurz und mittelfristigen Prognosen valide
(max .60)

Empfehlungen der Grundschule sind zuverlässiger, wegen langer Beobachtungszeiträume;
aber kein Vergleich der Schulnoten möglich; unzureichende Antizipation der Lehrer

besser: Bewährungsphase in gewünschter Schulform: Prozessdiagnostik statt
Statusdiagnostik
UNIVERSITÄT

Problem: „Nachfrage und Angebot stehen in einem Verhältnis 2:1“

Möglichkeiten der Diagnostik:
o Abinote: allgemeine Studieneignung
o studienfachbezogene Eignungstests und Interviews sollen eine bessere Passung
zwischen individuellen Voraussetzungen und Neigungen zeigen  Verringerung der
Studienabbrüche oder Studienfachwechsel
HOCHBEGABUNG

Kriterium: 2 Standardabweichungen über dem Mittelwert (IQ = 130, Pr: .98)

VORSICHT:
o Lehrerurteil ist wenig reliabel, kann lediglich der Vorselektion dienen
o Hochbegabung ist NICHT gleichzusetzen mit guter Leistung  Förderung (bspw.
Klasse überspringen) nötig (d.h. schlecht Leistung ist durch Unterforderung erklärbar)

Test muss folgenden Kriterien genügen:
o mehrere Intelligenzbereiche müssen getestet werden
o der Test muss aktuell sein (Problem Flynn Effekt)
o muss im oberen Bereich gut differenzieren

Differenzierung zwischen Achievement und Underachievement (Personen
zeigen Leistung die unter ihrem eigentlichen Potential liegt) ist nur mit
spezieller Diagnostik möglich

Man muss auch von Normalbegabten Overachievern differenzieren können
(die im IQ-Test hervorragend waren, aber eigentlich nicht hochbegabt sind)
 Problem mit dem Konfidenzintervall bei Tests nach KTT
DIAGNOSTIK VON KONTEXTFAKTOREN DES SCHULUMFELDS
SCHULKLIMA:

entscheidet über Erfolg / Misserfolg in der Schule

beeinflusst die kog., emotionale und soziale Entwicklung von Kindern

ist ein multivariates Konstrukt das sich zusammensetzt aus der subjektiven Wahrnehmung
o der Beziehung zwischen Schülern und der zwischen Schülern und Lehrern

Merkmal der Interaktion:
 Lehrer – Schüler (Disziplin, Vertrautheit);
 Schüler – Schüler (Disziplin, Konkurrenz);
 Lehrer – Lehrer (Respekt, Kooperation)
o der individuelle Merkmale

individuelle Merkmale der Schüler bzw. der Schülerschaft (Bsp.: Geschlecht,
Alter, soziale Kompetenz)

individuelle Merkmale, Verhalten und Unterricht des Lehrers (Bsp.: Alter,
Geschlecht, Lehrkompetenz)

Merkmale der Schule (Bsp.: Lage, Größe)
TESTUNG:

Erfassung des Verhältnisses:
o Schüler – Schüler; Lehrer – Schüler; kollektive Einstellung und Verhaltensbereitschaft
von Lehrern und Schülern
o LFSK 4 – 8 / 8 – 13 (Linzer Fragebogen zum Schul und Klassenklima)

Lehrer – Schüler Interaktion
o mittels systematischer Beobachtungsverfahren werden

Sprechakte bei Lehrern und Schülern erfasst: FIAC (Flanders interaction
categories)

methodische didaktische Aspekte des Lehrverhaltens erfasst: LVI
(Lehrverhaltensinventar)
INTERVENTIONEN ZUR KLIMAVERBESSERUNG

sind abhängig von der Gruppe

es ist erwiesen, dass kooperative Arbeitsstrukturen im Vergleich zum Wettbewerbsklima die
Zufriedenheit steigern
DIAGNOSTIK IN DER ABO-PSYCHOLOGIE

ABO ist bezogen auf praktische Bedürfnisse von Organisationen im industriellen Bereich

Anwendung:

o
Diagnostik und Entwicklung von Organisationen
o
Beurteilung und Entwicklung von Personal (Individuum)
o
Analyse und psychologische Gestaltung der Arbeit (Arbeitsbedingungen)
Bereiche, für die Diagnostik und Interventionen wichtig sind:
o
Individuen
o
Aufgaben
o
Gruppen (inkl. Konflikte zwischen Personen)
o
Organisationen > übergeordnete Stellung, da Integration der 3 anderen Bereiche
ORGANISATIONSDIAGNOSTIK


Betriebswirtschaftlich ausgerichtete Organisationsdiagnostik:
o
systematische Untersuchung des Gesamtzustandes einzelner Organisationen
o
Ziel: Probleme aufdecken und Organisation ändern
Psychologisch ausgerichtete Organisationsdiagnostik:
o
psychologische Aspekte des Erlebens und Verhaltens von Mitgliedern in Organisationen
diagnostizieren
o
Ziel: Regelhaftigkeiten im Erleben, im Verhalten und in den Interaktionen beschreiben,
erklären und prognostizieren (Büssing)
o

Allerdings kaum genormte Verfahrensweisen > eher Programm als Sozialtechnologie
2 grundlegende Muster:
o
Strukturdiagnostik:
-
o
Kontingenzansatz: Unterschiede zwischen Organisationsstrukturen sind auf Unterschiede
in den Situationen zurückzuführen, in denen sich die Organisation befinden (z.B.
bestimmte Technologien oder Größe eines Unternehmens)
Anwendung: Vergleichende Organisationsforschung
einmalige Datengewinnung
Prozessdiagnostik:
-
Annahme: Merkmale und Bedingungen einer Organisation verändern sich fortwährend
Anwendung: Diagnose von
- organisationalen Veränderungen
- sozialer Interaktion und Kommunikation
-
Wechselwirkungen zw. Strukturmerkmalen, situativen Faktoren und
Erleben/Verhalten von Organisationen
mehrfache Datengewinnung
ABER: übergreifende und hinreichend kohärente Organisationsdiagnostik nur schwer zu
operationalisieren > Begriff „Organisationsdiagnostik“ eher theoretische Fiktion
PERSONALBEURTEILUNG
EIGNUNGSDIAGNOSTIK

Ziel: Bemühungen zur Maximierung beruflicher Zufriedenheit und Leistung
o

größtmögliche Übereinstimmung zw. beruflichen Anforderungen und optimaler
Bewerberauswahl und -zuordnung
3 prototypische Konstellationen (mit fließenden Übergängen):
o
Mehrere freie Stellen, ein Bewerber > Auswahl der bestgeeigneten Stelle oder Funktion >
Eignungsdiagnostik
o
Zahl der offenen Stellen = Zahl der Bewerber > optimale Zuordnung oder Platzierung
o
Nur eine freie Stelle, mehrere Bewerber > Ermittlung der bestgeeigneten Person >
Konkurrenzauslese/Selektion

Leitsätze für Vorgehensweise:
o
Anforderungsbezug der Verfahren
o
Informationen über Arbeitsplatz möglichst vorab geben
o
Vorgehensweise der Vorauswahl und Auswahlkriterien festlegen
o
Kandidaten über Untersuchungssituation aufklären und angemessen gestalten
o
gesetzliche Vorgaben beachten
o
Anforderungen an Objektivität, Reliabilität und Validität
Instrumente der beruflichen Eignungsdiagnostik/ Prädiktortypen:

Bewerbungsgespräch: besondere Bedeutung, besser strukturierte Interviews, da sonst
Gesprächsleiter implizit Einfluss nehmen kann

Tests zur allgemeinen Intelligenz: Zusammenhang mit berufl. Leistungshöhe vielfach belegt

Tests zur Wahrnehmungsgeschwindigkeit, Psychomotorik, berufsrelevantes Wissen

Leistungsmotivation: Messung durch Fragebogen oder projektive Tests (TAT) Metastudien
zeigten (schwachen) Zusammenhang zw. Leistungsmotivation und verschiedenen Leistungsmaßen
(.13 - .22)

biografischer Fragebogen: Erfahrungen und deren subjektive Verarbeitung als Prädiktoren >
Validität hängt stark von jeweiliger Gruppe ab (Wissenschaftler > Jugendliche)

Integritätstests: beachtliche Validität und inkrementelle Validität gegenüber Intelligenz

Big-Five: nur schwacher Zusammenhang (am höchsten: Gewissenhaftigkeit: .12)

kognitive Leistungstests, andere Leistungstests und Arbeitsproben haben höchste
Validitätskoeffizienten, werden aber nur selten benutzt (s. Tab. S. 450)

nahezu alle verfügbaren Instrumente werden benutzt (außer projektive Verfahren)
Probleme der Eignungsdiagnostik:

viele Verfahren werden nicht auf Testgütekriterien hin überprüft, da viele Unternehmen eigene
spez. Verfahren entwickeln

meist nur Status- und nicht Prozessdiagnostik > Tagesform der Bewerber bestimmt Chance;
punktuelle Messungen eröffnen nur geringe Möglichkeiten, treffsichere Aussagen über künftige
Entwicklungen zu machen

 Alternativen:
o
Assessment Center
EXKURS ASSESSMENTCENTER

= Methode der Personalauswahl und Personalentwicklung (früher v.a. für Führungspositionen)

unfassendes, standardisiertes Verfahren mit vielfältigen Leistungs- und Persönlichkeitstests,
Gruppen- und Kommunikationsübungen, Simulation von Arbeits- und Gruppenprozessen

3-5 Tage werden Teilnehmer beobachtet (gut, da nicht nur Tagesform berücksichtigt)

Ausgebildete Beobachter

Ziel: können Bewerber Jobanforderungen erfüllen?
o

Versuch, zukünftige Anforderungen zu simulieren, um individuelle Fähigkeiten im Verhalten
beobachtbar zu machen
Prinzipien:
o
Verhaltensorientierung: nicht Persönlichkeitseigenschaften, sondern Verhaltensweisen
als Indikatoren der Eignung  möglichst realistische Simulation
o
Anforderungsbezogenheit: Eignung lässt sich nur durch das „geeignet wofür?“
bestimmen  detaillierte Anforderungsanalyse
o
Methodenvielfalt: um Fehlerquellen auszugleichen
o
Mehrfachbeurteilung: um Beobachter- und Beurteilungsfehler auszugleichen 
intensives Training und Schulungen der Beobachter nötig
o
Transparenz: offen gelegte Anforderungen und Beobachtungskriterien; Zusammenhang
zw. Ziel und Verfahren ist evident  Vorinformationen und Rückmeldung (führt zu hoher
Akzeptanz bei den Teilnehmern)

Gütekriterien
o
Objektivität: Durchführungsobjektivität nicht gegeben, Auswertungsobjektivität besser
(Trennung von Beobachter und Beurteiler)
o
Reliabilität:
-
o
da es mehrere Beurteiler gibt, ist zusätzlich eine Prüfung der Beurteilerübereinstimmung
möglich (Interraterreliabilität = .50-.90), ähnliche Maße für interne Konsistenz
- wenn viele versch. Aspekte von Leistungen zum Tragen kommen höchstens .50 (mittel)
Wiederholungsuntersuchungen fehlen, da unterschiedliche Vorraussetzungen, wenn man
2x den gleichen Test macht
Validität:
-
Zufriedenstellende Validität: Metaanalyse  mittlere prädiktive Validität von .37
INHALTE DES SOMMERSEMESTER 2007 (JULIA)
SS 1
Evaluation ist systematische Analyse und empirische Untersuchung von Konzepten,
Bedingungen, Prozessen und Wirkungen zielgerichteter Aktivitäten zum Zwecke ihrer
Bewertung und Modifikation.
Unterscheidung: Summative und formative/begleitende Evaluation
Qualitätsentwicklung im Wirtschaftsbereich: Kontinuierlicher Verbesserungs- Prozess
Die systematische ständige Verbesserung aller Unternehmensbereiche durch alle Mitarbeiter.
Auswertung Evaluation Vergleich von Selbst- und Fremdbeurteilung
SS 2
Anwendungsfeld Hochschule:



Lehrevaluation durch Studierende.
Auswahl von Studierenden
Auswahl von Lehrstuhlinhabern
Auswahl Studierende
Dilemma der Fachgruppe


Kompetenz in ihrem Fachbereich
immenser Entwicklungsaufwand und geringe Nutzen (geringe inkrementelle Validität
nach Berücksichtigung der Abinote)
Grundrate: Anteil der Geeigneten in Bewerberstichprobe
Was kennzeichnet erfolgreichen Studierenden?



allgemeine Fähigkeiten
Kenntnis bestimmter Wissensinhalte
spezifische Fertigkeiten


förderlich: Persönlichkeitsmerkmale
darüber hinaus: Zeit, psychische Gesundheit
Studie Pospeschill und Spinath: Studienerfolg

Zusammenhang Abiturnote und Vordiplomsleistung ist bedeutsam.
SS 3
Besetzung einer Hochschulprofessur









Bildung einer Besetzungskommission
Ausschreibungstext (Stellenprofil, Bewerberprofil, Voraussetzungen, Zielvorstellungen)
Sichtung der Bewerbungen Vorauswahl
Vorstellung in der Kommission (Einladung: ja/nein)
Auswahl der der einzuladenden Bewerber (6-8 Kandidaten)
Kommissionssitzung mit dem Ziel der „Liste“ (3-4 Kandidaten)
Vgl. Gutachten durch externe Experten
Genehmigung der Liste durch entscheidungsrelevante Universitätsgremien
Ruferteilung und Verhandlungen: Abarbeiten der Liste
Familienberatung




Familienbögen (Familiensystem, alle Zweierbeziehungen, eigene Funktion). Interne
Konsistenz der Skalen teils sehr gering.
Familien- System- Test: FAST: Brett mit Holzfiguren: Qualitative und quantitative Erfassung
von familiären Beziehungsstrukturen. Kohäsion und Hierarchie. Aufstellung von typischen,
idealen & Konfliktrepräsentationen. Nachbefragungen und Verhaltensbeobachtungen.
Paardiagnostik im Gießen- Test: beruht auf Gießen- Test. Selbst- und Fremdbeurteilung. 16
Paartypen (Identifikation des bestpassenden Paartyps).
5 Skalen: Soziale Resonanz,
Dominanz, Kontrolle, Grundstimmung, Durchlässigkeit. Psychoanalytische Orientierung.
Interne Konsistenz: ca. .50-.70
Familie in Tieren: Kind zeichnet sich und seine Familie als Tiere.  lediglich Hypothesen
generierendes Verfahren
SS 5
FORENSISCHE PSYCHOLOGIE
Fragestellungen







Glaubhaftigkeit von Zeugenaussagen
Verantwortungsreife von strafrechtlich auffällig gewordenen Jugendlichen
Schuldfähigkeit von Straftätern
Sorgerechtsstreitigkeiten
Entzug der Geschäftsfähigkeit
Pflegeschaftsverfahren
Therapieprognosen
Glaubwürdigkeit
Aussagenpsychologische Konstrukte
personal (Zeuge)
situativ (Aussage)
kognitiv
Zeugentüchtigkeit
Aussagen- Genauigkeit
motivational
Glaubwürdigkeit
Glaubhaftigkeit
Realkennzeichen glaubwürdiger Aussagen
allgemeine Merkmale



logische Konsistenz
unstrukturierte Darstellung
qualitativer Detailreichtum
spezifische Inhalte




raum- zeitliche Verknüpfung
Interaktionsschilderung
Wiedergabe von Gesprächen
Schilderungen von Komplikationen im Handlungsverlauf
inhaltliche Besonderheiten



Schilderungen ausgefallener Einzelheiten
Schilderungen nebensächlicher Einzelheiten
Schilderung eigener psychischer Vorgänge
Motivationsbezogene Inhalte:



spontane Verbesserung der eigenen Aussagen
Eingeständnis von Erinnerungslücken
Selbstbelastungen
Leitfrage
Könnte der Zeuge mit den geg. individuellen Voraussetzungen unter den gegeben
Befragungsumständen und unter der Berücksichtigung der möglichen Einflüsse von Dritten diese
spezifische Aussage machen, ohne dass sie auf einem realen Erfahrungshintergrund basiert?
Mögliche Verfahren



Bewertung der Aussage hinsichtlich Kriterien (s. o. )
Konzentrations- und Aufmerksamkeitstest
Benton- Test (Gedächtnis)



Intelligenztest
Anamnese
Verhaltensbeobachtung
Schuldfähigkeit
Schuldunfähigkeit Ohne Schuld handelt,….weil er unfähig ist, das Unrecht der Tat einzusehen oder
nach dieser Einsicht zu handeln.
verminderte Schuldfähigkeit erheblich vermindert,…Strafe gemildert werden.
Übersetzung aus dem rechtswissenschaftlichen Begriffssystem in eine psychologisch- diagnostische
Fragestellung und zurück.
Vier Bedingungen unter denen die Einschränkung prinzipieller Schuldfähigkeit möglich ist.




Krankhafte seelische Störung: körperlich begründbare pathologische Zustände
Tiefgreifende Bewusstseinsstörung: hochgradig affektgeladene Zustände
Schwachsinn: starke intellektuelle Minderbegabung
schwere andere seelische Abartigkeit: andere- nicht primär körperlich begründbarepsychopathologische Entwicklungen (z. B. neurotische Entwicklung, Persönlichkeitsstörung,
Sucht (!!)).
Therapieprognose: Widersprüchliche Befunde hohe Person- Einrichtungsinteraktion
Prädiktoren






hohes Alter
später Abhängigkeitsbeginn
kurze Abhängigkeitsdauer
gute Schulbildung
„gute“ Extraversion
gerichtliche Therapieauflage
Erfolgsquote steigt mit zunehmender Verweildauer. Einschätzung der Therapiemotivation erwies sich
als ungeeigneter Prädiktor für die Verweildauer.
Diagnose Therapiemotivation
z.T. unpublizierte Erhebungsinstrumente




Set von 50 Karten mit Problembeschreiungen, aus denen die TP zunächst, die für sie
bedeutsamen auswählt. Danach: Fragen zum Belastungsausmaß und den spezifischen
ursachen- und änderungsbezogenen Attributionen. Cronbachs Alpha: .89
Fragebogen zu therapiebezogenen Einstellungen (TBE): Erfolgserwartung, Therapieabwehr,
therapeutenbezogenes Misstrauen.
Adjektivliste: Beschreibung eines idealen und eines antizipierten realen Suchttherapeuten.
Persönlichkeitsfragebogen für Inhaftierte: Intoleranz gegenüber der Justiz.
SS 6
Therapieindikation Straffälliger


Problembelastung (Karten mit Problembeschreibungen)
allgemeine Therapieeinstellung (Fragebogen zur therapiebezogenen Einstellung, Beschreibung
idealen- antizipierten realen Therapeuten)
 justizbezogene Vorbehalte (Persönlichkeitsfragebogen für Inhaftierte)
 allgemeine Handlungskompetenz (Stressverarbeitungsbogen SVF, Frankfurter
Selbstkonzeptskalen).
Benton- Test




10 Karten mit geometrischen Figuren
jeweils nach 10 sec. Darbietung müssen Figuren aus dem Gedächtnis nachgezeichnet werden.
Auswertung: Zahl der richtigen und falschen Reproduktionen (auch qualitative Auswertung).
Retest- Reliabilität: .85
FAF (Fragebogen zur Erfassung von Aggressivitätsfaktoren): Spontane Aggressivität, Reaktive
Aggressivität, Erregbarkeit,…
α= .61-79
Ted Bundy








tötete von 1973-1978 auf brutalste Weise mindestens 28 junge Frauen.
sah gut aus, war charmant, intelligent, hatte studiert
wurde bei missglücktem Entführungsversuch gefasst.
verteidigte sich selber.
entkam zweimal
psychologische Untersuchung: keine psychotische und neurotische Störungen, keine
Gehirnschäden, keine Suchtprobleme.
„offiziell litt er weder an Charakterstörungen noch an Amnesie oder sexuell abnormen
Phantasien.
Problem, das sich festmachen ließ: „Furcht davor, in seinen Verhältnissen mit Frauen
gedemütigt zu werden.“
Dennis Rader


Serienkiller
verrät sich aufgrund Diskette, die er an Medien schickt.
SS 7
Multiphasic Sex Inventory für Jugendliche
dient der Erfassung psychosexueller Merkmale männlicher, sexuell auffälliger Jugendliche im Alter
von 14- 18 Jahren.
Lügendetektoren







Messen Atmung, Bewegung, Hautwiderstand, Blutdrucks und Pulsrate
USA: In vielen Bundesstaaten ist der Polygraphentest als Beweismittel zugelassen (wenn
Angeklagter und Staatsanwalt einverstanden sind)
Einsatz bei Personalentscheidungen (z. B. Polizeischulanwärter)
arbeiten mit Kontrollfragen (provozieren Lüge Aufnehmen der physiologischen Reaktion
beim Lügen)
o ehrliche Menschen haben i. Vgl. zu Kontrollfragen wenig Arousal bei relevanten
Fragen
o schuldige Menschen habe i. Vgl. zu Kontrollfragen stärkeres Arousal
Lügendetektor wenig wissenschaftliche Untersuchungen, keine nachgewiesene Validität
Polygraphgenauigkeit abhängig von Training, Erfahrung
In Deutschland
o 1998 bei deutschem Strafgericht als Beweismittel zugelassen
o Andeutung des Bundesverfassungsgericht 1998: Zur Entlastung von Angeklagten
zugelassen, zur Belastung weiterhin verboten.
o In Zivilprozessen schon länger zugelassen.
o Bundesgerichtshof 1998: Polygraphen sind unzulässige Beweismittel. Kein
Erkenntniswert.
o wissenschaftliche Gutachten vertraten unterschiedliche Meinungen (Prof Undeutsch)
SS 8
Studie mit experimentellem Design: Fördert Stillen die Intelligenz? Die Gruppe, in der mehr gestillt
wurde höhere Intelligenzwerte
aber Effekt verschwindet, wenn die kognitive Kompetenz der Mutter und andere soziologischeumfeldbedingte Variablen kontrolliert werden.
(außerdem: allgemeine Sensibilisierung bezüglich des Umgangs mit dem Kind durch Coaching, mit
dem Stillen einhergehende Beschäftigungen mit dem Kind)
Beurteilungsfehler als Geschäftsidee
Typische Beurteilungsfehler




Halo- Effekt: Vorherrschender positiver oder negativer Gesamteindruck überstrahlt alle
anderen Eigenschaften.
Strenge/Milde- Effekt: Tendenz, besonders streng (hoher Maßstab), besonders mild (niedriger
Maßstab) zu beurteilen
Tendenz zur Mitte: Vermeidung von Extremen
Erster Eindruck: Erster Eindruck beeinflusst die spätere Gesamtbeurteilung erheblich
Kontrast: Die Bewertung einer Person wird durch die Bewertung der vorherigen Person
beeinflusst.
Metaanalyse von Woehr& Huffcutt (1994) zur Effektivität von Ratertraining.
Vier unterschiedliche Trainingsansätze:
1. Beurteilungsfehlertraining: Sensibilisierung für typischen Beobachterfehler
2. Training zur Verwendung der Beurteilungsdimensionen: Identifikation
beurteilungsrelevanter Information und korrekte Zuweisung zur Dimension
3. Bezugsrahmentheorie: Verwendung von Beurteilungsdimensionen, Ausprägungsgrade,
Beurteilungsstandard
4. Verhaltensbeobachtungstraining: Trennung von Beobachtung und Bewertung.
Vier mögliche Trainingseffekte
1.
2.
3.
4.
Reduktion Halo- Fehler
Reduktion Milde- Fehler
Verbesserung der Beobachtungsakkuratheit
Verbesserung der Beurteilungsakkuratheit
Hauptbefunde:
 Beurteilerschulungen verbessern die Validität von Berurteilereinschätzungen
 Es gibt differentielle Effekte in Abhängigkeit von Trainingsinhalten und –effekten.
(z. B. Beurteilerfehlertraining wirkt sich positiv auf die Vermeidung von Halo- und Mildefehler
aus, aber negativ auf die Beobachtungsakkuratheit)

Für die Beurteilertrainingspraxis bietet die Metaanalyse eine Orientierungshilfe dahingehen,
welche Kombination von Trainingselementen für welchen angestrebten Effekt optimal ist.
SS 9
Klinische Diagnostik benötigt sowohl die kategoriale psychiatrische Diagnostik (DSM, ICD) als auch
die dimensionale Diagnostik.
Kategorial psychiatrischer Diagnostik (DSM, ICD)





Krankheitswertigkeit des Leidens bestimmen
Für Kommunikation in der Psychiatrie
Für Indikation von medikamentöser Therapie
Zugriff auf störungsspezifische Literatur
Recht, mit Kassen abzurechnen
Dimensionale Diagnostik




Insbesondere Quantifizierung klinischer Auffälligkeiten
Breite und ökonomische Erfassung möglich (Screening)
Krankheitswertigkeit durch Norm- oder Cut-off- Werte operationalisierbar
Verlauf und Therapieerfolg quantifizierbar
Klassifikationssysteme: ICD-10 und DSM-IV
Art der Verfahren (Checklisten):
ICD-10, DSM-IV IDCL: Internationalen Diagnosechecklisten
„
,
„  IDCL-P: IDCL für Persönlichkeitsstörungen (Achse-II)
Interviews
DSM-IV SKID: Strukturiertes Klinisches Interview
„
 SKID-II: SKID für Persönlichkeitsstörungen (Achse- II)
„
 DIPS: Diagnostisches Interview bei psychischen Störungen
„
 Mini- DIPS: DIPS- Kurzform
„
 Kinder- DIPS: DIPS für Patienten im Kindes- und Jugendalter
Exkurs Sensitivität:
Fly UP