Zusammenfassung Diagnostik Inhaltsverzeichnis

by user

on 15-09-2016

Category: Documents

>> Downloads: 43

317

views

Report

Comments

Description

Download Zusammenfassung Diagnostik Inhaltsverzeichnis

Transcript

Zusammenfassung Diagnostik Inhaltsverzeichnis

Zusammenfassung
Diagnostik
Inhaltsverzeichnis
Definition und Klassifikation psychologischer Diagnostik ................................... 6
Definition: ......................................................................................................... 6
Finalität/Zielgerichtetheit der Diagnostik ............................................................ 6
Merkmalsträger ............................................................................................... 6
Anwendungsbereiche .......................................................................................... 6
Arten von Diagnostik .......................................................................................... 7
Was ist ein psychometrischer Test? .................................................................... 9
Voraussetzungen psychometrischer Tests ........................................................ 10
Exkurs Statistik ................................................................................................ 10
Normalverteilung ...............................................................................................10
Varianz ............................................................................................................10
Standardabweichung..........................................................................................10
Standardnormalverteilung ..................................................................................11
Kovarianz .........................................................................................................11
Korrelation .......................................................................................................11
Testtheorien ..................................................................................................... 12
Die Klassische Testtheorie ..................................................................................12
Grundannahme ..............................................................................................12
Axiome .........................................................................................................13
Ableitungen aus der KTT .................................................................................14
Kritik an der KTT ............................................................................................21
Item-Response-Theorie/Probabilistische Testtheorie ..............................................21
Itemhomogenität............................................................................................22
Latent-Class-Modelle.......................................................................................23
Latent-Trait-Modelle .......................................................................................23
Itemcharakteristische Funktion (IC-Funktion/ICC) ..............................................24
Iteminformationsfunktion ................................................................................26
Testgesamtinformation....................................................................................27
Parameterschätzung bei 1PL-Modell ..................................................................27
Seite |2
Modelltests/Prüfung der Modellkonformität beim 1PL-Modell ................................28
Modellvergleich ..............................................................................................29
Vorteile des 1-PL-Modells/Rasch-Modells ...........................................................30
Vergleich IRT vs. KTT ......................................................................................31
Kriteriumsorientierte Tests .................................................................................32
Testentwicklung ............................................................................................... 32
Testplanung ......................................................................................................32
Erhebungsmerkmale .......................................................................................33
Geltungsbereich .............................................................................................33
Konstruktionsprinzipien psychometrischer Tests ....................................................33
1. Rationale/deduktive Konstruktion .................................................................33
2. Externale/kriteriumsbezogene Konstruktion ...................................................34
3. Induktive/faktorenanalytische Konstruktion ...................................................35
4. Prototypenansatz ........................................................................................35
5. Intuitive Konstruktionsstrategien .................................................................36
Anwendung der Ansätze ..................................................................................36
Testarten..........................................................................................................37
Speed- und Powerindex ...................................................................................37
1. Leistungstests ............................................................................................38
2. Persönlichkeitstests.....................................................................................38
3. Projektive Verfahren ...................................................................................38
4. Apparative Verfahren ..................................................................................38
5. Objektive Verfahren ....................................................................................39
Itemformate .....................................................................................................39
Freies/ungebundenes Antwortformat.................................................................39
Gebundenes Antwortformat .............................................................................40
Atypisches Antwortformat ...................................................................................42
Itemformulierung ..............................................................................................42
Fehlerquellen bei der Itembearbeitung .................................................................42
Vortestversion ...................................................................................................43
Testevaluation .................................................................................................. 43
Itemanalyse......................................................................................................44
Itemschwierigkeit ...........................................................................................44
Bedeutung der Itemstreuung ...........................................................................45
Trennschärfe (rit) ............................................................................................46
Reliabilität von Items: Stabilitätsindex ..............................................................47
Selektionskennwert und Itemselektion ..............................................................48
Homogenität ..................................................................................................48
Andere Homogenitäts-Konzepte .......................................................................48
Testwertermittlung ............................................................................................49
Testwertverteilung: Maße und Abweichungen ........................................................50
Zusammenfassung Diagnostik
Seite |3
Normalisierung ..................................................................................................50
Gütekriterien .................................................................................................... 51
Hauptgütekriterien.............................................................................................51
Objektivität ...................................................................................................51
Reliabilität .....................................................................................................52
Validität/Gültigkeit ..........................................................................................58
Kriteriumsvalidität ..........................................................................................60
Multitrait-Multimethod-Analyse.........................................................................63
Nebengütekriterien ............................................................................................68
Normierung ...................................................................................................68
Vergleichbarkeit .............................................................................................69
Ökonomie ......................................................................................................69
Nützlichkeit ...................................................................................................69
Testfairness ...................................................................................................... 70
3 Testfairnessmodelle ........................................................................................70
1. Modell der proportionalen Repräsentation/Quotenmodell .................................70
2. Regressionsmodell von Cleary (Modell einer fairen Vorhersage) ........................70
3. Modell konstanter Verhältnisse (constant ratio model, Thorndike) .....................72
Erhebungsstrategien ........................................................................................ 73
Unimodale vs. multimodale Datenerfassung ..........................................................73
Messung von Veränderungen und Unterschieden ...................................................73
Regression zur Mitte .......................................................................................74
Ausgangswertegesetz .....................................................................................74
Physicalism-subjectivism-dilemma ....................................................................75
Der diagnostische Prozess ................................................................................ 76
Das diagnostische Urteil .....................................................................................77
Das diagnostische Gutachten ..............................................................................77
Schritte des diagnostischen Entscheidungsprozesses (Westhoff und Kluck) ............77
Zuordnungs- und Klassifikationsstrategien ...................................................... 78
Arten diagnostischer Entscheidungen ...................................................................78
Entscheidungsstrategien .....................................................................................79
Kompensatorische vs. konjunktive Entscheidungsstrategien .................................79
Einstufige vs. mehrstufige Entscheidungsstrategien ............................................80
Entscheidungsfehler ...........................................................................................81
Arten von Fehlern ...........................................................................................82
Gütekriterien einer Entscheidungsstrategie ........................................................82
Bedeutung von Fehlerarten ..............................................................................82
Minimierung von Fehlern .................................................................................83
Zuordnungsmethoden .....................................................................................83
Festsetzung von Trennwerten .............................................................................84
ROC-Kurve (Receiver-Operating Characteristic, Signalentdeckungstheorie) ............84
Zusammenfassung Diagnostik
Seite |4
Nutzenerwägungen ............................................................................................85
Entwicklung einer Nutzenfunktion (Cronbach & Gleser) .......................................85
Nettonutzen ...................................................................................................86
Nutzenformel von Brodgen ..............................................................................87
Andere Nutzenmodelle ....................................................................................87
Bewertung der Nutzenmodelle .........................................................................87
Regression........................................................................................................ 88
1. Einfache lineare Regression .............................................................................88
2. Nonlineare Regressionsmodelle .......................................................................88
3. Multiple lineare Regression .............................................................................89
Probleme und Differenzierungen von Prognosen .............................................. 90
Kontextuale Faktoren und technische Verbesserungen ...........................................90
Konformitätsdruck/Situativer Druck und Verhaltensvariabilität .............................90
Aggregation von Maßen ...................................................................................91
Erhöhung der Validität durch Selbstaufmerksamkeit ...........................................91
Validität ohne Stabilität ...................................................................................92
Moderation .......................................................................................................92
Klassisches Beispiel: Frederiksen und Melville (1954) ..........................................93
Suche nach Moderatoreffekten .........................................................................93
Beispiele für Moderation ..................................................................................96
Geteilte und Spezifische Varianz ..........................................................................96
Partialkorrelation und Part-/Semipartialkorrelation .................................................96
Kommunalitätenanalyse .....................................................................................97
Beispiel: Klingbeil 2004 ...................................................................................97
Suppression ......................................................................................................97
Klassisches Beispiel: Horst (1966) ....................................................................98
Weiteres Beispiel: ...........................................................................................98
Veranschaulichung des Suppressionseffekts .......................................................98
Ausmaß der Validitätssteigerung durch Suppressor .............................................99
Fragen aus Vorlesung .....................................................................................99
Problem des Suppressorkonzeptes ....................................................................99
Mediation .........................................................................................................99
Bedeutung der Mediation .................................................................................99
Planung einer Mediatoranalyse ....................................................................... 100
Mediatoranalyse nach Baron und Kenny (Überprüfung von Mediatoreffekten) ....... 100
Interpretation einer Mediatoranalyse............................................................... 101
Beispiel 1: Intelligenzabbau im Alter ............................................................... 101
Beispiel 2: Erleben eines traumatischen Erlebnisses und PTBS ........................... 101
Bewertung Mediatoranalysen ......................................................................... 101
Abgrenzung Mediator- und Moderatorvariablen ................................................ 102
Validitätsgeneralisierung ................................................................................ 102
Zusammenfassung Diagnostik
Seite |5
Sinnhaftigkeit der Zusammenfassung von Forschungsbefunden ............................. 102
Grundidee der Validitätsgeneralisierung (Schmidt & Hunter, 1977) ........................ 102
Schritte der Validitätsgeneralisierung ................................................................. 103
1. Studienrecherche ...................................................................................... 103
2. Korrektur statistischer Artefakte ................................................................ 103
3. Homogenitätstests .................................................................................... 103
4. Suche nach Moderatoren ........................................................................... 104
5. Signifikanzprüfung mittels Konfidenzintervall ............................................... 104
Beispiel: Moderatoreffekt in Validitätsgeneralisierung ........................................ 105
Kritik/Probleme bei Validitätsgeneralisierung ....................................................... 105
„Garbage-in –Garbage-out“ Problematik .......................................................... 105
„Äpfel und Birnen“ Problematik ...................................................................... 105
Problematik abhängiger Untersuchungsergebnisse ............................................ 105
„Filedrawer“ Problematik/Publication-Bias ........................................................ 105
Übersicht ..................................................................................................... 106
Metaanalyse ................................................................................................... 106
Definition ....................................................................................................... 106
Validitätsgeneralisierung vs. Metaanalyse ........................................................... 106
Vereinheitlichung von Kennwerten ..................................................................... 106
Effektstärke .................................................................................................... 107
Anwendungsfelder.......................................................................................... 107
Arbeits-, Betriebs- und Organisationspsychologie ................................................ 107
1. Organisationsdiagnostik............................................................................. 107
2. Organisationsentwicklung .......................................................................... 108
3. Personalbeurteilung .................................................................................. 108
3.1 (Berufs-)Eignungsdiagnostik..................................................................... 109
3.2 Assessment Center ................................................................................. 111
4. Tätigkeitsbezogene Diagnostik und Intervention ........................................... 114
5. Diagnostik und Intervention bei Gruppen ..................................................... 114
Pädagogische Psychologie................................................................................. 115
Diagnostik und Intervention bei der Schullaufbahnberatung ............................... 115
Diagnostik und Intervention bei individueller Schülerhilfe .................................. 116
Hochbegabtendiagnostik ............................................................................... 118
Rechtspsychologische Diagnostik ....................................................................... 119
1. Glaubhaftigkeit von Zeugenaussagen .......................................................... 119
2. Schuldfähigkeit und verminderte Schuldfähigkeit eines Täters ........................ 120
3. Kriminalprognose ...................................................................................... 121
4. Sorgerechtsentscheidungen ....................................................................... 122
Verkehrspsychologische Diagnostik .................................................................... 122
Zusammenfassung Diagnostik
Seite |6
Definition und Klassifikation psychologischer Diagnostik
Definition:




Ermittlung interindividueller Differenzen im Erleben und Verhalten von Personen
unter standardisierten Bedingungen
Bereitstellung von Instrumenten zur Gewinnung psychologisch relevanter
Charakteristika von Merkmalsträgern und Integration erhobener Daten zu einem
diagnostischen Urteil
Ziele: wissenschaftlich fundierte Entscheidungsfindung, Optimierung von
Entscheidungen bei Handlungs- oder Behandlungsmöglichkeiten, Vorbereitung von
Prognosen und deren Evaluation
Entwicklung von speziellen Verfahren, deren theoretische Fundierung und
praktische Brauchbarkeit ständig überprüft werden
Diagnostik ermittelt zunächst einen Ist-Zustand, gibt Empfehlungen zu Maßnahmen und
begleitet die Behandlung (Therapie, Training, Empfehlung etc.) um festzustellen, ob sich
die Differenz zwischen Ist- und Sollzustand verringert hat.
Finalität/Zielgerichtetheit der Diagnostik



Welche Gegebenheiten liegen im Augenblick vor? (Was ist?)
Welche Umstände sind dafür maßgeblich? (Warum?)
Was soll in Zukunft geschehen? (Wohin?)
Merkmalsträger




Individuen oder Gruppen von Personen
Institutionen oder Prozesse an Institutionen
Situationen
Gegenstände (z.B. Produkte)
Anwendungsbereiche
1. Arbeits-, Betriebs- und Organisationspsychologie
 Unterstützung der Ausbildungs- und Berufswahl
 Auswahl und Weiterqualifizierung von Beschäftigten, Führungskräften etc.
 Diagnostik von Organisationen, Institutionen und geschäftlichen Abläufen
 Berufseignungsdiagnostik
2. Pädagogische Psychologie
 Feststellung der Schulfähigkeit
 Eignung für weiterführende Schulen und Studiengänge
 Sonderschulbedürftigkeit; Förder- und Umschulungsmaßnahmen und deren
Erfolg
 Erziehungsprobleme in Schule und Familie
Zusammenfassung Diagnostik
Seite |7
3. Klinische Psychologie
 Verursachungsbedingungen psychischer Störungen
 Suche nach Ansatzpunkten für Interventionsmaßnahmen
 Fragestellungen: z.B. Depressionen, Abhängigkeiten, Essstörungen,
Stressverarbeitungsstörungen, psychophysiologische Störungen (Asthma,
Bluthochdruck), etc.
4. Weitere:
 Forensische Psychologie: Begutachtung von Straftätern, Glaubwürdigkeit
 Markt- und Werbepsychologie: Wirkung eines Produkts oder einer Anzeige
 Verkehrspsychologie: Führen von Fahrzeugen, Position Verkehrsschilder
 Gesundheitspsychologie: Erhaltung der Gesundheit, Prävention z.B. im
Suchtbereich


Intelligenz- und Leistungsdiagnostik
Persönlichkeitsdiagnostik
Methoden






Exploration
Interview
Befragung
Fragebogen
Testverfahren
Verhaltensbeobachtung
Arten von Diagnostik
Institutionell: Selektionsdiagnostik
 Personenselektion: Geeignete
Personen für bestimmte
Anforderungen
 Bedingungsselektion: Geeignete
Bedingungen für Person mit
bestimmten Merkmalen (z.B.
Berufsempfehlung)
Individuell: Modifikationsdiagnostik
 Verhaltensmodifikation: Veränderung
spezifischer Verhaltensweisen einer
Person (z.B. Modifikation aggressiven
Verhaltens bei
Erziehungsschwierigkeiten)
 Bedingungsmodifikation: Veränderung
externer Bedingungen (z.B. Abbau von
Problemverhalten im Rahmen einer
Familientherapie)
Zusammenfassung Diagnostik
Seite |8
Annahmen der Selektionsdiagnostik:
 Personen lassen sich hinsichtlich ihrer
eignungsrelevanten Eigenschaften
miteinander vergleichen
 Eigenschaften über die Zeit hinweg
relativ stabil und situationsinvariant
 Diagnostik des Ausprägungsgrades
einer Eigenschaft erlaubt Prognose
über zukünftigen Ist-Zustand und
somit zukünftiges Verhalten
 Situationen spielen untergeordnete
Rolle
Annahmen der Modifikationsdiagnostik:
 Verhalten ist erlernt und damit
veränderbar, es variiert
kontextabhängig
 Interesse richtet sich auf
Situationen, in deren Abhängigkeit
Verhalten variiert, sowie auf
intrapsychische Veränderungen und
Ansatzpunkte, um ein Verhalten zu
modifizieren
Statusdiagnostik
 Beschränkung auf einmalige
Feststellung des Ist-Zustandes
 Anhand dessen wird Prognose
abgegeben, da Eigenschaften stabil
 Testung liefert Schätzwert für
selektionsrelevante Eigenschaft durch
geeignete Stichprobe von Testitems
 Als Entscheidungsgrundlage dient der
Ausprägungsgrad im Vergleich zur
Normstichprobe
Anwendung v.a. bei
eignungsdiagnostischen Entscheidungen
Prozessdiagnostik
 Erfassung von Veränderungen des
Verhaltens durch wiederholte
Untersuchung
 Annahme der situativen Anhängigkeit
des Verhaltens, daher mehrere
Verhaltensstichproben notwendig
 Keine Vergleichsnorm, sondern Abstand
zu einem definierten Kriterium
bestimmt Beginn und Ende einer
Intervention
Anwendung v.a. im klinischen Bereich
Überschneidungen



Pädagogische Psychologie
 Untersuchung gestörter Lernprozesse
 Planung und Evaluation pädagogischer
Behandlungsmaßnahmen
teilweise betriebliche Eignungsdiagnostik
s.o.
 Prozessdiagnostik mit
zwischengeschalteter Lernphase zur
Optimierung von
eignungsdiagnostischer Selektionen
teilweise klinische Psychologie
Zuteilung zu Behandlungsalternativen
 s.o.
Schullaufbahndiagnostik
Beide diagnostischen Strategien basieren auf zwei unterschiedlichen Ansätzen:
1. Eigenschaftsdiagnostik:
 Erleben und Verhalten von Menschen lässt sich mit Eigenschaften/Traits
beschreiben
 Traits sind „relativ breite und zeitlich stabile Dispositionen zu bestimmten
Verhaltensweisen, die konsistent in verschiedenen Situationen auftreten“
 Traits sind nicht direkt beobachtbar, sondern Konstrukte, die aus beobachtbarem
Verhalten erschlossen werden
 Transsituative Konsistenz des Verhaltens  Eine Person verhält sich gemäß ihrer
Eigenschaftsausprägungen, relativ unbeeinflusst vom jeweiligen situativen
Kontext
 Analogieschluss von Prädiktoren auf Kriterium, z.B. Schulnote, IQ, Lebenslauf als
Prädiktoren für Berufserfolg
 Indikatoren/Prädiktoren müssen repräsentativ für die jeweilige Eigenschaft sein
(Validität bestimmt, inwiefern das gelungen ist)
Zusammenfassung Diagnostik
Seite |9
 Durch Kenntnis und Verständnis von Eigenschaften kann zukünftiges Verhalten
vorhergesagt werden
2. Verhaltensdiagnostik
 Es wird nicht nach Indikatoren, sondern nach einer repräsentativen Stichprobe
von Verhaltensweisen gesucht
 Versuch, eine angemessene Repräsentation von Reizsituationen im
experimentellen Setting herzustellen (z.B. Rollenspiel, Induktion von Angst durch
Filme, Fotos…)
 Statt der Messung von Eigenschaften, bestehen hier die Tests aus Stichproben des
vorherzusagenden Verhaltens selbst  Vorhersage des Verhaltens in ähnlichen
Situationen (z.B. praktische Fahrprüfung)
 Induktionsschluss: Das hier und jetzt gezeigte Verhalten (speziell) tritt auch zu
anderen Anlässen (allgemein) auf
 Inhaltsvalidität wichtig
 Aus konkret beobachtbarem Verhalten kann auch nur dieses vorhergesagt werden
Lerntheoretischer Ansatz


Bedeutung für mögliche Intervention
Instrument zur Erfassung situativer Faktoren, die das Verhalten hervorrufen
bzw. begünstigen: Funktionale Verhaltensanalyse
o Untersuchung des Kontextes, in dem Verhalten auftritt
o Qualität und Intensität des kritischen Verhaltens
o Folgen für Betreffenden und seine Umwelt
o Möglichkeiten der Person und ihrer Umwelt zur Modifikation
o Mögliche Rückwirkungen einer Verhaltensänderung/Modifikation auf
den Betreffenden und seine Umwelt
 Informationen stammen aus Interviews, Testergebnissen,
Verhaltensbeobachtungen, Anamnese etc.
Vorteile des verhaltenstheoretischen Ansatzes
 (Un-)absichtliche Verfälschungen sind weniger wahrscheinlich, da man eher
Berichte über Verhalten verfälschen kann, als das Verhalten selbst
 Frage nach Testfairness spielt keine so große Rolle wie bei
eigenschaftstheoretischem Ansatz
 Wahrung der Intimität und individuellen Privatheit, da nicht in die „Tiefen“ einer
Person eingedrungen wird?!?!
Beispiele für verhaltenstheoretische Methoden
 Belohnungsaufschub (delay of gratification): Entscheidung für kleine Belohnung
direkt oder größere Belohnung nach bestimmter Zeit  Annahme, dass gleiche
Entscheidung auch außerhalb des Settings
 Behaviour Sampling: Personal einer Institution stellt im Hinblick auf die
Behandlung wichtige Verhaltensbeobachtungen an
 Rollenspiele: In relativ kurzer Zeit werden Anhaltspunkte über Verhalten in
Situationen gegeben, die man selten beobachten kann
 Fragebogen: selbstbeobachtetes Verhalten, z.B. zum Thema Angst der „Fear
Survey Schedule“ (FSS) mit 5-stufiger Skala zu Dingen, die potentiell ängstigen
Was ist ein psychometrischer Test?
Def.: „Ein diagnostischer Test ist ein wissenschaftliches Verfahren zur Messung
umgrenzter psychologischer Merkmale auf der Basis von Skalen oder Kategorien mit dem
Ziel, den Ausprägungsgrad individueller Merkmale zu ermitteln.“
 Wurde auf Erfüllung von Gütekriterien hin untersucht
Zusammenfassung Diagnostik
S e i t e | 10

Ein Test liefert Informationen über Testobjekte:
o Einzelpersonen
o Organisationen oder Personengruppen
o gegebenenfalls Kombinationen aus Personen und Situationen
(situationsspezifisches Testen)
o Zeitbereiche (Veränderungsmessung)
Testitems: Einzelaufgaben
Testskala: Satz von Items (also mehrere Items, die Bestandteil eines Tests sind), die
spezifischen, mit der jeweiligen Testskala verbundenen Skalierungseigenschaften
genügen
Testbatterie: Kombination aus Einzeltests, mit dem Ziel, die Genauigkeit und Güte der
Messung zu erhöhen
Voraussetzungen psychometrischer Tests
Die exakte oder zumindest weitgehende Gleichheit der Bedingungen bzw. die
Standardisierung der Testsituationen ist eine Grundvoraussetzung für die Ermittlung und
sinnvolle Interpretation interindividueller Unterschiede. Obwohl die exakte Identität der
Bedingungen eigentlich so gut wie unmöglich, kann durchaus von einer für die Praxis
hinreichenden Bedingungskonstanz ausgegangen werden.
Idealfall: Gewählte Methode erweist sich als hochsensitiv gegenüber den Phänomenen
oder Variablen, an denen man interessiert ist, aber als robust und unempfindlich
gegenüber allen anderen Faktoren.
Exkurs Statistik
Normalverteilung
Kommt zustande, wenn
 eine Vielzahl verschiedener Wirkfaktoren beteiligt ist,
 diese Faktoren unabhängig voneinander ihren Einfluss entfalten und
 sich die verschiedenen Wirkungen zu der Merkmalsausprägung addieren.
Der Abstand vom Mittelwert M der Verteilung zu deren Wendepunkt ist identisch mit
einer Einheit der Standardabweichung s
n
Varianz


Maß für die Streuung der Daten um den Mittelwert
einer Verteilung
Summe der quadrierten Abweichungen aller Messwerte
einer Verteilung vom Mittelwert, dividiert durch die
Anzahl aller Messwerte.
s2 


beschreibt im Prinzip das gleiche wie die
Varianz
Interpretation von Varianz schwierig (Einheiten
quadriert)
Wurzel aus der Varianz  Standardisierung
i 1
2
i
n
n
Standardabweichung

 (x  x)
s  s2 
 (x  x)
i 1
2
i
n
Zusammenfassung Diagnostik
S e i t e | 11
Standardnormalverteilung
Kovarianz

Gibt Ausmaß an, in dem zwei
Wertereihen miteinander
zusammenhängen oder wie sehr sie
sich gemeinsam verändern bzw.
streuen
n
cov ( x , y ) 
 ( x  x )  ( y  y)
i 1
i
i
n
Hohe Kovarianz bei systematischen Abweichungen der Messwerte vom Mittelwert
Geringe Kovarianz bei unsystematischen Abweichungen der Messwerte vom
Mittelwert
 Rausmitteln in Formel
Korrelation




Zusammenhangsmaß zweier Variablen x und y
Standardisiert, daher unabhängig von der Skalierung beider
Variablen
nimmt immer Werte zwischen -1 und 1 an
Wird an der Standardabweichung beider Variablen relativiert
r
cov( x, y )
sx  s y
Zusammenfassung Diagnostik
S e i t e | 12
Testtheorien
Testtheorien beschäftigen sich mit dem Zusammenhang zwischen dem eigentlichen
psychischen Merkmal und dem gezeigten Testverhalten.
Man untersucht, wie das zu erfassende psychische Merkmal das Testverhalten einer
Person beeinflusst, um dadurch Rückschlüsse auf das eigentliche psychische Merkmal zu
machen, da dieses nicht direkt beobachtbar ist.
Theorie über:
 verschiedene Arten von Tests
 ihren Aufbau
 ihre Konstruktionsprinzipien
 Zusammenhang von Testverhalten (ausgedrückt in empirischen Testwerten) und dem
zu erfassenden Merkmal
 Aus den Vorgaben der Testtheorien können Gütekriterien abgeleitet werden
Die Klassische Testtheorie
Grundannahme
 Ein Messwert einer Person in einem Testitem setzt sich immer aus zwei
Komponenten zusammen:
o Wahrer Wert = wahre Ausprägung des untersuchten Merkmals (stabil)
o Zufälliger Messfehler, der den wahren Wert überdeckt
 unkontrollierte Einflüsse während Messung die sich auf Testverhalten der
Probanden auswirken und somit Messresultat kontaminieren (z.B. Tageszeit
der Experiments, Motivation)
o Bestimmung der Messfehlerbehaftetheit einer Messung

Messfehler-Theorie da sie sich mit der Eliminierung der Messfehler mit Hilfe der
Axiome und somit mit der Bestimmung der wahren Werte befasst
Zusammenfassung Diagnostik
S e i t e | 13
Axiome
1. Existenzaxiom
Der wahre Wert existiert als Erwartungswert der Messung eines Probanden
wtj  E ( xtj )
wtj  wahrer Wert einer Person j
in einem Test t
Erwartungswert = Mittelwert unendlich vieler Messungen an einer Person mit dem
gleichen Test
2. Verknüpfungsaxiom
Jeder Messwert setzt sich aus einem wahren Wert und einem Messfehler
zusammen
xtj  wtj  etj
xtj  M esswert einer Person j im Test t
wtj  Wahrer We rt
etj  M essfehler
Verknüpfung Axiom 1 und 2
Der Messfehler etj hat den Erwartungswert Null

e
t 1
tji

e
j 1
tji
0
0




eine Person j
unendlich viele Wiederholungen des Tests t
unendlich viele Personen j
eine Messung t
Es handelt sich hierbei nur um eine fiktive Annahme, da aufgrund von
Wiederholungseffekten keine vergleichbare Messung mit dem identischen Item
möglich ist.
Dieses Problem wird dadurch gelöst, dass mehrere Messungen mit
unterschiedlichen Items gemacht werden, die aber alle das gleiche messen (z.B.
das gleiche Persönlichkeitsmerkmal).
3. Unabhängigkeitsaxiom
Es bestehen nur Nullkorrelationen zwischen…
ret , wt  0
…dem Messfehler und den wahren Werten desselben Tests
ret ,wu  0
…dem Messfehler und den wahren Werten eines anderen
Tests
ret ,eu  0
…den Messfehlern unterschiedlicher Tests
(zwischen Items und zwischen Personen)
Zusammenfassung Diagnostik
S e i t e | 14
Fazit Axiome:
 Beobachtbar ist nach den Axiomen der KTT nur die Messung.
Diese setzt sich nach dem Verknüpfungsaxiom aus einem wahren Wert und
einem Fehlerwert zusammen, die beide nicht beobachtbar sind.
 Wahrer Wert und Fehlerwert sind also unbekannte Größen.
 Liegt allerdings eine Messung mit mehreren Testitems vor, kann der wahre
Testwert einer Person als Summe der beobachteten Messungen und die
Fehlervarianz Var(ε) als Varianz der Fehlerwerte mehrerer Personen geschätzt
werden.
 Angaben zum wahren Wert und Fehlerwert beruhen auf Schätzungen
Ableitungen aus der KTT
Die additive Zusammensetzung aus wahrem Wert und Messfehler
(Verknüpfungsaxiom) lässt sich auch auf Varianz und Kovarianz übertragen
Varianzzerlegung
2
sxt2  swt
 set2
s xt2  Gesamtvarianz
2
swt
 Varianz wahrer Werte
set2  Varianz der Fehlerwerte
Kovarianzzerlegung



Die Kovarianz der beobachteten Werte ist gleich der Kovarianz der wahren Werte.
Da Fehler mit nichts korrelieren können (Unabhängigkeitsaxiom), fällt der
markierte Teil weg.
Die Berechnung der Kovarianz dient als Basis für die Bestimmung der Reliabilität
Reliabilität





In der KTT ist die Retest-Reliabilität interessant
Diese ist definiert als Korrelation des Tests t mit sich
selbst
Kovarianz der beiden Messzeitpunkte geteilt durch die
Standardabweichung der beiden Messzeitpunkte mit den
selben Personen
rtt 
cov( xt , xt  )
s xt  s xt 
Die wahren Werte wt und wt‘ desselben Tests aus zweimaliger Testung sind
identisch
Daher ist die Kovarianz cov(wt,wt‘) identisch mit der Varianz der wahren Werte
in dem von Test t erfassten Merkmal
cov( xt , xt )  cov( wt , wt )
2
cov( xt , xt  )  swt
Zusammenfassung Diagnostik
S e i t e | 15

Annahme: Exakt vergleichbare Bedingungen von Test und Retest
sxt  sxt   sxt
2
Die Varianz und somit auch die Standardabweichung der Werte sind exakt gleich
 Daher kann statt sxt * sxt‘ einfach sxt² eingesetzt werden
2
swt
rtt  2
s xt


Reliabilität als Anteil der Varianz der wahren Werte an der
Varianz der beobachteten Werte
Wird der Koeffizient mal 100 genommen, ergibt sich die
Reliabilität in Prozent
Reliabilitätskoeffizienten können Werte zwischen 0 und 1 annehmen
o 0 bedeutet, dass die beobachtete Varianz nur Fehlervarianz beinhaltet,
aber keine wahre Varianz
o 1 bedeutet, dass die beobachtete Varianz nur aus wahrer Varianz besteht
 je höher die Reliabilität, desto messgenauer ist ein Test
 Reliabilitäten .70 werden als akzeptabel angenommen
Je reliabler ein Test, desto weniger streuen die Werte um den wahren Wert
Standardmessfehler
Def.: Der Standardmessfehler, ist derjenige Anteil an der Streuung eines Tests, der zu
Lasten seiner (gewöhnlich nicht perfekten, also unvollständigen) Zuverlässigkeit geht.



Zur Berechnung des Standardmessfehlers wird die
Standardabweichung mit der Reliabilität verrechnet,
et
xt
tt
da diese angibt, wie hoch der Anteil wahrer Werte
ist.
Je höher die Reliabilität, desto geringer der Standardmessfehler
o Wenn rtt=1, dann set=0
o wenn rtt=0, dann entspricht der Standardmessfehler der
Standardabweichung der Verteilung (set=sxt)
set gibt die Streuung der beobachteten Werte x t um die entsprechenden wahren
Werte wt an sowohl
s  s  1 r
Zusammenfassung Diagnostik
S e i t e | 16
über alle Testpersonen bei einmaliger Testung als auch
für eine Testperson bei mehrmaliger Testung unter identischen
Bedingungen
Wird benötigt, um das Konfidenzintervall zu berechnen
o
o

Konfidenzintervall/Mutungsintervall/Erwartungsbereich
Voraussetzung zur Bestimmung des Konfidenzintervalls



Normalverteilung der Fehler
Stichprobe
60, bei kleineren Stichproben kann t-Verteilung genutzt werden
Test besitzt ausreichende Reliabilität (Rel
80), bei sinkender Reliabilität werden
Punktschätzungen ungenau und das Konfidenzintervall zunehmend breiter
Würde eine Person unendlich oft
getestet werden, würden ihre
Testwerte eine Normalverteilung
ergeben.
Der Mittelwert wäre der wahre Wert
wtj, der Standardmessfehler set
entspricht der Standardabweichung
Der Erwartungsbereich ist der Bereich, in dem die beobachteten Messwerte um den
wahren Wert streuen. Um den Messwert kann also ein Konfidenzintervall gelegt werden,
in dem sich der wahre Wert mit einer gegebenen Wahrscheinlichkeit befindet. Der wahre
Wert soll möglichst genau eingegrenzt werden.
CL  X ti  z  set
2
X ti  Messwert
z   z  Wert bei Signifikan z
2
Je höher die Reliabilität…
…desto geringer der Standardmessfehler,
…desto schmaler das Konfidenzintervall
…desto sicherer kann man sich mit dem Messwert sein.
Je nachdem mit welcher relativen Sicherheit eine Feststellung getroffen werden soll
(abhängig von den potentiellen Konsequenzen für den Probanden), wird man den
Erwartungsbereich verschieden breit ansetzen.
Beispiel: Vp erreicht im IQ-Test einen Wert von 135, nimmt man nun an, dass das 95%Konfidenzintervall für diese Person von 125-145 reicht, so kann diese Person nicht
eindeutig als hochbegabt (>130) klassifiziert werden
 Achtung: Auch bei hohen Reliabilitäten ist das Konfidenzintervalls noch relativ breit
 Steigerung der Reliabilität führt zu schmalerem Konfidenzintervall
Zusammenfassung Diagnostik
S e i t e | 17
Kritische Differenz
Werden zwei Probanden getestet, so treten bei beiden Messungen Messfehler auf.
Die kritische Differenz wird berechnet, um entscheiden zu können, ob sich die Testwerte
zweier Probanden signifikant unterscheiden.
Zur Berechnung wird der Standardmessfehler der empirischen Differenz der Testwerte
benötigt.
seDiff  s x  2(1  rtt )
Dkrit  z   seDiff
2
Ist die berechnete kritische Differenz kleiner als die empirische bestimmte, so wird der
Unterschied als signifikant angenommen, man kann dann davon ausgehen, dass die
Differenz zwischen den Probanden nicht durch die Unzuverlässigkeit des Tests zu
erklären ist. Ist sie größer, so wird der Unterschied als nicht signifikant angenommen.
Durch Umstellen der Formel, kann man auch die Wahrscheinlichkeit für das Auftreten
einer bestimmten empirisch ermittelten Differenz herausfinden. Der ermittelte z-Wert
gibt an, mit welcher Wahrscheinlichkeit die kritische Differenz die empirische übersteigt
und man somit die Verteilungen als nicht signifikant verschieden annimmt.
Bsp.: Wäre der z-Wert 2,6, wäre die Auftretenswahrscheinlichkeit 1% und es besteht ein
signifikanter Unterschied.
Die kritische Differenz kann auch bei einer Person über zwei oder mehrere Testungen
berechnet werden, um signifikante Veränderungen zu erfassen.
Außerdem kann bestimmt werden, ob sich die Werte eines Probanden in mehreren
Skalen signifikant unterscheiden, um z.B. Stärken und Schwächen eines Probanden zu
ermitteln. Bei der Berechnung des Standardmessfehlers werden dann die Reliabilitäten
beider Skalen berücksichtigt.
Minderungskorrektur
Wird benötigt, weil Fehlereinflüsse die Korrelation zwischen zwei Tests vermindern und
man die Korrelation zwischen den wahren Werten ermitteln will.
Man fragt sich, wie hoch die Korrelation zwischen den beiden Tests wäre, wenn einer
bzw. beide perfekt reliabel, d.h. ohne Messfehler, messen würden.
Einfache Minderungskorrektur:
c corr rtc 
c
rtc
rcc
Es wird um die Unreliabilität eines Tests korrigiert, dieser Test
hat dann eine perfekte Reliabilität von 1.
corr rtc = Korrelation des Tests mit dem Kriterium = Validität
Zusammenfassung Diagnostik
S e i t e | 18
Verdünnungsparadoxon:
Da die Reliabilitätskoeffizienten jeweils im Nenner
stehen gilt: Je geringer die Reliabilität eines bzw.
beider Tests ist, desto stärker ist der Effekt der
Minderungskorrektur und somit die Erhöhung der
Validität.
Doppelte Minderungskorrektur:
c  t corr rtc 
c t
rtc
rtt  rcc
Es wird um die Unreliabilität beider Tests
korrigiert, beide Tests haben dann eine
perfekte Reliabilität von 1.
corr rtc = Korrelation des Tests mit dem Kriterium = Validität
Zur Berechnungen müssen die Reliabilitätskoeffizienten eines bzw. beider Tests sowie die
beobachtete Korrelation zwischen den Tests bekannt sein.
Es kann ein beliebiger Reliabilitätskoeffizient zur Berechnung herangezogen werden (z.B.
Cronbachs ).
Die korrigierte Korrelation kann maximal so groß sein, wie das geometrische Mittel der
beiden Reliabilitätskoeffizienten. (
.90  .80 =0,85)
Die praktische Bedeutung der Minderungskorrektur beschränkt sich auf vor allem auf die
Forschung.
Reliabilitätsindex
Der Reliabilitätsindex gibt an, wie hoch die Korrelation der wahren Werte mit den
beobachteten Werten ist (Fehlereinfluss wird also wieder rausgerechnet).
Eine Variable/ein Test kann mit einer anderen Variablen nicht höher korrelieren als mit
ihren wahren Werten. Erst wenn ein Test hoch mit sich selbst korreliert, kann er auch
hoch mit anderen Tests korrelieren.
Die Korrelation kann maximal die Wurzel aus der Reliabilität betragen  Obergrenze für
korrelative Zusammenhänge, also auch für die Minderungskorrektur und die Validität
eines Tests. Höhere Koeffizienten müssen auf Artefakten beruhen.
rxtwt  rtt
rxtwt=Korrelation Messwert im Test t mit wahrem Wert im Test t
Zusammenfassung Diagnostik
S e i t e | 19
Testlänge
Varianz von Items und Skalenwerten
Die Varianz eines Skalenwertes entspricht der Summe der Varianz der einzelnen Items
sowie der Kovarianzen zwischen den Items.
 positive Kovarianzen steigern die Varianz der Skala
 negative Kovarianzen verringern die Varianz einer Skala
Durch die Aufnahme zusätzlicher (inhaltsrelevanter) Items kann die Reliabilität eines
Verfahrens gesteigert werden. Hierbei wird der relative Anteil der Varianz wahrer Werte
an der Gesamtvarianz der Skalenwerte erhöht.
Eine Verdopplung der Testlänge führt zu:
 Vervierfachung der Varianz der wahren Werte
 aber nur Verdopplung der Fehlervarianz
Die Reliabilität ist daher abhängig von der Länge des Tests (ausgedrückt als Zahl der
Aufgaben/Items).
Spearman-Brown-Formel
Berechnung der zu erwartenden Reliabilitätssteigerung durch Verlängerung der Skala
corr rtt 
k  rtt
1  (k  1)  rtt
k=Verlängerungsfaktor
Anwendung der Formel setzt äquivalente bzw. homogene Testteile voraus.
k
Anzahl alter Items  Anzahl neuer Items
Anzahl alter Items
Man kann den umgekehrten Weg gehen,
um herauszufinden, wie viele neue
Items konstruiert werden müssen, um
eine bestimmte Reliabilität zu erhalten.
Zusammenhang zwischen
Ausgangsreliabilität, Testverlängerung
(Faktor k) und neuer Reliabilität
Die Testverlängerung ist vor allem eine
sinnvolle Maßnahme, wenn der Test
relativ kurz und unreliabel ist, da der
Reliabilitätszuwachs bei niedrigen
Ausgangsreliabilitäten am größten ist.
Die Prinzipien der Formel können auch zur Verkürzung von Tests angewendet werden,
wenn man wissen möchte, wie lang der Test sein muss, um eine bestimmte Reliabilität
zu erreichen.
 um Tests so ökonomisch (Zeit- oder Kostengründe) wie möglich zu gestalten und
dennoch eine bestimmte Reliabilität nicht zu unterschreiten
Zusammenfassung Diagnostik
S e i t e | 20
Der Effekt der
Testverlängerung lässt sich
ebenfalls anhand der Formel
zur Berechnung von
Cronbachs 
veranschaulichen:
 nimmt dann hohe Werte an, wenn zwischen den Items hohe Kovarianzen bestehen,
d.h.  wird größer, wenn mehr Items, da dann mehr Kovarianz
Vorhersage auf Basis von Testwerten
Korrelative Studien (Korrelation zwischen Prädiktor- und Kriteriumsvariablen) sind die
Grundlage für Vorhersagen, die durch Regressionsgerade berechnet werden. Vorhersagen
sind wichtig für die entsprechenden Prognosen (z.B. Ausbildung oder Universität
aufgrund der allgemeinen Intelligenz).
Regressionsgerade:
Yˆ  a  bxy  X
Yˆ  vorhergesagter Wert
X  Pr ädiktorwert
a  Kons tan te ( y  Achsenabschnitt )
bxy  Steigung
Berechnung der Steigung
bxy  r
sy
sx
Berechnung der Konstante
a  Y  bxy  X
Die Regressionsgerade wird so gebildet, dass die Summe der quadrierten Abweichungen
parallel zur Ordinate ein Minimum bildet.
Annahmen für korrekte Berechnung:
 Keine Veränderung der Rahmenbedingungen, d.h. Mittelwert und Streuung sind
zum Zeitpunkt der Vorhersage gleich wie bei der Erhebung.
 Der Proband für den die Vorhersage gemacht werden soll, wird als Teil der
Erhebungsstichprobe, anhand derer die Regressionsgerade bestimmt wurde,
angenommen.
Probleme:
 Annahmen oft nicht gerechtfertigt
 Fehler unvermeidbar  Kriteriumswerte streuen um die Regressionsgerade, eine
Vorhersage ist daher nie perfekt, da immer ein gemittelter Wert vorhergesagt
wird (außer die Korrelation zwischen Prädiktor und Kriterium wäre 1)
Die Standardabweichung der tatsächlich aufgetretenen um die mittels der
Regressionsgeraden vorhergesagten Werte ist der Standardschätzfehler
Zusammenfassung Diagnostik
S e i t e | 21


Besteht zwischen Prädiktor und Kriterium
eine Nullkorrelation, so entspricht der
Standardschätzfehler der Streuung des
Kriteriums (Kein Zusammenhang,
vorhergesagte Werte bestehen daher nur
aus Fehlern).
Wenn Korrelation=1 (Standardschätzfehler
0), dann ist x=y, wenn beide die gleichen
Maßeinheiten haben
Bei zwei vorhergesagten Werten kann wiederum anhand der kritischen Differenz
entschieden werden, ob sich diese signifikant voneinander unterscheiden, dies ist wichtig
für die daraus abgeleiteten Prognosen.
(Berechnung mit Standardschätzfehler statt Standardmessfehler)
Vorteil der KTT: Pragmatik, Ökonomie
Kritik an der KTT






Fehlende messtheoretische Grundlage: Axiome empirisch nicht überprüfbar
 Annahme eines unkorrelierten Messfehlers kritisch
 Annahme, dass Fehler sich über mehrere Testungen hinweg rausmitteln kritisch
Beispiel: Proband, der Testangst hat (systematischer Fehler)
Annahme einer intraindividuellen Invarianz der wahren Werte einer Person sind nur
bei kurzen Zeiträumen und nur für bestimme Merkmalsbereiche vertretbar
KTT setzt mindestens Intervall-Skalen-Niveau voraus; fraglich, ob dies bei allen
Tests erreicht wird
Die mit den statistischen Verfahren verbundenen Implikationen sind hinsichtlich des
Merkmals in Teilen nicht überprüfbar (z. B. dass Merkmale grundsätzlich
normalverteilt sein sollen)
Die wichtigsten Kennwerte (z.B. Reliabilität) basieren auf Korrelationen, die in der
Validierungsstichprobe bestimmt werden (Stichprobenabhängigkeit!)
 Praktisch bedeutet dies, dass z.B. die Reliabilität nicht die Messfehlerbehaftetheit
eines Tests an sich, sondern eine Messfehlerbehaftetheit in Bezug auf eine
bestimmte Population charakterisiert
 Mangelnde Generalisierbarkeit der Reliabilität, je nach Substichprobe (z.B.
Männer vs. Frauen) ergeben sich unterschiedliche Reliabilitäten
 Die Übertragbarkeit von gruppenstatistischen Kennwerten auf den Einzelfall ist
immer dann problematisch, wenn die Reliabilität und/oder Validität < 1,0 ist
(also quasi immer!)
Die Bildung des Testwerts erfolgt im Rahmen der KTT durch die Bildung eines
Summenwertes, dies setzt Eindimensionalität voraus, d.h. alle Items erfassen
dasselbe Konstrukt. Im Rahmen der KTT nicht überprüfbar (Versuch mittels
exploratorischer Faktorenanalysen).
Item-Response-Theorie/Probabilistische Testtheorie
IRT
1.
2.
3.
wurde entwickelt um folgende Probleme der KTT zu umgehen:
Skalenniveau der untersuchten Merkmale kann meist nicht genau angegeben werden
gefundene Kennwerte sind stichprobenabhängig
Homogenität der Items bezüglich des untersuchten Merkmals nicht überprüfbar
Ausgangspunkt: Unterscheidung zwischen manifesten und latenten Variablen.
 Manifeste Variablen: beobachtbares Antwortverhalten auf verschiedene Testitems
 Latente Variablen: nicht beobachtbare Fähigkeiten oder Dispositionen, welche das
manifeste Verhalten bestimmen (=wahrer Wert der KTT)
Zusammenfassung Diagnostik
S e i t e | 22
wesentlicher Unterschied zwischen IRT und KTT:
 KTT: bei der Testwertebildung wird die Antwort der Probanden auf die Items des
Tests mit der Messung des im Test erfassten Konstruktes gleichgesetzt.
 IRT: das im Test gezeigte Verhalten (also die Antworten auf die Items) wird hier
hingegen auf eine Fähigkeit oder Eigenschaft zurückgeführt, die das Testverhalten
„verursacht“
o Das beobachtete Verhalten (die manifeste Variable) ist nach der IRT also
lediglich ein Indikator für das dahinter liegende Konstrukt (latente Variable),
dessen Messung nur indirekt erfolgen kann.
o Die Ausprägung der latenten Variable kann daher nur
erschlossen werden.
Itemhomogenität
Um von den manifesten auf latente Variablen schließen zu können, müssen die
manifesten Variablen (z.B. Testitems) Korrelationen aufweisen. Diese sollten möglichst
nur auf den Einfluss einer latenten Variablen  zurückgeführt werden können. Dann kann
man davon ausgehen, dass die Items Manifestationen desselben latenten Konstrukts
sind.
Um dies zu überprüfen, wird die latente Variable auf einer Stufe konstant gehalten (z.B.
nur Probanden mit exakt der gleichen Fähigkeitsausprägung untersuchen)
 Die Korrelationen zwischen den Items sollten dann verschwinden, da die Ausprägung
der latenten Variablen bei allen Vpn der SP gleich ist, somit keine Varianz erzeugt wird
und die Grundlage für das Bestehen von Korrelationen fehlt.
Ist dies der Fall, so sind die Items lokal stochastisch unabhängig und können als
homogen bezüglich der latenten Variablen  bezeichnet werden. Die Beantwortung eines
Items hängt hierbei nicht von der Beantwortung eines anderen Items ab.
Testitems, welche die Bedingung der lokalen stochastischen Unabhängigkeit erfüllen,
bezeichnet man als Indikatoren der latenten Variablen.
Wenn die lokalen Verbundwahrscheinlichkeiten dem Multiplikationstheorem für
unabhängige Ereignisse folgen, ist die Bedingung der lokalen stochastischen
Unabhängigkeit erfüllt. Es besagt, dass die Wahrscheinlichkeit für das gemeinsame
Auftreten zweier Ereignisse dem Produkt der Einzelwahrscheinlichkeiten entspricht, wenn
diese lokal stochastisch unabhängig sind. Es besteht dann Itemhomogenität.
Zusammenfassung Diagnostik
S e i t e | 23
Latent-Class-Modelle
verwenden kategoriale latente Klassen (z.B. gesund/krank) zur Charakterisierung von
Personenunterschieden
Latent-Trait-Modelle
verwenden quantitative, kontinuierliche latente Variablen
Grundannahmen:
 Jeder Proband besitzt eine Fähigkeit, Items zu lösen
 Personenparameter  (Fähigkeits-, Einstellungs-, Dispositionsparameter)
 beschreibt die Merkmalsausprägung
 Jedes Item besitzt eine Schwierigkeit
 Itemparameter  (Schwierigkeits- oder Anforderungsparameter)
 je leichter ein Item, desto weiter links wird es abgetragen und umgekehrt
 Personen und Itemparameter lassen sich gemeinsam auf einer eindimensionalen
Skala abbilden („joint scale“) und bilden eine Itemcharakteristische Funktion
 Wird auf der x-Achse abgetragen
 Die Wahrscheinlichkeit, dass ein bestimmter Proband ein bestimmtes Item löst, wird
von Personen- und Itemparameter bestimmt
 Die Reaktionen sind „lokal stochastisch unabhängig", d.h. ob ein Proband eine
bestimmte Aufgabe löst oder nicht löst, hängt nicht davon ab, welche anderen
Aufgaben er bereits gelöst hat oder noch lösen wird.
 Anwendung: v.a. in Fähigkeits- und Leistungstests, teilweise auch in Persönlichkeits-,
Einstellungs-, oder Interessentests
 immer wenn binäre Items gelöst werden können oder nicht
1. deterministische Modelle


Grenzfall eines probabilistischen Modells, da nur 0 und 1 als
Lösungswahrscheinlichkeit vorkommt
gehen davon aus, dass das Antwortverhalten der Probanden durch die Item- und
Personenparameter vollständig bestimmt ist
Guttmann-Modell (Skalogramm-Modell)
Beispiel: Stufenmodell Piaget, Intelligenzalter Binet
Vorläufer der probabilistischen Latent-Trait-Modelle
Annahme, wenn Items nach Schwierigkeitsgrad
geordnet sind:
 Löst ein Proband ein Item, muss er alle
leichteren auch gelöst haben.
 Löst ein Proband ein Item nicht, darf er
kein schwereres lösen.
 einheitliche Ordnung von Personen und
Items
Skalenwert einer Person entspricht der
Rangzahl des Items
 ab dem der Proband positiv/negativ reagiert (Zustimmung ändert sich)
 ab dem der Proband ein Item nicht mehr lösen/ab dem der Proband die Items lösen
kann (Fähigkeit ändert sich)
Zusammenfassung Diagnostik
S e i t e | 24
Über sog. Reproduzierbarkeitskoeffizienten wird festgestellt, ob die Annahme der
Modellkonformität (Itemhomogenität) noch gegeben ist. Maßgeblich ist hierfür die Anzahl
der Rangplatzvertauschungen, die entstehen, wenn schwierigere Items gelöst, aber
leichtere Items nicht gelöst werden.
Kritik:
 Keine Aussagen über Distanzen von Items und Personen möglich, da nur
ordinalskaliert
 Die relativ strengen Modellannahmen des Guttman-Modells werden in der Praxis
meist nicht erfüllt.
2. probabilistische Modelle




Die ICC ordnet jeder Ausprägung der latenten Variable  Wahrscheinlichkeit p (i+|)
zu, mit der ein bestimmtes Item i gelöst wird
ICCs werden als monoton steigend angenommen, d.h. die Lösungswahrscheinlichkeit
steigt mit zunehmender Fähigkeit/Merkmalsausprägung monoton an
Es werden nur dichotome Reaktionen (Lösung/Nichtlösung) beachtet
Der Zusammenhang von Personenparameter, Itemparameter und
Lösungswahrscheinlichkeit durch eine logistische Funktion beschrieben
Itemcharakteristische Funktion (IC-Funktion/ICC)
 Zeigt die Ausprägung von Item- und Personenparameter an
 Funktion beschreibt mathematisch, welche Abhängigkeit zwischen dem manifesten
Antwortverhalten auf die Testitems und der Ausprägung der latenten
Eigenschaften besteht
 Funktion liefert Werte zwischen 0 und 1
 Die Steigung der ICC (im dichotomen Rasch-Modell entspricht sie der
Iteminformationsfunktion) variiert mit der Differenz zwischen Fähigkeit und
Itemschwierigkeit


Je schwieriger ein Item ist, desto weiter verschiebt sich seine ICC nach rechts,
d.h. bei gleichbleibender Fähigkeit nimmt die Lösungswahrscheinlichkeit ab
Je fähiger eine Person, desto größer ist bei gleicher Schwierigkeit die
Lösungswahrscheinlichkeit
Zusammenfassung Diagnostik
S e i t e | 25
a) 1-PL-Modell (dichotomes Rasch-Modell)






Die Lösungswahrscheinlichkeit ist ausschließlich durch
die Itemschwierigkeit und die Fähigkeit bestimmt
Der Itemdiskriminationsparameter ist für alle Items  =
1, alle Items haben die gleiche ICC
Die Lösungswahrscheinlichkeit (und auch die Formel der
ICC) wird durch die Differenz von Personenparameter 
und Itemparameter  bestimmt
Durch Einsetzen in die Formel ergeben sich folgende
Fälle:
o Wenn  = , dann ist p = 0,5 (Wendepunkt)
o Wenn  < , dann ist p < 0,5 und geht bei sehr geringer Fähigkeit gegen 0
o Wenn  > , dann ist p > 0,5 und geht bei sehr großen Fähigkeiten gegen 1
Rasch-homogene Items unterscheiden sich nur in ihrem Schwierigkeitsparameter.
Leichtere Items werden als ICC eher links schwerere eher rechts abgetragen.
Da alle Items gleich gut diskriminieren sind alle ICCs deckungsgleich
b) 2-PL-Modell (Birnbaum-Modell)





Die Lösungswahrscheinlichkeit wird durch
Itemschwierigkeit, Fähigkeit und
Itemdiskriminationsparameter  bestimmt
Der Itemdiskriminationsparameter (Pendant zur
Trennschärfe der Itemanalyse in der KTT) bestimmt
die Steigung der jeweiligen ICC und ihres
zugehörigen Wendepunkts
 unterschiedliche Sensitivität
Je kleiner i, desto flacher ist die ICC und desto
geringer die Diskriminationsleistung des Items bei
Personen mit höherer und niedrigerer
Merkmalsausprägung.
Dafür gewinnt ein solches Item aber an Sensitivität im oberen und unteren
Bereich der Merkmalsausprägung
Die Ratewahrscheinlichkeit ist unabhängig von der Fähigkeit
c) 3-PL-Modell (Rate-Modell)

Die Lösungswahrscheinlichkeit wird durch
Itemschwierigkeit, Fähigkeit, Trennschärfe  und
Ratewahrscheinlichkeit bestimmt
Zusammenfassung Diagnostik
S e i t e | 26
Iteminformationsfunktion









Die Iteminformationsfunktion zeigt an, wie viel Information ein Item in einem
bestimmten Fähigkeitsbereich über die Unterschiedlichkeit der Probanden liefert.
Die Itemschwierigkeit liegt bei dem Punkt, bei dem die Lösungswahrscheinlichkeit
0,5 ist (Wendepunkt der ICC  höchste Steigung, mittleres
Schwierigkeitsniveau); hier liefert das Item die meiste Information, da hier
maximal viele Unterscheidungen zwischen Lösern/Nichtlösern getroffen werden
Die logistische IC-Funktion zeigt, dass die Lösungswahrscheinlichkeiten ihren
größten Zuwachs haben, wenn die Itemschwierigkeit mit der
Merkmalsausprägung übereinstimmt
Itemschwierigkeit muss im Bereich der Fähigkeiten angesiedelt sein
 Iteminformationsfunktion erreicht dort ihr Maximum (an Informationsgewinn),
wo ξv = σi ist und fällt dann zu beiden Seiten ab.
Numerisch lässt sich die Iteminformationsfunktion eines best. Items für die
jeweilige Merkmalsausprägung aus dem Produkt aus bedingter Lösungs-und
Nichtlösungswahrscheinlichkeit des Items berechnen.
Der Informationswert ist somit das Pendant zum Standardmessfehler eines Tests
aus der klassischen Testtheorie, der allerdings nicht als konstantes Merkmal des
Tests, sondern als Funktion der Personenkennwerte beschrieben wird
Nur dann deutliche Unterschiede in der Lösungswahrscheinlichkeit der Probanden,
wenn die Fähigkeiten im Bereich der Itemschwierigkeit liegt (  = )
Wenn die Fähigkeiten von den Item-Schwierigkeiten deutlich abweichen, fallen die
Unterschiede im Lösungsverhalten viel geringer aus
Zusammenfassung Diagnostik
S e i t e | 27
Testgesamtinformation



Für einen aus k Items bestehenden Test lässt sich additiv die
Testgesamtinformation I als Summe der einzelnen Item-Informationsbeträge
berechnen.
Mit Hilfe von I kann die Genauigkeit der Personenparameterschätzung durch
Berechnung des Konfidenzintervalls bestimmt werden
Die Testgenauigkeit wird umso größer, je höher I ausfällt
 I kann durch Vermehrung der Itemanzahl und/oder durch Vergrößerung der
einzelnen additiven Iteminformationsbeträge gesteigert werden
Um den Verlauf der ICCs bestimmen zu können, ist es erforderlich die Parameter
festzulegen. Dies geschieht durch eine Schätzung.
Parameterschätzung bei 1PL-Modell
Anhand der empirischen Daten (Einzelreaktionen auf die Items), werden Personen- und
Itemparameter geschätzt und somit die ICC festgelegt

Vor der Schätzung werden die Items eliminiert, die entweder von allen oder von
keiner Person gelöst wurden: Enthalten keine Information über
Fähigkeitsausprägung; ebenso werden Testpersonen eliminiert, die entweder alle
oder kein Item gelöst haben
1. Ausgangspunkt: Empirische Datenmatrix
 Spaltensumme: Schwierigkeit der Items
 Zeilensumme: Fähigkeit der Probanden
 Es könne die Spalten und Zeilensummen genutzt werden, da es sich um eine
erschöpfende Statistik handelt
2. Auswahl passender Parameter:
 Zuerst wird je Item ein Schwierigkeitsparameter geschätzt
o Normierung/Summennormierung der Parameter möglich
 Werte für Itemparameter werden meist zw. -3 und +3 gewählt
(Mittelwert meist 0); leichte Items bekommen negative Werte,
schwierige positive
 Mit der Normierung der Itemparameter liegt auch die Skala der
Personenparameter fest, geringe Merkmalsausprägungen
bekommen negative Werte, hohe Ausprägungen positive
 Bei Personen, die kein Item (Zeilensummenscore=0) und Personen,
die alle Items (Zeilensummenscore =m bei m Items) gelöst haben,
ist der Itemparameter nicht genau bestimmbar, da er gegen –∞
bzw. +∞ unendlich tendiert; anhand von Normierungen können
aber bestimmte Werte zugewiesen werden
3. Überprüfung der Parameter
 Die Passung der gewählten Parameter auf die empirischen Daten wir mit Hilfe der
Likelihood überprüft. (Es gehen sowohl die geschätzten Parameter als auch die
emp. Daten mit ein)
Zusammenfassung Diagnostik
S e i t e | 28



Als Ergebnis erhält man eine Wahrscheinlichkeit zwischen 0 und 1, die die
Wahrscheinlichkeit für die emp. Daten unter den angenommenen Parametern
angibt.
L steigt bei günstiger Wahl der Parameter an (Wertebereich 0 bis 1)
Sie gibt also an, wie wahrscheinlich die empirisch beobachtete Daten bei einem
bestimmten gewählten Parameter sind
In der Praxis wird die Schätzung allerdings häufig durch die CML durchgeführt
(Conditional-Maximum-Likelihood-Methode) d.h. die Itemparameter werden solange
verändert, bis sie mit der beobachteten Datenmatrix am besten übereinstimmen
(Computerprogramm, z.B. WINMIRA)
 Vorteil der CML ist, dass sie die Itemparameter unabhängig von den
Personenparametern schätzt ( Separierbarkeit der Parameter,
Stichprobenunabhängigkeit)
Die Likelihoodschätzung macht keine Aussagen darüber, ob die getroffenen
Modellannahmen auch wirklich zutreffen. Es könnte sein, dass auch die „optimal“
geschätzten Parameter nur geringe Wahrscheinlichkeiten für die Daten aufweisen
Es muss deshalb geprüft werden, ob die empirischen Daten auch wirklich den
Modellanahmen entsprechen.
Modelltests/Prüfung der Modellkonformität beim 1PL-Modell
(Entsprechen Daten den Modellannahmen?)
Modelltests sind Verfahren zur Überprüfung der Güte der Anpassung empirischer Daten
an ein theoretisches Modell.
Um die Modellpassung an die empirischen Daten zu überprüfen, müssen zunächst die
Parameter geschätzt/bestimmt werden, um das Modell zu definieren.
1. ²-Verfahren




Wie gut passen die geschätzten Parameter zu meinem empirischen Modell?
Mit den geschätzten Parametern wird die Ausgangsmatrix reproduziert
Es wird anhand des ²-Verfahren überprüft, ob sich diese reproduzierte Matrix
und die empirisch beobachtete Ausgangsmatrix signifikant unterscheiden
Wenn die Datenmatrizen sich nicht signifikant unterscheiden (H0 wird
angenommen), dann gelten die Parameter als modellverträglich und das Modell
kann als gültig angenommen werden
Zusammenfassung Diagnostik
S e i t e | 29
2. In Frage stellen der Stichprobenunabhängigkeit:
 Einfachstes Vorgehen
 Teilung der Stichprobe nach einem relevanten Kriterium (z.B. Alter, Geschlecht) in
zwei oder mehr Substichproben
 Für jede Substichprobe separate Schätzung der Itemparameter
 Pro Itemparameter erhält man zwei Werte (einen aus jeder Substichprobe)
 Wenn diese nicht signifikant unterscheiden ist Stichprobenunabhängigkeit und
somit Modellkonformität gegeben
a. Graphischer Modelltest
o Die Itemparameterschätzungen beider Substichproben werden in einem
bivariaten Streuungsdiagramm gegeneinander abgetragen
o Je näher die Itemparameter an der Hauptdiagonalen liegen, desto größer
die Stichprobenunabhängigkeit und desto eindeutiger Raschhomogenität
o Systematische Abweichungen: Hinweise auf modellinkonforme
Wechselwirkungen zwischen der Itemschwierigkeit und dem Kriterium,
nach dem die Stichprobe geteilt wurde
b. Numerischer Modelltest (z.B. Likelihood-Quotienten-Test nach
Anderson)
o Es werden für beide Teilstichproben CML-Schätzungen durchgeführt und
mit einem Signifikanztest auf Unterschiedlichkeit überprüft
o Wenn sich die Nullhypothese bestätigt, d.h. die Schätzungen der beiden
Substichproben unterscheiden sich nicht signifikant, kann
Modellkonformität angenommen werden
3. Personenselektion
Wenn ein Test sich als nicht konform herausstellt, könnte dies auch an der Stichprobe
liegen (Untypische Bearbeitungsstile: z.B. Antworttendenzen, Schwindeln, Raten,
soziale Desirabilität, Sprachschwierigkeiten, mangelndes oder unterschiedliches
Instruktionsverständnis)  Aussortieren, um Bearbeitungsstile zu homogenisieren
Person-Fit-Indices (Caution-Indices): Überprüfen, ob Antwortmuster einer Person
plausibel oder unplausibel ist und somit, ob sich die Person modellkonform oder
modellinkonform verhalten hat.
Wenn eine Testperson sich nicht modellkonform verhält, sollte das Testergebnis wenn
überhaupt nur mit Vorsicht interpretiert werden.
Ein niedriger Person-Fit-Index kann aber auch ein Hinweis auf eine Eigenschaft des
Probanden sein, z.B. dass sich der Arbeitsstil dieses Probanden von dem der Mehrheit
unterscheidet, so könnte ein Proband seine Leistung unter Belastung steigern.
Modellvergleich




Das 1PL-Modell (Rasch-Modell) ist hinsichtlich seiner Gültigkeit
(erschöpfende Statistiken, spezifische Objektivität, Stichprobenunabhängigkeit,
Intervallskalierung) mit Modelltests überprüfbar.
Das gilt für das 2PL- und 3PL-Modell nicht, obwohl sie eine umfassendere
Modellierung des Probandenverhaltens vorgeben.
o Hier gibt es lediglich sog. Goodness-of-Fit-Maße, die aber keine sicheren
Rückschlüsse auf das Zutreffen der Modellimplikationen erlauben.
Somit weist das 1PL-Modell die vorteilhafteren Modelleigenschaften auf, was sich in
seiner häufigen Verwendung widerspiegelt.
Beispiele für die Anwendung der Item-Response-Theorie im Leistungstestbereich ist
PISA (Progamme for International Student Assessment)
Zusammenfassung Diagnostik
S e i t e | 30
Vorteile des 1-PL-Modells/Rasch-Modells
Wenn die Modellannahmen sich nach Überprüfung durch einen Modelltest als gültig
erweisen, ergeben sich folgende Vorteile:
 Rasch-Homogenität
o Die ICCs verlaufen entsprechend dem Schätz-Modell (1PL)
 erschöpfende Statistiken
Liegen die Itemparameter vor und ist die Modellkonformität bestätigt, muss nicht
für jede Person ein eigener Personenparameter geschätzt werden.
o Die ganze Info, die ein Test über eine Person liefert, ist in der Anzahl der
von der Person gelösten Items enthalten (=Summenwert)
o Analog gilt dies für den Itemparameter: Die Itemschwierigkeit ist
unabhängig davon, welche Probanden die Items gelöst haben,
entscheidend ist auch hier die Anzahl
 Alle Personen mit demselben Zeilensummenscore haben dann den
gleichen Personenparameter.
 Personen, die kein Item lösen («Item zu schwer») erreichen einen
Zeilensummenscore von Null.
 Personen, die alle Items lösen («Item zu leicht») erhalten einen
Zeilensummenscore von m (bei m Items).
 Ihr Personenparameter ist allerdings nicht genau bestimmbar, wie
dieser gegen –∞ und +∞ strebt. Durch Normierungen können aber
plausible Parameter zugewiesen werden.
 Stichprobenunabhängigkeit der Parameterschätzung/Separierbarkeit der
Parameter
o Itemparameter können geschätzt werden, ohne Personenparameter zu
kennen und ohne Annahmen über deren Verteilung treffen zu müssen
o Itemparameter fallen immer gleich aus, egal welche Stichprobe zur
Validierung des Verfahrens benutzt wurde
 spezifische Objektivität
o Die IC-Funktionen aller Items haben die gleiche Form und unterscheiden
sich nur hinsichtlich ihrer Schwierigkeit (Verschiebung auf der –Achse)
o Vergleiche zwischen Personen: Unabhängig davon, welche Items eines
Tests einer Personengruppe vorgelegt werden, bleibt die Rangreihe der
Personen und die Unterschiede zwischen den Personenparametern immer
gleich
o Vergleiche zwischen Items: der Schwierigkeitsunterschied zweier Items
kann unabhängig davon festgestellt werden, ob Personen mit hohen oder
niedrigen Merkmalsausprägungen untersucht wurden.
 Lokale stochastische Unabhängigkeit
o Alle Items erfassen die gleiche eindimensionale latente Variable
 Möglichkeit des adaptiven Testens
o Typischer Einsatzbereich: Leistungstestung
o Steigerung der Testökonomie
o Es werden nur solche Items vorgelegt, die für den jeweiligen Probanden
maximal informativ sind, d.h. deren Schwierigkeit mit der Fähigkeit des
Probanden übereinstimmen, da nur diese wesentlich zur
Testgesamtinformation beitragen
o Möglichkeiten: „branched testing“ (Verzweigungen) bei Paper-Pencil-Tests
(z.B. AID), computergestützte Verfahren (z.B. Frankfurter Adaptiver
Konzentrationsleistungs-Test, FAKT)
o Solche adaptiven Strategien erfordern einen IRT-homogenen Itempool
 Intervallskalierte Ergebnisse
o Es können nicht nur Rangreihen, sondern auch Abstände interpretiert
werden
o Die gemeinsame Skala von  und  ist intervallskaliert und somit auch die
latente Variable , der Nullpunkt ist frei wählbar
Zusammenfassung Diagnostik
S e i t e | 31
Vergleich IRT vs. KTT




KTT stellt keinen expliziten Bezug zwischen der Leistung einer Person (z.B. dem
Prozentsatz gelöster Items) und der Schwierigkeit eines Items (z.B. dem
Prozentsatz an Personen, die das Item lösen) her.
Bei der IRT hingegen werden Fähigkeitsschätzungen und Itemschwierigkeiten auf
einer «joint scale» abgebildet.
Eindeutig ist die relative Lokalisation der Personenfähigkeit zu der
Itemschwierigkeit allerdings nur dann, wenn die IC-Funktionen aller Items parallel
verlaufen (wie im Rasch-Modell).
KTT liefert als Messfehlertheorie Konzepte zur Reliabilitätsschätzung, während die
IRT Beziehungen zwischen Antworten von Probanden und dahinter stehenden
latenten Merkmalen expliziert. Beide Ansätze ergänzen sich daher
Zusammenfassung Diagnostik
S e i t e | 32
Kriteriumsorientierte Tests
Definition: Kriteriumsorientierte Tests sind inhaltsvalide Testverfahren, die nicht die
Position einer Person in Relation zu einer Vergleichsnorm, sondern das Erreichen oder
Verfehlen eines konkreten Kriteriums ermitteln wollen.
Unterschied zu klassischen normorientierten Verfahren: Sie wollen nicht
Konstrukte oder Traits erfassen, sondern ein konkretes Kriteriumsverhalten. Sie sind
nicht konstruktvalide, sondern inhaltsvalide.
Probleme:
1. Inhaltsvalide Itemmengen, die eine repräsentative Stichprobe der Grundmenge
darstellen müssen generiert werden, z.B. durch Expertenurteile
2. Es müssen realitätsangemessene, sachgerechte Kriterien festgelegt werden, die
von der untersuchten Person erreicht werden müssen
 sachgerecht meint z.B. Kriterien, die nachweislich zur Erreichung
nachfolgender Kriterien erforderlich sind, Beispiel: Führerscheinprüfung
 Die Realitätsangemessenheit muss immer wieder überprüft und ggf.
korrigiert werden
3. Es müssen zufallskritische Trennwerte ermittelt werden
 Grundannahme: „Könner“ können von „Nichtkönnern“ dadurch
unterschieden werden, dass sie in der relevanten Kriteriumsklasse keine
Fehler machen, 100%-Kriterium wäre aber zu hoch  Frage: Welches
Kriterium ist unter Berücksichtigung von Zufallseinflüssen angemessen?
 Lösungsmöglichkeiten:
a) Experten legen Kriterium fest
b) Einfehlermodell: ein Irrtumsgrad von 5-10% wird festgelegt, d.h.
ein „Könner“ muss 90 bzw. 95% der Aufgaben lösen, um als
„Könner“ klassifiziert zu werden (zufallskritische Absicherung)
Auf der Grundlage der Binomialverteilung lässt sich mit Hilfe von
Tabellen je nach gewählter Irrtumswahrscheinlichkeit für jede
Itemzahl diejenige Aufgabenmenge ermitteln, die ein „Könner“
mindestens gelöst haben muss. Wenn diese Aufgabenmenge gelöst
wurde, kann nicht mehr ausgeschlossen werden, dass die getestete
Person zur Gruppe der „Könner“ gehört.
4. Wenn alle Personen das Kriterium erreichen, werden alle als Könner identifiziert
und die üblichen korrelationsstatistischen Maße können nicht mehr angewendet
werden ( keine Varianz  keine Korrelation)  Bestimmung der Gütekriterien
eingeschränkt
Mögliche Lösung: Verwendung eines Koeffizienten, der die Zahl der
übereinstimmenden Klassifikationen in Relation zu der Zahl der Entscheidungen
setzt.
Testentwicklung
Testplanung
Der Prozess der Entstehung eines Tests beginnt bei der ersten
 Testplanung, über die
 Testentwicklung bis hin zur
 Erstellung und vorläufigen
 Erprobung einer Vorversion mit dem Ziel der
 Revision zum finalen Test
Erster Schritt: Exakte Definition des zu messenden Konstrukts
z. B. auf Basis eines psychologischen Modells oder einer psychologischen Theorie.
Zusammenfassung Diagnostik
S e i t e | 33
Wenn (noch) nicht möglich, vorläufige Explikationen oder Arbeitsmodelle, bis
Präzisierung im Verlauf weiterer Forschungen möglich
Erhebungsmerkmale
1. Qualitative Merkmale (mit kategorialen Ausprägungen)  Nominalskalierung
2. Quantitative Merkmale (mit graduellen Abstufungen)  Ordinal- oder
Intervallskalierung
3. Eindimensionale Merkmale (nur ein Konstrukt repräsentierend)
4. Mehrdimensionale Merkmale (mehr als ein Konstrukt repräsentierend)
Fragen zur Ein- oder Mehrdimensionalität eines Konstruktes lassen sich über
exploratorische Faktorenanalysen (EFA) oder andere Korrelationsstatistiken klären
und später ggf. in einzelnen Subtests berücksichtigen.
5. Zeitlich stabile Merkmale (sog. Traits)  Persönlichkeitsmerkmale
6. Zeitlich veränderliche Merkmale (sog. States)  Situationsabhängige Zustände
Geltungsbereich


legt die Anwendungsmöglichkeiten und Einsatzbereiche eines Tests fest
Mit Anwachsen des Geltungsbereichs müssen mehr Informationen erfasst werden,
damit die geforderten Kriterien mit ausreichender Genauigkeit vorhergesagt
werden können
 hat Auswirkungen auf:
o Heterogenität vs. Homogenität von Aufgaben
o Personenkreis bzw. Zielgruppe eines Tests
o Testlänge (Anzahl der Testaufgaben)
o Testdauer (Zeit der Testbearbeitung)
Konstruktionsprinzipien psychometrischer Tests
1. Rationale/deduktive Konstruktion
1. Vorliegen einer Theorie zu einem bestimmten Konstrukt
2. Das Konstrukt wird näher spezifiziert und definiert, je nach Konstrukt werden
verschiedene Subgruppen gebildet
3. Überlegungen dazu, welche Verhaltensweisen als Indikatoren für dieses Konstrukt
geeignet sein könnten (z.B. rechnerische und sprachliche Fähigkeiten für
schulische Leistungsfähigkeit)
4. Für die jeweiligen Subgruppen werden mehrere geeignet erscheinende Aufgaben
in Skalen zusammengefasst, diese bilden die Gesamtheit der Testbatterie
5. An einer größeren Gruppe von Personen muss dann überprüft werden, ob die
zusammengefügten Skalen Sinn ergeben und ob die abgebildeten Unterschiede
über die Zeit hinweg stabil oder reliabel sind und mit anderen Indikatoren für das
infrage stehende Konstrukt korrelieren ( Validierung).
Theorien legen fest, welche Antwortformate sich zur Erfassung des Konstrukts eignen
z.B.: Verhaltensorientierte Persönlichkeitstheorien: Selbst- und Fremdbeschreibungen;
tiefenpsychologische Persönlichkeitstheorien: projektive Verfahren
Vorgehensweise bei rationaler Skalenkonstruktion:
1. Generierung der Items
2. Erhebung einer Validierungsstichprobe
3. Prüfung von Reliabilitätskennwerten (, rsh, rtt)
4. Eliminierung ungeeigneter Items
5. Überprüfung der Validität in Bezug auf externe Kriterien
Beispiele für rationale Skalen: HAWIK, HAWIE
Zusammenfassung Diagnostik
S e i t e | 34
Vorteile:
 Sehr ökonomische Entwicklung
 Leichte Kommunizierbarkeit der individuellen Testwerte, da an alltägliche Sprache
angelehnt
2. Externale/kriteriumsbezogene Konstruktion
Ziel: Diskrimination verschiedener Gruppen von Personen als Teil der sozialen Realität
(z.B. Alkoholiker, Schizophrene,…)  optimale Auswahl und Behandlung
Voraussetzung: Vorliegen verschiedener Gruppen, die sich im Bezug auf das Kriterium
unterscheiden; WICHTIG: Gruppenzugehörigkeit der Personen muss vorher bekannt sein!
1. Den Mitgliedern solcher Gruppen wird eine große Anzahl breit gefächerter Items
vorgelegt (Hypothesen, welche Items differenzieren könnten sind nicht
erforderlich, aber testökonomisch sinnvoll  deduktive Einflüsse)
2. Ausgewählt werden solche Items, die signifikant (und möglichst bedeutsam)
zwischen den Gruppen differenzieren (und die einer Kreuzvalidierung auf Basis
von Diskriminanzfunktionen standhalten)
Diskriminanzanalyse
Anhand der Items, die signifikant zwischen den Gruppen differenzieren, wird eine
Vorhersage- bzw. Diskriminanzfunktion erstellt:
y = i1*g1+ i7*g7+ … + i15*g15
Je besser ein Item i trennt, desto höher ist sein Gewicht g. Items, die nicht
trennen erhalten das Gewicht 0, fallen also aus der Funktion heraus.
Die Diskriminanzfunktion schätzt die Wahrscheinlichkeit, dass ein Proband zu
einer bestimmten Gruppe gehört. Hierzu werden die Antworten des Probanden auf
alle Items in die Diskriminanzfunktion eingesetzt und je nach Gewichtung der
Items wird ein bestimmter Wert berechnet. Je nachdem, ob dieser Wert über oder
unter dem Cut-off liegt, wird Wahrscheinlichkeit der Gruppenzugehörigkeit
bestimmt. Der Cut-off liegt an der Stelle, wo die Wahrscheinlichkeit zu einer der
beiden Gruppen zu gehören genau gleich ist (Schnittpunkt beider Verteilungen).
Diskriminanzanalysen sind nur zur Bestimmung der Gruppenzugehörigkeit bei 2
Gruppen anwendbar; liegen mehr Gruppen vor, muss ein anderes Verfahren (z.B.
Bestimmung multipler Cut-offs) oder mehrere Diskriminanzanalysen durchgeführt
werden.
Außerdem wird die Diskriminanzfunktion für die Kreuzvalidierung verwendet.
Kreuzvalidierung
Überprüfung, ob die gefundene Diskriminanzfunktion unabhängig von der
Konstruktionsstichprobe ist und die Items damit generalisierbar sind.
Vorgehen einfache Kreuzvalidierung:
a) Diskriminanzfunktion wird in Konstruktionsstichprobe bestimmt
b) Diskriminanzfunktion aus Konstruktionsstichprobe wird in
Validierungsstichprobe eingesetzt (WICHTIG: auch hier ist die
Zugehörigkeit der einzelnen Personen vorher bekannt)
c) Vergleich der korrekten Zuordnungen der Personen zwischen
Konstruktions- und Validierungsstichprobe
 Unterscheiden sich die Anzahl der korrekten Zuordnungen zwischen den
beiden Stichproben nicht, so gilt die Diskriminanzfunktion als
stichprobenunabhängig.
Zusammenfassung Diagnostik
S e i t e | 35
Vorgehen doppelte Kreuzvalidierung:
a) Diskriminanzfunktion wird in beiden Stichproben bestimmt
b) Diskriminanzfunktionen werden in die jeweils andere Stichprobe eingesetzt
c) Vergleich der korrekten Zuordnungen in den vier Zuordnungsmatrizen
 Unterscheiden sich die Anzahl der korrekten Zuordnungen der vier Matrizen
nicht, so gilt die Diskriminanzfunktion als stichprobenunabhängig.
3. Die bewährten Items werden schließlich zu Skalen zusammengefasst
Beispiele für external konstruierte Tests: Staffeltest von Binet, Minnesota Multiphasic
Personality Inventory (MMPI)
Bei Tests, die nach der externalen Methode konstruiert werden, kann auf die übliche
Validierung (Korrelation mit ähnlichen Tests etc.) verzichtet werden, da durch die
gefundenen Unterschiede, wenn sie der Kreuzvalidierung standhalten, die Validität in die
Skalenkonstruktion mit einfließt, ohne dass man sich direkt auf inhaltliche Theorien
beziehen muss.
Nachteile:
 Da inhaltlich sehr heterogen, weisen die externalen Skalen eine geringe interne
Konsistenz auf. Daher müssen die Skalen viel länger sein, um die gleiche
Messgenauigkeit oder Reliabilität wie bei induktiven oder rationalen Skalen zu
erreichen.
 Die so entwickelten Skalen differenzieren eigentlich nur in der tatsächlich
untersuchten Gruppe  wenn Aussagen über untersuchte Einzelpersonen gemacht
werden, darf nur von Wahrscheinlichkeiten für Gruppenzugehörigkeiten
gesprochen werden
Vorteil: Schwer zu verfälschen, weil die Vpn die Intention des Tests häufig nicht
durchschauen können.
3. Induktive/faktorenanalytische Konstruktion


es liegen weder eine Theorie noch bestimmte vorfindbare Personengruppen vor
Die Konstruktion erfolgt rein empirisch mittels Korrelationsrechnung
1. Zusammenstellung einer möglichst umfangreichen, repräsentativen Stichprobe
von Items und Personen
2. Durchführung einer explorativen Faktorenanalyse  Items, die hohe Korrelationen
zeigen, werden zu Skalen zusammengefasst
3. Ladungsmuster wird interpretiert und somit zur Benennung der verschiedenen
Faktoren herangezogen
Diese Vorgehensweise wird auch als „blind-analytisch“ bezeichnet, da bei der
Konstruktion keine Rücksicht auf inhaltliche Gesichtspunkte genommen wird.
Beispiele:
 Persönlichkeitsbereich: Freiburger Persönlichkeitsinventar (FPI), NEO-FFI,
 Intelligenzbereich: Intelligenztests nach Thurstone („primary mental abilities“)
Nachteil: Stichprobenabhängigkeit
4. Prototypenansatz


Existenz von kognitiven Kategorien, die bestimmte Prototypen als typische Vertreter
der Klasse haben
Objekte werden nach Ähnlichkeit zu Kategorien gruppiert
Zusammenfassung Diagnostik
S e i t e | 36


Um einen Test zu konstruieren, kann man dies auch mit Eigenschaften und
Verhaltensweisen tun
Vorgehensweisen:
1. Vorlegen von Eigenschaftswörtern, die von Vpn als typisch oder untypisch
für eine bestimmte Dimension eingestuft werden sollen
2. Vorlegen von Verhaltensweisen, die von Vpn als typisch oder untypisch für
eine bestimmte Eigenschaft eingestuft werden sollen
 Überprüfung der von den Testautoren vorgenommenen Zuordnung der
Einzelitems zu den entsprechenden Skalen
3. Vpn werden gebeten prototypische Eigenschaften oder Verhaltensweisen
selbst zu generieren, die dann von anderen Vpn wiederum als typisch oder
untypisch eingestuft werden.
Beispiel: Handlungs-Häufigkeits-Ansatz (Act Frequency Approach):
(1) Probanden sollen an Personen in ihrem Bekanntenkreis denken, die eine
bestimmt Eigenschaft (z.B. Unterwürfigkeit) besonders stark
repräsentieren
(2) Die Probanden sollen konkrete Verhaltensweisen der Personen nennen,
die ihrer Meinung nach indikativ für das Vorhandensein der
entsprechenden Eigenschaft sind (z.B. „Sie erhielt eine unfaire Note und
beschwerte sich nicht darüber“)
(3) Die genannten Verhaltensweisen werden von einer anderen
Probandengruppe hinsichtlich der Prototypizität für die entsprechende
Eigenschaft eingeschätzt
(4) Die Items mit den höchsten Prototypizitätseinschätzungen werden als
Grundlage der weiteren Validierung des Verfahrens verwendet
 Hohe Validität, v. a. in Bereichen, die mit herkömmlichen Instrumenten
schwer zu messen sind, z.B. soziale Intelligenz, Kreativität etc.)
Vorteile:
 Möglichkeit, kurze Skalen zu konstruieren, die nur aus den hochprototypischen
Items bestehen
 es kann überprüft werden, ob die gewählten Items prototypisch für das Konstrukt
der Skala sind
 Höhere Validität für Skalen, die nach dem Prototypenansatz konstruiert wurden
gegenüber anderen Konstruktionsprinzipien
5. Intuitive Konstruktionsstrategien
Items werden aus Annahmen und Erfahrungen des Testkonstrukteurs abgeleitet, da kein
modell- oder theoriegeleitetes Vorgehen möglich ist (z. B. bei neuen Forschungsfragen).
Anwendung der Ansätze
Die Ansätze werden kombiniert, dies ist möglich, weil sie sich gegenseitig nicht
ausschließen.
Häufiges Vorgehen:
1. Itempool nach rationalen Gesichtspunkten anlegen
2. Bereinigung des Itempools nach konsistenz- und faktorenanalytischen
Gesichtspunkten (induktive Methode)
3. Überprüfung an Extremgruppen (externale Methode)
4. Elimination der wenig validen Items
Keine Überlegenheit einer bestimmten Technik gegenüber den anderen (Untersuchung
von Persönlichkeitsfragebögen, Burisch, 1984) . Es hängt vom Einzelfall ab, für welche
Methode man sich entscheidet.
Zusammenfassung Diagnostik
S e i t e | 37
Testarten
Speed- und Powerindex
Die meisten Leistungstests sind Mischformen und haben somit sowohl eine Speed- als
auch eine Powerkomponente, d.h. die Items streuen stark hinsichtlich ihrer Schwierigkeit
und die Bearbeitungszeit ist begrenzt.
Zur Bestimmung des Anteils der Varianz von Testwerten, die auf die Speed-bzw.
Powerkomponente eines Tests zurückgeht können Speed-bzw. Power-Indices berechnet
werden
Speedindex:
Man führt parallele Formen eines Tests unter Speed- und Powerbedingungen mit
ansonsten identischen Bedingungen durch.
Man vergleicht die Korrelationen unter unterschiedlichen Bedingungen (Zähler) mit den
Korrelationen unter identischen Bedingungen (Nenner).
 1
rAsBp  rApBs
rAsBs  rApBp



 = Speedindex
A,B = Parallelformen eines Tests
p,t = Durchführung unter Power- bzw. SpeedBedingungen
alternativ: 1 – Powerkomponente = Speedkomponente
Wenn Veränderung der Durchführungsbedingung keinen Einfluss hat, ergeben sich für
Zähler und Nenner ähnliche Werte  Speedindex geht gegen Null.
Je höher der Einfluss der Veränderung der Durchführungsbedingung gegenüber den
identischen Durchführungsbedingungen, umso höher ist der Speedindex.
Ein s von 0,5 würde bedeuten, dass 50 % der Rohwertevarianz durch die
Speedkomponente erklärt wird.
Problem:
Eine niedrige Korrelation zwischen Speed- und Powerbedingung wird nur auf die
Veränderung der Durchfühhrungsbedingung zurückgeführt. Keine Berücksichtigung
weiterer Variablen wie z.B. der tatsächlichen Veränderung eines psychischen
Merkmals, die das Ergebnis konfundieren.
Powerindex:
um
w
nm




w = Powerindex
u = Anteil der bearbeiteten Aufgaben
m = Anteil richtiger Aufgaben
n = Anzahl der Aufgaben
alternativ: 1 – Speedkomponente = Powerkomponente
Schnelligkeitstests: alle in Angriff genommenen Aufgaben werden gelöst, d. h. u = m
 Powerindex geht gegen Null.
Powertests: alle Aufgaben werden in Angriff genommen, d. h. u = n
 es ergibt sich unabhängig von der Anzahl richtig gelöster Aufgaben immer ein w von 1.
Zusammenfassung Diagnostik
S e i t e | 38
5 verschiedene Testarten:
1. Leistungstests
In Leistungstests wird das maximale Verhalten erfasst, Ergebnisse können nur nach
unten verfälscht werden.
o Geschwindigkeitstests/Speedtests:
 Alle Aufgaben können von jedem Probanden gelöst werden; Differenzierung
über Bearbeitungsdauer
 Testung von Konzentration und Aufmerksamkeit
 z.B. FAKT II, d2
o Niveautests/Powertests:
 Aufgaben sind unterschiedlich schwer und können auch bei unbegrenzter
Bearbeitungszeit nicht von allen Probanden gelöst werden; Differenzierung
über Schwierigkeit der Aufgabe
 Testung von intellektuellem Niveau oder Denkkraft
 z.B. APM
2. Persönlichkeitstests
Persönlichkeitstests erfassen das für den Probanden typische Verhalten in
Abhängigkeit der Ausprägung von Persönlichkeitsmerkmalen. Die Messung erfolgt
hierbei über Selbstauskünfte
 Da es keine „optimale“ Ausprägung von Persönlichkeitsmerkmalen gibt, werden
Antworten nicht im Sinne von „richtig“ oder „falsch“ bewertet
 Bewertung erfolgt danach, ob die Aussagen für eine bestimmte Ausprägung eines
bestimmten Merkmals sprechen oder nicht
 Simulation ist in beiden Richtungen, d.h. zugunsten niedriger als auch hoher
Merkmalsausprägungen möglich
 Merkmalsbereiche sind z.B. aktuelle Zustände, Symptome, Verhaltensweisen,
Motivation, Interessen, Meinungen, Einstellungen
3. Projektive Verfahren
Erfassung qualitativer Aspekte der Gesamtpersönlichkeit
 Den Probanden wird mehrdeutiges Bildmaterial mit der Bitte vorgegeben, dieses
zu beschreiben
 In den Beschreibungen sollen sich unbewusste oder verdrängte
Bewusstseinsinhalte wiederspiegeln, die auf das Bildmaterial projiziert werden
 Aufgrund unzureichender Erfüllung von Testgütekriterien sind projektive Verfahren
in Forschungskontexten als ungeeignet zu bewerten. Im Zusammenhang der
klinischen Exploration und der Bildung interventionsbezogener Hypothesen kann
projektiven Verfahren jedoch eine gewisse Berechtigung zugemessen werden
4. Apparative Verfahren
Aufgaben in apparativen Verfahren bedienen sich bestimmter technischer
Anordnungen zur Erfassung des relevanten Merkmals
 Erfasst werden hierbei vor allem Merkmale, die für andere Testarten nicht
zugänglich sind (z.B. sensorische oder motorische Merkmale)
 Computerbasierte Tests stellen eine Unterklasse der apparativen Verfahren dar.
Vorteile: Verbesserung der Durchführungs-und Auswertungsobjektivität, Reduktion
des Aufwandes der Testdurchführung
Zusammenfassung Diagnostik
S e i t e | 39
Beispiel: Wiener Testsystem z.B. zur Untersuchung verkehrspsychologisch relevanter
Fähigkeiten; hohe interne Konsistenzen, inhaltliche Validität gegeben
5. Objektive Verfahren
Im Zusammenhang objektiver Persönlichkeitstests bedeutet der Objektivitätsbegriff
die Begrenzung der Möglichkeiten subjektiver Verfälschung
 Probandenmerkmale werden nicht durch Selbstauskünfte sondern über das
Verhalten in einer standardisierten Testsituation erschlossen
 Objektive Tests haben keine Augenscheinvalidität, d.h. die Probanden wissen
nicht, welches Konstrukt durch die Testung erhoben werden soll
 Zur Erfassung bieten sich die gleichen Merkmalsbereiche an, wie im
Zusammenhang anderer Persönlichkeitstests
Itemformate
Items setzen sich aus einem Itemstamm (der eigentlichen Frage, Aufgabe oder Aussage)
und einem spezifischen Antwortformat zusammen.
Itemformate
Freies
Antwortformat
Ergänzen
Kurzaufsatz
Gebundenes
Antwortformat
Ordnen
Auswählen
Atypisches
Antwortformat
Beurteilen
Zuordnen
Dichotom
Analogskala
Umordnen
Multiple
Choice
Ratingskala
Freies/ungebundenes Antwortformat


Keine Antwortalternativen, die Antwort wird selbst reproduziert
Die Instruktion gibt Struktur der Antwort vor
Vorteile:
 Raten und zufällig richtiges Antworten kann ausgeschlossen werden.
Nachteile:
 Je länger und komplexer die Antwort, desto höher ist der Aufwand bei
Bearbeitung, Kodierung und Auswertung.
 Evtl. reduzierte Auswertungsobjektivität aufgrund von Mehrdeutigkeit
1. Kurzaufsatzaufgaben, z.B. Rosenzweig Picture Frustration Test
o Erfassung von Kreativität
o Projektive Verfahren
o Vorteile:
 eigenständige Wissensreproduktion, nicht nur Rekognition
Zusammenfassung Diagnostik
S e i t e | 40
Merkmale wie Kreativität, Sprachverständnis oder die Anwendung von
Wissen lassen sich dadurch überprüfen
Nachteil: Hoher Auswertungsaufwand, erschwerte Auswertungsobjektivität
 genauer Auswertungsschlüssel wichtig

o
2. Ergänzungsaufgaben, z.B. Lückentext, Wortstammaufgaben
o Schulpädagogischer Bereich
o Vorteil: Reproduktion von Wissen kann erfasst werden
o Nachteil: eingeschränkte Auswertungsobjektivität wenn durch
Aufgabenkonstruktion verschiedenen Ergänzungen möglich sind
Gebundenes Antwortformat


Mehrere Antwortalternativen sind vorgegeben
Der Proband ist an die Antwortalternativen „gebunden“, indem er eine oder mehrere
daraus wählen muss
Vorteile:
 Ökonomisch und objektiv in der Auswertung: Schablonen, computergestützt mit
Scannern oder im Online-Betrieb mit Touchscreens o. Ä.
 Antworten sind eindeutig
Nachteile:
 Keine Reproduktions- sondern Wiedererkennungsleistung
 Ratewahrscheinlichkeit nimmt zu
 Es muss auf Disjunktheit und Exhausivität der Antworten geachtet werden:
 Disjunktheit: Antwortalternativen dürfen sich nicht überschneiden
 Exhausivität: in den Antwortalternativen sollten alle Antwortmöglichkeiten
enthalten sein, so dass für jeden Beantworter eine zutreffende Antwort dabei
ist  da dies nicht immer der Fall ist, gibt es die Forced Choice: Es soll die
Antwort angekreuzt werden, die am ehesten zutrifft
1. Ordnungsaufgaben,
a. Zuordnung, z.B. von Land zu Hauptstadt
 v.a. zur Wissens- und Kenntnisprüfung geeignet
 Um Ratewahrscheinlichkeit konstant zu halten sollten auch nicht
zutreffende Antworten aufgenommen werden
b. Umordnung, z.B. von Bildern einer Bildergeschichte
 v.a. bei Verwendung von Bildmaterial, das für den Nachweis
schlussfolgernden Denkens oder Lösungen von Ursache und
Wirkungsbeziehungen dient, v.a. im Leistungsbereich
 Vorteil:
o Einsatz vor allem dort sinnvoll, wo Beeinträchtigung der Ergebnisse
durch die Lesefähigkeit ausgeschlossen werden soll.
 Nachteil: Aufwendige Materialentwicklung
2. Auswahlaufgaben: welche Aussage ist richtig/trifft zu?
a. dichotom, z.B. „stimmt“ oder „stimmt nicht“
b. Multiple Choice, z.B. mehrere Antwortalternativen
Beispiele: d2, RPM


Bei Leistungstests kommen Distraktoren zum Einsatz: Antwortalternativen
die richtig aussehen, inhaltlich aber falsch sind
o Je mehr Distraktoren desto geringer Ratewahrscheinlichkeit
Vorteile:
o einfach, ökonomisch und objektiv
Zusammenfassung Diagnostik
S e i t e | 41
Im Leistungsbereich verringert sich die Ratewahrscheinlichkeit bei
den Mehrfachwahlaufgaben
Nachteile
o Dichotome Aufgaben: 50%ige Ratewahrscheinlichkeit  eher
ungeeignet im Leistungsbereich
o Auswahlaufgaben erfassen nur eine Rekognitionsleistung
o

3. Beurteilungsaufgaben (Statements): inwiefern trifft bestimmte Aussage zu?
a. Analogskala: kontinuierliche Skala
b. Diskrete Ratingskala: gestufte Skala, meist vier bis zehn Abstufungen
mit zuvor festgelegter numerischer Gewichtung,
o 7 Skalenstufungen sind optimal
o Bei einer Einzelskala sind 9 2 geeignet  Besser für Mittelung für
Globalwert da mehr Abstufungen
o Bei einer Itembatterie sind es 5 2
o Bei einer geraden Anzahl wird der Rater zu einer Wahl gezwungen
(forciertes Rating)
o Bei ungerader Anzahl von Items gibt es einen Mittelpunkt, der nicht
immer interpretierbar ist  ratsam ist eine Ausweichkategorie „weiß
nicht“ (nicht-forciertes Rating)
o Skalenniveau einer Ratingskala variiert je nach Situation, da
Interaktion des Messinstruments, des zu messenden Merkmals und
des Probanden  Zulässige Aussage: Messinstrument ist in der
Lage bestimmtes Skalenniveau zu erreichen
Reliabilität und Validität von Ratingskalen
Hauptsächlich werden zwei Methoden der Reliabilitätsbestimmung
verwendet:
 Test-Retest-Methode
 Inter-Rater-Methode: beurteilt die Übereinstimmung/Konkordanz
verschiedener Beurteiler
o Typischer Inter-Rater-Reliabilitätskoeffizient liegt bei ca. 0,55
o Validitätskoeffizienten liegen häufig im Intervall 0,00 – 0,50
Meist werden die Skalen bei dem gesamten Test angewendet und zum Schluss zu
einem Score zusammengefasst
Skalen können unipolar oder bipolar sein und numerisch, verbal oder optisch
(horizontal, vertikal, symbolische Marker, mit oder ohne verbalen Anker)
 Verankerung: Definition der Skalenendpunkte sowie der einzelnen
Skalenstufen, d. h. der einzelnen Kategorien
Außerdem können Skalen balanciert oder unbalanciert sein
 Balanciert: gleich viele negative und positive Antworten  besser!
 Unbalanciert: eine der Möglichkeiten überwiegt  genauere Differenzierung
eines vorher angenommen überwiegenden Bereichs (positiv oder negativ)
Vorteil: leichte Handhabung, Ökonomie, allgemeine Akzeptanz
Nachteil: messtheoretisch problematische Zuordnung von Zahlen zu
Skalenpunkten, da Intervallskalierung unterstellt wird, obwohl Abstufungen nur
eine Ordinalskalierung rechtfertigen
Zusammenfassung Diagnostik
S e i t e | 42
Atypisches Antwortformat
Beispiel: Finger Maze
Linien in einer Platte müssen mit dem Finger mit verbundenen Augen nachgefahren
werden. Es soll die Merkfähigkeit erfasst werden, da es verschiedene Sackgassen gibt
und der richtige Weg zum Ziel erinnert werden muss.
Sehr reliabel (rsh zw. .96 und .90)
Itemformulierung




direkt: „sind sie ängstlich?“
 kann zu unterschiedlichen Bedeutungszuweisungen führen
Indirekt: „Fühlen sie sich unsicher, wenn sie vor Menschen sprechen müssen?“
 erleichtern Interpretation des Konstruktes, die Formulierungen sind allerdings
exakt zu wählen
Hypothetische Sachverhalte: „Stellen sie sich vor,…“
 anfälliger für Fehleinschätzungen
Biographiebezogene Sachverhalte: „ Wie haben sie sich verhalten als…?“
 hinsichtlich ihres uneingeschränkten Zutreffens für die Zielgruppe zu validieren

 Abstrakte Inhalte: “Wie schätzen sie es ein,…?“  gewähren Interpretationsfreiräume
 Konkrete Inhalte: “Wie verhalten sie sich,…?“  können von situationalen Faktoren
abhängig sein


Personalisierte Formen: „Verwenden Sie...?“  können als „zu direkt“ und Verletzung
der Privatsphäre aufgefasst werden
Depersonalisierte Formen: „Sollte man…“  Gefahr sozialer Erwünschtheit
Schließlich unterscheiden sich Items nach ihren Stimulusqualitäten (emotionale
Intensitäten)
Verständlichkeit
Items sollten:
1. einfach, klar, direkt, kurz und eindeutig formuliert sein;
2. aus einfachen Sätzen und nicht aus Satzgefügen oder Satzverbindungen
bestehen;
3. keine Wörter wie ‚alle’, ‚immer’, ‚niemand’ oder ‚niemals’ enthalten;
4. keine Wörter enthalten, die den Befragten unverständlich sein könnten (z. B.
Fremdwörter);
5. positiv formuliert sein und keine (doppelten) Verneinungen enthalten;
6. Angaben zur Häufigkeit oder Intensität eines Merkmals oder einer Handlung nur
enthalten, wenn sie eindeutig interpretierbar sind;
7. Angaben zu einem Zeitpunkt oder einer Zeitspanne nur dann enthalten,
wenn diese eindeutig definiert sind
8. aktuell sein
9. keine impliziten Wertorientierungen und keine Suggestivfragen enthalten
10. es sollten keine konstruktfremden Emotionen durch das Item hervorgerufen
werden, die eine Beantwortung erschweren oder behindern
Fehlerquellen bei der Itembearbeitung


Fehler sind dann zu berücksichtigen, wenn sie systematisch sind und somit
konstruktirrelevante Varianz erzeugen
Fehler:
o Soziale Erwünschtheit
o Fremdtäuschung
Zusammenfassung Diagnostik
S e i t e | 43
o
o
Selbsttäuschung: unbewusste Tendenz, sich selbst vorteilhaft darzustellen,
ohne dies als Täuschung von anderen anzusehen ( Ggf. Lügenskalen)
Antworttendenzen:
 Tendenz zur Mitte durch z.B. Unsicherheit  reduzierte Itemvarianz
verzerrt die Daten
 unreflektiertes Beantworten  kann zu Akquieszenz
(Zustimmungstendenz) führen
Vortestversion
Formulierung einer Instruktion: Mittteilung des Forschungszwecks, Motivation zur
Mitarbeit, Anonymität, Hinweise zur Bearbeitung
 Bei Fragebögen: Soziodemographische Daten am Ende
Anordnung des Itempools
 Sortierung nach Schwierigkeit/Komplexität (Leistungstests):
o Aus motivationalen Gründen leichte Items häufig am Anfang, dann
aufsteigende Schwierigkeit
o Ausnahme sind Tests, die aus Gründen der Konzentration schwierige
Testelemente an den Anfang stellen
 Konsistenzeffekt (Persönlichkeitstests): Items sollten durch Anordnung nicht den
Eindruck einer gleichen Merkmalsmessung erwecken, die eine identische Antwort
erwarten lässt  Randomisierung oder Ausbalancierung der Itemreihenfolge, dies
ist nur bei Verwendung identischer Antwortformate möglich
o Ggf. kann Messintention durch die Testbezeichnung verschleiert werden
 Aktualisierungseffekt: Items sollten sich durch ihre Anordnung nicht wechselseitig
erschweren oder erleichtern (z. B. durch ähnliche Formulierungen, die eine
identische Beantwortung nahe legen)
Erprobung des Itempools
 Zusammenstellung des Itempools: mehr Items als für endgültigen Test benötigt.
o Später Itemselektion: ungeeignete Items werden entnommen
o Größe des Itempools: Hängt v.a. von geforderten Repräsentativität der
Items und der gewünschten Reliabilität des Tests ab  eher durch eine
größere Zahl von Items erfüllbar
 Testökonomie: Begrenzung der Itemanzahl, auch wegen Zumutbarkeit
 Anzahl benötigter Items pro Merkmal: Starke Variation in Abhängigkeit von der
Weite des zu erhebenden Merkmals; ungefähre Größen:
o Persönlichkeitstests: 30-60 Items pro Merkmal in Itempool, von denen
später zwischen 15 und 30 Items ausgewählt werden
o Leistungstests: wenn z.B. allgemeine Intelligenz erhoben wird kann Wert
deutlich höher sein
Testevaluation
Hinsichtlich der psychometrischen Aufbereitung der Daten und deskriptiv-statistischen
Evaluation eines Tests werden verschiedene Analyseschritte unterschieden:
 Itemanalyse:
o Analyse der Itemschwierigkeiten
 Bestimmung der Itemvarianzen
o Trennschärfeanalyse der Items
 Reliabilität von Items: Stabilitätsindex
 Selektionskennwert und Itemselektion
o Homogenität
 Testwertermittlung
 Bestimmung der Testwertverteilung
Zusammenfassung Diagnostik
S e i t e | 44
 ggf. Normalisierung
Diese Maßnahmen dienen einerseits der Qualitätsbeurteilung und andererseits der
Einhaltung bestimmter Normen (wie sie von den Gütekriterien gefordert werden).
Hinsichtlich der Datenqualität wird dabei i. d. R. von Intervallskalenniveau ausgegangen
Itemanalyse
Itemschwierigkeit
Def.: Die Schwierigkeit eines Items bezeichnet den relativen Anteil aller Probanden, die
ein Item „richtig“ (d.h. im Sinne höherer Merkmalsausprägung) beantworten
P
NR
 100
N



P = Schwierigkeitsindex für ein best. Item
NR = richtig antwortende Probanden
N = alle Probanden
Hohe Werte in P stehen für eine niedrige Schwierigkeit, niedrige Werte in P für eine hohe
Schwierigkeit eines Items/einer Aufgabe. (P = 100  Item absolut leicht; P = 0  Item
sehr schwer). ABER: In der Probabilistischen Testtheorie werden
Schwierigkeitsparameter definiert, die mit zunehmender Schwierigkeit eines Items größer
werden.
Aus dem Schwierigkeitsindex können nur dann Rückschlüsse auf die Testschwierigkeit
gezogen werden, wenn das Leistungsniveau der Probanden bekannt ist, z.B. wenn die SP
repräsentativ ist.
Anwendung der unkorrigierten Formel nur wenn zufällig richtige Antworten
ausgeschlossen werden können, z.B. bei freiem Antwortformat oder sehr vielen
Antwortalternativen.
Berechnung eines Schwierigkeitsindex bei Leistungstests nur dann sinnvoll, wenn es sich
nicht um Speedtests handelt. D.h. diese Formel der Itemschwierigkeit kann auf
Powertests angewendet werden.
Korrektur der Itemschwierigkeit bei dichotomen Items:
Problem 1: Probanden können durch Zufall (d.h. Raten) die richtige
Antwortalternative wählen. Hieraus folgt eine artifizielle Verringerung der
Itemschwierigkeit  Schwierigkeit wird um die geschätzte Anzahl zufällig richtiger
Antworten korrigiert
N  N F /( m  1)
P R
 100
N
 In die Formel gehen dann zusätzlich
noch falsch antwortende Probanden und
Antwortalternativen mit ein.
Im individuellen Fall kann sich die Ratewahrscheinlichkeit ebenfalls auswirken:
Probanden, die Items lieber gar nicht beantworten, als zu raten, sind
benachteiligt, da weniger zufällig richtige Antworten
 Es gibt eine andere Formel, die Anzahl richtiger Antworten, die durch
richtiges Raten zustande gekommen sind, heraus rechnet.
Problem 2: Probanden, die Items nicht bearbeiten (z.B. durch Zeitbegrenzung bei
Speedtests), können diese auch nicht richtig beantworten. Hieraus folgt eine
artifizielle Erhöhung der Itemschwierigkeit. Es werden lediglich die Probanden
berücksichtigt, die das entsprechende Item auch bearbeitet haben.
Zusammenfassung Diagnostik
S e i t e | 45
P
NR
 100
NB


NR = Anzahl richtig antwortender Probanden
NB = NR + NF + NA
(NF = Anzahl der falsch antwortenden Probanden
NA = Anzahl der Probanden, die Item ausgelassen haben)
haben
 die Probanden, die z. B. durch Zeitbegrenzung das Item
nicht erreicht haben, werden nicht berücksichtigt
Formel mit Ratekorrektur:
(es gehen zusätzlich noch m =
Antwortalternativen mit ein)
P
N R  N F /( m  1)
100
NB
Korrektur der Itemschwierigkeit bei mehrfach gestuften Items oder Ratingskalen:
Beispiel mehrfach gestuftes Item aus dem HAWIK: Im Mosaiktest gibt es, je
nachdem wie lange die VP zur Lösung einer Aufgabe braucht, unterschiedlich viele
Punkte.
Die Summe der angekreuzten Antworten einer SP wird ins Verhältnis zur maximal
möglichen Summe alle Antworten der SP (z.B. 500 bei 5-stufiger Skala und 100
Vpn) gesetzt.
Bipolare Skalen müssen zunächst in den positiven Bereich verschoben werden.





Pm= mehrstufiger Schwierigkeitsindex
ΣXtemp= Summe der Antworten
ΣXtmax= maximale Summe der Antworten
N = Zahl der Probanden
m = Zahl der Abstufungen
Allgemein gilt: Korrekturen wirken sich auf P-Wert umso stärker aus, je höher der zu
beseitigende Zufallseinfluss ist und je höher die Fehlerraten sind.
Durch Korrekturen können negative P resultieren, die nicht interpretierbar sind.
Allerdings weisen sie darauf hin, dass eine Aufgabe sehr leicht scheint, aber sehr
schwer ist und somit die Wahrscheinlichkeit für Fehler sehr hoch ist.
Itemschwierigkeit bei Persönlichkeitstests




Items werden in symptomatisch und unsymptomatisch eingeteilt und nicht in richtig
oder falsch.
Bei 2 Antwortkategorien kann wie bei den Powertests verfahren werden.
Bei mehr als zwei Antwortkategorien kann eine Dichotomisierung vorgenommen
werden. Dabei werden die Werte in 2 Kategorien (hoch und niedrig) anhand eines
Grenzwertes aufgeteilt.
Ist Informationsverlust nicht akzeptabel verfährt man ebenfalls wie bei den
Powertests  Verwendung der Formel für mehrfach gestufte Items (siehe oben)
Bedeutung der Itemstreuung
Definition Itemvarianz: „Die Itemvarianz legt die Differenzierungsfähigkeit eines Items
hinsichtlich der untersuchten Stichprobe fest. Im Falle eines zweistufigen Items ermittelt
sich die Itemvarianz aus dem Produkt der Wahrscheinlichkeiten, das Item zu lösen und
das Item nicht zu lösen.“
Zusammenfassung Diagnostik
S e i t e | 46





Gleiche Werte für P sind bei höchst unterschiedlicher Streuung auf den
Beantwortungsskalen möglich
Größere Streuungen sind ein Hinweis auf eine stärkere Diskriminanzkraft eines
Items, da es die bestehenden interindividuellen Unterschiede besser abbildet.
Mittlere Werte für P (um 50) bedeuten größtmögliche Streuung der
Itembeantwortungen und damit eine hohe Differenzierung zwischen den Probanden
Da ausreichende Merkmalsstreuungen Voraussetzung für die Bildung von
Korrelationen sind, begünstigen mittlere P Homogenität und Trennschärfe
Innerhalb einer Skala versucht man, Items mit
unterschiedlichen Streuungen von P (zw. 5 und 95) zu
wählen um auch eine Differenzierung zwischen den
Probanden in den randständigen Bereichen zu
gewährleisten
Nachteil: Einbußen bei Homogenität und Trennschärfe,
da extreme P (5-10 oder 90-95) zu geringeren
Korrelationen führen. Bei einem P von 0 oder 100
verschwindet die Streuung komplett  Berechnung von
Trennschärfe und Homogenität nicht möglich.
Homogenität und Trennschärfe werden als Itemgütekriterien betrachtet.
Trennschärfe (rit)
Def.: Die Trennschärfe eines Items bezeichnet üblicherweise die Korrelation zwischen der
Antwort auf ein Item und dem Summenwert einer Skala, zu der das betreffende Item
gehört. Sie ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der
Probanden in Löser und Nichtlöser durch das Item mit demjenigen durch die Skala als
Ganzes übereinstimmt.
Die Trennschärfe kann Werte zwischen -1 und 1 annehmen.


Konvergente Trennschärfe: Items sollen mit dem Summenwert der gleichen
Skala möglichst hoch korrelieren.
Diskriminante Trennschärfe: Items sollen mit Summenwerten anderer Skalen
möglichst gering korrelieren.
 Mit Hilfe der Faktorenanalyse lassen sich beide Kriterien erreichen
 sind konvergente und/oder diskriminante Trennschärfe nicht gegeben, sollte
die Zuordnung des Items zur Skala überprüft werden, z.B. faktorenanalytisch
Bei der Berechnung der konvergenten und diskriminanten Trennschärfe wird die
Korrelation zwischen den Antworten auf ein Item und den Summenwerten der Skala
ermittelt. Je nachdem welches Skalenniveau die jeweiligen Werte haben, kommen
unterschiedliche Korrelationskoeffizienten zum Einsatz:

Summenwerte von Skalen sind in der
Regel intervallskaliert

Kontinuierliche Skalen mit z.B. 5 oder
7 Abstufungen sind intervallskaliert
Zusammenfassung Diagnostik
S e i t e | 47
Problem: Da die Werte des Items auch in die Skalensumme eingehen, sind die
miteinander korrelierten Messwertreihen nicht unabhängig und die Korrelation wird
überschätzt.
Lösung: Part-whole-Korrektur
Das jeweilige Item wird nicht in den Summenwert eingerechnet. Da der Summenwert in
diesem Fall nicht durch das Item konfundiert ist, kann diese Korrelation sinnvoller
interpretiert werden.
Generell ist die unkorrigierte Trennschärfe eines Items höher als die part-wholekorrigierte Trennschärfe. Dies ist darauf zurückzuführen, dass der Summenwert in
letzterem Fall nicht durch den Einfluss des Items konfundiert ist.
Die Part-Whole-Korrektur hat vor allem dann einen starken Effekt
 wenn die Skala aus wenigen Items besteht (Beitrag jedes einzelnen Items größer)
oder
 wenn die Skala relativ geringe Trennschärfen aufweist (d.h. inhomogen ist), da es
dann stark auf den Beitrag dieses Items und seine Konfundierung mit der Skala
ankommt.
Hohe Interkorrelationen zwischen den Items einer Skala und somit hohe Homogenitäten
 hohe Trennschärfen möglich
Problem: Es werden exakt gleiche P für die Items vorausgesetzt; Variation der P führt zu
Reduktion der Interkorrelationen (wenn ein Item häufiger gelöst wird als ein anderes,
sind extrem hohe Interkorrelationen nicht möglich)  Reduktion der Homogenität
Interpretation der Trennschärfewerte
Werte zwischen 0,4–0,7 deuten auf «gute» Trennschärfe hin.
 hoher Wert: die einzelnen Items messen homogen gegenüber dem Gesamttest,
Probanden mit hoher Merkmalsausprägung lösen Item, Probanden mit niedriger
Merkmalsausprägung lösen es nicht
 kleiner Wert: mangelnde Differenzierung durch Item in Zusammenhang mit
Differenzierung des Gesamttests, Item für Unterscheidung von Probanden mit
unterschiedlicher Merkmalsausprägung ungeeignet
 Negative Werte: häufig Anzeichen fehlerhafter Itemformulierungen oder invertierter
Itemskalen mit geänderter Kodierungsrichtung, Probanden mit niedriger
Merkmalsausprägung lösen Item, Probanden mit hoher Merkmalsausprägung lösen
Item nicht
Reliabilität von Items: Stabilitätsindex
SI  rit  si



SI = Stabilitätsindex
rit = Trennschärfe
si = Standardabweichung der Aufgabe
Der Stabilitätsindex erreicht ein Maximum, wenn Trennschärfe und Aufgabenstreuung
maximal sind (Trennschärfe = 1, Standardabweichung = 0,5  SI = 0,5).
Um den Stabilitätsindex in Analogie zu einem Korrelationskoeffizienten zu setzen, muss
man diesen mit 2 multiplizieren.
P-Werte um 50 sind zwar für die Differenzierung ideal, tragen aber nichts zur Stabilität
des Items und somit zur Stabilität der Skala bei, wenn das Item nicht gleichzeitig
trennscharf ist.
Umgekehrt leistet ein Item mit hoher Trennschärfe aber extremer Schwierigkeit
ebenfalls einen geringen Beitrag zur Gesamtstabilität des Tests, weil der Zugewinn an
Differenzierung nur minimal ist.
Zusammenfassung Diagnostik
S e i t e | 48
Selektionskennwert und Itemselektion
Der Selektionskennwert dient als Orientierungshilfe bei der Selektion ungeeigneter
Aufgaben bei homogenen Niveautests.
S el 
rit
2  si



Sel = Selektionskennwert
rit = Trennschärfe
si = Standardabweichung der Aufgabe
Unter Berücksichtigung der Trennschärfe und der Aufgabenstreuung, werden Items
ausgewählt, die möglichst trennscharf sind und deren Schwierigkeitsgrade möglichst weit
streuen.
 Items mit niedriger Trennschärfe werden nicht ausgewählt, auch wenn die
Schwierigkeit optimal ist
 Items mit hoher Trennschärfe werden behalten, auch wenn sie extrem schwierig
oder leicht sind


Trennschärfe im Zähler des Quotienten: Sel steigt mit ansteigender Trennschärfe
 bei Konstanz des Schwierigkeitsgrades werden eher trennscharfe Items
ausgewählt.
Schwierigkeit beeinflusst die Aufgabenstreuung und fließt somit in den Nenner ein
 extreme Schwierigkeiten (hoch oder niedrig) führen zu hohen Werten von S el
 diese Items werden eher ausgewählt als solche mit mittleren Schwierigkeiten
 Items, die einen geringen Sel haben, werden ausgeschieden, ohne dass zu viele
Items mit extremer Schwierigkeit wegfallen.
 In der Praxis wird nicht immer strikt nach den Regeln des Selektionswertes
entschieden, denn die Auswahl der Items hängt auch mit der Intention der
Testkonstruktion zusammen.
Homogenität


Bestimmt das Ausmaß von formaler und inhaltlicher Einheitlichkeit mehrerer Items,
z.B. einer Skala  Erfassung umschriebener Merkmalsaspekte, z.B. Konzentration
(d2).
Im Gegensatz hierzu steht die Heterogenität, die für formative und inhaltliche
Vielseitigkeit der Items steht  Erfassung globaler Dimensionen wie z.B. Allgemeine
Intelligenz, Persönlichkeit etc. (HAWIK, FPI)
Homogene Skalen resultieren aus induktiver und deduktiver Methode, v.a. bei
Anwendung faktorenanalytischer Vorgehensweise.
Heterogene Skalen resultieren eher aus der externalen Methode.
Quantitative Erfassung über korrelative Übereinstimmung eines Items mit den anderen
Items einer Skala.
Andere Homogenitäts-Konzepte


Guttman: Skalen sind dann homogen, wenn Vpn, die ein Item bestimmter
Schwierigkeit lösen auch alle Items geringerer Schwierigkeit lösen können
 Reproduzierbarkeitskoeffizient muss mindestens 0,9 betragen, d.h. 90% der
Gruppe müssen die Bedingungen der Homogenität nach Guttman erfüllen
 Kriterien nach Guttman kaum erfüllbar; gibt nur wenige Skalen
Schätzformel nach Loevinger: geht von gleichen Voraussetzungen wie Guttman aus
o Ausnahmen für die Regel sind dann möglich, wenn die Vpn Fehler machen
oder der Test heterogen ist
Zusammenfassung Diagnostik
S e i t e | 49
o
Grundlage für seine Schätzung ist die Annahme, dass homogene Tests höhere
Varianzen aufweisen als heterogene: Bei Addition der Varianzkomponenten
kommen bei den homogenen Tests höhere Kovarianzterme hinzu, weil hier die
Interkorrelationen zwischen den einzelnen Items höher sind als bei
heterogenen Tests
Testwertermittlung
Leistungstests:
 Die Anzahl der richtigen Antworten wird mit der Anzahl der falschen Antworten
verrechnet
 Zusätzlich lassen sich einzelne Aufgaben i mit einem Gewicht g i versehen, wenn diese
von unterschiedlicher Bedeutung sind
 Da Auswahlaufgaben auch durch Zufall gelöst werden können, kann ein Testwert um
richtig geratene Aufgaben korrigiert werden (Rate-, Zufallskorrektur):
o Benachteiligung derer, die lieber keine Antwort geben als zu raten soll
ausgeschlossen werden
o Korrektur findet unter folgender Annahme statt: Falsche Antworten kommen
nicht durch einen falschen Lösungsansatz zustande, sondern durch Raten, und
wenn der Proband rät, so entscheidet er sich nach Zufall
o Die Anzahl mG der geratenen Antworten G setzt sich somit zusammen aus der
Anzahl mRG der richtig geratenen Antworten RG und der Anzahl mFG der falsch
geratenen Antworten FG:
o
o
Als Wahrscheinlichkeiten, dass richtig oder falsch geraten wurde ergeben sich
dann:
und
k = Antwortalternativen
Man setzt die Wahrscheinlichkeit falsch zu raten mit der Wahrscheinlichkeit
richtig zu raten ins Verhältnis. Da alle FG-Antworten lt. Annahme F-Antworten
sind gilt:
o
Durch Einsetzen der oberen Gleichungen und Umformulierungen erhält man
die Anzahl der richtig geratenen Antworten:
o
Um den zufallskorrigierten Testwert eines Probanden v zu erhalten, ist vom
ursprünglichen Testwert xv die Anzahl der durch Zufall richtig gelösten
Antworten abzuziehen  Rate- bzw. Korrekturformel:
o
Bei Richtig-Falsch-Aufgaben vereinfacht sich die Zufallskorrektur auf:
denn bei k = 2 Alternativen werden so viele Aufgaben
richtig geraten wie Aufgaben falsch geraten werden, so dass
Persönlichkeitstests:
 Die Testwertermittlung erfolgt hier durch Summenbildung über die Itemantworten
 Dabei wird erwartet:
Zusammenfassung Diagnostik
S e i t e | 50
o
o
o
Die Kategorien der Ratingskala sind intervallskaliert.
Das Item ist k-fach gestuft.
Jeder Itemantwort kann ein Wert zwischen 0 (geringste Merkmalsausprägung)
und k–1 (stärkste Ausprägung) zugeordnet werden
Testwertverteilung: Maße und Abweichungen


Typische Maße zur Testwertverteilung sind:
o Lagemaße: Mittelwert, Median, Modalwert, Perzentilgrenzen
o Dispersionsmaße: Varianz, Standardabweichung, Standardfehler, Spannweite
o Verteilungsmaße: Schiefe, Exzess (Kurtosis)
Für Abweichungen von der Normalverteilung gibt es verschieden Ursachen:
o Schiefe Verteilungen: durch zu leichte (linksschief/rechtssteil) oder zu schwere
(rechtsschief/linkssteil) Tests, welche die Differenzierungsfähigkeit des Tests im
Bereich der unterrepräsentierten Items einschränkt
 Gründe: genereller Konstruktionsmangel des Tests oder Fehlanwendung
hinsichtlich der Zielgruppe
o Multiple Verteilungen: wenn sich Gesamtstichprobe aus heterogenen
Unterstichproben zusammensetzt, die zu einer nicht normalen Mischverteilung
führen  kann bei der Testeichung durch differenzierte Testnormen pro
Untergruppe berücksichtigt werden
o Beliebige Verteilungen: wenn Merkmal in der Bevölkerung nicht normalverteilt ist
Normalisierung


Ist die Annahme eines normalverteilten Merkmals gerechtfertigt und nur die
Testwertverteilung in der Stichprobe nicht normalverteilt (z.B. weil Test zu leicht war)
kann durch eine nicht-lineare Transformation der Testwerte eine normalverteilte
Testwertverteilung erreicht werden = Normalisierung!
Normalisierung kann vorgenommen werden durch:
o Logarithmierung der Testwerte: jeder Testwert wird durch seinen natürlichen
Logarithmus ersetzt: x‘v = ln xv
 Ausreißer werden näher an den Rest der Verteilung gebracht
 nur bei rechtsschiefer Verteilung anwendbar
o Flächentransformation:
 Im Histogramm der Testwertverteilung werden die einzelnen Säulen bzgl.
Höhe und Breite der Normalverteilung angepasst
 Die Fläche der Säulen bleibt unverändert
Zusammenfassung Diagnostik
S e i t e | 51
Gütekriterien




Instrumente der Qualitätsbeurteilung und Wissenschaftlichkeit
dienen der Einschätzung der Eignung eines Tests
keine festen Kriterien, die ein Test erfüllen muss
Nebengütekriterien sind nicht verbindlich festgelegt
Testfairness,
Unverfälschbarkeit
Zumutbarkeit
Hauptgütekriterien
Objektivität
Def.: Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig
vom Testleiter, Testauswerter und von der Ergebnisinterpretation misst.
Durchführungsobjektivität
Def.: Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des
Untersuchungsleiters durch die Vorschriften der Testinstruktion und aller übrigen
Durchführungsbedingungen gesichert ist.

maximale Standardisierung der Testsituation!
o Instruktion
o Zeitbegrenzung
o Hilfestellung bei der Beantwortung der Fragen
 da sonst Versuchsleitereffekte oder Situationseinflüsse zu Variation
des Verhaltens der Versuchsperson führen können
 die wahre Leistungsfähigkeit des Probanden könnte über- oder
unterschätzt werde
 quantitative Bestimmung so gut wie unmöglich, darf als hoch angesehen werden,
wenn alle Bedingungen festgelegt sind, die sich plausiblerweise auf das
Testverhalten auswirken können
Auswertungsobjektivität
Def.: Das Ausmaß, in dem die Auswertung des Tests unabhängig von personenbedingten
oder apparativen Störquellen ist  Jeder Auswerter muss die gleichen Punkt- oder
Leistungswerte eines Probanden ermitteln
Zusammenfassung Diagnostik
S e i t e | 52
Wird durch eindeutige Quantifizierung des Verhaltens erreicht (genaue
Auswertungsvorschriften)
 hoch: Lösungsschlüssel (Schablonen, Auswertungsblätter…); es kann aber auch
hier zu Fehlern kommen, indem z.B. beim d2 etwas übersehen wird
 niedrig: ungebundene Antwortformate (projektive Verfahren, z.B. Rorschach)
Quantitative Bestimmung: Testprotokolle einer Stichprobe müssen mindestens 2
verschiedenen Auswertern vorgelegt werden, die unabhängig voneinander jeweils
Punktwerte ermitteln  Korrelation über die Protokolle gibt Ausmaß der
Übereinstimmung an.
Sie kann auch anhand einer Formel varianzanalytisch bestimmt werden.
s A2
r 2
sx
Es wird eine Intraklassenkorrelation gebildet, indem der Anteil der Varianz
zwischen den Testprotokollen durch die Gesamtvarianz geteilt wird.
 berücksichtigt unterschiedliche Strenge der Bewertungsmaßstäbe
Interpretationsobjektivität
Def.: Das Ausmaß, in dem aus gleichen Scores verschiedener Probanden identische
Schlüsse gezogen werden (von einem oder von mehreren Auswertern)


ausreichend große Normstichprobe als Vergleichsgruppe
standardisierte Interpretationsmöglichkeiten: z.B. Ablesen einer Merkmalsausprägung
in Normtabelle  Prozentrang der VP
Bei projektiven Tests nicht gegeben
 Versuchsperson kann Material frei interpretieren
 Auswerter kann Ergebnisse frei interpretieren, daher erfahrungsabhängig
Reliabilität
Def.: Die Reliabilität beschreibt den Grad der Genauigkeit, mit der ein Test ein
bestimmtes Merkmal misst, unabhängig davon, ob er dieses Merkmal auch zu messen
beansprucht.
Reliabilität = Zuverlässigkeit/Präzision einer Messung
Anteil der wahren Varianz an der Gesamtvarianz
Die Reliabilität möchte bestimmen, ob einzelne Probanden (immer die gleiche
Probandengruppe!) in zwei Testungen die gleichen Werte aufweisen
 Bestimmung mittels korrelativer Techniken
Zusammenfassung Diagnostik
S e i t e | 53
Retest-Reliabilität/Stabilität
Def.: Korrelation zwischen den Testleistungen in einem Test zu zwei Zeitpunkten oder
zwei Tests zu zwei Zeitpunkten
Dabei wird unterstellt, dass das zu messende Merkmal konstant (also konstante wahre
Werte und konstante Fehlervarianzen produziert) und auch das gewählte Zeitintervall
zwischen den Testungen ohne Einfluss auf die Messung ist.
Koeffizient: rtt
I.d.R. gilt: Je länger das Retestintervall, desto geringer rtt
 Angaben in Testmanualen kritisch hinterfragen!
Vorteil:
gut geeignet bei Speed-Tests und Persönlichkeitstests
Nachteil:
Länge des Retest-Intervalls? Wahl in Abhängigkeit zur Stabilität des Merkmals
 zu kurz: Erinnerungseffekte, Übungseffekte (v.a. bei Leistungstests)
 zu lang: reale Schwankungen des Merkmals möglich, z.B.
o Lebensereignisse
o Depressionsmaße vor und nach einer Therapie
 führt zu Unterschätzung der Retest-Reliabiltät
Auch eine hohe Retest-Reliabilität erlaubt Veränderungen!
1. keine Veränderung des Koeffizienten bei gleichmäßigen Niveauverschiebungen, da
die Niveau- bzw. Mittelwertsverschiebung für die Bildung der Korrelation irrelevant
ist  systematische Veränderungen wie z.B.: Alle Probanden zeigen in einem
Leistungstest einen systematischen Trainingseffekt von der ersten zur zweiten
Messung
2. geringe Veränderungen (auch in der Rangreihe) können dennoch zu einer hohen
rtt führen, wenn die Gesamtstabilität erhalten bleibt
große Veränderungen in der Rangreihe führen zu geringem r tt  unsystematische
Veränderung z.B.: Einige Probanden zeigen einen Übungseffekt, andere
zeigen diesen nicht
 ACHTUNG: Ein geringes rtt bedeutet nicht, dass das Messinstrument
änderungssensitiv ist; dies wird in Testmanualen manchmal fälschlicherweise
behauptet!
zu 1.
zu 2.
zu 3.
Zusammenfassung Diagnostik
S e i t e | 54
Paralleltestreliabilität
Korrelation zwischen zwei Tests (mit gleichen wahren Werten und gleicher
Fehlervarianz), die dieselbe Eigenschaft oder Fähigkeit mittels verschiedener Items
(Itemzwillinge) erfassen
Koeffizient: rtt‘
rtt` ist hoch, wenn die Ergebnisse der beiden parallelen Testformen hoch korrelieren
Umgeht das Problem möglicher Veränderungen zwischen Test und Retest, schließt
Erinnerungs- und Übungseffekte aus
 Man wählt am besten ein kurzes Zeitintervall (einige Stunden bis einige Tage)
 Die Hälfte der Probanden bearbeitet zuerst Form A und dann Form B, die
andere Hälfte umgekehrt
Probleme:
 Herstellung paralleler Testformen aufwändig und schwierig, v.a. wenn es sich um
die Erfassung sehr eng begrenzter Eigenschaften handelt. Aufwand je nach
Merkmal verschieden:
o Leistungstests: viele gleichartige Items mit kleineren Abwandlungen
o Persönlichkeitstests: sehr großer Itempool notwendig, um geeignete Items
zu finden
 Der Wert des Paralleltestkoeffizienten liegt häufig unter dem des
Retestkoeffizienten ABER: Paralleltest besonders praxisgerecht, da großes
Spektrum von Items



Prüfung der Parallelität mit den Mitteln der KTT eigentlich nicht möglich, nur
deskriptive Beurteilung (Vergleich der Mittelwerte, Varianzen und Korrelation der
beiden Testformen) möglich, wenn bereits andere Reliabilitätsschätzungen
vorliegen
o Streng genommen, muss die Paralleltest-Reliabilität ebenso hoch sein, wie
die Reliabilität der einzelnen Testformen
o konfirmatorische Faktorenanalyse überprüft Parallelität direkter und kann
auch rtt‘ bestimmen.
man nimmt beide Testformen als Messung einer gemeinsamen dahinter
liegenden latenten Variable an
 man kann so prüfen, ob sich Annahme eines Modells paralleler
Messungen (gleiche Ladungen auf der latenten Variable und gleiche
Fehlervarianzen) mit empirischen Daten vereinbar ist
 bei Modellfit (Modell stimmt mit Daten überein), können die
Testformen als parallel angenommen werden
Bereits geringfügige Abweichungen in der Parallelform können zur Verringerung
der rtt` führen z.B. in der Itemformulierung
Entscheidend ist ferner der zeitliche Abstand für die Vorgabe der Parallelformen:
o hinreichend unterschiedlichen Iteminhalte: Abstand kurz
o Unterliegen Merkmale interindividuell unterschiedlichen situativen
Einflüssen: Intervall länger
 unsystematische Veränderungen in den wahren Merkmalsausprägungen
wahrscheinlicher
o Sind Übertragungseffekte nicht auszuschließen: Ausbalancieren der
Reihenfolge der Präsentation der Parallelformen
Zusammenfassung Diagnostik
S e i t e | 55
Innere/Interne Konsistenz
Die innere Konsistenz beschreibt den Zusammenhang zwischen Testteilen bzw. den
Items eines Tests.
Split-Half-Reliabilität
Def.: Korrelation zweier möglichst gleicher Testhälften. Grundlegende Idee ist es, Teile
eines Tests als parallele Testversionen aufzufassen. Als Korrekturfaktor wird die
Testlänge berücksichtigt
Verfahren ermöglicht also die Berechnung der Reliabilität auf Basis von Testungen zu
einem Zeitpunkt mit einer Testform.
 mehrere Methoden der Testhalbierung:






Teilung des Tests in der Mitte
 problematisch, da bei Tests mit aufsteigendem Schwierigkeitsgrad (Z.B.
IQ-Tests) zwei Hälften resultieren, die nicht vergleichbar sind, da in der
ersten Hälfte die meisten Items gelöst werden, in der zweiten Hälfte aber
kaum Items gelöst werden
„odd-even“-Methode: Teilung nach geraden („even“) und ungeraden („odd“)
Items  anwendbar bei Leistungstests mit ansteigender Schwierigkeit
Zufallsaufteilung: zufällige Zuordnung der Items zu zwei Testhälften
Parallelisierung: Aufteilung nach Trennschärfe und Schwierigkeit; beide Hälften
sollen gleich schwierig und trennscharf sein. Diese werden dann per Zufall den
Halbtests zugeordnet (Methode der Itemzwillinge)
bei Speedtests: Halbierung nach der Testzeit, da sonst starke Überschätzung der
Reliabilität (Zeitpartitionierungsmethode  z.B. gleichartige Items bei
Konzentrationstest)
Da kürzere Tests i.d.R. weniger reliabel sind werden die Teile mit der SpearmanBrown-Formel auf die ursprüngliche Länge aufgewertet, da ja die Reliabilität des
gesamten Tests von Interesse ist
Vorteil: Schwankungen von Motivation, Stimmung, Aufmerksamkeit hat keinen Einfluss
Probleme:
 Reliabilität wird bei heterogenen Tests unterschätzt
 Testhälften können durch unterschiedliche Methoden gebildet werden, was (v.a.
bei kleinen Stichproben) zu Unterschieden zwischen den Koeffizienten führt
Einen Ausweg aus dieser Problematik bietet die Konsistenzanalyse unter Berechnung
von Cronbachs Alpha ().
Cronbachs 
Cronbachs : mittlere Reliabilität, die sich bei der Bildung aller möglichen
Testhalbierungen ergibt
 Jedes einzelne Item wird als eigenständiger Testteil betrachtet
 die Reliabilität stellt den mittleren Zusammenhang unter Berücksichtigung der
Testlänge dar
 Berechnung der von Cronbachs  als Verallgemeinerung der Halbierungsmethode
 Eine Testskala wird nicht in zwei Hälften, sondern in so viele Teile wie Items
vorhanden sind, geteilt
 umgeht die Problematik der willkürlichen Bildung von Testhälften
Zusammenfassung Diagnostik
S e i t e | 56



Innere Konsistenz entspricht der Homogenität einer Skala bzw. eines Tests,
unabhängig davon, was gemessen wird  hohes  bedeutet nicht, dass der Test
gut ist!
kann Werte zwischen 0 und 1 annehmen
o 0= perfekte Unabhängigkeit der Items; keine Itemkovarianzen
o 1= perfekte Abhängigkeit der Items (irreal, da immer Messfehler!)
o ab 0,7 hinreichend, ab 0,9 gut
wird höher, je länger der Test ist



r = Zahl paralleler Messungen
Si² = Stichprobenvarianz des i-ten
Paralleltests, berechnet an der SP von N
VP mit N-1 im Nenner
Sij = Kovarianz zwischen i und j
Cronbachs  setzt voraus, dass alle Items die gleiche Schwierigkeit (und somit die
gleichen wahren Werte und Fehlervarianzen) aufweisen. Diese Voraussetzung ist in der
Praxis häufig nicht gegeben. Stattdessen wendet man das Konzept (essentiell) τäquivalenter Testteile an. Tau-äquivalente Messungen stellen abgeschwächte
Forderungen bezüglich der Äquivalenz der Messungen:
 τ-Äquivalenz: gleiche wahre Werte (der Testteile/Items), aber
verschiedene Fehlervarianzen
 Essentielle τ-Äquivalenz: wahre Werte (der Testteile/Items) um eine additive
Konstante verschoben und verschiedene Fehlervarianzen
Um die Reliabilität durch Cronbachs  schätzen zu können, muss mindestens τÄquivalenz vorliegen  der gleiche wahre Wert muss gemessen werden!
Die interne Konsistenz kann auch varianzanalytisch bestimmt werden.



Annahme: bei vollständiger Konsistenz eines Tests bzw. seiner Beantwortung
durch Probanden müsste für jede Person pro Item dieselbe Antwort auftreten
Wenn dies nicht der Fall ist, es also Varianz innerhalb eines einzelnen Probanden
gibt, dann wird die interne Konsistenz geringer
Voraussetzung für die Anwendung des varianzanalytischen Verfahrens ist, dass
die Itembeantwortung auf kontinuierlich-quantitativ abgestuften Skalen erfolgt
Probleme Cronbachs :
 Nur wenn alle Items die gleichen Merkmale messen, ist die Reliabilitätschätzung
durch Cronbachs  korrekt
 Cronbachs  macht keine Aussage über Retest-Reliabilität und prädiktive Validität
 trotz geringer Konsistenz kann eine hohe Retest-Reliabilität und hohe prädiktive
Validität erreichet werden, wenn es sich um ein inhaltlich zwar heterogenes, aber
zeitlich stabiles Merkmal handelt
 Cronbachs  ist kein Beleg für die Eindimensionalität (ein gemeinsames Merkmal)
eines Tests oder einer Skala, da es auch im Falle eines mehrdimensionalen
Merkmals hoch sein kann
 Die Höhe von Cronbachs  ist von der Anzahl der Items abhängig, auch wenn der
Test mehrere, unabhängige Dimensionen erfasst
 Invers formulierte Items (eingesetzt, um Antworttendenzen vorzubeugen) können
die Reliabilität artifiziell über- oder unterschätzen, da sie unabhängig vom
Iteminhalt einen eigenen Faktor bilden können. Die daraus resultierende,
methodischbedingte systematische Varianz widerspricht der essentiellen τBedingung.
 Ein negatives Cronbachs  kann resultieren, wenn einzelne Items (z. B. inverse
Items ohne Umkodierung) negativ mit den übrigen Items korrelieren (negative
Zusammenfassung Diagnostik
S e i t e | 57
Kovarianzen führen dann zu einer größeren Summe der Varianz der m Items
gegenüber der Gesamtvarianz). Ein negatives Cronbachs  ist nicht sinnvoll zu
interpretieren.
Vorteile Cronbachs :
 nur eine Messung nötig (weniger Aufwand, kein Problem mit
Erinnerungseinflüssen)
 es müssen keine Parallelformen eines Tests konstruiert werden
 das erfasste Merkmal muss zeitlich nicht stabil sein
Beurteilungsdimensionen der Reliabilität
1. Merkmalsabhängigkeit:
 Bei Leistungstests der globalen Intelligenzmaße  Reliabilitäten von 0,90 –
0,95 erreicht (z. B. Skala „Schlussfolgerndes Denken“ beim IST 2000-R)
 Bei Persönlichkeitstests z.T. nur Werte von 0,70 (z. B. Skalen „Verträglichkeit“
oder „Offenheit für Erfahrungen“ beim NEO-FFI).
2. Art der Diagnostik:
 Individualdiagnostik: hohe Reliabilitäten unverzichtbar, um Fehldiagnosen und
ineffektive Interventionsempfehlungen zu vermeiden.
 Kollektivdiagnostik: höhere Fehlervarianzen führen zwar zu größeren
Alphafehlern, dennoch lassen sich Gruppenmittelwerte dann immer noch
korrekt schätzen
3. Einsatzbedingungen: Einsatz aufwändiger Testbatterien häufig aus verschiedenen
Gründen nicht möglich (z. B. Belastbarkeit von Patienten, entstehende Ausfallzeiten
am Arbeitsplatz). Ggf. können nur sog. Screening-Verfahren zum Einsatz kommen (z.
B. zur groben Charakterisierung einer Symptomatik).
 Abhilfe durch adaptives Testen
4. Kosten-Nutzen-Relation: Reliabilitätszugewinn durch aufwändigeres Messverfahren ist
hinsichtlich seiner zusätzlichen Kosten abzuwägen.
5. Ausmaß an Fehlerquellen: Einschätzung der Reliabilität ist auch von
Durchführungsbedingungen (z. B. den Testleiter) und Art der Auswertung und
Ergebnisinterpretation (Objektivität) abhängig, die zu einem vergrößerten Messfehler
führen können.
6. Passung von Merkmal und Reliabilitätsschätzung:
 Tests mit heterogenen Items: durch eine Konsistenzanalyse eher unterschätzt;
daher Retest-Reliabilität (geht aber nur bei zeitlicher Stabilität des Merkmals)
 Bei zeitlich instabilen Merkmalen kann Retest-Reliabilität zu einer Unterschätzung
führen; daher Konsistenzanalyse
Einschränkungen der Reliabilität
1. Selektivität und Varianzeinschränkung: Bei allen Methoden der Reliabilitätsschätzung
ist problematisch, dass die Testwerte eine hohe Abhängigkeit von der
Grundgesamtheit zeigen, aus der eine Testperson stammt.
 Beispiel: Gegenüberstellung eines Reliabilitätskoeffizienten, von
Grundgesamtheit von Schulkindern aller Schulformen einer bestimmten
Altersklasse, wird voraussichtlich höher ausfallen, als aus einer
Grundgesamtheit von Realschülern der gleichen Altersklasse.
 Grund: keine höhere gemessene Ungenauigkeit des Tests bei den
Realschülern, sondern Populationsvarianz und (im Falle einer
Messwiederholung auch die) Kovarianz der wahren Messwerte in der
Grundgesamtheit der Schulkinder größer als in der Grundgesamtheit der
Realschüler.
2. Reliabilität bei Extremwerten: Reliabilität eines Tests bestimmt sich immer für
gesamtes Testverfahren,
 Genauigkeitsmaß über alle Testwerte und alle Personen hinweg
Zusammenfassung Diagnostik
S e i t e | 58
 Genauigkeit eines einzelnen Testwertes bei einer bestimmten Person kann
nicht bestimmt werden. Genauigkeit eines Testergebnisses kann allerdings für
verschiedene Personen durchaus unterschiedlich genau sein.
 Beispiel: „Erreicht eine Person den extremsten erzielbaren Messwert eines
Tests (z. B. den niedrigsten oder höchsten messbaren IQ), kann eine Person
mit einer noch extremeren Merkmalsausprägung nicht mehr differenziert
werden; sie erhält dann zwangsläufig den gleichen Messwert, verbunden mit
einem größeren Messfehler“
Zusammenfassende Betrachtung der Reliabilitäten


Keiner der Reliabilitätskennwerte ist einem anderen vorzuziehen
Wichtig: gleichzeitige Betrachtung aller geschilderten Kennwerte, um einen
möglichst umfassenden Überblick über die Reliabilität des Verfahrens zu gewinnen
Validität/Gültigkeit
Def.: Ein Test gilt dann als valide (gültig), wenn er das Merkmal, das er messen soll,
auch wirklich misst und nicht irgendein anderes.
Hohe Validität erlaubt Generalisierung der Testergebnisse
 aus numerischem Relativ auf empirisches Relativ (z.B. hoher Wert in Skala
Extraversion  viele soziale Kontakte)
 von beobachtetem Verhalten in Testsituation auf Verhalten außerhalb (z.B.
Fahrprüfung  Fahrtauglichkeit im Alltag)
 Validität = Korrelation Prädiktor/en-Kriterium
 je höher die Validität, desto besser die Vorhersage
Inhaltsvalidität
Def.: Ein Test gilt dann als inhaltsvalide, wenn dieser Test bzw. ein Testitem das zu
messende Merkmal auch wirklich bzw. hinreichend genau erfasst.
Zunächst ist möglichst präzise zu definieren, was der Test erfassen soll. Dazu ist das
zu erfassende Merkmal zu definieren:

Operationale Merkmalsdefinition: Das Merkmal wird durch die Testinhalte definiert
 Testaufgaben repräsentieren direkt den interessierenden Anforderungsbereich
(z. B. Test für Bruchrechnen erfasst direkt Bruchrechnen)
o Es sind keine theoretischen Annahmen darüber notwendig, wodurch
Unterschiede in den Testergebnissen zustande kommen (z.B. keine
Annahmen über zugrunde liegende kognitive Prozesse des Bruchrechnens);
die Unterschiede werden nur anhand der Test- bzw. Iteminhalte
festgestellt
 Operational definierte Merkmale dürfen nicht als „Ursache“ für das
Testergebnis betrachtet werden, stehen also in keiner kausalen Beziehung
zum Merkmal!
o Inhaltsvalidität bei operationaler Merkmalsdefinition:
 bezieht sich auf die Generalisierung von Interpretationen von
Testresultaten über die Inhalte des Tests hinaus  Frage nach der
Repräsentativität der Items  Repräsentationsschluss möglich?
 Frage der Inhaltsvalidität kann häufig nur durch Expertenurteile
objektiviert werden (s.u.)
 Beispiel: Ein Test (z. B. eine Klausur) soll die im Lehrplan
definierten Lehrziele überprüfen. Das Ergebnis (Anzahl richtiger
Lösungen) soll Aufschluss über die Zielerreichung geben. Die
Generalisierung besteht in der Annahme, dass ein Proband mit
Zusammenfassung Diagnostik
S e i t e | 59

hohem Testwert auch eine Vielzahl anderer, das Lehrziel
repräsentierende Aufgaben, lösen könnte (curriculare Validität).
Theoretische Merkmalsdefinition: Das Merkmal wird durch ein theoretisches
Konstrukt definiert. Unterschiede in den Testergebnissen werden durch
theoretische Annahmen spezifiziert
(z. B. Intelligenztest erfasst über verschiedene Fähigkeitsbereiche indirekt
Intelligenz)
o Inhaltsvalidität bei operationaler Merkmalsdefinition
 versucht ebenfalls Testergebnisse auf größere Menge von Aufgaben
zu generalisieren, aber zusätzlich wird versucht, die Testresultate
anhand der dahinter stehenden Theorie zu erklären
 Dahinter steckt die Annahme, dass unterschiedliche Itemantworten
auf Unterschiede im erfassten Konstrukt zurückzuführen sind, so
dass von den Antworten Rückschlüsse auf das (nicht direkt
beobachtbare) Konstrukt gezogen werden können.
Frage, ob das zu erfassende Konstrukt durch die im Test enthaltenen Items (Testinhalt
und Antwortformat) angemessen repräsentiert wird
 Erfassen alle Items das zu messende Konstrukt?
 Ist ein repräsentativer Ausschnitt aller denkbaren Items enthalten?
Inhaltsvalidität…
 ist hoch, wenn die Aufgaben eines Tests völlig identisch sind mit Anforderungen,
die in bestimmten Bereichen gestellt werden

ist eng verbunden mit den Begriffen logische Validität (~Inhaltsvalidität) und
Augenscheinvalidität (Auch Laien erkennen den Zusammenhang zwischen den
Items und dem zu erfassenden Konstrukt, z.B. Führerscheinprüfung)

wird meist nicht numerisch bestimmt, sondern Rückgriff auf Expertenurteile und
Befunde aus der Literatur
o
QSinnerhalb =
QSmaximal =
der Beurteiler
Beispiel:
Zwei Möglichkeiten der numerische Bestimmung
I. Anhand von Expertenurteilen, Vorgehen:
1. Zielkonstrukt festlegen (Fähigkeit, Eigenschaft)
2. Items/Aufgaben/Fragen zur Erfassung definieren
3. Experten beurteilen inwiefern Items das Zielkonstrukt treffen
4. Beurteilerübereinstimmung ermitteln (Urteilsstreuungen pro Item)
5. Ü-Koeffizienten für Inhaltsvalidität bestimmen
 das Maß der Beurteilerübereinstimmung liefert einen Koeffizienten
für die Inhaltsvalidität
QS
Ü  1 innerhalb
QSmax imal
Ü=Übereinstimmungskoeffizient
Quadratsummen innerhalb der Beurteiler
maximal mögliche Quadratsumme innerhalb
Beurteilung der Originalität von Bildern
Zusammenfassung Diagnostik
S e i t e | 60
II. Experimentelle Bestimmung:
1. Zwei Personengruppen: Vorgabe von Konstrukt und Regeln nach
denen diese Gruppen Items generieren sollen, die dieses Konstrukt
erfassen sollen
 Zwei unabhängige Tests
2. Tests einer großen Gruppe von Versuchspersonen vorlegen
3. Korrelation der Ergebnisse = Maß für die inhaltliche Validität beider
Verfahren
Kriteriumsvalidität
Def.: Die Kriteriumsvalidität ist v.a. auf extrapolierende Interpretationen ausgerichtet,
d.h. sie befasst sich mit der Frage, inwiefern aus den Testwerten Kriteriumswerte
(Verhalten einer Person außerhalb der Testsituation) vorhergesagt werden können.
 Kriteriumswerte (Außenkriterien) sollten daher von unmittelbarer Relevanz und
hinreichender Messgenauigkeit sein.
 Außenkriterien sollten sich bestenfalls aus der Theorie ableiten lassen.
Die Kriteriumsvalidität wird als Korrelation zwischen Testwert und Kriteriumswert (r tc)
bestimmt  Wenn die Vorhersage gut funktioniert, gibt es hohe Korrelationen und somit
eine hohe Kriteriumsvalidität
Unterschiedliche Arten der Kriteriumsvalidität:




Vorhersagevalidität (prognostische, prädiktive Validität)
o Korrelation der Testwerte mit zeitlich später erhobenen Kriterien
o z.B. IQ vor Beginn einer Ausbildung und Abschlussnote
Übereinstimmungsvalidität (konkurrente Validität)
o Korrelation mit zeitlich (fast) gleich erhobenen Kriterien
o z.B. Konzentrationstest vor Klausur und Klausurnote
Retrospektive Validität
o Korrelation mit zeitlich vorher ermittelten Kriterien
o z.B. IQ im Studium und Abiturnote
Inkrementelle Validität
o Bezeichnet den Beitrag eines Tests zur Verbesserung der Vorhersage eines
Kriteriums über einen anderen Test hinaus
o kann im Rahmen einer multiplen (hierarchischen) Regression ermittelt
werden  Änderungsbetrag erklärter Varianz (R2), der sich auf Signifikanz
prüfen lässt
o z.B. Berufserfolg wird gut durch Intelligenz vorhergesagt, es wird nun bei
jeder anderen Methode geprüft, ob sie über die Intelligenz hinaus noch
etwas zur Vorhersage von Berufserfolg beitragen kann
Zusammenfassung Diagnostik
S e i t e | 61


Regressionsgerade: Schätzung der Kriteriumswerte anhand von Prädiktoren
das Vorzeichen sagt nichts über die Güte der Validität aus; schlecht sind geringe
Validitätsbeträge wie z.B. |-0,21|, da hier die Punkte nicht mehr gut durch die
Gerade abgebildet werden
Problem: Varianzeinschränkung im
Prädiktor führt zu geringen Korrelationen,
eine gute Vorhersage ist daher nicht mehr
möglich!  Formel zur Aufwertung des
Validitätskoeffizienten auf repräsentative
Breite
Arten von Kriterien
1. Echte Kriterien
o Kriterien, die semantische und theoretische Ähnlichkeit zum Test aufweisen
und zusätzlich von höherem Status sind
o sie sind feste, messbare, fassbare Größen z.B. Verkaufszahlen, Erkrankung
2. Quasikriterien
o Kriterien, die eine Validierung an echten Kriterien bedürfen
o Kriterien, die semantische und theoretische Ähnlichkeit zum Test
aufweisen, allerdings nicht von einem höheren Status sind
o sie sind latente Variablen (Konstrukte) z.B. Persönlichkeit, Intelligenz
o Ein Test wird an einem anderen Test validiert, dieser sollte an echten
Kriterien validiert werden
 wird häufig so gemacht, weil Validierung an echten Kriterien teuer und
schwer durchführbar
o Problem: Inhaltsvalidität des Tests gegeben, an dem validiert wird?
3. Target-Variablen
o Kriterien, die aufgrund bestehender Sachzwänge bestimmt werden
müssen, egal aufgrund welcher Informationen
o z.B. Suizidalität
Zusammenfassung Diagnostik
S e i t e | 62
Konstruktvalidität
Def.: Die Konstruktvalidität ist hoch, wenn ein Test auch die Eigenschaft oder Fähigkeit
misst, die er messen soll
Konstruktvalidität liegt vor, wenn der Schluss vom Verhalten in der Testsituation auf
zugrunde liegende psychologische „Konstrukte“, „latente Variablen“, „Traits“ aufgezeigt
werden kann
Klassische Idealvorstellung der Konstruktvalidierung










Die Theorie besteht aus einem Satz von Axiomen, die theoretische
Zusammenhänge zwischen (latenten, d. h. nicht direkt beobachtbaren)
Konstrukten mathematisch beschreiben.
Die einzelnen Terme der Axiome werden mit beobachtbaren/manifesten Variablen
verbunden, diese Verbindungen nennt man Korrespondenzregeln (Verbindung
zwischen Theorie und Beobachtung)
aus den Axiomen werden somit Vorhersagen über die Zusammenhänge von
Konstrukten abgeleitet, die dann anhand beobachtbarer Variablen empirisch
überprüft werden
Diese vorhergesagten Zusammenhänge bilden das empirische Gesetz.
Korrespondenzregeln und daraus abgeleitete empirische Gesetze bilden ein sog.
nomologisches Netzwerk  soll durch Konstruktvalidität schrittweise geprüft
werden
Zentrale Frage dabei ist, ob die manifesten Testwerte gültige Indikatoren für die
Ausprägungen des latenten Konstruktes darstellen
Stimmen theoretische Vorhersagen und empirische Vorhersagen überein, ist die
Theorie (vorläufig) bestätigt und die Interpretation der Testwerte kann als
(vorläufige) Bestätigung des theoretischen Konstrukts angesehen werden
Stimmen Beobachtung und Theorie nicht überein, muss das nomologische
Netzwerk überarbeitet und ggf. erneut überprüft werden.
Eine bestehende konstruktbezogene Testwertinterpretation bleibt solange
bestehen, bis diese falsifiziert wird.
Fazit:
o Ideal schwierig umzusetzen, da psychologische Theorien meist keine
ausreichende Formalisierung. Daher heute nach Cronbach (1988)
Unterscheidung zwischen
 starkem Ansatz der Konstruktvalidierung (mit formaler Theorie)
 und schwachem Ansatz der Konstruktvalidierung (ohne formale Theorie)
o Ziel bleibt es, theoriebasierte Tests zu entwickeln, die sich durch theoretisch
abgeleitete und empirisch überprüfbare Annahmen auszeichnen. Dabei wird
zumeist auf formale Theorien verzichtet.
Beeinträchtigung der Konstruktvalidität:
1. Unterrepräsentation des Konstrukts im Test: wichtige Aspekte des Konstrukts sind
im Test nicht enthalten  Messung zu eng
2. Konstruktirrelevante Varianz: es werden Aspekte anderer Konstrukte erfasst oder
Varianzaspekte, die man auf die Methode zurückführen kann  Messung zu breit
a. konstruktirrelevante Schwierigkeit
b. konstruktirrelevante Leichtigkeit
Messung wird erschwert/erleichtert durch z.B. Behinderung oder Übung
Zusammenfassung Diagnostik
S e i t e | 63
Konvergente Validität
Es werden Korrelationen mit Tests gleicher oder ähnlicher Gültigkeitsbereiche ermittelt.
Diese sollten möglichst hoch ausfallen.
 z.B. Korrelation des IST-2000 R mit dem HAWIE-R (Intelligenzerfassung)
Diskriminante/divergente Validität
Es werden Korrelationen mit Tests anderer Gültigkeitsbereiche ermittelt. Diese sollten
möglichst gering ausfallen.
 z.B. Korrelation eines Konzentrationstests mit einem Arbeitsgedächtnistest
 Wichtig: Korrelationen mit Ergebnissen von Tests, die verwandte Konstrukte
messen und nicht nur Ergebnisse von Tests, die offensichtlich etwas anderes
messen!  Sicherstellen, dass man eben gerade KEIN verwandtes Konstrukt
erfasst
 Es soll ein stimmiges Muster an Zusammenhängen bestehen!
3 Methoden zur empirischen Bestimmung der diskriminanten und konvergenten Validität:
1. Bildung von Korrelationen zwischen den Testwerten X, deren Interpretation
validiert werden soll, und einer anderen manifesten Variablen Y
o Y kann Testwert, Verhaltensmaß oder andere Personenvariable (z.B. Alter)
sein
o vor Bildung der Korrelationen, müssen theoretische Annahmen über die
Höhe der zu erwartenden Korrelationen bestehen
o Wenn die empirisch ermittelten Korrelationen mit den Zusammenhängen
übereinstimmen, die aus den theoretischen Annahmen abgeleitet wurden,
wird die Interpretation gestützt, dass die Testergebnisse auf das
angenommene theoretische Konstrukt zurückzuführen sind.
o Da nicht von einer optimalen Reliabilität der beiden Tests (der zu
validierende und das Kriterium) ausgegangen werden kann, kann man die
errechneten Korrelationen doppelt minderungskorrigieren, um die gesuchte
Korrelation zwischen Test und Kriterium zu bestimmen
2. Faktorenanalytisch:
o Untersuchung von Zusammenhängen zwischen verschiedenen Tests
o homogene, konstruktnahe Inhaltsbereiche werden zusammengefasst und
von konstruktfremden Bereichen getrennt
 Faktorielle Validität
3. Multitrait-Multimethod-Analyse
Deskriptive Auswertung mit einer der oberen Methoden reicht nicht aus, zusätzlich:
Interferenzstatistische Absicherung:
 Angaben zur erwarteten Effektgröße, zum - und -Fehler sowie zum optimalen
Stichprobenumfang unter Berücksichtigung des angewendeten Verfahrens (z.B.
Varianzanalyse)
 Formulierung gerichteter (Null-/Alternativ-) Hypothesen, die der Fragestellung der
Validitätsuntersuchung exakt entsprechen
 Ferner sind Grenzwerte (Mindest- bzw. Höchstwerte) für Korrelationskoeffizienten
zu formulieren, z. B. bei der konvergenten Validität eine unter der
Alternativhypothese geforderte Mindesthöhe bei der Korrelation.
Multitrait-Multimethod-Analyse (Campbell und Fiske)
Grundüberlegungen:
 Jeder Testwert setzt sich zusammen aus Merkmals- und Methodeneinflüssen
 Methodeneffekte = Sammelbegriff für verschiedene systematische Varianzquellen
Zusammenfassung Diagnostik
S e i t e | 64


Methoden erzeugen Methodenvarianz  verzerren Beziehung zw. Merkmalen 
beeinträchtigen Validität
Quellen der Methodenvarianz:
o Messinstrument
o Beurteiler: systematisch andere Einschätzung durch untersch. Beurteiler
o Kontext: untersch. Umgebungsbedingungen
Herkömmliche Methoden, die aufgrund von Korrelationsbildungen konvergente und
diskriminante Validität überprüfen, berücksichtigen nicht, dass die Korrelationen auch
durch Methodenvarianz zustande (bzw. nicht zustande) kommen können.
 Durch Kombination aus negativem Einfluss der Methode und positivem Einfluss
des Konstruktes können Nullkorrelationen entstehen, obwohl eigentlich
signifikante Zusammenhänge existieren
 Durch Methodenartefakte können künstliche Korrelationen zwischen Merkmalen
entstehen
Bsp.: Ein zeitbegrenzter Intelligenztest und ein zeitbegrenzter Konzentrationstest
korrelieren miteinander; die Varianz der Testwerte geht nicht nur auf eine
Eigenschaft oder Fähigkeit zurück, sondern auch auf Methodenvarianz
 Lösung: Um den Einfluss von Methodenvarianz zu kontrollieren und dennoch die
diskriminante und konvergente Validität bestimmen zu können, schlugen Campbell und
Fiske die Anwendung der MTMM vor, die strukturell unterschiedliche Messmethoden
verwendet.
Es werden mindestens 2 Methoden (Tests) benötigt, die mindestens 3 unterschiedliche
Traits (Konstrukte) erfassen.
Es wird eine Multitrait-Multimethod-Matrix gebildet.
1. Prüfen der Reliabilitätsdiagonale: Die Reliabilitäten sollten möglichst homogen
und hoch sein (Im Prinzip Reliabilität = 1, da Korrelation des Konstrukts mit sich
selbst und jeweils gleiche Methode)
2. Validitäten
a. konvergente Validität/Validitätsdiagonale(n), rMTHM: Gleiches Konstrukt
mit unterschiedlichen Methoden gemessen
b. diskriminante Validität: unterschiedliche Konstrukte mit gleichen und
unterschiedlichen Methoden gemessen
3. Heterotrait-Monomethod-Block (rHTMM): Unterschiedliche Konstrukte mit der
gleichen Methode gemessen
4. Heterotrait-Heteromethod-Block (rHTHM): Unterschiedliche Konstrukte mit
unterschiedlichen Methoden gemessen
Zusammenfassung Diagnostik
S e i t e | 65
4 Kriterien für Konstruktvalidität:
1. konvergente Validität: rMTHM > 0 (signifikant)
Korrelation zwischen der Erfassung eines Konstrukts/Traits mit zwei Methoden
muss signifikant von Null verschieden und genügend hoch sein
2. diskriminante Validität: rMTHM > rHTMM
Konvergente Validität soll größer sein als die Korrelation zweier unterschiedlicher
Konstrukte mit derselben Methode
3. diskriminante Validität: rMTHM > rHTHM
Konvergente Validität soll größer sein als die Korrelation zweier unterschiedlicher
Konstrukte mit unterschiedlichen Methoden
4. diskriminante Validität: Äquivalenz der divergenten Validitäten
Die Muster der Korrelationskoeffizienten sollen sowohl innerhalb einer Methode
(Dreiecksmatrizen unterhalb der Reliabilitätsdiagonale) als auch zwischen den
Methoden (Dreiecksmatrizen über und unter den Validitätsdiagonalen) etwa gleich
sein
 meist Überprüfung ob Rangreihen und Vorzeichen gleich
 Zur Überprüfung der Rangreihen wird eine Korrelation über die Korrelationen
aller Dreiecke hinweg berechnet. Unterscheidet sich diese signifikant von Null,
können die Muster als äquivalent angenommen werden  Die Beziehung
zwischen denn Konstrukten ist dann über die Methoden hinweg gültig
Zusammenfassung Diagnostik
S e i t e | 66
Wenn Korrelationen zwischen unterschiedlichen Traits mit der gleichen Methode
gemessen relativ hoch und/oder Korrelationen zwischen gleichen Traits mit
unterschiedlichen Methoden gemessen relativ gering ausfallen, gibt es große Einflüsse
der Methoden.
Vorteile dieser Methode:
 grober Überblick über die Daten
 Berücksichtigung der diskriminanten Validität
Nachteile:
 Einzelvergleiche und Häufigkeitsauszählungen: keine Signifikanztestung mit
zufallskritischer Absicherung  Keine exakten Entscheidungsregeln
 Entscheidungen bei Verletzung eines Kriteriums zur Annahme oder Ablehnung
konvergenter und diskriminanter Validität bleiben dem Anwender überlassen
 sehr subjektiv
 häufig unterschiedlich hohe Reliabilität der gemessenen Konstrukte, hier werden
aber ähnliche Reliabilitäten vorausgesetzt
 Auswertung der Korrelationsmatrizen basiert auf manifesten Variablen, während
die Interpretation der Kriterien auf Basis latenter Traits und Methoden erfolgt
 Das Vorgehen bei der Auswertung auf Korrelationsebene ermöglicht keine
objektive, d.h. voneinander unabhängige Bestimmung, der konvergenten und
diskriminanten Validität, da Trait- und Methodeneffekte in den Schlussfolgerungen
über die konvergente und diskriminante Validität konfundiert sind.
 keine Messfehlerbestimmung möglich
o aber: in Reliabilitätsdiagonale können Fehler eigentlich abgelesen werden
o man könnte auch minderungskorrigieren, um die Fehlereinflüsse zu
eliminieren
 Lösung: Konfirmatorische MTMM
Die MTMM-Matrix wird anhand einer Faktorenanalyse analysiert.
Vorteile
 Trennung von Trait-, Methoden- und Messfehleranteil
 Überprüfung von zugrunde liegenden Annahmen (z.B. Eindimensionalität der
einzelnen Traits, Korreliertheit oder Unkorreliertheit der einzelnen Traits bzw.
Faktoren)
 Darüber hinaus: Überprüfung der Kriteriumsvalidität
Vorgehen:
1. Festlegen der Faktoren: Mindestens 3 Traits und mindestens 3 Methoden
 es resultieren 9 Indikatoren, die jeweils auf einen Trait und auf eine Methode
laden
Zusammenfassung Diagnostik
S e i t e | 67



Konvergente Validität: hohe Faktorladungen auf den Traitfaktoren
Diskriminante Validität: geringe Korrelationen zwischen den Traits
Einflüsse der Methoden: Höhe der Faktorladungen auf den Methoden
 je niedriger die Einflüsse der Methoden auf die Variablen sind, desto
niedriger ist die durch die Methoden aufgeklärte Varianz (= quadrierter
Einfluss = Ladung der jeweiligen Methode auf dem Indikator)
Es gibt verschiedene Werte, die angeben, wie gut das faktorenanalytische Modell zu den
Daten, die auf Basis der angenommenen Faktoren erhoben wurden, passt:
 ²: sollte möglichst klein sein
 RMSEA: sollte kleiner als 0,05 sein
 CFI (Comparative Fit Index) und NFI (Normed Fit Index): sollten möglichst
nahe an 1 sein
Beispieltest: Personality Research Form (PRF)
Gründe für mangelnde Validität (hauptsächlich Kriteriumsvalidität)





Methodenfaktoren: wenn Prädiktor und Kriterium mit unterschiedlichen Methoden
gemessen, kann sich dies mindernd auf die Korrelation auswirken (keine
Methodenvarianz)
Unterscheidung zwischen eigentlichen und aktuellen Kriterien: Oft können
eigentliche Kriterien nicht erfasst werden (z.B. kann man Berufserfolg eigentlich
erst am Ende einer Karriere bestimmen)  stattdessen erfasst man aktuelle
Kriterien, die leichter zugänglich sind (z.B. momentaner Erfolg, gefertigte
Stückzahlen etc.)
o Kriteriumskontamination oder -defizienz: Kriterium erfasst etwas anderes
als beabsichtigt oder ist zu eng gefasst
Prädiktoren sind nicht geeignet ausgewählt und korrelieren daher nur
unzureichend mit den echten Kriterien:
o Prädiktionsmesswert korreliert nur mit aktuellem Kriterium, nicht aber mit
dem eigentlichen  hohe Validität muss daher nicht zwangsläufig
bedeuten, dass eine Korrelation zwischen Prädiktionsmesswert und
eigentlichem Kriterium besteht!
o Prädiktionsmesswert korreliert nicht mit aktuellem Kriterium, weist aber
eine hohe Aussagekraft für das eigentliche Kriterium auf
Mangelnde Symmetrie zwischen Prädiktor und Kriterium: Prädiktor und Kriterium
werden unterschiedlich breit gemessen, dies führt zu geringen Korrelationen
Varianzeinschränkung  eigentlich vorherrschende Zusammenhänge zwischen
Variablen können nicht festgestellt werden  Berücksichtigung bei Rekrutierung
von Stichproben und bei Interpretation von Ergebnissen
Zusammenfassung Diagnostik
S e i t e | 68


Mangelnde Reliabilität in Prädiktor und Kriterium: Einfluss von Messfehlern führt
zu geringen Korrelationen
Transparenz und somit Verfälschbarkeit
Zusammenhänge zwischen den Gütekriterien


Validität hat die höchste Bedeutung
Retestreliabilität und Paralleltestreliabilität können nicht größer sein als
Objektivität und Konsistenz  Verbesserung der letztgenannten Kriterien schafft
deshalb bessere Voraussetzungen für die Reliabilität

Reliabilität bestimmt Validität  Testverlängerung steigert Reliabilität  Erhöhung
der Validität.
Aber: Verdünnungsparadoxon  je höher die Ausgangsreliabilität, desto geringer
die Erhöhung der Validität durch Steigerung der Reliabilität (z.B. durch
Testverlängerung)
Homogene Verfahren haben häufig zwar eine hohe Reliabilität, sind aber nur
wenig valide gegenüber Außenkriterien  Testveränderung in Richtung größerer
Heterogenität ( Einbußen bei Reliabilität) erhöht Validität
Variation der Itemschwierigkeit ( Einbußen bei Reliabilität): Extreme
Schwierigkeiten mindern Homogenität der Skala  Steigerung der Validität
Lösung des Problems der partiellen Unvereinbarkeit von Reliabilität und Validität:
Testbatterien:
o hohe Validität, da heterogen
o hohe Reliabilität, da Subskalen in sich homogen
Transparenz kann Validität verringern, da Vpn Ergebnis verfälschen können (
Vermeiden transparenter Verfahren in Situationen, in denen Verfälschung Sinn
macht)




Nebengütekriterien
Normierung
 ermöglicht die eindeutige Einordnung der individuellen Leistung einer Person im
Vergleich zu anderen Personen  Zuweisung eines Rangs und somit Ermöglichen
der Interpretation
 Testnormen sollten aktuell sein, nicht älter als 8 Jahre (DIN)
 Testnormen sollten für verschiedene Personengruppen vorliegen
 Zusammensetzung der Normstichprobe angeben (Alter, Geschlecht, Bildung,…)
 Mindestgröße von N=300 (Daumenregel)
 Es sollten folgende Angaben vorliegen:
o Repräsentativität (Deutschland, Studenten,…)
o Anwerbung der Stichprobe (wie und durch wen?)
o Bedingungen (Bezahlung, Rückmeldung, Testsituation, Tageszeit, Einzeloder Gruppentestung?, Länge des Tests, Position in einer Testreihe)
Zusammenfassung Diagnostik
S e i t e | 69
 Charakteristika einer Testung eines Probanden sollten denen der
Normstichprobe entsprechen
 Güte der Normen bestimmt die Güte der individualdiagnostischen Entscheidung

Verschiedene Normen:
1. Äquivalentnormen: Zuordnung zu bestimmten Zeitabschnitten wie z.B.
Altersstufen  z.B. bei Intelligenz Alter als Referenz, bei Entwicklung
Reifestatus
2. Variabilitäts- oder Abweichungsnormen: Individuelle Leistung wird mit der
Werteverteilung (meist Normalverteilung) einer Vergleichspopulation (z.B.
gleiche Altersgruppe) in Beziehung gesetzt wird. Testwerte werden dabei in
Werte einer Standardskala transformiert
Bereich= Spanne von +/–2 Standardabweichungen
Bei Stanine sind keine extremeren Werte möglich im Gegensatz zu
anderen Normskalen
 Normen sind durch z-Transformationen ineinander überführbar
 Transformation nicht erlaubt, wenn Messwerte nicht normalverteilt
3. Prozentränge
 Spezielle Form der Transformation: Den Maßzahlen wird eine
relative Position auf der nach Größe ranggereihten Messwerteskala
der Bezugsgruppe zugordnet
 Vorteile: keine Voraussetzung für Verteilungsform der Messwerte,
leichte Verständlichkeit
 Nachteil: Abstände nicht interpretierbar


Vergleichbarkeit
Ein Test ist vergleichbar, wenn eine oder mehrere Parallelformen oder Tests mit gleichen
Gültigkeitsbereichen vorhanden sind.
Ökonomie
 Kurze Durchführungszeit?
 Wenig Material?
 Einfache Handhabung?
 Gruppentestungen möglich?
 Einfache und schnelle Auswertung?
Nützlichkeit
 Ist das gemessene Merkmal praktisch bedeutsam?
 Gibt es bereits einen Test, der das gemessene Merkmal misst?  Wenn ja:
Welche Vorteile weist das neue Verfahren gegenüber dem/den alten auf?
+ Skalierung, Zumutbarkeit, Unverfälschbarkeit, Testfairness
Zusammenfassung Diagnostik
S e i t e | 70
Testfairness
(Wird teilweise zu den Nebengütekriterien gezählt)






Bei Entscheidungsprozessen sollen Mitglieder bestimmter Gruppen nicht
benachteiligt werden
Testfairness kann nicht per se erreicht werden, sondern nur vor dem Hintergrund
spezieller Handlungs- und Entscheidungsaspekte, die definiert werden müssen
Wahl des Fairnessmodells nach unterschiedlichen Zielen; je nach Ziel kann das
gleiche Verfahren mehr oder weniger fair sein
Ziele: gesellschaftspolitsch, Erfolgsmaximierung…
Modelle sind nicht kompatibel
o Fehlentscheidungen, die unfair für Individuum sind: Ausgleich durch Cleary
o Fehlentscheidungen, die unfair für Gruppe sind: Ausgleich durch Thorndike
Je höher die Validität, umso geringer ist das Risiko eines Testbias gegenüber einer
relevanten Untergruppe von Merkmalsträgern
3 Testfairnessmodelle
1. Modell der proportionalen Repräsentation/Quotenmodell


Eine Selektionsmaßnahme gilt als fair, wenn sie gewährleistet, dass in der
Stichprobe der ausgewählten Bewerber die Proportion der miteinander
verglichenen Gruppen dieselbe ist wie in der Bewerberpopulation.
 Forderung nach Übereinstimmung der Mittelwerte und Standardabweichungen
für relevante Populationssubgruppen (z.B. Geschlecht, soziale Schicht)
Perfekte Übereinstimmung der Quoten kaum möglich, daher wird versucht,
ungefähr gleiche Proportionen zu erreichen.
Problem: Modell nimmt implizit an, dass es keine systematischen
Leistungsunterschiede zwischen Bewerbergruppen gibt, diese Annahme trifft für gut
konstruierte Tests aber nicht zu, da dies zu Lasten der Validität gehen würde
 Es wird implizit angenommen, dass die Gruppen gleich leistungsfähig sind und
der Test Gruppenunterschiede aufgrund fehlerhafter Konstruktion nur vortäuscht
 Aussagen über die Effizienz des Verfahrens (im Hinblick auf den Erfolg der
ausgewählten Bewerber) werden nicht berücksichtigt, daher wird Quotenmodell
in der Praxis nicht angewendet
 Auch bei Normierungen gibt es das gleiche Problem der Annahme, dass es keine
systematischen Gruppenunterschiede gibt; Normierungen liegen so z.B. für
Altersgruppen vor, meist aber nicht für soziale Schichten  unmöglich, alle
Merkmale zu berücksichtigen, um Fairness zu erreichen
2. Regressionsmodell von Cleary (Modell einer fairen Vorhersage)


Die Schätzung des Kriteriumswertes durch die Regressionsgerade kann nur dann
als fair betrachtet werden, wenn in allen Subgruppen gleiche Regressionsgeraden
gelten und somit für keine der miteinander verglichenen Gruppen eine
systematische Über- oder Unterschätzung der Kriteriumswerte entsteht
Überprüfung, ob Verwendung der gemeinsamen Regressionsgerade fair im Sinne
des Regressionsmodells ist:
o Erhebung von Prädiktor- und Kriteriumsvariable bei allen Probanden
o Durchführung von Regressionsanalysen in der Gesamtstichprobe sowie in
den entsprechenden Substichproben (z.B. Männer und Frauen)
 Vergleich der Konstanten und Regressionskoeffizienten zwischen den
Regressionsgleichungen aus Gesamtstichprobe und Substichproben
(Die Subgruppen können unterschiedliche Mittelwerte haben und
trotzdem die gleiche Regressionsgerade aufweisen)
Zusammenfassung Diagnostik
S e i t e | 71
 keine Unterschiede: Zur Prognose der Kriteriumswerte kann die
gemeinsame Regressionsgerade verwendet werden, ohne dass
dadurch einzelne Vpn je nach Gruppenzugehörigkeit systematisch
bevorzugt oder benachteiligt werden.
 signifikante Unterschiede: Zur Prognose der Kriteriumswerte müssen
gruppenspezifischen Regressionsgeraden verwendet werden.
Beispiele für unfaire Auswahl (unterschiedliche Regressionsgeraden)
Hinter dem Schnittpunkt der beiden Regressionsgeraden der Subgruppen erfolgt
sogar eine Rangreihenverschiebung (siehe Ellipse)!
 Die Frau erreicht objektiv geringere Werte im Kriterium (geringere Steigung
der Regressionsgerade in der Subgruppe der Frauen, daher führt höherer
Prädiktorwert dennoch zu geringerem Kriteriumswert als bei Männern)
 Frau wird durch gemeinsame Regressionsgerade im Kriterium sogar besser als
der Mann eingeschätzt, obwohl objektiv die Werte umgekehrt sind
 Bei gleichen Prädiktorwerten liefert Schätzung mit gemeinsamer
Regressionsgerade andere Rangreihe im Kriterium als Schätzung mit
jeweiliger Regressionsgerade der Subgruppe

Wenn der Auswahlprozess als fair zu erachten ist, findet die Auswahl anhand der
geschätzten Kriteriumsleistung statt  Fairness ist immer nur gegenüber der
Variablen gegeben, anhand derer die Subgruppen aufgeteilt wurde
Zusammenfassung Diagnostik
S e i t e | 72



Es werden die Kandidaten ausgewählt, die voraussichtlich die besten
Kriteriumsleistungen zeigen werden. Die Erfolgsrate, d.h. die durchschnittliche
Leistung der ausgewählten Kandidaten, wird daher maximiert
Diese Vorgehensweise ist fair für jeden einzelnen Kandidaten, da jeder
voraussichtlich im Kriterium bessere jedem voraussichtlich weniger
leistungsfähigen Bewerber vorgezogen wird. (= „qualified individualism“)
Die wesentliche Problematik dieses Modells kritisiert Thorndike (1971). Er weist
nach, dass bei einer derartigen Auswahl relativ mehr Auswahlfehler zu Ungunsten
der Probanden in der leistungsschwächeren Gruppe begangen werden
3. Modell konstanter Verhältnisse (constant ratio model, Thorndike)
Thorndike (1971) fordert, dass das Verhältnis
zwischen ausgewählten Bewerbern und den im
Kriterium potentiell fähigen Probanden in allen
Gruppen gleich ist und somit keine
systematischen Auswahlfehler zu Ungunsten
einer Gruppe begangen werden.
Der Cut-Off im Kriterium wird festgelegt,
dadurch wird automatisch der Cut-Off im
Prädiktor festgelegt (oder umgekehrt).
 die geforderte Konstanz der Verhältnisse kann lediglich durch die Absenkung des
Cut-offs (bzw. die Parallelverschiebung der Regressionsgeraden) in der
leistungsschwächeren Gruppe gewährleistet werden
 Da hierdurch zwangsweise auch leistungsschwächere Kandidaten angenommen
werden müssen reduziert sich die durchschnittliche Kriteriumsleistung der
ausgewählten Kandidaten
 Diese Vorgehensweise ist fair gegenüber den ausgewählten Kandidaten der
leistungsschwächeren Gruppe, da die Auswahlfehler denen in der
leistungsfähigeren Gruppe entsprechen
 Die Vorgehensweise ist unfair gegenüber den Abgelehnten aus der
leistungsstärkeren Gruppe, da diese in der schwächeren Gruppe eventuell noch
angenommen worden wären  Ablehnung, obwohl bei Ihnen höhere
Kriteriumsleistungen zu erwarten wären
Generelles Problem der Quotenmodelle:
„Ein Test, der fair ist mit Blick auf die Selegierten, ist unfair gegenüber den Abgelehnten“
 Beispiel: Selektionsraten zweier Subgruppen werden angeglichen  fair für die
angenommenen Probanden beider Subgruppen
 da Regressionsgeraden beider Subgruppen nicht exakt identisch (sondern nur
nicht signifikant verschieden) ist es möglich, dass sich in diesen zwei Subgruppen
die Wahrscheinlichkeiten, fälschlicherweise abgelehnt zu werden (Falsch
Negative), unterscheiden
 somit wäre der Test nur für die Angenommen, nicht aber für die Abgelehnten fair
Zusammenfassung Diagnostik
S e i t e | 73
Erhebungsstrategien
Unimodale vs. multimodale Datenerfassung


unimodal: Erhebung mit nur einer Methode
 Anwendung bei institutioneller Diagnostik, z.B. bei großen Bewerbergruppen
multimodal: Erhebung mit mehreren unterschiedlichen Methoden
 Anwendung bei individueller Diagnostik, z.B. im klinischen Bereich
 Problem: Mangelnde Konkordanz der Ergebnisse verschiedener Methoden
 Lösungsansätze:
 Erfassung zu mehreren Messzeitpunkten und Aggregation der
Messwerte
 Aggregation von Daten aus verschiedenen Kriteriumsbereichen
(Abdecken eines breiteren Merkmalsbereichs)
 Anwendung von Items, die von Vpn als für sie zutreffend eingeschätzt
werden
 Anwendung regressionsanalytischer Kombinationen: Kriterien, die eine
hohe Übereinstimmung zeigen, werden stärker gewichtet
 im klinischen Bereich bzw. der Individualdiagnostik ist eine
solche Anwendung nicht möglich
 Im klinischen Bereich kann ein Befund erst als gesichert
betrachtet werden, wenn mindestens 2 möglichst
unterschiedliche Methoden ihn bestätigen. Gibt es
Diskrepanzen, muss der Diagnostiker weitere Methoden
hinzuziehen, um die Befunde integrieren zu können.
Messung von Veränderungen und Unterschieden
Ein- und dieselbe Messung wird zu mehreren Zeitpunkten durchgeführt, um das Ausmaß
der zwischen den Messungen eingetretenen Veränderungen und deren Stabilität
abschätzen zu können (z.B. vor und nach Intervention)
1. Zunächst müssen die Unterschiede zwischen den Testungen statistisch
abgesichert werden
2. Wenn die Unterschiede signifikant sind, möchte man wissen, ob diese auch
zuverlässig interpretiert werden können  Berechnung der Reliabilität der
Differenzen zwischen zwei Testwerten
r(12)(12)
r r
 11 12
1  r12
r(1-2)(1-2) = Reliabilität der Differenzen zwischen zwei Testwerten
r11 = Reliabilität der Rohwerte, ausgedrückt als Anteil der
wahren Varianz an der Gesamtvarianz
r12 = Korrelation zwischen den beiden Testwerten
Formel nur dann geeignet, wenn zweimal der gleiche Test verwendet wurde, da dann
davon ausgegangen wird, dass Reliabilität und Streuung der erhobenen Rohwerte zu
beiden Zeitpunkten gleich sind
Wenn die Reliabilität der Differenzen ausreichend hoch ist (>.70), können die
Unterschiede interpretiert werden. Dies ist nur dann der Fall, wenn die Korrelation
zwischen Erst- und Zweitmessung niedrig ist.
 Reliabilitäts-Validitäts-Dilemma:
Hohe Reliabilität der Differenzen mit KTT unvereinbar, da diese fordert, dass zu jedem
Zeitpunkt höchsthöchstmögliche Reliabilität erzielt wird:
Zusammenfassung Diagnostik
S e i t e | 74
a) hohe Reliabilität der Ausgangstests  hohe Korrelation zwischen beiden
Testzeitpunkten  geringe Reliabilität der Differenzen, da beide Testungen
viel wahre Varianz gemeinsam haben und Differenz primär Fehleranteile
widerspiegelt
(Extremfall: sehr hohe Korrelation, z.B. Paralleltest  Differenz besteht nur aus
Fehlern/Zufallsgrößen)
b) niedrige Korrelation  hohe Reliabilität der Differenzen, Messungen können
aber nicht das gleiche bedeuten, zu beiden Zeitpunkten wurde also Verschiedenes
erfasst ( geringe Validität!)
Obige Formel nur geeignet, wenn Reliabilität und Streuung zu beiden Zeitpunkten gleich
o eine verallgemeinerte Formel berücksichtigt die Reliabilität, die Streuung und
die Varianz beider Tests
o Anwendung:
 herausfinden, wie reliabel Unterschiede zwischen verschiedenen
Leistungs- oder Persönlichkeitsbereichen sind (z.B. reliabler Unterschied
zwischen rechnerischem Denken und Wortschatz?)
 Gleicher Test zweimal durchgeführt, Reliabilität und Streuung aber zu
beiden Zeitpunkten verschieden (z.B. nach psychotherapeutischer
Intervention, wo sich Unterschiede zwischen den Probanden verändern)
Weitere Formel, wenn Reliabilitäten unterschiedlich, Streuungen aber gleich
o Anwendung bei der Interpretation individueller Profilwertdifferenzen, also Werte
von Skalen innerhalb von Testsystemen, da Untertests hier alle gleiche
Streuung haben (z.B. HAWIK)
o Profildifferenzen sind dann eher reliabel, wenn Subtests für sich eine hohe
Reliabilität haben, aber untereinander nur niedrig (optimal: r = 0) korrelieren
Weitere Probleme bei der Interpretation von Veränderungswerten:
Regression zur Mitte
Bei wiederholter Messung eines psychologischen Merkmals haben die beiden Verteilungen
zwar die gleiche Gestalt, anfänglich extrem hohe oder niedrige Werte regredieren bei der
zweiten Messung aber etwas zur Mitte.


beruht auf unzureichenden Reliabilitäten und somit hohen Messfehlern
Begründung: Extremität kommt durch Kombination förderlicher und hinderlicher
Faktoren zustande, die in dieser spezifischen Konstellation kaum wieder auftritt
o KTT: Messwert = wahrer Wert + Messfehler
o Extremer Messwert = extremer wahrer Wert + extremer Fehler
 unwahrscheinlich, dass Messfehler bei 2. Messung exakt genauso extrem
auftritt wie bei 1. Messung  wird eher geringer  Wert rückt zur Mitte
 extreme Werte weichen daher nicht exakt identisch vom Mittelwert ab wie
bei 1. Messung, stattdessen nehmen andere Werte ursprüngliche Position
der Messwerte ein, so dass Verteilung wieder gleich aussieht
 man weiß also nicht, ob Regression zur Mitte durch wahre Veränderungen in den
Messwerte oder durch Messfehlerveränderungen zustande gekommen ist
Ausgangswertegesetz

Höhe eines Anfangswertes korreliert negativ mit dem Zuwachs/der Veränderung
 je höher der Ausgangswert, desto größer die Wahrscheinlichkeit, dass
danach ein geringerer Wert auftritt
 je geringer der Ausgangswert, desto größer die Wahrscheinlichkeit, dass
danach ein höherer Wert auftritt
Zusammenfassung Diagnostik
S e i t e | 75

Vorschlag: Werte der Anfangsmessung aus denen der Endmessung
herauspartialisieren  Annahme: Residualwerte = „basefree measures of change“
Physicalism-subjectivism-dilemma
Bedeuten numerisch identische Veränderungen auf verschiedenen Abschnitten des
Messwertekontinuums das gleiche?
 Intervallskalenniveau (bei meisten Leistungs-und Persönlichkeitstests vorhanden)
würde dies annehmen
 Fraglich, ob Leistungssteigerung um z.B. 10-IQ-Punkte im unteren und oberen
Intelligenzbereich das gleiche bedeutet wie im mittleren Bereich
 gleiche Veränderungswerte stehen nicht für gleiche psychologische Veränderungen
Zusammenfassung Diagnostik
S e i t e | 76
Der diagnostische Prozess
= Abfolge von Maßnahmen zur Gewinnung diagnostisch relevanter Information
1. Auftraggeber: Klient/Patient selbst oder andere Person oder Institution
2. Heranziehen von Bewährungskriterien
o Grundlage für Gestaltung der Testsituation
o Zielkriterien zur Beurteilung des Erfolgs der Intervention (Sollzustand)
3. Entscheidung, ob Fragestellung in Hypothesen übersetzen werden kann, wenn
nicht Modifizierung der Fragestellung
 Bildung von Hypothesen zu Fragestellung (Problemverhalten) und
Interventionsmöglichkeiten (Überführung von Ist- in Sollzustand)
4. Überprüfung der Operationalisierbarkeit der Hypothesen
5. Untersuchungsplanung: Hypothesen bestimmen Inhalt der Untersuchung, Auswahl
der Verfahren, mit welchen inhaltliche Ziele erreicht werden können, durch
technische Aspekte bestimmt (z.B. Gütekriterien, Normen für best. Alter)
6. Nach Auswertung der Testergebnisse zusätzliche Absicherung der Hypothesen
 evtl: Operationalisieren sich neu ergebender Hypothesen oder Bildung neuer
Hypothesen
7. Beantwortung der Fragestellung
 Häufig erst nach mehrmaligem Durchlaufen Beantwortung der Fragestellung möglich
Zusammenfassung Diagnostik
S e i t e | 77
Das diagnostische Urteil
= Grundlage zur Beantwortung der Fragestellung des Auftraggebers
Unterscheidung zweier gegensätzlicher Formen zur Urteilsbildung:
1. Statistische/mechanische/formelle Form: Datenintegration mit statist.
Gleichungen
o z.B. Regressions- oder Diskriminanzanalysen
o Beispiel: Goldberg-Index, der anhand von MMPI-Ergebnissen einschätzt, ob
ein Pat. psychotisch ist
2. Klinische/menschliche/informelle Form: Diagnostiker kombiniert Einzeldaten
o Beispiel: klinische Experten beurteilen anhand gleicher Information, ob ein
Pat. psychotisch ist oder nicht; verlassen sich auf ihre klinische Erfahrung
Metanalyse und Studien: statistische Form hinsichtlich Genauigkeit von Urteilen und
Prognosegenauigkeit überlegen, v.a. bei Vorhersage von medizinischen und forensischen
Kriterien und wenn Informationen als Interviewdaten vorliegen
 Warum? Problem des klinischen/menschlichen Urteils: Anfälligkeit für Urteilsfehler
 Ignorieren der Basisrate: Stellen von Diagnosen, die statistisch selten und daher
unwahrscheinlich sind
 Falsche Gewichtung von Informationen: Leicht verfügbare Information wird
übergewichtet (availability Heuristik)
 Regression zur Mitte wird vernachlässigt
aber auch Probleme des statistischen Urteils:
 Urteilsmodelle können nur mit Daten erstellt werden, die für alle Personen
vorhanden sind
 große Fallzahlen notwendig
 in Forschung häufig unrealistische Beschränkung auf einen Test
 in diagnostischer Praxis sollten beide Modelle verwendet werden:
Bei Zweifel an der Eignung des statistischen Modells:
 Korrektur der mechanischen Vorhersage und durch Hinzunahme weiterer
Informationen, die im statistischen Modell unberücksichtigt sind
 Evtl. sogar Ersetzen der statistischen Vorhersage durch klinische Vorhersage
Das diagnostische Gutachten



Zusammenfassende Darstellung der psychodiagnostischen Vorgehensweise,
Befunde und Schlussfolgerungen in Bezug auf bestimmte Fragestellung und
Person/Institution/Situation
dient dem Auftraggeber als wissenschaftlich fundierte Entscheidungshilfe bei
einem gegebenen Problem
Im Mittelpunkt steht bestimmter Ausschnitt aus dem Verhalten einer Person, nicht
die ganze Persönlichkeit
Schritte des diagnostischen Entscheidungsprozesses (Westhoff und Kluck)
Erstellen eines Gutachtens beruht auf Serie von Entscheidungen:
1. Fragestellung:
o ethisch vertretbar? grundsätzlich beantwortbar?
o zuständiges Fachgebiet? ausreichende Kompetenz?
o eindeutig formuliert?
2. Annahmen des Psychologen über menschliches Verhalten: z.B. Annahme eines
regelhaften Zusammenhangs zwischen Situation und Verhalten
Zusammenfassung Diagnostik
S e i t e | 78
3. Anforderungsprofil:
o es müssen bestimmte Kriterien/Anforderungen vorliegen, die man den
Eigenschaften/Fähigkeiten der untersuchten Person gegenüber stellen kann
o z.B. welcher Beruf ist geeignet? welche Therapieform?
o sollten möglichst verhaltensorientiert definiert sein, um sie exakt
beurteilen zu können
4. psychologische Fragen (= Hypothesen)
o Übersetzung der Fragestellung in psychologische Hypothesen
o Auswahl geeigneter Variablen, basiert u.a. auf Verhaltensgleichung:
V  f (U , O, K , E, M , S )
 stellt sicher, dass alle relevanten Variablen berücksichtigt
 Verhalten ist Funktion psychologischer und nichtpsychologischer
Variablengruppen, die zur Erklärung, Vorhersage und Beeinflussung
individuellen Verhaltens bedeutsam sind:
 Umgebungsvariablen: äußere Lebensbedingungen (z.B. Wohnsituation)
 Organismusvariablen: körperliche Bedingungen (z.B. Krankheit)
 kognitive Variablen: Leistungsfähigkeit und Inhalte des Wahrnehmens,
Lernens und Denkens (z.B. Allgemeine Intelligenz)
 emotionale Variablen: emotionale Belastbarkeit, Umgang mit Gefühlen
psychologisch
 motivationale Variablen: Leistungs- und Machtmotiv, Interessen
 soziale Variablen: soziale Intelligenz, Normen, Einflüsse von
bedeutsamen anderen
 + Wechselwirkungen dazwischen
5. Untersuchungsplan
o Auswahl von Informationsquellen nach Kosten-Nutzen-Prinzip und anhand
von Gütekriterien und Existenz geeigneter Normen
o Beschreibung verwendeter Verfahren und sonstiger Informationsquellen,
 Art der Erhebung relevanter Variablen für Leser nachvollziehbar
6. Durchführen der diagnostischen Untersuchung
o eingesetzte Verfahren in allgemeinverständlicher Form darstellen
7. Darstellen der Ergebnisse und Befund:
o Ergebnisse im Befund so integrieren, dass sie formulierte
Fragen/Hypothesen beantworten
o Stellungnahme: Antwort des Gutachters auf beauftragte Fragestellung
8. Vorschläge bzw. Empfehlungen zum weiteren Vorgehen
nicht
psychologisch
Zuordnungs- und Klassifikationsstrategien
Es geht um die Zuordnung von Personen zu bestimmten Interventionen. Interventionen
können dabei Therapien, Unterrichtseinheiten, aber auch Arbeitsstellen etc. sein.
Bei der Zuordnung kann es zu Problemen und Fehlern kommen.
Arten diagnostischer Entscheidungen
Zuordnungsentscheidungen setzen das Vorhandensein von mindestens 2 Alternativen
voraus (z.B. Annahme und Ablehnung)
7. Testungen
einstufig
vs.
mehrstufig
Zusammenfassung Diagnostik
S e i t e | 79
zu 1.
a) institutionell: Organisation unterzieht alle Personen in der gleichen Weise einem
standardisierten Verfahren
 Ziel: Suche nach Entscheidungsregel, die Nutzen für Institution maximiert
b) individuell: Individuum sucht Rat (z.B. Berufswahl)
 Ziel: Suche nach bester Handlungsalternative für die Person
zu 2.
a) Festgelegte Annahmequote: Bestimmte Anzahl an Plätzen, denen Personen
zugeordnet/ nicht zugeordnet werden müssen
 Entscheidungen über einzelne Personen nicht unabhängig voneinander, da
Entscheidung für Personen gleichzeitig Entscheidung gegen andere
b) Variable Annahmequote: z.B. alle Kinder, die mit 7 noch einnässen erhalten
Therapie  Entscheidungen unabhängig von anderen Personen
zu 3.
a) singuläre Behandlung: eng umschriebene Maßnahme (z.B. Therapie eines Pat.)
b) multiple Behandlung: Kombination vieler Treatments (z.B. Einbezug Familie)
zu 4.
a) ja: wenn Ablehnung aufgrund der Testung möglich, liegt klassische Struktur eines
Selektionsparadigmas liegt vor; für Selektion genügt bereits 1 Prädiktor
b) nein: wenn alle Personen im System bleiben (keine Ablehnung) und durch die
Testung nur zu einer Intervention zugeordnet werden, liegt Platzierung vor
Vorteil: keiner wird von Intervention ausgeschlossen
zu 5.
a) univariat: Beschränkung auf eine Dimension/einen Prädiktor (z.B. Abiturnote)
b) multivariat: mehrere Dimensionen/Prädiktoren
Vorteile:
 erhöht Validität und damit auch Entscheidungssicherheit (ggü. univariat)
 erlaubt Klassifikation, damit ist hier Zuordnung von Personen anhand von
Merkmalskonstellationen gemeint
zu 6.
a) terminal: Zuordnung einer Person zu einer Behandlung, in der sie mehr oder
weniger lange verbleibt, mit Zuordnung ist Diagnostik abgeschlossen (z.B.
Einschulung in Sonderschule, Aufnahme in Ausbildungsprogramm)
b) investigatorisch: Zuordnung vorläufig und weiter zu untersuchend; Ziel der 1.
Untersuchung ist eine oder mehrere neue Frage/n (z.B. Anstellung auf Probe, um
Bewährung an konkret anfallenden Anforderungen abschätzen zu können)
zu 7. (siehe auch unter Entscheidungsstrategien)
a) einstufig: Zuordnung auf der Basis einer punktuellen Einmaldiagnose
b) mehrstufig: gestuftes Vorgehen in mehreren Schritten
Zielsetzung des diagnostischen Prozesses beeinflusst:
 infrage kommende Einzelentscheidungen
 Strategien/Regeln, die angewandt werden, um zu einer Entscheidung zu gelangen
Entscheidungsstrategien
Kompensatorische vs. konjunktive Entscheidungsstrategien
1. Kompensatorische Strategien

derselbe (globale) Prädiktionswert kann durch verschiedene Merkmalskonstellationen in den Einzeltests erreicht werden
Zusammenfassung Diagnostik
S e i t e | 80




niedrige Leistungen in einem Test können durch hohe in anderem kompensiert
werden  besonders leicht, wenn man gut in Tests ist, die innerhalb der Batterie
ein hohes -Gewicht haben
werden in diagnostischer Praxis häufig angewandt (z.B. Versetzung, wenn man in
Mathe schlecht, in Deutsch aber gut ist)
besonderer Fall: Oder-Konzept
o es wird keine (gewichtete) Summe gebildet, sondern es reichen hohe
Werte in einem der Prädiktoren aus
o diese Auswahlstrategie wird dann angewandt, wenn die durch das
Kriterium geforderte Leistung auf verschiedene Arten erbracht werden
kann (z.B. gute Leistungen in Schule durch Fleiß oder Begabung)
funktioniert nicht, wenn in allen Bereichen bestimmte Mindestleistungen
notwendig sind (z.B. intelligenter, aber ungeschickter Chirurg – nein danke)
2. Konjunktive Strategien bzw. Und-Konzepte

Forderung nach Leistungen in allen Bereichen
Festlegung kritischer Trennwerte



Bei Anwendung der konjunktiven Strategie sind die Anforderungen höher, in die
Kategorie der Zugelassenen zu kommen  Vorgehen konservativer
ist aber möglich, dass bei bestimmten Trennwerten Personen mit konjunktiver
Strategie angenommen, mit kompensatorischer aber abgelehnt würden
Bei gleicher Annahmequote resultieren unterschiedliche Trennwerte aus
kompensatorischer und konjunktiver Strategie
Einstufige vs. mehrstufige Entscheidungsstrategien
1. Einstufige Strategien


definitiv terminale Entscheidungen im „normalen Leben“ selten und auf die Fälle
beschränkt, in denen eine institutionelle Entscheidungsinstanz eine Person aus
ihrem System entlässt und keine weiteren Informationen mehr über sie erhebt
in diagnostischer Praxis kommt einstufiges Vorgehen aus Zeit- und Kostengründen
häufig vor, man unterscheidet zwischen:
o nichtsequentielle Batterie: gesamte Batterie wird allen Probanden
vorgegeben, und es werden diejenigen ausgewählt, die im optimal
gewichteten Summenwert die höchsten Scores erzielen
o single screen/Einzelteststrategie: alle weiteren Entscheidungen beruhen
allein auf einem Test
I und IV = Abgelehnte
II und III = Ausgewählte
2. Mehrstufige Strategien


sequentielles/mehrstufiges Vorgehen in „normalem Leben“ eher die Regel
auf mehrstufigen Entscheidungsstrategien beruhen die meisten:
o persönlichen Entscheidungen (z.B. Studium, Studiengangswechsel, Firma
gründen, berufliche Neuorientierung…)
Zusammenfassung Diagnostik
S e i t e | 81
institutionellen Entscheidungen (z.B. Universität: Sammeln von
Leistungsnachweisen, Zulassung zu Vorprüfungen, Ausschluss bei
Nichtbestehen  Universität sammelt ständig diagnostische Information über
den Leistungs-/Motivationsstand der Studenten)
3 verschiedene Grundmuster möglich:
o Vorauswahl-(Pre-reject-)Strategie:
 Nach einem Test werden alle Probanden, die einen bestimmten
Score nicht erreichen, von weiteren Untersuchungen
ausgeschlossen
 Die verbleibenden Probanden absolvieren weitere Verfahren
 Entscheidung über Annahme vs. Ablehnung wird aus Kombination
zwischen Erst- und Folgetests getroffen
 Beispiel: Zulassung zur praktischen Führerscheinprüfung nur, wenn
theoretische bestanden
o Vorentscheidungs-(Pre-accept-)Strategie:
 Nach einem ersten Teil werden alle Probanden, die einen
bestimmten Trennwert überschreiten, bereits (terminal) akzeptiert
 Mit den verbleibenden Probanden wird analog zur
Vorauswahlstrategie verfahren
 Beispiel: früher bestimmte Plätze im Medizinstudiengang für Schüler
mit besten Abinoten bereits reserviert, Rest konnte durch Bestehen
eines Test aufgenommen werden
o Vollständige sequentielle Strategie:
 Kombination der beiden ersten Vorgehensweisen
 Nach Maßgabe der Punktwerte in einem Test erfolgt eine Aufteilung
aller Probanden in 3 Gruppen: eine, die (terminal) akzeptiert, eine
andere, die definitiv abgewiesen und eine dritte, die mit einem
Folgetest untersucht wird
o

I und IV = Abgelehnte
II und III = Ausgewählte


Entscheidung für sequentielle bzw. einstufige Entscheidung hängt für Institution
von Kosten/Nutzen ab
o Kosten: wie teuer ist Untersuchung? Nutzen: Wie viel Gewinn kann durch
Selektion der Besten erwirtschaftet werden? (s.u.)
o Validität und Prozentanteil auszuwählender Bewerber spielen große Rolle
Sequentielle Entscheidungen den einstufigen generell überlegen, außer bei
extremen Selektionsraten
Entscheidungsfehler



Entscheidungsstrategien haben d. Ziel, Fehler bei Klassenzuordnung zu vermeiden
Entscheidungsfehler liegen vor, wenn Zuordnung durch Prädiktorvariable/n nicht
mit der tatsächlichen Klassenzugehörigkeit übereinstimmt
 kommt vor, da Entscheidungen mit Unsicherheit oder Irrtumsrisiko behaftet
Sequentielle Entscheidungen lassen sich in mehrere einstufige Entscheidungen
unterteilen, daher gelten folgende Fehler für beide Entscheidungsstrategien
Zusammenfassung Diagnostik
S e i t e | 82
Arten von Fehlern
1. Fehler 1. Art, -Fehler, (falsch Positive): z.B. gesunde Person wird als krank
klassifiziert
2. Fehler 2. Art, -Fehler, (falsch Negative): z.B. kranke Person wird als gesund
klassifiziert
Gütekriterien einer Entscheidungsstrategie
Je besser die Gütekriterien, desto geringer die Wahrscheinlichkeit, Fehler zu machen
1. Sensitivität: Wahrscheinlichkeit, mit der ein vorliegender
positiver Zustand auch als solcher erkannt wird (z.B. Anteil der
richtig diagnostizierten Kranken an der Gesamtgruppe der
Kranken)
 Hoch ausgeprägt, wenn viele RP und wenige FN
 Möglichst kein geeigneter soll abgelehnt werden
2. Spezifität: Wahrscheinlichkeit, mit der ein vorliegender
negativer Zustand als solcher erkannt wird (z.B. Anteil der
richtig diagnostizierten Gesunden an der Gesamtgruppe der
Gesunden)
 Hoch ausgeprägt, wenn viele RN und wenige FP
 Möglichst kein ungeeigneter soll ausgewählt werden
3. Positiver Prädiktions-/Vorhersagewert: Wahrscheinlichkeit, mit
der eine positive Diagnose zutreffend ist (z.B. Anteil der
tatsächlich Kranken an allen als krank diagnostizierten
Personen)
4. Negativer Prädiktions-/Vorhersagewert: Wahrscheinlichkeit,
mit der eine negative Diagnose zutreffend ist (z.B. Anteil der
tatsächlich Gesunden an allen als gesund diagnostizierten
Personen)
RP
RP  FN
RN
RN  FP
RP
RP  FP
RN
RN  FN
Gütekriterien und Basisrate:
Sensitivität und Spezifität können unabhängig von Basisrate bestimmt werden,
Prädiktionswerte werden hingegen stark durch sie beeinflusst
Basisrate/natürlicher Eignungsquotient: Verhältnis der im Kriterium
erfolgreichen Probanden zur Gesamtzahl aller Messwertträger
RP  FN
N
 auch bei Tests mit sehr geringer Validität kann sehr effizient ausgewählt werden
(d.h. nur voraussichtlich erfolgreiche Bewerber werden ausgewählt), wenn die
Basisrate der geeigneten Bewerber hoch ist, die Selektionsrate aber nur gering
 Güte eines Zuordnungsverfahrens hängt daher stark von der Basisrate ab (je
höher Basisrate, desto leichter kann effizient ausgewählt werden)
Selektiver Eignungsquotient/Effizienz der Auslese: Anteil der
Geeigneten an allen Ausgewählten (identisch mit dem positiven
Prädiktionswert!)
RP
RP  FP
Bedeutung von Fehlerarten


kann sehr unterschiedlich sein
Beispiel: Zuordnung zur Kategorie „krank“ wenn man tatsächlich krank ist
(Annahme Alternativhypothese) sehr wichtig, da nur dann Behandlung erfolgt
 Wahrscheinlichkeit einer fälschlichen Nicht-Zuordnung zu dieser Kategorie
(Annahme der Nullhypothese bei gültiger Alternativhypothese) sollte
möglichst minimiert werden (möglichst wenige FN, möglichst kein -Fehler)
Zusammenfassung Diagnostik
S e i t e | 83
Minimierung von Fehlern


Mehrere Entscheidungsregeln, um Fehler bei Zuordnungsverfahren gering zu
halten
Wahl des Kriteriums hängt von diagnostischer Fragestellung ab
1. Neyman-Pearson-Kriterium
o Das Entscheidungskriterium wird so weit verschoben, dass das Risiko für
den Fehler 1. Art unterhalb eines frei bestimmbaren Wertes liegt (z.B.
<0,05)
o Problem: mit Reduzierung des -Fehlers wächst -Fehler in unbekanntem
Ausmaß an
 Regel nur in Situationen sinnvoll, wo -Fehler relativ unbedeutend sind
 in klinischer Diagnostik sind -Fehler aber meist gravierenderer als Fehler (Keine Behandlung bei Krankheit schlimmer als Stigmatisierung
durch Behandlung eines Gesunden)!
2. Minimax-Kriterium
o maximaler Zuordnungsfehler in allen Klassen soll möglichst klein sein
o Es wird die Alternative gewählt, bei der der Betrag des größten
Zuordnungsfehlers am geringsten ist (minimaler Maximalwert)
( größter Zuordnungsfehler möglichst klein)
3. Minimum-Loss-Kriterium
o Minimierung der Zuordnungsfehler über alle Klassen hinweg
o Im Vergleich zum Minimax-Kriterium kann dies bedeuten, dass eine
Konstellation gewählt wird, bei der der Zuordnungsfehler zu einer
Kategorie im Vergleich zu allen anderen relativ hoch ist
( Zuordnungsfehler insgesamt möglichst klein)
Zuordnungsmethoden
Analyse von Entscheidungsfehlern setzt voraus, dass vorher bereits eine Zuordnung
stattgefunden hat
Verschiedene Zuordnungsmethoden:
1. Zugehörigkeitswahrscheinlichkeiten:
o Person wird zu derjenigen Klasse zugeordnet, der sie entsprechend ihrer
Ausprägung im Prädiktor mit der größten Wahrscheinlichkeit angehört
o man verwendet hierzu
 xi = Vektor aller Prädiktoren eines Individuums i
 KA+ = Kategorie der Personen mit positiver
i
A
Ausprägung des Kriteriums
i
 KA- = Kategorie der Personen mit negativer
i
A
Ausprägung des Kriteriums
den LikelihoodQuotient:
L( x ) 
p( x / K )
c
p( x / K )
wird c = 1 gesetzt, ergibt sich Zuordnung nach dem Prinzip der
maximalen Gruppenzugehörigkeitswahrscheinlichkeit
 kleinere/größere Werte für c: Verbesserung der Sensitivität zu
Lasten der Spezifität und umgekehrt
 Möglichkeit, den Quotienten zu erweitern, um Basisrate oder
Kosten/Nutzen zu berücksichtigen
2. Regressionstechniken:
o Bildung einer Regressionsgleichung für ein bestimmtes „Problem“
o Einsetzen individueller Prädiktionswerte in Gleichung  Kriteriumswert für
diese Person resultiert
o Zuordnung zu Kategorien durch Differenzbildung mit kritischen
Kriteriumswerten

Zusammenfassung Diagnostik
S e i t e | 84
3. Diskriminanzanalyse:
o ähnlich wie Regressionsanalyse, aber einfacher
o Bildung einer Diskriminanzfunktion
o Einsetzen der individuellen Testwerte  Wert
o Vergleich des resultierenden Werts wird mit kritischem
Diskriminationswert, der Klassen voneinander trennt
4. Ähnlichkeits- bzw. Distanzmaße:
o z.B. Vergleich eines individuellen Testwerteprofils mit dem
durchschnittlichen Profil verschiedener Gruppen
o verschiedene Maße zur Berechnung von Distanzen:
a) Euklidische Distanz
b) adaptierte Cattellsche Formel
 Zuordnung der Person zu der Gruppe, zu deren Gruppenvergleichsprofil geringste Distanz bzw. größte Ähnlichkeit besteht
Problem: Berechnung der Distanz mit diesen Maßen setzt Unabhängigkeit der
Prädiktoren voraus  oft nicht gegeben  Mahalanobis-Distanz (Verallgemeinerung der Euklidischen Distanz; verlangt diese Voraussetzung nicht)
Festsetzung von Trennwerten
Punkte, die für Festlegung von Trennwerten maßgeblich sind:
 Je weiter der Cut-Off in Richtung des zu identifizierenden Merkmals (z.B.
Krankheit) hin angehoben wird, umso höher fällt der positive Prädiktionswert
(selektive Eignungsquotient) aus
o Problem: nur FP werden verringert, nicht aber FN  Rückgang der
Fehlerrate des -Fehlers, FP (Zunahme der Spezifität) bedeutet
Zunahme der Fehlerrate des -Fehlers, FN (Abnahme der
Sensitivität)
 Basisrate von Bedeutung

ROC-Kurven können unabhängig von der Basisrate
berechnet werden, wenn die Verteilungskennwerte
der unterschiedlichen Gruppen durch empirische
Untersuchungen bekannt sind
ROC-Kurve (Receiver-Operating Characteristic, Signalentdeckungstheorie)

Bestimmung von Sensitivität u. Spezifität für alle potentiellen Trennwerte/Cut-offs
 Wertepaare von Spezifität und Sensitivität eines diagnostischen Tests
werden für alle möglichen Trennwerte innerhalb des Messbereiches
abgetragen
 stellt Verhältnis zwischen Sensitivität 1- Spezifität dar
(es ist üblich, nicht die Spezifität sondern 1-Spezifität abzutragen, da
ursprünglich anhand von FP bzw. False Alarms
gerechnet wurde)
Idealfall
Beschreibung des Bildes:

Links unten
o sehr hohe Trennwerte, man nimmt so gut wie niemanden
an/ man klassifiziert niemanden als krank
o Sensitivität sehr niedrig (man übersieht alles)
o Spezifität sehr hoch (daher ist 1 minus der Spezifität 0;
man stuft keinen Gesunden fälschlich als krank ein)
Zusammenfassung Diagnostik
S e i t e | 85



Rechts oben:
o sehr niedrige Trennwerte, man nimmt so gut wie jeden an/ man klassifiziert alle
als krank
o Sensitivität sehr hoch (man übersieht nichts)
o Spezifität ist 0 (und 1 minus der Spezifität ist 1, weil man alle Gesunden auch als
krank einstuft)
Idealfall: Kurve zieht links oben ganz hinauf, d. h. der Test gewinnt bei sinkenden
Entscheidungsgrenzen an Sensitivität ohne an Spezifität zu verlieren, geht dann nach
rechts bis ans rechte obere Ende (d.h. bei weiter sinkenden Grenzen verliert er an
Spezifität ohne aber an Sensitivität zu verlieren). „Kurve“ bildet dabei mit den
Achsen ein Quadrat.
In Praxis sinkt meist mit sinkenden Entscheidungsgrenzen die Spezifität und die
Kurve geht daher nicht senkrecht nach oben, sondern weicht mehr oder weniger
rasch nach rechts ab, bevor sie eine Sensitivität von 1 erreicht
 Wahl des Trennwertes, der für eigene Untersuchung hinsichtlich Sensitivität und
Spezifität am geeignetsten.
Problem bei Festlegung kritischer Trennwerte: es gibt keine eindeutige Lösung!
 bei methodischer Berechnung des „besten Trennwertes“ müssen zusätzlich die
einzelnen Ausgänge und Fehlermöglichkeiten bewertet werden
 Festlegung von Trennwerten nicht allein wissenschaftlich begründbar, sondern
auch Berücksichtigung persönlicher, sozialer, ökonomischer u. praktischer Aspekte
 Zusammenhang mit Fairnessproblematik
Nutzenerwägungen


Institutionelle/individuelle Entscheidungen werden getroffen, weil man sich durch
richtige Entscheidung Gewinn erhofft und durch falsche Entscheidung Verlust
vermeiden will
 Auseinandersetzung mit Frage, wie gewinnbringend der Einsatz z.B. eines
Auswahlverfahrens für Unternehmen ist
 Ist Verfahren nützlich?
 Erweiterung der psychologischen Diagnostik um ökonomische Dimension
Generelle Aspekte (gehen in Nutzenformeln ein):
o Validität (Güte einer Entscheidung hängt oft von Güte der Vorhersage ab)
o Basisrate
o Selektionsquote (bei extrem hoher oder geringer Selektionsquote kann
selbst Einsatz eines hochvaliden Tests keinen Nutzen bringen)
o erwarteter „Nutzen“ eines Individuums im Kriterium
o Streuung im Kriterium ( z.B. wie groß sind Unterschiede zw. guten und
schlechten Mitarbeitern?)
o Entwicklungs- und Durchführungskosten des Verfahrens
o Anzahl der Durchführungen und Individuen
Entwicklung einer Nutzenfunktion (Cronbach & Gleser)
 dient der Bestimmung des Gesamtnutzen eine Entscheidungsstrategie; Vorgehen:
1. notwendige Voraussetzung eine Nutzenfunktion: Strategiematrix
o in ihr sind die Regeln festgehalten sind, nach denen auf Basis
diagnostischer Informationen Entscheidungen getroffen werden sollen
o Werte dieser Matrix geben Wahrscheinlichkeiten an, mit der ein Proband
von dem Information xr vorliegt, der Behandlung t zugeführt wird: p(t|xr)
Zusammenfassung Diagnostik
S e i t e | 86
o
Strategiematrix:
2. Verknüpfung zwischen vorgenommener Behandlung und Ergebnis (=Erfolg im
Kriterium)  wird in Validitätsmatrix festgehalten
o Werte dieser Matrix geben Wahrscheinlichkeiten dafür an, dass ein Proband
mit xr und der Behandlung t den Kriteriumswert cr erlangt: p(c|xr,t)
o Kriteriumswerte können dichotom (erfolgreich/nicht erfolgreich 
einfachster Fall), oder auch kontinuierlich abgestuft sein
o Validitätsmatrix:
Beispiel einer
Validitätsmatrix für
Behandlung t1
(Annahme)
 für jede
Behandlung müsste
eine Validitätsmatrix
berechnet werden
3. Dann wird jeder Kriteriumsklasse C ein Nutzenvektor ec und jeder
Informationsklasse ein Kostenvektor cc zugeordnet
o Nutzen: Wert, der sich bei jeder Stufe des Kriteriums für auslesende
Institution ergibt (Beispiel: Wert in €  500.000 für erfolgreiche Person,
250.000 für mäßig erfolgreiche Person, -500.000 für „Versager“)
o Kosten: Aufwendungen zur Gewinnung der jeweiligen Information
o Nutzen und Kosten müssen auf der gleichen Skala abgetragen sein und
mindestens Intervallskalenniveau aufweisen (bei Geld z.B. erfüllt)
4. Eintragungen aus Strategie- und Validitätsmatrix und Werte des Kosten- und
Nutzenvektors werden zur Nutzenberechnung in Nutzenfunktion von Cronbach &
Gleser eingesetzt
Nettonutzen


Formel von Cronbach & Gleser kann zur Berechnung des Nettonutzens einer
Entscheidungsstrategie verwendet werden
hierzu werden Kosten und Nutzen mit der Zahl der untersuchten Probanden
multipliziert
Wenn für Informations- und Kriteriumskategorien Kontinuitätsmaßnahmen gemacht,
konstante Kosten für alle Probanden unterstellt und eine lineare Beziehung zwischen
Prädiktoren und Nutzen angenommen werden, geht das Modell von Cronbach & Gleser in
das von Brodgen über:
Zusammenfassung Diagnostik
S e i t e | 87
Nutzenformel von Brodgen
Andere Nutzenmodelle




A-priori-Nutzen: Personen werden aus Grundgesamtheit durch Zufall ausgewählt
Netto-Nutzen: Netto-Nutzen pro untersuchter Person („per man tested“) ergibt
sich, wenn errechneter Nettonutzen durch die Anzahl der Probanden N geteilt wird
neuere Modelle berücksichtigen u.a. Zinsen, Zeitfaktor, Einfluss von
Gewinnsteuern etc.
anderer Ansatz:
o durchschnittlicher Wert jedes unselbstständig Beschäftigten wird auf
30.000 € festgesetzt
o bei Annahme von nur 5 % Leistungssteigerung durch psychologische
Diagnostik (relativ leicht zu erreichen) jährlicher Gewinn von 1.500 €
o bei 10-jähriger Anstellung in gleicher Arbeitsstelle  15.000 € Nutzen für
jeden psychologisch ausgewählten Mitarbeiter – Investitionen und Kosten
für Einstellung des/der Psychologen
 dennoch erheblicher Netto-Übersschuss!
Bewertung der Nutzenmodelle
-
-
-
-
Voraussetzung des linearen Zusammenhangs zwischen Prädiktor und Nutzen (wie
bei Brodgen gefordert) oft nicht gegeben (z.B. Regressionsgerade steigt erst ab
einem bestimmten Punkt sprunghaft an, umgekehrt U-förmige Regressionslinie
durch Über- oder Unterforderung…)
konkrete Ermittlung relevanter Parameter schwierig und mit Unsicherheit
behaftet, daher handelt es sich zumindest teilweise nur um scheinbaren Gewinn
an Genauigkeit durch Anwendung von Nutzenformeln
o z.B. schwierig, Werte für Validitätsmatrizen zu erhalten, da Personen
eigentlich zufällig auf Treatments aufgeteilt und längsschnittlich untersucht
werden müssten, um Erfolgsraten adäquat zu bestimmen; es darf vorher
keine Selektion durch eine Entscheidungsstrategie stattfinden
angemessene Berücksichtigung individueller Kosten und Nutzen fehlt; individuelle
Verluste müssten zusätzlich als gesellschaftliche Kosten miteinbezogen werden
(z.B. Versorgung durch Staat, wenn eigene Versorgung nicht möglich)
Bestimmung der Geldwertäquivalente:
- Verlust bei falscher Ablehnung/Annahme schwierig zu bestimmen:
Zusammenfassung Diagnostik
S e i t e | 88
einfachster Ansatz: Abgelehnter Bewerber hat Nutzen = 0, da kein
weiterer Kontakt mit der Institution
 eigentlich müsste aber auch dadurch entgangener Gewinn
(Opportunitätskosten) berücksichtigt werden
Kosten können relativ leicht bestimmt werden (Ausgaben für Test,
Administration und Auswertung des Tests)

+
+
+
Berechnung der Nutzenwerte bei elementaren Leistungen (z.B. Stückzahl bei
Akkordarbeit) relativ einfach, aber auch bei komplexen Tätigkeiten möglich
Nutzenbestimmung kann erhebliche Einsparungen leisten (z.B. optimale
Platzierung von Personen auf Arbeitsplätze auf unterschiedlichen
Beschäftigungshierarchiebenen  bessere Produktivität; Kostensenkung durch
Psychotherapie  kostet zwar, aber weniger als z.B. stationärer Aufenthalt,
Arbeitsausfall etc.)
Regression
1. Einfache lineare Regression



Vorhersage des Kriteriumswertes anhand eines Prädiktors
lineare Beziehung: einfachste Beziehung zwischen 2 intervallskalierten Variablen
graphische Darstellung  Gerade; allgemeine Geradengleichung:
y  a b x






y:
a:
b:
x:
Wert auf Ordinate (Kriterium)
Konstante, y-Achsenabschnitt
Steigung, Gewicht (positiv, negativ oder 0)
Werte auf Abzisse (Prädiktor)
je größer (der Betrag von) b bzw. die Steigung, desto stärker der Zusammenhang
zwischen x und y
bei SPSS: Kriterium = abhängige Variable, Prädiktor = unabhängige Variable
2. Nonlineare Regressionsmodelle

Vorhersage des Kriteriumswertes anhand eines Prädiktors
a) quadratisch oder exponentiell, z.B. Vergessenkurve
b) parabolischer oder kubischer Zusammenhang, z.B.
Yerkes-Dodson-Regel
Zusammenfassung Diagnostik
S e i t e | 89
c) funktionaler Zusammenhang
d) logarithmischer Zusammenhang, z.B. Leistung, die
anfangs stark ansteigt und dann abflacht
3. Multiple lineare Regression

Vorhersage des Kriteriumswertes aufgrund zweier oder mehrerer Prädiktoren
y  a  b1  x1  b2  x2






x1:
x2:
b1:
b2:
Wert Prädiktor 1
Wert Prädiktor 2
Steigung Prädiktor 1
Steigung Prädiktor 2
Graphische Darstellung für zwei Prädiktoren:
Ebene (siehe Bild)
bei mehr als zwei Prädiktoren ist keine
graphische Darstellung mehr möglich

Durchführung:
o R = multipler Korrelationskoeffizient
o R entspricht der Produkt-MomentKorrelation zwischen den eigentlichen
(gemessenen) Werte und den durch die
Regressionsgleichung vorhergesagten
(geschätzten) Werten
o wenn R = 1  perfekte Vorhersage
o wenn R = 0  Zufallsniveau
o Beispiel: Multiple Korrelation zwischen durch Schulnoten und Gedächtnis
vorhergesagten Intelligenzwerten und gemessenen Intelligenzwerten

bei SPSS:
o es stehen so viele Modelle im Output, wie man Prädiktoren hat
o Im 1. Modell wird nur Vorhersage durch den 1. Prädiktor geprüft
o Im 2. Modell wird Vorhersage durch 1. und 2. Prädiktor geprüft, es wird
geprüft, ob durch Hinzunahme des 2. Prädiktors signifikant mehr Varianz
aufgeklärt (höhere multiple Korrelation R) werden kann, als durch den 1.
Prädiktor allein  liefert Prädiktor 2 inkrementelle Varianz?
Regression bei invariantem Kriterium: (z.B. alle Vpn haben Wert 3 im Kriterium)
 SPSS kann zwar b berechnen, die multiple Korrelation kann aber nicht berechnet
werden, da aufgrund mangelnder Varianz durch Null geteilt werden müsste
(Berechnung möglich, wenn man statt Wert 3 Wert 3,0000000001 einsetzt!)
 Vorhersage umso besser, je näher Punkte um die Regressionsgerade liegen, da
dann mehr Varianz aufgeklärt wird
Zusammenfassung Diagnostik
S e i t e | 90
Probleme und Differenzierungen von Prognosen
geht hauptsächlich um die Beeinträchtigung der Validität durch verschiedene Faktoren
Kontextuale Faktoren und technische Verbesserungen
Konformitätsdruck/Situativer Druck und Verhaltensvariabilität



Uneindeutige Situationen erlauben Personen mehrere Handlungsalternativen
o schwache Situationen  geringer Konformitätsdruck
o z.B. Kleidungsstil im Alltag
o geringer situativer Druck führt zu Verhaltensvariabilität  individuelle
Unterschiede in Häufigkeit, Intensität und Stil des Verhaltens zeigen sich
Bestimmte Situationen engen Verhaltensspielraum ein
o starke Situationen  hoher Konformitätsdruck (positiv oder negativ)
o z.B. rote Ampel, Freibad, Gottesdienst
o hoher situativer Druck führt zu Verhaltenskonformität
 traitgeleitete individuelle Verhaltensunterschiede verschwinden
 individuelle Variabilität verschwindet und kann daher nicht mit
Testmaßen aufgedeckt werden
 weniger Varianz im Verhalten/Prädiktorwerten führt zu weniger
guten Vorhersagen
Berücksichtigung individueller Perzeptionen und Kognitionen: auch starke
Situationen können bei verschiedenen Personen unterschiedlich aufgefasst
werden, z.B. wenn diese unterschiedliche Erwartungen bzgl.
Handlungskonsequenzen haben

Eigenschaftstheoretische Ansätze erfordern Situationen, die „schwach“/
uneindeutig strukturiert sind und somit unterschiedliche Bedeutung für Vpn hat
o Forderung gilt für Erhebung von Prädiktor- und Kriteriumswerten
(Kriterium: z.B. Verhalten in bestimmter Situation)
o nur so macht Verhaltensvorhersage bzw. Varianzaufklärung Sinn
o Ausgenommen: Leistungsbereich  hier ist bessere Darstellung nicht
möglich, es wird immer das Maximum abgefragt
o Problem im Persönlichkeitsbereich: soziale Erwünschtheit

Beispiele: Monson et al. (1982a)
o Verhaltensbeobachtung in 3 Situationen
 Situation 1: hoher Druck introvertiertes Verhalten zu zeigen
 Situation 2: hoher Druck extravertiertes Verhalten zu zeigen
 Situation 3: keine Verhaltenskonformität induziert
o Zusammenhänge zwischen Selbstbericht (vor Experiment mit Fragebogen
erhoben) und Experteneinschätzung sind in der neutralen Situation
signifikant höher (r = .56) als in den anderen Situationen (r = .18 bzw.
r=.38), da in Situation 1 und 2 zwangsbedingt verminderte
Kriteriumsstreuung
 Situation kann so gestaltet werden, dass sich Dispositionen in voller
Bandbreite zeigen
 Vorhersage in neutraler Situation sehr viel besser möglich


Projektive Tests: individuelles, nichtkonformes Verhalten wird angeregt
Konkurrenz- bzw. Auslesesituation: konformes Verhalten wird angeregt  hoher
Druck auf soziale erwünschte Antworten, Testwerte daher unbrauchbar
Möglichkeit zur Reduktion dieser Problematik  Aggregation von Daten über Situationen
(mehrfaches Messen führt zu Ausgleich starker und schwacher Situationen, Einfluss der
Situation mittelt sich raus, es ergibt sich ein „reinerer“ Dispositionsindikator)
Zusammenfassung Diagnostik
S e i t e | 91
Aggregation von Maßen

Epstein:
o Die Vorhersage einzelner Verhaltensakte gelingt weniger gut, die
Zusammenhänge nach Aggregation fallen viel höher aus.
o Die Möglichkeit einer Verhaltensvorhersage mithilfe einer
Persönlichkeitseigenschaft verbessert sich, wenn das interessierende
Verhalten oder Erleben (= Kriterium) wiederholt gemessen wird und über
die verschiedenen Messzeitpunkte aggregiert wird (d.h. wenn statt des
einmaligen momentanen Verhaltens und Erlebens das typische oder
durchschnittliche individuelle Verhalten und Erleben vorhergesagt wird).

Aggregation = Reliabilitätsverbesserung auf Kriteriumsseite  Testverlängerung
= Reliabilitätsverbesserung auf Prädiktorenseite
Reliabilitätserhöhung  Validitätserhöhung


Aggregation auf mehrere Arten möglich:
o Aggregation über „occasions“: Mittelung desselben (prinzipiell) Verhaltens
über mehrere Beobachtungszeitpunkte hinweg
o Aggregation über „modes“: Zusammenfassen von „single acts“ (einzelne
selbst- oder fremdeingeschätzte Verhaltensweisen) zu „multiple referents“
(durch mehrere Indikatoren repräsentierte Traitmaße)
 „single acts“ korrelieren aufgrund geringer Stabilität und hoher
Spezifität nur gering miteinander, aber hoch mit dem Aggregat
anderer für das Konstrukt einschlägiger Verhaltensweisen
 bewirkt nicht nur Reliabilitätssteigerung, sondern auch Erhöhung
der Heterogenität und inhaltlichen Breite  höhere Validität und
transsituative Verhaltenskonsistenzen
o Aggregation über Situationen: Erhöhung der transsituativen Konsistenz
 nur sinnvoll, wenn das Durchschnittsverhalten in einer Klasse
ähnlicher Verhaltensweisen interessiert (hier kann durch Reduktion
des Messfehlers Vorhersagegenauigkeit erhöht werden)
 Wenn Reaktion einer Vp in spezifischen Situationen interessiert,
verdeckt Aggregation eher situationsspezifische Varianzanteile
Beispiel: Borkenau et al. (2004)
 Vpn müssen in 15 verschiedenen Situationen bestimmte Aufgaben erfüllen (z.B.
Witz erzählen), werden dabei auf Video aufgezeichnet
 bearbeiten danach NEO-FFI (Persönlichkeitstest) sowie APM und LPS
(Intelligenztests)
 Geschulte Experten schätzen Persönlichkeitsfaktoren und Intelligenz der Vpn
jeweils in einzelnen Situationen ein
 Einschätzungen der Experten werden über verschiedene Anzahlen von Situationen
aggregiert (kleinstes Aggregat: 1 Situation, größtes: 15 Situationen)
 Aggregate werden mit den Fragebogendaten korreliert
 Ergebnis: je mehr Situationen aggregiert werden, desto höher werden die
Korrelationen für alle Persönlichkeitsfaktoren und die Intelligenz, ab bestimmter
Anzahl von Situationen keine/geringe Steigerung
Erhöhung der Validität durch Selbstaufmerksamkeit
Induktion von Selbstaufmerksamkeit führt zu valideren Angaben in Fragebögen

Studie von Pryor et al. (1977)
o Design: Ausfüllen Soziabilitäts-Fragebogens vor/ohne Spiegel
 Variation des Ausmaßes selbstzentrierter Aufmerksamkeit
Zusammenfassung Diagnostik
S e i t e | 92
o
o
o
o

Kriterium (Soziabilität) wurde als Kombination aus Fremdrating und
Verhaltensbefunden (Anzahl der in Warteraum gesprochenen Worte)
erhoben
Fragebogendaten und Kriteriumswerte wurden miteinander korreliert
Ergebnis: Starke Unterschiede zwischen üblicher Bedingung (r = .16) und
Spiegelbedingung (r = .62)  Selbstaufmerksamkeit erhöht Validität von
Selbstberichten über Soziabilität
Induktion selbstzentrierter Aufmerksamkeit kann bei inhaltsvalidem
Messverfahren Vorhersagevalidität eines Verfahrens erhöhen
Hinweise darauf, dass häufig gegebene Instruktion, bei Beantwortung von Fragen
nicht lange nachzudenken, kontraproduktiv ist
o scheinbar können gerade sozial erwünschte Antworten sehr schnell
gegeben werden
o reflektive Gedanken über Persönlichkeit werden eher unterbunden
 Beeinträchtigung der Validität der Selbstbeschreibung
o geeignete situative Rahmenbedingungen für Vp schaffen, damit diese sich
selbst möglichst adäquat beschreiben kann (einführendes Gespräch,
ausführliche Exploration…)
Validität ohne Stabilität
Bei der Erfassung von States (meist vermutlich auf eine einzige Person bezogen) ist
Retestung kein angemessener Zugang zur Bestimmung der Reliabilität bzw. Stabilität, da
diese sich gerade durch Instabilität auszeichnen und dies dem Anspruch, sensitiv auf
Veränderungen zu reagieren entgegensteht (da nicht nur kleine Schwankungen, sondern
starke Veränderungen bei States  müsste sich ja auf die Retest-Reliabilität stark
negativ auswirken)
 gilt für alle Fälle, in denen der wahre Wert Schwankungen aufweist (z.B. auch bei
Aufmerksamkeit)
 hier versagen herkömmliche Reliabilitätsschätzungen, die den Anteil wahrer an
der Messwertevarianz bestimmen und es müssen andere Indizes gewählt werden
(z.B. Amplitude von Schwankungen um Mittelwert)
Moderation
Def.: Moderatorvariablen beschreiben interindividuelle Differenzen in der
Vorhersagbarkeit eines Kriteriums und korrelieren daher mit der Validität eines Tests



Szenarien denkbar, in denen für verschiedene Individuen verschiedene
Vorhersagen getroffen werden müssen
Variablen, die „interindividuelle Differenzen in der Voraussagbarkeit
eines Kriteriums“ erklären, werden konventionell als
Moderatorvariablen bezeichnet  Fähigkeit eines Prädiktors zur
Vorhersage eines Kriteriums kann also von einer dritten Variable
beeinflusst sein
Moderatorvariablen sind mit der Validität eines Tests
(Zusammenhang von Prädiktor und Kriterium) korreliert.
Korrelationen des Moderators mit Prädiktor oder Kriterium müssen nicht
zwingendermaßen bestehen.
Zusammenfassung Diagnostik
S e i t e | 93
Variable z hat den Wert 0
r = 0, da insensitiv für z
Variable z hat den Wert 1

Die in den Substichproben bestehenden Zusammenhänge können nicht entdeckt
werden, wenn die Variable z (Moderator) nicht berücksichtigt wird

Innerhalb von größeren Personengruppen kann es Substichproben mit ganz
unterschiedlicher Vorhersagbarkeit geben
Klassisches Beispiel: Frederiksen und Melville (1954)
Vorhersage des Schulerfolges bei rigiden und flexiblen Studenten durch Interessenstests
 Prädiktor: Interesse; Kriterium: Leistung/Note
 zwanghafte Studenten: setzen sich Interessenunabhängig überall gleich stark ein
 nichtzwanghafte Studenten: lernen in Abhängigkeit von ihren Interessen
 Ergebnis: Leistungen nichtzwanghafter Studenten lassen sich viel besser aus
Interessenstests vorhersagen als die zwanghafter Studenten
Suche nach Moderatoreffekten
(hypothesengeleitet  Was könnte Zusammenhang moderieren?)
1. Fraktionierungsmethode
Überprüft, ob in moderatorspezifischen Subgruppen unterschiedliche Validitäten bestehen
Vorgehen:




Gesamtstichprobe wird entsprechend der potentiellen Moderatorvariable aufgeteilt
(meist 2-3 Subgruppen; müssen nicht unbedingt gleich groß sein)
Bestimmung der Validitätskoeffizienten (Korrelation zwischen Prädiktor und
Kriterium) für alle Subgruppen
Vergleich der erhaltenen Validitätskoeffizienten
 keine Unterschiede: Die Variable, entsprechend der die Subgruppen
gebildet wurden, hat keinen moderierenden Effekt
 signifikante Unterschiede: Die Variable, entsprechend der die Subgruppen
gebildet wurden, hat einen moderierenden Effekt
Methode v.a. dann geeignet, wenn die Validität eines Tests in Gruppen bestimmt
werden soll, die in der Realität in alternativer (z.B. Geschlecht) oder mehrklassig
diskreter Form vorliegen (z.B. ethnische Abstammung)
Zusammenfassung Diagnostik
S e i t e | 94
Probleme der Fraktionierungsmethode:
hat einige Nachteile, wenn potentieller Moderator in kontinuierlicher und nicht in
alternativer o. mehrklassig diskreter Form vorliegt (z.B. Werte in Test, Schulnoten):
 Will man kontinuierlich-quantitative Variablen in (viele) separate Teilgruppen
untergliedern, vergrößert sich der Stichprobenfehler  Die zufallskritische
Absicherung der Unterschiede zwischen den Validitäten in den (dann relativ
kleinen) Stichproben wird erschwert
(Unterscheide kleiner Stichproben werden weniger schnell signifikant)
 Trennwert:
o Teilung der Gruppen vermutlich willkürlich (z.B. mittels Mediansplit)
entlang des Wertekontinuums  unwahrscheinlich, dass sich zugrunde
liegende Prozesse nach Überschreitung des Splits qualitativ unterscheiden
o Trennwert hängt auch davon ab, welche Personen mit welchen
Merkmalsausprägungen in der SP aufgenommen wurden
 Schwierig, aus den wenigen ermittelten Korrelationen der einzelnen Subgruppen
exakte Beziehung zwischen Moderatorvariable und Validität des Tests zu
formulieren, z.B. in Form von mathematischer Gleichung
 bei kontinuierlicher Variable ist regressionsanalytisches Modell besser geeignet
2. Regressionsanalytisches Modell/Moderierte Regression (Saunders)
Zentraler Gedanke: Die Steigung (b) und Konstante (a) der einfachen linearen
Regression wird mithilfe der Moderatorvariablen
vorhergesagt
Bei Hinzunahme eines weiteren Prädiktors (zu einem
bestehenden Prädiktor) entsteht eine Regressionsfläche
 bei multipler Regression ist Fläche eben
 bei moderierte Regression entsteht „Falte“, da
sich in Abhängigkeit von der Ausprägung der
Moderatorvariablen Z andere Zusammenhänge
zwischen Prädiktor und Kriterium und somit andere
Steigungen b der Regressionsgeraden ergeben
 jeder Prädiktor kann gleichzeitig Moderator sein und
umgekehrt
Schaubild: 3 Dimensionen
 X = Prädiktor
 Y = Kriterium
 Z = Moderator
Zusammenfassung Diagnostik
S e i t e | 95
Mathematische/räumliche Darstellung des Modells:
1. Ausgangspunkt der Parameterschätzung ist Formel der linearen Regression
y'  a  b  x
2. Die Steigungen der Regressionsgeraden (im Bild AB, CD, EF etc.) stellen eine
lineare Funktion des Moderators Z dar
b'  d  f  z
 auf jeder Stufe von Z ergibt sich eine andere Steigung b ‘
 f ist Ausmaß der Änderung von b‘ durch Änderung von Z
3. Aufgrund unterschiedlicher Steigungen ergeben sich unterschiedliche Konstanten,
da durch „Drehung“ der Regressionsgerade für jeden Z-Wert andere Schnittpunkte
mit Y ergeben
a'  c  e  z
 jedem b‘ entspricht ein bestimmtes a‘
4. b‘ und a‘, die von Z abhängig sind, werden in die Formel der linearen Regression
eingesetzt
y '  (c  e  z)  (d  f  z)  x
5. Auflösung der Klammern ergibt die Formel der moderierten Regression, die für die
Entscheidung, ob ein Moderator vorliegt oder nicht, wichtig ist
y'  c  d  x  e  z  f  x  z



Y = Kriterium
c = Konstante, neuer y-Achsenabschnitt
d = Gewicht Prädiktor
X = Prädiktor
e = Gewicht Moderator
Z = Moderator
f = Gewicht des Interaktionsterms
X  Z = Interaktionsterm
entspricht herkömmlicher
Regressionsgleichung für Vorhersage
auf Basis von 3 Prädiktoren (Moderator
wird als kontinuierliche Variable in
Regressionsanalyse eingegeben)
Zu den zwei Prädiktoren X und Z
kommt ein 3. Prädiktor hinzu: die Kreuzpunkte zwischen X und Z
Berechnung des Interaktionsterms durch Multiplikation der Prädiktor- und
Moderatorvariablen für jede einzelne Versuchsperson


d signifikant: Haupteffekt des Prädiktors
e signifikant: Haupteffekt des Moderators
 hier nicht so wichtig, da diese Haupteffekte aussagen würden, ob sich das
Kriterium hinreichend genau aus Prädiktor oder Moderator vorhersagen
lässt

Entscheidend: f signifikant (Potentieller Moderator wirkt sich signifikant aus)
 Man will wissen, ob die Vorhersage des Kriteriums Y (z.B. akademische
Leistung) durch den Prädiktor X (z.B. Interesse) in Abhängigkeit des
Moderators Z (z.B. Rigidität) variiert ( Interaktionseffekt)
Zusammenfassung Diagnostik
S e i t e | 96
 Wenn die multiple Korrelation zur Vorhersage des Kriteriums aus X und Z
durch Hinzunahme des Terms XZ signifikant ansteigt, f also signifikant
wird, kann Z als Moderator angenommen werden
Beispiele für Moderation


Validität von Fremdeinschätzungen, FB
(gemessen am Selbstbericht, SB) ist für
Personen höher, die ihr eigenschaftsrelevantes
Verhalten als gut beobachtbar bezeichnen 
gut beobachtbares Verhalten kann gut
eingeschätzt werden
Für Personen mit hohen Punktwerten in
Lügenskalen kann von geringerer Validität ihrer
Fragebogenbeantwortung ausgegangen werden
Geteilte und Spezifische Varianz



Normalerweise wird besonders viel Varianz im
Kriterium aufgeklärt, wenn Prädiktoren hoch mit dem
Kriterium korrelieren (große Anteile a und b) aber
untereinander gering korrelieren
Mittels schrittweiser multipler Regression kann
überprüft werden, ob eine Variable über eine andere
Variable hinaus Varianz aufklären kann (=
inkrementelle Validität)
Diese Betrachtung ignoriert aber Frage, wie viel
Varianz sich beide Prädiktoren im Kriterium teilen. Eine
derartige Aussage kann jedoch mithilfe der
Kommunalitätenanalyse geleistet werden
a: spezifische Varianz, die A aufklären kann
b: spezifische Varianz, die B aufklären kann
ab: geteilte Varianz, die A und B aufklären
Partialkorrelation und Part-/Semipartialkorrelation
Partialkorrelation:
Zusammenhang zweier Variablen, bei dem der Einfluss einer
Drittvariablen komplett eliminiert wurde (Anteile von A
werden aus B und C heraus gerechnet)
 Zusammenhang mit Suppression: Z.B. Herausrechnen
von Suppressor aus Prädiktor und Kriterium möglich
Part-/Semipartialkorrelation:
Zusammenhang zweier Variablen, die dem der Einfluss einer
Drittvariablen nur aus einer der beiden Variablen eliminiert
wird (Anteile von A werden nur aus C heraus gerechnet)
 Zusammenhang mit Suppression: Partkorrelation ist
immer dann größer als Korrelation zwischen Prädiktor
und Kriterium (Validität), wenn die Korrelation zwischen Prädiktor und Suppressor
ungleich Null ist (der Suppressor also etwas eliminieren kann)

Unter idealen Bedingungen (rs,c= 0) wird Partialkorrelation zur Partkorrelation
(Suppressor wird aus Prädiktor herausgerechnet, dann Prädiktor mit Kriterium
korreliert)
Zusammenfassung Diagnostik
S e i t e | 97


Unter suboptimalen Bedingungen (rsc ist ungleich Null) resultiert bei Partkorrelation
etwas höherer Koeffizient als bei Partialkorrelation, weil hier zusätzlich die
Korrelation zwischen Suppressor und Kriterium berücksichtigt wird (in Formel)
Wenn ideale Bedingungen verletzt sind, liefert multiple Korrelation höheren
Validitätskoeffizienten als Part- oder Partialkorrelation
Kommunalitätenanalyse
Problem: Die Prüfung, ob B inkrementelle Validität über A hat, ignoriert typischerweise
die Komponente ab
 Kommunalitätenanalyse ermöglicht es, gemeinsame (ab) und spezifische (a und b)
Varianzanteile festzustellen
Vorgehen:
1. Durchführung einer multiplen Regression: R2= a + b + ab
(wie viel Varianz teilen sich alle Variablen zusammen?)
2. Semipartialkorrelation bei der B in A kontrolliert wird:
r(C; A ohne B)2= a
3. Semipartialkorrelation bei der A in B kontrolliert wird:
r(C; B ohne A)2= b
4. Bei Kenntnis von a und b kann ab so berechnet werden: ab = R2-a -b
Beispiel: Klingbeil 2004

untersuchte Intelligenz und Fähigkeitsselbstkonzept als
Prädiktoren der Mathematiknote bei 9-jährigen Grundschülern
 Von der erklärten Varianz in der Note gehen
o 53% spezifisch auf Intelligenz
o 19% spezifisch auf Fähigkeitsselbstkonzept
o 28% auf geteilte Varianz beider Prädiktoren zurück
 geringes Fähigkeitsselbstkonzept kann zwar durch hohe
Intelligenz ausgeglichen werden
 im Umkehrschluss ist dies bei geringer Intelligenz und hohem
Fähigkeitsselbstkonzept aber nicht der Fall
Suppression
Def.: Suppressorvariablen können die Vorhersage/Validität verbessern, indem sie
irrelevante Varianz in den Prädiktoren unterdrücken



Normalerweise führt Kombination mehrerer Prädiktoren zu Validitätserhöhung
(z.B. Testbatterie mit mehreren Subskalen), v.a. dann, wenn Prädiktoren
möglichst hoch mit dem Kriterium, aber möglichst gering miteinander korrelieren
 jeder Prädiktor deckt so einen anderen Aspekt des Kriteriums ab
Validitätsverbesserung kann aber auch durch Gegenteil erreicht werden:
S P
Aufnahme von Variablen in Testbatterie, die mit dem Kriterium niedrig,
aber hoch mit den anderen Prädiktoren korrelieren (Supressoren)
 paradox: Validitätsteigerung trotz/wegen geringer Korrelation mit Kriterium!
 Idealfall: Nullkorrelation zwischen Suppressor und Kriterium (wenn keine
Nullkorrelation vorliegt, rechnet man relevante Varianz heraus, die eigentlich
zur Vorhersage des Kriteriums benötigt wird
Durch einen/mehrere Supressoren werden die für die Vorhersage des Kriteriums
irrelevanten Varianzanteile der Prädiktoren gebunden bzw. unterdrückt
Zusammenfassung Diagnostik
K
S e i t e | 98
Klassisches Beispiel: Horst (1966)
Vorhersage des Erfolgs in Ausbildungsprogramm für Piloten
Testbatterie erfasste:
1. mechanische Fähigkeit (M)
2. numerische Fähigkeit (N)
3. räumliche Fähigkeit (R)
4. verbale Fähigkeit (V)
korrelieren positiv mit Kriterium
korreliert nicht mit Kriterium,
aber mit den anderen 3 Skalen
 hohe Ausprägung in V begünstigt Leistung in M, N und R (besseres Verständnis
der Testinstruktion, bessere Lösungsprinzipien etc.)
 Die durch V verursachten Varianzanteile sollten also eliminiert werden, da hohe
Punktwerte in V nicht zur Vorhersage des Erfolgs geeignet sind, sondern nur hohe
Punktwerte in M, N und R
 Abzug der Varianz, die auf V zurückgeht (negatives -Gewicht in
Regressionsgleichung) führt trotz Nullkorrelation von V mit Trainingserfolg zu
erheblicher Validitätssteigerung
 V ist hier ein hilfreicher Supressor, da er inkrementell zur Varianzaufklärung
beiträgt (Aufnahme von V führt zu signifikant höherer Varianzaufklärung)
Weiteres Beispiel:



Kriterium = Erfolg im Berufsleben
Prädiktor = Examensnote, diese setzt sich aus Fachwissen und Prüfungsangst
zusammen  Prüfungsangst ist aber für beruflichen Erfolg irrelevant
Suppressorvariable (z.B. Test), die genau die Prüfungsangst abgreift  nach
Bereinigung steigt Korrelation zwischen Examensnote und Berufserfolg
Veranschaulichung des Suppressionseffekts
Korrelationen beruhen auf gemeinsamen Elementen:
 c hat 16 Elemente, davon 7 gemeinsam mit
Prädiktor (c-p)  auf diese will man hinaus, da
sie zur Vorhersage geeignet sind
 p hat auch 16 Elemente, von denen 9 für das
Kriterium irrelevant sind (8x(p-s)+1p)
 s erklärt 8 der 9 für c irrelevanten p-Elemente
 diese will man loswerden, da sie die
Korrelation verunreinigen
 s selbst ist eigentlich für die Vorhersage von c
irrelevant, da es keine gemeinsamen Elemente
mit c hat
 s bindet aber diejenigen Anteile von p, die keine Kommunalität mit c zeigen 
Gewichtete s-Variable wird hierzu von Prädiktorwerten abgezogen
Zusammenfassung Diagnostik
S e i t e | 99
Ausmaß der Validitätssteigerung durch Suppressor
Validitätssteigerung abhängig von:
 Höhe Korrelation des Suppressors zu
anderem/n Prädiktor/en
 ursprünglicher Prädiktor-KriteriumsKorrelation (Validität)
Zunahme an Validität (Y-Achse) als Funktion der
Korrelation zwischen Suppressor und Prädiktor (XAchse) sowie der Test-Kriteriums-Validitäten (Linien)
 je geringer die ursprüngliche Validität, desto
stärker die Validitätszunahme
 je höher Korrelation zwischen Prädiktor und
Kriterium, desto stärker Zunahme
 Erst bei sehr hohen Korrelationen zwischen P
und S sind Zunahmen wirklich bedeutsam
Fragen aus Vorlesung
1. Wie wird Suppressorvariable zur Erhöhung der Validität eingebracht?
 zwei Möglichkeiten:
a. durch „Herausrechnen“ des Suppressors
b. Durch negatives -Gewicht in der Vorhersagegleichung
2. Bedeutet ein signifikates Beta-Gewicht  nicht, dass die Variable, deren Gewicht
signifikant wird (z.B. Suppressor), mit dem Kriterium korrelieren muss?
 Nein, da die Bestimmung der Signifikanz des Betagewichts jeder einzelnen
Variablen in Abhängigkeit des Vorhandenseins der übrigen Variablen erfolgt
Problem des Suppressorkonzeptes
Hinzunahme eines weiteren Prädiktors ist viel effektiver als Suppressor: Um gleichen
Effekt an Validitätszunahme zu erzielen, muss Suppressor 4 Mal so viel Varianz im
Prädiktor erklären wie der neu hinzugenommene Prädiktor im Kriterium!
 wird daher in Empirie nicht so häufig angewendet
Mediation
Def.: Mediatorvariablen vermitteln den Einfluss, den ein Prädiktor auf ein Kriterium hat
 Mechanismus, durch den ein Prädiktor ein Kriterium beeinflusst
 Prädiktor verursacht Mediator, Mediator verursacht Kriterium
Wann verursacht eine Variable eine andere? Drei Kriterien für Kausalität:
 Zusammenhang
 Keine Scheinkorrelation (Drittvariable, die nicht berücksichtigt wird, aber eine
Korrelation zw. zwei anderen Variablen verursacht  wird ihr Einfluss heraus
gerechnet, besteht die Korrelation zw. den beiden Variablen nicht mehr)
 Richtung (Ursache muss dem Effekt vorausgehen)
Bedeutung der Mediation

Welche Bestandteile eines Treatments sind wirksam, welche nicht? Gibt es
mehrere Mediatoren?
Zusammenfassung Diagnostik
S e i t e | 100

Generierung und Überprüfung von Theorien darüber, welche Variablen für einen
Zusammenhang/eine Veränderung verantwortlich sind
Planung einer Mediatoranalyse
Auswahl von Mediatoren:
 Auswahl theoriebasiert
 Ideal: veränderbare Merkmale als Mediator
 Reliabilität des Messinstruments zur Erfassung des Mediators beachten
Maximierung von Power:
 Je größer Prädiktor-Mediator-Zusammenhang, desto größer muss Stichprobe sein,
um gleiche Power zu erhalten:
N (1  rPM )
2


= effektive Stichprobengröße; (rPM= Korr. Prädiktor-Mediator)
(meint z.B. dass man effektiv nur 460 Personen getestet hat, obwohl man
eigentlich 900 Vpn untersucht hat)
Auswahl von Variablen als Mediator, die vergleichbare Zusammenhänge zu
Prädiktor und Kriterium haben oder stärkere Zusammenhänge zum Kriterium als
zum Prädiktor
o Wenn der Mediator stärker mit dem Prädiktor korreliert als mit dem
Kriterium, wird der Prädiktor zum Mediator
 immer die Variable, die stärker mit dem Kriterium korreliert, wird als
Mediator angenommen
Methode von Kenny: sehr große Stichproben nötig (N>500) oder sehr starker
Mediatoreffekt
Mediatoranalyse nach Baron und Kenny (Überprüfung von Mediatoreffekten)
Nach Baron und Kenny (1986) liegt ein Mediatoreffekt vor, wenn folgenede
Bedingungen erfüllt: (Es werden zur Überprüfung drei Regressionen berechnet)
Schritt 1: Regression von Kriterium auf Prädiktor:
 Signifikanter Zusammenhang zwischen Prädiktor und Kriterium (Pfad a)?
Schritt 2: Regression von Mediator auf Prädiktor:
 Signifikanter Zusammenhang zwischen Prädiktor und Mediator (Pfad b)?
Schritt 3 und 4: Regression von Kriterium auf Mediator und Prädiktor:
 Signifikanter Zusammenhang zwischen Mediator und Kriterium (Pfad c)
 Pfad a nicht mehr signifikant wenn Pfad b und Pfad c kontrolliert
 Zusammenhang zwischen Prädiktor und Kriterium reduziert/
verschwindet, wenn Mediator in Modell aufgenommen wird
 Mediatoreffekt = Differenz in der Korrelation Prädiktor-Kriterium ohne
Aufnahme des Mediators vs. mit Aufnahme des Mediators
Vollständige Mediation: Nach Aufnahme des Mediators in die Analyse unterscheidet
sich die Korrelation von Prädiktor und Kriterium nicht mehr signifikant von Null
 Varianz, die der Prädiktor im Kriterium erklären kann, wird komplett durch den
Mediator erklärt
Partielle Mediation: Nach Aufnahme des Mediators in die Analyse wird die
Korrelation zwischen Prädiktor und Kriterium signifikant kleiner, aber ist noch
signifikant von Null verschieden
 Varianz, die der Prädiktor im Kriterium erklären kann, wird teilweise durch den
Mediator erklärt
Zusammenfassung Diagnostik
S e i t e | 101
Interpretation einer Mediatoranalyse
Testung der Mediatoreffekte auf Signifikanz (Sobel-Test):
 Mediatoreffekt entspricht Produkt aus b und c  Signifikanztest dieses Produkts
 Produkt aus b und c wird durch Standardfehler geteilt
 Wenn resultierender z-Wert > 1,96 dann ist Effekt auf einem Niveau von .05
signifikant
Ebenfalls zu berücksichtigen:
 Gibt es andere Modelle, die ebenfalls mit den Daten konsistent sind?
 Gibt es nicht berücksichtigte Variablen, die sowohl Mediator als auch Kriterium
beeinflussen (z. B. soziale Erwünschtheit)?
Beispiel 1: Intelligenzabbau im Alter
Hohes Alter (Prädiktor) verursacht schlechtere Sensorik (Mediator), schlechtere Sensorik
(Mediator) verursacht geringere Intelligenz (Kriterium)
1. Alter kann Intelligenz signifikant vorhersagen (Pfad a)
2. Alter kann Sensorik signifikant vorhersagen (Pfad b)
3. Bei der Kontrolle von Sensorik kann Intelligenz nicht mehr signifikant durch Alter
vorhergesagt werden  bei Kontrolle von Sensorik bricht der Zusammenhang
zwischen Alter und Intelligenz zusammen (Pfad c und a)
 Intelligenzabbau im Alter ist durch Verlust von sensorischen Fähigkeiten vermittelt
Beispiel 2: Erleben eines traumatischen Erlebnisses und PTBS
Daten




von Frasier (2003)
Telefonbefragung zu traumatischen Erlebnissen und PTBS
N=894, zufällig ausgesuchte Frauen
Art des traumatischen Erlebnisses (direkt erlebt oder indirekt) hing signifikant
zusammen mit Symptomen einer PTBS
Ausgewählter Mediator: Schuldgefühle
Hypothese:
Personen, die das Ereignis selbst erlebt haben, geben eher sich selbst die Schuld 
Personen mit mehr Schuldgefühlen berichten mehr Symptome einer PTBS
Interpretation:
 Schuldgefühle sind ein partieller Mediator des Zusammenhangs zwischen der Art
des traumatischen Erlebnisses und Symptomen einer PTBS
 Keine Kontrolle anderer Faktoren, die einen Einfluss auf Schuldgefühle oder PTBS
haben könnten (z. B. Neurotizismus)
 Messfehler im Mediator & Pfad a war größer als Pfad b  reduzierte Power 
Unterschätzung des Einflusses des Mediators
 Alternative Modelle müssen noch ausgeschlossen werden
 Mediator enthält Implikationen für therapeutische Interventionen bei PTBS
Bewertung Mediatoranalysen


Mit der Mediatoranalyse können kausale Wirkmechanismen untersucht werden.
 Es soll die Frage nach distalen (= vorgelagerten) und proximalen (=
nachgelagerten) Ursachen psychologischer Phänomene geklärt werden
Vorgehen nach Baron und Kenny ist „blindanalytisch“
 theoretische Überlegungen werden nicht beachtet
Zusammenfassung Diagnostik
S e i t e | 102

 Modell, das aus den Daten geschätzt wird, muss nicht unbedingt den
Überlegungen des Forschers entsprechen. Kann die eigentlich als Prädiktor
vorgesehene Variable mehr Varianz aufklären, als die eigentlich als Mediator
vorgesehene Variable, so wird der Prädiktor als Mediator geschätzt
Einen Ausweg aus dieser Problematik bieten lineare Strukturgleichungsmodelle,
bei denen die Plausibilität verschiedener vorgegebener Modelle miteinander
verglichen werden kann (vgl. Frazier, Tix & Barron, 2004)
Abgrenzung Mediator- und Moderatorvariablen


Moderator: Korrelationen des Moderators mit Prädiktor oder Kriterium müssen
nicht zwingend bestehen
Mediator: Korrelation Mediator-Prädiktor und Korrelation Mediator-Kriterium
müssen signifikant sein
Validitätsgeneralisierung
(Form der Metaanalyse, die nur Validitätskoeffizienten berücksichtigt und keine anderen
Kennwerte)
Daten, die Validitätsstudien beinhalten sollten, um dieses Modell optimal nutzen zu
können:
 Stichprobengröße
 Anteil/Grad der Varianzeinschränkung
 Reliabilität des Kriteriums
 Reliabilität des Tests
 Angemessene Arten der Reliabilitätskoeffizienten
 Komplette Benennung und Beschreibung der verwendeten Tests und/oder der
verwendeten Subskalen
Sinnhaftigkeit der Zusammenfassung von Forschungsbefunden


In der Literatur finden sich viele (auch widersprüchliche) Forschungsbefunde
(Werte für r zwischen Schulnoten und IQ-Test schwanken zwischen .15 u. .80)
Einen Überblick über Primärstudien zu gewinnen erfordert viel Aufwand
Aggregation als Ausweg aus der Problematik
 Traditionelle Form der Verdichtung von Forschungsbefunden ist das narrative
Review, in dem die wichtigsten Befunde zu einer Thematik besprochen werden
 In den 50/60ern dachte man, numerische Aggregation sei nicht sinnvoll, da
Validität sehr situationsspezifisch, selbst wenn gleichartige Tests und Kriterien
verwendet werden
 Heute wird die neuere Möglichkeit der numerischen Aggregation von
Forschungsbefunden aber angewandt. Die einfachste Form ist die Ermittlung der
mittleren Validität
 U.a. plädieren Schmidt und Hunter (1977) für numerische Aggregation, also für
Validitätsgeneralisierung
Grundidee der Validitätsgeneralisierung (Schmidt & Hunter, 1977)
Hypothese bei Validitätsgeneralisierung: Die Varianz der wahren Testvaliditäten innerhalb
spezifischer Prädiktor-Kriteriums-Kombinationen ist Null
Zusammenfassung Diagnostik
S e i t e | 103




Ein Test hat eine wahre Validität. Könnte man fehlerfrei messen, so sollten sich in
allen Studien gleiche Validitäten ergeben!!!
Unterschiede zwischen Studien gehen ausschließlich auf studienspezifische
Störeinflüsse (=Artefakte) zurück. Daher entsteht in der Verteilung der Validitäten
Streuung
Werden die Artefakte aus den einzelnen Studien herausgerechnet, so sollten sich
die Streuung reduzieren
Besteht nach der Korrektur keine Streuung mehr, so kann die mittlere Validität als
wahre Validität angenommen werden
Schritte der Validitätsgeneralisierung
1. Studienrecherche
Zusammenstellung möglichst vollständiger Stichprobe an Studien zu bestimmtem Thema
2. Korrektur statistischer Artefakte
Kennwerte werden um die jeweils in den Studien vorhandenen Störeinflüsse korrigiert
Arten statistischer Artefakte
1.-3. korrigierbar, 4. und 5. nicht
1. Reliabilität von Prädiktor und Kriterium (minderungskorrigierbar)
2. Größe der Stichprobe  Gefahr des Stichprobenfehlers: bei kleiner SP große
Wahrscheinlichkeit, ungeeignete VPn zu wählen und somit Varianzeinschränkung
( Formel zur Aufwertung des Validitätskoeffizienten auf repräsentative Breite)
3. Varianzeinschränkung in Prädiktor und Kriterium ( Formel zur Aufwertung des
Validitätskoeffizienten auf repräsentative Breite)
4. Fehler bei Datenverarbeitung
5. Ausmaß der Kriterienkontamination
Liegen die entsprechenden Kennwerte, die bereinigt werden sollen, nicht vor, müssen
diese geschätzt werden. Wenn Schätzung nicht möglich  Aussortieren
Effekte der Artefaktkorrektur


je stärker die Artefakte, desto größer der Effekt der Korrektur
Streuung/Varianz der Validitätskoeffizienten:
o reduziert sich durch Korrektur
o ist trotzdem in der Regel auch nach der Korrektur numerisch nicht exakt
Null
 Daher muss mittels eines sogenannten Homogenitätstests überprüft
werden, ob in der korrigierten Verteilung noch bedeutsame Streuung
besteht
3. Homogenitätstests
überprüft Homogenität der korrigierten Kennwerteverteilung und somit die
Aggregierbarkeit
zwei Vorgehensweisen:
1. Homogenitätstest mittels χ2-Verfahren:
Mit dem Homogenitätstest wird überprüft, ob sich die Varianz der korrigierten
Verteilung signifikant von Null unterscheidet
2. 75%-Regel:
Zusammenfassung Diagnostik
S e i t e | 104
Bei der Anwendung der 75%-Regel wir überprüft, ob sich die Streuung der
Validitäten durch die Korrektur mindestens um 75% reduziert hat
Homogenitätstest vs. 75%-Regel
 Der Homogenitätstest hat einen geringeren α-Fehler (d.h. fälschliche
Entscheidung zugunsten der Homogenitätsannahme) während die 75%-Regel
einen geringeren β-Fehler (d.h. fälschliche Ablehnung der Homogenitätsannahme)
 Die Entscheidung für eines der beiden Verfahren hängt davon ab, welcher Fehler
eher in Kauf genommen werden soll
 Besteht nach der Korrektur keine bedeutsame Streuung mehr, so wird die mittlere
korrigierte Validität als wahre Validität des Tests angenommen!
 Wenn nach der Korrektur noch erhebliche Varianz übrigbleibt (die Verteilung also nicht
homogen ist), sucht man nach Moderatoren, die dafür verantwortlich sein könnten
4. Suche nach Moderatoren
Das Übrigbleiben von Varianz könnte dadurch bedingt sein, dass inhomogene Studien
zusammengefasst wurden. Um dies zu überprüfen, kann nach Moderatoren gesucht
werden. Die Auswahl der Moderatorvariablen sollte dabei theoriegeleitet erfolgen.
 Die Studien mit den jeweiligen Validitätskoeffizienten können bei Vorliegen eines
Moderators in unterschiedliche Substichproben aufgeteilt werden
 Unterscheiden sich die mittleren korrigierten Validitäten und zeigt sich
Homogenität innerhalb der Substichproben, kann ein Moderator angenommen
werden
 die jeweiligen Substichproben weisen eine geringere Streuung der
Validitätskoeffizienten auf als die Gesamtstichprobe der Studien
 Betrachtet wird dann nur eine bestimmte Stufe des Moderators, da hier die
Studien bzgl. des Validitätskoeffizienten relativ homogen sein sollten
 Liegt Homogenität jeweils auf der Moderatorstufe vor, dann kann angenommen
werden, dass die mittlere Validität auf der Moderatorstufe der wahren Validität auf
dieser Moderatorstufe entspricht
Wenn kein Moderatoreffekt vorliegt und somit keine Unterteilung in Substichproben
möglich ist, wird geprüft, ob sich die mittlere korrigierte Validität der Gesamtstichprobe
signifikant von Null unterscheidet
5. Signifikanzprüfung mittels Konfidenzintervall
Aus Mittelwert (mittlere korrigierte Korrelation = mittlere Validität) kann das 95%/99%Konfidenzintervall berechnet werden:
 Wenn die Null nicht im Konfidenzintervall liegt, kann mit 95%-iger
Wahrscheinlichkeit angenommen werden, dass die wahre Validität größer Null ist
 Wenn die Null im Konfidenzintervall liegt, kann nicht mit 95%-iger
Wahrscheinlichkeit angenommen werden, dass die wahre Validität größer Null ist
 Je höher die mittlere Validität, desto unwahrscheinlicher ist es, dass die Null im
Konfidenzintervall liegt, da dieses weiter von der Null entfernt ist
 Je geringer die Streuung ist, desto unwahrscheinlicher ist es, dass die Null in dem
Konfidenzintervall liegt, da dieses dann kleiner ist
Fazit:
 ist die mittlere korrigierte Korrelation von Null verschieden, kann die wahre
Validität zwar nicht exakt bestimmt werden, aber auf jeden Fall größer Null
angenommen werden  d.h. sie hat einen prädiktiven Wert
Zusammenfassung Diagnostik
S e i t e | 105

ist die mittlere korrigierte Korrelation nicht von Null verschieden, dann heißt das,
dass die Fehlervarianz durch Situationsspezifika nicht eliminiert werden kann und
somit keine Generalisierung möglich ist
Beispiel: Moderatoreffekt in Validitätsgeneralisierung
(Wiesner & Cronshaw; 1988)
Metaanalyse der prädiktiven Validität verschiedener Interviewarten
 Unabhängige Variablen:
o strukturierte vs. unstrukturierte Vorstellungsgespräche
 strukturiert: Interviewer mit Leitfaden: Reihenfolge, Dauer des
Gesprächs, Skalen zur Bewertung
o ein vs. mehrere Interviewer
 alle Studien: r = .47 (mittlere korrigierte Validität) [0.08; 1.00] (Validität
generalisierbar, 0 nicht im Intervall daher signifikant)
o bei einer durch Artefakte aufgeklärten Varianz von 14%
o Validitätskoeffizienten sind also nicht homogen, da keine Verminderung um
75% (75%-Regel)  d. h. Suche nach Moderatoren ist sinnvoll
 Strukturiertheit des Interviews ist Moderator
o es resultieren zwei homogene SP, die sich in ihren mittleren korrigierten
Validitätskoeffizienten signifikant unterscheiden
o strukturierte Vorstellungsgespräche erweisen sich als valide unstrukturierte
nicht
Kritik/Probleme bei Validitätsgeneralisierung
„Garbage-in –Garbage-out“ Problematik
 methodische Qualität der Primärstudien per se nicht geprüft
 Lösung: Heranziehen von Expertenratings zur Qualität der Primärstudien.  Evtl.
Ausschließen von Studien
„Äpfel und Birnen“ Problematik
 Frage, ob Prädiktoren bzw. Kriterien als gleiche Konstrukte zu werten sind (bspw.
ist Intelligenz im HAWIE das Gleiche wie Intelligenz in den APM)
 Lösung: Berücksichtigung der Homogenität der betrachteten Variablen wichtig, da
sonst ein möglicherweise in homogenen Subgruppen bestehender Effekt nicht
erkannt wird
Problematik abhängiger Untersuchungsergebnisse
 Werden Teilergebnisse aus einer Studie verwendet, die an ein und derselben
Stichprobe durchgeführt wurde, so geht diese Stichprobe mehrfach in die Analyse
ein.  übermäßiger Einfluss dieser SP
 Lösung: Lediglich Verwendung von Ergebnissen aus unabhängigen Stichproben.
Werden in einer Studie mehrere Teilergebnisse dargestellt, so werden diese
gemittelt und als einzelne Validität eingegeben
„Filedrawer“ Problematik/Publication-Bias
 Die Publikationspolitik wissenschaftlicher Zeitschriften begünstigt positive
metaanalytische Ergebnisse, weil überwiegend Studien mit signifikanten
Ergebnissen veröffentlicht werden und Studien mit nicht-signifikanten Ergebnissen
unberücksichtigt bleiben
 Zur Reduktion dieser Problematik werden sogenannte „Fail-Safe“-Ns berechnet.
Diese geben die Anzahl nicht-signifikanter Untersuchungen an, die noch
aufgenommen werden müssten, um den Gesamteffekt auf Null abzusenken
Zusammenfassung Diagnostik
S e i t e | 106
Übersicht
Metaanalyse
Definition
„Gruppe von Verfahren, mit denen die Ergebnisse verschiedener Untersuchungen zu
einer gemeinsamen Thematik zusammengefasst werden, um so einen Überblick über den
aktuellen Stand der Forschung zu gewinnen“
Validitätsgeneralisierung vs. Metaanalyse



Validitätsgeneralisierung ist ausschließlich auf Validitäten, d.h. den
Zusammenhang zwischen Prädiktoren und Kriterien bezogen
Metaanalyse bezieht auch andere Kennwerte (z.B. Mittelwertsunterschiede) in die
Analyse mit ein
Merke: Jede Validitätsgeneralisierung ist eine Metaanalyse aber nicht jede
Metaanalyse ist eine Valditätsgeneralisierung
Vereinheitlichung von Kennwerten
Da im Rahmen einer Metaanalyse unterschiedliche Testkennwerte (z.B. t-Werte, χ2Werte) einbezogen werden, müssen diese vor der Aggregation in ein einheitliches Maß
umgerechnet werden
 Delta-Koeffizient (Δ) von Kraemer (1985)
Definition: Das Delta-Maß ist ein universelles Effektgrößenmaß, das der bivariaten
Produkt-Moment-Korrelation r entspricht. Es dient dazu, die testspezifischen
Effektgrößenmaße vergleichbar und aggregierbar zu machen. Jede testspezifische
Effektgröße lässt sich in einen Delta-Wert transformieren.
Beispiele für transformierbare Größen:
 Produkt-Moment-Korrelation
 t-Test für unabhängige Stichproben
Zusammenfassung Diagnostik
S e i t e | 107






t-Test für abhängige Stichproben
χ2-Werte aus Vierfeldertests
χ2-Werte aus rxc-Kontingenztafeln
Effektstärken aus Varianzanalysen (η2)
Spearmansrho (rs)
Kendalls tau (τ)
Im Anschluss an die Transformation:
 Prüfung der Homogenität
 ggf. Suche nach Moderatoren
 ggf. Signifikanztest mittels Konfidenzintervall
Effektstärke




(standardisiertes) statistisches Maß, das Größe eines Effektes angibt
Effekt liegt vor, wenn die Nullhypothese (=kein Effekt) abgelehnt wird
nach Cohen (d = Effektstärke):
o d = 0,2 kleiner Effekt
o d = 0,5 mittlerer Effekt
o d = 0,8 starker Effekt
Größe der Effektstärken hängt von verwendetem Maß ab!
Anwendungsfelder
Arbeits-, Betriebs- und Organisationspsychologie
1. Organisationsdiagnostik
Def.: Die psychologische Organisationsdiagnose dient dazu, die psychologischen Aspekte
des Erlebens und Verhaltens von Mitgliedern in Organisationen zu diagnostizieren, um
Regelhaftigkeiten im Erleben, im Verhalten und in den Interaktionen zu beschreiben, zu
erklären und zu prognostizieren
Zwei grundlegende Muster der Organisationsdiagnostik
1. Strukturdiagnostik
 wird genutzt, um verschiedene Organisationen miteinander zu vergleichen
 geht davon aus, dass Unterschiede in den Organisationsstrukturen nur aufgrund
unterschiedlicher Situationen (z.B. Größe der Organisation) bestehen
 einstufige Datenerhebung
2. Prozessdiagnostik
 wird genutzt, um Veränderung innerhalb einer Organisation zu erfassen
 geht davon aus, dass viele Merkmale und Bedingungen in Organisationen sich
ständig verändern
 mehrstufige Datenerhebung
 Anwendung bei Diagnose von:
o organisationale Veränderungen
o sozialer Interaktion und Kommunikation innerhalb der Organisation
o Wechselwirkungen zwischen Strukturmerkmalen, situativen Faktoren und
dem Erleben/Verhalten in Organisationen
Organisationsanalyseinstrumentarium (OAI), van de Ven und Ferry (1980)

Versuch einer kohärenten Organisationsdiagnostik, die der Verschiedenheit der
organisatorischen Anforderungen gerecht wird.
Zusammenfassung Diagnostik
S e i t e | 108

5 verschiedene Module, die anhand von Fragebogen verschiedene Bereiche
messen:
1. Macroorganizational module: Gesamtstruktur der Organisation
2. Interunit relations module: Koordination zwischen organisationalen
Einheiten
3. Organizational unit module: Aufgaben, Strukturen und Prozesse auf
verschiedenen Arbeitsebenen
4. Job design module: Merkmale einzelner Arbeitsplätze einschließlich
struktureller Anforderungen und der Einstellung/Zufriedenheit der Arbeiter
5. Performance module: Effizienz und Effektivität auf versch. Arbeitsebenen
Praxis: es werden meist nur Teilbereiche diagnostiziert, z.B. Diagnose des
Organisationsklimas ( Information und Mitsprache, Vorgesetzte, Kollegen…)
2. Organisationsentwicklung
Def.: geplante, meist mehrjährige Intervention in der gesamten Organisation
Aufgaben, Maßnahmen und Ziele:
 Autonomie und Selbstverwirklichung der Mitarbeiter, mehr Mitspracherecht
 Konzipierung und Umsetzung geeigneter Arbeits-, Führungs- und
Kooperationsformen  Hohes Commitment, Effizienzsteigerung
o Schaffen geeigneter Rahmenbedingungen, um Ziele zu erreichen
o anfangs „Überzeugungsarbeit“: flachere Hierarchien müssen v.a. von
höheren Ebenen akzeptiert werden
 Führungs- und Teamfähigkeitstrainings
 Schulung ausgewählter Mitarbeiter
 Stärkere Berücksichtigung der Mitarbeiter, Fokus nicht so stark auf wirtschaftlichen
Aspekten
Unterscheidung in personalen und strukturalen Ansatz (Gebert)



beruht auf S(Stimulus)-O(Organismus)-R(Reaktion)-K(Konsequenz)-Modell
personaler Ansatz: richtet sich auf O und R; beinhaltet z.B. gruppendynamische
Trainings- und Weiterbildungsmaßnahmen
strukturaler Ansatz: bezieht sich auf S und K; beinhaltet sog. „neue Formen der
Arbeitsgestaltung“ (z.B. job enrichment) und Umsetzung von
Gruppenarbeitsmodellen
3. Personalbeurteilung
Def.: Leistungs- und Potentialdaten werden hierfür erhoben:
 individuellen Auswahl, Beurteilung und Förderung
 Über- und Unterforderung vermeiden
 Entwicklungsmöglichkeiten sichern
 Effizienz steigern
Unterteilung in 2 Bereiche:
1. Eignungsdiagnostik: Erhebung von Daten über die Eignung von Bewerbern für
Stellen oder Funktionen
2. Personalbeurteilung: schließt Eignungsdiagnostik häufig mit ein, außerdem
Abschätzung von Potentialen und Zuführung von
Personalentwicklungsmaßnahmen
Zusammenfassung Diagnostik
S e i t e | 109
3 Ebenen der Personalbeurteilung:
Ebene
1. Ebene
Alltägliches
Arbeitsverhalten
2. Ebene
Leistungsbeurteilung
3. Ebene
Potentialbeurteilung
Funktion
Verhaltensteuerung,
Lernen
 Kontingenz zwischen
Verhalten und Konsequenz
wird aufgezeigt
Leistungseinschätzung,
Zielsetzung
 Personalentwicklungund management (z.B.
Platzierungs- und
Beförderungsentscheidungen)
Fähigkeitseinschätzungen,
Prognosen
 Grundlage für
Personalentwicklungsmaßnahmen
Verfahrensweise
Gespräch, Unterstützung
 zeitnahes Feedback, solange
relevantes Verhalten noch
präsent ist
 unsystematische Beurteilung
Gespräch
 systematische Beurteilung
(zumindest halbstandardisiert)
 evtl. Anwendung von
Einstufungsverfahren (z.B.
Skalen zur
Verhaltensbeobachtung)
Objektive Beurteilung von Fakten
 z.B. Verkaufszahlen
Eignungsdiagnose (Ergebnisbzw. Verhaltensbeurteilung durch
Vorgesetzten); Assessment
Center
3.1 (Berufs-)Eignungsdiagnostik
Def.:


Durchführung, um größtmögliche Übereinstimmung zwischen beruflichen
Anforderungen und optimaler Bewerberauswahl und –zuordnung zu erreichen
Ziel der Maximierung beruflicher Zufriedenheit und Leistung
3 mögliche Aufgabenstellungen:
1. Eignungsdiagnostik: mehrere freie Stellen, ein Bewerber  Zuordnung zur
geeignetsten Stelle
2. Optimale Zuordnung/Platzierung: Anzahl der offenen Stellen und Anzahl der
Bewerber entsprechen sich  Zuordnung soll für Bewerber und Stelle optimal sein
3. Konkurrenzauslese: Nur eine freie Stelle, mehrere Bewerber  Ermittlung der
bestgeeignetsten Person
DIN-Normen zur beruflichen Eignungsdiagnostik (2002)
 wissenschaftlich fundierte Vorgehensweise
 Festlegung der Anforderungen an Verfahren und deren Einsatz bei
berufsbezogenen Eignungsbeurteilungen
 Gebrauch nicht rechtsverbindlich, sondern freiwillig
Zweck der Normen
Zusammenfassung Diagnostik
S e i t e | 110
Leitsätze für die Vorgehensweise bei berufsbezogenen Eignungsbeurteilungen
Eingesetzte Verfahren und deren Validitäten







Bewerbungsgespräch
o strukturiert (.51)
o unstrukturiert (.38)
 subjektive Interpretation
 Interview durch implizite Theorien des Untersuchers geleitet
Kognitive Leistungstests (.51)
o z.B. Tests zur allgemeinen Intelligenz
o hoher Zshg. gruppenunabhängig empirisch gut belegt!
Arbeitsproben (.54)  sollten zukünftigen Tätigkeiten möglichst ähnlich sein,
parallele Verhaltensbeobachtung
Persönlichkeitstests
o Big Five  schwacher Zusammenhang (größte r mit Gewissenhaftigkeit,
aber auch hier nur r = 0.12)
o Integritätstests: Verfahren zur Erfassung kontraproduktiven Verhaltens im
Unternehmen, z.B. Diebstahl, Alkohol (.41)  inkrementelle Validität ggü.
Intelligenz, aber in Deutschlang kaum Anwendung
Assessment Center (.37)
Biographischer Fragebogen (.35)
o Annahme: vergangene Erfahrungen und deren subjektive Verarbeitung
sind gute Prädiktoren künftigen Verhaltens
o Problem: stark von untersuchter Gruppe abhängig
Fragebogen oder Tests zur Leistungsmotivation (schwach positive
Korrelationen)
 Annahme: wichtiger Faktor für Berufserfolg
 kann so in empirischen Studien nicht belegt werden
 Einsatz eines „gemischten“ Verfahrens mit verschiedenen Prädiktoren (z.B.
Assessment-Center) liefert verlässlichste Prognose
Probleme



Einsatz von Testverfahren mit ungenügender Prüfung der Gütekriterien
o häufig Einsatz selbst entwickelter Testverfahren, die aus Zeit- oder
Geldmangel nicht weiter überprüft und somit an neue Anforderungen
angepasst werden
meist nur Statusdiagnostik
o Tagesform bestimmt Chance der Bewerber
o Aussagen über künftige Entwicklungen schwierig
o Lösung: Assessment Center (s.u.)
Probezeit ermöglicht nur bereits ausgewählten/eingestellten Bewerbern sich zu
bewähren
Zusammenfassung Diagnostik
S e i t e | 111
Berufsberatung
Platzierung vs. Selektion
a) Selektion:
 nur relevante Merkmale des Bewerbers werden erfasst
 Verfahren und relevante Kriterien werden durch Anforderungsanalysen und
Validitätsuntersuchungen ausgewählt
 auch wenn mehrere Bewerber geeignet sind, wird nur der Beste
ausgewählt
 Notwendigkeit normierter Werte (um Mindestanforderungen zu bestimmen)
und berufsbezogener Vergleichswerte von erfolgreichen Stelleninhabern
b) Platzierung/Berufswahlentscheidung:
 Anforderungen mehrerer Berufe werden mit Eignungsprofil des
Ratsuchenden verglichen
 Auswahl bezieht sich nicht auf Person, sondern auf Berufe
Auswahl der Verfahren hängt von Situation und Motivlage ab:
 Selektion: Verfälschung wahrscheinlich, da Personen sich gut darstellen
wollen
 Platzierung: verfälschbare Verfahren können angewendet werden, da
Verfälschung unwahrscheinlich
3.2 Assessment Center
Zielsetzung
 Methode zur Personalauswahl und –entwicklung
 Nachteil: finanziell und zeitlich aufwändig
Beschreibung



umfassendes, standardisiertes Verfahren
mehrere Personen werden 2-5 Tage lang untersucht
o Anwendung verschiedener Verfahren:
 Leistungs- und Persönlichkeitstests
 Gruppen- und Kommunikationsübungen (z.B. Gruppendiskussionen,
Interviews)
 Arbeits- und Gruppenprozesse werden simuliert: Versuch der
Simulation der zukünftigen Anforderungssituation, um individuelle
Fähigkeiten im Verhalten beobachtbar und somit diagnostizierbar zu
machen
o Beurteilung einzelner Mitarbeiter durch ausgebildete Vorgesetzte und
Psychologen (am besten nicht im direkten Vorgesetztenverhältnis)
Ergebnisse werden Teilnehmern mitgeteilt
o dienen bei Personalentwicklungsmaßnahmen personalpolitischen
Entscheidungen wie z.B. Beförderung, Versetzung, Karriereplanung
o Rückmeldung dient dem Teilnehmer zur individuellen Entwicklungsplanung
Zusammenfassung Diagnostik
S e i t e | 112
Prinzipien
 Verhaltensorientierung:
o Nicht Persönlichkeitseigenschaften, sondern Verhaltensweisen als
Indikatoren der Eignung bilden die Grundlage der Beurteilung
o Provokation von relevanten Verhaltensweisen durch möglichst realistische
Simulation  Ähnlichkeit der situativen Übungen/Arbeitsproben mit den
tatsächlichen Aufgaben bestimmt die Genauigkeit der Vorhersage
 Anforderungsbezogenheit:
o Frage nach dem »geeignet wofür«  detaillierte Anforderungsanalyse
 Methodenvielfalt:
o Ausgleich der Fehlerquellen einzelner Verfahren
o Für zuverlässige Beurteilung müssen einzelne Anforderungskriterien
mehrfach und unabhängig voneinander beobachtbar sein
 Mehrfachbeurteilung:
o jeder Teilnehmer wird von mehreren Personen beobachtet  Ausgleich
Beobachtungs- und Beurteilungsfehler auszugleichen
o Verhaltensbeobachtung erfordert intensives Training und wiederholte
Schulung
o Vorteile wenn Beurteiler aus eigenem Unternehmen:
 Kenntnis der Unternehmenskultur und damit der angestrebten
»Passung« zwischen Anforderungen und Bewerbern
 Möglichkeiten der Selbstdarstellung und Repräsentation des
Unternehmens
 Kontaktanbahnung zur kommenden Führungsgeneration u. a.
o Transparenz:
 Anforderungen und Beobachtungskriterien liegen bei Konstruktion
und Durchführung offen
 Zusammenhang zwischen Verfahren und Ziel ist evident 
inhaltliche Verwandtschaft der Übungs- und Simulationselemente
zur Zielfunktion und dem Soll-Zustand ( Gegenpol zu projektiven
Verfahren)
o Im Anschluss Rückmeldegespräch mit individuellem Feedback
o Einsatz von AC immer dann sinnvoll, wenn überfachliche Eigenschaften
wichtig für Berufserfolg
Anforderungsprofil
Führungseignung


früher Annahme einer feststehenden Führungspersönlichkeit mit breit
generalisierten Führungskompetenzen
heute flexible Annahme: Berücksichtigung der Stärken und Schwächen des
Bewerbers je nach Anforderungen der Führungsposition
Anforderungsanalyse




Anforderungsrahmen = Maßstab für Teilnehmerbeurteilung
Strukturierung des Anforderungskatalogs: Kategorien mit dazugehörigen
beobachtbaren Verhaltensweisen bzw. Tätigkeiten die bei der Konstruktion einer
Übung berücksichtigt werden müssen
Durch Gewichtung der Anforderungen entsteht Anforderungsprofil mit
gewünschter Mindestausprägung bzw. Ausprägungsspanne
Anforderungsanalyse kann in zwei Blöcke eingeteilt werden:
o Bottom-up: Orientierung an gegenwärtigen Strukturen
 hilft Frage zu beantworten, wie sich gegenwärtig erfolgreiche von
weniger erfolgreiche Positionsinhabern unterscheiden
 Beispiel: Critical Incident Technique (CIT):
Zusammenfassung Diagnostik
S e i t e | 113

o
Typische Vorfälle, darunter plötzlich eintretende, und
wichtige Ereignisse werden aufgelistet
 Dies wird einer Führungskraft vorgelegt, die die Zielposition
kennt
 Sie soll benennen wie eine erfolgreiche und eine weniger
erfolgreiche Person in der Zielposition diese Situation
gemeistert hat
 durch Gewichtung und Systematisierung der
Verhaltensweisen  Anforderungsprofil
 Problem: zukünftige Entwicklungen werden wenig beachtet
Top-down: Orientierung an zukünftigen Entwicklungszielen
AC zur Personalentwicklung mit z.B.:



Trainingsbedarfsanalysen
Potentialanalysen
Laufbahn/Ausbildungsberatung
Durchführung: Objektivität bei der Durchführung nicht gegeben, da situative Übungen
Auswertung
 strikte Trennung zwischen Beobachtung und Beurteilung, damit sich nicht durch
erste diffuse Eindrücke die Qualität der Daten gemindert wird
o Phase 1: Sammeln von Daten
o Phase 2: Zuordnen von Beurteilungskriterien
 Auswertungsobjektivität

lässt sich durch Psychologen und Manager verbessern, da sie die
Anforderungen gut kennen und deshalb die gezeigte Leistung gut
interpretieren können
o Fehlerausgleich durch Methodenvielfalt und mehrere Beobachter
Reliabilität

Interraterreliabilität: .50-.90
Interne Konsistenz: ähnliche Werte, wenn heterogene Merkmale gemessen
werden nur mittlere Werte möglich
Validität
o
o
o
o
o
o
o
erhebliche Streuung der Validitätskoeffizienten abhängig von: Zielsetzung,
Inhalt, Teilnehmer, Kriterien
Metaanalyse: rtc = -.25-.78, nach Korrektur betrug mittlere prädiktive
Validität .37
Validität ist generalisierbar
Validitätskoeffizienten evtl. durch Beurteiler die gleichzeitig Erfolg der
ausgewählten Person bestimmen sollten kontaminiert

Aber Studie, in der AC-Ergebnisse geheim gehalten wurden zeigt
immer noch rtc =. 46
Soziale Validität des ACs
 untersucht sozialen Kontext der Diagnostik, umfasst 4 Aspekte:
(1) Berücksichtigung sozialpsychologischer Anforderungen: v.a. Information über
relevante Charakteristika von Arbeitsplatz und Organisation)
(2) Partizipation der Betroffenen (bei Entwicklung und Durchführung von
Untersuchungen)
(3) Transparenz
(4) angemessene wechselseitige Kommunikation

wird meist positiv von Teilnehmern eingeschätzt
Zusammenfassung Diagnostik
S e i t e | 114



wenig stress- und angstinduzierend
hohe Augenscheinvalidität
auf Platz 2 nach Vorstellungsgespräch
Vorteil:
 hohe Akzeptanz
 anforderungsnah
 Anwendungsgebiete groß
Nachteil:
 geringe Ökonomie
 von Hauptgütekriterien nur Validität zufriedenstellend
4. Tätigkeitsbezogene Diagnostik und Intervention
Zweifaktorentheorie der Arbeitszufriedenheit von Herzberg von Bedeutung:
Zwei Ebenen:
1. Hygienefaktoren/Kontextfaktoren/Dissatisfaktoren:
o betreffen Rand- und Folgebedingung der Arbeit z.B.: Führungsstil, Gehalt
o Faktoren lösen extrinsische Arbeitsmotivation aus und können
Unzufriedenheit abbauen ohne Zufriedenheit aufzubauen
2. Contentvariablen/Motivatoren/Satisfaktoren:
o intrinsischer Arbeitsmotivation wie z.B. Anerkennung der Leistung,
Verantwortung
o können zu Zufriedenheit führen
Implikationen aus der Theorie:
 Auf Ebene der Kontextfaktoren: Abschaffen von Stressoren um günstige
Arbeitsplatzbedingungen zu schaffen z.B. Verbesserung der
Beleuchtungsverhältnisse
o so kann Leistung verbessert werden
o im Sinne der Theorie würde Unzufriedenheit gemindert ohne Zufriedenheit
hervorzurufen
o Diagnostik in diesem Bereich mit dem Fragebogen zur Arbeitsanalyse
(FAA): hauptsächlich Beschreibung und Bewertung motorische Tätigkeiten
 Auf der Ebene der Satisfaktoren:
o Verfahren der subjektiven Arbeitsanalyse (SAA):
 misst z.B. Handlungsspielraum, Transparenz, Verantwortung
5. Diagnostik und Intervention bei Gruppen
Gruppenarbeitskonzepte gewinnen an Bedeutung, wichtige Bereiche sind:
 Konfliktdiagnostik:
o kann an strukturellen Organisationsmerkmalen erfolgen(z.B.
Wettbewerbsorientierung innerhalb und zwischen den Gruppen)
o Herausfinden von Bedingungen die zur Entstehung, Aufrechterhaltung und
Förderung führen
o Sozialpsychologisches Exp. von Sherif zeigte, intergruppale Konflikte
führen zu:
 Verstärkung des Gruppenzusammenhaltes
 Akzeptanz eines autoritären Führungsstils
 stärkere Zielorientierung
o Mögliche Lösung: Ziele setzen die nur gemeinsam erreichbar sind
 Interpersonale Kommunikation:
o v.a. Aufdecken und Beseitigen von Kommunikationsfehlern
o Verbesserung der Kommunikation durch: Kurze Wege für
Informationsfluss, Berücksichtigung der Informationsveränderung,
Bevorzugung der schriftlichen Form
Zusammenfassung Diagnostik
S e i t e | 115
Pädagogische Psychologie
Diagnostik und Intervention bei der Schullaufbahnberatung
Ziel: Optimale Passung zwischen Anforderungen und Lernvoraussetzungen
Schulreife:




Kern (1951):
o Schulerfolg ist Funktion der Schulreife
o Schulreife stellt sich bei unterschiedlichen Individuen zu unterschiedlichen
Zeitpunkten von selbst ein  Schulreifetest, damit noch nicht schulreife Kinder
nicht eingeschult werden
o Problem: Geringe Validität und Reliabilität des Grundleistungstests
(Schulreifetests)
Validere und reliablere Tests vorhanden allerdings erreichen Schulreifetests die
Erfolgsquote aller Schüler bei Einschulung von 90% nur selten
Bessere Methode: Bewährung in der ersten Klasse
Es wäre ökonomischer auf Schulreifetests zu verzichten und nur bei Verdacht auf
Schulunreife Testung mit Schulreifetest und Absicherung durch Entwicklungstests
vorzunehmen
o Bei Empfehlungen zum weiteren schulischen Werdegang sollte auch der
aktuellen Kenntnisstand miteinbezogen werden
Sonderschulüberweisung

Große Verantwortung: geht mit Verlust von sozialem Status und Verlust von Berufsund Lebenschancen einher
Kriterien zur Sonderschulüberweisung:
1. Mehr als einjähriger allgemeiner Leistungsrückstand in der Grundschule der durch
Klassenwiederholung nicht mehr kompensierbar ist
a. Objektivierung des Rückstandes durch Schulleistungstests
 Es soll verhindert werden, dass Schüler in sehr guten Klassen oder bei sehr
strenger Benotung fälschlicherweise als lernbehindert eingestuft werden
2. IQ<85
a. Es soll verhindert werden, dass Kinder ohne kognitive Retardierung
überwiesen werden
b. Geeignete Tests: weniger sprachabhängige Verfahren wie Raven oder CFT
c. Weniger geeignet (aber häufig verwendet): HAWIK-R da stark sprach- und
schulleistungsabhängig


Problem: Große Anzahl an Sonderschülern haben IQ im normal oder leicht
unterdurchschnittlichen Bereich
o Mögliche Gründe:
 Diagnostik wird von nicht objektiven Sonderschullehrern durchgeführt
mit veralteten Verfahren
 Neigung der Grundschulen Problemschüler zu überweisen
Lösung: gezielte und rechtzeitige Förderung der Schüler
Übertritt in weiterführende Schulen
Früher: Statusdiagnostik mit Aufnahmeprüfungen und Empfehlung der Grundschule
 Pro- und Contra der Grundschulempfehlungen:
o Pro: Längere Beobachtung der Schüler
o Contra: Vergleichbarkeit der Zensuren eingeschränkt, Lernbedingungen der
aufnehmenden Schule unbekannt
 Außerdem Subjektivität der Aufnahmeprüfungen
Zusammenfassung Diagnostik
S e i t e | 116

Dies sollte durch Testverfahren, die weniger schulisches Wissen und mehr die
Begabungen erfassen verbessert werden
o Entwicklungs- und Übergangstests:
 allerdings keine langfristig validen Prognosen
 kurz- und mittelfristige Validität bis .60
 gleich gute Vorhersagen aber auch durch Schulleistungsergebnisse
als Indikatoren von Vorkenntnissen und kognitiver Faktoren
Optimale Lösung: Bewährung in der gewählten Schulart  Problem: zu wenig Kapazität
Heute: konkrete Kontextbedingungen einbeziehende Prozessdiagnostik
Verfahren: (wird in einigen Bundesländern so eingesetzt)
 Auf Basis der Empfehlung der Grundschule wählen Erziehungsberechtigte Schule
 Sollte Wahl von Empfehlung abweichen: Aufnahmeprüfung
 zeitlich begrenzte Bewährungsphase an aufnehmender Schule nach deren Abschluss
die endgültige Entscheidung getroffen wird
Übertritt in tertiären Bildungsbereich
Feststellung der Studieneignung: Empfehlungen Deidesheimer Kreis 1997

Durchschnittsnote

flexible Studienfachbezogene Fähigkeitstests

Interviews: Bewerber kann sich als Gesamtpersönlichkeit darstellen und seine
Motivation und Interessen vertreten
o Anmerkung: Problem der Subjektivität

Ziel: bessere Passung zwischen Voraussetzungen und Studienwahl Verminderte
Studienabbrüche, Fachwechsel, Prüfungswiederholungen
Welche Fächer bilden homogene Gruppen und können somit durch gleiche Fähigkeitstests
erfasst werden?
Vier gegensätzliche Dimensionen:
 Mathematisch-Naturwissenschaftlich vs. kultur- und geisteswissenschaftlich
 politisch-wirtschaftlich vs. sozial-pädagogisch
Diagnostik und Intervention bei individueller Schülerhilfe
Indikation:
 Individuelle Lernschwierigkeiten
o dauerhaftes und deutliches Unterschreiten der Klassennorm
o Nachlassen der Leistungen eines bislang guten Schülers
Multifaktorielles Modell zu den Bedingungen des Schulerfolgs (Haertel 1983)
 Erfolg und Misserfolg im Unterricht sind von 5 Bedingungen abhängig:
1. Lernzeit, die ein Schüler zur Bewältigung einer Aufgabe benötigt
2. Lernzeit, die konkret vom Schüler aufgewendet wird
3. Fähigkeit, Instruktionen zu verstehen
4. Lernzeit, die ihm vom Lehrer zugestanden wird
5. Qualität des Unterrichts
Weitere Einflussvariablen: Unterrichtsklima, Stimulation, Peer-Group, Elternhaus
Diagnostik und Beeinflussung der benötigten Lernzeit:


Je schlechter aufgabenspezifische Lernvoraussetzungen umso mehr Lernzeit
Fehlen spezifischer Vorkenntnisse ist wichtigste Ursache für Lernschwierigkeiten
o steht bei Diagnostik im Vordergrund
Zusammenfassung Diagnostik
S e i t e | 117
grobe Strukturierung der Vorkenntnisse: fachspezifische
Schulleistungstests
 Feindiagnostik: informelle Lernzielkontrollen
Es soll Ebene ohne große Defizite ausfindig gemacht werden, auf die dann
aufgebaut werden kann (entweder durch Schule oder Nachhilfe)
Ziel ist es den Anschluss an die Lerngruppe zu erhalten, zwischengeschaltete
Lernzieltest sollen Entwicklungsprozess begleiten, Abschlusstest nach
Intervention

o
o
Diagnostik der aufgewendeten Lernzeit

Diagnostik durch Verhaltensbeobachtung, Indikator für Motivation
Modell der Lernmotivation (Heckenhausen & Rheinberg):
 Bereitschaft eines Schülers, sich für Lernaufgabe zu engagieren ist abhängig von:
o subjektive Einschätzung, ob Ergebnis durch eigenes Handeln beeinflussbar ist
o Konsequenzen des Ergebnisses
o Attraktivität der Konsequenzen
 Je nachdem ob Handlungsergebnis Fähigkeiten, Anstrengung, Aufgabenschwierigkeit
oder Zufall zugeschrieben wird entstehen verschiedene Empfindungen und
Handlungstendenzen in der Zukunft
o z.B. würde die Attribution von Misserfolg auf eigene Fähigkeiten ein Gefühl von
Scham erzeugen und die Anstrengungsbereitschaft vermindern
Motivationsdiagnostik:
 sollte nicht nur die Feststellung der ungenügenden Nutzung der Lernzeit machen
sonder sollte noch folgende Faktoren mit einbeziehen:
o subjektive Einschätzung des Schwierigkeitsgrades
o Erwartung positiver Handlungserfolge und deren subjektive Bewertung
Praktische Anwendung:
 Schätzt ein Schüle eine Aufgabe als zu schwer ein sollte die Schwierigkeit so weit
reduziert werden, dass dem Schüler ein Erfolg durch eigene Anstrengung möglich
scheint
 Bei häufigen Lernschwierigkeiten Anreize durch Lob oder Belohnung als Verstärker
 Attributionstraining bei häufigen Misserfolgen: Schüler soll lernen die Misserfolge
nicht der eigenen Fähigkeit zuzuschreiben sondern der Anstrengung
Diagnostik und Beeinflussung des Instruktionsverständnisses
Diagnostik:
 Sprachliche IQ-Tests,
 Besser da spezifischer: Anweisungs- und Sprachverständnistest oder
Hörverstehenstest
Beeinflussung: psycholinguistisches Training von Sprachverständnis zeigt nur geringe
Effektstärke, eventuell fachspezifische Übungen besser
Diagnostik und Verbesserung des Unterrichts
Zwei zu diagnostizierende Faktoren:
 Zugestandene Lernzeit:
o Diagnostik über Unterrichtsbeobachtung oder Befragung der Schüler
o zu knappe Lernzeit wenn ganze Gruppen von Schüler die Lernziele in der
vorgegebenen Zeit nicht erreichen
o Intervention: Schaffung von ausreichend Lernzeit
 Unterrichtsqualität:
o Wichtiges Qualitätsmerkmal: Wie wird mit Vorkenntnislücken umgegangen?
Zusammenfassung Diagnostik
S e i t e | 118
o
 Indiz für gute Qualität: Bereitstellen zusätzlicher Lernzeit
Weitere Merkmale (Weinert): Direkter Unterricht
 Intensive Nutzung der zu Verfügung stehenden Unterrichtszeit
 Konzentration auf Lernziele
 Kontrolle der Lernaktivität der Schüler
 Überwachung des Lernfortschritts
 Vermeidung von Fehlern durch präzise Aufgabenstellung und einfache
Fragen
 Sofortige Verfügbarkeit von Hilfsmaßnahmen bei Lernschwierigkeiten
 Unterstützender Kontakt des Lehrers mit den Schülern
Schwierige Umsetzung der Diagnostik, da Bereitschaft von Lehrern und fachliches
Personal notwendig.
Diagnostik und Beeinflussung von Kontextfaktoren
Unterrichtsklima:
 Diagnostik anhand Fragebogen möglich
 Allgemeine Verbesserung möglich durch umstellen eines Wettbewerbsklimas auf
kooperative Arbeitsstrukturen  Größere Zufriedenheit, Akzeptanz, Verbesserung der
Einzelleistungen ( Reduktion von Verhaltensauffälligkeiten)
Soziale Stellung innerhalb der Schulklasse:
 Diagnostik durch Befragung der Mitschüler
 Korrelationen zwischen Beliebtheit und Leistung
 Intervention schwierig!
Familiäre Faktoren:
 Erfassung: Gespräch, psychometrische Verfahren zur Erfassung des Erziehungsstils
 Familientherapie bei Einsicht der Eltern einer Mitschuld möglich
Hochbegabtendiagnostik




Hochbegabung: IQ ab 130 bzw. PR von 98 (2 Standardabweichungen über dem
Mittelwert)
manche Autoren schließen soziale Intelligenz und/oder Kreativität mit ein, die Anzahl
der Hochbegabten verringert sich bei Einschluss weiterer Kriterien entsprechend
Unterscheidung in Potential und Tatsächliche Leistung nötig  Zwei Typen von
Hochbegabten:
o Underachiever: Leistungen sind niedriger als Potential erwarten lässt
o Achiever: Leistungen entsprechen Fähigkeiten
o In Diagnostik ergibt sich das Problem, dass Underachiever häufig in der
Diagnostik fehlen
Anforderung an IQ-Test:
o Breites g-Maß, d.h. IQ soll über mehrere Teilbereiche geprüft werden
o Es kann anstelle eines einzigen Tests auch eine Kombination von
verschiedenen Tests verwendet werden um unterschiedliche
Intelligenzkomponenten abzudecken
o Aktuelle Normierung!!! (Flynn-Effekt Zunahme der Intelligenzleistung im
Laufe der Zeit)
o Gute Differenzierung im oberen Leistungsbereich
 Normen sollten weit über den Bereich von IQ=130 gehen
 Lösung einer weiteren Aufgabe darf nicht zu Sprüngen im IQ führen
 repräsentative Eichstichprobe für die jeweilige Altersgruppe
Zusammenfassung Diagnostik
S e i t e | 119
Studie zur Hochbegabtendiagnostik (Wild):



Lehrerurteil und IQ-Test bei Drittklässlern werden auf Übereinstimmung überprüft
Stichprobe: 388 Lehrer, über 7000 Schüler
Methode:
o IQ-Tests: CFT-20, Zahlen-Verbindungs-Test (ZVT), Sprachliche Analogien ¾
(SPA)
o Lehrerurteil: Einstufung der Intelligenz auf siebenstufiger Ratingskala,
Prognose für jeden der drei Tests, Nominierung von einigen Schülern anhand
einer Liste mit 15 begabungsrelevanten Merkmalen
o Ergebnisse:
 Starke Variation der Korrelationen zwischen den Klassen
 gemittelte Korrelation:
o Lehrerurteil, IQ=.59
o IQ, Nominierung =.47
 35,1% der von Lehrern als hochbegabt eingestuften sind es tatsächlich
 16,4% der tatsächlich hochbegabten würden durch Lehrerurteile
entdeckt werden
 Auch die Nominierung lieferte ungenügenden Einschätzungen
Schlussfolgerung: Lehrerurteile können aus pragmatischen Gründen zur Vorselektion
genutzt werden. Es sollten alle einer Intelligenzdiagnostik unterzogen werden die vom
Lehrer mindestens als „gut“ begabt beurteilt werden, so würden nur 1,5% der
Hochbegabten nicht entdeckt werden.
Fördermaßnahmen bei Hochbegabung:





Vorzeitige Einschulung
Überspringen einer Klasse
Besuch einer Sonderklasse für Hochbegabte
Einsatz als Tutor im Unterricht
Freizeitangebote für Hochbegabte
Rechtspsychologische Diagnostik
Heterogene Fragestellungen  kein einheitliches Vorgehen  4 Bereiche exemplarisch!
1. Glaubhaftigkeit von Zeugenaussagen
Zeugenaussagen können beabsichtigt oder auch unbeabsichtigt verfälscht sein (
Beobachtungsfehler)
Wenn Zweifel an einer Zeugenaussage angebracht sind, kann Gericht Begutachtung
veranlassen, begutachtet wird dann:
 Glaubhaftigkeit der Aussage
 Glaubwürdigkeit des Zeugen
Zusammenfassung Diagnostik
S e i t e | 120
Vorgehen der Begutachtung:
(1) Analyse der Umstände, unter denen die Aussage zustande gekommen ist, um
Beobachtungsfehler auszuschließen
o Wahrnehmungsbedingungen: z.B. Beobachtungsdauer, mögliche
Ablenkung der Aufmerksamkeit
o Bedingungen, unter denen die Aussage aufgenommen wurde: z.B.
(ungewollt) suggestive Befragung des Zeugen ( besser: offene Fragen)
(2) Inhaltliche Analyse der vorliegenden Aussage nach Kriterien für die
Glaubhaftigkeit, sog. Realkennzeichen
o Beispiele Realkennzeichen: Logische Konsistenz, Schilderung ausgefallener
Einzelheiten, Schilderung von Komplikationen im Handlungsverlauf
o Problem: keine verbindlichen Standards/Normen dafür, wie viele
Realkennzeichen erfüllt sein müssen  keine Interpretationsobjektivität!
(3) Einschätzung des Zeugen selbst
o Ist die Person aufgrund ihres Urteilsvermögens grundsätzlich in der Lage,
zu dem Sachverhalte eine gültige Aussage zu machen? (Intelligenz?
Erfahrungshintergrund? psychische Störung? Alkohol oder Drogen?)
o Gibt es Gründe/Motive für eine Falschaussage (z.B. Rache)?
o Quellen:
 Akteninformationen Gerichtsakten)
 diagnostisches Interview
 bei Frage nach psychischer Störung: SKID, klinische Fragebogen
 je nach Fragestellung auch andere Tests (IQ, Konzentration,
Gedächtnis,…)
2. Schuldfähigkeit und verminderte Schuldfähigkeit eines Täters
§ 20 Schuldfähigkeit
Ohne Schuld handelt, wer bei Begehung der Tat wegen einer krankhaften seelischen
Störung, wegen einer tiefgreifenden Bewusstseinsstörung oder wegen Schwachsinns
oder einer schweren anderen seelischen Abartigkeit unfähig ist, das Unrecht der Tat
einzusehen oder nach dieser Einsicht zu handeln.
§ 21 Verminderte Schuldfähigkeit
Ist die Fähigkeit des Täters, das Unrecht der Tat einzusehen oder nach dieser Einsicht zu
handeln, aus einem der in § 20 bezeichneten Gründe bei Begehung der Tat erheblich
vermindert, so kann die Strafe gemildert werden.
4 Untergruppen:
(1) krankhafte seelische Störung
o z.B. endogene oder exogene Psychosen
o psychiatrische Diagnosen, Quelle: klinische Diagnostik
(2) schwere andere seelische Abartigkeit
o v.a. Persönlichkeitsstörungen, Abhängigkeitserkrankungen
o psychiatrische Diagnosen, Quelle: klinische Diagnostik
(3) tiefgreifende Bewusstseinsstörung
o muss nicht krankhaft sein  auch gesunder Täter kann sich bei Begehung
der Tat in hochgradig affektivem Erregungszustand sein
(4) Schwachsinn: intellektuelle Minderbegabung, geistige Behinderung
o Quellen: IQ-Tests, biographische Daten (Art und Dauer des Schulbesuchs,
lebt in Heim für geistig behinderte Menschen…), Fremdanamnese
Es reicht nicht aus, dass eines der in § 20 erwähnten Kriterien vorliegt
 es muss eine relevante Kausalbeziehung zwischen z.B. der vorliegenden
psychischen Störung und der Begehung der Straftat bestehen
 die Störung o. Ä. muss das Unrechtsbewusstsein oder die Steuerungsfähigkeit
während der Tat aufheben oder einschränken
Zusammenfassung Diagnostik
S e i t e | 121
Bei Schuldfähigkeitsbegutachtungen wird berücksichtigt:
 Vorgeschichte, wie es zur Tat kam
 Analyse des Tatablaufs
 Persönlichkeit des Täters
 Beziehung des Täters zum Opfer
 Erinnerungsstörungen nach der Tat
 Quellen: gerichtliche Daten, Interview mit dem Täter, Persönlichkeitsfragebögen,
projektive Verfahren
3. Kriminalprognose
Prognose des zukünftigen Verhaltens eines Straftäters, hat Bedeutung für:
 die Wahl und Bemessung von Strafe oder anderen Maßnahmen (z.B.
Sicherheitsverwahrung)
 Ausgestaltung des Strafvollzugs und dessen Beendigung
 Beispiel: Täter hat Großteil seiner Strafe verbüßt  Entscheidung über vorzeitige
Haftentlassung auf Bewährung
Risikofaktoren für Rückfall:
 Vorliegen einer Persönlichkeitsstörung (meist Psychopathie)
 früheres Gewaltdelikt
 Gewalttätigkeit während der Unterbringung im Gefängnis etc.
 Alter (je älter, desto geringer das Rückfallrisiko)
Probleme bei Prognosen: viele ungünstige Bedingungen kommen zusammen
 vorherzusagendes Verhalten tritt selten auf (viele Täter sind jahrelang unauffällig
und begehen plötzlich wieder Straftat)
 Verhalten wird durch Situation determiniert
o Täter wird evtl. „in Versuchung“ gebracht
o ungünstige Lebensumstände: Arbeitslosigkeit, Beziehungsende…
o günstige Lebensbedingungen können wegfallen: z.B. Alkoholabstinenz
 Geltungszeitraum der Prognose ist sehr lang (v.a. bei jungen Tätern)
 es sind nur Wahrscheinlichkeitsaussagen möglich
 Fehleinschätzung kann schwerwiegende Folgen für Täter und Opfer haben
Vorgehen der Begutachtung:
(1) Nutzung statistischer Kriminalprognosetafeln
o statistische Erkenntnisse über Rückfallrisiken in vergleichbaren Fällen bzgl.
Art der Straftat, Alter und Geschlecht des Täters  geben jeweiliges
Rückfallrisiko an  dienen aber nur als Anhaltspunkt!
o Nachteile:
 vernachlässigen individuelle Risiko- und Schutzfaktoren
 bestimmte Merkmale können eigentliche Risikofaktoren verdecken
(z.B. schwarze Hautfarbe  Risikofaktor ist eigentlich kriminelle
Nachbarschaft)
(2) Korrektur der statistischen Vorhersage
o Gutachter orientiert sich an der statistischen Vorhersage des
Rückfallrisikos, prüft aber unter Berücksichtigung individueller
Besonderheiten, ob es gute Gründe gibt diese zu korrigieren (diese
Vorgehen nennt man klinisches Vorgehen)
o Beispiele für Fragen, die sich der Gutachter stellt:
 unter welchen Bedingungen wurde Straftat begangen?
 Wie kann Entstehung der Straftat erklärt werden?
 welche Lebensperspektiven hat der Täter (Beruf, Familie etc.)?
 Quellen: Akten über frühere Straftaten, frühere Gutachten,
Dokumentation der Haft, Interview mit Täter/Bezugspersonen,
Intelligenz- oder Leistungstests, projektive Verfahren
Zusammenfassung Diagnostik
S e i t e | 122
4. Sorgerechtsentscheidungen
häufigster Anlass zur Begutachtung in familiengerichtlichen Verfahren sind
Sorgerechtsentscheidungen im Rahmen von Scheidungsverfahren
 elterliche Sorge umfasst:
o Personenfürsorge (körperliches Wohl, Erziehung, Aufenthaltsbestimmung,
Aufsichtspflicht, Umgangsbestimmung)
o Vermögensfürsorge (Vertretung in finanziellen Angelegenheiten)
 wenn einvernehmliche Regelung zur Sorge zwischen den Eltern vorliegt, besteht
seitens des Gerichts kein Handlungsbedarf
 Gibt es Streit führt Familiengericht Einigung herbei:
o Gerichtliche Entscheidung nur dann, wenn Schlichtungs- und
Vermittlungsversuche nicht zum Erfolg geführt haben
o Kindeswohl (leibliches und seelisches Wohl) steht im Vordergrund, bei
Kindern ab 14 Jahren auch der Kindeswille
 wird Kindeswohl als gefährdet betrachtet, kann das weitreichende
Folgen bis hin zum Sorgerechtsentzug beider Elternteile haben
o harmonische Eltern-Kind-Beziehung nach Trennung soll ermöglicht werden
 bei Problemen mit einem Elternteil z.B. durch beaufsichtigten Umgang
o Familienrichter hat Ermittlungspflicht: er kann ein (psychologisches,
ärztliches…) Sachverständigengutachten einholen
 in 90 % der Fälle einigen sich Eltern auf gemeinsame elterliche Sorge (evtl.
auch durch Vermittlungsbemühungen), Gutachter werden meist nur in
strittigen Fällen hinzugezogen (z.B. Umgangsregelung)
Diagnostisches Vorgehen
 Richter ziehen nur dann Gutachter hinzu, wenn psychologische Fragestellungen
vorliegen, die sie nicht selbst beantworten können
 Ableitung psychologischer Fragestellungen aus juristischen Fragestellungen durch:
o Einholen von Vorinformationen über den Fall
o Kenntnisse der einschlägigen Gesetze und der Rechtssprechung
o Gespräch mit den Eltern
 Beispiele für psychologische Fragen in Sorgerechtsentscheidungen:
o Liegt sexueller Missbrauch vor?
o Ist die Erziehungsfähigkeit durch eine Erkrankung eingeschränkt?
o Was ist der Kindeswille?
 Diagnostische Verfahren: Aktenanalysen, diagnostisches Interview,
Verhaltensbeobachtung (v.a. Bindung bei Kleinkindern),
Persönlichkeitsfragebögen, Leistungstests, projektive Verfahren
Verkehrspsychologische Diagnostik




Rechtliche Grundlage für Begutachtung der Fahreignung stellt FahrerlaubnisVerordnung dar  Fahrerlaubnisbehörde ordnet Begutachtung an
Unterschiedliche Anlässe für medizinisch-psychologische Begutachtung
Häufigste Ursache für Begutachtungen: Alkoholauffälligkeiten
o bei Verdacht auf Alkoholabhängigkeit oder Führerscheinentzug wegen
Alkoholabhängigkeit kann ärztliches Gutachten angeordnet werden
o wenn lt. ärztlichem Gutachten zwar keine Alkoholabhängigkeit besteht,
aber Verdacht auf Alkoholmissbrauch vorliegt oder wiederholt
Zuwiderhandlungen im Straßenverkehr unter Alkoholeinfluss begangen
wurden, kann ein medizinisch-psychologisches Gutachten angeordnet
werden
Weitere Fragestellungen:
o Eignung der Führerscheininhaber, bezogen auf die körperlichen und
geistigen Anforderungen  Begutachtung meist nach wiederholten
Zusammenfassung Diagnostik
S e i t e | 123

Verkehrsauffälligkeiten, Straftaten im Zshg. mit dem Straßenverkehr oder
bei denen Anhaltspunkte für ein hohes Aggressionspotential bestehen
Gutachter kann positiv oder negativ entscheiden oder eine Nachschulung
vorschlagen, teilweise wird auch begutachtet, ob Proband überhaupt
nachschulungsfähig ist
früher: Annahme, dass stabile Dispositionen im Straßenverkehr wesentliche Rolle spielen
heute: Annahme, dass Verhalten wichtigster Faktor ist, und dass dieses modifizierbar ist
 Nachschulung zur Modifikation
Diagnostisches Vorgehen bzw. Fokus der Untersuchung hängt vom Begutachtungsanlass
und der Fragestellung ab:
 Verhaltensgewohnheiten im Umgang mit Alkohol
 Persönlichkeit des Fahrers
 bestimmte Merkmale der Leistungsfähigkeit
o v.a. bei Fahrerlaubnis zur Fahrgastbeförderung (Taxi, Bus…) oder Zweifel
an psychischer Leistungsfähigkeit stehen kognitive Faktoren im
Vordergrund (Konzentration, Reaktion, Belastbarkeit…)
 bei Straftaten: Aggressionspotential, Neigung zu rücksichtsloser Durchsetzung
eigener Anliegen, Bereitschaft zu impulsivem Verhalten…
 Einsatz von diagnostischem Interview oder Persönlichkeitsfragebögen
(verfälschbar!)
Begutachtungs-Leitlinien zur Kraftfahrereignung

beschreiben alle Sachverhalte, die die Führung eines Kraftfahrzeuges
beeinträchtigen können (z.B. Sehvermögen eingeschränkt, Alkohol…), sowie
allgemeine Dinge wie z.B. rechtliche Grundlagen
 haben v.a. zwei wichtige Funktionen:
1. Zusammenstellung aller wichtigen eignungsausschließenden und
–einschränkenden Merkmale
2. Argumentationshilfe: Gutachter kann sich im Einzelfall auf Leitlinien beziehen
und muss nicht jede gutachterliche Schlussfolgerung eingehend erläutern.
 dienen nur als Entscheidungshilfe und ersetzen nicht die individuelle Begutachtung

Beispiel Alkohol
o in Leitlinien ist genau beschrieben, was Hinweise auf Alkoholabhängigkeit
oder –missbrauch sein können
o wann die Voraussetzungen zum Führen von Kraftfahrzeugen wieder
gegeben sind (z.B. ausreichend geändertes Trinkverhalten)
 Diagnostiker muss mit geeigneten Verfahren überprüfen inwiefern der Proband
geeignet ist bzw. sich verändert hat
o Auswertung der Akten (Blutalkoholspiegel, alkoholbedingte Schäden…)
o diagnostisches Interview zur Feststellung von Alkoholmissbrauch oder
-abhängigkeit  liefert Infos über Trink- und Verhaltensgewohnheiten,
Problembewusstsein etc.  Problem: verfälschbar!
o Gutachter kann schriftliche Belege über Therapiemaßnahmen anfordern
o ggf. Leistungstest bei überwundener Abhängigkeit  Beeinträchtigungen?
Qualität von Gutachten:
An Gutachten zur Kraftfahrzeugeignung werden die gleichen Anforderungen gestellt wie
an andere Gutachten (s.o. Abschnitt: das diagnostische Gutachten)
Zusammenfassung Diagnostik