Document 2723119

by user

on 15 сентября 2016

Category: Documents

>> Downloads: 244

1784

views

Report

Comments

Description

Download Document 2723119

Transcript

Document 2723119

(S.15-16)
Diagnostische Strategien
(S.8-15)
Modellannahmen: Eigenschafts- und
Verhaltensdiagnostik
(S.7-8)
Arten von Diagnostik
(S.4-7)
Aufgabenbereiche und Fragestellungen
(S.2-4)
Definition
Einleitung
1
Kapitel 1 · Einleitung
Diagnostik zur
Beratung
Diagnostik
zur Behandlung
Zielgerichtetheit von
Psychodiagnostik
Psychologische
Diagnostik
2
Definition
bestimmte unerwünschte Zustände zu beheben bzw. erwünschte Gegebenheiten zu
erhalten gilt. Eine solche Struktur liegt vor, wenn etwa ein Proband mit einer Verhaltensstörung um Hilfe bittet. Deren Erscheinungsform, Verursachung und Auslösung
müssen zunächst eingehender ergründet werden, um auf den gewonnenen Erkenntnissen dann ein geeignetes Behandlungsprogramm aufzubauen, mit dessen Hilfe
schließlich »Normalität« angestrebt wird; ob und inwieweit dieser Zustand schließlich
erreicht wird, muss durch erneute Diagnostik ermittelt werden.
In einem anderen Fall fragt vielleicht eine Abiturientin in einer Beratungsstelle danach, welche Studienrichtung oder Berufstätigkeit im Hinblick auf ihr Begabungsprofil
»richtig« bzw. optimal sei. Auch hierbei muss zunächst der Ist-Zustand geprüft und zu
einem Soll-Zustand (etwa: Erfolg im Studium oder Beruf) in Beziehung gesetzt werden.
Dies macht den Rückgriff auf bestimmte Schlussfolgerungen notwendig (7 unten).
Die Beispiele lassen sich beliebig fortsetzen. Ihre Gemeinsamkeit besteht darin, dass
spezifische Aufgabenstellungen den Einsatz eines wissenschaftlichen Instrumentariums
Ad 1. Diagnostik wird nicht etwa um ihrer selbst willen betrieben, sondern weil es
An einer solchen Konzeptualisierung gefallen 2 Aspekte:
1. die Finalität, d. h. die Zielgerichtetheit von Psychodiagnostik,
2. das weite Spektrum der in Betracht gezogenen Merkmalsträger.
Als Merkmalsträger kommen in Betracht:
4 Einzelpersonen,
4 Personengruppen,
4 Institutionen,
4 Situationen und
4 Gegenstände.
Wie viele andere Begriffe in der Psychologie so haben auch diejenigen von Diagnose
und Diagnostik ihre Wurzeln im Griechischen, wo das Verb »diagignoskein« eine kognitive Funktion mit den Bedeutungen »gründlich kennen lernen«, »entscheiden« und
»beschließen« bezeichnet.
Sieht man sich in der wissenschaftlichen Literatur nach Definitionen um, so findet
man gewöhnlich Hinweise darauf, dass es sich bei Diagnostik um eine Methodenlehre
handele, die im Dienste der Praktischen Psychologie stehe (Wellek, 1955) und das Ziel
habe, Personen richtig zu beurteilen (Dieterich, 1973) oder zu erfahren, wie sich Menschen voneinander unterscheiden (Hörmann, 1964). Sehr viel präzisere Angaben macht
Leichner (1979), wenn er die Aufgabe der Psychodiagnostik in der Ermittlung interindividueller Differenzen im Erleben und Verhalten von Personen unter standardisierten
Bedingungen sieht.
Jäger und Petermann (1992, S. 11) fassen psychologische Diagnostik als System von
Regeln, Anleitungen und Algorithmen zur Bereitstellung von Instrumenten auf, mit
deren Hilfe sowohl
4 psychologisch relevante Charakteristika von Merkmalsträgern gewonnen als auch
4 die erhobenen Daten zu einem diagnostischen Urteil integriert werden sollen, und
zwar
4 mit dem Ziel einer Vorbereitung von Entscheidungen sowie Prognosen und deren
Evaluation.
1.1
Für gegenständliche oder abstrakte Merkmalsträger, deren Beschaffenheit u. a. dadurch
diagnostiziert wird, dass Personen Urteile über ihre Wahrnehmungen und Eindrücke
liefern, gilt diese Definition sinngemäß.
Psychodiagnostik ist eine Methodenlehre im Dienste der Angewandten Psychologie. Soweit Menschen die Merkmalsträger sind, besteht ihre Aufgabe darin, interindividuelle Unterschiede im Verhalten und Erleben sowie intraindividuelle Merkmale
und Veränderungen einschließlich ihrer jeweils relevanten Bedingungen so zu erfassen, hinlänglich präzise Vorhersagen künftigen Verhaltens und Erlebens sowie deren
evtl. Veränderungen in definierten Situationen möglich werden.
Definition
Spektrum diagnostischer Problemstellungen ganz erheblich.
Namentlich bei den Bemühungen um eine Evaluation immer weiterer Bereiche in Wirtschaft, Staat und Wissenschaft müssen Verwaltungs- und Produktionsabläufe, hergestellte
Güter und erbrachte Dienstleistungen sowie deren Akzeptanz durch potenzielle Abnehmer
im weitesten Sinne bewertet werden, des Weiteren wissenschaftliche Leistungen, die Qualität von Lehrveranstaltungen usw. (also entweder materielle oder abstrakte Gegebenheiten), darüber hinaus Ereignisse und Prozesse, und zwar häufig von einem hohen Komplexitätsgrad – all dies setzt eine fundierte Bestandsaufnahme oder Diagnose voraus.
Gleichwohl werden es meist Menschen sein, die den Gegenstand psychologischer
Diagnostik ausmachen. Im Hinblick darauf ist aber an der Begriffserläuterung von
Jäger und Petermann (1992) zu kritisieren, dass sie die eher »typischen« Merkmalsausprägungen, also die Charakteristika, in den Mittelpunkt rückt und veränderungsorientierte Ansätze nicht explizit herausstellt.
Unter Berücksichtigung dieses Gesichtspunktes definieren wir Psychodiagnostik
folgendermaßen:
Ad 2. Die Generalisierung auf andere Merkmalsträger als nur Personen erweitert das
geboten erscheinen lassen, um zu einer Diagnose zu gelangen. Daran anknüpfend werden Erwägungen angestellt, welche Maßnahmen indiziert sind, um einen antizipierten
Zustand zu erreichen. Nach der Anwendung der »Behandlung« (Therapie, Training,
Platzierung, Empfehlung o. Ä.) oder auch begleitend zu ihr werden neue Informationen
im Sinne von Diagnosen gesammelt, um festzustellen, ob sich die Differenz zwischen
Ist- und Soll-Zustand im intendierten Sinne verringert hat.
Aus der Medizin ist dieses Prozedere hinlänglich bekannt; dort kommt es bei Diagnose und Diagnostik vorrangig darauf an, Krankheiten zu erkennen und sie bestimmten Ursachen zuzuordnen. Lautet bei einer Schwellung des Mittelhandknochens beispielsweise die Diagnose »Entzündung«, so mag eine Behandlung in Form des Auflegens von Eisstücken verordnet werden. Am Rückgang der Schwellung ist die Richtigkeit
der Kombination von Diagnose und Therapie ablesbar. Wären dagegen keinerlei Besserungen zu beobachten, so mag dies Anlass zu einer Revidierung der Diagnose (z. B.
im Sinne von »bösartige Geschwulst«) mit dementsprechend anderer Intervention sein
(z. B. Applikation von Kortison).
Die Finalität impliziert, dass nicht nur festgestellt wird, welche Gegebenheiten im
Augenblick vorliegen (»Was ist?«) und ggf. welche Umstände dafür maßgeblich sind
(»Was war?« bzw. »Woher?« oder »Warum?«), sondern auch, was in Zukunft geschehen
soll (»Wohin?«).
1.1 · Definition
1
Definition der Psychodiagnostik
Bewertung von Gegebenheiten, Ereignissen
und Prozessen
Was ist? Warum?
Wohin?
Diagnostik auf dem
Weg vom Ist- zum Sollzustand
3
1
Kapitel 1 · Einleitung
ABO-Psychologie
Bereitstellung von
Entscheidungshilfen
. Abb. 1.1. Das diagnostische Dreieck. (Aus Hossiep &
Wottawa, 1993, S. 132)
4
Befragung
Ψ
Anwendungen
Ψ
Organisations- Forensische
Diagnostik
Pädag.
Ψ
Ψ
Ψ
Soziale
Rahmenbedingungen
Ψ
Klinische
Entwicklungs- Ψ
Sprach-
Kognitions-
Grundlagen
Ψ
Technische
Rahmenbedingungen
Aufgabenbereiche und Fragestellungen
Nach der obigen Definition werden die Aufgabenbereiche und Fragestellungen der
Diagnostik von ihren Anwendungsbereichen bestimmt. Diese lassen sich grob gliedern
nach den Bereichen Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie, Pädagogische Psychologie und Klinische Psychologie.
Fragestellungen aus der ABO-Psychologie sind die Unterstützung der Ausbildungsund Berufswahl, Auswahl und Weiterqualifizierung von Beschäftigten, Piloten oder Füh-
1.2
Hier wie dort besteht das Ziel der Erkenntnisbemühungen darin, bei konkreten
Fragestellungen wissenschaftlich fundierte Entscheidungshilfen für unterschiedliche
Handlungs- und/oder Behandlungsmöglichkeiten bereitzustellen. Die psychologische
Diagnostik konstruiert und verwendet hierzu spezielle Verfahren, die nicht nur im
Hinblick auf ihre praktische Brauchbarkeit, sondern auch in Bezug auf ihre theoretische
Fundierung fortwährend kritisch zu überprüfen sind. Die theoretische Begründung
bedeutet den Rekurs auf die wissenschaftlichen Ergebnisse der (Gesamt-)Psychologie,
deren Stand in den einzelnen Teildisziplinen dokumentiert wird. Methoden, Anwendungen und Grundlagen konstituieren somit die 3 Seiten einer Art »Spannungsfeld, in
dem psychologische Diagnostik entsteht und fruchtbar wird« (Hossiep & Wottawa,
1993, S. 132; . Abb. 1.1).
Kulturelle
Rahmenbedingungen
Ψ
Arbeits-
Verhaltensbeobachtung
Testverfahren
Psychologische
Ψ
Ψ
Motivations-
Sozial-
Exploration Differentielle
Interview
Fragebogen
Methoden
Wirtschaftliche
Rahmenbedingungen
rungskräften, des Weiteren auch die Diagnostik von Organisationen, Institutionen und
geschäftlichen Abläufen.
Im Rahmen der Pädagogischen Psychologie geht es um die Feststellung der Schulfähigkeit, die Eignung für weiterführende Schulen und Studiengänge, Überprüfung der
Sonderschulbedürftigkeit, Erfassung der Eignung für Förder- oder Umschulungsmaßnahmen und die Überprüfung von deren Erfolg sowie um Erziehungsprobleme in
Schule und Familie.
Die Klinische Psychologie versucht mit Hilfe diagnostischer Methoden, den Verursachungsbedingungen psychischer Störungen auf die Spur zu kommen und Ansatzpunkte für Interventionsmaßnahmen zu finden. Beispiele für Fragestellungen sind
Abhängigkeiten, Depressionen, Angststörungen, psychophysiologische Störungen
(z. B. Asthma, Bluthochdruck), Essstörungen, Partnerschaftsprobleme, Störungen des
Sexualverhaltens und der Stressverarbeitung, um nur einige zu nennen.
Daneben bestehen traditionell weitere Anwendungsfelder. So gehört es beispielsweise seit langem zu den Aufgaben der Forensischen Psychologie, fundierte Aussagen
über die strafrechtliche Verantwortlichkeit eines Täters oder – im Falle von Minderjährigen – dessen Deliktfähigkeit zu machen, des Weiteren über die Glaubwürdigkeit von
Zeugen, die Geschäftsfähigkeit bestimmter Personen oder die Bewährungsprognose
von Inhaftierten für den Fall ihrer Freilassung. In jedem Fall sind spezifische diagnostische Verfahren nötig.
In der Markt- und Werbepsychologie stehen hingegen häufiger Produkte im Mittelpunkt des Interesses. So soll z. B. die Anmutungsqualität eines neuen Artikels oder
einer Anzeige ermittelt werden, um die Aussichten auf positive Wirkungen bei den
potenziellen Kunden zu optimieren. Analoge Problemstrukturen liegen mitunter in der
Ökologischen Psychologie vor, wenn es darum geht, die subjektiven Eindrücke zu
diagnostizieren, die durch Wohn-, Arbeits- und Schulumwelten bei den jeweiligen
Bewohnern hervorgerufen werden.
Im Falle der Verkehrspsychologie besteht – neben der Erfassung der Fähigkeit zum
Führen von Fahrzeugen – eine häufig wiederkehrende Problemstellung darin, Ampeln
und Schilder so zu platzieren, dass sie gut wahrgenommen werden können, und Kreuzungen und Straßen so zu gestalten, dass die Risiken von Unfällen gemindert werden.
In der Pharmakopsychologie interessieren vor allem Präparate mit ihren Haupt- und
Nebenwirkungen. In der Gesundheitspsychologie schließlich, um die Reihe von Beispielen abzuschließen, mag die Wirksamkeit eines Programmes zur Einschätzung bestimmter Medikationen oder Diäten Gegenstand diagnostischer Untersuchungen
sein.
Wie die Auflistung möglicher Beispiele gezeigt hat, handelt es sich bei den Merkmalsträgern, über die diagnostische Informationen eingeholt werden sollen, entweder
(direkt) um Individuen bzw. Gruppen von Personen, oder die Merkmalsträger bestehen
aus materiellen Substraten, Objekten mit »Dingcharakter« sowie mitunter auch aus
Prozessen in Institutionen oder sozialen Gruppen. In diesem Fall manifestieren sich
deren Wirkungen erst in der Interaktion mit Menschen. Deshalb müssen deren körperliche und – was hier mehr interessiert – psychische Korrelate in Form von Kognitionen,
Einstellungen, Emotionen und Verhaltensweisen registriert werden.
Neben Fragestellungen der geschilderten Art, die durch die Suche nach der optimalen Treatmentwahl dem Idealbild von den Aufgaben der psychologischen Diagnostik
am nächsten kommen, existiert noch durch eine Reihe völlig anderer Vorgaben oder
Motive ein gewisser gesellschaftlicher Bedarf an Diagnostik (nach Wottawa & Hossiep,
1987):
1.2 · Aufgabenbereiche und Fragestellungen
1
Pharmakopsychologie
Gesundheitspsychologie
Verkehrspsychologie
Ökologische
Psychologie
Markt- und Werbepsychologie
Forensische
Psychologie
Klinische Psychologie
Pädagogische
Psychologie
5
1
Kapitel 1 · Einleitung
Diagnostik zu
Auswahlzwecken
Diskriminierung von
Gruppen
Frühe Versuche einer
Ausdrucksdiagnostik
Mitmenschen
erzeugen Unsicherheit
Probleme der Selbstdiagnostik
Wege der Selbstdiagnostik
6
Immer wieder kommt es vor, dass verfügbare Ressourcen nicht ausreichen, um die
Nachfrage zu befriedigen. Ein Beispiel dafür mögen Studien- und Arbeitsplätze bilden.
Verwaltung von Mangelzuständen
Mitunter liefern diagnostische Informationen über einzelne oder Gruppen von Personen wie Andersgläubige, Farbige, Behinderte oder Ausländer, denen gegenüber (aus
welchen Gründen auch immer) tiefsitzende Ressentiments erlebt werden mögen,
gleichsam die Rationalisierung für die bestehenden Vorurteile. Oft genug werden die
niedrigeren Punktwerte solcher Personen in verbalen Tests (wie etwa die durchschnittlichen Minderleistungen von Schwarzen gegenüber Weißen in allgemeinen IQ-Tests)
durch die Unfairness von Tests produziert, d. h. die Resultate stellen letztlich eine Konsequenz ideologisch motivierten Wunschdenkens dar. Ungeachtet einer solchen Genese erweisen sich entsprechende Rechtfertigungen als relativ verbreitet, weil sie einen
bequemen Weg darstellen, selektiv diskriminierend zu wirken, ohne kognitive Inkonsistenz erleben zu müssen.
Wunsch nach Rechtfertigung
Seit jeher erleben Mitmenschen u. a. auch Unsicherheit dahingehend, was von ihnen
ggf. zu erwarten oder zu befürchten sei. Eine rasche und richtige Diagnose des Gegenübers stellt in diesem Zusammenhang die Voraussetzung für ein angemessenes eigenes
Verhalten dar. Schon frühzeitig sind deshalb Zeichen propagiert worden, um aus der
äußeren Beschaffenheit auf den Charakter schließen zu können (z. B. »Fuchs-« oder
»Habichtgesicht«, »Ohren wie ein Esel«, »Behaarung wie ein Tier« u. Ä.). Auch die
wissenschaftliche Fortführung in Gestalt der Phrenologie, d. h. aus der Form des Schädels auf die Ausprägung von bestimmten Sinnen zu schließen, war nicht erfolgreich.
Demgegenüber hat die Analyse von Mimik und Gestik – d. h. der dynamischen Elemente der körperlichen Erscheinung – mit dem Ziel, aus deren Deutung die Persönlichkeit zu erkennen, nicht an Bedeutung verloren. Ein Teil dieser Ausdruckspsychologie ist im Übrigen auch die Graphologie. Trotz einer Reihe einschlägiger Lehrbücher
(z. B. Lersch, 1948; Gruhle, 1948) und außerordentlich instruktiver Darstellungen von
Detailproblemen (z. B. Rohracher, 1965) handelt es sich bei der individuellen Ausgestaltung der Ausdrucksdiagnostik (soweit es also nicht nur um das richtige Verständnis
von situativen Verhaltensvarianten wie Lachen oder Weinen geht) insgesamt wohl
heute noch mehr um Intuition und persönliche Kunst als um fundierte Wissenschaft.
Bedürfnis nach Unsicherheitsreduktion
Viele Menschen interessieren sich, besonders in Zeiten krisenhafter Umstellungen in
ihrem Leben, bei denen Fragen des Warum und Wohin eine größere Rolle spielen,
besonders nachhaltig für die eigene Person, ihren Charakter, ihre Potenziale und Verhaltensgewohnheiten. Der Blick in selbstverfasste Tagebücher mag dabei hilfreich sein;
objektiveren Aufschluss aber dürften i. Allg. Gespräche mit Außenstehenden über das
Selbst liefern. Großer Beliebtheit erfreuen sich in diesem Zusammenhang die mehr
oder weniger ausgearbeiteten Tests in Publikationen der verschiedensten Art. Ein nicht
geringes Problem besteht bei der Selbstdiagnostik darin, dass selbst unter Verwendung
brauchbarer Verfahren ein Verständnis für die psychologischen Fachtermini zur Bezeichnung einzelner Konstrukte nicht garantiert werden kann und es offen bleibt, welche Schlussfolgerungen die betreffende Person schließlich aus ihrer Diagnose für sich
zieht.
Streben nach Selbsterkenntnis
Arten von Diagnostik
Bedingungsselektion
(= Eignungsdiagnostik)
(= Konkurrenzauslese)
Selektionsdiagnostik
Institutionell
Personenselektion
häufig
ABO- und
Pädagogische
Psychologie
häufig
Klinische
Psychologie
Verhaltensmodifikation
Bedingungsmodifikation
Modifikationsdiagnostik
Individuell
Arten von Diagnostik
Die bereits auf den ersten Blick sehr differenzierenden Anwendungsfelder unterscheiden sich auch systematisch nach der Art der dort zum Einsatz kommenden Diagnostik.
Im Bereich der ABO- und pädagogischen Psychologie handelt es sich vorwiegend um
sog. institutionelle Diagnostik, die nach Cronbach und Gleser (1965) in Institutionen
mit häufig wiederkehrenden gleichbleibenden Fragestellungen praktiziert wird, während individuelle Diagnostik vor allem in der klinischen Psychologie betrieben wird,
wo sehr spezielle und häufig wechselnde Problemstellungen dominieren (. Abb. 1.2).
Institutionelle Diagnostik ist primär Selektionsdiagnostik. Als Personenselektion
(Pawlik, 1976) will sie geeignete Personen für bestimmte Anforderungen (Arbeitsplatz,
Schulart, Studienfach) ermitteln. Als Bedingungsselektion versucht sie, geeignete Bedingungen auszuwählen, unter denen eine Person mit bestimmten Eignungsmerk-
1.3
In diesen Fällen scheint es so zu sein, als ob die Verteilung der knappen Güter auf der
Basis von psychodiagnostischen Informationen von der öffentlichen Meinung eher
akzeptiert würde, weil als »gerechter« empfunden, als wenn nach Zufall, Anciennität
oder Vorleistungen entschieden wird. Für Hossiep und Wottawa (1993, S. 135) benötigen gerade demokratische Gesellschaften rationale, nach wissenschaftlichen Methoden
entwickelte Selektionsverfahren für verantwortungsvolle Positionen; mit Hinweis auf
Hersch (1974) sei leistungsbezogene Selektion daher »kein Gegensatz, sondern die
Grundlage einer funktionierenden Demokratie«. Oft läuft die Frage eines Einsatzes von
Tests in diesem Zusammenhang auf die Frage hinaus, ob der Nutzen (im Sinne einer
Verbesserung der Prognose) und der Gewinn an Prestige (durch das Einsetzen einer
auf rationalen Prinzipien aufbauenden Technik) die Kosten (in Einheiten von Geld,
Zeit, Mühen, Einschränkung von Gleichheitsidealen u. Ä.) aufwiegen.
1.3 · Arten von Diagnostik
1
. Abb. 1.2. Verschiedene
Arten psychologischer Diagnostik
Selektion von Personen oder Bedingungen
Diagnostik: Institutionell oder individuell
Kosten und Nutzen
7
1
Kapitel 1 · Einleitung
Eigenschaften werden
aus beobachtbarem
Verhalten erschlossen
Eigenschaften (»traits«)
stellen hypothetische
Konstrukte dar
Verhalten wird als veränderbar angesehen
Eigenschaften werden
als stabil angesehen
Modifikation von
Verhalten oder
Bedingungen
8
Modellannahmen: Eigenschafts- und Verhaltensdiagnostik
(alles konkrete Verhaltensweisen!), dann »denken« wir wahrscheinlich an die nicht
direkt beobachtbare Eigenschaft »Aggressivität«. Mit anderen Worten: Wir ordnen sehr
verschiedene Verhaltensweisen, die vom Ablauf und den beteiligten Körperteilen nur
wenig miteinander zu tun haben mögen, nach bestimmten Gesichtspunkten zu Kategorien oder Klassen, welche nach unserem Dafürhalten etwas gemeinsam haben. Des
Weiteren bezeichnen wir die so gebildeten Kategorien mit Eigenschaftsnamen und
nehmen innerhalb der Kategorien eine mehr oder weniger explizite Skalierung nach
Eine Selektionsdiagnostik, die Personen aufgrund von Eignungsmerkmalen akzeptiert oder ablehnt bzw. bestimmten Arbeitsplätzen zuweist, geht davon aus, dass sich
Personen hinsichtlich ihrer eignungsrelevanten Eigenschaften miteinander vergleichen
lassen. Die fraglichen Eigenschaften, deren Genese von eher sekundärem Interesse ist,
werden als über die Zeit hinweg relativ stabil und situationsinvariant angesehen, sodass
die Diagnose ihres Ausprägungsgrades in gewisser Weise die Fortschreibung eines IstZustandes erlaubt und somit Prognosen auf zukünftiges Verhalten zulässt. Der situationale Kontext spielt dabei eine untergeordnete Rolle.
Im Gegensatz hierzu geht eine Modifikationsdiagnostik davon aus, dass Verhalten
erlernt und damit prinzipiell veränderbar ist und in Abhängigkeit von seinem situationalen Kontext variiert. Dementsprechend richtet sich das Interesse stärker auf Situationen, die ein Verhalten bedingen und aufrechterhalten, des Weiteren auf intrapsychische
Veränderungen sowie auf Ansatzpunkte, um ein Problemverhalten zu modifizieren.
Diese verschiedenen, hier nur grob umrissenen diagnostischen Strategien und Zielsetzungen rekurrieren dabei auf 2 grundsätzlich verschiedene Modelle oder Prinzipien,
die mit Eigenschafts- bzw. Verhaltensdiagnostik bezeichnet werden.
Die grundlegende Annahme eigenschaftstheoretischer Konzepte besteht darin,
dass sich das Erleben und Verhalten von Menschen in Form von Eigenschaften (»traits«)
beschreiben lässt. Diese werden aufgefasst als »relativ breite und zeitlich stabile Dispositionen zu bestimmten Verhaltensweisen, die konsistent in verschiedenen Situationen
auftreten« (Amelang & Bartussek, 1990, S. 61 ff.). Eigenschaften sind nicht direkt beobachtbar. Sie stellen hypothetische, gedankliche, konstruierte Gebilde dar, somit Konstrukte, die aus direkt beobachtbaren Verhaltensäußerungen nur erschlossen werden.
Wenn wir beispielsweise beobachten, wie ein Kind
4 einem Huhn die Federn ausreißt,
4 sein Spielzeug zerstört,
4 einen Kameraden schlägt und
4 einer erwachsenen Person Schimpfworte nachruft
1.4
malen erfolgreich sein kann (Platzierung von Bewerbern auf geeignete Arbeitsplätze,
Berufsempfehlung).
Individuelle Diagnostik im Rahmen klinisch-psychologischer Fragestellungen ist
dagegen vornehmlich Modifikationsdiagnostik. Sie soll entweder ermitteln, welche
spezifischen Verhaltensweisen einer Person verändert werden müssen (Verhaltensmodifikation; z. B. Modifikation aggressiven Verhaltens bei Erziehungsschwierigkeiten)
oder welche externen Bedingungen zu ändern sind (Bedingungsmodifikation; z. B. im
Rahmen einer Familientherapie bei Erziehungsschwierigkeiten), um ein Problemverhalten abzubauen.
Häufigkeits- und Intensitätsgesichtspunkten vor: Wer viele der fraglichen Verhaltensweisen und/oder diese in stärkerer Penetranz zeigt, »hat« eine stärkere Ausprägung auf
der »dahinterstehenden«, von uns nur gedachten Eigenschaftsdimension.
Die Zusammenfassung der jeweiligen Verhaltensweisen in den besagten Kategorien
erfolgt aus Gründen der Ökonomie: Um jemanden zu charakterisieren, bedarf es nicht
mehr des Auflistens zahlreicher einzelner Verhaltensweisen, sondern es genügt die
Nennung des betreffenden Attributes.
Die Verhaltensweisen haben für die Eigenschaften die Funktion von Indikatoren,
d. h., sie stehen dazu in einem Verhältnis wie Zeichen zu Bezeichnetem. (Da aber das
Indizierte nur aus den Indikatoren erschlossen wird, wäre es unzulässig, das Erste als
ursächlich für das Zweite anzusehen, etwa nach dem Prinzip: Der Täter hat gestohlen,
weil er ein Dieb ist, oder ein Mitmensch raucht, weil er ein Raucher ist, usw. Ein derartiger Schluss wäre tautologisch, denn in einem solchen Fall würde dasjenige, was aus
Verhaltensweisen nur erschlossen wird, zur Ursache eben dessen gemacht, was die
Grundlage der Schlussfolgerung ist.)
Nach der eigenschaftstheoretischen Konzeption von Persönlichkeit besteht der
zweckmäßigste Weg zur Vorhersage des künftigen Verhaltens von Personen darin,
deren Eigenschaften im Zuge psychodiagnostischer Bemühungen genau zu erfassen.
Aus der zentralen Annahme der transsituativen Konsistenz des Verhaltens resultiert die
Vorhersage, dass sich eine Person gemäß ihrer Eigenschaftsausprägungen verhält, und
zwar relativ unbeeinflusst vom jeweiligen situativen Kontext. Ein relativ hoher Punktwert in einem Ängstlichkeitstest spräche dafür, dass der betreffende Proband die Eigenschaft aufweist, ängstlich zu sein. Aus diesem Ergebnis lässt sich prognostizieren, dass
er auch unter bestimmten anderen, im Test nicht notwendigerweise erfassten Umständen »ängstlich« reagieren wird, also z. B. vor einem wilden Tier weglaufen oder nicht
von einem 10-m-Turm ins Schwimmbecken springen wird (. Abb. 1.3).
Diesen Modellvorstellungen liegt somit eine Art Analogieschluss zugrunde, was die
Inferenz von den Indikatoren der Prädiktorvariablen auf das angeht, was als Kriterium
diagnostiziert und prognostiziert werden soll. Für diese Schlussfolgerung bedarf es
(zunächst) nicht der Voraussetzung, dass ein Zusammenhang zwischen Test und Kri-
1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik
1
. Abb. 1.3. Eigenschaftsdiagnostik ist z. B. dort relevant, wo nicht alle kritischen
Situationen simuliert werden können
Prinzip des Analogieschlusses
Schlussfolgerung aus
Eigenschaften auf
zukünftiges Verhalten
Verhaltensweisen
fungieren als Indikatoren für Eigenschaften
9
1
Kapitel 1 · Einleitung
Normorientierte
Messung als Bezugsrahmen: Vergleich mit
einer Population
Validierung von Tests
für verschiedene
Personengruppen
Indikatoren müssen
repräsentativ sein
Vorhersagen für
bedeutungsvolle
Situationen gewünscht
10
terium empirisch nachgewiesen ist (wenngleich sich die Zweckmäßigkeit des Schlusses
auf Dauer durch entsprechende Evidenzen erweisen sollte). In verschiedenen Bereichen
von Gesellschaft und Wirtschaft wurden denn auch seit alters her immer wieder Vorhersagen auf der Basis dieses Modells angestellt, obwohl entweder aus prinzipiellen
Gründen oder nur vorläufig und vorübergehend der unterstellte Zusammenhang empirisch (noch) nicht aufgezeigt werden konnte. Beispiele dafür mögen jene Fälle liefern,
in denen für kaum simulierbare Aufgaben (wie z. B. dem Verhalten von Kontrollpersonal bei unerwarteten Störungen eines Kernkraftwerkes) gleichwohl die vermutlich
bestgeeigneten Personen ausgewählt werden müssen und es sehr lange dauern kann,
bis später einmal – wenn überhaupt – irgendwelche »Bewährungsmaße« anfallen.
Das allgemeine Kennzeichen einer derartigen Konstellation besteht darin, Vorhersagen für bedeutungsvolle Situationen machen zu müssen, für die aber die im Alltag
anfallenden Beobachtungsgelegenheiten nur eine unzureichende Basis liefern (7 Abschn. 1.6). Solche Gelegenheiten bestanden etwa bei den Prüfungen für Anwärter auf
Staatsposten im alten China oder bei der Auswahl von Beamten in England für den
Dienst in den Kolonien. Auch die weithin gebräuchliche Verwendung von Biografien,
Schulnoten und Intelligenzpunktwerten als geradezu universellen Orientierungsgrößen für den »allgemeinen Berufserfolg« beruht primär auf diesem Analogieschluss.
Die zur Messung der jeweiligen Eigenschaft herangezogenen Aufgaben bzw. die in
ihnen thematisierten Verhaltenstrends (z. B. »Gehen Sie gern auf Parties?«, »Übernehmen Sie bei gemeinsamen Aktionen gern die Führung?« usw.) müssen repräsentativ
für die interessierende Eigenschaft sein. Inwieweit dieses Kriterium bei der Entwicklung von Tests dann auch erfolgreich eingehalten worden ist, erweist sich an der empirisch zu überprüfenden Validität eines Verfahrens (7 dazu unten): Hier wird – zwar
durchaus unterschiedlich im Fall einzelner Skalen, aber doch in einer prinzipiell stets
gleichen Vorgehensweise – festgestellt, inwieweit die eigenschaftstheoretischen Werte
der Testung mit Einschätzungen derselben Eigenschaft von anderer Seite (z. B. Lehrer,
Vorgesetzte, Kameraden usw.) oder mit gänzlich anderen Indikatoren für die Eigenschaftsausprägungen, etwa aus objektiven Verhaltensmanifestationen (wie Krankheiten, Unfälle, berufliche Position und dergleichen), übereinstimmen.
Diese Validierung mag dann entweder eine Verrechnungsvorschrift für die diagnostischen Indikatoren (z. B. Subtests einer Batterie von Skalen) ergeben, die – im Hinblick
auf einen maximalen korrelativen Zusammenhang mit dem Kriterium – für alle Personen gleich ist. In einem solchen Fall mögen zwar die einzeln erfassten Variablen in
multiplen Korrelationen unterschiedliche Gewichtungsfaktoren erhalten; diese Gewichtungsfaktoren gelten dann aber für alle Personen bzw. Personengruppen. Unterschiede in den verrechneten Testergebnissen für einzelne Personen beruhen dann allein
auf interindividuellen Unterschieden in der gemessenen Ausprägung der diagnostizierten Merkmale. Oder es müssen Subgruppen von Personen voneinander unterschieden
werden, für die verschiedene Verrechnungsvorschriften gelten (d. h. gemäß der Gruppenzugehörigkeit verschiedene Gewichtungsfaktoren für die einzelnen Variablen in
multiplen Korrelationen), weil aufgrund psychologischer Faktoren die Funktionalität
der einzelnen Eigenschaften variiert. Dies ist beispielsweise für die sog. »over-« und
»underachiever«, erfolgs- und misserfolgsorientierte Probanden, Personen mit unterschiedlichen Lebenserfahrungen und Temperamenten der Fall (7 dazu ausführlicher
Abschn. 7.2).
Ungeachtet solcher Konsequenzen eines empirischen Aufzeigens des korrelativen
Zusammenhanges zwischen Index und Indiziertem (Test und Kriterium) ist der Bezugsrahmen der eigenschaftstheoretischen Vorgehensweise die normorientierte Mes-
Einer solchen Begriffsumschreibung gemäß ist beim Versuch, die Persönlichkeit zu
beschreiben und ihr Verhalten vorherzusagen, weniger nach »signs« (Indikatoren, Anzeichen) für den Charakter als mehr nach einem repräsentativen »sample« (Stichproben, Beispiele) von Verhaltensweisen zu suchen (die Unterscheidung zwischen Zeichen- und Stichprobenfunktion von Items geht auf Goodenough, 1949, zurück). Im
Gegensatz zur herkömmlichen Messung von Eigenschaften bestehen die Tests der verhaltenstheoretischen Schule demnach aus Stichproben des vorherzusagenden (Kriteriums-)Verhaltens selbst (. Abb. 1.4).
! Die Persönlichkeit ist lediglich eine »intervenierende Variable, die definiert ist durch
die Wahrscheinlichkeit, mit der eine Person bestimmte Verhaltenstendenzen in einer
Reihe von Situationen ihres täglichen Lebens manifestiert« (Goldfried & Kent, 1976,
S. 9).
Nicht was eine Person an Eigenschaften im Sinne der Traitansätze »hat« oder von was
sie, etwa im Sinne der psychodynamischen Betrachtungsweise, »getrieben« wird, steht
im Vordergrund des Interesses verhaltenstheoretischer Analysen, sondern was diese
Person in verschiedenen Situationen »tut« (nach Mischel, 1968, S. 10).
! »The best predictor of future performance is past performance« (Wernimont & Campbell, 1968, S. 372).
sung: Zwischen den einzelnen Verhaltensweisen werden je nach Auftretenshäufigkeit
oder -intensität quantitative Abstufungen getroffen. Die individuellen Messwerte stehen so für die jeweilige Ausprägung in der betreffenden Dimension im Vergleich zur
Population.
Aus der Kenntnis und dem Verständnis der Eigenschaften (als den »grundlegenden
Strukturmerkmalen«) leitet somit der trait-orientierte Diagnostiker die Erwartung ab,
späteres Verhalten vorhersagen zu können.
Demgegenüber wählen Verhaltenstheoretiker einen sehr pragmatischen und direkteren Zugang, indem sie aus konkret beobachtetem Verhalten auch nur dieses vorhersagen wollen:
1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik
1
. Abb. 1.4. Aus Beobachtungen von Verhaltensweisen in »kritischen« Situationen kann man auf zukünftiges Verhalten in ähnlichen
Situationen schließen
Verhaltenstheoretischer Ansatz
11
1
Kapitel 1 · Einleitung
Inhaltsvalidität wichtig
Prinzip des Induktionsschlusses
12
realisiert werden, die repräsentativ für Angstinduktion sind. Entsprechend spielt das
Konzept der Inhaltsvalidität für verhaltenstheoretische Tests eine wichtige Rolle (zu den
Details s. Schulte, 1976; Pawlik, 1976).
Als besonders fruchtbar hat sich der verhaltenstheoretische Ansatz bei der Modifikation von Verhaltensweisen erwiesen. Die eigenschaftsorientierte Diagnostik verfolgt
als Hauptziel eine Klassifikation von Personen gemäß ihrer Messwerte in taxonomische
Anders gelagert sind die Verhältnisse bei der verhaltenstheoretisch beeinflussten Gewinnung von Informationen über den Einzelnen. Hier wird nach Möglichkeit eine »angemessene Repräsentation von Reizsituationen« (Goldfried & Kent, 1976) hergestellt.
Für die Messung von Angst bedeutet das z. B., dass solche Stimulationsbedingungen
mit Hilfe von
4 Filmen,
4 Dias oder
4 verbalen Beschreibungen
Bestimmte Deutungen im Rorschach-Test gelten als Indikatoren für Angst. Wenn ein
Proband im Thematischen Apperzeptionstest Geschichten liefert, in denen böse
Mitmenschen dem »Helden« Schaden zufügen, dieser vom Pech verfolgt ist, zaudert
oder starke Aggressionen zeigt, wird man auch dieses als Zeichen seiner habituellen
Ängstlichkeit werten. Der Rückschluss auf die Ausprägung in der Dimension »Ängstlichkeit« soll sodann über das Verständnis der Personen hinaus eine Vorhersage von
deren zukünftigem Verhalten gewährleisten. Eine solche Prognose ist u. a. belastet
durch die Unsicherheit der Beziehung zwischen Index und Indiziertem; denn dass
die Antwort »Blut« auf Angst hinweist, die Deutung einer weißen Fläche eine negativistische Haltung indiziert (s. Hörmann, 1964), muss noch durch gesonderte Validitätsstudien erwiesen werden.
Beispiel
Beispiele dafür sind z. B. Farbtüchtigkeitsbestimmungen (bei denen die Probanden
unterschiedliche Farben gleicher Helligkeit erkennen müssen) oder die Prüfung von
Kenntnissen der Straßenverkehrsgesetze (wo in den theoretischen Prüfungen zur Erlangung der Fahrerlaubnis die Kandidaten zu gezeichneten oder geschilderten Szenarien aus dem Verkehrsgeschehen Stellung nehmen sollen). Des Weiteren lässt man die
geforderte Tätigkeit auch direkt ausüben, wie z. B. in der praktischen Führerscheinprüfung ein Fahrzeug bewegen oder bei der Entscheidung über die Besetzung einer
Schreibkraftstelle die Bewerber während einer Zeit schreiben, um dabei Geschwindigkeit und Richtigkeit der Arbeitsleistung beobachten zu können.
Der Schluss ist dabei ein solcher der Induktion, d. h. es wird davon ausgegangen,
dass das hier und jetzt (= speziell) gezeigte Verhalten auch zu anderen Anlässen
(= allgemein) auftritt. Zwar ist dieser Schluss nicht logisch zwingend, doch wird man
in zahlreichen Fällen auf die Verlässlichkeit eines solchen Vorgehens bauen dürfen.
Da es mitunter unökonomisch und langwierig ist, Beobachtungen in natürlichen
Situationen anzustellen, werden diese gewöhnlich in der experimentellen Anordnung
des Rollenspiels »nachgestellt«. Gebräuchlich ist auch die Auswertung von verbalen
Äußerungen des Individuums über seine Reaktionsweisen in spezifischer Umgebung.
Ein Beispiel für den eigenschaftstheoretischen Ansatz soll das eben Ausgeführte
veranschaulichen:
Zur Untersuchung des individuellen »Belohnungsaufschubs« (»delay of gratification«)
muss sich der Proband zwischen einem weniger wertvollen Gegenstand, der sofort erhältlich ist, und einem wertvolleren, der aber erst nach Ablauf einer Zeit zur Verfügung
steht, entscheiden. Von den in der Testsituation mit ganz verschiedenen Objekten realisierten Entscheidungen (z. B. 5 DM jetzt gegenüber 10 DM in 2 Wochen) wird angenommen, dass sie in derselben Weise auch außerhalb der Untersuchungssituation erfolgen würden.
Sehr verbreitet ist die Technik des »behavior sampling«, und zwar vor allem in der
Klinischen Psychologie. Dort stellt häufig das Personal einer therapeutischen Institution
im Hinblick auf die Behandlung eingehende Verhaltensbeobachtungen an.
Einige Beispiele für verhaltenstheoretische Methoden
und anderen Quellen.
Der damit verfolgte Ansatz geht davon aus, »dass eine Beschreibung des problematischen Verhaltens, seiner kontrollierenden Bedingungen und der Mittel, durch die es
geändert werden kann, die angemessensten ›Erklärungen‹ für das Verhalten … sind«
(Kanfer & Saslow, 1976, S. 35).
Sofern das Verhalten selbst die Grundlage von Verhaltensvorhersagen ist, verfügen
verhaltenstheoretische (und damit behavioristische) Methoden über einige offenkundige Vorzüge: Absichtliche oder unabsichtliche Verfälschungen sind weniger wahrscheinlich, da es schwerer fallen dürfte, das Verhalten selbst und nicht nur einen Bericht
darüber zu verfälschen. Ferner ergibt sich in geringerem Maße als bei den eigenschaftsorientierten Messungen die Frage nach der Fairness von Tests (s. dazu Möbus, 1978;
Wottawa & Amelang, 1980; Bartussek, 1982). Schließlich ist auch der zunehmend kritisch beurteilte Gesichtspunkt einer Wahrung der persönlichen Intimität und individuellen »Privatheit« (Kruse, 1980) weniger akut, da nicht in die »Tiefen« einer Person
eingedrungen wird (s. Sherman, 1979, S. 238/39).
Die Informationen für die funktionale Verhaltensanalyse werden gewonnen aus
4 Interviews mit dem Probanden oder Patienten selbst sowie Bekannten der zu diagnostizierenden Person,
4 Testergebnissen und Verhaltensbeobachtungen,
4 einer Erkundung der Vorgeschichte des Klienten
Einheiten (wie z. B. »Schizophrenie«, »Paranoia« und dergleichen), woraus aber noch
keinerlei Handlungsanweisungen für eine Beeinflussung des Verhaltens resultieren.
Dagegen liefert der lerntheoretische Ansatz Informationen, die aufgrund ihrer höheren
Spezifität und Situationsbezogenheit wesentlich mehr Bedeutung für jegliche Intervention besitzen. Das zentrale Instrument zur Erfassung der situativen Faktoren, die das
Verhalten kontrollieren und hervorbringen, stellt dabei die funktionale Analyse (Kanfer
& Saslow, 1976, S. 34 ff.) dar. Inzwischen gehört diese Methode zum Standardrepertoire
jeder lerntheoretisch betriebenen Therapie. Sie beinhaltet eine Untersuchung
4 des Kontextes, in dem ein kritisches Verhalten (z. B. Bettnässen) auftritt,
4 der Qualität und Intensität des kritischen Verhaltens,
4 der Folgen des Verhaltens für den Betreffenden und seine Umwelt,
4 der Möglichkeiten der Person und ihrer Umwelt für eine Modifikation und schließlich
4 der möglichen Rückwirkungen einer Verhaltensänderung auf den Betreffenden und
seine Umwelt.
1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik
1
»Behavior sampling«
in der Klinischen
Psychologie
Vorzüge des verhaltenstheoretischen
Ansatzes
Funktionale Verhaltensanalyse
Lerntheoretischer
Ansatz
13
1
Kapitel 1 · Einleitung
Fragebogen
Rollenspiel
. Abb. 1.5. Auszug aus
dem »Fear Survey Schedule
FSS« und dem »Rathus Assertiveness Schedule RAS«
Beispiel für
Fragebogen
14
Verschiedene Hilfsmittel erleichtern dabei die Registrierung von Häufigkeit und
Dauer der interessierenden Verhaltenskategorien (z. B. Sitzen, Gehen, Lachen, Reden
usw.). In aller Regel werden die gebildeten Klassen möglichst »verrichtungsnah« definiert, um die externen Beobachter hinsichtlich der von ihnen geforderten Kategorisierungsleistungen nicht zu überfordern, oder um nicht mehr als unvermeidlich subjektive Momente einfließen zu lassen.
Eine weitere Variante zur Gewinnung von verhaltenstheoretisch relevanten Informationen stellt das Rollenspiel dar. Im Allgemeinen wird darauf zurückgegriffen, um
in kurzer Zeit Anhaltspunkte über Verhalten in Situationen zu gewinnen, für die selten
Gelegenheit zur Beobachtung besteht (z. B. Interaktionen zwischen Ehepartnern unter
bestimmten Stressbedingungen).
Was selbstbeobachtetes Verhalten angeht, so sind auch vor dem Hintergrund der
Verhaltenstheorien zahlreiche Fragebogen entstanden. Einige beschäftigen sich mit
dem Angstgehalt verschiedener Situationen. Eine besonders große Verbreitung im
klinischen Bereich hat das von Wolpe und Lang (1964) publizierte »Fear Survey Schedule (FSS)« erfahren (. Abb. 1.5).
Die Grundprinzipien der oben dargelegten Modellvorstellungen zusammenfassend,
stellt sich der Zusammenhang zwischen Prädiktoren und Kriterien (Indikatoren und
Indiziertem sensu Wottawa & Hossiep, 1987) wie in . Abb. 1.6 grafisch veranschaulicht
dar.
Fear Survey Schedule (FSS)
»Die Stichworte in diesem Fragebogen beziehen sich auf Dinge und Erfahrungen, die Angst
oder unangenehme Gefühle hervorrufen können. Machen Sie bitte für alle Stichworte jeweils
an der Stelle der Punkteskala ein Kreuz, die am besten den Grad Ihrer zurzeit bestehenden
Angst beschreibt.«
gar
ein
deutsehr
nicht
wenig
lich
stark
stark
Würmer
Tote Tiere
Leute mit Missbildungen
Eine Straße überqueren
Weite offene Räume
Laute Stimmen
Einem Kampf zusehen
Menschliches Blut
Bei einer Operation zusehen
(Aus Schulte, 1976, S. 256)
Rathus Assertiveness Schedule (RAS)
Geben Sie an, wie charakteristisch jede der nachfolgenden Fragestellungen für Sie ist.
+ 3 sehr charakteristisch, sehr zutreffen
⯗
– 3 sehr uncharakteristisch, sehr unzutreffend
»Die meisten Leute sind aggressiver und zeigen mehr Durchsetzungsvermögen als ich.«
»Wenn ich um etwas gebeten werde, bestehe ich darauf, zu erfahren, warum.«
»Über schlechten Service im Restaurant oder woanders beschwere ich mich.«
(Nach Rathus & Nenid, 1977, S. 137–139)
Beispiel
Diagnostische Strategien
Pawlik (1976, S. 23) hat die unterschiedlichen Dimensionen und Zielsetzungen, die mit
den genannten Modellannahmen verbunden sind, in einer Übersicht zusammengefasst
(. Tab. 1.1).
Nach seiner Analyse lassen sich selektionsorientierte Eigenschaftsdiagnostik und
verhaltensbezogene Modifikationsdiagnostik relativ gut voneinander abheben und
halbwegs eindeutig unterschiedlichen psychologischen Arbeitsfeldern zuordnen.
! Modifikationsdiagnostik ist folglich kriteriumsorientierte Prozessdiagnostik.
Modifikationsdiagnostik muss nach ihrem Selbstverständnis dagegen Prozessdiagnostik sein und Veränderungen des Verhaltens durch wiederholte Untersuchungen zu erfassen suchen. Die Annahme einer situativen Abhängigkeit des Verhaltens verbietet die
Beschränkung des diagnostischen Prozesses auf eine begrenzte Verhaltensstichprobe. Sie
erfordert statt dessen eine systematische Inventarisierung des gesamten für die Fragestellung relevanten Verhaltensrepertoires zur Erfassung situationsbedingter Variationen.
Aber nicht Differenzen zu einer Vergleichsnorm, sondern die Distanz zu einem definierten Kriterium bestimmen Beginn und Ende von Interventionsmaßnahmen.
! Selektionsdiagnostik ist somit normorientierte Statusdiagnostik zur Schätzung des
Ausprägungsgrades von Eigenschaften.
Aus den im vorangegangenen Kapitel dargelegten unterschiedlichen Modellannahmen von Eigenschafts- und Verhaltensdiagnostik resultieren nach Pawlik (1976) auch
unterschiedliche diagnostische Strategien: Selektionsdiagnostik kann sich als Statusdiagnostik auf die einmalige Feststellung eines Ist-Zustandes beschränken, da zeitstabile Eigenschaften Prognosen bereits nach einmaliger Messung ermöglichen. Die Testuntersuchung liefert anhand einer Stichprobe von Testitems einen Schätzwert der
selektionsrelevanten Eigenschaft. Ihr Ausprägungsgrad soll in Relation zu einer Vergleichsnorm Handhabe für geeignete Entscheidungen liefern.
1.5
1
Prozessdiagnostik:
Wiederholte Untersuchungen erfassen
Verhaltensänderungen
Statusdiagnostik:
Einmalige Feststellung
eines Ist-Zustandes
. Abb. 1.6. Grundprinzipien diagnostischer Modelle
zum Zusammenhang zwischen Index und Indiziertem
15
1
Kapitel 1 · Einleitung
Grundlagenfach:
Diffentielle Psychologie und Persönlichkeitsforschung
Überschneidung diagnostischer Aufgaben
in den Anwendungsfeldern
16
Individuelle Position relativ zu einem Verhaltenskriterium
Verhaltensstichprobe → Eigenschaftswert
3. Testen
(Inter-)individuelle Unterschiede
2. Normorientierte Diagnostik
Kriterienorientierte Diagnostik
Veränderungsmessung
Ist-Zustand (diagnostisch oder prognostisch)
1. Statusdiagnostik
Prozessdiagnostik
Diagnostische Zielsetzung
Dimension
. Tabelle 1.1. Unterschiede zwischen Eigenschafts- und Verhaltensdiagnostik. (Nach Pawlik,
1976, S. 236)
⇔
⇔
Meilensteine in der Geschichte der psychologischen
Diagnostik
Wie eingangs dargelegt wurde, handelt es sich bei der psychologischen Diagnostik um
eine primär anwendungsorientierte Disziplin. Das »dazugehörige« Grundlagenfach ist
die Differentielle Psychologie und Persönlichkeitsforschung. Beide Fächer sind sehr eng
miteinander verflochten (s. Bartussek & Amelang, 1992): Hier wie dort kommt es darauf an, Unterschiede zwischen und innerhalb von Personen zu beschreiben mit dem
Ziel, das augenblickliche Verhalten erklären und zukünftiges prognostizieren zu
1.6
Eigenschaftsdiagnostik findet man überwiegend dort, wo eignungsdiagnostische
Entscheidungen getroffen werden, Modifikationsdiagnostik vor allem im Bereich der
Klinischen Psychologie.
Aber bereits in der Pädagogischen Psychologie überschneiden sich die diagnostischen Aufgaben. Selektionsdiagnostik findet vor allem in Fragen der Schullaufbahndiagnostik Anwendung, während Modifikationsdiagnostik bei der Untersuchung gestörter Lernprozesse sowie zur Planung und Evaluation pädagogischer Behandlungsmaßnahmen erforderlich wird. Selbst in der betrieblichen Eignungsdiagnostik sind die
Fronten nicht mehr ganz klar. So fordern Triebe und Ulich (1977) zur Optimierung
eignungsdiagnostischer Selektionen eine Prozessdiagnostik mit zwischengeschalteter
Lernphase. Andererseits werden auch in der Klinischen Psychologie Selektionen dort
vorgenommen, wo die Zuteilung von Behandlungsalternativen an das Vorliegen bestimmter Voraussetzungen gebunden ist.
Insgesamt gesehen ist das Schema von Pawlik hilfreich für eine Klassifikation der
sehr großen Zahl psychologischer Verfahren mit ganz unterschiedlicher Basis rationaler und theoriebezogener Konstruktionsgesichtspunkte und der unterschiedlichen
Zielsetzungen ihres Einsatzes.
Entscheidungs- und Behandlungsoptimierung
Schätzung eines Eigenschaftswertes
Diagnostik als Information für und über
Behandlung
Verhaltensrepertoire (-hierarchie)
Inventarisieren
4. Diagnostik als Messung
⇔
⇔
1.5 · Diagnostische Strategien
⇔
⇔
⇔
⇔
(S.135-178)
Gütekriterien psychometrischer Tests
und ihre Bestimmung
(S.111-133)
Grundzüge von Itemanalysen
(S.94-111)
Konstruktionsprinzipien
psychometrischer Tests
(S.89-92)
Grundlagen kriteriumsorientierter Tests
(S.64-81, 86-87)
Item-Response-Theorie (IRT)
(S.33-63)
Klassische Testtheorie (KTT)
(S.26-32)
Voraussetzungen und theoretische Basis
psychometrischer Tests
Verfahren
Grundlagen diagnostischer
2
Realisierung meist
nur einer Stimuluskonfiguration
2.1.3
2.1.2
2.1.1
Die klassische Testtheorie (KTT) – 33
2.1.1.1 Zentrale Definitionen – 33
2.1.1.2 Der Standardmessfehler – 36
2.1.1.3 Minderungskorrekturen und Reliabilitätsindex – 39
2.1.1.4 Reliabilität und Testlänge – 44
2.1.1.5 Implikationen für die psychodiagnostische Praxis – 48
2.1.1.6 Kritik an der KTT – 60
Item-Response-Theorie (IRT) – 64
2.1.2.1 Grundüberlegungen der Item-Response-Theorie – 65
2.1.2.2 Dichotome Latent-Trait-Modelle – 68
2.1.2.3 Weitere Modelle der IRT – 82
Grundlagen kriteriumsorientierter Tests – 89
2.1.3.1 Die Generierung inhaltsvalider Itemmengen – 89
2.1.3.2 Die Setzung sachgerechter Normen – 89
2.1.3.3 Die Ermittlung zufallskritischer Trennwerte – 90
2.1.3.4 Weitere Probleme kriteriumsorientierter Tests – 92
Voraussetzungen und theoretische Basis
psychometrischer Tests
Alle diagnostischen Verfahren gehen davon aus, dass Unterschiede bestehen und diese
gemessen werden können. Im Sinne der eingangs dargelegten Aufgabenfelder der Psychologischen Diagnostik betreffen diese Unterschiede solche zwischen Personen, Objekten, Behandlungen, Institutionen usw. Weil die interindividuelle Perspektive, wie
historische Analysen zeigen, den Beginn ernsthafter Bemühungen um die psychodiagnostische Erfassung von Merkmalsausprägungen bestimmt hat und auch heute noch
im Vordergrund der beruflichen Routinetätigkeit vieler Psychologen steht, folgt die
nachfolgende Darstellung hauptsächlich diesem Gesichtspunkt. Die einzelnen thematisierten Überlegungen, Prinzipien und Probleme gelten in den Grundzügen jedoch
auch für andere diagnostische Problembereiche.
Wie immer die zu leistende Differenzierung inhaltlich auch beschaffen sein mag,
weisen die dafür denkbaren Ansätze doch eine Reihe von wesentlichen Gemeinsamkeiten auf: Ein bedeutsamer Gesichtspunkt besteht darin, dass genau definierte situative
Bedingungen hergestellt werden, die in Verbindung mit der gegebenen Instruktion
und den interessierenden Persönlichkeitsmerkmalen als Auslöser oder Determinanten
des beobachtbaren, diagnostisch relevanten Verhaltens gelten. In der Unterscheidung
zwischen der unabhängigen Variablen (meist eine experimentell manipulierte Stimulusdimension) und der abhängigen Variablen (gewöhnlich die Beobachtungsgröße,
also ein morphologisches oder Verhaltensmerkmal) wird diese Betrachtungsweise
deutlich. Wenn etwa bei 10 min Zeitvorgabe doppelt so viele Aufgaben richtig beantwortet werden wie bei 5 min, so liegt es nahe, die unterschiedliche Zeit der Bearbeitung
als Erklärung für die unter beiden Bedingungen verschiedenen Lösungshäufigkeiten
heranzuziehen.
In aller Regel verzichtet die Psychodiagnostik jedoch auf die Variation der Situationsfaktoren, wie sie für die Experimentelle (Allgemeine) Psychologie kennzeichnend
ist, und greift lediglich eine bestimmte Stimuluskonfiguration aus dem Universum
möglicher Faktorenkombinationen heraus. Die unter einer solchen Bedingung, in nur
2.1
Kapitel 2 · Grundlagen diagnostischer Verfahren
Herstellung genau
definierter situativer
Bedingungen
26
Zur Bedingungskonstanz in der psychologischen Diagnostik
In der einschlägigen Literatur wird regelmäßig darauf hingewiesen, dass die Konstanz der Durchführungsbedingungen einerseits zwar unabdingbar sei, andererseits
aber doch nie so recht gegeben sei. Um der daraus resultierenden misslichen Lage zu
begegnen, haben Sader und Keil (1966) die vorliegenden Untersuchungen gesichtet
und daran ansetzend konkrete Ratschläge für den diagnostischen Praktiker abgeleitet. Ihrer Übersicht zufolge gibt es teils empirische, teils experimentelle Belege dafür,
dass u. a. die Ich-Beteiligung der Probanden, deren Erfolg und Misserfolg sowie Testangst, Lob und Tadel von Seiten des Testleiters, des Weiteren allgemeine Eigenschaften und konkrete Verhaltensweisen des Diagnostikers, wahrgenommener Zeitdruck,
Messintention und Testmotivation sowie unterschiedliche Vorübung und absichtliche Verfälschung die Ergebnisse beeinflussen und damit die strikte Standardisierung
in Frage stellen. Allerdings sind in vielen der geschilderten Fälle die beobachteten
Effekte durch extreme Manipulationen zustande gekommen, mit deren Hilfe die
potenzielle Wirksamkeit des jeweiligen Faktors nachgewiesen werden sollte. Bei
sachgemäßer Testvorgabe wäre deren Auftreten ganz unwahrscheinlich.
Auch muss zwischen der statistischen Signifikanz eines Effektes und dessen
praktischer inhaltlicher Relevanz unterschieden werden. Eine der Schlussfolgerungen der Autoren lautet daher, dass ungeachtet der referierten Effekte von einer für
praktische Belange durchaus hinreichenden Bedingungskonstanz ausgegangen
werden könne. »Stabilitäts- und Validitätsdaten der Größenordnung, wie sie in der
Tat vorliegen, wären nicht möglich, wenn nicht Versuchsbedingungen im diagnosti6
Exkurs
einem Feld eines imaginären Versuchs- oder Erhebungsplanes mit unendlicher Zahl an
Faktoren und Abstufungen (z. B. Typen und Schwierigkeiten von Aufgaben, Zeitbemessung, Instruktion usw.), zwischen den Individuen noch auftretenden Verhaltensunterschiede liefern den Gegenstand bzw. Ansatzpunkt der personenzentrierten Psychodiagnostik.
Miteinander vergleichbar und damit sinnvoll sind die ermittelten Punktwerte als
quantitative Äquivalente für das beobachtete Verhalten (in Einheiten richtig gelöster
Aufgaben, mit »Ja« beantworteter Fragen zu bestimmten Persönlichkeitsausprägungen
usw.) verschiedener Personen nur dann, wenn die Bedingungen, unter denen eben
dieses Verhalten provoziert wurde, bei allen Individuen identisch oder doch weitgehend ähnlich sind. Wenn beispielsweise der eine Bewerber während 15 min 20 komplexe Denkprobleme löst, wo der andere innerhalb von 20 min 23 richtige Antworten
liefert, kann die unterschiedliche Trefferrate nicht im Sinne einer unterschiedlichen
Fertigkeit der beiden Probanden verstanden werden. Analog dazu sind niedrige Punktwerte in einem Leistungstest nicht im Sinne unzureichender Konzentration zu werten,
wenn der Testperson während der Bearbeitung der Bleistift abgebrochen ist und sie
deshalb die richtigen Lösungen nicht kennzeichnen konnte oder wenn sie durch störende Geräusche, einen unruhigen Nachbarn, unzureichende Lichtverhältnisse oder
das Beschlagen der Brille bei der Bearbeitung der Aufgaben behindert war, während
andere Probanden durch keinen dieser Faktoren beeinträchtigt wurden. Die Konstanz
bzw. Identität der Bedingungen oder Standardisierung ist somit eine Grundvoraussetzung für die Ermittlung und sinnvolle Interpretation jeglicher interindividueller Unterschiede.
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Konstanz der Bedingungen notwendig
27
2
2
Differenzierung am
größten bei Aufgaben
mittlerer Schwierigkeit
Idealfall: Robustheit
gegen andere (störende) Faktoren
Diese nur auf den ersten Blick überraschende Tatsache hat Lienert (1989) außerordentlich instruktiv in einem Szenario veranschaulicht, in dem jeder der »Verlierer« jedem
Wenn eine bestimmte Aufgabe von 50 Probanden aus einer Stichprobe von N = 100
Personen gelöst wird, so differenziert diese Aufgabe nicht nur zwischen den 50 Probanden mit der richtigen und den restlichen 50 Probanden mit der falschen oder
gar keiner Antwort, sondern zwischen jedem der 50 Probanden, die das Item richtig
beantworten und jedem der 50 Probanden, bei denen das nicht der Fall ist. Eine solche Aufgabe hat somit insgesamt 50 × 50 = 2500 Unterscheidungen getroffen.
Beispiel
Bei herkömmlichen Tests, die eine spezifische Variante von Bedingungen zur Provokation von Stichproben des Verhaltens darstellen, ist der Forderung nach Standardisierung durch Gleichheit des Materials, Identität der Instruktionen, genauen Anleitungen
zur Durchführung und Auswertung usw. Rechnung getragen. Dennoch ist evident, dass
nicht alle denkbaren Einzelfaktoren oder Störgrößen strikt kontrolliert werden können.
In dem Maße, in dem sich Bedingungen der Kontrolle des Untersuchungsleiters entziehen, wird die Objektivität eines diagnostischen Verfahrens beeinträchtigt, d. h. dessen
Unabhängigkeit von der Person des Testleiters und den damit möglicherweise verbundenen Besonderheiten in ihren verschiedenen Aspekten der Durchführung, Auswertung und Interpretation. Dies muss letztlich auch Minderungen der Reliabilität und
Validität zur Folge haben (7 Abschn. 2.3.3). Im Idealfall erweist sich die gewählte Methode der Datengewinnung als hoch sensitiv gegenüber den Phänomenen oder Variablen, an denen man aus theoretischen Gründen interessiert ist, aber als robust und unempfindlich gegenüber allen anderen Faktoren (Pervin, 1970, S. 73).
Die mit Hilfe von Tests realisierten Bedingungen werden i. Allg. so festgesetzt, dass
die Variabilität des Verhaltens als Ansatzpunkt der personenzentrierten Psychodiagnostik
maximal ist. Diese Differenzierung, die ebenfalls eine Grundvoraussetzung jeder Gewinnung von sinnvollen Informationen darstellt, ist dann am größten, wenn Tests oder ihre
Bestandteile (einzelne Aufgaben, Untertests usw.) eine mittlere Lösungswahrscheinlichkeit aufweisen für jene Fähigkeits- oder Merkmalsausprägungen, in denen eine Diskriminierung vorgesehen ist. Dies kann mit einem Beispiel verdeutlicht werden:
schen Experiment in einem gewissen und nicht unbeträchtlichen Maße konstant
gehalten werden könnten« (Sader & Keil, 1966, S. 299). Die Vorschläge für die praktische Umsetzung reichen von der Rezipierung der relevanten Literatur über eine
sachgerechte Befragung im Anschluss an durchgeführte Untersuchungen bis zu
einer sorgfältigen Ausnutzung der Möglichkeiten zur allgemeinen Gestaltung der
Gesamtsituation. Diese kann in einer Einleitungsansprache, Zwischenerläuterungen
oder sogar in der Vorschaltung von Anwärmtests bestehen, wo dies geboten erscheint. Auch die nachträgliche Korrektur von Testergebnissen ist in solchen Fällen
möglich, wo sich Fehler sachwidrig ausgewirkt haben mögen.
Im konkreten Einzelfall werden solche Ratschläge nur bedingt weiterhelfen, weshalb sich der Diagnostiker dann zwangsläufig auf allgemeine wissenschaftliche
Standards und wohl auch auf »den gesunden Menschenverstand (verlassen muss),
wenn dieses der Sachlage nach geboten erscheint.« (Sader & Keil, 1966, S. 301).
Kapitel 2 · Grundlagen diagnostischer Verfahren
Idealfall: Sensitivität
gegenüber interessierenden Faktoren
28
der »Gewinner« (Personen ohne bzw. mit richtigen Lösungen) zu dessen »Erfolg« durch
Händedruck oder Schulterklopfen gratuliert hat. Im Falle des obigen Beispiels wäre das
gleichbedeutend mit 2500 einzelnen Handreichungen. Wenn andererseits ein Item in
einem Kenntnis-, Persönlichkeits- oder Interessentest nur von 20 der 100 Probanden
in einer bestimmten Richtung beantwortet wird, so unterscheidet es zwischen 20 × 80
= 1600 Probandenpaaren. Noch schwierigere (oder auch leichtere) Aufgaben in Leistungstests bzw. solche mit sehr seltenen (oder auch häufigen) Beantwortungen sind
trotz ihrer damit gegebenen verminderten Differenzierungskraft in der Gesamtpopulation in fast allen Verfahren enthalten, weil mit ihrer Hilfe auch in den Teilpopulationen »sehr guter« bzw. »sehr schlechter« Probanden (mit Ausprägungen in den Extrembereichen der jeweiligen Dimension) zwischen den Merkmalsträgern unterschieden
werden kann, d. h. auch in den Extrembereichen ist eine mittlere Lösungswahrscheinlichkeit, bezogen auf die dortige Merkmalsausprägung, optimal.
Ohne jeden Nutzen für eine Differenzierung sind solche Items, die überhaupt nicht
streuen, d. h. nur einen invarianten Testpunktwert (meist 0 oder 1, »ja« oder »nein«
usw.) liefern. Diese bedeuten lediglich das Hinzufügen (oder Weglassen) eines für alle
Merkmalsträger konstanten Betrages auf der jeweiligen Dimension. Sofern ihnen nicht
eine besondere Funktion zukommt, z. B. als »Eisbrecher« (»Möchten Sie, dass Ihr Leben
schön ist?«) oder zur Überprüfung einer angemessenen Handhabung der Bearbeitungsmodalitäten und des Antwortblattes (»Haben Sie die Instruktion verstanden?«)
oder zur Verschleierung der Messintention der anderen Items, wird auf sie deshalb aus
Ökonomiegründen gewöhnlich verzichtet.
Aus diesen Erwägungen geht auch hervor, dass in jenen Fällen, wo Aufgaben bei der
Ermittlung des Gesamtpunktwertes gleich gewichtet werden (etwa 1 Punkt im Sinne
des Merkmals bei jeder logisch richtigen Lösung oder einer symptomatisch relevanten
Antwort verrechnet wird), gleichwohl eine implizite Gewichtung stattfindet, und zwar
nach dem Beitrag, den das Item an der Variation des Gesamtpunktwertes leistet, also
seiner Differenzierungskraft.
In der Gewichtigkeit noch vorgeordnet ist die Forderung nach Objektivität der
psychodiagnostisch relevanten Information, egal ob es sich dabei um das Ausdrucksverhalten von Personen, deren Berichte über Träume, Gefühle und Erlebnisse, um
Testdaten oder Registrierungen physiologischer Reaktionen handelt. Nur dasjenige
kann Gegenstand einer empirischen Wissenschaft und konkret einer diagnostischen
Methode sein, was die Voraussetzung erfüllt, ein sog. »öffentlicher Sachverhalt« (Herrmann, 1976) und damit prinzipiell anderen Personen zugänglich zu sein. Außerdem
muss es der Bedingung entsprechen, objektiv zu sein, d. h. es muss von mehreren Beobachtern in hinreichender Weise als gleich wahrgenommen oder eingeschätzt werden
und damit möglichst weitgehend unabhängig von der Person des Beobachters sein. Im
Falle einer Feststellung der Zahl richtiger Lösungen in einem Kenntnistest werden 2
Auswerter, von Flüchtigkeitsfehlern vielleicht abgesehen, vollständige wechselseitige
Übereinstimmung aufweisen. Dies wird besonders dann der Fall sein, wenn die richtigen Antworten unter den angebotenen Mehrfachwahlen nur angekreuzt zu werden
brauchen und für die Auswertung eine Schablone zur Verfügung steht. Viel schwerer
dürfte aber Konkordanz zu erzielen sein, wenn beispielsweise aufgrund des Ausdrucksverhaltens beurteilt werden soll, ob ein Proband als »gehemmt« oder aber als »beherrscht« anzusehen ist, weil hier bei der Einordnung der Beobachtungsdaten sehr viel
stärker auch interpretative Elemente mit einfließen (. Abb. 2.1). (Auf die unterschiedlichen Aspekte von Objektivität und ihrer numerischen Bestimmung wird unter 7 Abschn. 2.3 detaillierter eingegangen.)
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Objektivität = Unabhängigkeit vom Testleiter
Gewichtung von Items
gemäß ihrer Differenzierung
Funktion nichtdifferenzierender Items
29
2
Abhängigkeit des
diagnostischen Ansatzes von der theoretischen Einbettung
Stabilität
Reliabilität = Messgenauigkeit als »rein«
technisches Kriterium
Sollen die sich in den Messwerten niederschlagenden Merkmalsausprägungen als
charakteristisch für die betreffenden Personen, Objekte, Sachverhalte usw. gelten, müssen sie reliabel sein, d. h. richtig im Sinne formaler Exaktheit, wobei davon abgesehen
wird, ob die vorgenommene Messung auch dasjenige Merkmal getroffen hat, das Ziel
der Messung war. Das heißt, es sollten – in Analogie zum Anspruch der theoretischen
Reproduzierbarkeit von Resultaten aus der experimentellen Psychologie – bei einer
erneuten Realisierung der betreffenden Bedingungskonstellationen bei den erfassten
Merkmalsträgern in etwa dieselben Verhaltensäußerungen auftreten. Verschiedene
Gründe (darunter Einflüsse durch Übung und Gedächtnis) stehen einer derartigen
direkten Wiederholung aber oftmals entgegen. Es sind deshalb mehrere methodische
Alternativen zur Bestimmung der Reliabilität entwickelt worden (7 dazu mehr
im Abschn. 2.3.1.2). Im Fall der gleichwohl mitunter besonders aussagekräftigen Wiederholungsuntersuchungen läuft die Forderung nach Reliabilität auf eine möglichst
hohe Korrelation zwischen den aus verschiedenen Beobachtungszeitpunkten rührenden Messwerten ein und derselben Stichprobe von Merkmalsträgern hinaus; hier
spricht man dann von Stabilität (als einem besonderen Aspekt der Reliabilität).
Einen Sinn erhalten die in den Miniatursituationen von Tests oder im größeren
Rahmen von »natural settings« gewonnenen Messwerte meist erst durch den Bezug auf
eine Theorie. Schon der Inhalt theoretischer Konzeptionen bestimmt in gewissem
Ausmaß die Technik der Informationsgewinnung und die Art der zu erhebenden Messwerte. Unmittelbar augenfällig wird das bei einem Vergleich zwischen der bereits erwähnten sog. Verhaltens- und Eigenschaftsdiagnostik: Im ersten Fall stellen die Beobachtungsgrößen nur eine nach Möglichkeit repräsentative Stichprobe aus der viel größeren Population gleichartiger Verhaltensweisen dar, im zweiten stehen sie stellvertretend für die Ausprägung von bestimmten Eigenschaften, indizieren also etwas
qualitativ völlig Andersartiges (Unterscheidung zwischen »sample« und »sign«). Da es
sich bei den (»Dispositions-«)Eigenschaften um hypothetische Konstrukte, also erdachte Gebilde handelt, hängt es weitgehend vom Inhalt der jeweiligen Theorie ab,
welche Indikatoren als angemessen gelten können. Wenn beispielsweise davon ausgegangen wird, dass die davon Betroffenen selbst über die Intensität erlebter Konflikte
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.1. Bei projektiven
Verfahren wie z. B. dem TAT
ist sowohl die Durchführung
als auch die Auswertung
nicht unabhängig von der
Person des Testleiters
30
berichten können, erscheinen direkte Fragen danach zweckmäßig. Hingegen liegen
völlig andere Zugänge nahe, z. B. solche über projektive Verfahren mit dementsprechend fundamental anderen diagnostischen »Anzeichen«, wenn der Theorie zufolge
die Konflikte unbewusst ablaufen und damit per definitionem ein davon Betroffener
selbst nichts weiß und daher auch keine Auskünfte erteilen kann.
Die Brauchbarkeit der vorgenommenen Messoperationen sowie diejenige der damit
erhaltenen Resultate muss sich sodann im Kontext weiterer Informationen erweisen,
d. h., die Empirie wirkt zurück auf die Theorie und kontrolliert gleichsam die aus ihr
abgeleiteten Aussagen. Theorie und Empirie bedingen einander gegenseitig und stehen
so in einem Verhältnis wechselseitiger Abhängigkeit. Übertragen auf psychodiagnostische Verfahren läuft dies i. Allg. auf die Forderung nach dem Nachweis der Validität
oder Gültigkeit hinaus. Das heißt, durch gezielte zusätzliche Untersuchungen müssen
Hinweise dahingehend erbracht werden, dass der Test tatsächlich dasjenige misst, das
er messen soll oder die Konstrukteure zu messen vorgeben (. Abb. 2.2; Validierung).
Beispielsweise wird man bei einem neuen Intelligenztest auch prüfen, ob seine Ergebnisse mit denjenigen bereits bewährter Verfahren in groben Zügen übereinstimmen
(nicht hingegen perfekt damit korrespondieren, da das neu entwickelte Verfahren ja
bestimmte Unzulänglichkeiten der schon eingeführten Tests überwinden soll) und ob
Korrelationen mit Maßen für Schul- und Berufserfolg sowie Schätzungen von Bekannten oder Freunden bestehen.
Auf eine solche Validierung kann, worauf bereits an dieser Stelle hingewiesen werden soll, dann verzichtet werden, wenn ein Test nach der sog. externalen Methode
entwickelt wurde. Wenn es z. B. darauf ankommt, die Gruppe der potenziell unfallgefährdeten Personen in einer Fabrik zu identifizieren (um sie gesondert zu schulen oder
an Arbeitsplätze mit einem situativ geringeren Risiko zu versetzen), mag die Strategie
der Skalenkonstruktion darin bestehen, eine möglichst umfangreiche und inhaltlich
breit gefächerte Liste von Items zunächst 2 Gruppen von Probanden vorzugeben, von
denen die eine mit Unfällen belastet ist und die andere nicht.
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
. Abb. 2.2. Praktische
Fahrprüfungen haben
logischerweise eine hohe
Validität zur Messung des
Fahrverhaltens im Straßenverkehr
31
2
! Die wichtigsten Grundvoraussetzungen sind Standardisierung, Differenzierung,
Objektivität, Reliabilität und Validität.
Die Standardisierung bezeichnet die Konstanz bzw. Identität der Untersuchungsbedingungen. Eine Standardisierung kann erreicht werden, wenn etwa gleiches Material, identische Instruktionen und genaue Anleitungen zur Durchführung der
Untersuchung verwendet werden.
Des Weiteren muss ein Verfahren die Fähigkeit zur Differenzierung besitzen. Die
mit Hilfe des Test realisierten Untersuchungsbedingungen sollten so festgesetzt
werden, dass die Variabilität des Verhaltens als Ansatzpunkt der personenzentrierten Psychodiagnostik maximal ist. Um in ausreichendem Maße zu differenzieren,
sollte die gewählte Methode zur Datengewinnung (im Idealfall) also hoch sensitiv
gegenüber den interessierenden Merkmalen, aber robust gegenüber allen anderen
Faktoren sein. Damit etwa ein Leistungstest (oder einzelne Untertests, Aufgaben
etc.) hinreichend differenziert, verwendet man Aufgaben, die eine mittlere Lö-
? Benennen und cha-
rakterisieren Sie die
wichtigsten Grundvoraussetzungen für
die Ermittlung und
Interpretation von
individuellen Unterschieden.
duell miteinander vergleichen zu können, müssen die Durchführungsbedingungen strikt konstant gehalten werden (Standardisierung).
4 Zweckmäßigerweise sollten der Test und die Durchführungsbedingungen so
gestaltet werden, dass sie im diagnostisch interessierenden Verhalten die Merkmalsträger maximal voneinander unterscheiden (Differenzierung).
4 Die zwischen den Merkmalsträgern auftretende Variation ist nur dann diagnostisch brauchbar, wenn die beobachteten Unterschiede objektiv und messgenau
(oder exakt) zu registrieren sind (Objektivität und Reliabilität). Ein Aspekt der
Reliabilität ist die Stabilität über der Zeit.
4 Da viele Tests hypothetische Konstrukte erfassen sollen, ist es unverzichtbar,
weitere, von der Testung selbst unabhängige Informationen über dasjenige einzuholen, was der Test zu messen vorgibt (Validierung).
4 Um die Messwerte aus psychodiagnostischen Verfahren intra- und interindivi-
Fazit
Jene Items eignen sich dabei zur Erkennung von »Unfällern«, die zwischen den
beiden Stichproben überzufällig differenzieren, bei denen also das Beantwortungsverhalten der Probanden mit und ohne Unfälle signifikant verschieden voneinander ist.
Diese Unterschiede müssen auch in einer sog. Kreuzvalidierung mit 2 neuen Stichproben von Probanden erhalten bleiben. Die beiden Kategorien von Unfällern bzw. Nichtunfällern sind gleichsam soziale, betriebliche und ökonomische Realitäten, denen der
Diagnostiker aus verschiedenen Gründen gerecht werden muss. Bei dem Versuch,
dieses zu tun, mag er sich auf psychologische Theorien zur Genese von Unfällen und
zum »Wesen« und der »Natur« von Unfällen stützen (wonach etwa geringe Konzentration und hohe Ablenkbarkeit sowie Impulsivität eine Rolle spielen). Er kann darauf
aber auch verzichten und »blind-analytisch« einen Itempool zusammenstellen, in der
Hoffnung, darin auch potenziell differenzierungskräftige Fragen oder Aufgaben eingeschlossen zu haben. Inwieweit diese Erwartung gerechtfertigt ist, erweist sich dann
anhand der Beantwortungen beider Gruppen. Falls Unterschiede auftreten (und den
Kreuzvalidierungen standhalten), ist die Validität gleichsam konstitutives Element der
Skalenkonstruktion, ohne dass in derartigen Fällen in nennenswerter Weise auf inhaltliche Theorien rekurriert werden müsste.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Übungsfrage
32
Die klassische Testtheorie (KTT)
x tj = w tj + e tj
2.1.1.1
(2.1)
Zentrale Definitionen
Die überwiegende Zahl der gebräuchlichen Tests ist nach den Regeln der sog. klassischen Testtheorie (KTT) konzipiert worden. Diese geht zurück auf das Werk von Gulliksen (1950), das seinerseits den vorläufigen Abschluss einer Entwicklung markierte,
in deren Verlauf man sich um die mathematisch-statistische Fundierung der Konstruktion und Interpretation von Tests bemühte.
Zwischenzeitlich ist die Entwicklung verständlicherweise weitergegangen, wobei
insbesondere die Arbeiten von Novick (1966) zur präzisen Unterscheidung von Axiomen und Folgerungen sowie von Zimmerman (1975) zur mathematischen Form wichtige Meilensteine setzten. Umfassend ist die Logik der KTT bei Steyer und Eid (1993)
dargestellt, die allerdings eine andere Notation als die hier gewählte verwenden.
Das Attribut »klassisch« soll auf die Anciennität dieser formalen Theorie ebenso
verweisen wie darauf, dass zwischenzeitlich mit der probabilistischen Testtheorie ein
modernerer Ansatz formuliert wurde, der verschiedene Nachteile der KTT zu vermeiden sucht. Gleichwohl stellt die KTT auch heute noch eine wichtige Grundlage für die
Konstruktion von Tests und den Umgang mit den daraus gewonnenen Messwerten dar.
Der Ausgangspunkt für die Entwicklung der KTT war die Feststellung von Spearman
(1910), dass messfehlerbehaftete Variablen miteinander niedriger korrelieren müssen,
als sie es ohne Fehlerbehaftetheit tun würden.
Einige Setzungen oder Definitionen (»Axiome«) der KTT können für solche und
ähnliche Feststellungen die Erklärung liefern:
1. Jeder beobachtete Wert xtj einer Person j im Test t setzt sich additiv zusammen aus
einem wahren Wert wtj dieser Person j und einem Fehlerwert etj:
2.1.1
33
2
Axiome der KTT
Begriff
sungswahrscheinlichkeit für den jeweiligen Abschnitt der Merkmalsausprägung
aufweisen.
Die zwischen den Merkmalsträgern auftretende Variation muss objektiv erfassbar
sein (Objektivität). Um diese Voraussetzung zu erfüllen, muss eine gegebene Testleistung unabhängig von der Person des Untersuchungsleiters registriert werden
können. Dies kann erreicht werden, indem bindende Verfahrensvorschriften zur
Vorgabe der Tests und ihrer Auswertung festgelegt werden.
Wenn die sich in Messwerten niederschlagenden Merkmalsausprägungen als charakteristisch für eine Person oder ein Objekt gelten sollen, müssen sie reliabel sein
(Reliabilität oder Messgenauigkeit). Dieser Gesichtspunkt kann dann als erfüllt
angesehen werden, wenn beobachtete Unterschiede stabil sind, d. h., wenn eine
Wiederholung der Messung unter gleichen Bedingungen und an denselben Objekten oder Personen zu denselben Ergebnissen führt.
Die Brauchbarkeit der in Messungen erhaltenen Resultate muss sich im Kontext
weiterer Informationen erweisen. Durch gezielte zusätzliche Untersuchungen müssen Hinweise dafür erbracht werden, dass der Test auch wirklich das misst, was er
messen soll (Validität oder Gültigkeit). Die Validität einer Messung kann durch den
Vergleich mit einem für den betreffenden Sachverhalt relevanten äußeren Merkmal
(Kriterium) oder dessen Entsprechung (anderer Test o. Ä.) bestimmt werden.
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Unabhängigkeit der
Fehlerwerte
Messfehler als
Zufallsvariable
Konzept des
Messfehlers
∞
t =1
∞
(2.2)
cov(et, wu) = 0,
cov(et, eu) = 0
(2.3)
Die Kovarianz cov(x,y) zwischen 2 Variablen x und y entspricht dem über die Messwerte gemittelten Abweichungsprodukt
r = Korrelation,
cov = Kovarianz.
cov (et, wt) = 0,
oder, was das gleiche bedeutet,
ret wt = 0
ret wu = 0
ret eu = 0
Sicher ist die Annahme der Bedingungskonstanz auch bei oftmaliger Wiederholung eines Tests nur eine Fiktion, da beispielsweise in Leistungsprüfungen mit
Gedächtnis- und Übungseffekten gerechnet werden muss und schon die zweite
Durchführung deshalb nur noch bedingt mit der ersten zu vergleichen ist. Es erleichtert vielleicht die Akzeptanz der Axiome, die nicht aus einer psychologischen
Theorie oder auch nur nach psychologischer Reflexion abgeleitet sind, wenn an die
vielfache Vorgabe eines Verfahrens gedacht wird, bei dem Übungseffekte keine
Rolle spielen und sich die Probanden nicht an ihre einmal gegebene Antwort gebunden fühlen. Das gilt etwa bei Fragebogen zur Erfassung von aktuellen Zuständen; zumindest denkbar wäre es in diesem Fall, in dem Mittelwert aus der vielfach
wiederholten Testung die »typische« (= »wahre«) Stimmung zu sehen.
3. Die Fehlerwerte etj sind unabhängig von den wahren Werten des Tests t oder eines
anderen Tests u sowie von den Fehlerwerten euj eines anderen Tests u, sodass zwischen den Fehlerwerten von 2 Tests also nur Nullkorrelationen bestehen.
∑etji = 0; ∑etji = 0
j =1
Der Fehlerwert oder Messfehler wird somit als eine Größe angesehen, die sich beim
Vorgang des Messens über den »eigentlichen« oder wahren Wert (Idealbild der
klassischen Physik) legt und den beobachteten, durch eine Testung erhaltenen Wert
vom wahren Wert mehr oder weniger stark abweichen lässt.
Inhaltlich umfasst das Konzept des Messfehlers die Gesamtheit aller unsystematischen und nicht kontrollierbaren oder vorhersagbaren Einflussgrößen, die auf das
Messergebnis einwirken können, wie z. B. positive oder negative Stimmungen, Konzentrationsstörungen, Ablenkungen, besondere Frische oder Müdigkeit, des Weiteren Tageszeit, Klima, Raumatmosphäre, die Gegenwart oder Abwesenheit von Sitznachbarn. Kurz gesagt bezieht es alles mit ein, was das Testverhalten in der einen
oder anderen Richtung beeinflusst, ohne in der je spezifischen Art und Weise erneut
bei anderen Probanden in genau derselben Weise aufzutreten.
2. Für jede Testperson stellt der Messfehler eine Zufallsvariable mit dem Erwartungswert (Mittelwert) Null und endlicher Varianz se2 dar, die für alle Personen gleich
ist.
Daraus folgt, dass die Summe der Fehlerwerte einer Person bei unendlich häufiger
Messwiederholung unter identischen Bedingungen sowie die Summe der Fehlerwerte bei einmaliger Messung an unendlich vielen Personen Null ergeben muss:
Kapitel 2 · Grundlagen diagnostischer Verfahren
Messfehler überlagert
wahren Wert
34
x = X – Mx ,
y = Y – My .
N
∑xy ,
(2.4)
sx ⋅ sy
sx ⋅ sy ⋅ N
cov(x, y )
∑xy
,
,
(2.6)
(2.5)
(2.7)
(2.9)
Da die wahren Werte wt und wt’ desselben Tests aus 2maliger Testung (gemäß 2.1)
identisch sind, ist die Kovarianz cov (wt, wt’) identisch mit der Varianz der wahren
Werte swt2 (also der wahren Varianz) in dem von Test t erfassten Merkmal:
cov (x t , x t ′ ) = cov (w t , w t ′ ).
Da jeder Kovarianzanteil, in dem et oder et’ enthalten ist, nach (2.3) gleich Null sein
muss, ergibt sich, dass die Kovarianz der beobachteten Werte cov (xt, xt’) gleich ist der
Kovarianz der wahren Werte cov (wt, wt’):
cov (x t , x t ′ ) = cov (w t , w t ′ ) + cov (w t , e t ′ ) + cov (w t ′ , e t ) + cov (e t , e t ′ ). (2.8)
Die Varianz der beobachteten Werte lässt sich demzufolge aufspalten oder fraktionieren in Varianzanteile zu Lasten der wahren Messwerte und solche zu Lasten der
Fehler.
Analog dazu lässt sich auch die Kovarianz zwischen additiv zusammengesetzten
Variablen in verschiedene Kovarianzanteile zerlegen. Für die Kovarianz cov (xt, xt’) der
Testwerte xt und xt’ aus der ersten und einer wiederholten Durchführung des Tests t
unter identischen Bedingungen würde das nach (2.1) der Kovarianz der entsprechend
zusammengesetzten Werte cov (wt + et), (wt’ + et’) gleichkommen. Diese lässt sich in 4
Anteile wie folgt zerlegen:
s xt 2 = s wt 2 + s et 2 .
Was für den einzelnen Messwert und dessen additive Zusammensetzung aus wahrem
und Fehlerwert gilt, lässt sich in Analogie zu (2.1) auch auf die Varianz der beobachteten Werte übertragen
cov(x,y) = rxy ⋅ s x ⋅ s y .
Für die Kovarianz kann deshalb auch geschrieben werden
rxy =
rxy =
Bei einer Standardisierung des Abweichungsproduktes erhält man bekanntlich den
Produkt-Moment-Korrelationskoeffizienten
N = Zahl der Beobachtungen,
Mx = Mittelwert von X,
My = Mittelwert von Y.
wobei
cov(x,y) =
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Identität der Kovarianz
wahrer und beobachteter Werte
Zerlegung der
Kovarianz
Zerlegung der Varianz
35
2
(2.10)
cov (x t x t ′ )
.
s xt ⋅ s xt ′
(2.11)
s wt 2
s xt 2
(2.12)
s xt 2 − s et 2
s wt 2 = rtt ⋅ s xt 2 .
Durch Umstellung von (2.12) kann man auch schreiben
s xt 2
s et 2
= 1- 2 .
s xt
rtt =
Setzt man die Differenz in (2.12) ein, erhält man
ist swt2 = sxt2 - set2.
2.1.1.2 Der Standardmessfehler
Da sxt2 = swt2 + set2 [vgl. (2.7)],
(2.13)
Ein Reliabilitätskoeffizient von beispielsweise rtt = .80 bedeutet demzufolge, dass die
beobachtete Testwertevarianz zu 80% auf wahre Unterschiede zwischen den Testpersonen zurückzuführen ist und zu 20% auf Fehlervarianz beruht.
Die Reliabilität gibt den Anteil der Varianz der wahren Werte an der Varianz der
beobachteten Werte an.
Definition
Die Formel (2.12) stellt die wichtigste Ableitung aus den Annahmen der klassischen
Testtheorie dar.
rtt =
Weil aber nach (2.9) und (2.10) cov (w t , w t ′ ) = s wt 2 und weil wegen der Annahme der
Wiederholung des Tests t unter völlig vergleichbaren Bedingungen auch sxt = sxt’ sein
muss und deshalb s xt ⋅ s xt ′ = sxt2, gilt
rtt =
woraus folgt, dass cov (w t , w t ′ ) = s wt 2 (wegen w t = w t ′ ), [vgl. (2.6) und (2.9)].
Die Varianz der in einem Test t auftretenden wahren Werte ist also identisch sowohl
mit der Kovarianz der wahren Werte mit sich selbst als auch derjenigen der Testwerte
aus einer ersten und einer wiederholten Vorgabe des Verfahrens.
Fragen wir uns nun nach der Korrelation des Tests t mit sich selbst, die, wie oben
ausgeführt, einen Aspekt der Reliabilität, nämlich die Retestreliabilität oder Stabilität rtt
definiert, so gilt entsprechend (2.5)
cov (w t , w t ′ ) = s wt 2 (wegen w t = w t ′ ),
Kapitel 2 · Grundlagen diagnostischer Verfahren
Reliabilität als
Quotient aus wahrer
und Testwertevarianz
36
1-rtt
(nach Umstellen),
(nach Vereinfachung),
(2.14)
Um das Letztere zu vertiefen: Angenommen, der wahre Wert wtj einer Person j in einem
Test t sei aus irgendwelchen Gründen bekannt und der betreffenden Person würde der
besagte Test immer wieder unter identischen Bedingungen vorgegeben. In diesem Fall
würden die auftretenden Messwerte, weil fehlerbehaftet, vom wahren Wert teils in der
einen, teils in der anderen Richtung abweichen. Insgesamt würde die Verteilung (sofern
die Konstanz der Bedingungen wirklich gewährleistet werden könnte und die Fluktuationen nur zufalls- oder fehlerbedingt sind) derjenigen einer Normalverteilung entsprechen, und zwar mit dem wahren Wert wtj der untersuchten Person als Mittelwert
und dem Standardmessfehler set als Standardabweichung. Diese Modellvorstellungen
sind in . Abb. 2.3 grafisch veranschaulicht.
Der Bereich, in dem die beobachteten Testwerte xtj um den wahren Wert streuen,
wird als Erwartungsbereich oder Mutungsintervall bezeichnet. Gemäß den relativen
Häufigkeiten unter den einzelnen Abschnitten der Standardnormalverteilung liegen im
Bereich von M±1 Standardabweichung (hier also wtj ± 1 set) 34% + 34% = 68% der
Fallzahlen. Mit anderen Worten: Wenn der wahre Wert bekannt ist, liegen von den
faktisch beobachtbaren Messwerten voraussichtlich ca. 68% in dem Bereich, der durch
den Standardmessfehler in beiden Richtungen auf der Merkmalsdimension um den
wahren Wert abgesteckt wird.
Allgemein wird die untere Grenze utj und obere Grenze otj des Erwartungsbereiches
nach der folgenden Formel bestimmt:
Wie aus dem Term ersichtlich ist, hängt der Standardmessfehler von der Streuung und dem
Reliabilitätskoeffizienten ab. Bei einer perfekten Reliabilität von rtt = 1.0 wird das gesamte
Produkt Null und damit auch der Standardmessfehler. Im Falle von rtt = 0, also dem vollständigen Fehlen von wahrer Varianz an der Gesamtvarianz sxt2, entspricht der Standardmessfehler dagegen der Streuung der beobachteten Werte. Diese beruhen dann ausschließlich (wie es bei rtt = 0 nicht anders sein kann) auf dem Einfluss von Fehlerfaktoren.
Der Standardmessfehler set gibt die Streuung der beobachteten Werte xt um die
entsprechenden wahren Werte wt sowohl
4 über alle Testpersonen bei einmaliger Testung als auch
4 für eine Testperson bei oftmaliger Testung unter (nur theoretisch möglichen) identischen Bedingungen an.
Der Standardmessfehler ist derjenige Anteil an der Streuung eines Tests, der zu Lasten seiner (gewöhnlich nicht perfekten, also »unvollständigen«) Zuverlässigkeit
geht.
Definition
Mit Formel (2.14) ist der Standardmessfehler eines Tests t bestimmt.
s et = s xt ⋅
s xt 2 = rtt ⋅ s xt 2 + s et 2 ,
s et 2 = s xt 2 - (s xt 2 ⋅ rtt )
s et 2 = s xt 2 (1 - rtt )
Das Produkt in (2.7) eingesetzt ergibt
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Erwartungsbereich für
beobachtete Werte
Bedeutung des
Standardmessfehlers
Standardmessfehler
37
2
Erwartungsbereich
Wtj
Set
Otj
2
α
–
(2.15)
Wie oben dargelegt wurde, geht eine der Setzungen dahin, dass der Messfehler bei allen
Testpersonen (und das bedeutet: auf allen Abschnitten des Messwertekontinuums)
Differenzierendes zum Standardmessfehler
4 Den Axiomen der KTT zufolge überlagern Fehlerkomponenten die wahren Werte. Bei wiederholter Testung ein und desselben Probanden mit einem bestimmten Test und der einmaligen Untersuchung vieler Probanden mit einem Verfahren mitteln sich die Fehlerwerte zu Null. Wahrer und Fehlerwert sind unkorreliert.
4 Die Reliabilität eines Tests ist das Verhältnis der Varianz der wahren Werte zur
Varianz der beobachteten Werte.
4 Der Standardmessfehler ist definiert als der Anteil der durch »unvollständige«
Zuverlässigkeit bedingten Fehlerkomponente an der Streuung der beobachteten Testwerte.
Fazit
Darin bedeutet zα/2 jenen Abszissenwert in der Standardnormalverteilung, dessen Ordinate am linken oder rechten Ende der Standardnormalverteilung genau α/2 der Gesamtfläche unter der Verteilungskurve abschneidet (zα/2 = ± 1,96 für α = 5%).
Üblicherweise steht der wahre Wert eines Probanden aber nicht zur Verfügung.
Eine oftmalige Testung kann allenfalls als (Gedanken-)Experiment verstanden werden,
um den wahren Wert zu bestimmen. Er würde unter der fiktiven Annahme gleichbleibender Rahmenbedingungen dann nämlich identisch sein mit dem Mittelwert aller
beobachteten Werte. Das in der psychodiagnostischen Praxis wiederkehrende Problem
besteht allerdings darin, etwas über den Bereich auszusagen, in dem ausgehend von der
einmaligen Untersuchung eines Probanden dessen wahrer Wert vermutet werden kann.
Darüber wird später Näheres auszuführen sein (7 Abschn. 2.1.1.5, Festlegung des Erwartungsbereiches).
u tj = w tj − zα /2 ⋅ s et
otj = w tj + zα /2 ⋅ s et
Utj
2
α
–
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.3. Theoretische
Wahrscheinlichkeitsverteilung des zufälligen Messfehlers; utj und otj für α = 5%
38
Wahrscheinlichkeitsdichte
(2.16)
= Reteststabilität
= Inter-Item-Konsistenz
(2.17)
cov(w t ,w u )
,
s wt ⋅ s wu
wegen (2.9) gilt, dass cov (wt, wu) = cov (xt, xu).
rwtwu =
2.1.1.3
(2.18)
Minderungskorrekturen und Reliabilitätsindex
Schon Spearman (1910) thematisierte das Problem, welchen Einfluss die Fehlerbehaftetheit von Messwerten auf die Höhe der Korrelation zwischen 2 Variablen hat. Ganz
konkret lautet die Frage, ob sich die Korrelation rwtwu zwischen den wahren Werten von
2 Tests (oder Variablen) t und u bestimmen lässt, wenn deren Reliabilitäten rtt und ruu
sowie die Korrelation der beobachteten Werte rxtxu beider Tests bekannt sind. Die Herleitung der Antwort ist vergleichsweise einfach: In sinngemäßer Anwendung der in (2.5)
dargelegten allgemeinen Definition auf das hier anstehende Problem schreiben wir:
Ansätze (= Formeln) am besten den empirisch gefundenen Messwerte-Differenzen
zwischen der Erst- und einer Wiederholungstestung gerecht wird. Die Modelltests
stützten sich dabei sowohl auf die Messwerte der Gesamtstichprobe als auch auf diejenigen aus (einer Kombination von) zweitem und dritten Quartil sowie auf diejenigen
aus erstem und viertem Quartil. Die Resultate waren insofern konsistent, als bei Heranziehung der Gesamtstichprobe die Benutzung der Formel von Keats in allen vier
Skalen die geringsten absoluten Differenzen zwischen tatsächlichen und geschätzten
Werten aufwiesen, gefolgt von der klassischen Definition des Standardmessfehlers.
Unter den beiden anderen Bedingungen (d. h. Betrachtung der mehr oder minder extremen Testwerte), bei denen sich wegen der hier eher wahrscheinlichen Regression zur
Mitte generell größere Messfehler einstellten, war der Ansatz von Keats immer noch der
präziseste, doch war in einigen Skalen Lords Formel dem herkömmlichen Standardmessfehler etwas überlegen. Insgesamt waren die Unterschiede zwischen den drei Ansätzen mit ca. 0,2 bis 0,3 Rohpunktwerten gering und deshalb mehr von theoretischem
als praktischem Interesse.
7 Abschn. 3.2.3) haben Saltstone, Skinner und Tremblay (2001) geprüft, welche der drei
Anhand von vier Skalen des Minnesota Multiphasic Personality Inventory (MMPI,
rtt
rii
s et cond’ = [X(k - X)/(k - 1) - (1 - rtt /1 - rii )]1/2
Die nach dieser Formel ermittelten Standardmessfehler scheinen unter bestimmten Bedingungen überhöht zu sein. Deshalb hat Keats (1957) den Vorschlag einer Modifikation gemacht, in dem der Ausdruck von Lord in der nachfolgenden Weise um einen Term
ergänzt wird, der die Reteststabilität und die Inter-Item-Konsistenz berücksichtigt:
X = Rohwert einer Testperson
k = Zahl der Items in einem Test
s et cond = [X(k - X)/(k - 1)]1/2
gleich groß ist. Das ist gegenintuitiv, weshalb es Bemühungen gegeben hat, den Standardmessfehler spezifisch für verschiedene Merkmalsausprägungen oder für verschiedene »score levels« zu bestimmen.
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Zur Korrelation
zwischen den wahren
Werten von 2 Tests
Modelltests zum Vergleich der verschiedenen Ansätze
Bestimmung des
Standardmessfehlers
gesondert für verschiedene Merkmalsausprägungen
39
2
cov(x t ,x u )
sxt ⋅ rtt ⋅s xu ⋅ ruu
(2.19)
rxtxu
rtt ⋅ ruu
(2.20)
.50
.90 ⋅ .80
.50
=
.72
.50
=
= .59.
.85
rtt = .90,
ruu = .80,
rxtxu = .50.
rwtwu = ?
rxtxu = rwtwu ⋅
rtt ⋅ ruu
Die Formel (2.20) zeigt darüber hinaus, dass die Korrelation von 2 messfehlerbehafteten Variablen nicht größer ausfallen kann als das geometrische Mittel rtt ⋅ ruu der
beiden Reliabilitätskoeffizienten dieser Variablen, denn durch Umstellung von (2.20)
erhält man:
Aussage: Die Korrelation zwischen den wahren Werten der Tests t und u beträgt ca.
0.59. Der Koeffizient rxtxu ist kleiner als .59, weil mindestens einer der Tests (in diesem
Fall beide Tests) nicht absolut reliabel ist.
Nach (2.20): rwtwu =
Frage:
Test t:
Test u:
Beispiel
Die Minderungskorrektur liefert eine Schätzung für die Korrelation der wahren Werte zweier Variablen, wenn deren Reliabilitätskoeffizienten bekannt sind. Damit wird
gleichsam die »Minderung« korrigiert, der Korrelationskoeffizienten unterliegen,
wenn die miteinander korrelierten Messwerte fehlerbehaftet sind.
Definition
Die Formel wurde von Spearman (1910) »correction for attenuation« genannt und
von Lienert (1989) mit »Minderungskorrektur« übersetzt.
rwtwu =
Da nach (2.5) und (2.18) die standardisierte Kovarianz dem Korrelationskoeffizienten
entspricht, vereinfacht sich (2.19) zu
rwtwu =
Daraus ergibt sich die Formel
s wt = s xt ⋅ rtt und
s wu = s xu ⋅ ruu .
Ferner lässt sich durch Radizierung und Umstellung von (2.12) herleiten, dass
Kapitel 2 · Grundlagen diagnostischer Verfahren
Minderungskorrektur
40
Maximal könnte die Korrelation zwischen den wahren Werten in den Tests t und u den
Wert r = 1,0 erreichen. Dann bliebe auf der rechten Seite noch das Produkt der beiden
Wurzelausdrücke. Im Falle des obigen Beispiels würde das eine Obergrenze von .90 ⋅ .80
= .85 bedeuten.
Dieser Herleitung kommt primär eine theoretische Bedeutung zu insofern, als sie
die Frage nach der Korrelation der wahren Werte beantwortet; sie weist aber auch Implikationen für die Validierung von Tests gegenüber externen Kriterien (z. B. Fremdeinschätzungen des von dem Test zu erfassenden Merkmals, Schul- und Ausbildungserfolge, Unfallraten, Krankheits- und Fehlzeiten usw.) auf. Angesichts der häufig genug
allenfalls moderaten Korrelationen zwischen Test- und Kriteriumswerten (grundsätzlich indiziert mit rtc) mag die Frage auftauchen, welche Faktoren allgemein für das
Verfehlen höherer Validitätskoeffizienten verantwortlich sind und ob eine relativ leicht
zu bewerkstelligende technische Verfeinerung, wie die Erhöhung der Zuverlässigkeit
des Tests durch dessen Verlängerung (zu den Einzelheiten 7 Abschn 2.1.1.4), die Aussicht auf deutliche Verbesserungen eröffnet. Die gleichen Erwägungen sind natürlich
auch relevant für die Kriteriumsdimension (. Abb. 2.4). Hier können durch Hinzunahme weiterer Einschätzer, durch die Erweiterung des Beobachtungsintervalls und die
Verlängerung des Beurteilungskataloges i. Allg. ebenfalls die Reliabilität der Kriteriumswerte erhöht und dadurch die Voraussetzungen für eine hinlängliche Validität
verbessert werden.
Im Hinblick auf solche Fälle einer doppelten Minderungskorrektur werden in
Formel (2.20) folgerichtig die dafür relevanten Terme eingesetzt bzw. nur andere Notationen insofern verwendet, als anstelle der Variablen u nunmehr die Kriteriumsdimension c tritt:
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
. Abb. 2.4. Die Validität
von Tests zur Vorhersage des
Schulerfolgs wird einerseits
durch »fehlerhafte« Messwerte beeinflusst, andererseits durch inkongruente
Konstrukte und schwer
erfassbare Rahmenbedingungen
Doppelte Minderungskorrektur
Praktische Bedeutung
von Minderungskorrekturen
41
2
Einfache
Minderungskorrektur
rtc
rtt ⋅ rcc
(2.22)
.60
.90 ⋅ .50
.60
=
.45
.60
=
= .90.
.67
corr rtc =
Da die Reliabilitätskoeffizienten jeweils im Nenner stehen, fällt die Korrektur des Korrelationskoeffizienten um so drastischer aus, je niedriger die empirisch ermittelten
Reliabilitätskoeffizienten sind (sog. »Verdünnungsparadox«). So wäre bei einer Reliabilität des Kriteriums von rcc = .70 die korrigierte Validität (also hypothetisch für den
Fall einer absoluten Reliabilität von Test und Kriterium) im eben angeführten Beispiel
nur auf t+ccorr rtc = .76 gestiegen.
In vielen Fällen erscheint es ungerechtfertigt, die Validität durch eine Minderungskorrektur von sowohl der Test- als auch der Kriteriumsdimension anzuheben.
So mag die weitere Verlängerung eines bereits umfangreichen Tests (und die damit
gegebene Aussicht auf Reliabilitätserhöhung) angesichts der damit für die Probanden
verbundenen Belastungen nicht zumutbar sein, zumal dann nicht, wenn die Reliabilität bereits hoch und damit der zu erwartende Zugewinn gering ist (7 unten). Zudem
gilt für bestimmte Kriterien, dass wegen einer Vielzahl von zufälligen Situationsfaktoren die persönliche – und damit aus individuellen Unterschieden vorhersagbare –
Komponente vergleichsweise in den Hintergrund tritt, wie es für verschiedene Unfall- und Krankheitsmaße zutrifft. Mit ausschließlich technischen Verbesserungen,
die auf die Reliabilität abzielen, ist deshalb kaum zum Erfolg zu gelangen. Gleichwohl
bleibt hier wie dort das Problem der zugrunde liegenden Systemstrukturen bestehen
und die theoretische Frage, welchen Beitrag die Unzuverlässigkeit einer der beiden
miteinander korrelierten Dimensionen im Sinne einer Beeinträchtigung der Validität
leistet.
Für diesen Fall der einfachen Minderungskorrektur reduziert sich in Formel (2.22)
der Nenner auf jene Variablen, deren Unzuverlässigkeit aus theoretischen und praktischen Gründen interessiert, behebbar erscheint und korrigiert werden soll. Die jeweils
andere Variable bleibt außer Betracht. Das bedeutet, es wird deren absolute Reliabilität
unterstellt.
Aussage: Wären Test und Kriterium absolut zuverlässig (= doppelte Minderungskorrektur), würde sich ein Zusammenhang von rtc = .90 ergeben.
c+ t
Angenommen, ein Test zur Erfassung von Intelligenz korreliere im Mittel mehrerer
Klassen mit dem Urteil der Lehrkräfte über die intellektuelle Befähigung der Kinder
zu rtc = .60. Der Test weise eine Zuverlässigkeit von rtt = .90 auf, das Kriterium nur
eine solche von rcc = .50. Nach (2.20) resultiert daraus
Beispiel
(= Validität), korrigiert für die unzureichende
Reliabilität des Tests und die unzureichende Reliabilität des Kriteriums.
corr rtc =
c+tcorr rtc=Test-/Kriteriumskorrelation
c+t
Kapitel 2 · Grundlagen diagnostischer Verfahren
Praktische Grenzen
von Minderungskorrekturen
42
corr rtc =
rtc
.60 .60
=
=
= .85
.50 .71
rcc
(2.23)
rxtwt =
s wt 2
s wt
=
.
s xt ⋅ s wt s xt
(2.24)
Da die Kovarianz cov (et, wt) gemäß dem 3. Axiom gleich Null ist, bleibt von den konzeptuellen Teilkomponenten der Kovarianz in (2.23) nur cov (wt, wt’). Diese wiederum
ist gemäß (2.10) gleichbedeutend mit swt2. Das bedeutet: Sie bemisst sich als
rxtwt
cov (x t , w t )
=
.
s xt ⋅ s wt
Aus dem Vergleich der einfachen mit der doppelten Minderungskorrektur (korrigierte
rtc = .85 bzw. .90) geht im Übrigen hervor, dass die Korrektur logischerweise relativ wenig
ändert, wenn die Reliabilität der Variablen bereits sehr hoch ist, wie es für die meisten
Leistungstests und auch für viele Fragebögen durchaus die Regel ist. Die Minderungsoder Attenuationskorrekturen sind primär wichtig für das Verständnis der KTT und der
vor ihrem Hintergrund beschriebenen Wechselbeziehungen. Ihre praktische Bedeutung
beschränkt sich auf solche Fälle, in denen mit Gewissheit davon ausgegangen werden
kann, dass das interessierende Merkmal eine größere Stabilität oder Reliabilität aufweist
als die für die Testung vorgenommenen Operationalisierungen und/oder das zur Validierung herangezogene Gültigkeitskriterium. Das letztere (die unzureichende Reliabilität
eines Kriteriums) trifft sicher zu für das oben gewählte Beispiel der intellektuellen Begabung, deren hohe Konstanz unter regulären Bedingungen selbst über eine längere Zeitspanne als gesichert gilt und jedenfalls reliabler ist als die Einschätzungen von Außenstehenden.
Das Problemfeld von Obergrenzen für korrelative Zusammenhänge zwischen Variablen – aufgrund mangelnder Zuverlässigkeit – vorläufig abschließend, soll noch
folgende Überlegung angestellt werden: Eine Limitierung der kriteriumsbezogenen
Validität eines Tests muss sich schon daraus ergeben, dass er nicht enger mit irgendeiner
anderen Variablen korrelieren kann als mit seinen wahren Werten. Diese Korrelation
stellt im Falle unkorrelierter Fehler mithin eine theoretische Höchstmarke für jegliche
Validitätskoeffizienten eines Verfahrens dar. Sie bemisst sich als
Aussage: Gelänge es, die Reliabilität des Kriteriums auf rtt = 1.0 zu steigern (= einfache Minderungskorrektur), würde sich unter sonst gleichen Verhältnissen die Validität auf rtc = .85 verbessern.
c
rtc = .60
rcc = .50
Für den im vorangegangenen Fall erwähnten Intelligenztest und dessen Zusammenhang mit dem Kriterium von Fremdeinschätzungen soll die Validität nur für die
unzureichende Reliabilität des Kriteriums minderungskorrigiert werden.
Beispiel
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Korrelation der Testscores mit den wahren
Werten
43
2
(2.25)
2.1.1.4 Reliabilität und Testlänge
Eine weitere Ableitung aus der KTT betrifft die Abhängigkeit der Reliabilität eines Tests
von dessen Länge, und zwar ausgedrückt als Zahl der Aufgaben, aus denen der Test
besteht (. Abb. 2.5). Die schon auf intuitiver Basis ableitbare Erwartung, dass sich mit
zunehmender Zahl von Items zu ein und demselben Merkmalsbereich eine Art Fehlerausgleich einstellen und damit die Messung immer präziser werde, ergibt sich auch aus
den Annahmen der KTT, und zwar denjenigen zur vollständigen oder perfekten Korrelation zwischen wahren Werten ein- und desselben Tests und der Nullkorrelation
zwischen Fehlerwerten.
Zum Beweis sei zunächst allgemein auf die Additivität von Varianzen eingegangen.
Als Beispiel denke man sich einen Pool von Aufgaben zur Erfassung einer bestimmten
4
4
4
4
Werte durch Messfehler den zwischen 2 Variablen bestehenden korrelativen Zusammenhang mindert.
Das Ausmaß der Minderung ist abhängig von der Größe des Messfehlers, der
sich seinerseits in der mehr oder weniger hohen Reliabilität ausdrückt.
Um den Einfluss der Unzuverlässigkeit auf die Höhe von Korrelationen zwischen
Variablen abzuschätzen bzw. um die Korrelation der wahren Werte abzuschätzen, stehen Minderungskorrekturen zur Verfügung.
Angewendet auf das Problem der Validität eines Tests gegenüber einem Kriterium entspricht der einfach minderungskorrigierte Validitätskoeffizient derjenigen Validität, die der Test haben würde, wenn entweder der Test oder das Kriterium absolut zuverlässig wäre. Der doppelt minderungskorrigierte Validitätskoeffizient steht für jene Validität, die sich errechnen würde für den Fall, dass Test
und Kriterium maximal zuverlässig wären.
Eine Variable (ein Test) kann mit einer anderen Variablen nicht höher korrelieren
als mit ihren wahren Werten. Die Obergrenze dafür definiert der sog. Reliabilitätsindex als Wurzel aus der Reliabilität.
4 Aus der Annahme unkorrelierter Fehler folgt, dass die Überlagerung der wahren
Fazit
rtt = .81 = .90.
Bei einer Reliabilität des Tests t von rtt = .81 liegt die Obergrenze für korrelative
Wechselbeziehungen (z. B. Kriteriumsvalidität) bei der Wurzel aus der Reliabilität:
Beispiel
! Die Validität kann maximal die Wurzel aus der Zuverlässigkeit betragen. Höhere Koeffizienten müssten auf Artefakten beruhen.
Dieser Ausdruck bezeichnet den sog. Reliabilitätsindex.
rxtwt = rtt
Nun ist aus (2.12) bekannt, dass die Reliabilität als das Verhältnis der Varianz von wahren zu beobachteten Werten gilt, hier aber Standardabweichungen, also die Quadratwurzeln daraus, vorliegen. Mithin kann auch geschrieben werden:
Kapitel 2 · Grundlagen diagnostischer Verfahren
Addition von Messwerten homogener Tests
44
N
∑x 2 .
N
N
∑(x t + x u )2
N
N
N
2 ∑x t ⋅ x u
.
N
∑x t 2 + ∑x u 2 + 2 ∑x t ⋅ x u
(2.26)
s(xt + xu)2 = s xt 2 + s xu 2 + 2 rxtxu ⋅ s xt ⋅ s xu
(2.27)
Aus (2.4) ist bekannt, dass der letzte Summand 2mal der Kovarianz zwischen den beiden Messwertreihen entspricht und im Sinne von (2.6) deshalb auch geschrieben werden kann:
= s xt 2 + s xu 2 +
=
∑x t 2 + ∑x u 2 + 2 ∑x t ⋅ x u
=
s(xt + xu)2 =
Für die individuellen Summenwerte (xt + xu) gilt deshalb
sx2 =
Merkmalsdimension, der in einer Stichprobe von Personen die Messwerte Xt liefere.
Des Weiteren stünde eine andere Menge von Aufgaben zur Verfügung, die dasselbe
Merkmal erfassen sollen, also homogen zur erstgenannten Gruppe sind und – derselben Personenstichprobe vorgegeben – die Messwerte Xu liefern. Gefragt ist, wie groß
die Varianz der pro Testperson aufsummierten Werte (Xt + Xu) ausfällt. Zur Vereinfachung schreiben wir xt = Xt - Mt bzw. xu = Xu - Mu, verwenden also die individuellen
Differenzwerte zum Mittelwert der jeweiligen Verteilungen.
Die allgemeine Formel für die Varianz lautet:
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Additivität von
Varianzen
. Abb. 2.5. Die Verlängerung von Tests zur Erhöhung
der Reliabilität findet ihre
Grenzen in der Zumutbarkeit für die Probanden
45
2
Herleitung des
Reliabilitätszuwachses
s(xt + xu)2 - s(et + eu)2
s(xt + xu)2
=
s xt 2 + s xu 2 + 2 rxtxu ⋅ s xt ⋅ s xu -(s et 2 + s eu 2 + 2 reteu ⋅ s et ⋅ s eu )
.
s xt 2 + s xu 2 + 2 rxtxu ⋅ s xt ⋅ s xu
(gemäß (2.27))
corr rtt =
s wt 2
oder
s xt 2
2
s xt -s et 2
rtt =
.
s xt 2
Bei Verdoppelung des Tests:
rtt =
Wie oben gezeigt wurde, steht bei der Verlängerung eines Tests um den Faktor 2 einer
Vervierfachung der Varianz der wahren Werte nur eine Verdoppelung der Fehlervarianz gegenüber, d. h. die Varianz der wahren Werte an der Testwertevarianz reichert sich
stärker an als diejenige der Fehler. Daraus resultiert, da die Reliabilität gemäß (2.12) als
Anteil der wahren Varianz an der Gesamtvarianz definiert ist, für die Verlängerung von
Tests die Erwartung höherer Reliabilitäten – eine Ableitung, die im übrigen empirisch
gut bestätigt wird. Danach erzielen bei den verschiedenen Methoden einer Bestimmung der Reliabilität die längeren Verfahren durchweg höhere Koeffizienten als die
kürzeren.
Welche Reliabilitätszuwächse im Einzelnen zu erwarten sind, ist aus folgender Ableitung ersichtlich:
Gemäß (2.12) ist
! Die Verdoppelung des Tests bewirkt somit eine Verdoppelung der Fehlervarianz.
s(et + eu)2 = set2 + seu2 + 2 · 0 · set · seu
= 2 se2 .
Was geschieht demgegenüber mit der Fehlervarianz? Prinzipiell das gleiche, nur korrelieren die Fehler aus den beiden Testhälften per definitionem zu Null miteinander.
Dadurch wird der 2. Summand zur Gänze Null:
! Eine Verdoppelung des Tests in Einheiten von homogenen Aufgaben führt also zu
einer Vervierfachung der wahren Varianz.
s(wt + wu)2 = s wt 2 + s wu 2 + 2 ⋅1 ⋅ s wt ⋅ s wu
= 2 sw2 + 2 sw2
= 4 sw2 .
Die in (2.27) wiedergegebene Additivitätsregel gilt für die beobachteten Werte. Unterstellt man, es lägen die wahren Messwerte bzw. die daraus errechneten Varianzen vor,
so resultiert daraus bei der weiteren notwendigen Annahme der Gleichheit von swt und
swu und der weiteren Annahme einer Korrelation von rwtwu = 1 die folgende Gleichung
! Die Varianz von individuell summierten Werten ergibt sich somit aus der Summe der
Einzelvarianzen und 2mal der Kovarianz zwischen den Messwertreihen.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Höhere Reliabilitäten
durch Verlängerung
von Tests
46
2 s x 2 (1 + rxtxu ) - 2 s e 2
2 s x 2 (1 + rxtxu )
2
(2.28)
k ⋅ rtt
1 + (k - 1) rtt
(2.29)
n = Zahl der Items nach Korrektur/Zahl der Items vor Korrektur.
Nach ihren Autoren heißt der Ausdruck »Spearman-Brown-Formel« (Lienert, 1989,
S.143 ff.). . Abb. 2.6 veranschaulicht den in der Spearman-Brown-Formel definierten
Zusammenhang. Aus ihr geht hervor, dass der Reliabilitätszuwachs bei niedriger (Ausgangs-)Reliabilität (z. B. rtt = .50) am größten ist, hier der stärkste Anstieg aller Kurven
auftritt, und bei hohen Verlängerungsfaktoren niedriger liegt.
Wie mehrfach festgestellt wurde, müssen zur Anwendung der Formel die jeweiligen
Testteile homogen oder einander äquivalent sein. Ist diese Voraussetzung nicht erfüllt,
bedarf es differenzierterer Ansätze (s. dazu z. B. Lienert, 1989, S. 119 f.; Lord & Novick,
1974).
Die Prinzipien der Spearman-Brown-Formel gelten nicht nur für die Verlängerung, sondern auch für die Verkürzung von Skalen. Während eine der denkbaren
Fragen im Sinne der erstgenannten Richtung etwa lautet, um welchen Faktor man eine
Skala verlängern muss, um eine angestrebte Reliabilität zu erzielen, kann die Umkehrung in der Überlegung bestehen, wie kurz ggf. der Test ausfallen darf (etwa aus Zeitund Kostengründen), wenn eine bestimmte Reliabilität nicht unterschritten werden
soll. Um solchen Problemen gerecht werden zu können, empfiehlt es sich, in der Spearman-Brown-Formel den Faktor k durch n zu ersetzen, wobei
corr rtt =
In allgemeiner Form lautet die Formel wie folgt:
Die Zuverlässigkeit einer Testskala betrage rtt = 0.60. Bei einer Verlängerung um den
Faktor 2 (= Verdoppelung) resultiert eine Reliabilität gemäß (2.28) von
2 ⋅ .60
corr rtt =
= .75.
1 + .60
Beispiel
2 rxtxu
.
1 + rxtxu
2 s x 2 [(1 + rxtxu ) - (1 - rxtxu )]
2 s x 2 (1 + rxtxu )
corr rtt =
=
weil se2 = sx2 (1 - rxtxu) [siehe Herleitung 2.14], folgt
=
2
2 s x + 2 rxtxu ⋅ s x - 2 se - 2 reteu ⋅ se
2 s x 2 + 2 rxtxu ⋅ s x 2
weil 2 reteu · se2 = 0, folgt
=
2
2
Unter der Annahme, dass sxt2 = sxu2 und set2 = seu2, gilt:
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Verkürzung von Tests
Spearman-BrownFormel
47
2
2
Interpretation beobachteter Testwerte
1
=
r"
=
r"
=
r"
r "=
.5
.6
.7
.8
.9
r "=
2
3
Veränderungsfaktor k
4
5
Bei der Herleitung des Standardmessfehlers ist bereits dessen eminent wichtige Bedeutung für die Handhabung bzw. Interpretation erhaltener Testwerte angesprochen worden. Weil jeder Messwert fehlerbehaftet ist, wenn der zugrunde liegende Test nicht
absolut zuverlässig ist, verbietet es sich, den ermittelten individuellen Score etwa
gleichzusetzen mit dem wahren Wert des Probanden. Vielmehr ist ein Unsicherheitsbereich in Rechnung zu stellen, in dem der wahre Wert vermutet werden kann. Dafür
liefern die Reliabilität und der daraus abgeleitete Standardmessfehler wichtige Anhaltspunkte.
2.1.1.5 Implikationen für die psychodiagnostische Praxis
Festlegung des Erwartungsbereiches
Somit lässt sich festhalten, dass die Reliabilitätstheorie innerhalb der KTT einen gesetzmäßigen Zusammenhang zwischen der Länge von Tests und deren Zuverlässigkeit postuliert. Dieser Zusammenhang ist durch die Empirie gut bestätigt, was für
die Brauchbarkeit der (für sich selbst nicht überprüfbaren) Axiome und sonstigen
Rahmenüberlegungen der KTT spricht.
Fazit
Ein Test enthalte in der momentan vorliegenden Form 100 Items und weise eine Reliabilität von rtt = .90 auf. Es stellt sich die Frage, auf welches Niveau die Zuverlässigkeit absinkt, wenn aus Ökonomiegründen auf 40 Items verzichtet wird.
60 3
n=
= = 0,6
100 5
0,6 • .90
corr rtt =
1+ (0,6 - 1) ⋅ .90
.54
=
= .84.
.64
Bei einer Verkürzung von 100 auf 60 Items (was einem Faktor k = 0,6 entspricht) würde die Reliabilität auf rtt = .84 sinken.
Beispiel
.5
.6
.7
.8
.9
1.0
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.6. Zusammenhang zwischen Ausgangsreliabilität, Testverlängerung
(Faktor k) und neuer Reliabilität
48
Der Erwartungsbereich für die Streuung der beobachtbaren Testwerte bei einem
wahren Wert Wtj = 100 erstreckt sich somit bei der gegebenen Reliabilität und
dem angenommenen Irrtumsniveau von 88 bis 112. Er schließt damit den tatsächlich
beobachteten Testwert des Probanden ein. Deshalb muss die Hypothese, es handele
sich um überdurchschnittliche Intelligenz, mit 5% Irrtumswahrscheinlichkeit verworfen werden. Unter den gegebenen Rahmenbedingungen wäre für »überdurchschnittlich«, also besser als Mxt = 100, ein individueller Score von Xtj = 113 mindestens erforderlich.
An diesem Beispiel wird deutlich, wie überraschend groß auch bei bewährten Instrumenten die bestehenden Erwartungsbereiche ausfallen. Eine Reliabilität von rtt =
.84 und eine Streuung von s = 15 besagen nichts anderes, als dass für 95 von 100 Personen, die einen identischen wahren Wert Wt in Test t aufweisen, die beobachteten Testwerte Xt in den Grenzen Wt ± 11,76 IQ-Punkte zu liegen kommen, also in einem Bereich, der nicht weniger als 23 Einheiten umfasst. Die restlichen 5% der Personen lägen
noch außerhalb dieses Bereiches. Eine hohe Reliabilität oder Messgenauigkeit ist des-
utj = 100 – 1,96 · 6 = 100 – 11,76
= 88,
otj = 100 + 1,96 · 6 = 100 + 11,76
= 112.
Für einen Probanden mit dem wahren Wert Wtj = 100 ergäben sich somit nach (2.15)
folgende Grenzen des Erwartungsbereiches (auch »Confidence Limit«: CL) bei einer
vorab festgesetzten, tolerierbaren Fehlerwahrscheinlichkeit von α = 5%:
s et = 15 IQ-Punkte ⋅ 1-.84
= 15 ⋅ 0.4
= 6 IQ-Punkte.
In . Abb. 2.3 ist das Konzept desjenigen Bereiches grafisch veranschaulicht, in dem
beobachtete Werte um einen wahren Wert streuen. Je nachdem, mit welcher relativen
Sicherheit eine Feststellung getroffen werden soll, wird man diesen Erwartungsbereich
verschieden breit ansetzen. Ist beispielsweise eine große Sicherheit bzw. geringe Irrtumswahrscheinlichkeit der jeweiligen Feststellung notwendig (etwa weil die Konsequenzen einer darauf aufbauenden Entscheidung für die Testperson oder die testende
Institution erheblich sind), muss dementsprechend fast die gesamte Breite des Erwartungsbereiches in Betracht gezogen werden als jenes Intervall, in dem der beobachtete
Wert bei Bekanntheit des wahren Wertes voraussichtlich liegen wird. So liegen 68% der
Fälle im Bereich von Xwt ± 1 · set , 95% im Bereich von Xwt ± 1,96 · set , usw.
Mit Hilfe des Konzeptes vom Erwartungsbereich kann beispielsweise die Hypothese
geprüft werden, ob der Intelligenzquotient (IQ) der Testperson j Xtj = 110, der mit dem
Test t gemessen wurde, mit 95% Sicherheit (oder 5% Irrtumswahrscheinlichkeit) für
eine überdurchschnittliche Intelligenz des Probanden spricht oder eine Qualifizierung
im Sinne von »überdurchschnittlich« nicht gerechtfertigt ist. Der Test sei so geeicht,
dass sein Mittelwert Mxt = Mwt = 100 IQ-Punkte beträgt und sich die Streuung der
beobachteten Testwerte auf sxt = 15 IQ-Punkte beläuft. Solche Werte entsprechen
der üblichen Eichung von allgemeinen Intelligenztests. Die Reliabilität des Tests t sei
rtt = .84, was ebenfalls eine geläufige Größe darstellt. Der Standardmessfehler wäre dann
nach (2.14)
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Breite von Erwartungsbereichen
Beispiel: Erwartungsbereich für einen
Intelligenzquotienten
Gewünschte Entscheidungssicherheit
49
2
(2.30)
Entgegen der nahezu invarianten Darstellung in den einschlägigen Lehrbüchern (s.
Lienert, 1989; Fisseni, 1990), wie sie auch oben zunächst gegeben wurde, besteht die
Bestimmung des Vertrauensintervalles bei der Eingrenzung des wahren Wertes aber
nicht einfach in der Umkehrung des Schlusses, der zur Ermittlung des Erwartungsbereiches beobachteter Werte in Kenntnis der wahren führt, sondern stellt ein etwas
komplizierteres Schlussverfahren dar (s. Dudek, 1979). Dieses berücksichtigt, dass die
wahren Werte im Schnitt näher am Mittelwert der Testwerte Mxt liegen als die beobachteten Testwerte und diese Regression zur Mitte in Rechnung gestellt werden
muss. Dadurch ist ein Präzisionsgewinn möglich, der einen etwas niedrigeren Standardmessfehler anzunehmen erlaubt, nämlich
Ausgehend von den Rahmendaten aus dem Beispiel im Anschluss an . Abb. 2.3
stellt sich nunmehr die Frage, ob ein Xtj = 110 mit p < 5% vom Mittelwert Mxt = 100
verschieden ist. Da die Reliabilität und Streuung übernommen werden sollen
(rtt = 0.84; sxt = 15) muss auch das Mutungsintervall mit CL = 2 · 11,76 (für beide Richtungen) so ausfallen wie im vorangegangenen Beispiel. Die Aussage lautet aber
jetzt: Bei einem beobachteten Wert von Xtj = 110 reicht das Intervall, in dem mit 95%
Sicherheit der wahre Wert zu erwarten ist, von 98 bis 122. Von daher kann nicht mit
Gewissheit davon ausgegangen werden, dass im besagten Fall eine überdurchschnittliche Intelligenz vorliegt.
Beispiel
Wie unschwer festzustellen ist, gleicht die Formel (2.30) dem Inhalt von (2.15), nur mit
dem Unterschied, dass dort von dem wahren und hier von dem beobachteten Wert
ausgegangen wird.
CL = Erwartungsbereich oder Vertrauensintervall oder Mutungsbereich,
Xtj = beobachteter Wert eines Probanden j in Test t,
zα/2 = Irrtumswahrscheinlichkeit (z-Wert für eine vorgegebene Häufigkeit in der Standardnormalverteilung),
set = Standardmessfehler.
CL = X tj ± zα /2 ⋅ s et
halb eminent wichtig für die gesamte empirische Psychologie und speziell für die
psychologische Diagnostik. Gelänge es, etwa durch Hinzunahme weiterer Aufgaben
in den Test, dessen Reliabilität auf rtt = .95 zu erhöhen, käme das mit ca. ± 6,5 = 13
Punkten insgesamt ungefähr einer Halbierung des Erwartungsbereiches gleich. Doch
auch dieser Betrag muss noch als unakzeptabel hoch für individuelle Entscheidungen
gelten.
Nun liegt der wahre Wert in aller Regel nicht vor. Vielmehr soll er aufgrund der
Testung erst bestimmt und das heißt hier: Möglichst genau eingegrenzt werden. Ausgehend von den bisherigen Erörterungen liegt es deshalb nahe, einen umgekehrten
Schluss derart vorzunehmen, dass nicht von den wahren Werten auf den Erwartungsbereich der beobachteten geschlossen wird, sondern, ausgehend von den beobachteten
Testscores, um diese ein Vertrauensintervall (CL) berechnet wird, in dem der wahre
Wert liegen müsste, und zwar nach der Regel
Kapitel 2 · Grundlagen diagnostischer Verfahren
Suche nach dem
wahren Wert
50
(2.14a)
s wt
(X tj - Mxt )
s xt
15 ⋅ .84
(110 − 100 )
15
Das Intervall, in dem mit 5% Irrtumswahrscheinlichkeit der wahre Wert zu vermuten
ist, beträgt demzufolge 1,96 · 5,5 = 10,8, und es erstreckt sich von 108,4 – 10,8 ≈ 97
bis 108,4 + 10,8 ≈ 119.
Die Abweichungen von den Schätzungen im vorangegangenen Beispiel beziehen
sich somit auf die hier geringere Breite des Vertrauensbereiches und dessen Lokalisierung um den (regredierten) wahren Wert.
s w et = 15 • .84 (1 - .84) [7 (2.14a)]
= 15 • 0,1344
= 5,5.
Xw =100+8,4
=108,4.
X w = Mxt + .84 ⋅
Für rxtwt die Obergrenze rtt [7 (2.25)]
Für s wt = s xt ⋅ rtt [7 im Anschluss an (2.18)]
Es gelten:
X w = Mxt + rxtwt
Die Rahmendaten seien dieselben wie im vorangegangenen Beispiel:
Xtj = 110,
Mxt = 100,
rtt = .84.
Gesucht wird der wahre Wert und dessen Erwartungsbereich.
Die Rahmendaten werden in Analogie zu (2.38) und (2.39) eingesetzt in die allgemeine Formel:
Beispiel
Das damit gegebene bzw. schätzbare Unsicherheitsintervall ist also um den geschätzten
wahren Wert und nicht um den beobachteten anzunehmen.
Da die Prinzipien von Regressionschlüssen erst unten (7 Abschn. 2.1.1.5, »Vorhersage auf der Basis von Testwerten«) erörtert werden, ist es für das nachfolgende Beispiel
notwendig, aus der detaillierten Herleitung, auf die hier ausdrücklich verwiesen sei,
einige Formeln vorzuziehen.
sw et = Standardmessfehler bei der Schätzung der wahren Werte auf der Basis von beobachteten Testscores,
sxt = Streuung der beobachteten Werte,
rtt = Reliabilität.
s w et = s xt rtt (1 - rtt )
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
51
2
2
Fehlervarianz
des Mittelwertes
Stichprobenfehler
des Mittelwertes
sx
N
(2.31)
oder, nach Radizierung, lautet der Ausdruck für den Stichprobenfehler der Differenz
von zwei Mittelwerten
sMDiff2 = s(M1 + M2)2 = sM12 + sM22
als »Fehlervarianz« des Mittelwertes bezeichnet wird. Unter Bezugnahme auf die Standardnormalverteilung bedeutet das, dass im Bereich von ±1 sM um den Populationsmittelwert (34% + 34% =) 68% der Mittelwerte für Stichproben variieren werden.
Die Fehlervarianz für die Differenz der Stichprobenmittelwerte zweier verschiedener unabhängiger Stichproben ist gleich deren Summe, also
s M2 = s x 2 /N
Die Streuung der Stichprobenmittelwerte um den Mittelwert der Mittelwerte entspricht diesem Stichprobenfehler, dessen Quadrat
> Der Stichprobenfehler des Mittelwertes beschreibt den Bereich, in dem bei zufälliger
Ziehung von Stichproben aus einer Grundgesamtheit deren Mittelwerte variieren,
nämlich M ± sM.
sx = Streuung der Messwerte,
Ν = Zahl der Messwerte.
sM =
Eine der häufig von der Statistik zu bearbeitenden Fragen geht dahin, ob sich die Mittelwerte von zwei Personenstichproben in einer Variablen V überzufällig voneinander
unterscheiden oder ob eine festgestellte Differenz nur durch Zufallseinfluss zu erklären ist. In diesem Fall wären unsystematische und damit Fehlerfaktoren, die bei einer
erneuten Stichprobenziehung nicht in derselben Weise auftreten würden, für den
beobachteten Unterschied verantwortlich zu machen. In der psychodiagnostischen
Praxis stellen sich ganz ähnliche Probleme insofern, als die beobachteten Testwerte
(ebenfalls) fehlerbehaftet sind und bei einer erneuten Untersuchung (unter hypothetisch gleichbleibenden Bedingungen) etwas anders ausfallen mögen. Auch die bei
einmaliger Testung erhaltenen Scores stellen gleichsam eine Stichprobe aus der Gesamtheit aller Werte dar, die sich um den wahren Wert verteilen.
Bei der Prüfung von Mittelwertsdifferenzen aus Stichproben nimmt der sog. Stichprobenfehler des Mittelwertes eine zentrale Rolle ein:
Ermittlung von Unterschieden zwischen zwei Testpunktwerten
Fazit
Unter Heranziehung des Konzeptes vom Erwartungsbereich wird in einer Art Umkehrschluss dazu und in grober Annäherung der wahre Wert in einem Unsicherheitsintervall vermutet, das um den beobachteten Testwert »gelegt« bzw. gedacht
wird, und zwar in beiden Richtungen gleich weit. Die Berücksichtigung der Tatsache,
dass die wahren Werte im allgemeinen zum Mittelwert der Verteilung regredieren,
erlaubt eine etwas präzisere Festlegung des Unsicherheitsintervalles.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Unterschiede von
Mittelwerten
52
(2.32)
quadrierte Standardmessfehler für Stichprobe 1 bzw. 2.
s eDiff
(2.34)
(2.33)
(2.34)
Da die empirische Differenz (120-108=12) größer ist als die kritische, kann mit 5% Irrtumswahrscheinlichkeit davon ausgegangen werden, dass die beiden Probanden sich
voneinander unterscheiden, die Differenz also nicht durch die Unzuverlässigkeit des
Tests zu erklären ist.
DKritxtA-xtB = 1,96 ⋅10 2 (1 - .90)
= 9.
In einem Intelligenztest t mit der Standardabweichung sx = 10 habe ein Proband A
den Wert xtA = 120, ein Proband B den Wert xtB = 108 erzielt. Die Zuverlässigkeit des
Tests betrage rtt = .90. Frage: Unterscheiden sich beide Werte überzufällig voneinander? (p < 5%).
Beispiel
DKrit = zα /2 ⋅ s eDiff
Diese Formel beschreibt die durch mangelnde Zuverlässigkeit (also durch Fehlereinflüsse) auftretende Streuung zwischen beobachteten Werten, denen ein und derselbe wahre
Wert zugrunde liegt. In 68% der Fälle treten somit Differenzen auf, deren Ausmaß der
Gleichung (2.34) entspricht. In den restlichen 32% sind die Differenzen noch größer.
Gegen diese Größe müssen die beobachteten Testwertedifferenzen geprüft werden.
Die »kritische Differenz« (DKrit), die empirisch übertroffen werden muss, um als
bedeutsam zu gelten, bemisst sich nach
sx = Streuung der Testwerte.
= 2 s x 2 (1- rtt ) .
= s x 2 (1 - rtt ) .
s eDiff = 2s e 2
Da s e 2 = s x 2 ⋅ (1 - rtt ) , folgt
Bei Annahme der Gleichheit von se12 und se22:
se12, se22 =
s eDiff = s e12 + s e22 .
Diese Formel beschreibt die Streuung der Differenzen von je zwei Stichprobenmittelwerten um den wahren Wert Null. Gegen diese Größe werden, multipliziert mit dem z-Wert
für die vorgegebene Irrtumswahrscheinlichkeit, empirische Differenzen geprüft.
Für die »Stichprobe« der bei einmaliger Testung eines oder mehrerer Probanden
erhaltenen individuellen Messwerte ist der Standardmessfehler die Prüfgröße. Im Fall
von zwei miteinander zu vergleichenden Testscores muss in Analogie zum obigen Vorgehen die Summe der beiden Fehlerterme gebildet werden:
sM12, sM22 = Fehlervarianz der Mittelwerte in Stichprobe 1 bzw. 2.
s MDiff = s M12 + s M22
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Kritische Differenz
53
2
2
Differenzen in verschiedenen Skalen
Wiederholte Testung
DKrit
X t1 - X t2
=
.
s eDiff
s eDiff
120 - 108 12
=
= 2,6.
seDiff
4,5
(2.36)
= Streuung der Testwerte,
sx
rtt1, rtt2 = Reliabilität der Skalen 1 bzw. 2.
DKrit = zα /2 ⋅ s x 2 - (rtt1 + rtt2 )
(2.37)
Grundsätzlich ist der Ansatz nach (2.35) auch anwendbar auf Testwerte, die ein Proband bei der wiederholten Vorgabe in ein und demselben Test erzielt hat. Solche
Fragestellungen spielen überall dort eine große Rolle, wo die Bedeutsamkeit einer
Veränderung gegen Zufallseinflüsse abgesichert werden soll, aufgrund einer zwischenzeitlich erfahrenen Ausbildung, einer Therapie oder eines Rehabilitationsprogrammes.
Kaum weniger wichtig ist schließlich der Problemkreis einer zufallskritischen
Absicherung von Testwertedifferenzen in verschiedenen Skalen. Hauptsächlich im
Bereich der Intelligenz- und Interessendiagnostik interessiert häufig, in welchen
Dimensionen eine Testperson relative »Stärken« oder »Schwächen« zeigt, um auf
dieser Erkenntnis aufbauend einen angemessenen Rat für die bestgeeignete Berufswahl oder dergleichen geben zu können. Denkbar ist auch die Kontrastierung von
Scores, die vielleicht zu ganz verschiedenen Zeitpunkten erhoben wurden, zwar mit
ein und derselben Skala, die aber doch zu den beiden Zeitpunkten nachweislich unterschiedlich reliabel gewesen sein mag. In dem einen wie dem anderen Fall erfordert
das den Vergleich von Werten aus verschiedenen Variablen mit unterschiedlicher
Reliabilität.
Bei gleicher Streuung in den miteinander verglichenen Variablen führt die Summation der beiden Standardmessfehler zu folgender Formel:
Die Wahrscheinlichkeit, dass bei einer Zuverlässigkeit von rtt = .90 und einer Streuung von sx = 10 eine Differenz von 12 oder mehr zwischen zwei Testwerten auftritt,
entspricht einem z-Wert von 2,6, d. h. nur in ca. 1% aller Fälle ist mit einem derartigen Ergebnis zu rechnen. Aus diesem Grunde erscheint es gerechtfertigt, von einem
wahren Leistungsunterschied der beiden Probanden auszugehen.
zα =
Für die Daten aus dem vorigen Beispiel wird die Gleichung wie folgt lauten:
Beispiel
Xt1, Xt2 = Testwerte 1 und 2.
zα /2 =
Wie ersichtlich, lässt sich mit (2.35) auch die Wahrscheinlichkeit für das Auftreten einer
bestimmten, empirisch ermittelten Differenz ermitteln. Dafür muss die Formel lediglich umgestellt werden:
Kapitel 2 · Grundlagen diagnostischer Verfahren
Wahrscheinlichkeit
einer bestimmten
Differenz
54
= 19,6 ⋅ 0,22
Testwerte stellen gewöhnlich quantitative Einheiten zur Kategorisierung des relativen
Grades der jeweiligen Merkmalsausprägung dar. Insofern liefern sie unmittelbare Informationen im Sinne einer Diagnose. Ein IQ-Punktwert von XtjA = 130 steht für eine höhere allgemeine Intelligenz als ein solcher von XtjB = 115. Standardwerte von XtjC = 105 und
XtjD = 90 in einem Fragebogen zur Ängstlichkeit indizieren, dass der erste Proband sehr
viel ängstlicher im Vergleich zum zweiten ist usw. Sofern die betreffenden Messwerte
gegeneinander inferenzstatistisch abgesichert sind, unterscheiden sich somit auch die
damit getroffenen »Diagnosen« im Sinne einer quantitativen Bestimmung der individuellen Position auf der Merkmalsdimension: 130 ist signifikant verschieden von 115, das
gleiche trifft zu für die Differenz von 105 und 90 usw. In der Regel wird man sich mit solch
einfachen Diagnosen aber nicht begnügen können, weil die Testung häufig genug nur mit
dem Ziel vorgenommen wurde, daraus Konsequenzen abzuleiten. Diese können darin
bestehen, den Probanden eine wissenschaftlich hinreichend fundierte Empfehlung zur
Schul- oder Berufswahl zu geben, die Ausichten abzuklären, ob angesichts der Angstsymptomatik eine psychoanalytische oder eine verhaltenstherapeutische Behandlung
angezeigt ist usw. Ein solches Vorgehen impliziert stets auch Prognosen, denn der Rat,
eine Berufsausbildung zu beginnen (statt die Universität zu besuchen) oder sich einer
»großen« Psychoanalyse zu unterziehen (statt an einer Gruppentherapie teilzunehmen)
usw. beruht – sofern er begründet ist – stets auf der Aussicht oder der Vorhersage, dass die
Testperson in dem betreffenden »Treatment« den für sie optimalen Erfolg haben wird.
Die Grundlage derartiger Prognosen liefern korrelative Studien zwischen Tests auf
der einen Seite und Maßen für Erfolg und Bewährung auf der anderen, oder allgemeiner:
zwischen Prädiktor- und Kriteriumsvariablen. Nur wenn die entsprechenden Korrelationen signifikant und die Koeffizienten idealerweise zudem von »hinreichender« Höhe
sind, die Tests also in einem Mindestmaß Validität für das anstehende Prognoseproblem
aufweisen, kann der Diagnostiker hinreichend gesicherte, also von Common-sense-Erwägungen und Losentscheidungen deutlich abgehobene, Vorhersagen ableiten.
Vorhersage auf der Basis von Testwerten
Die getrennte Berücksichtigung der beiden Reliabilitätskoeffizienten in (2.37) läuft,
wovon man sich leicht überzeugen kann, auf deren Poolung hinaus. Das heißt, die
Verwendung des gemittelten Reliabilitätskoeffizienten in (2.34) führt praktisch zu denselben Ergebnissen wie deren gesonderte Heranziehung in (2.37).
= 9,2
Da die empirische Differenz (125 - 108 =17) die kritische Differenz übersteigt, liegt
ein bedeutsamer Unterschied zwischen beiden Werten vor. Der Proband ist im Hinblick auf numerisch-mathematische Intelligenz leistungsfähiger als im schlussfolgernden Denken.
krit
Im Intelligenz-Struktur-Test von Amthauer (1953) habe ein Proband im Subtest AN
(Analogien) den Wert XtAN = 108, in RA (Rechenaufgaben) den Wert XtRA = 125 erzielt.
Beide Skalen sind auf sx = 10 normiert. rttAN = .86, rttRA = .92.
Frage: Weichen die beiden Werte signifikant voneinander ab? (p < 5%).
D = 1,96 · 10 √976
2 – (.86 + .92)
Beispiel
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Korrelation zwischen
Prädiktor- und
Kriteriumsverhalten
Bedeutung und
Verwendung von
Testwerten
Poolung von Reliabilitätskoeffizienten
55
2
2
Steigungskoeffizient
(2.38a)
(2.38b)
∑xy .
sy
(zur Herleitung 7 Anhang).
sx
a = Y − b yx ⋅ X
Die Konstante a wird folgendermaßen bestimmt:
b yx = r
x2
x = X – Mx ,
y = Y – My .
b yx =
(2.39b)
(2.39a)
Der Terminus »Regression« stammt von Galton (1869), der bereits frühzeitig feststellte,
dass die Körperlängen von Vätern und Söhnen positiv korreliert sind. Auch wenn die
Maße beider Generationen in Standardwerten ausgedrückt wurden, war zu beobachten, dass die Kinder vom Mittelwert ihrer Gruppe weniger stark abwichen als die Eltern
sich von ihrer Bezugsgruppe unterschieden. Das damit gegebene »Zurückfallen« bezeichnete er als »regression« (in diesem Fall als »law of filial regression«). Es stellt ein
Beispiel einer nicht perfekten Korrelation dar. Würde die Korrelation perfekt gewesen
sein, müssten einer Standardabweichung im Merkmal X auch eine solche in Y entsprechen.
Um das Ausmaß dieses Regressionseffektes in einer bestimmten Größe auszudrücken, setzte man einfach die Zahl der Einheiten ins Verhältnis, die man in X weitergehen musste, damit sich in Y ein Anstieg von einer Einheit ergab. Am Beispiel der Regression der Kinder (Y) auf die Eltern (X) errechnete sich ein Regressionskoeffizient
(seinerzeit r genannt) von b = 0.5.
Der Steigungskoeffizient wird wie folgt ermittelt:
˘ = rxy s y (X i − X ) + Y
Ŷ
Y
sx
Die Gleichung für die Verwendung von Rohwerten lautet:
Ŷ = vorauszusagender Wert
X = unabhängiger (= Prädiktor-)Wert
a = Konstante (Schnittpunkt der Regressionsgeraden mit der Ordinaten),
byx = Steigungskoeffizient der Geraden (Winkel zur Abszisse), hier im Sinne der Indizierung als »Regression von y auf x«.
Ŷ = a + b yx X
Y̆
Im Fall von kontinuierlich-quantitativer Abstufung sowohl der Prädiktor- als auch
der Kriteriumsvariablen geschieht dies auf der Basis der Regressionsrechnung. Das
heißt, nach der Methode der kleinsten Quadrate wird in das Korrelationsellipsoid der
Prädiktor-Kriteriums-Beziehung jene Gerade gelegt, von der über alle Merkmalsträger
hinweg die Summe der quadrierten Abweichungen parallel zur Ordinate ein Minimum
bildet. Diese Linie heißt Regressionsgerade.
Ihre allgemeine Gleichung lautet
Kapitel 2 · Grundlagen diagnostischer Verfahren
Regressionsgrade
56
(2.40)
Der Standardschätzfehler ist so groß wie die Streuung der Kriteriumswerte, wenn zwischen Test und Kriterium nur eine Nullkorrelation besteht. In einem solchen Fall muss
die Strategie darin bestehen, für jeden Testwert X den Mittelwert aus allen Y-Werten
vorherzusagen; dann würden zwar beträchtliche Fehler auftreten, doch würden diese
über alle Merkmalsträger hinweg noch ein relatives Minimum darstellen. Umgekehrt
sest = Fehler bei Vorhersage- (= Schätz-)Problemen,
sy = Standardabweichung der Kriteriumswerte,
rtc = Validitätskoeffizient (Korrelation zwischen Test und Kriterium).
s est = s y 1 - rtc 2
Mit Hilfe der Regressionsgeraden werden die Kriteriumswerte »vorhergesagt«, genauer: Ausgehend von einer notwendigerweise vorliegenden Untersuchung zum Zusammenhang zwischen Prädiktor- und Kriteriumsvariablen wird unterstellt, dass sich
seit der Durchführung der besagten Erhebung an den Rahmenbedingungen nichts
Wichtiges geändert habe, also Mittelwerte und Streuungen in den Variablen momentan
ebenso unverändert gelten wie die dazwischen bestehende Korrelation. Weiterhin wird
angenommen, dass der anstehende Proband als einer der Angehörigen der seinerzeitigen Stichprobe gelten kann und deshalb für jede Klasse von X-Werten die »zugehörige«
Klasse von Y-Werten »prognostiziert« werden kann, also jene, die pro X-Klasse am
häufigsten war.
Völlig abgesehen von den Zweifeln, die oftmals in bezug auf das Zutreffen dieser
Voraussetzungen gerechtfertigt erscheinen, sind bei einem solchen Vorgehen spezifische Fehler unvermeidbar. Diese resultieren aus dem Umstand, dass für jeden Testscore
nach Maßgabe der Regressionsgeraden jeweils nur ein bestimmter Kriteriumswert
vorhergesagt wird, eben der mittlere (und gewöhnlich häufigste) der betreffenden Klasse. Die Kriteriumswerte streuen aber pro X-Klasse um die Regressionsgerade, wie aus
. Abb. 2.7 ersichtlich ist, mehr oder weniger stark.
Diese Streuung der tatsächlichen Werte um die vorhergesagten (und zwar parallel
zur Ordinaten!), somit der Fehler, der sich dadurch einstellt, dass für jeden Testwert der
Mittelwert der zugehörigen Klasse von Kriteriumswerten vorhergesagt wird, wird ausgedrückt im sog. »Standardschätzfehler« (zu dessen Ableitung 7 Anhang):
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
. Abb. 2.7. Variation der
Kriteriumswerte parallel
zur Ordinate um die Regressionsgerade. Die Standardabweichung der tatsächlich
aufgetretenen um die mittels der Regressionsgeraden
vorhergesagten Werte ist
der Standardschätzfehler
(Abb. modifiziert nach
Schuler, 1996, S. 49)
Standardschätzfehlter
Vorhersage von
Kriteriumswerten
57
2
Hier ist nur von rtt Gebrauch gemacht worden (nicht von rtc), wie es notwendig ist, wenn
man auf der Basis einer Ersttestung etwa das Vertrauensintervall für den Score in einer
Retestung festlegen möchte.
Wie schon bei den Testwerten selbst (»Diagnose«) wird häufig auch bei den daraus
abgeleiteten Prognosen eine Entscheidung darüber zu treffen sein, ob sich zwei vorhergesagte Werte überzufällig voneinander unterschieden. In direkter Analogie zu der
Herleitung von (2.33) muss für diese Fragestellung der Stichprobenfehler der Differenz von zwei Standardschätzfehlern als Prüfgröße ermittelt werden:
s est = s x 1- rtt 2 .
s est 2 = s et 2 + s w et 2
= s x 2 (1- rtt ) + s x 2 rtt (1 - rtt )
= s x 2 - s x 2 ⋅rrtt + s x 2 (rtt - rtt 2 )
= s x 2 - s x 2 ⋅ rtt + s x 2 ⋅ rtt - s x 2 ⋅ rtt 2
= s x 2 - s x 2 ⋅ rtt 2
Nur am Rande sei darauf hingewiesen, dass sich die Fehlervarianz vonVorhersagewerten (also das Quadrat des Standardschätzfehlers) als die Summe der quadrierten
Standardmessfehler aus (2.14) und (2.14a; S. 51) ergibt:
Mit p < 5% wird die mittlere Schulnote im Bereich von 1,0 bis 2,8 liegen.
Yest = 1,2 ± 1,96 ⋅1 1 - 0.602
= 1,2 ± 1,6.
Ein Grundschüler habe in dem Intelligenz-Struktur-Test (IST) von Amthauer (1953)
einen Gesamtwert Xi = 130 erzielt. Welchen Erfolg (in Einheiten von Schulnoten)
wird er voraussichtlich auf einer weiterführenden Schule erreichen? (sx = 10)
Der Mittelwert der Schulnoten betrage My = 3,0, deren Standardabweichung
sy = 1,0. Unterstellt werde für die Schulnoten das Niveau von Intervall-Skalen. Die
Korrelation IST-Gesamtwert/Schulnoten sei mit rtc = –.6 ermittelt worden (negatives
Vorzeichen wegen der Polung der Noten, derzufolge hohen Ziffern niedrige Leistungen entsprechen).
Nach (2.38) Yest = byx (Xi – Mx) + My .
Gemäß (2.39) byx = –.60 · 0,1 = –0,06.
Yest = – 0,06 (130 – 100) + 3
= 1,2.
Damit wäre die mittlere Schulnote 1,2 vorherzusagen.
Allerdings ist diese Schätzung mit einer Unsicherheit behaftet. Deren Ausmaß
bemisst sich nach (2.40). Mit 5% Irrtumswahrscheinlichkeit wird die tatsächliche
Note im Bereich von Yest ± 1,96 · sest liegen, also
Beispiel
ist der Standardschätzfehler Null, wenn die Korrelation rtc = 1.0 beträgt. In diesem Fall,
wo keine Streuung um die Regressionsgerade vorliegt, würde man für jeden Testwert
Xt, sofern beide Variablen den gleichen Maßstab aufweisen (Standardwerte), denselben Wert auch für Yt prädizieren.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Fehlervarianz von
Vorhersagewerten
58
(2.41)
DKrit est wird auch als »kritische Differenz der Eignung« bezeichnet.
DKrit est = zα /2 ⋅ s estDiff
(2.42)
Inhaltlich beschreibt diese Formel die durch mangelnde Validität auftretende Streuung von
Differenzen zwischen je zwei vorhergesagten Werten, deren Prädiktion auf identischen
Testscores beruht. Die Unterschiede zwischen den vorhergesagten Werten müssen somit
größer sein als diese Fehlerstreuung, um als »wahre« Unterschiede gelten zu können:
s estDiff = s y 2 (1 - rtc 2 )
= 2 s y 2 (1 - rtc 2 ) .
Für sest (2.36) einsetzen:
sest12, sest22 = quadrierte Standardschätzfehler für Stichprobe 1 bzw. 2.
= 2 s est22 .
s estDiff = s est12 + s est22 ,
und ist, wie schon aus dem Vergleich von DKrit est und Demp hervorging, weit entfernt
von »seltenen« Ereignissen.
zα /2 =
DKrit est
sestDiff
12
,
=
= 1,06
113
,
Die empirische Differenz beträgt (2,4 – 1,2) = 1,2; sie liegt damit unter der zufallskritischen Größe von 2,2. Das bedeutet, dass sich die Schüler in ihren Schulnoten mit
5% Irrtumswahrscheinlichkeit nicht voneinander unterscheiden. Die Wahrscheinlichkeit eines Auftretens der beobachteten Differenz von 1,2 beträgt im übrigen
analog zu (2.35)
Yest = –0,06 (110 – 100) + 3
= 2,4.
Die für Schüler A vorhergesagte Schulnote beträgt 1,2 (7 vorangegangenes Beispiel); für Schüler B muss gerechnet werden
DKrit est = 1,96 ⋅1⋅ 2 (1 - .602 )
= 2,2.
Außer einem Schüler mit dem Standardwert von XA = 130 gebe es einen Klassenkameraden mit XB = 110. Alle anderen Rahmendaten seien identisch mit denen aus
dem vorangegangenen Beispiel.
Fragestellung: Werden sich die beiden Schüler voneinander überzufällig in ihren
aus den Testwerten vorhergesagten Schulnoten unterscheiden?
Nach (2.42) muss die Differenz in den Kriteriumswerten mindestens betragen
Beispiel
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Kritische Differenz
der Eignung
59
2
2
60
2.1.1.6 Kritik an der KTT
Gegenüber der klassischen Testtheorie sind verschiedene Einwände vorgebracht worden.
Einige davon sind in Ergänzung der bereits gegebenen Darstellung nachfolgend aufgelistet
worden, ohne dass die vorgenommene Reihung Gewichtungsfaktoren implizieren soll:
4 Die Setzungen oder Axiome der KTT sind empirisch nicht überprüfbar, einige davon (z. B. die Annahme einer Nullkorrelation zwischen wahrem und Fehlerwert)
sind gegenintuitiv.
4 Die Annahme einer intraindividuellen Invarianz der wahren Werte einer Person ist
nur vertretbar bei kurzen Zeiträumen und auch da nur für bestimmte Merkmalsbereiche. So liegen zahlreiche Befunde darüber vor, dass sich Leistungs- und Persönlichkeitsmerkmale während der Kindheit und Jugend ebenso verändern wie im
höheren Lebensalter und verschiedene Einflussnahmen (wie Schulung und Unterweisung oder Teilnahme an psychotherapeutischen Programmen) auf eine bedeutsame Modifikation abheben. Bei der Erfassung von stimmungs-, müdigkeits- und
tageszeitabhängigen Variablen erweist sich das Theorem der Konstanz wahrer Werte als Fiktion.
4 Die KTT setzt mindestens Intervall-Skalen-Niveau voraus. Bei manchen Tests ist
allerdings fraglich, ob diese Qualität erreicht wird. Jedenfalls ist deren Überprüfung
außerordentlich aufwendig und ihrerseits an einige nicht weiter überprüfbare Voraussetzungen gebunden (z. B. Normalverteilung der Merkmalsausprägungen des
jeweiligen Konstruktes, also losgelöst von deren Erfassung mit Hilfe des betreffenden Tests).
4 Die Parameter der KTT sind populations- oder stichprobenabhängig. Je nach der
Heterogenität oder Homogenität der herangezogenen Personenstichprobe in bezug
auf das untersuchte Merkmal fallen die ermittelten Reliabilitätskoeffizienten eher
hoch oder eher niedrig aus. Das resultiert aus der Regel, wonach Korrelationen zwischen zwei Merkmalsdimensionen an Höhe verlieren, wenn beispielsweise die extrem hohen und extrem niedrigen Werte eliminiert werden. In solchen Fällen verändert sich die Gestalt des bivariaten Korrelationsellipsoides in dem Sinne, dass seine
Erstreckung reduziert wird, der Durchmesser aber in etwa gleich bleibt, was einen
niedrigeren Zusammenhang bedeutet. Von daher stellt sich die Frage der Generalisierbarkeit und im Zusammenhang damit diejenige nach einer Verbindlichkeit von
Resultaten. Diese Frage ergibt sich auch deshalb, weil es, wie noch zu zeigen sein wird,
ganz verschiedene Techniken einer Bestimmung der Reliabilität für ein und dasselbe
Verfahren gibt, mit der Folge von häufig genug sehr verschiedenen Ergebnissen.
4 Die Populationsabhängigkeit wirft weitere Probleme in einer ganz anderen Richtung auf: Verschiedene Beobachtungen weisen darauf hin, dass es innerhalb größerer Gruppen von Personen mehrere Substichproben mit unterschiedlicher Reliabilität und Validität ihrer Messwerte gibt. Bei den betreffenden Unterschieden handelt
es sich mehrheitlich nicht um methodische Artefakte, sondern um Effekte, die mit
Hilfe elaborierter psychologischer Theorien gut erklärbar sind (z. B. Schmitt, 1992).
Daraus resultiert aber zwangsläufig die Einsicht, dass die Fehlerschätzungen primär
für eine »Metastichprobe« gelten, die ihrerseits in Subgruppen mit divergierenden
Fehlervarianzen zerfällt. Je nach der Gruppenzugehörigkeit einer Person wären im
Einzelfall auch ganz unterschiedliche Schätzungen von wahren und Prädiktionswerten vorzunehmen. Die Zunahme an Präzision der individuellen Vorhersage
durch die Heranziehung von Statistiken, also an Stichproben gewonnenen Kennwerten, erweist sich als Scheingewinn und der vermeintliche Vorteil als äußerst
trügerisch.
Kapitel 2 · Grundlagen diagnostischer Verfahren
»Mathematische Wahrscheinlichkeitsaussagen beziehen sich (…) per definitionem
nicht auf Einzelfälle, sondern auf Klassen von Elementen mit bestimmtem Umfang«
(Holzkamp, 1966, S. 28).
Definition
Auf schwerwiegende und grundsätzliche Bedenken muss die eben bereits angesprochene Übertragbarkeit von gruppenstatistischen Kennwerten auf den Einzelfall
immer dann stoßen, wenn die Reliabilität und/oder Validität niedriger als 1.0 liegen
– was praktisch immer der Fall ist. Denn:
6
Was sagen gruppenstatistische Kennwerte über den Einzelfall aus?
Psychologische Testverfahren basieren in ihrer theoretischen Konzeption, ihrer Konstruktion und ihren Gütekriterien auf gruppenstatistischen Kennwerten. Wenn es
um die Analyse von Einzelfällen geht, ist die Aussagekraft solcher Kennwerte begrenzt, da sie für sich genommen auf den Einzelfall nicht angewandt werden können. Diese Grenzen sind allerdings nicht nur im Kontext der Testdiagnostik zu bedenken, sondern vielmehr überall dort, wo gruppenstatistische Untersuchungen
vorliegen – und damit in fast allen Bereichen von psychologischer Forschung.
Die Problematik einer Übertragung von Aggregatdaten auf Einzelfälle soll am
Beispiel von Korrelationskoeffizienten verdeutlicht werden: Korrelationskoeffizienten erfassen einen zwischen Variablen bestehenden Zusammenhang in einem numerischen Wert zusammen. Mit Ausnahme einer Korrelation von r = +1,0 und
r = –1,0 enthalten sie keine Informationen darüber, inwieweit sie auch auf einzelne
Personen übertragen werden können. Dies verdeutlicht ein auf Grawe (1991) zurückgehendes Beispiel einer »unechten« Nullkorrelation (. Abb. 2.8).
In . Abb. 2.8 lassen sich zwei Gruppen von Personen erkennen, für die unterschiedliche funktionale Zusammenhänge zwischen den Variablen »Symptomre-
Beispiel
Sofern die Korrelationen, auf denen Vorhersagen aufbauen, gegenüber dem Wert rtc =
1.0 absinken – und dabei spielt es überhaupt keine Rolle, um wieviel – bleibt zwar die
Spezifikation des mittleren Vorhersagefehlers für die Gruppe als Ganzes bestehen. Aber
die Möglichkeit einer Festlegung des Prädiktionsfehlers auf der Ebene des einzelnen
Messwertträgers ist nicht nur vermindert, sondern faktisch als Unding entlarvt. Gruppenstatistische Daten erlauben keine Feststellung darüber, dass etwas »for each of many
individuals« der Fall ist (Lamiell, 1987). Der sich durch Missachtung dieser Einsicht
gleichwohl immer wieder einstellende Interpretationsfehler wurde bereits von William
James um die Jahrhundertwende als Trugschluss beschrieben. Einige Testtheoretiker
(z. B. Paunonen & Jackson, 1986) versuchen, einen Ausweg aus der geschilderten Problematik aufzuzeigen, indem sie eine statistische Hilfskonstruktion heranziehen. Dabei
wird der beobachtete individuelle Wert als Stichprobe aus der Gesamtverteilung vieler
weiterer Werte einer Person aufgefasst. Der »wahre Wert« wird – Kern der Theorie – als
Mittelwert der hypothetischen Verteilung interpretiert. Holzkamp (1966) bezeichnet
das als eine Verschiebung des Problems, da sich hier erneut die Frage nach der Lage des
ermittelten Testwertes einer Person in Relation zum wahren Wert innerhalb der nun
intraindividuell (anstelle: interindividuell) variierenden Werte ergebe.
4
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
61
2
2
. Abb. 2.9. Beispiel für
eine »echte« Nullkorrelation,
als Ausdruck eines fehlenden Zusammenhangs
zwischen beiden Variablen.
(Nach Grawe, 1991, S. 97)
. Abb. 2.9
6
»Die vielschichtige Eigenschaft der Intelligenz beruht vor allem auf den Erbanlagen. Zu etwa 70% gleichen sich die IQs der eineiigen Zwillinge. 70% der IQUnterschiede in der breiten Bevölkerung sind damit auf unterschiedliche Gene
zurückzuführen: Wenn dort einer dümmer ist als der andere, hat er das zu
zwei Dritteln seinen Genen zu verdanken.«
duktion« und »Abnahme familiärer Spannungen« gelten (positiv für A, E, F und H,
negativ für B, D, C und G). Hier resultiert die Nullkorrelation für die Gesamtgruppe
aus der wechselseitigen Überlagerung einer positiven und negativen Korrelation bei
Subgruppen. Eine Nullkorrelation kann jedoch auch dafür stehen, dass die untersuchten Merkmale auch in Teilgruppen nichts miteinander zu tun haben, wie dieses
in . Abb. 2.9 veranschaulicht ist. Hier wie dort – und auch bei allen anderen Koeffizienten, die niedriger liegen als ±1,0 – sagt der an der Gesamtgruppe ermittelte
Koeffizient nichts aus über die Gegebenheiten in etwaigen Teilgruppen oder gar bei
einzelnen Individuen.
Obwohl diese Regeln in Fachkreisen allgemein bekannt sind, hat doch erstmals Hake (2000) gezeigt, dass sogar Berufspraktiker und angehende Psychologen
im Umgang mit gruppenstatistischen Kennwerten unzulässigen Schlussfolgerungen unterliegen. Sie konfrontierte Personalfachleute, eignungsdiagnostisch tätige
Berater und Studenten der Psychologie in einem Interview mit einer Reihe von
Szenarien, in denen die Bedeutung gruppenstatistischer Kennwerte für Einzelfälle
abgeschätzt und begründet werden sollte. Eine der Aufgabenstellungen bestand
beispielsweise darin, die folgenden Aussagen im Verhältnis zueinander zu bewerten:
. Abb. 2.8
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.8. Beispiel für
eine »unechte« Nullkorrelation, die sich aus drei Subgruppen mit unterschiedlichen Zusammenhängen
ergibt. (Nach Grawe, 1991,
S. 96)
62
Jeder einzelne dieser Kritikpunkte ist gravierend, in der Gesamtheit scheinen sie von
erdrückendem Gewicht zu sein. Der Widerspruch zwischen gruppenstatistischem Sinn
und individueller Verwendung lässt sich nicht überbrücken.
Was dagegen gehalten werden kann ist vor allem ein pragmatisches Argument: Die
nach den Prinzipien der KTT entwickelten Verfahren haben sich in der psychodiagnostischen Handhabung mehr oder weniger gut bewährt (Michel & Conrad, 1982, S. 25),
d. h. die Tests erlauben die differenzierte und objektive sowie reliable Beschreibung von
intra- und interindividuellen Unterschieden. Zwar verfehlt die Validität vielfach das
erstrebenswert hohe Ausmaß, doch muss damit das anderenfalls verfügbare Instrumentarium verglichen werden: Entscheidungen nach Gutdünken oder Los, des Weiteren vielleicht auch auf der Basis von Verfahren, deren Konstruktion und psychometrische Gütekriterien keinerlei wissenschaftlichen Ansprüchen standhalten, können keine
vernünftige Alternative sein.
Nur jeweils 16,5% der Personalfachleute und Berater sowie 43,8% der Studenten
zeigten ein angemessenes Problembewusstsein: Der Korrelationskoeffizient und damit auch der Standardschätzfehler bezieht sich auf eine Klasse von Elementen, also
auf ein Aggregat, nicht hingegen auf einzelne Elemente der Klasse. Hieraus ergibt
sich, dass der Grad der Vorhersagegenauigkeit für den Einzelfall nicht bestimmt werden kann. Das Problem besteht also nicht darin, dass sich die in einer Regressionsgleichung zum Ausdruck gebrachte Gesetzmäßigkeit nicht fehlerlos auf Einzelfälle
anwenden lässt, sondern dass sie auf Einzelfallebene keine Aussage zulässt, weil
dort der Vorhersagefehler nicht spezifizierbar ist. Dieses wiederum bedeutet nicht,
dass Vorhersagen im Kontext von Regressionsanalysen keinen Nutzen aufweisen.
Vielmehr wurzeln statistische Vorhersagemodelle in der Vorstellung, »that maximizing predictive accuracy means minimizing errors of prediction in the long run, i.e.
on the average« (Lamiell, 1987, S. 114). Von daher wäre es völlig abwegig, auf die
Anwendung der statistischen Vorhersageprinzipien bei wiederkehrenden Vorhersageproblemen verzichten zu wollen.
»Stellen Sie sich vor, die prädiktive Validität der psychologischen Tests, die Sie in
Ihrem Unternehmen verwenden, hätte sich erhöht. Denken Sie, dass Sie mit den
verbesserten Tests eine präzisere Prognose für den Einzelfall treffen können?«
Bei den ersten drei Sätzen handelt es sich um gruppenbezogene Aussagen. Der letzte, hervorgehobene, einzelfallbezogene Satz soll sich aus den vorhergehenden Aussagen ergeben. Diese Schlussfolgerung ist jedoch unzulässig, da Unterschiede in
der Intelligenz sich per definitionem nur auf Aggregate, also Gruppen von Personen,
nicht aber auf einzelne Personen innerhalb der Aggregate beziehen. Nichtsdestotrotz nahmen 62,5% der Psychologiestudenten, 58,3% der Personalfachleute und
33,3% der Berater einzelfallbezogene Interpretationen des Kennwertes vor. Auch im
Umgang mit anderen gruppenstatistischen Kennwerten traten in den Untersuchungsgruppen zahlreiche Fehlinterpretationen auf.
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Pragmatische Argumente für die KTT
63
2
2
Helfried Moosbrugger
Item-Response-Theorie (IRT)
aus einer Komponente zugunsten der wahren Merkmalsausprägung und einer anderen zu Lasten von Fehlerfaktoren. Die Fehlerwerte mitteln sich über viele Testungen aus, so dass der beobachtete Mittelwert (aus vielen Testungen eines Probanden oder aus der
einmaligen Untersuchung vieler Probanden) dem wahren Wert
bzw. dem Mittelwert der wahren Werte entspricht. Wahrer Wert
und Fehler sind unkorreliert. Bei einer wiederholten Untersuchung
mit ein und demselben Test entspricht die beobachtete Korrelation
zwischen den beiden Durchführungen (= Retestreliabilität) dem
Anteil der wahren Varianz an der Gesamtvarianz.
Ad 2. Der Standardmessfehler ist ein Maß für den Anteil der Fehlerstreuung an der Streuung von Testwerten, der Standardschätzfehler ein solches für den Anteil der Fehlerstreuung an den Werten,
die auf regressionsanalytischer Basis, von Testscores ausgehend,
geschätzt (= »vorhergesagt«) werden. Beide Ausdrücke erlauben die
Bestimmung von Konfidenzintervallen für die wahren Werte aus
den diagnostizierten bzw. prognostizierten Scores und damit eine
zufallskritische Absicherung beobachteter Differenzen.
Ad 3. Die Varianz individuell addierter Testwerte stellt die Summe
der Varianz aus den Einzeltests dar, zu der zusätzlich 2mal die Kovarianz zwischen den Einzelmaßen hinzugefügt werden muss. Für
die wahren Testwerte ist diese Kovarianz so groß wie die Varianz
der Einzelmaße, für die Fehlerwerte ist sie Null. Aus diesem Grunde kommt es beispielsweise bei Verdoppelung eines homogenen
Tests zu einer Vervierfachung der wahren und einer Verdoppelung
der Fehlervarianz, was einer Erhöhung der Reliabilität entspricht.
Ad 4. Minderungskorrekturen liefern Schätzungen für den korrelativen Zusammenhang messfehlerbereinigter Variablen. Vorwiegend sind sie für das theoretische Verständnis von Bedeutung, dienen aber auch praktischen Belangen, wenn es um die Steigerung
von Validitätskoeffizienten durch technische Maßnahmen geht, die
entweder auf der Test- oder/und der Kriteriumsseite ansetzen.
Mit der Klassischen Testtheorie (KTT) verfügt die Psychodiagnostik über einen bewährten Ansatz zur Beurteilung der Reliabilität von Messinstrumenten. Dennoch bleiben zumindest drei wesentliche Fragen unbeantwortet:
Erstens ist die Skalendignität der untersuchten Merkmale meist nicht genau anzugeben, zweitens erweisen sich die gefundenen Kennwerte als stichprobenabhängig, so
dass unklar bleibt, welche Aussagen zulässig sind, und drittens kann nicht überprüft
2.1.2
4. Was sind Minderungskorrekturen und wofür benötigen
wir sie?
3. Warum kommt es bei der Verlängerung von Tests zu einem
Anstieg der Reliabilität?
2. Was bedeuten Standardmessund Standardschätzfehler?
Wofür sind sie von eminenter
Bedeutung?
KTT und die wichtigsten damit
verbundenen Implikationen?
? 1. Welches sind die Axiome der
(zu Abschn. 2.1.1)
! Ad 1. Jeder beobachtete Testwert setzt sich konzeptuell zusammen
Kapitel 2 · Grundlagen diagnostischer Verfahren
Übungsfragen
64
Wenn wir nun hypothetisch annehmen, dass es eine latente Variable ξ sei, welche die
Verhaltensvariation mehrerer manifester Variablen (Testitems, Indikatorvariablen) erzeugt, so wird sich dies in beobachtbaren Korrelationen zwischen den Testitems niederschlagen. Will man in Umkehrung dieser Überlegung von manifesten Variablen auf
eine potentiell dahinterliegende latente Variable ξ zurückschließen, müssen als notwendige, aber nicht hinreichende Bedingung mehrere untereinander korrelierende Testitems als Datenbasis vorliegen. Doch nur, wenn die Testitems Indikatoren der latenten
Variablen ξ sind, kann die latente Variable als »Ursache« für die Korrelation zwischen
den manifesten Variablen angesehen werden. Man bezeichnet die Items dann als »homogen« bezüglich der latenten Variablen ξ. Folglich stellt sich nun die Frage, wann von
einer solchen Itemhomogenität ausgegangen werden darf.
Eine wesentliche Bedingung zur Präzisierung dessen, was unter Itemhomogenität
zu verstehen ist, stellt die sogenannte »lokale stochastische Unabhängigkeit« dar.
Wenn alle Items Manifestationen ein- und derselben latenten Dimension sein sollen, so
werden ihre Korrelationen nur durch die Unterschiede in der latenten Dimension ξ
hervorgerufen. Diese Verursachung kann überprüft werden, indem man die latente
Dimension auf einem bestimmten Wert (auf einer lokalen Stufe, z. B. ξv oder ξw) konstant hält. Sind die Items homogen, so muss sich nun die lokale stochastische Unabhängigkeit zeigen, welche darin besteht, dass die Korrelationen zwischen den Items auf
Bei den manifesten Variablen handelt es sich im Kontext der IRT um das beobachtbare Antwortverhalten auf verschiedene Testitems, bei den latenten Variablen hingegen um nicht beobachtbare dahinterliegende Fähigkeiten oder Dispositionen,
von welchen das manifeste Verhalten als abhängig angesehen wird.
Definition
2.1.2.1
Grundüberlegungen der Item-Response-Theorie
Die Item-Response-Theorie (Lord, 1980; Hambleton & Swaminathan, 1985; Fischer,
1996) geht explizit der Frage nach, welche Rückschlüsse auf interessierende Einstellungs- oder Fähigkeitsmerkmale gezogen werden können, wenn von den Probanden
lediglich Antworten (responses) auf diverse Testitems vorliegen. »Die IRT ist aus dem
Versuch entstanden, diese Frage innerhalb eines bestimmten formalen Rahmens zu
präzisieren und Antworten darauf unter verschiedenen restriktiven Voraussetzungen
zu geben« (Fischer, 1996, S. 673).
In der IRT wird als grundsätzliche Annahme zunächst zwischen zwei Ebenen von
Variablen unterschieden, und zwar zwischen manifesten Variablen und latenten Variablen.
werden, ob die Testitems bezüglich des (der) jeweils untersuchten Merkmals (Merkmale) homogen sind, weshalb die untersuchten Merkmale nur operational definiert
werden können.
Um die mit der KTT einhergehenden Probleme zu überwinden, wurde die sog.
Item-Response-Theorie (IRT) konzipiert, welche auf einer wesentlich strengeren Annahmenbasis als die KTT beruht. (Neben der international etablierten Bezeichnung
»Item-Response-Theorie« ist in Europa auch die Bezeichnung »Probabilistische Testtheorie«, s. z. B. Fischer, 1974; Kubinger, 1992 gebräuchlich.) Gelingt es, Tests in der
Weise zu konstruieren, dass sie den Annahmen der IRT genügen, so ergeben sich – je
nach Modell – verschiedene psychodiagnostische Vorzüge (s. u.).
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Manifeste und latente
Variablen
65
2
2
(2.43)
Ein Beispiel möge den Gedankengang verdeutlichen: Gegeben seien zwei Testitems
i und j mit dichotomem Beantwortungsmodus »stimmt (+)« bzw. »stimmt nicht (–)«,
z. B. das Item 49 »Termindruck und Hektik lösen bei mir körperliche Beschwerden
aus« und das Item 106 »Es gibt Zeiten, in denen ich ganz traurig und niedergedrückt
bin« aus der revidierten Fassung des Freiburger Persönlichkeitsinventars FPI-R (Fahrenberg et al. 1994). Die Zustimmungs-, Ablehnungs- und Verbundwahrscheinlichkeiten für diese beiden Items sind in . Tab. 2.1 wiedergegeben:
Betrachtet man zunächst im oberen Teil von Tab. 2.1 die Randwahrscheinlichkeiten der beiden Items, so erkennt man, dass das Item i das leichtere Item ist (Zustimmungswahrscheinlichkeit p(i+) = .60), das Item j hingegen das schwierigere (Zustimmungswahrscheinlichkeit p(j+) = .40). (Vgl. 7 Abschn. 2.2.7.1: Bei Persönlichkeitsfragebögen bezieht sich die »Itemschwierigkeit« nicht auf eine »richtige« Antwort,
sondern auf den Anteil der Probanden, die im Sinne einer »höheren« Merkmalsausprägung geantwortet haben.) Die Anwendung des Multiplikationstheorems für
6
Beispiel
bezeichnet man auch als Indikatoren der latenten Variablen.
! Testitems, welche die Bedingung der lokalen stochastischen Unabhängigkeit erfüllen,
erfüllt: Sowohl für Personen mit niedriger als auch für Personen mit hoher Merkmalsausprägung auf der latenten Dimension sind die Korrelationen zwischen den beiden Items verschwunden (rij|ξv = rij|ξw = 0). (Diese Überlegung lässt sich auf beliebig
viele Stufen der latenten Variablen ξ sowie auf jede nichtleere Teilmenge einer beliebig
großen Itemmenge verallgemeinern, s. z. B. Moosbrugger, 1984, S. 76.) Deshalb können wir die beiden Items als homogen in bezug auf die latente Variable ξ auffassen.
Hiermit wäre gezeigt, dass die Variation in den beiden Items auf eine latente Variable
zurückgeführt werden kann, und zwar hier auf das Merkmal »Emotionalität« (FPI-R,
Skala N).
p((i +, j+)|ξ ) = p(i + |ξ ) ⋅ p(j + |ξ )
diesen Stufen verschwinden. Folglich kann bei Vorliegen der lokalen stochastischen
Unabhängigkeit auf Itemhomogenität bezüglich ξ geschlossen werden.
Man stelle sich nun das im 7 Beispiel genannte Vierfelderschema in zwei Personengruppen gleichen Umfangs aufgeteilt vor. Die eine habe auf einer potentiellen latenten
Variablen ξ, welche den Zusammenhang erklären soll, eine niedrigere Ausprägung ξv,
die andere hingegen eine höhere Ausprägung ξw (. Tab. 2.1, unterer Teil). Nimmt man
nunmehr auf jeder der beiden latenten Stufen eine lokale Betrachtung der Rand- und
Verbundwahrscheinlichkeiten vor, so sieht man an den Randwahrscheinlichkeiten,
dass für Personen mit ξ = ξv die bedingte Wahrscheinlichkeit, dem Item i bzw. j zuzustimmen, auf p(i + | ξv) = .30 bzw. p(j + | ξv) = .10 gefallen ist; andererseits ist für Personen mit ξ = ξw die bedingte Wahrscheinlichkeit, dem Item i bzw. j zuzustimmen, auf
p(i + | ξw) = .90 bzw. p(j + | ξw) = .70 gestiegen (jeweils verglichen mit den unbedingten
Randwahrscheinlichkeiten p(i+) = .60 bzw. p(j+) = .40). Da die lokalen Verbundwahrscheinlichkeiten dem Multiplikationstheorem für unabhängige Ereignisse nun folgen,
ist die Bedingung der lokalen stochastischen Unabhängigkeit
Kapitel 2 · Grundlagen diagnostischer Verfahren
Indikatoren der
latenten Variablen
66
–
+
Für ξ = ξW
–
+
Für ξ = ξV
–
+
–
–
.03
.30
.70
.27
.07
.63
Item j
.90
.10
+
.63
.27
.07
.03
+
.60
.40
Item j
.33
.27
–
.07
.33
+
Item j
.10
.90
.70
.30
.40
.60
Gründlichkeitshalber sei angemerkt, dass die Erfüllung der Bedingung der lokalen
stochastischen Unabhängigkeit keineswegs trivial ist. Hätte man die Stichprobe nicht
nach dem Merkmal »Emotionalität« geteilt, sondern z. B. nach »Extraversion«, so wären in jeder der beiden Teilstichproben ähnliche Korrelationen wie in der ungeteilten
Stichprobe verblieben.
Um in der immer größer werdenden Menge von IRT-Modellen zu einer übersichtlicheren Einteilung zu gelangen, wurden von verschiedenen Autoren durchaus
verschiedene Einteilungsgesichtspunkte gewählt: So gehen etwa Weiss und Davison
(1981) von der Anzahl der Modellparameter aus, Moosbrugger (1984) von der Art
der itemcharakteristischen Funktion, Rost (1996) von der Variablenart der manifesten und latenten Variablen und Müller (1997) von der Separierbarkeit der Modellparameter. Im Sinne der Unterteilung nach der Variablenart erscheint es für die
unabhängige Ereignisse auf eine beliebige Zelle des Vierfelderschemas, z. B. auf
p(i+)xp (j+) = .60 × .40 = .24, und der Vergleich mit der Verbundwahrscheinlichkeit
derselben Zelle, hier p(i+, j+) = .33, machen deutlich, dass die Zustimmung zu Item j
von der Zustimmung zu Item i nicht unabhängig ist, da bei Unabhängigkeit die Bedingung p(i+)xp(j+) = p(i+, j+) hätte erfüllt sein müssen; vielmehr führt die Analyse
aller Antworten auf die beiden Items zu einer deutlichen Korrelation von rij = 0.375
(Phi-Koeffizient).
Item i
c
Item i
b
Item i
a
. Tabelle 2.1a–c. Zustimmungs-, Ablehnungs- und Verbundwahrscheinlichkeiten von zwei
korrelierten Testitems i und j mit dichotomem (+/–) Antwortmodus, zunächst (a) ohne Berücksichtigung einer dahinterliegenden latenten Variablen x, sodann (b, c) bei lokaler Betrachtung
auf den Stufen ξv und ξw, auf denen sich die lokale stochastische Unabhängigkeit zeigt
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Einteilungsgesichtspunkte von IRTModellen
67
2
2
Deterministische
Modelle
Annahmen über das
Antwortverhalten
Modellparameter für
Personen und Item
Deterministische Modelle. Der einfachste Fall einer IC-Funktion liegt vor, wenn man
annimmt, dass es für jedes dichotom beantwortete Item einen bestimmten Wert auf der
ξ-Skala gibt, ab dem das Item gelöst wird (bzw. dem Item zugestimmt wird). Genau
diese Annahme trifft das sogenannte Skalogramm-Modell (Guttman, 1950), welches
Deterministische Modelle gehen davon aus, dass das Antwortverhalten der Probanden durch die Item- und Personenparameter vollständig bestimmt ist. Probabilistische Modelle hingegen nehmen eine stochastische Beziehung zwischen dem
Antwortverhalten des Probanden und den Personen- und Itemparametern an.
Definition
Eine Angabe über die numerische Ausprägung dieser Parameter wird erst nach Festlegung der itemcharakteristischen Funktion (IC-Funktion) möglich, welche empirisch
überprüfbare Annahmen über das manifeste Antwortverhalten auf die Testitems in
Abhängigkeit von der Ausprägung der latenten Traits in Form einer mathematischen
Gleichung beschreibt. Durch Variation der IC-Funktion ergeben sich verschiedene
spezifische Testmodelle, innerhalb derer grundsätzlich deterministische von probabilistischen Modellen unterschieden werden können (vgl. z. B. Roskam, 1996, S. 431).
Itemcharakteristische Funktion (IC-Funktion)
2.1.2.2 Dichotome Latent-Trait-Modelle
Innerhalb der psychologischen Diagnostik sind gegenwärtig Latent-Trait-Modelle am
gebräuchlichsten. Sie stehen in gutem Einklang mit »den intuitiven psychologischen
Vorstellungen über das Wesen einer latenten Eigenschaft (eines Traits) als einer nicht
begrenzten, stetig veränderlichen (reellwertigen) Variablen, von deren individueller
Ausprägung die Wahrscheinlichkeit des manifesten Verhaltens der getesteten Person
systematisch abhängt; aufgrund dieser Abhängigkeit kann der Trait zur ›Erklärung‹ von
Verhaltensunterschieden herangezogen werden. Je nachdem, welche Annahmen man
im Detail über die Art des Zusammenhanges zwischen dem latenten Trait und der
Verhaltenswahrscheinlichkeit macht, resultieren IRT-Modelle mit z. T. recht verschiedenen Eigenschaften« (Fischer, 1996, S. 673).
Latent-Trait-Modelle gehen davon aus, dass sowohl die Ausprägungen verschiedener Probanden auf den latenten Traits als auch die traitbezogenen Anforderungen der
Items an die Personen jeweils durch einen Parameter, nämlich einen einzelnen numerischen Kennwert, charakterisiert werden können. Ersterer wird als Personenparameter ξv bezeichnet (Fähigkeits-, Einstellungs-, Dispositionsparameter, nämlich die Fähigkeit des Probanden v hinsichtlich des latenten Traits), letzterer als Itemparameter σi
(Schwierigkeits- bzw. Anforderungsparameter, nämlich die Anforderung, welche das
Item i an die zu untersuchende Fähigkeit der Person stellt). Üblicherweise werden die
numerischen Ausprägungen der beiden Parameter auf einer gemeinsamen Skala
(»joint scale«) angegeben. Manche Modelle ergänzen noch einen Itemdiskriminationsparameter λi.
hier gewählte Darstellung zunächst hinreichend, die Gruppe der Latent-Trait-Modelle herauszugreifen, welche von kontinuierlichen latenten Variablen ausgehen und
am einfachsten für Testitems mit einem dichotomen Antwortmodus dargestellt
werden können. Im 7 Abschn. 2.1.2.3 werden dann weitere Modelle der IRT vorgestellt.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Traits und Verhalten
68
Treppenfunktion in der Regel monoton steigende Funktionen als IC-Funktion angenommen. Die IC-Funktion ordnet jeder Ausprägung der latenten Variablen ξ eine
Probabilistische Modelle. In probabilistischen Modellen werden anstelle der Guttmanschen
Sofern die Items dem Guttman-Modell folgen, was man an modellkonformen Reaktionsmustern erkennt, findet man den Skalenwert einer Person einfach als die Rangzahl jenes Items der Itemmenge, ab dem der Proband positiv reagiert hat (hier 3), und
zwar unabhängig von den Reaktionen der anderen untersuchten Probanden. Da hier
nur ordinale Reihungsinformationen der Itemschwierigkeiten vorliegen, sind aber keine Aussagen über Distanzen möglich, weder zwischen den Items noch zwischen den
Personen.
Auch wenn das Guttman-Modell auf den ersten Blick nicht nur einfach, sondern
auch plausibel erscheint, so gilt es dennoch festzustellen, dass es als IRT-Modell für
psychodiagnostische Daten in der Regel nicht tauglich ist: Die Modellkonformität der
Daten wäre nämlich immer dann zu verwerfen, wenn Probanden ein schwierigeres
Item lösen, obwohl sie an einem leichteren gescheitert sind. Deshalb wurden bereits von
Guttman selbst »Reproduzierbarkeitskoeffizienten« eingeführt, welche davon abhängen, wieviele Rangplatzvertauschungen vorliegen; sie erlauben eine Beurteilung, ob die
Modellabweichungen noch als tolerierbar angesehen werden können, oder ob die Annahme der Itemhomogenität verworfen werden muss (7 Abschn. 2.2.7.3).
Eine einfache Illustration des Guttman-Modells kann am Beispiel der Ermittlung
des Körpergewichts gegeben werden. Befragt man eine Person, die z. B. 78 kg
schwer ist, mittels mehrerer Items über ihr Gewicht in der Weise, dass in jedem Item
eine Gewichtsschwelle angegeben ist, z. B. »Sind Sie leichter als 60 kg?«, »Sind Sie
leichter als 70 kg?« (80 kg, usw.), so wird die Wahrscheinlichkeit, der Frage zuzustimmen, bei einem bestimmten Item (80 kg) von Null auf Eins springen. Die Schwierigkeit dieses Items ist dann ein Indikator für die Ausprägung der latenten Variablen ξ.
Beispiel
als Vorläufer der später entwickelten probabilistischen Latent-Trait-Modelle angesehen
werden kann. Sofern man die Items nach ihrer Schwierigkeit reiht, besagt das Skalogramm-Modell, »dass eine einheitliche Ordnung von Personen und Items existiert.
Diese Ordnung hat die Eigenschaft, dass eine Person, die auf ein bestimmtes Item positiv reagiert, auch auf alle vorhergehenden Items positiv reagiert. Ferner wird eine Person, die auf ein bestimmtes Item negativ reagiert, auch auf alle nachfolgenden Items
negativ reagieren« (Roskam, 1996, S. 436). . Abb. 2.10 illustriert ein solches Beispiel.
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Probabilistische
Modelle
Anwendungsprobleme
des Guttman-Modell
Beispiel für ein
Guttman-Modell
. Abb. 2.10. Guttman-Skala mit drei Items. Für jedes
Item steigt an einer bestimmten Stelle der latenten Variablen ξ die Lösungswahrscheinlichkeit p(i+) von 0 auf
1. (Nach Stelzl, 1993, S. 144)
69
2
. Abb. 2.11. Logistische
IC-Funktion. Die Lösungswahrscheinlichkeit p(xvi = 1)
steigt mit zunehmender
Merkmalsausprägung ξ
monoton an. Für das hier veranschaulichte Item wurden
die Parameter willkürlich auf
σi = –1.25 und λi = 0.8 festgelegt
Beispiel: BirnbaumModell
exp(x vi λi (ξ v -σ i ))
1 + exp (λi (ξ v -σ i ))
(2.44)
Der Fähigkeitsparameter ξv bezeichnet die Merkmalsausprägung von Person v auf der
latenten Dimension ξ. Der Schwierigkeitsparameter σi gibt an, wie weit links (leichte
Items) bzw. wie weit rechts (schwierige Items) die IC-Funktion des Items i auf der gemeinsamen Skala von σ und ξ zu liegen kommt. Vom Diskriminationsparameter λi
hängt für jedes Item die Steilheit der IC-Funktion ab, welche im Wendepunkt mit λi/4
ihr Maximum erreicht. Die charakteristische Form der logistischen Funktion ist in
. Abb. 2.11 wiedergegeben (weitere Erläuterungen im folgenden Abschn. über das
dichotome Rasch-Modell).
p(x vi ) =
Wahrscheinlichkeit p(i + | ξ) zu, mit der ein bestimmtes Item i gelöst (bzw. dem Item
zugestimmt) wird. Deterministische Modelle, bei denen nur die Lösungswahrscheinlichkeiten Null und Eins vorkommen (vgl. oben), können als Grenzfall eines probabilistischen Modells aufgefasst werden.
Probabilistische Latent-Trait-Modelle wurden in ihren Grundlagen von Lord und
Novick (1968), von Birnbaum (1968) und von Rasch (1960) entwickelt. Alle drei Ansätze treffen ähnliche Annahmen zur Beschreibung der Beziehung zwischen manifestem
Verhalten und latenter Merkmalsausprägung: Lord und Novick verwenden als IC-Funktion in ihrem »Normal-Ogiven-Modell« die Summenfunktion der Normalverteilung,
die beiden anderen Ansätze verwenden hingegen die ähnlich verlaufende, aber mathematisch leichter handhabbare »logistische Funktion«. (Eine theoretische Begründung
logistischer Modelle gibt z. B. Fischer, 1996, S. 678–682.)
Zur näheren Beschreibung der logistischen Funktion gehen wir von einem dichotomen (+/–) Antwortungsmodus aus, bei dem der Antwort »+« einer Person v auf das
Item i der numerische Wert ξvi = 1 und der Antwort »–« der numerische Wert ξvi = 0
zugewiesen wird. Durch die logistische IC-Funktion wird die Reaktionswahrscheinlichkeit p(ξvi) einer Person v auf das Item i in Abhängigkeit vom Personenparameter
ξv, dem Itemschwierigkeitsparameter σi und dem Itemdiskriminationsparameter
λi festgelegt.
Die allgemeine Form der logistischen Funktion findet im Birnbaum-Modell Verwendung (Birnbaum, 1968) und wird durch folgende Gleichung beschrieben (mit exp
als Schreibweise für die Exponentialfunktion):
Kapitel 2 · Grundlagen diagnostischer Verfahren
Logistische Funktion
70
exp(x vi (ξ v -σ i ))
1 + exp (ξ v - σ i )
(2.45)
exp(ξ v -σ i )
1 + exp(ξ v -σ i )
(2.46)
1
1 + exp(ξ v -σ i )
(2.47)
. Abb. 2.12. Unterschiede zwischen IC-Funktionen im Rasch- und im Birnbaum-Modell. Die ICFunktionen der Items 1,2 und 3 entsprechen dem Rasch-Modell, eine Hinzunahme von Item 4 wäre
nur im Birnbaum-Modell möglich. In keines der beiden Modelle würde Item 5 mit einer unregelmäßig monoton steigenden IC-Funktion passen. (Nach Stelzl, 1993, S. 146)
p(x vi = 0) =
und für (xvi = 0) unter Benutzung von exp(0) = 1 die Wahrscheinlichkeit, das Item nicht
lösen zu können (Gegenwahrscheinlichkeit)
p(x vi = 1) =
Die Modellgleichung enthält für jede der dichotomen Reaktionen (Lösung/Nichtlösung) Wahrscheinlichkeitsaussagen:
Für (xvi =1) erhält man die Lösungswahrscheinlichkeit
p(x vi ) =
Das dichotome Rasch-Modell ist das einfachste Modell aus der Gruppe der RaschModelle. Wegen λi = 1 resultiert für das dichotome Rasch-Modell eine gegenber dem
Birnbaum-Modell vereinfachte Modellgleichung:
Als Rasch-Modelle bezeichnet man eine Gruppe von probabilistischen Latent-TraitModellen, welche neben der lokalen stochastischen Unabhängigkeit über weitere
vorteilhafte Modelleigenschaften verfügen. Zu nennen sind vor allem die erschöpfenden Statistiken, die Stichprobenunabhängigkeit der Parameterschätzungen und die spezifische Objektivität der Vergleiche.
Definition
Dichotomes Rasch-Modell
Während das Birnbaum-Modell für die verschiedenen Items logistische IC-Funktionen mit verschiedenen Steigungen (charakterisiert durch die jeweiligen Diskriminationsparameter λi) zulässt, hält das dichotome Rasch-Modell (Rasch, 1960) alle Diskriminationsparameter λi auf dem Wert 1 konstant, was zu weiteren vorteilhaften Modelleigenschaften führt. . Abb. 2.12 veranschaulicht den Unterschied der IC-Funktionen
im Rasch- und im Birnbaum-Modell.
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Modellgleichung
71
2
2
Erschöpfende
Statistiken
xv1
…
xn1
v
…
n
v =1
n
…
…
∑x v1
x11
2
Spaltensumme
1
1
Item
1
Person
v =1
n
…
…
xn2
∑x v 2
…
…
xv2
…
…
…
…
…
…
x12
2
2
n
v =1
∑x vi
xni
…
xvi
…
x1i
i
i
…
…
…
…
…
…
…
…
n
v =1
∑x vk
xnk
…
xvk
…
x1k
k
k
k
i=1
∑xni
k
…
i=1
∑x vi
k
…
i=1
∑x 2i
k
i=1
∑x1i
Zeilensumme
. Tabelle 2.2. Datenmatrix X mit den Antworten xvi der Personen v auf die Items i, in welcher
die i = 1…k Items die Spalten und die v = 1…n Personen die Zeilen bilden
Parameterschätzung. Die Schätzung der Parameter nimmt ihren Ausgang bei den einzelnen Reaktionen xvi aller Personen auf alle Items, welche in einer Datenmatrix X gesammelt werden, in der die i = 1 … k Items die Spalten und die v = 1 … n Personen die Zeilen
bilden (. Tab. 2.2).
Liegt Rasch-Homogenität vor, so ergibt sich als besonderer Vorteil des Modells, dass
die Anzahl der Items, die von einer Person gelöst wurden (die Zeilensummenscores),
eine erschöpfende (suffiziente) Statistik für den Personenparameter der betreffenden
Person bildet. Umgekehrt sind im Rasch-Modell die Spaltensummenscores erschöpfende Statistiken für die Schwierigkeitsparameter der Items.
Auf die Frage, wie sich die Lösungswahrscheinlichkeit mit variierenden Parameterwerten ändert, wird man rasch feststellen, dass die Differenz ξv-σi die entscheidende Größe ist. Eine Fallunterscheidung mit bestimmten Werten von σi soll das Verständnis der
Modellgleichung erleichtern:
4 Für σi = ξv ergibt sich aus exp(0)/(1 + exp(0)) die Lösungswahrscheinlichkeit 1/2.
Die Schwierigkeit eines Items σi ist auf der gemeinsamen Skala von Schwierigkeit
und Fähigkeit (7 oben) gerade als jene Fähigkeitsausprägung ξv definiert, welche
mit einer Lösungswahrscheinlichkeit p(xvi = 1) = 1/2 einhergeht. An dieser Stelle
hat die logistische Funktion ihren Wendepunkt.
4 Für σi < ξv wird die Schwierigkeit des Items von der Fähigkeit des Probanden betroffen, die Lösungswahrscheinlichkeit steigt an (p(xvi = 1) > 1/2) und geht bei entsprechend großer Fähigkeit asymptotisch gegen 1.
4 Für σi > ξv übersteigt die Schwierigkeit des Items die Fähigkeit des Probanden, die
Lösungswahrscheinlichkeit fällt ab (p(xvi = 1) < 1/2) und geht bei entsprechend geringer Fähigkeit asymptotisch gegen 0.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Fallunterscheidung
72
k
(2.48)
2
x12 = 1
x22 = 0
x32 = 0
Σxv2 = 1
Zeilensumme
Σx1i = 2
Σx2i = 1
Σx3i = 0
Es stellt sich nun die Frage, welche Werte der dahinterliegenden Item- und
Personenparameter eine solche Datenmatrix erzeugt haben. Hierfür suchen wir
nach der maximalen Likelihood für die Datenmatrix X, indem wir geeignete Werte
für die Itemparameter und Personenparameter auswählen. Natürlich gibt es viele
Möglichkeiten, die Werte für die Parameter zu wählen, von denen einige zu einer
höheren, andere hingegen nur zu einer niedrigen Likelihood für die beobachtete
Datenmatrix führen. Zur Veranschaulichung wählen wir zunächst günstige Parameterwerte und vergleichen die resultierende Likelihood sodann mit der Likelihood
von ungünstigen Parameterwerten.
Um günstige Parameterwerte zu finden, stellen wir zunächst fest, dass Item 1 offensichtlich leichter zu bejahen ist als Item 2. Deshalb wählen wir für Item 1 einen
niedrigeren Schwierigkeitsparameter (σ1 = –1) und für Item 2 einen höheren (σ2 = +1).
6
Anmerkung: xvi = 1 bedeutet »Item bejaht bzw. gelöst« und xvi = 0: »Item nicht bejaht bzw. nicht gelöst«.
1
Person 2
3
Spaltensumme
Item
1
x11 = 1
x21 = 1
x31 = 0
Σxv1 = 2
Beispiel-Datenmatrix X mit den Antworten xvi der Personen v auf die Items i
Zur Illustration der Parameterschätzung und der Likelihoodfunktion nehmen wir an,
es hätten 3 Personen 2 dichotome bearbeitet und dabei folgendes Antwortverhalten (Datenmatrix X) gezeigt:
Testitems
Beispiel
Dieser Ausdruck über die Wahrscheinlichkeit aller beobachteten Daten unter den Modellannahmen wird als Likelihoodfunktion bezeichnet.
v =1 i =1
L = p (X) = ∏ ∏ p (x vi )
n
Läge hingegen keine Modellkonformität vor, so wären Randsummen keine geeigneten
Statistiken über die Personen bzw. Items. Eine der wesentlichen Aufgaben der RaschModellanalyse besteht deshalb in der empirischen Überprüfung der Frage, ob Modellkonformität gegeben ist oder nicht (7 Abschn. 2.1.2.3, »Modelltests«).
Unter Benutzung der Modellgleichung für die Wahrscheinlichkeiten der einzelnen
Itemantworten xvi ergibt sich die Wahrscheinlichkeit für die gesamte Datenmatrix X
wegen der lokalen stochastischen Unabhängigkeit durch systematisch wiederholtes
Anwenden des Multiplikationstheorems für unabhängige Ereignisse wie folgt:
Items von welchen Personen gelöst wurden, entscheidend ist nur die Anzahl.
! Bei Modellkonformität ist es also für die Schätzung der Parameter gleichgültig, welche
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Likelihoodfunktion
73
2
2
74
k
exp(1(2 − ( −1))) exp(1(2 − 1)) exp(1(0 − ( −1))) exp(0(0 − 1)) exp(0(( −2) − ( −1))) exp(0(( −2) − 1))
⋅
⋅
⋅
⋅
⋅
1+ exp(2 − ( −1)) 1+ exp(2 − 1) 1+ exp(0 − ( −1)) 1+ exp(0 − 1) 1+ exp(( −2) − ( −1)) 1+ exp(( −2) − 1)
exp( x11(ξ 1 − σ 1)) exp( x12(ξ 1 − σ 2 )) exp( x 21(ξ 2 − σ 1)) exp( x 22(ξ 2 − σ 2 )) exp( x 31(ξ 3 − σ 1)) exp( x 32(ξ 3 − σ 2 ))
⋅
⋅
⋅
⋅
⋅
1+ exp(ξ 1 − σ 1) 1+ exp(ξ 1 − σ 2 ) 1+ exp(ξ 2 − σ 1) 1+ exp(ξ 2 − σ 2 ) 1+ exp(ξ 3 − σ 1) 1+ exp(ξ 3 − σ 2 )
exp( xvi(ξ v − σ i))
(vgl. 2.45)
1+ exp(ξ v − σ i)
Wahrscheinlichkeiten p(xvi) der Antworten xvi der Personen v auf die Items i
(unter der Bedingung der gewählten Parameter σ1 = –1, σ2 = 1, ξ1 = –2, ξ2 = 0 und
ξ3 = 2)
Item
1
2
Personen
1
0,269
0,047
2
0,731
0,731
3
0,047
0,269
6
Man erkennt, dass die gewählten Parameter zu hohen Wahrscheinlichkeiten für die
empirischen Daten führen, sodass davon ausgegangen werden kann, dass es sich
eher um passende Parameterschätzungen handelt.
Hätten wir hingegen für die besseren Probanden die schlechteren Personenparameter und umgekehrt gewählt, also ξ1 = –2, ξ2 = 0 und ξ3 = 2, so würden wir eine
Likelihood von L ≈ 0,00009 erhalten, die als Produkt folgender Wahrscheinlichkeiten
p(xvi) resultiert:
Wahrscheinlichkeiten p(xvi) der Antworten xvi der Personen v auf die Items i
(unter der Bedingung der gewählten Parameter σ1 = –1, σ2 = 1, ξ1 = 2, ξ2 = 0 und
ξ3 = –2)
Item
1
2
Personen
1
0,953
0,731
2
0,731
0,731
3
0,731
0,953
Wie man sieht, ist die Likelihood für die gesamte Datenmatrix mit L ≈ 0,259 verhältnismäßig hoch; sie resultiert aus dem Produkt der Wahrscheinlichkeiten p(xvi) für die
empirisch beobachteten Antworten xvi der Datenmatrix X unter der Bedingung der
gewählten Parameter σ1 = –1, σ2 = 1, ξ1 = 2, ξ2 = 0 und ξ3 = –2.
L ≈ 0,953 ⋅ 0,731 ⋅ 0,731 ⋅ 0,731 ⋅ 0,731 ⋅ 0,953 ≈ 0,259 .
L=
L=
v =1 i=1
L = p(X ) = ∏∏p( xvi) ; wobei p( xvi) =
n
Darüber hinaus stellen wir fest, dass Person 1 offensichtlich eine höhere Merkmalsausprägung als Person 2 und Person 3 aufweist. Deshalb wählen wir für Person
1 einen hohen Personenparameter (ξ1 = 2), für Person 2 einen mittleren (ξ2 = 0) und
für Person 3 einen niedrigen (ξ3 = –2).
Im dichotomen Rasch-Modell würde folgende Likelihood resultieren, die durch
Einsetzen der beobachteten Daten xvi und der gewählten Parameterschätzungen
(ξv, σi) in die Likelihoodfunktion L für die Datenmatrix X berechnet werden kann:
Kapitel 2 · Grundlagen diagnostischer Verfahren
Die Itemparameter werden üblicherweise nach der Conditional Maximum-Likelihood-Methode (CML-Methode) geschätzt, welche im Unterschied zur unbedingten
Maximum-Likelihood-Methode die Konsistenz der Schätzung nicht beeinträchtigt
(zum genaueren Verfahren s. Andersen, 1980, S. 245–249; Fischer, 1983, S. 624–628
oder Molenaar, 1995). Die mathematische Ableitung ist aufwendig und soll hier nicht
dargestellt werden; die rechnerische Durchführung erfordert Computerunterstützung,
z. B. in Form des Rechnerprogramms WINMIRA (Davier & Rost, o. J.). Dabei werden
die Itemparameter solange verändert, bis die bedingte Likelihood für die Datenmatrix
(. Tab. 2.2) ihr Maximum erreicht. Mit anderen Worten bedeutet dies, dass die Itemparameter so bestimmt werden, dass für die empirisch beobachtete Datenmatrix eine bestmögliche Anpassung resultiert. Eine ausführliche und gut nachvollziehbare Darstellung
der Maximum-Likelihood-Parameterschätzungen gibt Rost, 2004, S. 309-317).
Sind die Itemparameter bestimmt, so könnten bei Modellkonformität bereits die
Zeilensummenscores der Probanden Hinweise auf die Ausprägung der latenten Variablen liefern. »Da die Schätzwerte für die Personenparameter letztlich nur eine monotone Transformation der Trefferzahlen sind (je mehr Treffer, desto höher der geschätzte Personenparameter), ist im allgemeinen wohl nicht zu erwarten, dass sich an
den Korrelationen des Tests mit Außenkriterien viel ändert, wenn man die geschätzten
Personenparameter anstelle der Trefferzahl zur Vorhersage benutzt. Das zeigte sich z. B.
beim Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens
(MTP von Conrad, Baumann & Mohr, 1980), bei dem sowohl für die Trefferzahl als
auch für die geschätzten Personenparameter Kriteriumskorrelationen berechnet wurden. Die Unterschiede in den Korrelationen waren gering und unsystematisch.« (Stelzl,
! Diese vorteilhafte Eigenschaft des Rasch-Modells bedeutet, dass man Itemparameter
schätzen kann, ohne die Personenparameter zu kennen und ohne Annahmen über
deren Verteilung treffen zu müssen. Diese Eigenschaft wird auch als Stichprobenunabhängigkeit der Parameterschätzungen bezeichnet.
Nach Einsetzen der Modellgleichung in die Likelihoodfunktion (7 Beispiel) lässt sich
die Gleichung in der Weise umformen, dass die einzelnen Reaktionen der Personen auf
die Items zugunsten der Zeilen- und Spaltensummenscores der Datenmatrix verschwinden. (Eine genaue Ableitung liefert Rost, 1996, S. 129.) Bei Modellkonformität
hängt die Wahrscheinlichkeit der Daten also nicht davon ab, welche Personen welche
Items gelöst haben, sondern lediglich davon, wie oft ein Item gelöst wurde, bzw. wieviele Items eine Person lösen konnte.
Die Modelleigenschaften des Rasch-Modells ermöglichen als weiteren Vorteil die
Separierbarkeit der Parameter. Sie erlaubt es, eine Likelihoodfunktion zu spezifizieren, die nur mehr Itemparameter enthält, aber keine Personenparameter. (Eine genaue
Ableitung liefert Rost, 1996, S. 130–133.)
Man erkennt, dass ungünstige Parameter nun zu deutlich niedrigeren Wahrscheinlichkeiten für die empirischen Daten führen, woraus geschlossen werden kann, dass
es sich hier um unpassende Parameterschätzungen handelt.
Die Höhe der Likelihood variiert also in Abhängigkeit von den gewählten Parameterschätzungen. Sie erreicht das für eine gegebene Datenmatrix mögliche Maximum dann, wenn im Wege der Parameterschätzung optimale Werte für die Personen- und Itemparameter gefunden werden.
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Schätzung der
Personenparameter
Schätzung der
Itemparameter
Stichprobenunabhängigkeit
75
2
2
Graphischer Modelltest
Überprüfung der
Modellkonformität
Empirische Modelltests. Bevor mit einem nach dem Rasch-Modell konstruierten Test
psychodiagnostische Messungen vorgenommen werden, gilt es zu überprüfen, ob Modellkonformität vorliegt. Nur dann können nämlich die günstigen Eigenschaften des
Rasch-Modells – wie schon oben erwähnt – auch tatsächlich in Anspruch genommen
werden.
Diese Modellkonformität kann im Wege empirischer Modellkontrollen überprüft
werden. Das einfachste Vorgehen besteht darin, die postulierte Stichprobenunabhängigkeit zu hinterfragen und die Probandenstichprobe nach einem relevanten Kriterium (z. B.
Alter, Geschlecht, Sozialisation, etc., oder nach dem untersuchten Persönlichkeitsmerkmal selbst, vgl. dazu aber auch den Abschn. »Mixed-Rasch-Modell«) in zwei oder mehrere Substichproben zu unterteilen und in jeder der Substichproben getrennte Itemparameterschätzungen vorzunehmen. Auf diese Weise gewinnt man jeweils zwei Werte für σi,
welche bei Modellkonformität nicht bzw. nur zufällig voneinander abweichen sollen.
Einen ersten Überblick verschafft man sich mit dem graphischen Modelltest, bei
dem die beiden Itemparameterschätzungen in einem bivariaten Streuungsdiagramm
gegeneinander abgetragen werden (s. Lord, 1980, S. 37). Je näher die Itemparameter
an der Hauptdiagonalen zu liegen kommen, desto größer ist die Stichprobenunabhängigkeit und desto eindeutiger die Rasch-Homogenität. Systematische Abweichungen
würden hingegen Hinweise liefern auf modellinkonforme Wechselwirkungen zwischen der Itemschwierigkeit und jenem Kriterium, nach welchem die Stichprobe geteilt worden war. Ein gelungenes Beispiel zeigt . Abb. 2.13.
1993, S. 150). Dies macht deutlich, dass nicht für jede Person ein eigener, sondern für
alle Personen mit demselben Zeilensummenscore ein gemeinsamer Schätzwert für den
Personenparameter bestimmt werden kann, welcher in der Testpraxis aus einer Tabelle
abgelesen wird. Für die Zeilensummenscores verbliebe allerdings der Nachteil, dass sie
nicht direkt mit den Schwierigkeitsparametern auf einer gemeinsamen Skala verglichen
werden könnten.
Zur Bestimmung der Personenparameter werden deshalb den jeweiligen Zeilensummenscores mit Hilfe der Maximum-Likelihood-Schätzung diejenigen Werte von ξ
zugeordnet, für welche das beobachtete Reaktionsverhalten auf die Items am wahrscheinlichsten ist (vgl. Steyer & Eid, 1993, S. 276–278). Bei Personen, die kein Item
gelöst haben, weil der Test für sie zu schwierig war (Zeilensummenscore 0), und ebenso bei Personen, die alle Items gelöst haben, weil der Test für sie zu einfach war (Zeilensummenscore k bei k Items), sind die Personenparameter nicht genau bestimmbar, weil
sie gegen –∞ bzw. +∞ tendieren. Ihnen können aber im Wege bestimmter Normierungen (s. Rost, 1996, S. 307–308, Weighted- ML-Methode) entsprechende Parameter zugewiesen werden.
Die Modellgleichung des Rasch-Modells ist eindeutig bis auf positiv-lineare
Transformationen. Daraus ergibt sich für die gemeinsame Skala von ξ und σ und somit
auch für die latente Variable ξ die Dignität einer Intervallskala (vgl. Fischer, 1996, S. 686)
mit frei wählbarem Nullpunkt. Die Itemparameter werden in der Regel auf den Mittelwert Null normiert, wodurch negative Werte von σ leichte Items charakterisieren, positive Werte hingegen schwierige Items. Mit der Normierung der Itemparameter liegt
auch die Skala der Personenparameter fest. Negative Personenparameter zeigen an, dass
die Probanden im untersuchten Aufgabenbereich geringe Merkmalsausprägungen aufweisen, positive Personenparameter sprechen für hohe Merkmalsausprägungen. Die
Parameterwerte auf der gemeinsamen Skala fallen in der Regel im Intervall zwischen
–3 und +3 an.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Intervallskalierung
76
auch darauf zurückzuführen sein, dass einzelne Probanden auf die Testitems nicht in
angemessener Weise reagieren, sondern vielmehr untypische Bearbeitungsstile zeigen:
Akquieszenz, Schwindeln, Raten, soziale Desirabilität und arbiträres Verhalten wären
hier als Gründe ebenso aufzuführen wie Sprachschwierigkeiten und mangelndes oder
unterschiedliches Instruktionsverständnis. Solche Personen mit abweichenden Verhaltensstilen, welche möglichst auch transsituativ durch andere Testskalen abgesichert sein
sollten, müssen gegebenenfalls ausgesondert werden, um die Personenstichprobe hinsichtlich ihres Bearbeitungsstiles zu homogenisieren.
Eine solche Personenselektion macht sich die Tatsache zunutze, dass sich inadäquate Bearbeitungsstile in auffälligen Antwortmustern (»aberrant response patterns«)
manifestieren können, denen unter Modellgültigkeit nur eine sehr geringe Auftretens-
Personenselektion. Mängel eines Tests hinsichtlich der Modellkonformität können
Will man sich nicht mit der graphischen Kontrolle begnügen, sondern die Modellkonformität numerisch fassen, so wird häufig der Likelihood-Quotienten-Test von
Andersen (1973) eingesetzt, welcher für beide Teilstichproben CML-Schätzungen
durchführt und diese mittels Signifikanztest auf Unterschiedlichkeit prüft, wobei das
Beibehalten der Nullhypothese für, das Verwerfen gegen die Modellkonformität spricht.
Sofern Differenzen nur bei einzelnen Items auftreten, kann nach Aussonderung oder
Überarbeitung abermals überprüft werden, ob nunmehr Modellkonformität vorliegt.
Dazu sollten möglichst neue Daten herangezogen werden. (Über weitere Optimierungsmöglichkeiten durch Itemselektion wie auch über »item-fit-Indices« s. Rost, 1996,
S. 363–380.)
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Personenselektion
LikelihoodQuotienten-Tests
. Abb. 2.13. Graphischer
Modelltest: Gegenüberstellung der nach dem RaschModell geschätzten Itemparameter der Testskala »Alltagswissen« aus dem
Adaptiven Intelligenz
Diagnostikum (AID; Kubinger & Wurst, 1991), einerseits für Kinder aus Deutschland und der Schweiz (Abszisse, Stichprobe 1),
andererseits für Kinder aus
Österreich (Ordinate, Stichprobe 2). (Nach Kubinger,
1995, S. 70)
77
2
Informationsfunktion. Die Unabhängigkeit der Personenvergleiche von den verwendeten Items macht deutlich, dass grundsätzlich alle Items eines homogenen Itempools
zur Erfassung der verschiedenen Merkmalsausprägungen geeignet sind; dennoch darf
aber nicht der Eindruck entstehen, dass folglich jedes Item gleich viel Information über
die Merkmalsausprägungen verschiedener Personen zu liefern vermag. Vielmehr macht
die logistische IC-Funktion (. Abb. 2.11) deutlich, dass die Lösungswahrscheinlichkeit
p(xvi = 1) ihren stärksten Zuwachs gerade dann aufweist, wenn die Itemschwierigkeit σi
mit der Merkmalsausprägung ξv übereinstimmt. Will man also mit einem bestimmten
Item Vergleiche zwischen zwei Personen mit der Merkmalsdifferenz δ vornehmen, so
In Umkehrung dieser Überlegung sind aber auch Vergleiche zwischen Personen spezifisch objektiv: Die Unterschiede zwischen den Personenparametern (ξv – ξw) können
unabhängig von den verwendeten Items festgestellt werden.
! Dieser Aspekt ermöglicht die sogenannte spezifische Objektivität der Vergleiche,
welche bedeutet, dass der Schwierigkeitsunterschied zweier Items (σi – σj) unabhängig davon festgestellt werden kann, ob Personen mit niedrigen oder hohen Merkmalsausprägungen ξ untersucht wurden (. Abb. 2.15).
und lediglich entlang der ξ-Achse parallel verschoben sind.
Spezifische Objektivität. Nach erfolgreicher Überprüfung der Modellkonformität kann davon ausgegangen werden, dass die IC-Funktionen aller Items die gleiche Form aufweisen
wahrscheinlichkeit zukommt. Ein deutlich abweichendes Antwortmuster läge beispielweise vor, wenn eine Person die meisten leichten Items eines Tests verneint, die meisten
der schwierigen Items aber bejaht. Die beiden Itemgruppen würden für ein- und dieselbe Person dann zu sehr unterschiedlichen Schlussfolgerungen hinsichtlich der latenten Fähigkeit führen, denn die Reaktionen auf die leichten Items würden eine sehr
niedrige, die Reaktionen auf die schwierigen Items hingegen eine sehr hohe Merkmalsausprägung nahelegen.
Bei der Testanwendung sollte im diagnostischen Einzelfall stets geprüft werden, ob
sich der einzelne Proband »modellkonform« verhalten hat oder nicht. Dazu wurden
»person-fit-indices« (auch »caution-indices«) entwickelt, welche auf der Basis der Antwortmuster eine Beurteilung erlauben, ob es sich um plausible oder um unplausible
Testergebnisse handelt. Während etliche Verfahren aus verschiedenen Gründen nur
eingeschränkt empfohlen werden können (s. Fischer, 1996, S. 692), erweisen sich die
auf der Likelihoodfunktion basierenden Ansätze von Molenaar und Hoijtink (1990),
Tarnai und Rost (1990) sowie von Klauer (1991) als wissenschaftlich gut fundiert. Fällt
ein »person-fit-index« zu ungünstig aus, so ist bei dem jeweiligen Testergebnis Vorsicht
angezeigt; die Testinterpretation sollte dann entweder unterlassen oder nur mit entsprechender Umsicht vorgenommen werden. (Für weitere Informationen zu »person-fitindices« s. Klauer, 1995, für Optimierungsmöglichkeiten durch Personenselektion
s. Rost, 1996, S. 381–389.)
Anstelle einer vorschnellen Personenselektion sollte aber auch überlegt werden, ob
das modellinkonforme Verhalten eine relevante Information im Sinne der differentiellen Psychologie darstellt. So können gerade niedrige »person-fit-indices« ein Hinweis
dafür sein, dass man es mit Probanden zu tun hat, deren Arbeitsstil anders ist als jener
der Mehrheit. Diese Überlegung findet beispielsweise in der Sportpsychologie Anwendung zur Identifikation von Personen, welche über die Gabe verfügen, ihre Leistung
unter Belastung zu steigern (. Abb. 2.14, s. z. B. Guttmann & Etlinger, 1991).
Kapitel 2 · Grundlagen diagnostischer Verfahren
»Person-fit-indices«
78
sind nur dann deutliche Unterschiede in der Lösungswahrscheinlichkeit p(xvi = 1) zu
erwarten, wenn die Fähigkeiten im Bereich der Itemschwierigkeit liegen. Weichen hingegen die Fähigkeiten von der Itemschwierigkeit deutlich ab, so fallen die Unterschiede
im Lösungsverhalten viel geringer aus, wie . Abb. 2.16 zeigt.
Untersucht man die Unterschiede im Lösungsverhalten systematisch für immer
kleiner werdende Merkmalsdifferenzen, so erhält man als Grenzfall den Differentialquotienten, welcher die Steigung der IC-Funktion angibt. Die Steigung, die beim dichotomen Rasch-Modell als Iteminformationsfunktion bezeichnet werden kann, variiert
mit der Differenz zwischen Fähigkeit und Itemschwierigkeit (. Abb. 2.16).
Wie man sieht, erreicht die Iteminformationsfunktion bei ξv = σi ihr Maximum und
fällt nach beiden Seiten mit zunehmender Differenz zwischen ξv und σi zunächst lang-
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Iteminformationsfunktion
. Abb. 2.15. IC-Funktionen
zweier Rasch-homogener
Items mit den Schwierigkeitsparametern σ1 = 0
und σ2 = 2. Die Differenz
δ = |σ1 – σ2| ist unabhängig
von ξ feststellbar. (Nach
Steyer & Eid, 1993, S. 222)
. Abb. 2.14. Einige Menschen zeigen einen »untypischen« Verhaltensstil,
indem sie ihre Leistung
unter Belastung steigern
können
79
2
(2.49)
(2.50)
(2.51)
Die Testgenauigkeit wird um so größer, je höher die Testinformation I ausfällt. Diese
kann sowohl durch Vermehrung der Itemanzahl oder/und durch Vergrößerung der
einzelnen additiven Iteminformationsbeträge Ii gesteigert werden.
1.96
1.96
ξ˘v −
≤ ξ v ≤ ξ˘v +
I
I
Mit Hilfe der Gesamtinformation I kann die Genauigkeit der Personenparameterschätzung ξv als asymptotisches 95%-Konfidenzintervall kalkuliert werden (vgl. Fischer,
1983, S. 609):
i =1
I = ∑ Ii
k
(vgl. Fischer, 1974, S. 295) und entspricht für die jeweilige Merkmalsausprägung ξv dem
Produkt aus bedingter Lösungs- und Nichtlösungswahrscheinlichkeit des Items.
Für einen aus k Items bestehenden Test lässt sich – infolge der lokalen stochastischen
Unabhängigkeit (7 oben) additiv – die Testgesamtinformation I als Summe der einzelnen Item-Informationsbeträge berechnen:
Ii =
exp(ξ v -σ i )
(1 + exp(ξ v -σ i ))2
= p(x vi = 1|ξ v ) ⋅ p(x vi = 0|ξ v )
sam, dann beschleunigt und wieder verlangsamt asymptotisch gegen Null ab. Die numerische Ausprägung Ii der Iteminformationsfunktion eines bestimmten Items i ist
festgelegt durch
. Abb. 2.16. Lösungswahrscheinlichkeit p(xvi = 1) und Informationsfunktion Ii eines Rasch-homogenen Items mit der Itemschwierigkeit σi in Abhängigkeit von ξv. Im Fall a (links) führt die Fähigkeitsdifferenz δ =| ξ1– ξ2| zu großen Unterschieden in der Lösungswahrscheinlichkeit, im Fall b (rechts)
hingegen zu geringen Unterschieden. Die Iteminformationsfunktion variiert mit dem Grad der
Übereinstimmung zwischen Schwierigkeit und Fähigkeit
Kapitel 2 · Grundlagen diagnostischer Verfahren
Testgesamtinformation
und Konfidenzintervall
für ξv
80
wert, über einen großen Itempool mit entsprechend breit gestreuten Schwierigkeitsparametern zu verfügen. Werden alle diese Items beim jeweiligen Probanden zur Anwendung gebracht, so geht damit eine entsprechend lange Testdauer einher (. Abb. 2.17).
Vergegenwärtigt man sich aber, dass nur solche Items, deren Schwierigkeit mit der
Fähigkeit des Probanden hinreichend übereinstimmen, wesentlich zur Testgesamtinformation beitragen, die anderen Items hingegen nicht, so wird deutlich, dass alle jene
Items, welche für den betreffenden Probanden allzu schwierig oder auch allzu leicht
sind, fast keine Information liefern, weshalb sie bei der Testvorgabe einfach weggelassen werden könnten, ohne die Testgenauigkeit beträchtlich zu verringern.
Genau diese Idee macht sich das adaptive Testen zu eigen: Zur Steigerung der Testökonomie werden bei den einzelnen Probanden nur diejenigen Testitems zur Anwendung gebracht, welche für das Fähigkeitsniveau des einzelnen Probanden eine hohe
Messgenauigkeit (Iteminformation) aufweisen. Auf die anderen Items wird hingegen
verzichtet. Solche adaptiven Strategien erfordern einen IRT-homogenen Itempool und
können entweder manuell mit Hilfe geeigneter Verzweigungen (»branched testing«) in
Paper-pencil-Tests (z. B. Adaptives Intelligenz Diagnostikum AID, Kubinger & Wurst,
1991) oder auch durch »Hochrechnen« des individuellen Personenparameterwertes
nach entsprechend maßgeschneiderter Auswahl der Itemschwierigkeit (»tailored testing«) in computerbasierten Testverfahren (z. B. Frankfurter Adaptiver Konzentrationsleistungs-Test FAKT, Moosbrugger & Heyden, 1997) realisiert werden. Näheres
zum adaptiven Testen siehe z. B. in Fischer (1983), Kubinger (1987, 1996), Kisser (1992)
oder Stelzl (1993).
Adaptives Testen. Um eine genaue Bestimmung der Personenparameter in allen Bereichen
der latenten Merkmalsausprägungen vornehmen zu können, ist es gut und wünschens-
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Adaptives Testen
. Abb. 2.17. Beim adaptiven Testen wird die Auswahl
der Testitems dem Fähigkeitsniveau der Probanden
angepasst
81
2
Veränderungsmessung
Als erfolgreiche Testkonstruktionen bzw. Modellüberprüfungen von Rasch-Modellen
können (ohne Anspruch auf Vollständigkeit oder Repräsentativität) folgende Entwicklungen genannt werden:
4 Gesellschaftspolitische Einstellungsskalen von Wakenhut (1974);
4 Wiener Matrizen-Test (WMT) von Formann und Piswanger (1979);
Gelungene Testkonstruktionen
werden. Ein so spezifiziertes linear-logistisches Modell kann wegen der geringeren Parameteranzahl nur gültig sein, wenn als notwendige (aber nicht hinreichende) Bedingung
auch für das zugehörige logistische IRT-Modell ohne die lineare Zerlegung Modellkonformität besteht. In formaler Hinsicht sind linear-logistische Modelle also Spezialfälle
von IRT-Modellen. Sie zwingen zu einer gründlichen Analyse der Struktur von Testaufgaben und sind daher besonders für Konstruktvalidierungen bedeutsam.
Scheiblechner (1972) und Fischer (1973, 1995b) haben das dichotome Rasch-Modell zum linear-logistischen Testmodell (LLTM) erweitert, indem sie die Schwierigkeitsparameter als Linearkombination von Basisparametern darstellen. Als Anwendungsbeispiel für das LLTM sei ein Test zur Messung des räumlichen Vorstellungsvermögens von Gittler (1990) angeführt, der das Prinzip der aus dem IST 70 bekannten
Würfelaufgaben (Amthauer, 1970) aufgreift und diese verbessert. Als relevante Strukturmerkmale erwiesen sich hier unter anderem die Anzahl der (mentalen) Dreh- oder
Kippbewegungen, Symmetrieeigenschaften der Muster auf den Würfelflächen und die
Position des Lösungswürfels im Multiple-choice-Antwortformat. Zusätzlich spielt der
Lernzuwachs während des Tests eine Rolle, was insbesondere beim adaptiven Testen
zu beachten ist (Fischer, 1983; Gittler & Wild, 1988).
Die Zerlegung der Itemparameter in eine Linearkombination von Basisparametern
ist auch bei erweiterten Rasch-Modellen sowie bei Latent-Class-Modellen möglich. Das
lineare Ratingskalenmodell (Fischer & Parzer, 1991) und das lineare Partial-creditModell (Glas & Verhelst, 1989; Fischer & Ponocny, 1995) basieren auf entsprechenden
ordinalen Rasch-Modellen. Bei der linear-logistischen LCA für dichotome Items
(Formann, 1984) werden die Itemparameter, nämlich die klassenspezifischen Lösungswahrscheinlichkeiten, erst nach einer logistischen Transformation zerlegt, um
der Beschränkung auf den Wertebereich zwischen Null und Eins zu entgehen. Der Fall
polytomer Items wird z. B. von Formann (1993) behandelt.
Linear-logistische Modelle sind insgesamt flexibler, als hier dargestellt werden
kann. Insbesondere sind sie auch im Fall mehrerer Messzeitpunkte einsetzbar, sodass sich im Rahmen der IRT auch Fragestellungen der Veränderungsmessung untersuchen lassen (z. B. Fischer, 1974, 1995a; Fischer & Ponocny, 1995). Dabei ist
es nötig, zunächst zwischen verschiedenen Arten von Veränderungshypothesen zu
unterscheiden (Rost & Spada, 1983; Rost, 1996). Geht es beispielsweise um den Nachweis »globaler« Veränderungen aufgrund einer pädagogischen oder therapeutischen
Intervention, so stellt dies insofern eine strenge Form einer Veränderungshypothese
dar, als für alle Personen und bei allen Items (Verhaltensmerkmalen, Symptomen)
der gleiche Effekt erwartet wird. Da hierdurch der differenziell-psychologische Aspekt
in den Hintergrund tritt, erscheint die Forderung nach »spezifisch objektiven Vergleichen« zwischen Personen in einem solchen Fall entbehrlich. Hier kann das von
Fischer (z. B. 1983, 1995a) vorgeschlagene »linear logistic model with relaxed
assumptions« (LLRA) eingesetzt werden, welches ohne die für Rasch-Modelle charakteristische Annahme der Eindimensionalität bzw. Homogenität der Items auskommt.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Linear-logistisches
Testmodell
86
Die klassische Testtheorie wird heute von der Item-Response-Theorie mehr und
mehr überholt. Konnte die klassische Testtheorie als Messfehlertheorie im wesentlichen Antworten zur Reliabilität von Messungen liefern, so stellt die IRT die explizite
Beziehung zwischen dem Antwortverhalten von Personen und den dahinterliegenden latenten Merkmalen her. Die Separierbarkeit von Item- und Personenparametern ermöglicht die empirische Überprüfung der Skalierbarkeit, der Eindimensionalität sowie der Item- und der Personenhomogenität. Insbesondere das Konzept der
spezifischen Objektivität der Vergleiche sensu Rasch trägt wesentlich zum Verständnis psychodiagnostischer Messungen bei und liefert die methodische Grundlage für
das adaptive Testen, welches vor allem in computerbasierter Form auch experimentelle Psychodiagnostik ermöglicht. Durch die besondere Eignung zur Veränderungsmessung wie auch durch den linear-logistischen Modellansatz stellen moderne IRTModelle schließlich einen Brückenschlag von der diagnostischen Psychologie zur
allgemeinen Psychologie her. Auch differentielle Aspekte der Psychodiagnostik können mit Hilfe von Mixed-Rasch-Modellen untersucht werden.
Fazit
Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens
(MTP) von Conrad, Baumann und Mohr (1980);
Psychosomatischer Einstellungs-Fragebogen (PEF) von Hehl und Wirsching
(1983);
Loneliness-Skala von Dejong-Gierveld und Kamphuis (1985);
Dreidimensionaler Würfeltest (3DW) von Gittler (1990);
Adaptives Intelligenz Diagnostikum (AID) von Kubinger und Wurst (1991);
Freiburger Beschwerden-Liste (FBL-K) von Piel, Hautzinger und ScherbarthRoschmann (1991);
Wortschatztest (WST) von Schmidt und Metzler (1992);
Mehrfachwahl-Wortschatztests (WMT) von Metzler und Schmidt (1992);
Begriffs-Bildungs-Test (BBT) von Kubinger, Fischer und Schuhfried (1993);
Frankfurter Adaptiver Konzentrationsleistungs-Test (FAKT) von Moosbrugger und
Heyden (1997).
Die testtheoretischen Grundlagen von IRT-Modellen sind ausführlich bei Fischer
(1974, 1983 und 1996) sowie Rost (1988, 1996) abgehandelt. Prozessuale Aspekte stehen bei Scheiblechner (1996) im Vordergrund. Die Verbindung zur Messtheorie wird
insbesondere von Steyer und Eid (1993) hergestellt. Ein Handbuch zur IRT haben van
der Linden und Hambleton (1996) herausgegeben. Über die Weiterentwicklung von
IRT-Modellen für diskrete und kontinuierliche Ratingskalen informiert Müller
(1997).
Verschiedene Anwendungen von IRT-Modellen sind bei Fischer (1978), Kubinger
(1988), Rost und Strauß (1992), Fischer und Molenaar (1995) oder Rost und Langeheine (1996) aufgeführt.
Weiterführende Literatur
4
4
4
4
4
4
4
4
4
4
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
87
2
Grundlagen kriteriumsorientierter Tests
2.1.3.2
Die Setzung sachgerechter Normen
Kriterien im Sinne unserer Definition sind Normwerte, die von den zu untersuchenden
Personen erreicht werden sollen. Sie können Lehrplänen entstammen, wie die Lehrziele für ein Fach einer bestimmten Klassenstufe, von Behörden festgesetzt werden, wie
bei der theoretischen Führerscheinprüfung, oder als Therapieziele zwischen Klient und
Therapeut vereinbart werden. Immer stellt sich die Frage nach ihrer sachlichen Rechtfertigung wie nach ihrer Realitätsangemessenheit.
Sachlich gerechtfertigt erscheinen Kriterien, die nachweislich zur Erreichung nachfolgender Kriterien erforderlich sind (. Abb. 2.20). Das trifft für curriculare Normen
zumindest teilweise zu, desgleichen auch für die theoretische Führerscheinprüfung, die
2.1.3.1
Die Generierung inhaltsvalider Itemmengen
Diese Prozedur ist innerhalb der klassischen Testtheorie nicht neu und nach Lienert
(1967a) unproblematisch, wenn, wie bei Kenntnistests oder Verhaltensinventaren, die
Testaufgaben selbst das bestmögliche Kriterium darstellen. Eine Sammlung derartiger
Aufgaben ist logischerweise valide. Bei weniger eindeutigen Beziehungen zwischen
Aufgaben und Kriterium können Experten bei der Klassifikation zu Rate gezogen
werden. Am eindeutigsten bestimmbar ist die Inhaltsvalidität von Itemsammlungen,
die das Universum der Kriteriumsleistungen umfassen. Diese Grundmenge ist z. B. bei
einem Rechentest, der die Addition der Mengen 1-4 im Zahlenraum bis 10 überprüfen
soll, vollständig zu erfassen. Ist das Universum der Kriteriumsleistungen jedoch größer, muss dafür gesorgt werden, dass die ausgewählten Aufgaben eine repräsentative
Stichprobe der Grundmenge darstellen. Diese ist am leichtesten durch Zufallsauswahl
zu ermitteln. Bei heterogenen Grundmengen empfiehlt sich die Aufgliederung in homogene Teilmengen, aus denen dann Zufallsstichproben zu ziehen wären. Weitere
Details zur systematischen Gewinnung inhaltsvalider Itemmengen berichtet Klauer
(1987).
Nichtkönner.
4 die Generierung inhaltsvalider Itemmengen,
4 die Setzung sachgerechter Kriterien (Normwerte),
4 die zufallskritische Zuordnung einer Person in die Klassen der Könner oder
Probleme kriteriumsorientierter Tests:
Mit dieser Definition sind mehrere Aufgaben- und Problemgebiete dieser Verfahren
angeschnitten, mit denen sich die folgenden Abschnitte befassen.
Kriteriumsorientierte Tests sind inhaltsvalide Testverfahren, die nicht die Position
einer Person in Relation zu einer Vergleichsnorm, sondern das Erreichen oder Verfehlen eines konkreten Kriteriums ermitteln wollen.
Definition
Kriteriumsorientierte Tests unterscheiden sich von Tests auf der Grundlage der klassischen wie der probabilistischen Testtheorie.
2.1.3
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Sachliche
Rechtfertigung
Kriterien als
Normwerte
Testaufgaben als repräsentative Stichproben
Testaufgaben als bestmögliches Kriterium
Probleme kriteriumsorientierter Tests
89
2
Expertenurteil vs.
Irrtumsgrad
Trennwerte zur
Klassifikation
Realitätsangemessenheit
2.1.3.3 Die Ermittlung zufallskritischer Trennwerte
Zur Unterscheidung erfolgreicher von nicht erfolgreichen Testpersonen bedarf es der
Festsetzung von Trennwerten, die eine zufallsunabhängige Klassifikation erlauben.
Grundsätzlich ist nach Klauer (1987) davon auszugehen, dass Könner praktisch keine
Fehler in der prüfungsrelevanten Kriterienklasse machen. Da zufällig begangene Irrtümer aber nicht auszuschließen sind, ist eine 100%ige Trefferquote ein zu hartes Kriterium. Die sich hieraus ergebende Frage ist, wie viele Aufgaben eine Person lösen muss,
um unter Berücksichtigung von Zufallseinflüssen als Könner eingestuft zu werden.
Eine Lösungsmöglichkeit besteht in der Einschaltung von Experten, die den Trennwert festlegen. Ihre Erfahrung ist jedoch nur ein Ersatz für empirische Untersuchungen,
die z. B. prüfen könnten, welchen Kompetenzgrad eine instruierte Gruppe gegenüber
einer Kontrollgruppe erreicht. Die einfachste Lösung besteht nach Klauer (1987) darin,
einen bestimmten Irrtumsgrad analog den klassischen Irrtumswahrscheinlichkeiten
von 5 oder 10% zuzugestehen, sodass derjenige als kompetent gelten kann, der 95 oder
90% der gestellten Aufgaben löst. Eine solche einfache Setzung ist nicht artifizieller als
die in der klassischen Testtheorie übliche, doch lässt sie die Tatsache außer acht, dass die
Reliabilität eines Tests mit seiner Länge variiert.
notwendige Kenntnisse für das richtige Verhalten im Straßenverkehr abfragen soll. Frei
vereinbarte Therapieziele erhalten ihre sachliche Rechtfertigung dagegen aus dem persönlichen Wunsch des Klienten nach Veränderung bzw. Verbesserung.
Die Frage der Realitätsangemessenheit betrifft das Problem der Schwierigkeit der
Anforderungen. So sind kriteriale Anforderungen, denen Schüler der Gymnasien der
50er und 60er Jahre gewachsen waren, für die heutigen Massengymnasien sicher zu
hoch angesetzt und müssen nach unten korrigiert werden. Andererseits sind die Anforderungen im Straßenverkehr oder beispielsweise des Medizinerberufs heute sicher
höher einzuschätzen und erfordern schärfere Prüfkriterien, sodass die Realitätsangemessenheit von Kriterien immer aufs Neue überprüft und ggf. korrigiert werden muss.
Bei Therapiezielen ist es Aufgabe des Therapeuten, dafür zu sorgen, dass der Klient sich
keine unrealistischen Ziele setzt, selbst wenn seine Bezugsgruppe ihm diese nahelegt.
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.20. Die Setzung
einer »sachgerechten« Promille-Grenze gegen Alkohol
im Straßenverkehr wird
auch von der öffentlichen
Meinung stark beeinflusst
90
9
10
11
Einen Ausweg weist das von Klauer (1972) entwickelte Einfehlermodell auf der Grundlage der Binomialverteilung. Es stellt für variable Aufgabenmengen tabellierte Vertrauensgrenzen für unterschiedliche Kompetenzgrade und Irrtumswahrscheinlichkeiten bereit und ermöglicht so die Ermittlung desjenigen Trennwertes, von dem an nicht
mehr ausgeschlossen werden kann, dass die getestete Person zur Gruppe der Könner
gehört (. Tab. 2.3; s. a. Kleber, 1979).
Die Anwendung des Binomialmodells ist jedoch an das Vorliegen bestimmter Bedingungen geknüpft. Es lässt nur binäre Ereignisse zu, fordert die stochastische Unabhängigkeit der einzelnen Aufgabenlösungen und setzt die Gleichwahrscheinlichkeit
der binären Ereignisse voraus. Von diesen 3 Bedingungen ist die erste durch die Beschränkung auf richtige und falsche Antworten am leichtesten zu erfüllen. Stochastische Unabhängigkeit setzt voraus, dass die Lösungswahrscheinlichkeiten einzelner
Aufgaben von denen anderer Aufgaben unabhängig sind. Sie verbietet Sequenzen
aufeinander bezogener Teilaufgaben, ist aber auch durch externe Faktoren wie Ermüdung durch lange Testreihen oder Feedback auf vorausgegangene Aufgabenlösungen
zu verletzen. Die 3. Bedingung erfordert entweder die Verwendung gleich schwieriger
Items oder Zufallsstichproben von Items für jede einzelne Testperson (Klauer, 1987).
Bei eng umgrenzten Kriterienbereichen ist es i. Allg. leichter, diese Voraussetzung
zu erfüllen. Sind größere Schwierigkeitsdifferenzen nicht zu vermeiden, böte sich
zumindest bei computergesteuertem Testen die Möglichkeit zur Zufallsauswahl von
Testitems.
Die Reliabilität von Binomialtests mit Items vergleichbarer Schwierigkeit lässt sich
nach der Kuder-Richardson-Formel 21 aus der Kenntnis von Mittelwert, Streuung und
Itemanzahl ermitteln (Lienert, 1989). Durch Umformung kann aus dieser Formel errechnet werden, wie viele Items ein Test haben muss, um eine vorgegebene Reliabilität
zu erreichen.
Anstelle der so erfassten inneren Konsistenz eines kriterienorientierten Tests ist
nach Meinung verschiedener Autoren die Stabilität der Klassifikation in Könner und
Während bei 9 und 10 Aufgabenlösungen die oberen Vertrauensgrenzen das
Zielkriterium unterschreiten, kann bei 11 Lösungen nicht mehr ausgeschlossen werden, dass der wahre Wert der Testperson bei einer Irrtumswahrscheinlichkeit von 5%
nicht über dem definierten Zielkriterium von 90% liegt. Die Lösungsmenge 11 ist
damit die Mindestzahl von Lösungen, die ein Könner erreicht haben sollte.
Vertrauensbereich in % bei 5% Irrtumswahrscheinlichkeit
32,3 – 86,7
38,4 – 88,2
44,9 – 92,2
Anzahl
. Tabelle 2.3. Aus den bei Klauer (1987) und Kleber (1979) abgedruckten Binomialtabellen
(hier ein Ausschnitt) lässt sich für jede Lösungsmenge der zugehörige Vertrauensbereich
ablesen
Angenommen, ein kriteriumsorientierter Test habe 15 Aufgaben und das Zielkriterium betrage, da 100%ige Lösungen unwahrscheinlich sind, 90%.
Beispiel
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Reliabilität von
Binomialtests
Bedingungen für das
Binomialmodell
91
2
2
Informelle kriteriumsorientierte Tests
Binomialmodelle
derzeit am besten
geeignet
Koeffizient übereinstimmender
Klassifikation
Eine kurze, aber gut lesbare Einführung zum Thema findet sich bei Kleber (1979).
Umfangreicher sind die Arbeiten von Klauer et al. (1972) und Fricke (1974). Das Lehr-
Weiterführende Literatur
2.1.3.4 Weitere Probleme kriteriumsorientierter Tests
Die bei den klassischen Methoden zur Ermittlung der Reliabilität übliche Korrelationsrechnung kann bei kriteriumsorientierten Tests dann versagen, wenn nahezu alle Personen das Kriterium erreichen und damit als Könner klassifiziert werden. Die Varianzen der Testwerte tendieren dann gegen Null und als Folge davon auch die varianzabhängigen Korrelationskoeffizienten. Dieser theoretisch mögliche und idealtypisch erwünschte Fall ist in der Praxis allerdings äußerst selten. Um ihm zu begegnen, hat Fricke
(1972) einen Koeffizienten entwickelt, der die Zahl der übereinstimmenden Klassifikationen einfach in Relation zu der Zahl der Entscheidungen setzt.
Kritik an Unzulänglichkeiten dieses Koeffizienten hat zur Entwicklung weiterer
Verfahren geführt, über die Klauer (1987) ausführlich informiert. Auch das einfache
Binomialmodell von Klauer wurde inzwischen modifiziert. Weiterentwicklungen wie
das Betabinomialmodell, Latent-class-Modelle oder Item-response-Modelle sind entweder mit hohem Zeitaufwand oder anderen Nachteilen verbunden oder in ihrer Entwicklung noch nicht weit genug gediehen, so dass sie für die praktische Arbeit noch
nicht in Frage kommen, wie Klauer (1987) meint. Binomialmodelle scheinen deshalb
wegen ihrer einfachen Handhabbarkeit derzeit für die Praxis am besten geeignet.
Der Aufwand bei der Testkonstruktion könnte nämlich ein Grund dafür sein, dass
nach 20jähriger Diskussion noch kein kriteriumsorientierter Test auf dem deutschen Testmarkt ist, der nach den aktuellen Regeln der Kunst entwickelt wurde. Ein weiterer Grund
hierfür könnte auch in der Enge der Kriteriumsbereiche zu suchen sein, die eine solche
Vielzahl von Testentwicklungen erfordert, dass für Testverlage der Aufwand in keinem
vernünftigen Verhältnis zum erwarteten Absatz steht. Für diese Interpretation spricht,
dass inzwischen zahlreiche informelle kriteriumsorientierte Tests als integrale Bestandteile schulischer Unterrichtswerke existieren (Kleber, 1979), über deren Konstruktionsprinzipien jedoch wenig bekannt ist. Zugleich benutzen Lehrer immer häufiger selbst erstellte Lernzielkontrollen, die durchaus als kriteriumsorientierte Lehrzieltests einzustufen
wären, wenn sie den diskutierten Konstruktionsprinzipien genügen würden.
Einem großen Bedarf an derartigen Verfahren steht derzeit kein entsprechendes
professionelles Angebot gegenüber. Es ist vielmehr zu befürchten, dass die steigenden
theoretischen Ansprüche an die Güte kriteriumsorientierter Tests dazu führen, dass
auch in Zukunft niemand die mit einer anspruchsvollen Testkonstruktion verbundenen
Mühen auf sich nehmen wird. Eine Lösung dieses Problems könnte in der Bereitstellung einfacher Faustformeln und Anweisungen zur fachgerechten Erstellung kriteriumsorientierter informeller Tests bestehen, wie dies Klauer (1972) bereits versucht hat.
Hier wird einem Lehrer z. B. auch mitgeteilt, wie er die Ergebnisse mehrerer lehrzielorientierter Tests nicht nur zur Lernzielkontrolle verwenden, sondern auch zur Berechnung der geforderten Benotung heranziehen kann.
Nichtkönner der angemessenere Reliabilitätskennwert. Sie kann mittels paralleler Verfahren, durch einfache Retestung sowie mit Hilfe der Testhalbierungsmethode geprüft
werden. Da Paralleltests nicht einfach zu erstellen sind und Testwiederholungen gerade
im pädagogischen Bereich leicht Lern- und Erinnerungseffekte auslösen, bietet sich die
Testhalbierungsmethode als das am leichtesten zu handhabende Verfahren an, zumal
es nur eine Testung voraussetzt.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Probleme kriteriumsorientierter Tests
92
2
Validität der Verfahren
gegenüber den
Indikatoren
Definition und Spezifikation des interessierenden Konstrukts
Rationale Konstruktion
Rationale Konstruktion – 94
Externale Konstruktion – 98
Induktive Konstruktion – 102
Der Prototypenansatz – 105
Weitere Ansätze – 108
Vergleichende Würdigung – 110
Grundzüge von Itemanalysen – 111
2.2.7.1 Schwierigkeit – 114
2.2.7.2 Trennschärfe – 121
2.2.7.3 Homogenität im Sinne der klassischen Testtheorie
2.2.7.4 Andere Homogenitäts-Konzepte – 130
– 128
Konstruktionsprinzipien psychometrischer Tests
Gleichsam das »Herzstück« einer Skalenentwicklung nach der sog. rationalen oder
deduktiven Methode ist das Vorliegen einer Theorie darüber, wie sich Personen beschreiben lassen und voneinander unterscheiden. So wird bei den bereits unter 7 Abschn. 1.4 erwähnten »trait-theoretischen« Ansätzen versucht, die Stabilität und Konsistenz des Verhaltens gedanklich in den übergreifenden Kategorien von Verhaltensbereitschaften und Dispositionen, also Eigenschaften, zu organisieren. Letztlich handelt es
sich dabei um hypothetische Klassen oder Gruppierungen, die mit Namen wie »Intelligenz«, »Kreativität«, »Ängstlichkeit« oder »Leistungsmotivation« usw. belegt werden.
Innerhalb dieser Kategorien wird je nach der Häufigkeit und/oder Intensität der beobachteten Verhaltensweisen eine quantitative Abstufung vorgenommen. Die aus dieser
Skalierung resultierenden individuellen Messwerte stehen für die jeweilige Ausprägung
in der hypothetischen Disposition. Die theoretischen Vorstellungen über die Breite und
den Inhalt der Konstruktkategorien mögen sehr verschieden sein, was ihren Elaborations- und Differenzierungsgrad betrifft. Im einfachsten Fall wird unterstellt, dass es
möglich ist, jede Eigenschaft, für die es einen Namen gibt, zu messen, d. h. einen Test
dafür zu entwickeln.
Ausgehend von Bezeichnungen, die geeignet sind, Persönlichkeitszüge zu beschreiben, wird üblicherweise das interessierende Konstrukt vorab näher spezifiziert und definiert. So können dabei schon »auf den zweiten Blick« bestimmte Subkategorien voneinander unterschieden werden. Beispielsweise lassen sich bei dem globalen Konstrukt »Geselligkeit« die beiden Aspekte von Kontaktbedürfnis und Kontaktfähigkeit unterschieden,
um der Motivation und Fertigkeit der Aufnahme von Kontakten einerseits sowie den
Gegebenheiten bei deren Aufrechterhaltung andererseits Rechnung zu tragen.
Bei der definitorischen Eingrenzung des Konstruktes ist es unerlässlich, auch über
die Verhaltensweisen nachzudenken, die dafür als Indikatoren in Betracht kommen.
Nehmen wir an, jemand befasse sich mit dem Konstrukt »schulische Leistungsfähigkeit«. Schüler mit einer hohen Ausprägung in dieser Dimension sollten besonders gut
rechnen und fehlerfrei schreiben können; darüber hinaus sollten sie sich in Geschichte
und Geographie auskennen sowie die angebotenen Fremdsprachen hinreichend beherrschen usw. Für jeden dieser Teilbereiche werden, diesen Vorüberlegungen entspre-
2.2.1
2.2.1
2.2.2
2.2.3
2.2.4
2.2.5
2.2.6
2.2.7
2.2
Kapitel 2 · Grundlagen diagnostischer Verfahren
Vorliegen einer Theorie
zur Beschreibung von
Personen
94
chend, mehrere geeignet erscheinende Aufgaben in Skalen oder Subtests zusammengestellt, deren Gesamtheit die Testbatterie für schulische Leistungsfähigkeit ergibt. Die
Summe der in der verfügbaren Zeit von einem Probanden gelösten mathematischen,
orthographischen, historischen und geographischen Aufgaben bilden seinen individuellen Messwert (= Score). An einer größeren Gruppe von Personen muss sodann mit
Hilfe bestimmter Analysemethoden ermittelt werden, ob das Zusammenfügen zu Skalen gerechtfertigt war und ob die abgebildeten Unterschiede über die Zeit hinweg stabil
oder reliabel sind und mit anderen Indikatoren für das in Frage stehende Konstrukt
korrelieren (zu diesen Schritten vgl. 7 Abschn. 2.2.6). Im Falle des Schulleistungstests
muss z. B. eine hinreichend hohe Korrelation mit den Schulnoten bestehen, d. h. das
Verfahren muss valide gegenüber diesem Kriterium sein, um die Qualifikation als
»Schulleistungstest« zu rechtfertigen.
Ganz ähnlich ist das Vorgehen innerhalb des Temperaments- und Persönlichkeitsbereiches. Nehmen wir an, dort sei das Konstrukt »Hilfsbereitschaft« ins Auge gefasst worden. Gemäß den explizierten Vorstellungen gehöre dazu unterstützendes Verhalten in der
Familie, gegenüber Freunden, Nachbarn und Fremden, des Weiteren die Bereitschaft,
Geld oder Blut für wohltätige Zwecke usw. zu spenden. Im einfachsten Fall können direkte Fragen nach eben solchen Merkmalen formuliert und in einem entsprechenden Test
aneinandergereiht werden. Aufwendiger ist es, sich nicht auf die verbale Beantwortung
derartiger Fragen zu verlassen, sondern eigens Beobachtungen zu den einzelnen Aspekten anzustellen und etwa zu prüfen, wie intensiv sich jemand um die Erledigung der
schulischen Hausaufgaben seiner Kinder kümmert, dem Freund bei der Reparatur seines
Motorrades hilft, Blut spendet usw. Jedes dieser Einzelmerkmale mag für sich dabei
durchaus auch indikativ für andere Konstrukte sein. Beispielsweise kann die Mitarbeit
an den Hausaufgaben auch als Zeichen eines hohen sozialen Ehrgeizes und der Furcht vor
dem Stigma eines möglichen »Sitzenbleibens« der Kinder gewertet werden, das Schrauben an der Maschine als Ausfluß technisch-handwerklicher Interessen, das Spenden von
Blut als Folge der Notwendigkeit, die eigene Barschaft etwas aufzubessern usw. In der
Zusammenschau der Einzelbeobachtungen dürften jedoch solche Erklärungsalternativen
an Gewicht verlieren. Um dennoch sicher zu sein, dass mit den Fragen bzw. Verhaltensbeobachtungen auch das jeweils interessierende (und nicht ein völlig anderes) Konstrukt
getroffen wird, bedarf es der Validierung rational entwickelter Skalen.
Viele Skalen im Leistungsbereich sind nach der rationalen Methode entwickelt worden, so z. B. der Intelligenztest von Wechsler (1958) für Erwachsene (HAWIE) und auch
für Kinder (HAWIK; . Abb. 2.21, zu den deutschen Adaptationen s. Tewes, 1983, bzw.
Priester, 1958; zu den Details 7 Abschn. 3.1.2), die Kreativitätstests von Guilford (1976),
bei deren Konzipierung das »Structure of Intellect-Modell« Pate stand, des Weiteren
viele der sog. allgemeinen Leistungstests (Bartenwerfer, 1964, 1983), darunter insbesondere solche für Aufmerksamkeit und Konzentration (7 Abschn. 3.1.1) und Tests zur
Prüfung psychomotorischer Fertigkeiten (z. B. Fleishman & Hempel, 1955). Aus dem
Persönlichkeitsbereich im engeren Sinne zählt auch das bereits unter den historischen
Meilensteinen erwähnte »Personal Data Sheet« von Woodworth (1918) (7 Abschn. 1.6)
zu den nach rationalen Prinzipien konstruierten Verfahren und insbesondere die bekannte »Manifest Anxiety Scale« von Taylor (1953), Vorläufer und Vorbild vieler heute
gebräuchlicher Ängstlichkeitstests. Ausgehend von einer definitorischen Bestimmung
des Konstruktes sammelte die Autorin dafür zunächst einen Pool von 200 geeignet erscheinenden Items. Nur jene Fragen aber, für die innerhalb einer Gruppe von klinischen Psychologen Konsens dahingehend bestand, dass der Iteminhalt mit der Umschreibung des Konstruktes vereinbar war, bildeten die endgültige Skala.
2.2 · Konstruktionsprinzipien psychometrischer Tests
Beispiele rational
konstruierter
Verfahren
Validierung der
Skalen nötig
Beobachtung vs.
Beantwortung
Zusammenstellung
von Skalen/Subtests
zu Testbatterien
95
2
2
Nach der rationalen (oder auch deduktiven) Methode konzipierte eine Autorengruppe
am Heidelberger Institut eine Skala zur Erfassung von Kohärenzsinn. Ausgangspunkt
dafür war die definitorische Umschreibung von Antonovsky (1982), der »sense of
coherence« bezeichnet hatte als »eine globale Orientierung, die zum Ausdruck bringt,
in welchem Umfang man ein generalisiertes, überdauerndes und dynamisches Gefühl
des Vertrauens besitzt, dass die eigene innere und äußere Umwelt vorhersagbar ist
und dass mit großer Wahrscheinlichkeit die Dinge sich so entwickeln werden, wie man
es vernünftigerweise erwarten kann« (Übersetzung von Becker, 1982, S. 10). Darüber
hinaus standen Exzerpte aus den Arbeiten von Antonovsky zu diesem Konstrukt zur
Verfügung. Vier Experten formulierten zunächst unabhängig voneinander, später in
einem Diskussionsprozess 26 Items, die schließlich 200 Personen zur Beantwortung
vorgegeben wurden. Die Resultate sind in . Tab. 2.4 wiedergegeben.
6
Beispiel
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.21. Titelblatt des
HAWIK-R-Protokollbogens
96
97
Ich glaube, dass Vieles im Leben vom Schicksal abhängt.*
Ich kann oft nicht verstehen, dass die Dinge sich so entwickeln und nicht anders.*
Auch wenn es manchmal ganz anders aussieht, so fügen sich doch auf lange Sicht die Dinge in meinem Leben harmonisch zusammen.
24.
25.
26.
rit = .38
rit = .28
rit = .18
rit = .44
rit = .07
Die Skala ist hinreichend reliabel (Cronbachs α = .82) und korreliert positiv mit Optimismus, negativ mit Depression, Neurotizismus und aggressiver Eifersucht, bei weitgehender Unabhängigkeit von Kontrollüberzeugung und Rationalität.
Oft stehe ich fassungslos den Ereignissen in meinem Leben gegenüber.*
23.
rit = .31
Es gibt keine Gerechtigkeit auf der Welt.
Ich komme gut damit zurecht, dass Manches in meinem Leben von bestimmten Institutionen
und Personen entschieden wird.
21.
22.
rit= .15
rit = .12
Schon oft sind im Leben meine Pläne durch unvorhersehbare Dinge oder Ereignisse durchkreuzt worden.*
20.
rit = .47
rit = .20
Was mein zukünftiges Leben anbelangt, bin ich sehr optimistisch.
Im Großen und Ganzen habe ich großes Vertrauen in die Fähigkeiten und Absichten unserer Politiker.
17.
rit = .50
rit = .51
rit = .33
rit = .24
rit = .37
rit = .19
rit = .28
rit = .44
rit = .44
rit = .43
rit = .41
rit = .46
rit = .25
rit = .47
Ich glaube an das Sprichwort: »Lügen haben kurze Beine.«
Meine Lebensauffassung ist generell sehr optimistisch.
16.
rit = .04
rit = .19
19.
Manchmal zweifle ich am Sinn meines Lebens.*
15.
2
Trennschärfekoeffizient
18.
Ich glaube, auf den Verlauf der Dinge in meiner Umwelt Einfluss nehmen zu können.
Ich fühle mich oft in meinem Tun und Handeln von meinen Mitmenschen bestimmt.
Mein Leben ist ein einziges Chaos, da sich jeden Tag Dinge oder Situationen ereignen, die nicht vorhersehbar sind.*
12.
14.
Ich glaube, dass alles im Leben seinen Sinn hat.
11.
13.
Ich kann mich als »Steh-auf-Männchen« bezeichnen.
Insgesamt habe ich den Eindruck, dass sich die Geschehnisse in meiner Umgebung in meinem Sinne entwickeln.
7.
10.
Auch wenn mir schlimme Dinge im Leben zustoßen, glaube ich dennoch, dass sich alles zum Guten
wendet.
6.
Ich habe die Dinge fest im Griff.
Ich liebe das Leben
5.
Ich glaube, dass ich fast jeder Lebensaufgabe gewachsen bin.
Ich frage mich häufig: «Warum muss mir das gerade passieren?«*
4.
9.
Ich bin ein Optimist.
3.
8.
Meiner Meinung nach ist jeder für sein eigenes Glück verantwortlich.
Oft passieren Dinge im Leben, die völlig unvorhersagbar sind.*
1.
2.
Item
. Tabelle 2.4. 26 Items zum Kohärenzsinn. Die fett gedruckten Items wurden aufgrund unbefriedigender Koeffizienten
(rit<.20) eliminiert. Die mit * gekennzeichneten Items sind für die Auswertung umzupolen. (Aus Schmidt-Rathjens et al. 1997)
2.2 · Konstruktionsprinzipien psychometrischer Tests
2
Vorliegen verschiedener Personengruppen
Definition projektiver
Verfahren
Projektive Tests:
Techniken zur Aufdeckung unbewusster
Prozesse und Konflikte
Externale Konstruktion
Ansatzpunkt der externalen oder auch kriteriumsbezogenen Skalenentwicklung ist
das Vorliegen verschiedener Gruppen von Personen als Teil der sozialen Realität.
Darunter mögen etwa Haupt- und Sonderschüler oder die Angehörigen verschiedener
Berufe, wie Architekten, Kaufleute, Friseure, Maschinisten und Verkäufer, zählen, des
Weiteren psychiatrische Klassifikationen, wie Schizophrene, Manisch-Depressive oder
2.2.2
Gleich nun, welche Beziehung im einzelnen zwischen Indikator und Indiziertem angenommen wird (ob z. B. Projektion sensu Freud gleichbedeutend ist mit der Externalisierung von eigenen, aber nicht akzeptierten Impulsen oder allgemeiner eine Zuschreibung eigener Gefühle und Motive auf andere), so liefern doch auch die diagnostischen
Zeichen in derartigen Verfahren Hinweise auf die relative Ausprägung der interessierenden Persönlichkeitsdimensionen (zu konkreten Verfahren vgl. 7 Abschn. 3.2.3).
Demgemäß liegt »das Wesen eines projektiven Verfahrens darin, dass es etwas hervorruft, was – auf verschiedene Art – Ausdruck der Eigenwelt des Persönlichkeitsprozesses der Versuchsperson ist« (Frank, 1948, S. 46 f.).
Definition
Die Art der Theorie, von der ausgehend die Verfahren entworfen werden, mag auch
gänzlich andere Itemformate nahelegen. Beispielsweise versteht die Psychoanalyse von
Freud (1952) alles Verhalten als durch Konflikte zwischen den Persönlichkeitsinstanzen
Es, Ich und Über-Ich verursacht, die sich in permanentem und heftigem Widerstreit
miteinander befinden. Die beiden aktiven Triebe und Motive sind in der Regel unbewußt. Über den nervösen und muskulären Apparat des Organismus erlangen sie gewöhnlich allenfalls einen indirekten Ausdruck. Das Verhalten wird bestimmt und getrieben durch Impulse aus dem Unbewußten und ist somit nicht rational determiniert,
sondern irrational. Verbale Bekundungen darüber und über die eigenen Empfindungen
oder Beweggründe sind nicht repräsentativ für die wahren Gegebenheiten, sondern
stellen Deformationen, Abänderungen und Symbolisationen des tatsächlichen Geschehens dar. Deshalb wäre es aussichtslos oder irreführend, aus den Auskünften von Personen irgendwelche Rückschlüsse auf ihre Charaktermerkmale ziehen zu wollen.
Vielmehr bedarf es tiefenpsychologischen Theorien zufolge gesonderter Techniken,
um die unbewussten Prozesse und Konflikte aufzudecken, um Abwehrmechanismen
und Widerstände zu überwinden und die dem Verhalten zugrundeliegenden nichtbewussten Motive gleichsam »sichtbar zu machen«. Dazu zählen zunächst die klassische
»große« Psychoanalyse, Traumdeutungen und freie Assoziationen. Da diese Verfahren außerordentlich zeitaufwendig sind, wurden die sog. projektiven Tests propagiert.
Mit ihrer Hilfe sollte auf ökonomische und standardisierte Weise die Barriere von Maskierungen, Verzerrungen und Verfälschungen vor den unbewußten Konflikten überwunden werden. Günstig dafür schienen Materialien als Testvorlagen, deren Inhalt und
Struktur eher unbestimmt oder mehrdeutig ist, z. B. Klecksbilder und unscharfe Abbildungen (. Abb. 2.22). Konfrontiert mit solchen Stimuli würden die Probanden, so
lautet auch heute noch die Grund- und Deuteregel, auf die Vorlagen entsprechend der
Bedeutung reagieren, die diese für sie besitzt.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Die Theorie bestimmt
das Itemformat
98
Neurotiker, schließlich Alkoholiker, »Unfäller« usw. (. Abb. 2.23). An der diagnostischen Erfassung dieser Gruppen besteht ein berechtigtes Interesse, damit durch optimale Auswahl und Behandlung der individuelle ebenso wie der gesellschaftliche Nutzen nach Möglichkeit gefördert werden kann.
Vor die Notwendigkeit gestellt, Instrumente zur Klassifikation und Diskriminierung
solcher sozial und ökonomisch bedeutsamen Gruppen zu entwickeln, wird man sich
mitunter nicht lange mit theoretischen Erwägungen aufhalten können (etwa derart, welche Faktoren für die Entwicklung einer Schizophrenie oder von Alkoholismus maßgeblich sind), zumal diese Überlegungen zahlreich und letztlich unhaltbar sein mögen. Dagegen wird – im Extremfall einer puristischen Anwendung der externalen Strategie – den
Mitgliedern derartiger Gruppen eine möglichst große und inhaltlich breit gefächerte
Zahl von Items vorgelegt in der Hoffnung, dass sich darunter einige befinden werden, die
zwischen den Gruppen empirisch diskriminieren, also eine verschiedene Beantwortungsrichtung oder Lösungswahrscheinlichkeit zeigen. (Verständlicherweise fließen in
die Auswahl der Itemstichprobe doch mehr oder weniger explizite Hypothesen über die
voraussichtliche Differenzierungskraft mit ein, spielen also im Regelfall auch deduktive
2.2 · Konstruktionsprinzipien psychometrischer Tests
. Abb. 2.22. Der PictureFrustration-Test (PFT) zählt
zu den projektiven Verfahren
99
2
2
Beispiele external
konstruierter
Verfahren
Unzulässigkeit inhaltlicher Interpretation
Differenzierung nur
auf Gruppenebene
Gesichtspunkte eine gewisse Rolle innerhalb der externalen Methode.) Jene Items werden
schließlich selegiert und zu Skalen zusammengestellt, die zwischen den Gruppen statistisch bedeutsam unterscheiden und bei denen diese Diskrimination in einer Kreuzvalidierung an weiteren Personen standhält. Ein Item wie »Können Sie sich einen Bart
wachsen lassen?« würde sich beispielsweise nur dann für eine Maskulinitäts-Femininitätsskala eignen, wenn bei der Erprobung wesentlich mehr Männer als Frauen darauf mit
»ja« geantwortet hätten.
Streng genommen dürfen die so entwickelten Skalen nur für eine Differenzierung
im Sinne der vorab untersuchten Gruppen später auch herangezogen werden. Die
Aussagen im Hinblick auf untersuchte Einzelpersonen müßten dementsprechend solche im Sinne von Wahrscheinlichkeiten dafür sein, der einen oder anderen Gruppe
anzugehören. Eine dimensionale Interpretation verbietet sich jedoch dann strikt, wenn
es sich bei den herangezogenen Gruppen um distinkte Klassen handelt, zwischen denen keine kontinuierlichen Übergänge bestehen.
Vom Format und den angesprochenen Sachverhalten her mögen die in den Skalen
vereinigten Items extrem heterogen sein. Ihre inhaltliche Interpretation ist unzulässig.
Da die Validität in Form der erfolgreichen Diskriminierung verschiedener Gruppen
voneinander gleichsam systemimmanent gewährleistet ist, »funktionieren« die Items
zwar. Oftmals bleibt aber nicht nur den naiven Testbeantwortern die Intention des Tests
verborgen, sondern auch dem Testleiter das psychologische Wirkungsgefüge auf seiten
der untersuchten Personen, d. h. er ist auf vage Post-hoc-Interpretationen angewiesen,
weil er nicht a priori mit einer Theorie an das Problem herangegangen ist.
Einer der bekanntesten Vertreter external konstruierter Tests im Leistungsbereich
ist der Staffeltest von Binet (7 Abschn. 3.1.2), für den die Diskrimination entlang der
Altersdimension das entscheidende Kriterium war: Solche Aufgaben galten als beson-
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.23. Mit z. B. dem
Münchner Alkoholismustest
(MALT) sollen in einer Grobdiagnose durch gezielte
Fragen zum individuellen
Konsummuster mögliche
Alkoholiker von Nichtalkoholikern unterschieden
werden
100
rtc
F
F
»Soziale Aufgaben übernehme ich nur, wenn ich unbedingt muss«
(Schlüsselrichtung: »nein«)
»Vorsichtig zu sein und wenig zu erwarten ist besser als sich nur glücklich zu fühlen durch Erfolgserwartung« (Schlüsselrichtung: »ja«)
6
»Ich bin schon für viele Funktionen gewählt worden« (Schlüsselrichtung: »ja«)
A
H
»Ich finde es schwer, vor einer größeren Gruppe eine Rede zu
halten« (Schlüsselrichtung: »nein«)
Bei den Frauen waren u. a. die folgenden Items besonders valide:
I
»Es würde mich besonders interessieren, ein Schreiber von Stücken
zu sein« (Schlüsselrichtung: »ja«)
.37
.19
.34
.41
.36
Bei den Männern trugen u. a. die folgenden Items besonders viel zur Aufklärung der Intelligenzunterschiede bei:
16 PFDimension
. Tabelle 2.5. Korrelationen einzelner Items des 16 PF mit Allgemeiner Intelligenz
An einer größeren Gruppe von Personen beiderlei Geschlechts konnten Turner und
Horn (1977) eine Reihe bedeutsamer Korrelationen zwischen Items des 16-Persönlichkeits-Faktoren-Tests (16 PF) (7 Abschn. 3.2.3) und dem Wechsler-Intelligenztest
(als dem amerikanischen Original des HAWIE) beobachten und diese in einer Kreuzvalidierung an einer gleichartig zusammengesetzten anderen Stichprobe von Untersuchungsteilnehmern sichern. Das Kriterium, das es zu erfassen galt (dessen Varianz aufzuklären versucht wurde), also Intelligenz, lag hier nicht in einer qualitativen,
sondern kontinuierlich-quantitativen Abstufung vor. Wenngleich auch räumliches
Vorstellen und Gedächtnis durch Persönlichkeitsvariablen erfassbar waren, bestanden die engsten Korrelationen doch zur verbalen Intelligenz. Dieser Bereich war aus
15 Items des 16 PF bei den Männern zu rtc = .66 und bei den Frauen aus 14 Items zu
rtc = .57 vorhersagbar (. Tab. 2.5).
Beispiel
ders geeignet zur Erfassung von Intelligenz, die von einem möglichst großen Prozentsatz der Angehörigen einer bestimmten Altersgruppe, aber zugleich von einem möglichst niedrigen Anteil der darunterliegenden Altersgruppe gelöst wurden.
Unter den Persönlichkeitsfragebogen gehört das »Minnesota Multiphasic Personality Inventory (MMPI)« von Hathaway und McKinley (1951; deutsch: Spreen, 1963) in
die Kategorie der externalen Tests. Die Autoren hatten zunächst eine Liste von 1000
Items angelegt, die sich auf psychopathologische Symptome bezogen. Gruppen von
klinisch auffälligen Personen, die von Psychiatern als Schizophrene, Hysteriker, Hypochonder usw. diagnostiziert worden waren, bearbeiteten die Items ebenso wie »Unauffällig-Normale«. Jene 550 Fragen wurden schließlich zu Skalen vereinigt, die die Patienten von den Kontrollpersonen am besten differenzierten.
Auch die Alkoholismusskala von MacAndrew (1965) ist external konstruiert worden. Turner und Horn (1977) haben Intelligenz als Kriterium mit Hilfe von Persönlichkeitsvariablen »vorhergesagt«.
2.2 · Konstruktionsprinzipien psychometrischer Tests
101
2
2
Faktoren und deren
Interpretation
Teilziele: Homogenität
und Einfachstruktur
C
M
»Ich habe etwas Angst vor wilden Tieren, selbst wenn
diese sich in starken Käfigen befinden« (Schlüsselrichtung: »nein«)
»Ich mag es nicht, wie in Straßen oder Läden einige Leute auf andere
starren« (Schlüsselrichtung: »nein«)
.29
.21
.48
rtc
Induktive Konstruktion
Bei der sog. induktiven Entwicklung von Skalen stützt sich der Konstrukteur im wesentlichen auf eine spezifische Methode, nämlich die Korrelationsrechnung. In diesem
Fall ist er weder primär einer bestimmten Theorie verpflichtet, noch orientiert er sich
an vorfindbaren Personengruppen. Vielmehr gruppiert er diejenigen Items »blindanalytisch« zu Skalen, die miteinander hoch korrelieren und damit gemeinsam eine
Dimension konstituieren.
Bei der Erstellung von umfangreicheren Testsystemen wird das Ziel insofern erweitert, als zur Forderung nach hohen Korrelationen zwischen den Items innerhalb von
Skalen (= interne Konsistenz oder Homogenität) noch diejenige nach niedrigen Korrelationen mit den Items anderer Skalen hinzukommt (Einfachstruktur). Gewöhnlich
werden diese Teilziele simultan durch die Anwendung faktorenanalytischer Techniken
erreicht. Bei einer solchen Methode empfiehlt es sich, mit möglichst umfangreichen,
repräsentativ zusammengesetzten Stichproben von Items und Personen zu beginnen.
Die faktorenanalytischen Ladungsmuster bzw. die dadurch definierten Gruppen
von Items definieren dann zwar bestimmte Faktoren, die je nach dem gewählten Rotationskriterium mehr oder weniger unabhängig voneinander sind. Es bedarf jedoch einer Interpretation durch den Außenstehenden dahingehend, was das gemeinsame
Element bei der Klumpenbildung darstellt und für eine Sinnstiftung in Betracht kommt.
Diese allen Items eines Faktors inhärente Gemeinsamkeit wird mit einem Begriff umschrieben. Erst dieser liefert uns dann Aufschluss über die psychologische Struktur der
fraglichen Dimension, sagt uns also, welche Unterschiede auf ihr abgebildet werden.
2.2.3
Die Beispiele zeigen, dass es zum Teil bei beiden Geschlechtergruppen ganz andere
Fragen sind, die »funktionieren«, obwohl man versucht ist, diesbezüglich eher Übereinstimmungen anzunehmen. Das belegt, welch überraschende Ergebnisse
externale Strategien produzieren können und dass es mitunter Schwierigkeiten bereitet, im nachhinein die relevanten psychologischen Prozesse zu erschließen. Darüber hinaus stammen die Items aus allen Dimensionen des 16 PF, sind also inhaltlich
äußerst heterogen. Das führt dazu, dass die an der Diskriminierungskraft gegenüber
dem Kriterium (also der Korrelation) ansetzende Auswahl der Items für eine neue
Skala ein entsprechend heterogenes Instrument erzeugt, in dem die Konsistenz
gering ist, also die Items vergleichsweise niedrig miteinander korrelieren.
H
16 PFDimension
»Ich werde etwas verlegen, wenn ich in einer Gruppe plötzlich ins
Zentrum der Aufmerksamkeit gerate« (Schlüsselrichtung: »nein«)
. Tabelle 2.5 (Fortsetzung)
Kapitel 2 · Grundlagen diagnostischer Verfahren
Gruppierung von Items
über die Korrelation
102
Die Vereinten Nationen werden niemals eine wirksame Kraft zur Wahrung des Weltfriedens sein.
Von den meisten Menschen kann man annehmen, dass sie das, was sie sagen, auch tun werden.
Das Gericht ist ein Ort, an dem uns allen unvoreingenommene Behandlung zuteil wird.
Es ist sicherer zu glauben, dass im Gegensatz zu
dem, was die Leute sagen, diese in erster Linie an
ihr eigenes Wohlergehen denken.
Die Zukunft erscheint vielversprechend.
Die meisten Menschen wären erschreckt, wenn
sie wüssten, wieviele Nachrichten, die die
Öffentlichkeit zu hören und zu sehen bekommt,
verfälscht sind.
Die meisten gewählten Volksvertreter sind in
ihren Wahlkampfversprechungen wirklich vertrauenswürdig.
Obwohl Zeitungen, Radio und Fernsehen berichten, ist es schwierig, zu objektiven Einschätzungen öffentlicher Angelegenheiten zu gelangen.
5
6
7
8
9
10
11
12
6
Eher Furcht vor sozialer Schande oder Bestrafung
als das Gewissen hält die Leute davon ab, das Gesetz zu brechen.
4
47
59
52
68
59
54
59
61
55
59
34
50
52
38
46
43
56
36
36
68
Bei den meisten Politikern klafft das Verhalten vor
und nach der Wahl auseinander.
21
6
27
Jeder, der sich selbst in einem Sachverhalt gut
auskennt, ist bestürzt, wenn erliest, wie darüber
Zeitungen berichten.
Das Zusammenleben von uns allen wird mehr
durch Gewalt und Macht als gegenseitiges Vertrauen geregelt.
Gewöhnlich warten die Berufskollegen nur darauf, dass einem ein Missgeschick passiert, damit
sie selbst emporkommen.
25
26
Wort und Tat in unserer Umgebung stimmen selten überein.
Bei den Äußerungen unserer Mitmenschen muss
man gewöhnlich aufpassen, das herauszuhören,
was sie wirklich meinen.
24
23
Es gibt nur wenige Menschen, auf die man sich
verlassen kann.
Wenn wir wirklich wüssten, was in der internationalen Politik so vor sich geht, so hätte die
Öffentlichkeit mehr Grund, entsetzt zu sein, als sie
es jetzt zu sein scheint.
20
22
Die meisten Menschen beantworten Meinungsumfragen aufrichtig.
Die meisten Reparaturarbeiter würden die Rechnung auch dann nicht zu hoch ausstellen, wenn
sie wüssten, dass man sich in ihrem Fachgebiet
nicht auskennt.
18
Dieses Land hat eine dunkle Zukunft, solange wir
keine besseren Leute in die Politik bringen können.
3
19
Die meisten Verkäufer sind ehrlich im Beschreiben
ihrer Ware.
17
27
52
Die meisten Idealisten sind aufrichtig, und gewöhnlich praktizieren sie auch, was sie predigen.
53
IV
16
Im Umgang mit Fremden kommt man besser voran, wenn man so lange vorsichtig ist, bis diese
den Nachweis erbracht haben, dass man ihnen
trauen kann.
2
III
Viele bedeutende Sportwettkämpfe sind in der
einen oder anderen Weise mehr oder weniger abgekartet.
44
II
15
Heuchelei ist in unserer Gesellschaft im Anwachsen begriffen
1T-RO
I
h2
Iteminhalt
In dieser, von Konkurrenzgedanken bestimmten
Zeit muss man wachsam sein, oder irgend jemand
nutzt einen wahrscheinlich aus.
Iteminhalt
. Tabelle 2.6 (Fortsetzung)
Kapitel 2 · Grundlagen diagnostischer Verfahren
14
2
104
Bei vielen Experten kann man sich darauf verlassen, dass sie die Wahrheit über die Begrenztheit
ihres Wissens sagen.
2
13
103
. Tabelle 2.6. Die Faktorenladungsmatrix (varimax-rotiert) gibt die Ladungen von 27 Fragen
zu zwischenmenschlichem Vertrauen auf 4 zu extrahierenden Faktoren wieder. Angegeben
sind nur Ladungen ≥40. Null und Komma wurden bei allen Ladungen (Korrelationen mit den
Dimensionen) weggelassen. Teilnehmer an der Erhebung waren 135 Personen beiderlei Geschlechts. (Aus Amelang et al., 1984, S. 205)
Beispiel
Dem Wesen einer solchen begrifflichen Etikettierung von Konstrukten entsprechend
geht deren Bedeutungsgehalt dann gewöhnlich über dasjenige hinaus, was empirisch
vorfindbar war (. Tab. 2.6).
2.2 · Konstruktionsprinzipien psychometrischer Tests
49
56
40
66
I
56
75
70
II
63
46
47
III
49
41
51
70
IV
52
51
43
61
37
42
57
52
46
39
43
31
35
40
52
h2
Der Prototypenansatz
Die Objekte der Umwelt werden von uns ganz unschwer in verschieden breiten und
umfangreichen kognitiven Kategorien gruppiert, wie z. B. Möbel, Früchte, Tiere und
dergleichen. Innerhalb jeder dieser Kategorien gibt es bestimmte Gegenstände, die das
Gemeinsame der jeweiligen Klasse in besonderer Klarheit in sich vereinigen. Beispielsweise gelten Rosen oder Tulpen als ausgesprochen prototypische Blumen, Hunde und
Katzen als Prototypen von Tieren usw. . Abb. 2.25). Andere Objekte erlangen Aufnahme in eine Kategorie nach Maßgabe ihrer Ähnlichkeit mit den Prototypen. Bei nur
geringer Ähnlichkeit wird die Definition der Gruppe unscharf, und es stellen sich mehr
und mehr Überlappungen mit anderen Kategorien ein (z. B. Weihnachtsstern oder
Löwenmaul). Das Ausmaß der jeweiligen Zentralität oder Prototypizität natürlicher
Gegenstände kann, wie Rosch (1975) gezeigt hat, mit bemerkenswerter Beurteilungsübereinstimmung eingeschätzt werden. Cantor und Mischel (1979) haben diesen Ansatz mit Erfolg auf Typen von Menschen, wie z. B. »eine modische Frau« oder »eine
emotional stabile Person« usw., übertragen. Es liegt nahe, dieses auch für die Kategorie
von Eigenschaften bzw. die sie konstituierenden Verhaltensweisen zu tun.
Broughton (1984) hat Collegestudenten in Wohnheimen die Eigenschaftswörterliste von Gough und Heilbrun (1980) vorgelegt mit der Instruktion, zu jedem Attribut
anzugeben, wie prototypisch dieses für die Dimensionen »achievement, dominance,
nurturance, affiliation, exhibition, autonomy, aggression, deference« sei. Mit Hilfe eines
solchen Vorgehens wird die ursprünglich von den Testautoren vorgenommene Zuordnung der Einzelitems auf die betreffenden Skalen überprüft; außerdem bietet sich da-
2.2.4
Als geradezu klassisches Beispiel für einen nach der faktorenanalytischen Methode
entwickelten Intelligenztest können die »primary mental abilities« von Thurstone und
Thurstone (1941) gelten. In Anlehnung an sie entstanden auch mehrere deutschsprachige Adaptationen (7 Abschn. 3.1.2).
Aus dem Persönlichkeitsbereich sind als Vertreter induktiver Entwicklungen das
»California Psychological Inventory (CPI)« von Gough (1969) zu nennen, des Weiteren
das »Freiburger Persönlichkeitsinventar (FPI)« (. Abb. 2.24) von Fahrenberg und Selg
(1970) sowie als besonders aktuelles Beispiel aus der Diskussion um die Forschungen
zu den sog. Big Five das NEO-FFI (Neo-Fünf-Faktoren Inventar, deutsch: Borkenau &
Ostendorf, 1993). Auf Einzelheiten wird unter 7 Abschn. 3.2.1 eingegangen.
Trotz einer für alle Items bestehenden Konsistenz von α = 0.85, was auf Eindimensionalität hinweisen könnte, lässt sich somit eine Binnenstrukturierung erkennen, die im Nachhinein sinnvoll zu interpretieren ist, d. h. »von außen« Gemeinsamkeiten erkennen lässt.
Die Ladungsmuster legen es nahe, das Gemeinsame in den 4 Faktoren zu identifizieren und
wie folgt zu benennen:
I Seriosität öffentlicher Institutionen und Personen,
II Verlässlichkeit von Mitmenschen,
III Vertrauenswürdigkeit von »Experten« (wie Verkäufer, Politiker, Reparateure),
IV Konvergenz von Verbal- und Realverhalten.
. Tabelle 2.6 (Fortsetzung)
2.2 · Konstruktionsprinzipien psychometrischer Tests
Kategorien und deren
Prototypen
Beispiele induktiv
konstruierter
Verfahren
105
2
2
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.24. Das FPI-R
wurde teils deduktiv, teils
faktorenanalytisch konstruiert
106
c
d
a
b
2.2 · Konstruktionsprinzipien psychometrischer Tests
2
. Abb. 2.25a–d. Rosen
gelten bei uns als prototypische Blumen, Hunde und
Katzen als prototypische Tiere. Das Aussehen einer prototypisch schönen Frau mag
sich dagegen im Laufe der
Zeit wandeln
107
2
Höhere Validität für
Skalen nach dem AFA
Prototypizitätsmessung über den »Act
Frequency Approach«
Weitere Ansätze
Um die Prinzipien der einzelnen Konstruktionsstrategien deutlich heraustreten zu lassen, sind diese bei der vorangegangenen Erörterung in gleichsam »reiner« Form geschildert worden. Im Zuge einer praktischen Umsetzung werden die Ansätze aber meist
in der einen oder anderen Weise miteinander gemischt, was dadurch leichtfällt, dass die
eine Methode die andere nicht ausschließt. So legt ein Autor »seinen« Itempool häufig
nach rationalen Gesichtspunkten an, bereinigt ihn sodann nach konsistenz- und fakto-
2.2.5
durch die Möglichkeit, ggf. kürzere Skalen zu formieren, die sich nur aus hochprototypischen Items zusammensetzen. Im Vergleich zu den anderen verwendeten Konstruktionsprinzipien (rational, empirisch, faktoriell und an einem Konsistenzkriterium sowie
an einer Zufallsanordnung orientiert) zeigten die nach Prototypizitätseinschätzungen
zusammengestellten Skalen gegenüber den Fremdeinschätzungen von Bekannten in
jeder Merkmalsdimension die höheren Validitätskoeffizienten.
Noch einen Schritt weiter gingen Buss und Craik (1980), indem sie im Zuge des von
ihnen kreierten Handlungs-Häufigkeits-Ansatzes (»Act Frequency Approach, AFA«)
die prototypischen Verhaltensweisen von den Teilnehmern einer Untersuchung erst
nennen ließen: Im Zuge der sog. »Generierungsphase« wurden die Versuchspersonen
gebeten, an jene 2 oder 3 Personen aus ihrem sozialen Nahraum zu denken, bei denen
eine bestimmte Eigenschaft besonders stark ausgeprägt sei, z. B. diejenige der Dominanz. (Unterstellt wird bei einem solchen Verfahren somit, dass ein entsprechendes
Verständnis für die Begriffe unserer Sprache vorliegt.) Dann sollten die Probanden jene
konkreten Verhaltensweisen in Situationen (»acts«) nennen, die sie bei ihren Referenzpersonen beobachtet hatten und die ihrer Meinung nach indikativ für das Vorhandensein der fraglichen Eigenschaften wären. Die damit erhaltenen Itementwürfe unterscheiden sich vom herkömmlichen Format darin, nicht irgendwelche Trendaussagen
(»meistens«, »häufig«, »gern« usw.) zu enthalten. In einem zweiten Schritt wurden die
generierten Verhaltensweisen (z. B. »Er/sie wechselte das Fernsehprogramm, ohne die
anderen zu fragen« oder »Er/sie erteilte Anweisungen, die die Gruppe funktionieren
ließen«) von einer anderen Gruppe hinsichtlich ihrer Prototypizität für die in Frage
stehende Merkmalsdimension eingeschätzt. Als Ergebnis eines solchen Vorgehens lassen sich zumindest 2 Gruppen von Verhaltensweisen bilden, nämlich solche, die als
relativ hoch- bzw. niedrigprototypisch eingeschätzt werden. In einem dritten Schritt
nahmen schließlich die Probanden zu diesen Verhaltensweisen Stellung in der Frage,
ob sie selbst – und ggf. wie oft – dieses Verhalten schon gezeigt hätten. Gegenüber den
Beantwortungen herkömmlicher Tests korrelierten die hochprototypischen Acts enger
als die niedrigprototypischen (s. Buss & Craik, 1984).
In mehreren Arbeiten aus dem Heidelberger Institut konnte zudem der Nachweis
geführt werden, dass die Übertragung dieser Prinzipien auf Merkmalsbereiche, in denen bislang nur Instrumente mit eher unbefriedigenden Messqualitäten vorliegen (z. B.
Soziale Intelligenz, Kreativität, Risikoneigung), zu neuen Skalen führt, deren Validität
diejenige der bekannten Tests bedeutsam übertrifft (Amelang et al., 1989, 1991; Krüger
& Amelang, 1995).
Insgesamt ist damit ein Ansatz geschaffen worden, der zumindest für den Temperaments- und Persönlichkeitsbereich, darüber hinaus aber auch für solche Dimensionen, die partiell leistungsthematisch sind, bedeutsame Fortschritte und eine weitere
Verbesserung der bewährten Instrumente zu leisten verspricht.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Höhere Validität für
Skalen nach Prototypenansatz
108
Im deutschen Sprachraum haben Riemann und Abels (1994) diese nachgerade wegweisenden Befunde allerdings nicht replizieren können und im Zuge äußerst umsichtiger
Versuche auch dann keine ermutigenderen Ergebnisse erzielt, wenn anstelle von Fragen
objektive Verhaltensregistrierungen herangezogen wurden.
Paulhus und Martin (1987) haben das Konzept von »Persönlichkeits-Capability«
kreiert, also der Leichtigkeit, mit der ein vom situativen Kontext gefordertes Verhalten
ausgeführt wird. Der Akzent hat sich damit gegenüber der herkömmlichen Traitperspektive (»Was tun Personen gewöhnlich?« oder »In welcher Weise verhalten sie sich?«
Antwortmöglichkeiten auf der Skala für physischen Ärger:
1. = kein Anzeichen für Werfen oder Schlagen;
2. = Gedanke an Werfen oder Schlagen, rot anlaufen, Verlassen des Raumes;
3. = Schlagen auf Objekte (Türen, Wände usw.);
4. = Werfen von Objekten, aber nicht in der Absicht, die andere Person zu verletzen;
5. = die Person schubsen, einschließlich das Werfen von Gegenständen auf sie;
6. = wiederholtes Werfen von Gegenständen, Schlagen der Person mit Verletzungsabsicht;
7. = exzessive Gewalt, Werfen vieler Gegenstände oder wiederholtes Schlagen der
Person.
Für eine verbale Ärgerausdrucksskala sind ähnliche Abstufungen vorgesehen.
»Wenn Sie im höchsten Maße ärgerlich wären, welche der folgenden Verhaltensweisen würden Sie dann zeigen?«
renanalytischen Gesichtspunkten (vgl. induktive Methode), überprüft ihn am Ende
gegenüber Extremgruppen von Personen (vgl. externale Methode) und eliminiert in
diesem letzten Schritt auch jene Items, die wenig zur Validität beitragen. Insofern können die verschiedenen Prinzipien einander wechselseitig ergänzen.
Eine spezifische Art rationaler Konstruktionsprinzipien ist dort gegeben, wo die
unterschiedliche Schwierigkeit der zu generierenden Items von Leistungstests bestimmten theoretisch begründeten Heuristiken folgt. Die kritische Überprüfung für die Tragfähigkeit eines derartigen Ansatzes besteht im Vergleich der theoretisch hergeleiteten mit
den empirisch ermittelten Schwierigkeiten. Dieser Technik bedient sich insbesondere
Hornke (s. Hornke et al. 1988; Hornke & Etzel 1993/1995; Hornke & Storm 1993/1995)
bei der Entwicklung computergestützter Tests (7 Abschn. 3.1). Teils anhand von Aufgaben zum räumlichen Vorstellen nach Art der Metzler- und Shepard-Figuren (s. Shepard
& Metzler 1971), teils unter Verwendung von Item-Typen, die im Prinzip denen der
eingebetteten Figuren von Gottschaldt entsprachen (7 Beispiele in Abb. 3.8), im Weiteren
von neuartigen Aufgaben zur Erfassung von Gedächtnis und Orientierung in einem
ökologischen Kontext erwies sich eine hochgradige Übereinstimmung von vorhergesagten und empirisch ermittelten Schwierigkeitskoeffizienten. Die Modellprüfung erfolgte
dabei – je nach dem Aufbau der durchgeführten Studien – entweder auf der Basis der
Richtig/Falsch-Antworten oder der Reaktionszeiten der Versuchspersonen.
Weil Leistungstests häufig etwas valider sind als Persönlichkeitsfragebogen, gingen
Willerman et al. (1976) der Frage nach, ob die mäßigen psychometrischen Kriterien der
Fragebogen verbessert werden könnten, wenn anstelle der üblichen Trendfragen solche nach der maximalen Performanz gestellt würden. Für den Ausdruck von Ärger
waren die Resultate im Vergleich zu den herkömmlichen Fragebogen recht positiv.
2.2 · Konstruktionsprinzipien psychometrischer Tests
2
Persönlichkeits-Capability = Leichtigkeit des
Verhaltens
Fragen nach maximaler
Performanz
Konstruktionsprinzipien ergänzen sich
109
2
Inhaltliche Heterogenität und interne
Konsistenz
Capability-Faktoren
und soziale Kompetenz
Vergleichende Würdigung
In Ergänzung zu einigen der bereits oben angesprochenen Punkte sollen nachfolgend
kurz die wesentlichen Unterschiede zwischen einigen psychometrischen Gütekriterien herausgestellt werden.
Wegen der inhaltlichen Heterogenität der Items aus external konzipierten Skalen
(7 Abschn. 2.2.2, Beispiel) weisen diese im Regelfall sehr viel niedrigere interne Konsis-
2.2.6
oder »Wie häufig zeigen sie bestimmte Verhaltensweisen?«) etwas verschoben in dem
Sinne, dass stärker motivationale Faktoren ins Spiel kommen (»Was kann eine Person
tun, wenn sie nur will?«, . Abb. 2.26). Riemann (1992) hat einen Fragebogen zur Erfassung von Persönlichkeitsfähigkeiten im Weiteren Sinne entwickelt. Diese sind von den
»klassischen Fähigkeiten« zu unterscheiden, die der Qualität einer Leistung oder Kompetenz unter optimalen Bedingungen und häufig maximaler Motivation gelten. Ein Item
lautet beispielsweise: »Selbst wenn ich eine Person interessant und attraktiv finde, ist es
für mich schwer, sie einzuladen, mit mir gemeinsam etwas zu unternehmen.« Mit insgesamt 66 Items werden die Bereiche Unterstützung, Assertivität, Geduld/Submissivität,
Geselligkeit, Selbstkontrolle/Verträglichkeit und Ausdauer/Leistung erfasst. In der Studie von Riemann und Abels (1994) bestanden recht enge Korrelationen zwischen den
Persönlichkeitsfähigkeiten und inhaltlich verwandten herkömmlichen Traitmaßen (Geselligkeit/Extraversion, Ausdauer/Gewissenhaftigkeit). Darüber hinaus korrelierten die
Capability-Faktoren hoch mit Maßen der (selbsteingeschätzten) sozialen Kompetenz.
Hingegen erfüllten sich dort die Erwartungen nur ansatzweise, wo auch das Wissen über
das in bestimmten Situationen angemessene Verhalten mit objektiven Indizes für maximales Verhalten korreliert wurde.
Insgesamt belegen die Arbeiten die Nützlichkeit einer gesonderten Unterscheidung
von Fähigkeiten im Persönlichkeitsbereich und machen zugleich auch deutlich, dass diesbezüglich die Entwicklung geeigneter Instrumente noch teilweise am Anfang steht.
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.26. Persönlichkeits-Capability bezeichnet
die Leichtigkeit, mit der ein
vom situativen Kontext gefordertes Verhalten ausgeführt wird
110
Grundzüge von Itemanalysen
In den bisherigen Ausführungen ist wiederholt angeklungen, dass die Auswahl und
Erprobung der Items (d. h. der kleinsten Einheiten eines Tests in Form von einzelnen
Fragen, Aufgaben oder Aussagen, zu denen die Probanden Stellung nehmen müssen)
nach ganz unterschiedlichen Prinzipien erfolgt, je nachdem, ob beispielsweise das
Verfahren als Ganzes nach der induktiven, deduktiven oder externalen Strategie
entwickelt wird. So steht in induktiv oder faktoriell konzipierten Tests die Korrelation
der Items miteinander im Vordergrund, bei der empirischen Methode dagegen die
Korrelation mit einem Außenkriterium. Als Konsequenz daraus ergibt sich eine hohe
2.2.7
tenzen auf als rational oder induktiv entwickelte Skalen. Das heißt, die Items interkorrelieren viel niedriger miteinander und konstituieren weniger eine gemeinsame Dimension. Um die gleiche Messgenauigkeit oder Reliabilität (7 Abschn. 2.3.1.2) wie bei
induktiven oder rationalen Skalen zu erreichen, müssen externale sehr viel länger sein,
da bei ihnen die Itemkovarianzen gering sind [vgl. dazu die Ableitungen in 7 Abschn. 2.1.1.4 zur Verlängerung von Tests, insbesondere Formel (2.28)].
Geringe interne Konsistenz darf aber nicht vorschnell als niedrige Reliabilität
missverstanden werden. Vielmehr sollte diese zweckmäßigerweise über eine wiederholte Testung an derselben Personenstichprobe zu einem späteren Zeitpunkt ermittelt
werden (Retestreliabilität).
Die multifunktionelle Binnenstruktur empirischer Skalen macht diese sehr anfällig für
die jeweilige Zusammensetzung der Untersuchungsstichprobe, d. h. für das Ausmaß, in
dem jeder der implizierten Faktoren darin streut. Denn die Konstruktionsmethode favorisiert solche Verhaltensmerkmale, die in der Entwicklungsstichprobe innerhalb jeder
Gruppe gering, aber zwischen den Gruppen stark streuen. Sofern diese Relation später
nicht mehr gegeben ist, kann die Validität erheblich in Mitleidenschaft geraten.
Ein unbezweifelbarer Vorteil externaler Skalen besteht in ihrer vergleichsweise
geringen Verfälschbarkeit durch die Testbeantworter, da diesen die Messintention oftmals verborgen bleibt und sie deshalb nicht wissen, in welcher Richtung sie antworten
sollen, um ein bestimmtes Ziel (etwa: einen guten Eindruck zu machen) zu erreichen
(dazu und zu weiteren Aspekten s. Schmolck, 1983).
Burisch (1984) hat die Untersuchungen zusammengestellt, in denen die verschiedenen Konstruktionsmethoden im Hinblick auf ihren Erfolg, also letztlich die Validität
der gebildeten Skalen, miteinander verglichen wurden. Seine Analyse beschränkt sich
aus mehreren Gründen auf Persönlichkeitsfragebogen, d. h. Leistungstests blieben
außer Betracht. Ungeachtet einiger hier und da auftretender Unterschiede war über alle
Studien hinweg keine konsistente Überlegenheit einer der Techniken zuungunsten
einer anderen festzustellen. Alle Konstruktionsprinzipien sind also in etwa gleicher
Weise zielführend, und es wird im einzelnen von Vorlieben oder Notwendigkeiten
abhängen, für welche Strategie man sich entscheidet.
Dessenungeachtet könnte den rationalen (oder: deduktiven) Verfahren ein allgemeiner Vorzug daraus erwachsen, dass sie sehr ökonomisch zu entwickeln und die
damit erhaltenen individuellen Testwerte wegen der Anlehnung der Dimensionen an
den alltäglichen Sprachgebrauch sehr viel leichter kommunizierbar sind. Das heißt, den
getesteten Personen und anderen Interessenten an den Ergebnissen sind diese meist
besser zu vermitteln, als wenn es sich um die Resultate aus induktiven oder externalen
Skalen handelt, für die häufig Neologismen zur Benennung herangezogen werden.
2.2 · Konstruktionsprinzipien psychometrischer Tests
Bedeutung der Konstruktionsmethoden
für Gütekriterien
Ökonomie und
Kommunizierbarkeit
rationaler Skalen
Geringe Verfälschbarkeit externaler Skalen
111
2
2
Berechnung eines
Speedindexes
Schwierigkeit von
Items
Von den gebräuchlichen Ansätzen, den Speed- vs. Powercharakter von Tests in einem
Kennwert zu quantifizieren, beruht einer auf experimentellen Anordnungen: Paterson
und Tinker (1930) haben vorgeschlagen, die Korrelation zwischen den Messungen mit
Niveautests sind dadurch definiert, dass auch bei unbegrenzter Zeitvorgabe von
keinem Testteilnehmer alle Aufgaben richtig gelöst werden.
Mit derartigen Verfahren wird primär das intellektuelle Niveau oder die »Denkkraft« (Power) ermittelt.
Definition
Geschwindigkeits- oder Schnelligkeitstests werden häufig zur Prüfung der Konzentration eingesetzt. Ein Beispiel ist der Pauli-Rechentest, wo während 60 min einstellige
Ziffern jeweils paarweise addiert werden müssen. Weil diese Operationen sehr schnell
erfolgen, und zwar möglicherweise rascher als das Aufschreiben der Lösungen, sollen
die Probanden bei zweistelligen Ergebnissen nur die Einerstellen notieren. Damit soll
gewährleistet werden, dass der Testwert tatsächlich mentale Konzentration und nicht
feinmotorische Geschicklichkeit oder dergleichen prüft.
Demgegenüber lassen sich »Niveau-« oder »Powertests« unterscheiden (. Abb.
2.27).
Geschwindigkeitstests sind dadurch definiert, dass bei unbegrenzter Zeitvorgabe
alle Items von allen Probanden gelöst werden, d. h. ihr Schwierigkeitsgrad konvergiert dann gegen Null. Die Differenzierung zwischen den Probanden wird nur durch
die Begrenzung der Bearbeitungszeit erreicht.
Definition
Homogenität im ersten, eine niedrige im zweiten Fall. Dessenungeachtet kann hier
wie dort die Trennschärfe als ein weiteres Maß zur Kennzeichnung der psychometrischen Qualität von Items, nämlich die Korrelation der Itembeantwortung mit
dem Summenwert der Skala, auf hohem Niveau liegen. Im ersten Fall gilt dies, weil
dann das Item in etwa dieselben, im zweiten Fall jeweils andere Aspekte des untersuchten Merkmals erfasst als die Gesamtheit der anderen Items. Aus diesem Grunde stellt
die Höhe der Iteminterkorrelationen oder deren Trennschärfe keinen Wertmaßstab
für sich dar; vielmehr müssen diese Kennwerte stets in Relation zu dem verfolgten Ziel
gesetzt werden.
Gleiches gilt auch für ein anderes wichtiges Maß zur Kennzeichnung der psychometrischen Eigenschaften eines Items, nämlich der Schwierigkeit. Darunter wird die
relative Häufigkeit von Probanden verstanden, die auf das betreffende Item im Sinne
des untersuchten Merkmals reagieren. Bei Leistungstests bedeutet das genauer, die
richtige Lösung zu liefern, bei Persönlichkeitstests, eine Antwort zu geben, die indikativ
für eine höhere Merkmalsausprägung ist.
Auch im Falle von Persönlichkeitstests wird also von der »Schwierigkeit« gesprochen, obwohl der Begriff hier irreführend sein mag, weil die spezifische Wortbedeutung
nur bei Leistungstests Sinn macht.
Aber auch bei Leistungstests ist es nicht immer sinnvoll, den Schwierigkeitsindex zu
berechnen, und zwar bei solchen Verfahren nicht, die zur Kategorie der sog. »Geschwindigkeits-«, »Schnelligkeits-« oder »Speedtests« zählen.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Homogenität und
Trennschärfe als Gütekriterien von Items
112
rAtBp ⋅ rApBt
.
rAtBt ⋅ rApBp
(2.52)
Beeinträchtigt die Variation der Durchführungsbedingungen die Korrelationen zwischen den parallelen Formen im Vergleich zur Durchführung unter identischen Bedingungen nicht, so erreicht der Zähler des Quotienten ähnliche Werte wie der Nenner, weshalb der Speedindex gegen Null konvergiert. Umgekehrt fällt der Speedindex
um so höher aus, je stärker die Variation der Durchführungsbedingungen die Korrelationen zwischen den parallelen Formen gegenüber denjenigen unter identischen
Durchführungsbedingungen verringert. Ein Wert z. B. von t = 0,5 kann in dem Sinne
interpretiert werden, dass 50% der Rohwertevarianz auf die Schnelligkeitskomponente
entfallen.
An dem Index ist problematisch, dass letztlich eine niedrige Korrelation zwischen
Speed- und Powerdurchführung nur auf die Variation eben dieses Faktors zurückgeführt wird. Dabei kann sehr wohl auch ein Wechsel in der geprüften psychischen Funktion eingetreten sein, dessen (zusätzlicher) Beitrag konfundiert mit eingeht. Streng
τ
= Speedindex,
A, B = Parallelformen eines Tests,
p, t = Durchführung unter Power- bzw. Time-limit-Bedingungen.
τ =1 -
parallelen Formen eines Tests, von denen die eine unter Geschwindigkeits- und die
andere unter Niveaubedingungen erfolgt, mit entsprechenden Erhebungen unter identischen Bedingungen zu vergleichen, und zwar nach der Formel
2.2 · Konstruktionsprinzipien psychometrischer Tests
2
Begrenzte Interpretierbarkeit des Speedindexes
. Abb. 2.27. Während bei
reinen Geschwindigkeitstests die Schwierigkeit v. a.
in der knappen Zeitvorgabe
liegt, ergibt sich diese bei
reinen Niveautests aus den
intellektuellen Anforderungen der Aufgaben
113
2
Schwierigkeitsindex
Geringe Aussagekraft
der Kennwerte bei hoher Speedkomponente
Leistungstests sind
meistens Mischformen
u-m
n-m
(2.53)
P=
NR
⋅100
N
(2.54)
! Wie bereits dargelegt, gibt der Schwierigkeitsindex an, wie groß der relative Anteil von
Probanden ist, die ein Item »richtig« (also im Sinne höherer Merkmalsausprägung) beantworten:
2.2.7.1 Schwierigkeit
Bedeutung und Berechnung
Bei reinen Schnelligkeitstests werden alle in Angriff genommenen Aufgaben, von einigen Flüchtigkeitsfehlern vielleicht abgesehen, auch gelöst (Summe B = Summe X; u
= m); deshalb strebt hier der Niveauindex gegen Null. Anders verhält es sich dagegen
im Fall von Powertests; dort werden alle Aufgaben in Angriff genommen (u = n). Unabhängig davon, wieviele davon auch gelöst werden, wie hoch also m im konkreten Fall
ausfällt, beträgt w deshalb 1.
Die gebräuchlichen Tests zur Erfassung von Leistungsmerkmalen außerhalb der
konzentrativen Funktionen stellen gewöhnlich Mischformen dar. Das heißt, sie beinhalten teils Schnelligkeits-, teils auch Niveaukomponenten insofern, als zum einen die
Aufgaben hinsichtlich ihrer Schwierigkeit stark streuen und zum anderen die Bearbeitung zeitbegrenzt erfolgt. Aus naheliegenden Gründen sind dabei innerhalb der einzelnen Subtests die Items nach ansteigender Schwierigkeit gereiht.
Nur soweit (zumindest) die besagte Mischung aus Schnelligkeits- und Niveaukomponenten vorliegt, sind die Maße für Schwierigkeit, Homogenität und Trennschärfe
sinnvolle Kennwerte zur Beschreibung der psychometrischen Charakteristika von
Items. In dem Ausmaß, in dem die Geschwindigkeitsbetonung zunimmt, verlieren eben
diese Indizes sehr stark an Aussagekraft, was im einzelnen noch zu zeigen sein wird.
Bei der nachfolgenden Darstellung wird deshalb der Einfachheit halber unterstellt,
es handele sich um die Items eines reinen Niveautests. Zur Sprache gelangen nur die
elementaren Begriffe und Prozeduren, deren Verständnis eine unabdingbare Voraussetzung für die angemessene Bewertung der zu diagnostischen Instrumenten vorliegenden Informationen ist. Für eine vertiefende Beschäftigung ist die Lektüre einschlägiger Spezialliteratur unverzichtbar (z. B. Lienert & Raatz, 1998; Krauth, 1995 und
Kubinger, 1989).
m = Summe X/n = Mittelwert der richtig beantworteten Aufgaben,
u = Summe B/n = Mittelwert der bearbeiteten Aufgaben,
n = Anzahl der Aufgaben.
w=
genommen müsste gewährleistet sein, dass der Test trotz der unterschiedlichen zeitlichen Vorgaben doch immer ein und dieselbe Dimension (etwa induktives Denken oder
räumliches Vorstellen) erfasst. Genau das zu gewährleisten, wird wohl aus den verschiedensten Gründen nur selten der Fall sein können.
Sehr viel wirklichkeitsnaher und weniger durch theoretische Unwägbarkeiten belastet ist demgegenüber der von Ebel und Lienert (1960) vorgeschlagene »Niveauindex«:
Kapitel 2 · Grundlagen diagnostischer Verfahren
Berechnung eines
Niveauindexes
114
120
⋅100 = 33,3.
360
(2.47)
Neu darin sind die Terme
NF = Zahl der Probanden, die die Aufgabe falsch beantwortet haben,
m = Zahl der Wahlmöglichkeiten in einer Mehrfachwahlaufgabe.
N R - [N F /(m - 1)]
P=
⋅100.
N
(2.55)
Hohe Werte in P stehen somit für eine niedrige Schwierigkeit, niedrige Werte von P
umgekehrt für eine hohe Schwierigkeit der Aufgabe.
Auf »die« Schwierigkeit des Tests sind aber nur dann eindeutige Rückschlüsse zu
ziehen, wenn das Leistungsniveau der Probanden bekannt ist (es sich etwa um eine
repräsentative Stichprobe für die Grundgesamtheit handelt). Weiß man hingegen, wie
schwierig der Test ist, kann daraus das Leistungsniveau der Gruppe abgelesen werden.
Die oben angegebene einfache Formel für P sollte jedoch nur in solchen Fällen zur
Anwendung gelangen, wo der Einfluss von Zufall (also z. B. durch Raten der Probanden
oder wahlloses Ankreuzen) ausgeschlossen werden kann, wie es beispielsweise bei freier, ungebundener Beantwortung in Form von Ergänzungsaufgaben oder gar Kurzaufsätzen der Fall ist, des Weiteren bei Verwendung sehr vieler Alternativantworten (auch
»Distraktoren« genannt, zu denen auch die richtige Lösung gezählt wird) in Mehrfachwahlaufgaben und Zuordnungsaufgaben. (Die Bezeichnung »Alternativantworten« ist
unglücklich, weil sie strenggenommen eine 2fache oder dichotome Abstufung impliziert. Sie hat sich gleichwohl durchgesetzt und wird auch hier übernommen.)
Für die Korrektur des Zufalls lautet die Formel
Das Item zur Impulsivität ist danach, wollte man diese beiden Beispiele miteinander
vergleichen, »schwieriger« als das Item zur Fortsetzung der Zahlenreihe.
P=
In einem Fragebogen zur Impulsivität haben von denselben Personen auf die Aussage:
»Wenn mich jemand sehr ärgert, dann zähle ich erst mal still bis 10« 120 mit »Nein«
geantwortet:
240
P=
⋅100 = 66,7.
360
In einer Stichprobe von 360 Probanden haben 240 Testteilnehmer die Zahlenreihe
3-6-9-12-15-18-?
richtig fortgesetzt und an der Stelle des Fragezeichens die Zahl 21 eingesetzt.
Beispiel
P = Schwierigkeitsindex,
NR = Zahl der Probanden, die die Aufgabe im Sinne des Merkmals beantwortet
haben,
N = Zahl aller Probanden.
2.2 · Konstruktionsprinzipien psychometrischer Tests
Korrektur von
Zufallseinflüssen
115
2
2
116
240 - [120/(5 - 1)]
⋅100 = 58,3
360
(2.56)
1
.
m
(2.58)
(2.57)
Wenn alle F-Antworten per Annahme fg-Antworten sind, können wir unter Heranziehung der obigen Ausdrücke das Verhältnis von rg- zu fg(=falsch)-Antworten bilden als
p(fg) = 1 - p(rg)
1
p(fg) = 1 - .
m
ergibt sich die Wahrscheinlichkeit für »falsch geraten« als
p(rg) + p(fg) = 1,
Weil
p(rg) =
Wenn m die Anzahl der Distraktoren (s.o.) einer Mehrfachwahl- oder Richtig-FalschAufgabe ist, so ergibt sich die Wahrscheinlichkeit für »richtig geraten« als
ng = nrg + n fg
Die o. a. Rate- oder Zufallskorrektur leitet sich für den individuellen Fall ab wie folgt
(nach Moosbrugger, 1990, S. 26–27): Hauptsächlich bei Mehrfachwahlaufgaben (und
nicht so sehr bei Ergänzungsaufgaben) können richtige Lösungen durch Zufall erreicht werden. Das mag jene Testpersonen benachteiligen, die lieber keine als unsichere Antworten geben, etwa im Vergleich zu Probanden, die viele Antworten trotz
Unsicherheit »auf gut Glück« liefern.
Eine derartige Benachteiligung kann mit einer Ratekorrektur aufgefangen werden,
die allerdings nur dann zur Anwendung kommen sollte, wenn in der Instruktion zur
Bearbeitung des Tests darauf hingewiesen wurde.
Der grundlegende Gedanke geht dahin, dass falsche Antworten nicht durch einen
falschen Lösungsansatz, sondern durch Raten zustande kommen; wenn die Testperson
rät, so geht sie nach Zufall vor. Die Anzahl ng der geratenen Antworten g setzt sich somit
zusammen aus der Anzahl der nrg richtig geratenen Antworten rg und der Anzahl nfg
der falsch geratenen Antworten fg:
Gegenüber dem unkorrigierten Wert ist also eine (numerisch allerdings geringfügige) Minderung von P zu beobachten, d. h. das Item ist nach der Zufallskorrektur
etwas schwerer, da die zufällig richtigen Treffer abgezogen wurden.
P=
Angenommen, bei der Aufgabe in dem vorangegangenen Beispiel hätte es sich um
eine Mehrfachwahlaufgabe mit insgesamt 5 Alternativen gehandelt. 120 Probanden
hätten zu dem Item eine falsche Lösung geliefert. Dann errechnet sich P wie folgt:
Beispiel
Kapitel 2 · Grundlagen diagnostischer Verfahren
(2.59)
(2.61)
(2.60)
NR
⋅100.
NB
P=
N R - [N F /(m - 1)]
⋅100.
NB
Mit Zufallskorrektur:
NB = Zahl der Probanden, die die Aufgabe bearbeitet haben.
P=
(2.63)
(2.62)
Solche Zufallskorrekturen wirken sich auf die P-Werte um so drastischer aus, je höher
der zu beseitigende Zufallseinfluss ist und je höher die Fehlerraten ausfallen. Die relative Position der einzelnen Items zueinander in bezug auf P ändert sich nur dann bedeutsam, wenn die Fehlerraten bei den Items sehr verschieden sind. Negative Schwierigkeiten, die eben wegen ihres Vorzeichens nicht interpretiert werden können, geben
einen Hinweis darauf, dass es sich um eine sehr schwere, aber relativ leicht erscheinende Aufgabe handelt, bei der also die Wahrscheinlichkeit von Fehlern sehr hoch ist.
In jenen Fällen, wo etwa infolge der Zeitbegrenzung nicht alle Aufgaben von allen
Probanden bearbeitet werden konnten, muss bei der Ermittlung von P die Gesamtzahl
der Probanden um die Zahl derer vermindert werden, die sich an dem Item gar nicht
versuchen konnten:
X’ = n r - n f .
Bei Richtig-Falsch-Antworten vereinfacht sich die Zufallskorrektur auf
X′ = zufallskorrigierter Rohwert
X’ = nr - nrg
n
= nr - f
m-1
Dieser Ausdruck steht für die Anzahl richtiger Antworten, die durch richtiges Raten
zustande gekommen sind. Um den zufallskorrigierten Testwert einer einzelnen Testperson zu erhalten, ist vom ursprünglichen Testwert X die Anzahl der nur durch Zufall
richtig gelösten Antworten abzuziehen:
n
nrg = f
m-1
nrg p(rg)
=
n f p(fg)
1
m
m
=
; durch Erweitern mit
1
m
1−
m
1
=
; durch Umfformulierung
m-1
2.2 · Konstruktionsprinzipien psychometrischer Tests
117
2
2
. Abb. 2.28a, b. Abgestufte Beantwortungsskalen
a Ausmaß der Zustimmung
zu einer Meinung b Häufigkeit im Auftreten einer Verhaltensweise
240 - [40/(5 - 1)]
⋅100 = 82
280
N
(2.64)
Pm =
erreichte Wertpunkte
erreichbare Wertpunkte
Allerdings ist P nur dann hinreichend aussagekräftig, wenn die Streuung der Einzelwerte um diesen Mittelwert gering ist.
Einem anderen Vorschlag entsprechend (s. Dahl, 1971; Wagner & Baumgärtel,
1978) kann die von einer Stichprobe von Probanden in einer Aufgabe erreichte Punktezahl zur maximal erreichbaren Zahl von Wertpunkten in Relation gesetzt werden:
Xt = individuelle Testwerte.
P=
N
t =1
∑X t
Soweit handelt es sich um dichotome Beantwortungen im Sinne von richtig/falsch bzw.
– für Persönlichkeitsfragebogen – ja/nein oder stimmt/stimmt nicht. Einige Intelligenztests sehen aber bei bestimmten Aufgabentypen auch ein abgestuftes Bewertungssystem in der Art vor, dass für vollständig richtige Lösungen oder solche nach besonders
kurzer Zeit die maximale Punktzahl und für teilweise richtige Antworten eine geringere Zahl von Punkten gegeben wird. Beispielsweise gilt dieses für die Subskalen Allgemeines Verständnis und Gemeinsankeiten Finden im Wechsler-Test (HAWIE), wo die
Abstufungen 0, 1 und 2 Punkte vorkommen. In dem Mosaik- und Figuren-legen-Subtest aus demselben Verfahren ist das Bewertungssystem differenzierter. Auch im Einstellungs- und Persönlichkeitsbereich sind kontinuierlich abgestufte Beantwortungsskalen etwa derart bekannt (. Abb. 2.28a und b).
Sofern in solchen Fällen zumindest Intervall-Skalen-Niveau unterstellt werden kann,
stellt der Mittelwert aller Antworten auf der betreffenden Skala ein Äquivalent für P dar:
Ohne die Korrektur des »Inangriffnahmefaktors« erscheinen Items somit als schwieriger, als es tatsächlich der Fall ist.
P=
Von den 360 Probanden der Stichprobe im ersten Beispiel waren 80 nicht dazu gekommen, die Aufgabe in Angriff zu nehmen, d. h. nur 280 hätten sie bearbeitet. Das
bedeutet:
Beispiel
Kapitel 2 · Grundlagen diagnostischer Verfahren
Abstufung von
Bewertungsskalen
118
∑X temp
N
= Schwierigkeitsindex für mehrstufige Itembeantwortungen,
= empirische Wertpunkte,
= N · m,
= Zahl der Probanden,
= Zahl der Abstufungen.
(2.65)
100
⋅100 = 20.
500
t =1
∑X tmax 2
,
(2.66)
Zusammenhänge mit anderen Itemkennwerten
Mittlere Werte für P (um 50) bedeuten größtmögliche Streuung der Itembeantwortungen
und damit eine hohe Differenzierung zwischen den Probanden (s. a. 7 Abschn. 2.1).
6
Diese Formel weist dann eher mittlere Werte für P aus, wenn die individuellen Itembeantwortungen stark streuen, d. h. ein Teil der Probanden nur wenige, ein anderer hingegen viele Wertpunkte erzielt. Von daher ist eine direkte Vergleichbarkeit mit den
üblichen Kennwerten für P gegeben.
Zu den anderen Itemkennwerten steht der Schwierigkeitsindex wie folgt in Beziehung:
wobei
X tmax 2 = N ⋅ (m)2
Pm =
t =1
N
∑X temp2
N
Nun lässt sich zeigen, dass gleiche Werte für P bei höchst unterschiedlichen Streuungen auf den Beantwortungsskalen möglich sind. Größere Streuungen sind (bei sonst
gleichen Voraussetzungen) ein Hinweis auf eine stärkere Diskriminierungskraft eines
Items, da es die bestehenden interindividuellen Unterschiede besser abbildet. Fisseni
(1990, S. 34 f.) hat deshalb vorgeschlagen, anstelle der Summen der originalen Wertpunkte in der obigen Gleichung – analog zur Berechnung von Varianzen – deren Quadrate heranzuziehen:
Pm =
Weist etwa die Beantwortungsskala 5 Abstufungen auf, so können 100 Probanden maximal (100 · 5) = 500 Punkte erreichen. Erzielen sie empirisch nur 100, entspricht dieses
einem Wert von
Pm
Xtemp
Xtmax
N
m
t =1
Pm = tN=1
⋅100
∑X tmax
oder
2.2 · Konstruktionsprinzipien psychometrischer Tests
2
Zusammenhänge
mit anderen Itemkennwerten
Bedeutung von
Streuungen auf
Beantwortungsskalen
119
2
Streuung einer Aufgabe hängt von P ab
Schwierigkeit
,
100
q = 1-p.
p=
Wobei
si = Streuung (Standardabweichung) des Items i,
si = pq
(2.67)
Direkt abhängig von P ist im übrigen auch die Streuung einer Aufgabe, dies allerdings
nur, wenn die Beantwortung nicht auf kontinuierlichen Skalen, sondern in dichotomer
Weise (0/1) erfolgt. Wie man sich grafisch unschwer veranschaulichen kann, ist die
Verteilungsbreite bei 2 Antwortstufen dann am größten, wenn beide Antwortalternativen in gleicher Häufigkeit gewählt werden, P also 50 beträgt. Umgekehrt ist die
Verteilung sehr schmal, wenn sich die Antworten auf einer Stufe stark massieren (P
um 5 oder um 95). Im Extremfall von P = 0 oder P = 100, wo alle Probanden entweder
richtig oder falsch lösen, ja oder nein sagen, existiert keinerlei Streuung mehr. Die
Streuung hängt also von P ab. Konkret gilt die Formel
Auswirkungen einer breiten Streuung der Schwierigkeitskoeffizienten
4 Items mit extremen Schwierigkeitskoeffizienten (P 5–10 oder 90–95) gewährleisten auch eine Differenzierung zwischen den Probanden in den randständigen
Bereichen der Merkmalsverteilung.
4 Extreme Schwierigkeitskoeffizienten sind andererseits mit hohen Korrelationen
empirisch unvereinbar, wenn die miteinander korrelierten Items nicht denselben Schwierigkeitsgrad aufweisen; d. h. die Aufnahme von Items mit unterschiedlicher Schwierigkeit führt zu Einbußen an Homogenität und Trennschärfe.
Unter Bezugnahme auf diese Regeln könnte die Auswahlstrategie naheliegen, in eine
Skala möglichst nur Items mit einer mittleren Schwierigkeit aufzunehmen. Wenn dabei
aber die Items die Stichprobe der Probanden mehr oder weniger in derselben Weise in
Löser und Nichtlöser diskriminieren (was bei einer hohen Korrelation zwischen den
Items der Fall wäre), ergeben sich auch durch Verwendung sehr vieler Items nicht mehr
als eben diese beiden Kategorien von Lösern und Nichtlösern.
Aus diesem Grunde wird üblicherweise eine breite Streuung der Schwierigkeitskoeffizienten von Items in einer Skala angestrebt (P zwischen 5 und 95). Das führt zu
folgenden Effekten:
Ausreichende Merkmalsstreuungen sind eine notwendige (nicht aber hinreichende)
Voraussetzung für hohe Korrelationen, in diesem Fall: von Korrelationen der Itembeantwortungen mit den Reaktionen auf andere Items sowie dem Skalen-Summenwert. Daher begünstigen mittlere Schwierigkeitskoeffizienten die Homogenität
und Trennschärfe, garantieren diese aber nicht.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Breite Streuung der
Schwierigkeitskoeffizienten angestrebt
120
N ⋅ ∑XY - ∑X∑Y
(N ⋅ ∑X 2 - (∑X)2 (N ⋅ ∑Y 2 - (∑Y)2 )
(2.68)
XR - X p
⋅
s
q
wobei
p = NR/N (also der Schwierigkeitsgrad) und
q = 1-p,
rpbis =
(2.69)
Häufig wird allerdings die Itemantwort nur in dichotomer Form vorliegen, etwa als
richtig/falsch, ja/nein oder stimmt/stimmt nicht. Diese Abstufung kann als eine solche
echt-alternativer, also qualitativer Art verstanden werden. Dann kommt eine Berechnung mit Hilfe des punkt-biserialen Korrelationskoeffizienten in Betracht:
= Korrelation zwischen Itembeantwortung und Testscore,
rit
X
= Itemscore, Y = Skalen-(Summen-)Score,
∑X, ∑Y = Summe der Item- bzw. Skalenscores über die Probanden,
2
2
∑X , ∑Y = Quadratsummen,
∑XY
= Produktsumme.
rit =
Je nachdem, in welcher Form die Informationen aus den miteinander korrelierten
Messwertreihen vorliegen, sind verschiedene Koeffizienten angemessen.
Bei dem Summenwert der Skala handelt es sich i. Allg. um eine Variable, die in
kontinuierlich-quantitativ abgestufter Form vorliegt; meist wird Gleichabständigkeit
unterstellt, d. h. Intervall-Skalen-Niveau.
Erfolgt die Bearbeitung des einzelnen Items auf kontinuierlichen Antwortskalen,
z. B. mit 5 oder 7 Abstufungen oder – wie dies bei graphischen Skalen der Fall ist – mit
keinerlei Unterteilung im vorhinein (weshalb dann die Markierung der Versuchsperson
in Einheiten von Millimeter oder Zentimeter vom Ursprung der Skala aus gemessen
wird, s. z. B. Amelang & Pielke, 1992), bietet sich der Produkt-Moment-Korrelationskoeffizient von Pearson-Bravais an. Im Unterschied zu der bereits unter der klassischen
Testtheorie dafür angegebenen Formel (7 Abschn. 2.1.1) wird nachfolgend eine Schreibweise angeboten, die eine Ermittlung des Koeffizienten direkt anhand der Rohwerte
erlaubt:
Die Trennschärfe einer Aufgabe ist definiert als die Korrelation der Itembeantwortung mit dem Summenwert der Skala, zu der das betreffende Item gehört. Sie ist ein
Kennwert dafür, in welchem Ausmaß die Differenzierung der Probanden in Löser
und Nichtlöser durch das Item mit demjenigen durch die Skala als Ganzes übereinstimmt.
Definition
2.2.7.2 Trennschärfe
Bedeutung und Berechnung
Der Aufgabenstreuung kommt in Verbindung mit der Trennschärfe eine besondere
Bedeutung zu (7 folgenden Abschn. 2.2.7.2).
2.2 · Konstruktionsprinzipien psychometrischer Tests
2
Berechnung bei
dichotomer Abstufung
der Antworten
Summenwert als kontinuierlich-quantitativ
abgestufte Variable
121
2
Berechnung bei
Annahme eines
Kontinuums
(2.70)
XR − X p
⋅
s
y
(2.71)
Die Formel (2.71) gilt für vollständige Aufgabenpräventation.
Wie man erkennt, entsteht rbis aus der Multiplikation von rpbis mit dem Faktor
p ⋅ q/y. Da dieser Faktor für alle denkbaren Werte von P Zahlen >1,0 beträgt (z. B.
für P = 50: 1,253; für P = 99: 3,733), resultieren bei gleichem Material höhere Koeffizienten, wenn man anstelle von rpbis den biserialen Koeffizienten errechnet.
Mitunter liegen Konstellationen vor, in denen auch das Kriterium eine echt-alternative oder dichotome Datenqualität aufweist, was ggf. die Benutzung eines PunktVierfelder- bzw. tetrachorischen Korrelationskoeffizienten notwendig macht. Diese
y = Ordinatenwert in der Standardnormalverteilung für jenen Wert, der die Fläche
unter der Normalverteilungskurve in die Anteile p und q trennt.
–
X = arithmetisches Mittel der Testrohwerte aller Probanden
p = auf den Wert 1 bezogener Anteil derjenigen Probanden, die das Item lösen
q =1–p
rbis =
Der punkt-biseriale Korrelationskoeffizient entspricht dem Produkt-Moment-Korrelationskoeffizienten, wenn man für die eine Alternative 1, für die andere 2 einsetzt und
einen Produkt-Moment-Korrelationskoeffizienten berechnet.
Als nicht minder plausibel erscheint die Auffassung, dass auch den Beantwortungen
im Sinne von ja/nein, stimmt/stimmt nicht usw. »eigentlich« ein Kontinuum zugrunde
liegt, auf dem das relative Ausmaß an Zustimmung abgetragen wird. Irgendwo mag
dann aber eine Stelle erreicht sein, wo die geringe Zustimmung als Ablehnung bezeichnet, bzw. umgekehrt die immer schwächere Ablehnung als Zustimmung etikettiert
wird. Im Leistungsbereich wird diesen Überlegungen verschiedentlich dadurch Rechnung getragen, dass nicht nur die richtigen Lösungen gewertet werden, sondern auch
solche Antworten Punkte erhalten, die immerhin in Teilaspekten richtig sind und erkennen lassen, dass der Proband »auf dem richtigen Wege« war, was ebenfalls eine
Leistung bedeutet. Solchen Erwägungen zufolge geschieht somit auch die dichotome
Itembeantwortung auf einem Kontinuum, das aber aus verschiedenen Gründen (etwa
der Einfachheit halber) nur in dichotomisierter Form vorliegt. Das berechtigt zur Anwendung des biserialen Korrelationskoeffizienten:
XR = Skalenscore (Testrohwert) des Probanden, der das Item richtig beantwortet hat,
N = Anzahl aller Probanden,
NR = Anzahl jener Probanden, die das Item richtig beantwortet haben.
N
NR
⎛ ∑X R ∑X ⎞
rpbis = ⎜
⋅
⎟⋅
N ⎠
N - NR
N ⋅ ∑X 2 − (∑X)2
⎝ NR
Um Zwischenrechnungen vermeiden zu können, lautet die Formel für die Verwendung
der originalen Rohwerte wie folgt:
–
X = arithmetisches Mittel der Skalenscores,
–
XR = arithmetisches Mittel der Skalenscores jener Probanden, die das Item richtig beantwortet haben,
s = Standardabweichung der Skalenscores aller Probanden.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Dichotome Antworten
bei »eigentlich« vorliegendem Kontinuum
122
3
4
2
2
3
2
2
2
Item
2
Item
4
4
2
1
1
3
2
4
4
Item
3
3
3
1
3
1
2
1
1
3
2
1
4
2
3
2
1
Item
5
1
3
1
1
3
2
2
4
Item
6
4
2
2
4
3
2
1
1
Item
7
Mittelwert
3.250
2.750
1.375
2.500
2.625
2.250
2.250
2.625
Item
8
4
2
1
2
2
4
4
4
In unsicheren Zeiten erwarte ich gewöhnlich das Beste.
Wenn etwas bei mir schiefgehen kann, so geht es auch schief. (umpolen)
Ich betrachte die Dinge immer von ihrer guten Seite.
Ich blicke immer optimistisch in die Zukunft.
Ich erwarte fast nie, dass alles nach meinem Wunsch verläuft. (umpolen)
Die Dinge nehmen nie ihren Verlauf so, wie ich es mir wünschte. (umpolen)
Ich glaube an das Sprichwort: »Auf Regen folgt Sonnenschein.«
Ich rechne fast nie damit, dass mir Gutes widerfährt. (umpolen)
4
4
2
3
4
1
2
4
1
2
3
4
5
6
7
8
1.
2.
3.
4.
5.
6.
7.
8.
Item
1
Pbn
. Tabelle 2.7. Antworten von 8 Probanden zu den 8 Optimismusitems aus dem Life Orientation Test (LOT) von Scheier und Carver (1985)
Beispiel
Fälle gehören jedoch vorwiegend in den Bereich der Itemauswahl nach der externalen
Methode und somit zur Bestimmung der Itemvalidität, weshalb hier nicht näher auf sie
eingegangen werden soll.
. Tabelle 2.7 gibt die Datenmatrix für 8 Items einer Optimismusskala wieder, die
von 8 Personen auf 5fach abgestuften Skalen beantwortet wurden. Bei den Resultaten
handelt es sich um eine Zufallsauswahl aus der mehr als 3000 Probanden umfassenden
Studie von Schmidt-Rathjens et al. (1997). Im Falle der biserialen Korrelation erfolgte
die Dichotomisierung am Median der jeweiligen Itembeantwortung. Für die Berechnung der punkt-biserialen Koeffizienten wurde »so getan, als ob« es sich um echt-alternative Klassen handele (. Tab. 2.8).
Gleichfalls nur erwähnt werden sollen die Begriffe der konvergenten und diskriminanten Trennschärfe, mit denen die Korrelationen mit dem Summenscore bzw.
demjenigen einer anderen Skala bezeichnet werden. Im Regelfall wird man im Sinne
der Konvergenz eher hohe und für die Diskriminanz eher niedrige Koeffizienten anstreben, mit einer möglichst großen numerischen Differenz zwischen den jeweiligen
Werten. Wird darauf nicht in ausreichendem Maße geachtet, korrelieren Items einer
Skala möglicherweise stärker mit dem Gesamtpunktwert anderer Skalen, was zumindest die Frage einer richtigen Zuordnung der Items zu den Skalen aufwirft. Bei früheren
Formen des 16 PF-Fragebogentests war das häufiger zu beobachten (s. Greif, 1970). Mit
Hilfe der Faktorenanalyse auf Itembasis lassen sich simultan beide Kriterien erreichen,
d. h. einerseits eine ordentliche Homogenität innerhalb der Skalen bei deren gleichzeitiger relativer Unabhängigkeit voneinander.
In den geschilderten Berechnungsmodalitäten geht jede Itembeantwortung je einmal in die beiden miteinander korrelierten Messwertreihen ein: Auf seiten des Items
als originales Datum, auf seiten des Skalenscores als Summand, der beiträgt. Infolge
der damit gegebenen algebraischen Abhängigkeit (die Korrelation ist partiell auch
2.2 · Konstruktionsprinzipien psychometrischer Tests
Faktorenanalyse zur
besseren Zuordnung
der Items
Konvergente und
diskriminante Trennschärfe
123
2
2
1.05
.79
.71
.61
.40
.40
.64
.37
Biseriale Koeffizienten
.61
.53
.41
.21
.13
.10
.30
.00
Punkt-biseriale Koeffizienten
An einer Zufallsstichprobe von N = 8 Probanden wurden die 8 Items aus dem StateTrait-Ärgerausdrucks-Inventar (STAXI) von Schwenkmezger et al. (1992) zur Erfassung von Anger In (AI), also der Tendenz, Ärger in sich hineinzufressen, hinsichtlich
ihrer Trennschärfe analysiert. Die Items lauten wie folgt:
1. Ich fresse Dinge in mich hinein.
2. Ich koche innerlich, zeige es aber nicht.
3. Ich empfinde Groll, rede aber mit niemandem darüber.
4. Ich bin ärgerlicher, als ich es zugeben möchte.
5. Ich bin weit mehr erzürnt, als andere es wahrnehmen.
6. Ich könnte platzen, aber ich lasse es niemanden merken.
7. Ich ziehe mich von anderen Menschen zurück.
8. Ich bin ärgerlicher, als ich es mir anmerken lasse.
6
Beispiel
! Generell wirkt sich der Einfluss der Part-whole-Korrektur um so geringer aus,
5 je größer die Zahl von Items ist (weil mit zunehmender Länge einer Skala der Beitrag jedes einzelnen Items relativ geringer wird),
5 je homogener die Skala ist (weil in homogenen Skalen die übrigen Items weitgehend ähnliches erfassen und es deshalb auf den Beitrag eines bestimmten Items
weniger stark ankommt).
eine Korrelation der Variablen mit sich selbst) sind die erhaltenen Koeffizienten überhöht gegenüber einer Berechnungsart, in der diese partielle Identität mit Hilfe der sog.
Teil-Ganzheit-(Part-whole-)Korrektur bereinigt wird. Das Prinzip der Aufhebung
besteht darin, den Skalenscore jeweils um den Beitrag desjenigen Items zu bereinigen
oder zu eliminieren, dessen Trennschärfe zu ermitteln ist.
Dafür liegen gesonderte Formeln vor (s. McNemar, 1962, S. 139), auf deren Anwendung üblicherweise bei größeren Datenmengen zurückgegriffen wird. Hier genügt es,
die Grundzüge an einem Beispiel zu veranschaulichen (. Tab. 2.9).
Item 1
Item 2
Item 3
Item 4
Item 5
Item 6
Item 7
Item 8
. Tabelle 2.8. Trennschärfekoeffizienten für die Daten in . Tab. 2.7, ermittelt nach 2 verschiedenen Korrelationsberechnungen
Beispiel
Kapitel 2 · Grundlagen diagnostischer Verfahren
Part-whole-Korrektur
124
2
2
1
2
2
2
2
2
.42
.49
4
2
2
2
2
2
1
1
.47
.63
1
2
1
1
3
2
2
2
.13
.29
3
2
1
1
2
3
2
1
.52
.66
2
2
1
1
3
2
1
1
.77
.83
2
3
1
2
1
2
1
1
.47
.60
3
4
2
2
3
2
2
2
.81
.87
4
4
2
3
4
1
2
2
.61
.77
21
21
11
14
20
16
13
12
Skalenscore
.55
.69
.59
.71
2
.56
.68
3
Items
.52
.64
4
5
.59
.71
6
.52
.65
7
.37
.53
8
.56
.67
Sieht man einmal von den Extremwerten P = 0 und P = 100 ab, wo mangels Streuung
in den Aufgabenbeantwortungen eine Korrelation nicht bestimmbar ist, so ermöglichen in den anderen Fällen alle Werte von P die maximale Trennschärfe von rit = 1.0.
Das gilt nicht nur für kontinuierliche, sondern auch für binär abgestufte Itembeantwortungen. Unabdingbare Voraussetzungen sind im letzteren Fall allerdings, dass
nicht nur die vom Item vorgenommene Trennung mit derjenigen der Gesamtskala
übereinstimmt, sondern auch der Phi-Koeffizient benutzt wird und für die Berechnung des Zusammenhanges die Aufteilung der Probandenstichprobe gemäß der
Schwierigkeit des jeweiligen Items vorgenommen wird (z. B. bei P = 10 in zwei Gruppen von 10% mit höheren und 90% mit niedrigeren Testleistungen; s. Moosbrugger &
Zistler, 1993). Dieses sei veranschaulicht für den Fall, dass ein Item P = 10 mit dem
Gesamttestwert korreliert, der (ebenfalls) eine Aufteilung von 10:90 (Löser zu NichtLöser) aufweist:
Implikationen
Wie die oben angeführten Daten der Optimismusskala zeigen, weisen hier die Effekte
der Teil-Ganzheits-Korrektur nur ein vergleichsweise geringes Ausmaß auf. Auch wenn
der Arbeitsaufwand von daher mitunter in keinem vernünftigen Verhältnis zum Erkenntnisgewinn zu stehen scheint, sollte doch aus grundsätzlichen Erwägungen heraus
stets auf der Part-whole-Korrektur bestanden werden.
Wie aus dem Vergleich von r(t-1) und r ersichtlich ist, liegen die Part-whole-Koeffizienten erwartungsgemäß bei allen Items niedriger als die nichtkorrigierten Werte.
Die Differenzen sind auch bei der wesentlich größeren Personenstichprobe in etwa dieselben.
r(t-i)
r
1
An einer Stichprobe von N = 1.216 Personen aus der Erhebung von Schmidt-Rathjens et al.
(1994) ergaben sich die folgenden Koeffizienten:
8
7
6
5
4
3
2
1
Pbn
1
2
3
4
5
6
7
8
r(t-i)
r
Items
. Tabelle 2.9. Die 8 Items der AI-Skala (8 Pbn), individuelle Skalenscores, Part-whole-Korrelationen r(t-i) und Korrelationen r, bei denen das Item im Gesamtwert noch enthalten ist
2.2 · Konstruktionsprinzipien psychometrischer Tests
125
2
2
. Abb. 2.29. Der Zusammenhang zwischen Grundquote und Korrelationskoeffizient bei sich nicht überlappenden Verteilungen der
Testwerte von 2 Gruppen.
(Aus Hollmann, 1993, S. 39)
Höhe der Trennschärfewerte bei hoher
Homogenität
+
–
10
Item
+
10
90
90
–
10
90
100
Auch bei extremer Schiefe der beiden Randverteilungen ist also eine perfekte Korrelation möglich. Empirisch stellt sich jedoch meist eine umgekehrt u-förmige Beziehung
in dem Sinne dar, dass mit sehr niedrigen und sehr hohen Schwierigkeiten eher mäßige, mit mittleren Werten von P eher hohe Trennschärfen einhergehen. Einer der
Gründe dafür mag in methodischen Limitierungen zu suchen sein: Für die Berechnung
der Trennschärfen binär gestufter Items wurde häufig der punkt-biseriale Koeffizient
herangezogen, und die Trennung der Stichprobe erfolgte am Median. In solchen Fällen
ist der Maximalwert von 1.0 im Regelfall selbst dann nicht mehr erreichbar, wenn der
Testwert eine perfekte Trennung der beiden Gruppen von Itembeantwortungen leistet.
Hollmann (1993) hat dazu Modellrechnungen durchgeführt und für den Spezialfall
einer Gleichverteilung (jeder Testwert von 1 bis 100 trat nur einmal auf) gezeigt, dass
die Trennschärfe maximal den Wert rit = 0.866 erreichen kann (. Abb. 2.29). Je nach
dem Verhältnis der Varianzen innerhalb und zwischen den Gruppen resultieren andere Obergrenzen.
Von erheblichem Belang für die Höhe der Trennschärfe sind vor allem die Interkorrelationen eines Items mit den übrigen Aufgaben. Nur wenn die anderen Items das
gleiche messen wie das jeweils betrachtete Item, also bei hohen Interkorrelationen und
damit einer hohen Homogenität, sind auch eher hohe Trennschärfenindizes möglich.
Eine Interkorrelation zwischen den Items, etwa in der Nähe von rj = 1,0 oder nur wenig darunter, setzt aber exakt gleiche Schwierigkeiten voraus, denn wenn ein Item
häufiger gelöst wird als ein anderes, ist eine derart hohe Interkorrelation nicht möglich. Mit anderen Worten führt bereits die Variation von Schwierigkeitskoeffizienten
zwischen den Items einer Skala zu einer Reduktion der Interkorrelationen und damit
zu Einbußen an Homogenität bzw. zu einem Gewinn an Heterogenität.
Als Produkt mit der Streuung [7 (2.67)] bildet der Trennschärfenindex den sog.
Stabilitätsindex:
Gesamttest
Kapitel 2 · Grundlagen diagnostischer Verfahren
Empirischer Zusammenhang von Trennschärfe und Schwierigkeit
126
(2.72)
rit
2 ⋅ si
(2.73)
Das Prinzip von Sel besteht nun darin, dass bei niedrigen Werten von Sel die betreffenden Items ausgeschieden werden, ohne dass dabei die Gefahr besteht, auf diesem Wege
zuviele Items mit extremer Schwierigkeit zu verlieren.
Da die Trennschärfe im Zähler des Quotienten steht, wächst Sel mit steigender
Trennschärfe, legt also unter sonst gleichen Voraussetzungen (d. h. bei Konstanz des
Schwierigkeitsgrades) eine Auswahl zugunsten der trennschärferen Items nahe. Was
hingegen die Aufgabenstreuung angeht, so ist diese, wie oben bereits dargelegt, bei
! Bei der Auswahl von Items für die Testendform gehen die Vorgaben deshalb gewöhnlich dahin,
5 Items mit niedriger Trennschärfe auszuscheiden, selbst wenn ihre Schwierigkeit
optimal ist, also im Mittelbereich liegt, und umgekehrt
5 Items mit hoher Trennschärfe zu behalten, selbst wenn sie extrem schwierig oder
leicht sind.
Diese Formel ist entwickelt worden, um eine Orientierungshilfe bei der Selektion ungeeigneter Aufgaben bei homogenen Niveautests zu haben.
Gewöhnlich sind Tests einer solchen Provenienz durch konfligierende Ziele gekennzeichnet: Einerseits sollen die Items hoch trennscharf sein, andererseits die Schwierigkeitsgrade möglichst weit streuen, damit (auch in den Randbereichen) eine möglichst
gute Differenzierung gewährleistet ist und viele Merkmalsabstufungen auftreten.
Sel = Selektionskennwert.
Sel =
Wie leicht zu erkennen ist, erreicht der Stabilitätsindex ein Maximum, wenn sowohl die
Trennschärfe als auch die Aufgabenstreuung ihrerseits maximal sind, d. h. unter den
Bedingungen rit = 1,0 und si = 0,5 resultiert ein Wert für SI = 0,5. (Um diesen Wert in
Analogie zu einem Korrelationskoeffizienten zu setzen, bedarf es der Multiplikation mit
dem Faktor 2.) Wie schon bei der Erörterung des Schwierigkeitskoeffizienten dargelegt
wurde, sind P-Werte um 50 für die Differenzierung von großer Bedeutung; allerdings
tragen sie nichts zur Stabilität des Items – und mittelbar zu jener der Skala – bei, wenn
nicht zugleich das Item trennscharf ist, also die Differenzierung des Items mit jener aus
dem Mittel der übrigen Items im großen und ganzen übereinstimmt. Andererseits leistet
jedoch auch ein Item mit hoher Trennschärfe, aber extremer Schwierigkeit keinen substantiellen Beitrag zur Gesamtstabilität des Tests, weil dann der Zugewinn an Differenzierung (und das bedeutet letztlich: Streuung der Skalenscores) nur minimal ist.
Auch in einem ganz anderen Maße erfolgt die simultane Berücksichtigung von Trennschärfe und Aufgabenstreuung, nämlich in Form des sog. »Selektionskennwertes« (Lienert, 1989, S. 141 ff.), bei dem Trennschärfe und (doppelte) Aufgabenstreuung ins Verhältnis gesetzt werden:
SI = Stabilitätsindex,
rit = Trennschärfe,
si = Standardabweichung der Aufgabe.
SI = rit ⋅ si
2.2 · Konstruktionsprinzipien psychometrischer Tests
2
Verhältnis von Selektionskennwert, Trennschärfe und Aufgabenstreuung
Auswahl von Items für
die Testendform
Selektionskennwert
Maximale Stabilität bei
maximaler Trennschärfe und maximaler
Aufgabenstreuung
127
2
2.2.7.3 Homogenität im Sinne der klassischen Testtheorie
Bei der Homogenität handelt es sich um ein Kriterium, das im Unterschied zur Schwierigkeit und weniger noch als die Trennschärfe nur auf ein bestimmtes Item angewendet
werden kann. Vielmehr erfolgt hier ein Bezug auf die Gegebenheiten auch bei anderen
Items, so dass es meist auf dasselbe hinausläuft, von Homogenität der Items bzw. von
Homogenität einer Skala zu sprechen.
Gemeint ist hiermit das Ausmaß von formaler und inhaltlicher Einheitlichkeit.
Sofern der Itemtypus gleich bleibt und dessen Inhalt offenkundig ein- und demselben
Aspekt einer Merkmalsdimension gilt, sind die Items (und damit die Skala, die sie
konstituieren) homogen (. Abb. 2.30).
Ungeachtet der geschilderten Regeln mag es im konkreten Einzelfall auf die spezifischen Intentionen der Testkonstruktion ankommen, nach welchen Gesichtspunkten
Aufgaben ausgewählt werden. So könnte es wichtig sein, bestimmte Items wegen der
darin enthaltenen Thematik (also inhaltlicher und nicht formaler Kriterien) zusätzlich
aufzunehmen, oder im Hinblick auf das zu erwartende Fertigkeitsniveau der Probanden eine für die spezifische Gruppe mittlere Schwierigkeit anzustreben usw. Welche
Gegebenheiten auch immer vorliegen: Obwohl der Selektionskennwert eine objektive
Auswahlentscheidung nahelegt, würde es sich doch empfehlen, jeweils auch auf die
darin enthaltenen einzelnen Komponenten, also Trennschärfe und Schwierigkeit, gesondert zu achten.
Im Fall A würde der Selektionskennwert nahelegen, eher Item 1 als Item 2 in die
Endform des Tests zu übernehmen, im Fall B eher Item 3 als Item 4.
Sel′4
Sel′3 =
.50
= .63.
2 .80 ⋅ .20
.50
=
= .50.
2 .50 ⋅ .50
Fall B: Trennschärfe konstant (hier: rit = .50), Schwierigkeit variiert:
Item 3: P = 80,
Item 4: P = 50,
Sel′2
Sel′1 =
.60
= .60 ,
2 .50 ⋅ .50
.40
=
= .40.
2 .50 ⋅ .50
Fall A: Trennschärfe variiert, Schwierigkeit konstant (hier: P = 50):
Item 1: rit1 = .60,
Item 2: rit2 = .40,
Beispiel
mittleren Schwierigkeitsgraden hoch. Sie bewirkt, da sie im Nenner steht, unter diesen
Gegebenheiten (also P zwischen 40 und 60) eine Minderung des Quotienten oder umgekehrt: Extreme (hoch oder niedrige) Schwierigkeiten führen zu hohen Werten von
Sel, d. h. Items mit extremen Schwierigkeiten haben eine größere Chance, nach Maßgabe des Selektionskennwertes ausgewählt zu werden als solche mittlerer Schwierigkeit.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Homogenität als
Ausmaß formaler und
inhaltlicher Einheitlichkeit
128
Das ist der Fall bei Konzentrationstests wie dem d2 von Brickenkamp (1981) oder
dem Konzentrations-Leistungs-Test (KLT) von Düker und Lienert (1965), des Weiteren
auch bei Verfahren zur Erfassung spezieller Aspekte der Intelligenz, wie beispielsweise
dem Figure-Reasoning-Test (FRT) von Daniels (1967), allen Rechen-, Analogie- und
räumlichen Vorstellungstests usw. Im Persönlichkeitsbereich zählen dazu Skalen zur
Erfassung von Gewohnheiten oder solche auf dem Niveau von primären Traits.
Mit homogenen Skalen lassen sich nur eng umschriebene Merkmalsaspekte erfassen, eben weil die Items mehr oder weniger immer dasselbe messen.
Umgekehrt steht der Begriff Heterogenität für formative und inhaltliche Vielgestaltigkeit der Items. In einem solchen Fall ist intendiert, durch Variation der Itembeschaffenheit (z. B. Ergänzungs- oder Mehrfachwahlaufgaben) und/oder inhaltlicher Bereiche (z. B. verbale und arithmetische Fragen) ein möglichst breites Spektrum von Verhaltensmanifestationen abzudecken. Entsprechend dienen solche Verfahren der Erfassung eher globaler Dimensionen wie der Allgemeinen Intelligenz, beispielsweise mit
2.2 · Konstruktionsprinzipien psychometrischer Tests
2
Beispiele heterogener
Verfahren
Heterogene Verfahren
zur Erfassung globaler
Dimensionen
Beispiele homogener
Skalen
. Abb. 2.30. Items z. B. zur
Wahrnehmungsgeschwindigkeit (Perceptual Speed) –
hier: Untertest »Beobachtung« aus dem Wilde-Intelligenz-Test (WIT) – sind in der
Regel homogen
129
2
Homogenitätskonzept
von Guttman
Operationalisierung
der Homogenität
.25
–.01
–.03
.21
–.01
4
5
6
7
8
.10
.27
3
Mittelwert
–.02
1.00
1
2
1
Items
.14
.29
–.03
.32
.14
.13
.08
1.00
–0.9
2
.22
.16
.32
.06
–.06
.59
1.00
.02
.23
3
.25
.22
.34
–.12
–.03
1.00
.53
.08
.26
4
.06
.20
–.03
.19
1.00
.01
–.04
.12
–.02
5
.16
.38
–.02
1.00
.20
.09
.01
.34
–.10
6
.17
.11
1.00
.01
–.03
.26
.26
–.03
.15
7
.20
1.00
.05
.35
.17
.13
.05
.29
–.02
8
.16
.15
.10
.13
.06
.21
.16
.11
.06
.12
Mittelwert
. Tabelle 2.10. Interkorrelationen zwischen den 8 Items der schon in . Tab. 2.7 erwähnten
Optimismusskala. Oberhalb der Diagonalen die Werte für männliche Probanden (N zwischen
2.435 und 2.444), unterhalb der Diagonalen die Werte für weibliche Probanden (N zwischen
2.633 und 2.659). In der letzten Spalte bzw. Zeile die Mittelwerte der Interkorrelationen (Mittelwerte nach Fishers Z-Standardisierung)
2.2.7.4 Andere Homogenitäts-Konzepte
Über korrelative Definitionen der Homogenität hinaus führt das Konzept von Guttman (1950). Diesem zufolge sind Skalen dann homogen, wenn jene Probanden, die
Hilfe der Systeme von Binet oder Wechsler. Aus dem Temperamentsbereich zählen alle
Fragebogen zu den sekundären Traits oder auch »types« zu dieser Kategorie, darunter
z. B. auch das Eysenck-Personality-Inventory (EPI; Eysenck 1970) zur Erfassung der
Dimensionen Extraversion, Neurotizismus und Psychotizismus, des Weiteren auch die
Sekundärfaktoren Maskulinität und Extraversion/Introversion innerhalb des Freiburger Persönlichkeitsinventares (FPI) von Fahrenberg et al. (1989).
Eine hohe Homogenität resultiert zwangsläufig aus der induktiven Skalenkonstruktion. Das geschieht besonders dann, wenn dabei auch Faktorenanalysen herangezogen
und damit »faktorreine« Dimensionen generiert wurden, d. h. solche, die nicht nur in sich
homogen, sondern auch wechselweise voneinander unabhängig sind. Meist führt auch
die Entwicklung nach deduktiven Prinzipien zu homogenen Skalen. Hingegen entstehen
bei der Anwendung der externalen Strategie eher heterogene Tests. Auf die spezifischen
Eigenschaften der aus diesen unterschiedlichen Methoden erwachsenen Skalen ist bereits
an anderer Stelle eingegangen worden (7 Abschn. 2.2.6). Was die Operationalisierung
von Homogenität vs. Heterogenität angeht, so sind dafür verschiedene Maße vorgeschlagen worden. Dem Duktus der bisherigen Ausführungen entspricht am ehesten eine quantitative Fassung im Sinne der korrelativen Übereinstimmung eines Items mit den anderen
Items der Skala, z. B. als Mittelwert der Korrelationen eines Items mit allen anderen Aufgaben der Skala. Entsprechend bemisst sich die Homogenität der Skala als Mittelwert
aus den einzelnen (gemittelten) Korrelationen. . Tabelle 2.10 gibt dafür ein Beispiel.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Skalenkonstruktion
und Ausmaß der
Homogenität
130
+
+
+
3
2. Glauben Sie, dass Sie nach Ihrer
Entlassung eine freundliche oder
eine unfreundliche Einstellung zum
Heer mit sich nehmen werden?
(freundlich = +)
3. Glauben Sie, dass das Heer sich
nach besten Kräften um das Wohlergehen seiner Angehörigen bemüht
hat? (ja = +)
Summe X
1
–
–
+
3
0
–
–
–
4
2
+
–
+
5
2
+
+
–
6
1
–
+
–
7
1
+
–
–
8
ein Item bestimmter Schwierigkeit lösen, auch alle Items geringerer (»darunterliegender«) Schwierigkeit meistern. Das schwerste noch gelöste Item kennzeichnet
demgemäß die individuelle Leistungsfähigkeit. Da diese Leistung hinreicht, um
das betreffende Item zu schaffen, muss sie (»erst recht«) genügen, um alle leichteren
ebenfalls zu lösen. Derartige Erwägungen sind auch übertragbar auf den Bereich der
Einstellungsmessung, aus dem zur Explikation der maßgeblichen Prinzipien die Daten
in . Tab. 2.11 stammen.
Wiedergegeben sind die Antworten von 1000 Unteroffizieren, die gegen Ende des
Zweiten Weltkrieges nach ihrer Einstellung zum Heer befragt wurden. Aus den Zeilensummen geht hervor, dass Äußerung 3, die eine am meisten positive Einstellung thematisiert, am wenigsten häufig bestätigt wurde, gefolgt von 2, die ihrerseits etwas positiver
ist als 1. Angesichts einer derartigen Abstufung darf erwartet werden, dass alle Probanden, die 3 akzeptieren, auch 2 und 1 bejahen, und alle Probanden, die der Einstellung 2
zustimmen, dieses auch bei 1 so tun. Von daher wären nur die 4 »reinen« Antworttypen
mit den Ziffern 1 bis 4 in der Tabelle zu gewärtigen, für die in der Zusammenschau ein
Dreiecksmuster der Beantwortungen charakteristisch ist. In der Tat folgt ein sehr großer
Teil der Probanden (nämlich N = 808 oder 80,8%) dieser Erwartungsregel. Für diese
Gruppe ist die fragliche Skala im strengen Sinne homogen. Die restlichen Befragungspersonen haben offenkundig bei der Beantwortung der einzelnen Items noch andere
Gesichtspunkte herangezogen und somit den »Reproduzierbarkeitskoeffizienten« von
0,808 unter jene Grenze von 0,9 gedrückt, die von Guttman (1950) als Minimum für eine
Qualifizierung von Skalen im Sinne von »homogen« definiert wurde.
Hinter der überzeugenden Logik dieses Ansatzes bleibt leider der empirische Ertrag
sehr weit zurück. Nur im Einstellungsbereich ist es gelungen, etwa für Ethnozentrismus
und für soziale Distanz gegenüber spezifischen Minoritäten hinreichend homogene
Skalen zu konzipieren. Hingegen fehlen vergleichbare Instrumente im Leistungsbereich fast vollständig.
Die Darlegung der Guttman-Prinzipien erleichtert das Verständnis für den Ansatz
und die Schätzformel von Loevinger (1947) zur Bestimmung von Homogenität:
2
–
+
+
2
1
Pbn
1. Glauben Sie, dass das Heer im allgemeinen gut organisiert ist?
(gut = +)
Items
. Tabelle 2.11. Typen von Antworten, die bei einer Befragung von N = 1000 Unteroffizieren
nach ihrer Einstellung zum Heer aufgetreten sind
2.2 · Konstruktionsprinzipien psychometrischer Tests
Bisher nur wenige
Guttman-homogene
Skalen konzipiert
131
2
2
N (∑X 2 −∑X) + ∑Ni 2 − (∑X)2
2 N (∑Ni − ∑X ) + ∑Ni 2 − (∑X)2
(2.74)
Vx - Vhet
.
Vhom - Vhet
(2.75)
165
330
660
130
390
1170
1
1
259
259
259
+
–
–
3
0
0
254
0
0
–
–
–
4
2
4
87
174
348
+
–
+
5
11
22
44
2
4
–
+
+
6
68
68
68
1
1
–
+
–
7
26
26
26
1
1
–
–
+
8
1000
1269
2575
641
374
254
Ni
615273
410881
139876
64516
Ni2
2151
641
748
762
iNi
Anzahl = Häufigkeit, mit der jeder der Antworttypen aufgetreten ist. X = Rohwert (als die Summe der Bejahungen). Ht = 1000(2575 – 1269) + 615273 – 12692/2000(2151 – 1269) + 615273 –
12692 = 0.404. Die aus der Tabelle entnommenen Summenwerte, in die Formel eingesetzt, ergeben einen Homogenitätsindex von Ht = 0.404.
Anzahl
X·A
X2 · A
2
4
+
+
–
2
3
9
+
+
+
1
2
3
X
X2
1
Item
. Tabelle 2.12. Matrix der Antworten von N=1000 Soldaten. (Vergl. zum Inhalt der Items
. Tab. 2.11.) Aufgetretene Antworttypen
Obwohl primär für Leistungstests gedacht, ist der Ansatz auch anwendbar auf den
Bereich sozialer Einstellungen. Für den Fall der oben bereits geschilderten Befragung von Soldaten ergibt sich folgende Matrix (. Tab. 2.12)
Beispiel
= Varianz der Testwerte,
Vx
Vhet ; Vhom= Varianz eines vollkommen heterogenen bzw. homogenen Tests mit gleicher
Verteilung der Aufgabenschwierigkeiten.
Ht =
Diese Konzeption ist strenggenommen nur für reine Niveautests sinnvoll. Es wird
davon ausgegangen, dass es bei völlig homogenen Tests nicht vorkommen darf, dass
von einem oder mehreren Probanden eine schwere Aufgabe gelöst wird, leichtere aber
nicht gelöst werden können. Eine Ausnahme ist dann möglich, wenn zufällige Fehler
vorliegen oder es sich um Heterogenität handelt. Das heißt, die Aufgaben unterscheiden
sich nicht nur hinsichtlich ihrer Schwierigkeit, sondern auch in Bezug auf dasjenige,
was sie erfassen.
Konzeptuell soll diese Schätzung der Homogenität folgende Varianzanteile erfassen:
N = Anzahl der Probanden,
X = Rohwert eines Probanden,
i = Schwierigkeitsrangplatz einer Aufgabe. (Von den insgesamt n Aufgaben erhält die
leichteste den Rangplatz 1, die schwierigste den Rangplatz n),
Ni = Anzahl der Probanden, die die Aufgabe mit dem Rangplatz i richtig beantwortet
haben.
Ht =
Kapitel 2 · Grundlagen diagnostischer Verfahren
Varianzanteile
und Homogenität
132
? 1. Erläutern Sie die Grundzüge der 4 wesentlichen Konstruktionsprinzipien psychologischer Testverfahren
(rationale, externale, induktive und prototypische
Methode).
(zu Abschnitt 2.2)
Übungsfragen
2
Homogenität nach
dem Rasch-Modell
Homogene Tests haben
höhere Varianzen als
heterogene
133
liegen einer Theorie darüber, wie sich Personen hinsichtlich bestimmter
Merkmale (z. B. »Geselligkeit« oder »Ängstlichkeit«) beschreiben und
unterscheiden lassen. Ausgehend von Bezeichnungen, die geeignet sind,
Persönlichkeitszüge zu beschreiben, wird zunächst das Konstrukt näher
definiert und spezifiziert (»Geselligkeit« wird etwa spezifiziert in die
Subgruppen »Kontaktfähigkeit« und »Kontaktbedürfnis«). Für jeden
Bereich werden sodann Items in Form von Aufgaben oder Fragen nach
möglichen Verhaltensweisen zu Skalen oder Subtests zusammengestellt,
die dafür als Indikatoren in Betracht kommen.
Ansatzpunktder»externalen«oderkriteriumsbezogenenSkalenkonstruktion ist das Vorliegen verschiedener Gruppen von Personen als Teil der
sozialen Realität. Den Mitgliedern der Gruppen wird eine möglichst
große und inhaltlich breit gefächerte Zahl von Items zur Beantwortung
vorgelegt, in der Erwartung, dass sich darunter einige befinden, die zwischen den Gruppen empirisch diskriminieren, also eine unterschiedliche Lösungswahrscheinlichkeit zeigen. Diese Items werden sodann selegiert und zu Skalen zusammengestellt, die zwischen den Gruppen
statistisch bedeutsam unterscheiden und bei denen diese Diskrimination einer Kreuzvalidierung an weiteren Personen standhält.
Die »induktive« Methode stützt sich auf die Korrelationsrechnung. Die
Orientierung erfolgt also weder an einer bestimmten Theorie noch an
einer vorfindbaren Personengruppe: die Items werden vielmehr »blindanalytisch« zu Skalen gruppiert, die miteinander hoch korrelieren und
damit eine gemeinsame Dimension konstituieren. Bei der Konstruktion
umfangreicher Testsysteme wird das Ziel insofern erweitert, als zur Forderung nach hohen Korrelationen innerhalb einer Skala noch diejenige
nach niedrigen Korrelationen mit den Items anderer Skalen hinzukommt. Gewöhnlich werden diese Teilziele simultan durch die Anwendung faktorenanalytischer Techniken erreicht.
Der »Prototypenansatz« hat als Ausgangsbasis die Feststellung, dass die
Objekte der Umwelt von uns in verschieden breiten Kategorien gruppiert
! Ad 1. Ausgangspunkt der »rationalen« Skalenkonstruktion ist das Vor-
Ausgangspunkt dafür ist die Überlegung, dass homogene Tests stets höhere Varianzen
aufweisen als heterogene. Das geschieht deshalb, weil bei der Addition der Varianzkomponenten infolge der eher hohen Interkorrelationen zwischen den homogenen
Items zusätzlich zu den Varianzen der einzelnen Items noch größere Kovarianzterme
hinzukommen, eben diese aber bei heterogenen Tests fehlen bzw. sehr viel niedriger
ausfallen (7 Abschn. 2.1.1).
Eine weitere bedeutende Definition erfährt die Homogenität im Rahmen des RaschModells (7 Abschn. 2.1.2): Die gegenüber dem Guttman-Modell wesentlich realitätsnäheren Modellannahmen erlauben die Anwendung spezieller Modelltests, mit deren
Hilfe eine empirisch belegbare Antwort auf die Frage gegeben werden kann, ob und
welche Testitems als Indikatoren des zu untersuchenden latenten Traits (Disposition,
Einstellung oder Fähigkeit) aufgefasst werden können. Beispiele für gelungene Testkonstruktionen nach dem Rasch-Modell finden sich in 7 Abschn. 2.1.2.
2.2 · Konstruktionsprinzipien psychometrischer Tests
2.3.3
2.3.2
2.3.1
Hauptgütekriterien – 138
2.3.1.1 Objektivität – 138
2.3.1.2 Reliabilität oder Zuverlässigkeit – 141
2.3.1.3 Validität oder Gültigkeit – 149
Nebengütekriterien – 161
2.3.2.1 Normierung – 162
2.3.2.2 Testfairness – 167
Wechselbeziehungen zwischen Gütekriterien – 174
Gütekriterien psychometrischer Tests und ihre Bestimmung
In ihrer spezifischen Bündelung oder Kombination konstituieren die einzelnen Items
bestimmte Skalen oder Tests. Um deren psychometrische Eigenschaften beschreiben
zu können, sind verschiedene Kriterien entwickelt worden. Prinzipiell lassen sich diese
Beurteilungsmaßstäbe zwar auch auf jedes der Items selbst anwenden, doch dient gerade die Zusammenfassung von Items zu Skalen dem Ziel, eben dadurch die möglichen
Unzulänglichkeiten einer punktuell-singulären Messung auf Itemebene zu überwinden
und für den Itemverband als Ganzes ein qualitativ höheres Niveau zu erreichen, als es
für jedes Einzelelement gegeben ist. Beispielsweise ist für die Reliabilität bereits gezeigt
worden (7 Abschn. 2.1.1.4), dass bei der Addition mehrerer Itembeantwortungen ein
stärkeres Anwachsen der Varianzkomponenten zugunsten der wahren Merkmalsunterschiede relativ zu den Fehleranteilen zu erwarten ist und dadurch das Ganze in gewisser
Weise mehr darstellt als die Summe seiner Teile.
Der Katalog einschlägiger Kriterien ist nicht verbindlich definiert. Ein vergleichsweise breites Spektrum von Bewertungsmaßstäben haben Amelang et al. für das Testkuratorium der Föderation Deutscher Psychologenverbände (1986) erarbeitet (7 unten). Die darin thematisierten Anforderungen an die Qualität psychologischer Tests
sind vielfältig und können deshalb kaum jemals von einem einzigen Verfahren in gleichem Ausmaß erfüllt werden, zumal sie nicht alle miteinander vereinbar sind.
Bei der umfassenden Beurteilung einer diagnostischen Methode kommt es deshalb in gewissen Grenzen auf die jeweils vorliegenden Umstände, Bedingungen und
Zielsetzungen an, mit der Folge einer fallweise etwas unterschiedlichen Gewichtung der
einzelnen Kriterien. Die Berücksichtigung von Fragestellung und Kontextbedingungen
erweitert aber den Kriterienkatalog derart wesentlich, dass letztlich der gesamte diagnostische Prozess bestimmten Anforderungen genügen muss. Diese sind in den Standards für pädagogisches und psychologisches Testen (Häcker, Leutner & Amelang,
1998) festgehalten; ausführlich werden darin unter anderem auch die Standards für eine
fachlich kompetente Testanwendung und für spezifische Vorgehensweisen definiert.
Speziell für die Bewerberauslese mittels Leistungstestungen sind die einzelnen Schritte
der Eignungsfeststellung inzwischen durch eine Normierung nach DIN-Prinzipien
geregelt worden. Einer der dafür maßgeblichen Gedanken bestand darin, mit einer
DIN-Norm einen Beitrag zum »Verbraucherschutz« im weitesten Sinne zu leisten, also
im Falle psychologisch-diagnostischer Dienstleistungen den Interessenten oder Auftraggeber vor unseriösen Angeboten zu schützen.
Mit dem Einbezug von Kontextbedingungen wird eine gewisse Flexibilität in der
Handhabung der Bewertungsmaßstäbe eingeräumt; dieses gilt aber für die einzelnen
Kriterien in unterschiedlicher Weise: Denn von zentraler Bedeutung für die Qualität
2.3
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
Gewichtung der
Gütekriterien bei der
Beurteilung
Kriterienkatalog zur
Testbeurteilung
135
2
2
Kriterien zur Durchführung eines Tests
Kriterien zu den Grundlagen eines Tests
Im Folgenden werden einige Gesichtspunkte angegeben, die bei der Beurteilung
eines Testverfahrens von Bedeutung sind. Teilweise handelt es sich bei den genannten Aspekten um widersprüchliche Forderungen, denen kaum jemals von
einem Testverfahren gleichermaßen Rechnung getragen werden kann. Bei der
Beurteilung einer diagnostischen Methode kommt es auf die jeweils besonderen
Umstände, Bedingungen und Zielsetzungen an, die aber deutlich zu erkennen
und nachvollziehbar sein müssen; vor diesem Hintergrund werden die genannten
Kriterien im Einzelfall zu gewichten sein.
Grundlage für die Testbewertung ist prinzipiell das Testmanual; dieses muss
so beschaffen sein, dass die wichtigsten Aussagen zu den für die Beurteilung relevanten Punkten daraus erarbeitet werden können.
1. Testgrundlage
1.1. Diagnostische Zielsetzung. Die Angaben zu diesem Punkt sollen es dem Benutzer ermöglichen, den Beitrag des Verfahrens zu einer diagnostischen Entscheidungsfindung zu erkennen. Dies betrifft sowohl den prinzipiellen diagnostischen
Ansatz (etwa Zustandsdiagnostik, Veränderungsmessungen) als auch den vom Testautor intendierten Beitrag im Rahmen einer umfassenderen diagnostischen Informationssammlung. Wenn das Verfahren von seiner Zielsetzung oder vom aktuellen
Entwicklungsstand her nicht für eine Einzelfalldiagnostik geeignet, sondern nur für
Forschungszwecke vorgesehen ist, sollte dies explizit angegeben werden.
1.2. Theoretische Grundlagen. Hier ist deutlich zu machen, in welcher Weise das
Verfahren auf den Ergebnissen der wissenschaftlichen Psychologie aufbaut. Die relevante Grundkonzeption muss ohne zusätzliche Sekundärliteratur erkennbar sein.
Modifikationen etablierter theoretischer Vorstellungen durch den Testautor sind
besonders deutlich zu machen.
1.3. Nachvollziehbarkeit der Testkonstruktion. Der Benutzer muss durch die
Angaben zu diesem Punkt in angemessener, ausführlicher und verständlicher
Weise in die Lage versetzt werden, die einzelnen Arbeitsschritte bei der Erstellung
der Testmaterialien kritisch zu bewerten. Hierzu gehören insbesondere Angaben
über die Veränderung bzw. Selektion von ursprünglich aus theoretischen Überlegungen heraus zusammengestellten Indikatorenmengen.
2. Testdurchführung
2.1. Durchführungsobjektivität. Das Ausmaß, in dem die Unabhängigkeit des
Tests von der Person des Untersuchungsleiters durch die Vorschriften der Testinstruktion und aller übrigen Durchführungsbedingungen gesichert ist.
2.2. Transparenz. Das Ausmaß, in dem aus der Beschaffenheit eines Verfahrens
die Spezifität und dessen Messfunktion und Auswertung ersichtlich sind.
2.3. Zumutbarkeit. Das Ausmaß, in dem ein Test (absolut und relativ zu dem aus
der Anwendung des Verfahrens resultierenden Nutzen) die getestete Person in
zeitlicher, psychischer (insbesondere »energetisch«-motivational und emotional)
sowie körperlicher Hinsicht beansprucht.
2.4. Verfälschbarkeit. Das Ausmaß, in dem ein Test die individuelle Kontrolle
über Art und Inhalt der verlangten bzw. gelieferten Informationen ermöglicht.
6
Präambel
Testkuratorium der Föderation Deutscher Psychologenverbände
Beschreibung der einzelnen Kriterien für die Testbeurteilung
Kapitel 2 · Grundlagen diagnostischer Verfahren
Grundsätze der
Beurteilung nach
diesen Kriterien
136
2.5. Störanfälligkeit. Das Ausmaß, in dem ein Test zur Erfassung habitueller
Merkmalsunterschiede unempfindlich gegenüber aktuellen Zuständen der Person und situativen Faktoren der Umgebung ist.
3. Testverwertung
3.1. Auswertungsobjektivität. Das Ausmaß, in dem die Auswertung des Tests
unabhängig von personenbedingten oder apparativen Störquellen ist.
3.2. Zuverlässigkeit. Messgenauigkeit oder Grad der Erklärbarkeit der beobachteten interindividuellen Unterschiede der Testergebnisse durch tatsächliche psychische Merkmalsunterschiede, untersucht etwa als Stabilität, Äquivalenz oder
interne Konsistenz. Für die Bewertung ist die Angabe der verwendeten Berechnungsverfahren erforderlich.
3.3. Gültigkeit. Das Ausmaß der Treffsicherheit oder diagnostischen Valenz, mit
dem der Test Rückschlüsse auf Verhalten außerhalb der Testsituation oder auf den
Ausprägungsgrad des dem Testverhalten zugrundeliegenden Konstruktes ermöglicht. Bei der Testbeurteilung ist besonderes Schwergewicht auf die Ergebnisse
zum Bereich der Kriteriumsvalidität zu legen.
3.4. Normierung. Ausmaß und Qualität der populationsspezifischen Bezugsgrößen zur Interpretation von Personenparametern, insbesondere zur Bestimmung der relativen Position einer Testperson in bezug auf (u. a. verschiedene)
Populationsverteilungen von Testwerten.
3.5. Bandbreite. Ausmaß der Enge oder Vielfalt des Verfahrens gegenüber
unterschiedlichen Fragestellungen, Gruppen- oder Prognosezeiträumen.
3.6. Informationsausschöpfung. Menge und Qualität der Indikatoren, die bezogen auf verschiedene Ziele, Anlässe oder Probandengruppen begründet aus
den Testantworten abgeleitet werden.
3.7. Änderungssensitivität. Möglichkeiten und Grade der Veränderungsmessung
durch dieses Verfahren, insbesondere im Rahmen von Zeitreihenvergleichen.
4. Testevaluation
4.1. Ökonomie. Das Ausmaß, in dem ein Test bei der Durchführung, Auswertung und Anschaffung als kostengünstig zu bewerten ist.
4.2. Fairness. Ausmaß einer eventuell bestehenden systematischen Diskriminierung bestimmter Testpersonen, z. B. aufgrund ihrer ethnischen, soziokulturellen
oder geschlechtsspezifischen Gruppenzugehörigkeit, bei der Abschätzung von
Kriteriumswerten.
4.3. Akzeptanz. Ausmaß, in dem subjektive Meinungen, Bewertungen oder gesellschaftspolistische Überzeugungen gegen einen Test angeführt werden.
4.4. Vergleichbarkeit. Ausmaß der partiellen Übereinstimmung mit anderen
Untersuchungsverfahren sowie die abweichenden Aspekte, Schwerpunkte oder
Inhalte. Eine vermutete Sonderstellung bzw. Novität des Verfahrens ist besonders
herauszustellen.
4.5. Bewährung. Systematische Aufarbeitung und Bewertung der mit dem Test
gesammelten Erfahrungen, z. B. bezogen auf bestimmte Personengruppen oder
diagnostische Ziele.
5. Äußere Testgestaltung
Die Verständlichkeit des Testmanuals, die probandenfreundliche Gestaltung der übrigen Testmaterialien sowie die Übereinstimmung von Titel und werblicher Darstellung mit dem tatsächlichen Testinhalt werden bei der Beurteilung herangezogen.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Kriterien zur äußeren
Gestaltung eines Tests
Kriterien zur Evaluation eines Tests
Kriterien zur Verwertung eines Tests
137
2
Quantitative
Bestimmung der
Durchführungsobjektivität
Objektivität
2.3.1.1
2. Auswertungsobjektivität. Dieser Aspekt der Objektivität gibt das Ausmaß an, in dem
»das Verhalten als empirisches Relativ in Item- und Test-Scores als numerischem Relativ
eindeutig quantifiziert wird« (Fisseni, 1990, S. 54). Gleiches Verhalten der Testpersonen wird in einem objektiven Test nach stets exakt denselben Regeln abgebildet.
zufällige Variationen im Verhalten des Testleiters und der von ihm hergestellten Durchführungsbedingungen zu Variationen im Verhalten der Testpersonen führen. Um eine
höchstmögliche Invarianz des Testleiterverhaltens zu gewährleisten, wird eine maximale Standardisierung der Testsituation angestrebt. Dazu gehören, was eigentlich keiner weiteren Erwähnung bedarf, nicht nur identische Testmaterialien und Zeitvorgaben,
sondern auch die Abfassung der Instruktion in schriftlicher Form und die Ausarbeitung
von Regeln, wie ggf. auf Nachfragen oder Störungen zu reagieren ist, usw.
In der Konsequenz läuft die strikte Standardisierung der Durchführung auf eine
Minimalisierung der sozialen Interaktion zwischen dem Testleiter und den Testpersonen hinaus, was aber bei projektiven Tests meist nicht möglich ist.
Die quantitative Bestimmung der Durchführungsobjektivität stößt auf erhebliche
Schwierigkeiten. In der Literatur findet sich vielfach die Anregung, die Testergebnisse
ein und derselben Probanden in ein und demselben Test aus Untersuchungen mit verschiedenen Testleitern zu interkorrelieren und den Mittelwert aus den resultierenden
Koeffizienten als beste Schätzung für die Durchführungsobjektivität zu nehmen. In
derartigen Ergebnissen würden sich jedoch auch die Einflüsse von seiten einer unzureichenden Reliabilität niederschlagen (weshalb es durchaus als angemessen erscheint,
Objektivität als einen Teilaspekt der Reliabilität aufzufassen). Abgesehen davon wäre
ein Prozedere kaum zu akzeptieren, bei dem immer neue Testleiter von denselben
Testteilnehmern immer dasselbe verlangen.
Aus diesen Gründen fehlen gewöhnlich quantitative Angaben zur Durchführungsobjektivität. Sie darf als hoch angesehen werden, wenn alle Bedingungen festgelegt sind,
die sich plausiblerweise auf das Testverhalten auswirken können, und wenn darüber
hinaus angenommen wird, dass Wetterlage, Jahreszeit, Wochentag, Tageszeit und ökologischer Mikroraum nur unerhebliche Einflüsse aufweisen.
1. Durchführungsobjektivität. Sie bezeichnet den Grad, in dem mehr oder weniger
Je nach der Phase, in der sich ein möglicher Einfluss des Testleiters auswirken kann,
werden verschiedene Aspekte der Objektivität unterschieden.
Objektivität steht für das Ausmaß, in dem die Ergebnisse eines Tests unabhängig
von der Person des Untersuchungsleiters sind.
Definition
Hauptgütekriterien
2.3.1
von Tests sind i. Allg. die sog. Hauptgütekriterien, nämlich Objektivität, Reliabilität
und Validität, auf die fast ohne Einschränkung ein strenger Maßstab anzulegen ist.
Diese Kriterien betreffen zudem schwerpunktmäßig technische Eigenschaften, welche
die Instrumente mehr oder weniger unabhängig von den Rahmenbedingungen eines
Einsatzes und von den anstehenden diagnostischen Entscheidungen kennzeichnen.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Durchführungsobjektivität durch
Standardisierung der
Testsituation
138
2
sA
.
2
sx
Die Summe der restlichen Varianzkomponenten bildet die sog. Auswertungsfehlervarianz sF2 = sB2 + sC2 + se2, deren Quadratwurzel den Standardauswertungsfehler.
Für die Ermittlung der mittleren Quadrate und Freiheitsgrade gelten die folgenden Terme (. Tab. 2.13):
Anhand der herangezogenen Stichproben von Testprotokollen und Beurteilern
resultierten die folgenden Koeffizienten (. Tab. 2.14):
3
Nach Maßgabe des Standardauswertungsfehlers √ sF2 ergeben sich daraus die
folgenden Konfidenzintervalle für die Rohpunkte (5%) (. Tab. 2.15):
Der »wahre« Rohpunkt eines Probanden kann also allein infolge der mangelnden Auswertungsobjektivität nur mit den angegebenen Unsicherheitsintervallen
bestimmt werden. Weil eine analoge Untersuchung von Michel (1967) für den Subtest Gemeinsamkeiten des Intelligenz-Strukturtests (IST) von Amthauer mit r = .96
ebenfalls nur einen unbefriedigenden Grad an Auswertungsobjektivität ergeben
6
r=
Die Auswertungsobjektivität wird als Intraklassenkorrelation ermittelt, und zwar
hier als Anteil der Varianz zwischen den Testprotokollen an der Gesamtvarianz:
Ansetzend an Ableitungen von Iseler (1967) haben Michel und Mai (1969) die Auswertungsobjektivität für die 3 Untertests Allgemeines Verständnis (AV), Gemeinsamkeiten Finden (GF) und Wortschatztest (WT) der Hamburg-Wechsler-Intelligenztests
für Erwachsene und Kinder (HAWIE bzw. HAWIK) bestimmt (7 Abschn. 3.1.2 und
7 Abschn. 3.1.4). Als allgemeine Strukturgleichung gilt:
sx2 = sA2 + sB2 + sC2 + se2.
sx2 = Varianz aller Testpunktwerte,
sA2 = Varianz zwischen Protokollen,
sB2 = Varianz zwischen den Beurteilern,
sC2 = Wechselwirkung Beurteiler × Protokolle,
se2 = Situationsfehler.
Beispiel
Sofern in Leistungstests oder Persönlichkeitsfragebogen die richtigen Lösungen
bzw. die Antworten im Sinne des Merkmals anhand eines Lösungsschlüssels festgelegt
sind, kann absolute Objektivität unterstellt werden. Allerdings empfiehlt sich den Beobachtungen von Weise (1994) zufolge ein maschinelles Lesen der Antwortbogen, da bei
dem üblichen Auflegen von entsprechenden Schablonen doch erstaunlich viele Ableseund Additionsfehler auftreten.
Etwas geringer ist die Auswertungsobjektivität i. Allg. bei Leistungs- und Persönlichkeitstests, in denen die Antworten in ungebundener Weise erfolgen. In solchen
Fällen werden nicht nur die allgemeinen Anforderungen an vollkommen richtige Lösungen in detaillierter Weise erläutert, sondern auch die häufiger vorkommenden Lösungen als Beispiele für absolut richtige und teilweise korrekte Antworten aufgeführt,
um die Auswertung eindeutiger handhaben zu können. Immer wieder treten jedoch
Fälle auf, für die es kein Vorbild im Katalog der Beispiellösungen gibt und wo auch eine
Rubrizierung aufgrund der allgemeinen Anweisungen nicht ohne Ambivalenzen möglich ist.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Beispiel zur varianzanalytischen Bestimmung der Auswertungsobjektivität
Eher geringe Auswertungsobjektivität
bei ungebundenen
Antwortformaten
Auswertungsobjektivität durch eindeutige
Quantifizierung des
Verhaltens
139
2
MQTP
MQAW
MQTA
Bezeichnung
k-1
n-1
(k-1)(n-1)
Freiheitsgrade
n · σA2 + σC2 + σe2
k · σB2 + σC2 + σe2
σC2 + σe2
Erwartungswert
0.84
0.88
0.96
0.96
GF
0.97
0.96
WT
±2,63
±3,06
AV
±2,04
±1,62
GF
±5,98
±4,49
WT
Am niedrigsten liegt die Auswertungsobjektivität meist bei (Kurz-) Aufsätzen und
insbesondere bei projektiven Tests wie dem Rorschach- oder dem Thematischen
Apperzeptionstest.
Zur quantitativen Bestimmung der Auswertungsobjektivität müssen die Testprotokolle einer Stichprobe von Probanden mindestens 2 verschiedenen Auswertern
vorgegeben werden, die unabhängig voneinander jeweils die Punktwerte ermitteln
oder – im Falle der projektiven Verfahren – die Signierungen vornehmen. Die Korrelation zwischen den beiden Auswertern (bzw. bei mehreren Beurteilern: Die mittlere
Korrelation zwischen ihnen) über die Protokolle gibt das Ausmaß der wechselseitigen Übereinstimmung an. Systematische Unterschiede hinsichtlich der relativen
Strenge des Bewertungsmaßstabes schlagen sich in diesen Korrelationen allerdings
nicht nieder; zur Erfassung derartiger Variationsquellen bedarf es varianzanalytischer
Pläne.
hatte, wurde dieser für die Revision zum IST 70 mit Mehrfachwahlantworten versehen, womit seitdem vollständige Objektivität gegeben ist (7 Abschn. 3.1.2).
HAWIE
HAWIK
. Tabelle 2.15. Konfidenzintervalle aufgrund nicht absoluter Auswertungsobjektivität für 3
Subtests des HAWIE bzw. des HAWIK
HAWIE
HAWIK
AV
. Tabelle 2.14. Auswertungsobjektivität (Intraklassenkorrelation) für 3 Subtests des HAWIE
bzw. des HAWIK
sTP2 = σA2 = (MQTP – MQTA)/n,
sAW2 = σB2 = (MQAW – MQTA)/k,
sTA2 = sC2 + σe2 = MQTA,
sF2 = sAW2 + sTA2 = [MQAW + (k-1)MQTA]/k,
sX2 = sTP2 + sF2,
raa = sTP2/sX2.
Zwischen den Testprotokollen
Zwischen den Auswertern
Wechselwirkung und Situationsfehler
Quelle
. Tabelle 2.13. Varianzanalytische Terme zur Bestimmung der Auswertungsobjektivität
Kapitel 2 · Grundlagen diagnostischer Verfahren
Quantitative Bestimmung der Auswertungsobjektivität
140
Reliabilität oder Zuverlässigkeit
Insofern bleiben Aspekte der inhaltlichen Treffsicherheit (also der Validität) außer
Betracht; nur die Präzision der Messung an sich interessiert hierbei. Ein Test ist dann
vollständig reliabel, wenn mit seiner Hilfe die Lokalisierung der Probanden auf der
jeweiligen Merkmalsdimension absolut fehlerfrei geschieht. In einem solchen Fall ist
der Reliabilitätskoeffizient als Korrelation zwischen verschiedenen Messwerten, erhoben an denselben Probanden, rtt = 1,0. Wie unter 7 Abschn. 2.1.1.1, (2.12) bereits erläutert wurde, ist das gleichbedeutend mit dem Umstand, dass die beobachtete Testwertevarianz zur Gänze durch wahre Messwertunterschiede erklärt wird: Reliabilität als
Quotient der wahren zur Gesamtvarianz.
Weil es verschiedene Zugangsweisen zur Bestimmung der Reliabilität gibt, kann
nicht von »der« Zuverlässigkeit eines Tests gesprochen werden. Aus diesem Grunde
muss bei der Nennung eines Reliabilitätskoeffizienten jeweils auch die Methode er-
Die Reliabilität beschreibt die Genauigkeit, mit der ein Test eine Merkmalsdimension
erfasst, und zwar unter der Vernachlässigung des Umstandes, ob es sich dabei auch
um die Merkmalsdimension handelt, deren Erfassung intendiert ist.
Definition
2.3.1.2
3. Interpretationsobjektivität. Damit bezeichnet man den Grad, in dem die aus den
numerischen Testergebnissen gezogenen Schlüsse unabhängig von der Person desjenigen sind, der diese Interpretationen vornimmt, oder mit anderen Worten: Das Ausmaß,
in dem aus gleichen Scores verschiedener Probanden identische Schlüsse gezogen werden (von einem oder von mehreren Auswertern).
Vollständige Interpretationsobjektivität ist dann gegeben, wenn es lediglich darauf
ankommt, aus den Punktwerten eines Leistungstests oder Persönlichkeitsfragebogens
die individuelle Position auf der jeweiligen Merkmalsdimension zu ermitteln. Bei den
gebräuchlichen Tests bedarf es dazu nur eines Blickes in die entsprechenden Normentabellen, in denen für die einzelnen Rohwerte die dazugehörigen Standardwerte oder
Prozentränge aufgeführt sind. Darüber hinaus liegt absolute Interpretationsobjektivität
auch dann vor, wenn beispielsweise unter Heranziehung von Validitätskoeffizienten
und der Regressionsrechnung auf die Position in einer Kriteriumsdimension geschlossen und damit das relative Ausmaß an Eignung oder Bewährung bestimmt wird. Generell fallen hierunter die einzelnen Schritte der sog. »statistischen« (im Unterschied
zur »klinischen«) Vorgehensweise bei der Kombination von Testresultaten nach vorher
festgelegten oder analytisch ermittelten Regeln, so dass nach Eingabe der individuellen
Testscores kein Einfluss des Testinterpreten mehr möglich ist.
Sehr viel niedriger ist die Objektivität der Interpretation bei den projektiven Tests,
da diese nicht nur den Probanden eine große Bandbreite dahingehend eröffnen, wie
diese die Testmaterialien »interpretieren« können (etwa welche Teile von Klecksbildern
sie deuten und in welcher Weise dies geschieht), sondern häufig genug auch der Intuition und Erfahrung des Testleiters einen größeren Ermessensspielraum offen halten,
welche Schlüsse daraus zu ziehen sind. Allgemein ist die Interpretationsobjektivität
beim »klinischen« Vorgehen geringer, da dort das subjektive Ermessen (als Folge von
Erfahrung und Hypothesengenerierung) bei der Ableitung von Schlussfolgerungen
darüber, was die Testwerte letztlich bedeuten (können), eine sehr viel größere Rolle
spielt.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
»Die« Reliabilität eines
Tests gibt es nicht
Präzision der Messung
an sich
»Klinische«
Vorgehensweise
»Statistische«
Vorgehensweise
Interpretationsobjektivität durch identische
Schlüsse aus gleichen
Scores
141
2
2. Paralleltestreliabilität. Die Vorgabe paralleler Versionen eines Tests an ein und dieselbe Gruppe von Personen gilt weithin als »Königsweg« der Reliabilitätsbestimmung.
Zweckmäßigerweise wählt man für die Bearbeitung der parallelen Formen ein relativ
kurzes Intervall von einigen Tagen und die Vorgabemodalitäten so, dass die eine Hälfte der Probanden die Tests in der Sukzession A vor B, die andere Hälfte B vor A bearbeitet.
Parallel sind Tests dann, wenn die auf der Basis gleicher, aber nicht identischer
Itemstichproben beobachteten Mittelwerte und Standardabweichungen identisch
sowie die Korrelationen zwischen den beobachteten Werten hoch (zwischen den
wahren Werten per definitionem: 1.0) sind.
Die ermittelten Koeffizienten liegen häufig noch unter denjenigen für Retestuntersuchungen. Sie sind jedoch deshalb besonders praxisgerecht, weil sich hier die Reliabilität auf eine insgesamt größere Stichprobe von Items und damit ein breiteres Spektrum
von Aufgabeninhalten bezieht.
Essentielle Voraussetzung für diesen Ansatz ist selbstverständlich das Vorhandensein geeigneter »paralleler« Versionen, die für sich bei Gruppenuntersuchungen
Reliabilität als
Korrelation paralleler
Testformen
Kriterien der Parallelität von Tests
Bedeutung von
Störfaktoren
Teststabilität
1. Testwiederholung (Retest). Ein und derselbe Test wird ein und derselben Stichprobe
von Probanden wiederholt dargeboten, im Regelfall insgesamt 2mal. Die Korrelation
zwischen der ersten und zweiten Vorgabe gibt das Ausmaß der Retest- oder Testwiederholungsreliabilität an.
Bei der Festlegung des optimalen Zeitintervalls für die Wiederholung besteht regelmäßig ein Dilemma: Einerseits gilt es, Erinnerungs- und Übungseffekte zu vermeiden,
wie sie namentlich bei Leistungstests stets zu beobachten sind. Das macht eher lange
Zeitabstände in der Größenordnung von mehreren Wochen oder gar Monaten erforderlich. Andererseits sollen die Testdurchführungen nicht soweit auseinander liegen, dass
zwischenzeitlich auch reale Schwankungen des erfassten Merkmals auftreten und dadurch die messtechnisch-instrumentelle Qualität auf niedrigerem Niveau erscheinen lassen, als es tatsächlich der Fall ist. Insofern ist die Wiederholungsreliabilität auch immer
von der Stabilität des erfassten Merkmals abhängig und wird deshalb auch als »Teststabilität« bezeichnet. Idealiter handelt es sich dabei um die Retestreliabilität, bereinigt um
die mögliche Fluktuation des zugrundeliegenden Merkmals. Das aber setzt voraus, dass
diese über anderweitige Ansätze erfasst werden kann, was nur höchst selten möglich ist.
Sicher sind für Korrelationskoeffizienten systematische Mittelwertszunahmen von
etwa der Hälfte einer Standardabweichung bei der wiederholten Vorgabe von Intelligenztests im Abstand von ca. einem Monat (s. z. B. Amthauer 1957; Catron 1978) völlig
irrelevant. Derartige Übungsgewinne fallen erfahrungsgemäß nach Leistungsstand,
Lernfähigkeit und Gedächtnis interindividuell recht verschieden aus, so dass Retestkoeffizienten eher konservative Schätzungen der Reliabilität liefern.
Angemessen ist die Bestimmung der Reliabilität mittels Wiederholung bei reinen
Speedtests und – mehr noch – bei Persönlichkeitsfragebogen. Hingegen fallen die erwähnten Störfaktoren um so mehr bei Tests aus dem Intelligenzbereich ins Gewicht, je
weniger Items die Skalen enthalten, je eigentümlicher und inhaltlich esoterischer die
Aufgaben sind und je kürzer das Retestintervall ist. In dem Maße, in dem dadurch die
Erinnerung an die zuvor bewerkstelligten richtigen Lösungen begünstigt wird, verändert sich der Charakter eines Verfahrens in Richtung eines Gedächtnistests.
wähnt werden, mit der die Zuverlässigkeit bestimmt wurde. Dafür stehen folgende
Ansätze zur Verfügung.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Reliabilität als Korrelation wiederholter Testdurchführungen
142
3. Testhalbierung. Oftmals besteht aus den verschiedensten Gründen heraus keine
Möglichkeit, eine Testung zu wiederholen oder sie mit parallelen Instrumenten durchzuführen (z. B. weil kein hinreichend langes Zeitintervall abgewartet werden kann, die
Probanden nicht mehr erreichbar sind oder wegen des eigentümlichen Charakters der
Aufgaben von der ersten zur zweiten Messung eine grundlegende Veränderung der
Validität zu befürchten ist oder einfach deshalb, weil Parallelversionen nicht vorliegen).
In solchen Fällen bietet es sich an, die eine Form des Tests in 2 äquivalente Hälften
aufzuteilen und die aus der einmaligen Bearbeitung dieser Teile pro Testperson vorliegenden Messwerte miteinander zu korrelieren. Die Höhe der Korrelation gibt einen
Aspekt der Reliabilität an. Gewöhnlich werden die Koeffizienten nach den Prinzipien
der Spearman-Brown »prophecy formula« auf doppelte Länge der Skala aufgewertet:
Korreliert werden miteinander ja nur Hälften, doch interessiert die Reliabilität der 2mal
so langen Gesamtskala.
Bei diesem Ansatz können Schwankungen der Motivation, der Stimmung und Aufmerksamkeit bzw. Fluktuationen des untersuchten Merkmals praktisch ausgeschlossen
werden. Alle diese Faktoren wirken sich nur in jenem Grade aus, in dem sie über die
Items der Testskala hinweg oszillieren. Von daher kommt die Halbierungstechnik dem
Konzept einer Beschreibung der primär instrumentellen Messgenauigkeit am nächsten.
Voraussetzung ist freilich, dass die Homogenität und Anzahl der Items eine Aufteilung
in 2 Hälften erlauben. Bei zahlreichen projektiven Tests ist diese notwendige Bedingung
nicht gegeben.
Für die Halbierung kommen mehrere Techniken in Betracht:
4 Aufteilung nach geradzahliger und ungeradzahliger Numerierung der Items: Für
jede Versuchsperson wird individuell die Rohwertsumme aus den geradzahligen
Items (also durch Addition der Antworten zu den Items Nr. 2, 4, 6 usw.) und gesondert den ungeradzahligen Aufgaben (also diejenige mit den Nummern 1, 3, 5, 7
usw.) gebildet.
4 Halbierung nach der laufenden Nummer der Items in dem Sinne, dass die Items 1
bis 20 von insgesamt 40 Aufgaben die eine Teilskala, die Items 21 bis 40 die zweite
Teilskala bilden.
4 Aufteilung der Items nach Zufall in jede der beiden Halbformen.
4 Die Halbierung auf der Basis der Analysedaten stellt das anspruchsvollste Konzept
dar. Hierbei werden für alle Items zunächst Schwierigkeit und Trennschärfe ermittelt und unter simultaner Berücksichtigung beider Kennwerte Paarlinge gebildet,
die einander sehr ähnlich sind. Die Zuweisung der einzelnen Items aus solchen
Paarlingen in die Halbskalen erfolgt sodann nach Zufall.
von hohem Wert sind, weil benachbart sitzende Probanden dann unterschiedliche
Formen bearbeiten können. Ihre Herstellung wird allerdings erschwert, wenn es sich
um die Erfassung sehr eng begrenzter Eigenschaften handelt und entsprechend das
Universum denkbarer Items nur klein ist. Ein weiterer Hinderungsgrund liegt dann vor,
wenn die Fragen von gleichsam einmaliger Art sind und deshalb eine Parallelisierung
kaum möglich erscheint, ohne einem Transfer der Lösungsprinzipien und erheblichen
Übungsgewinnen Vorschub zu leisten.
Bei Speedtests, in denen die (gewöhnlich zahlreichen) Items eine hohe wechselseitige
Ähnlichkeit aufweisen, ist demzufolge die Entwicklung von Parallelformen entbehrlich,
da es für die zweite Vorgabe keinen Unterschied bedeutet, ob dieselben oder leicht abgewandelte Items bearbeitet werden müssen. Damit liegt hier eine Art Sonderfall vor, bei
dem die Retest- und Paralleltestmethode gleichsam ineinander übergehen.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Halbierung über
Schwierigkeit und
Trennschärfe
»Odd-even-Methode«
Reliabilität durch Testhalbierung kommt
instrumenteller
Messgenauigkeit am
nächsten
Reliabilität als
Korrelation äquivalenter Testhälften
Praktisch Gleichheit
von Paralleltest- und
Retestmethode bei
Speedtests
Erschwerte Herstellung
paralleler Testformen
143
2
144
evena
3,25
4,25
4,00
4,25
3,75
3,50
4,50
4,00
3,00
2,00
odda
3,50
3,50
3,50
3,25
3,25
2,75
3,25
4,00
3,00
2,00
2,75
4,00
3,50
4,25
3,50
2,75
4,50
3,25
3,25
2,50
3,00
3,75
4,25
4,25
3,50
3,00
4,25
3,00
3,75
2,50
4,00
3,75
4,00
3,25
3,50
3,50
3,25
4,75
2,75
1,50
3,50
3,50
3,75
3,25
3,25
3,00
3,75
4,00
3,75
2,00
Pac
2
5
5
5
4
3
5
2
4
3
6
3,25
4,25
3,75
4,25
3,75
3,25
4,00
4,00
2,25
2,00
Pbc
4
1
5
5
3
3
4
3
4
3
7
2
4
4
5
5
4
4
4
4
8
Bei der Parallelisierung wurden folgende Paare gebildet:
Items 1 und 5, Items 2 und 7, Items 3 und 8, Items 4 und 6.
Diese Paare wurden nun per Zufall auf 2 Gruppen verteilt, so dass folgendes Resultat
entstand:
A: 3, 4, 5, 7. B: 1, 2, 6, 8.
Korrelationen:
4 odd-even: .747,
4 erste-zweite Hälfte: .137,
4 Zufallshalbierung: .217,
4 Parallelisierung nach Trennschärfe und Schwierigkeit: .546.
6
c
b
3,75
4,00
3,25
3,25
3,50
3,25
3,50
5,00
2,25
1,50
Z2b
2
5
2
2
3
2
4
3
4
2
4
3
4
2
3
4
4
5
4
1
Z1b
5
4
5-8
4
5
4
4
4
3
3
5
3
2
3
5
2
5
4
3
5
5
1
2
1-4
3
2
odd/even: Mittelwerte für ungeradzahlige/geradzahlige Itemnummern.
Z1/Z2: Zufallsaufteilung.
Pa/Pb: Parallelisierung (nähere Details 7 unten).
4
3
3
2
3
3
2
5
1
1
1
2
3
4
5
6
7
8
9
10
a
1
Pbn
Items
. Tabelle 2.16. Antworten von 10 Probanden zu den 8 Optimismusitems. In den unteren
Spalten sind pro Proband die Mittelwerte für Teilmengen der Items aufgeführt, die den Berechnungen der Korrelationen im Sinne der im Text erläuterten Methoden zugrunde gelegt wurden
Beispiel
Im folgenden Beispiel (. Tab. 2.16) ist an den 8 Items einer Skala zum Optimismus und
einer Stichprobe von 10 Versuchspersonen jede der vorgenannten Methoden exemplarisch angewendet worden.
Kapitel 2 · Grundlagen diagnostischer Verfahren
4 ⋅ (s12 - s1 ⋅ s(1-2) ⋅ r1(1-2) )
4 ⋅ s12 + s(1-2)2 -4 ⋅ s1 ⋅ s(1-2) ⋅ r1(1-2)
Angewendet auf die bereits oben erwähnte Stichprobe von 1226 Probanden resultiert
für die 8 Items umfassende Optimismusskala ein Koeffizient von rtt(α) = 0.54.
s12 = Varianz der Rohwerte aus der ersten Testhälfte,
s(1–2)2 = Varianz der Rohwertdifferenzen,
r1(1–2) = Korrelation der Rohwerte aus der ersten Testhälfte mit den Rohwertdifferenzen.
rtt(α ) =
Üblicherweise werden lediglich die Rohwerte aus den beiden Testhälften interkorreliert
und der erhaltene Koeffizient auf die doppelte Länge der (Gesamt-)Skala aufgewertet.
Allerdings setzt die Spearman-Brown-Formel die Identität von sxt und von sxu [7 (2.26)]
bzw. s1 und s2 voraus. Mit Hilfe verschiedener Formeladaptationen versucht man, ggf. auftretenden Abweichungen gerecht zu werden. Deshalb hat Cronbachs Koeffizient α eine
besondere Akzeptanz gefunden. Für ihn wird die Differenz der individuellen Rohwertpaare (X1 – X2) gebildet und die Korrelation der Rohwerte aus der ersten Hälfte mit diesen
Differenzen ermittelt [r1(1–2)]. Die allgemeine Form lautet nach Lienert (1989, S. 222):
Jede der vorgenannten Techniken verbietet sich bei Schnelligkeitstests, weil dort – von
Flüchtigkeitsfehlern abgesehen – die individuellen Halbtestwerte fast immer ziemlich
genau der Hälfte der Gesamtrohwerte entsprechen: Wenn jemand beispielsweise 80
Aufgaben insgesamt in Angriff genommen und bewältigt hat, bedeutet das mit großer
Wahrscheinlichkeit 40 Items aus der einen und eine gleich große Zahl aus der anderen
Hälfte. Damit aber wird die Reliabilität krass überschätzt.
Deshalb bietet sich bei Speedtests eine andere Technik an:
4 Halbierung nach der Testzeit. Die gesamte Bearbeitungszeit wird in 2 Teile getrennt.
Nach Ablauf der ersten Halbzeit müssen die Probanden auf Anweisung des Testleiters die Stelle im Antwortblatt markieren, an der sie momentan arbeiten, so dass für
die erste und zweite Halbzeit erhebungstechnisch unabhängige Rohwertteilleistungen bestimmbar sind.
Wegen der geringen Zahl von Messwertträgern in dem Beispieldatensatz sind von
vornherein große Schwankungen zwischen den verschiedenen Berechnungsmodalitäten zu erwarten, und in der Tat führen die odd-even-Aufteilung und die Parallelisierung zu sehr viel höheren Halbierungsreliabilitäten als die beiden anderen Aufteilungen. Anhand der größeren Stichprobe von 1226 Probanden spielen Zufallsschwankungen infolge der Messwertträger keine Rolle mehr. Die geringe Zahl von Items
leistet allerdings der Möglichkeit Vorschub, dass zufällig besonders ähnliche bzw. unähnliche Items in den Gruppen zusammengefasst wurden. Da die Koeffizienten aber
bei allen Aufteilungsprinzipien recht nah beieinander liegen, kann mit Bestimmtheit
festgehalten werden, dass die Skala nur eine mäßige Reliabilität aufweist.
Kennwerte für alle (1226) Versuchspersonen:
4 odd-even: .273,
4 erste-zweite Hälfte: .281,
4 Zufallshalbierung: .303,
4 Parallelisierung nach Trennschärfe und Schwierigkeit: .327.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Formel für den Spezialfall zweier Testhälften
Für Speedtests: Halbierung nach der Testzeit
Testhalbierung führt
bei Speedtests zur
Überschätzung der
Reliabilität
145
2
Cronbachs
Koeffizient α
K-R-Formula 20
K-R-Formula 8
Bestimmung über
Trennschärfe und
Schwierigkeitskoeffizienten
= Varianz der Testrohwerte,
= Schwierigkeit P/100,
= 1-p,
= Trennschärfe.
s x 2 -∑pq
∑rit 2 ⋅ pq + ⎛ s x 2 -∑pq ⎞
+
⎜ 2s 2 ⎟
2
2 ⋅ sx
sx2
x
⎝
⎠
2
(2.76)
(2.77)
(2.78)
r = Zahl paralleler Messungen,
si2 = Stichprobenvarianz des i-ten Paralleltests, berechnet an der Stichprobe von N
Versuchspersonen mit N-1 im Nenner,
sij = Kovarianz zwischen i und j.
r
⎛
∑si 2 ⎞⎟
r ⎜
i =1
α=
⋅ ⎜1 - r
⎟
r
r-1 ⎜ ∑si 2 + ∑sij ⎟
i =1 ⎠
⎝ i =1
In beiden K-R-Formeln spielt der Ausdruck pq, also die Itemvarianz (7 Abschn. 2.2.7.1
zu Schwierigkeit) eine wichtige Rolle. Wenn bei einem Vergleich der Summe der Itemvarianzen oder deren Mittelwert mit der Varianz des Skalensummenwertes (sx2),
wie er in der einen oder anderen Weise in den Formeln angestellt wird, weitgehende
Übereinstimmung resultiert, so muss dafür das Fehlen von Itemkovarianzen verantwortlich sein. Denn die Varianz des Skalensummenwertes setzt sich zusammen aus
der Summe aller (einzelnen) Itemvarianzen und aller Interitemkovarianzen. Das
Fehlen von Itemkovarianzen aber bedeutet, dass jedes Item etwas anderes misst, die
Skala also nicht reliabel im Sinne der Konsistenz ist. Am meisten verbreitet ist Cronbachs α:
n ⎛ s x 2 - n ⋅ pq ⎞
rtt =
⋅
⎟
n-1 ⎜⎝ s x 2
⎠
n ⎛ s x 2 -∑pq ⎞
=
⋅⎜
n-1 ⎝ s x 2 ⎟⎠
Sofern aus irgendwelchen Gründen keine Interkorrelationen berechnet wurden oder
dies wegen einer unvollständigen Aufgabenanalyse nicht möglich ist, kann K–R-Formula 20 Anwendung finden:
sx2
p
q
rit
rtt =
4. Konsistenzanalysen. Die Verallgemeinerung der Halbierungsmethode besteht darin,
eine Testskala nicht nur in 2 Hälften zu zerlegen, sondern in so viele Teile, wie Items
vorhanden sind. Entsprechend müssten die betreffenden Korrelationen ermittelt und
die erhaltenen Werte auf die jeweilige Länge der Skala aufgewertet oder »hochgerechnet« werden.
Am bekanntesten sind dafür die Formeln von Kuder und Richardson (1937) geworden. Die sog. K-R-Formula 8 stützt sich auf die Schwierigkeits- und Trennschärfekoeffizienten:
Kapitel 2 · Grundlagen diagnostischer Verfahren
Reliabilität als Konsistenz aller Testitems
146
sinn 2
s zwi Prb2
(da se2 = sinn2)
(2.80)
(2.79)
rtt = 1 -
srest 2
s zwi Prb2
Auf diese Weise gilt schließlich
srest2 = sinn2 - szwi Items2,
srest2 = se2.
(2.81)
Nun erzeugen selbst die einzelnen Items aufgrund ihrer selbst bei hoher Konsistenz
immer etwas variierenden spezifischen Anforderungen eine Varianz. Diese Varianz
zwischen den Items stellt insofern keine Fehlerkomponente dar und muss von der Varianz innerhalb der Personen abgezogen werden, um einen »bereinigten« Term für eine
»Restvarianz« zu erhalten:
rtt = 1 −
s ∞ 2 = s zwi Prb2 - s e 2 ,
s ∞ 2 = s zwi Prb2 - sinn 2
s∞2
,
rtt = 2
s∞ + se2
s zwi Prb2 - sinn 2
rtt =
,
s zwi Prb2 - sinn 2 + sinn 2
Durch Umstellen und Einsetzen erhält man:
s zwi Prb2 = s ∞ 2 + s e 2
Die Varianz zwischen den Probanden setzt sich zusammen aus Komponenten zu Lasten
der wahren Merkmalsunterschiede und zu Lasten von Fehlereinflüssen:
sinn2 = se2 .
In der letzteren Formel ist besonders augenfällig, dass die Varianz des Skalensummenwertes (im Nenner) verglichen wird mit der Summe der Itemvarianzen. Sofern die
beiden Werte auseinanderklaffen, muss dieses eine hohe Homogenität bedeuten, weil
in diesem Fall zur Summe der Itemvarianzen noch substantielle Itemkovarianzen hinzugekommen sind und die Differenz bewirkt haben.
Ein anderer Ansatz besteht darin, die Konsistenz varianzanalytisch zu bestimmen,
und zwar nach einem Schema, dessen Faktoren zum einen die Items, zum anderen die
Probanden darstellen. Die dafür maßgeblichen Überlegungen sind einfach: Bei vollständiger Konsistenz eines Tests bzw. seiner Beantwortung durch Probanden müsste
für jede Person pro Item dieselbe Antwort auftreten. Abweichungen davon, also jegliche
Varianz innerhalb jedes einzelnen der Probanden, können in einer ersten Näherung
als Fehler aufgefasst werden:
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
Varianzanalytische
Konsistenzformel
Varianzanalytische
Bestimmung
147
2
2
6
QSzw =
( ∑X)2
33489
= 733 = 63.22,
N⋅k
50
k
N⋅k
5
50
∑P2 - ( ∑X)2 = 3471 - 33489 = 24.42,
QStot = ∑X2 -
∑I2:
∑P2:
34
4
3
4
2
3
4
4
5
4
1
4
5
4
4
4
3
3
5
3
2
37
4
3
39
4
4
5
5
4
4
4
4
3
2
2
5
5
5
4
3
5
2
4
3
38
8
6
totale Quadratsumme,
Quadratsumme innerhalb der Probanden,
Quadratsumme zwischen Probanden,
Quadratsumme zwischen Items,
Rest-Quadratsumme,
Zahl der Probanden,
Zahl der Items,
quadrierte Gesamtsumme der Testwerte, im Beispiel: 1832 = 33489,
Summe der quadrierten Itemwerte, im Beispiel:
32 + 42 + 42 + … + 12 + 32 + 22 = 733.
Summe der quadrierten Testwerte, im Beispiel:
172 + 222 + 202 + … + 102 = 3471,
Summe der quadrierten Werte pro Item, im Beispiel:
352 + … + 392 = 6 715.
35
I
QStot:
QSinn:
QSzw:
QSzI:
QSr:
N:
k:
(∑X)2:
∑X2:
3
5
2
5
4
3
5
5
1
2
2
Items
1
2
3
4
5
6
7
8
9
10
Pbn
183
17
22
20
21
19
17
21
21
15
10
P
. Tabelle 2.17. Antworten von 10 Probanden zu 5 Items einer Skala (Auszug aus . Tab. 2.16).
In der letzten Spalte (P) die individuellen Summenwerte über die Items, in der letzten Zeile (I)
die Summenwerte über die Probanden. Die P- und I-Werte liegen der Bestimmung von szwi2
und szwi Items2 zugrunde
Beispiel
Eine wesentliche Voraussetzung für diese varianzanalytische Prüfung besteht allerdings
darin, dass die Itembeantwortung auf kontinuierlich-quantitativ abgestuften Skalen erfolgt. Das trifft häufiger bei Persönlichkeits- und Einstellungstests zu, ist aber auch bei
Leistungstests der Fall, wenn dort je nach Zeitbedarf oder Richtigkeit der Lösung abgestufte Punkte vergeben werden. In . Tab. 2.17 findet sich ein Rechenbeispiel für eine Auswahl
von 5 Items der Optimismusskala (vgl. . Tab. 2.7 und 2.10; die Items Nr. 1, 5 und 7 wurden
wegen zu geringer Interkorrelationen eliminiert).
Kapitel 2 · Grundlagen diagnostischer Verfahren
Beispiel zur varianzanalytischen Konsistenzbestimmung
148
k
2
5
∑P = 733 - 3471 = 38.8,
N⋅k
10
50
2
Validität oder Gültigkeit
srest
= 0.620 korrigiert
2
s zwi
1. Inhaltliche Validität. Sofern die Aufgaben eines Tests Stichproben aus dem zu erfassenden Zielmerkmal darstellen, kann aus dem Verhalten in der Testsituation auf dasjenige außerhalb im Sinne eines Repräsentationsschlusses geschlossen werden (7 Abschn. 1.6) Der Grad der Genauigkeit, in dem dieses möglich ist, bezeichnet die inhaltliche Validität.
Sie ist hoch, wenn die Aufgaben völlig identisch sind, etwa mit Anforderungen, die
in bestimmten Bereichen gestellt werden: Als Beispiel dafür stehen Prüfungen für
Farbtüchtigkeit, Schulleistungstests oder die Fragen beim Ablegen der Führerscheinprüfung, des Weiteren Arbeitsproben wie orthographische Richtigkeit beim Diktat
Bei hoher Validität erlauben die Ergebnisse eines Tests die Generalisierung aus dem
numerischen Relativ der Testskalen auf das empirische Relativ des interessierenden
Zielmerkmals oder einen Schluss aus dem (beobachteten) Verhalten in der Testsituation auf (ebenfalls beobachtbares) Verhalten außerhalb der Testsituation (Michel &
Conrad, 1982, S. 55).
Insofern handelt es sich um das wichtigste Gütekriterium überhaupt. Selbst der
Objektivität und der Reliabilität kommt primär lediglich die Rolle zu, günstige Voraussetzungen für das Erreichen einer hohen Validität zu schaffen.
Auch bei der Validität lassen sich verschiedene Aspekte voneinander unterscheiden:
Unter Validität wird das Maß an Genauigkeit verstanden, mit dem der Test dasjenige
Persönlichkeits- oder Verhaltensmerkmal misst, das er messen soll oder zu erfassen
vorgibt.
Definition
2.3.1.3
rtt = 1 -
sinn
= 0.643 unkorrigiert
2
s zwi
2
QSr
37.08
=
= 1.0300,
(N- 1) (k- 1)
36
QSzw
38.8
=
= 0.9700,
N (k- 1) 4 0
QSzw 24.42
=
= 2.7133,
N-1
9
rtt = 1 -
sr2 =
2
sinn
=
s2zw =
QSr = QSinn - QSzI = 38.8 - 1.72 = 37.08,
k
∑I2 - ( ∑X)2 = 6715 - 33489 = 1.72,
QSzI =
QSinn = ∑X2 -
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Repräsentationsschluss vom Testverhalten auf dasjenige außerhalb der Testsituation
Bedeutung hoher
Validität
149
2
Ü-Koeffizient der Beurteilerübereinstimmung
(2.82)
bei der Anfertigung ihrer Gemälde zu vermitteln.
Um den Lehrenden und Studierenden konkrete Beispiele vor Augen zu führen,
wählt eine staatliche Sachverständigenkommission unter Beteiligung der Akademien eine Reihe von Bildern aus, bei denen nach ihrer Auffassung jedes der Ziele in
optimaler Weise erreicht ist. Bevor diese Bilder den Lehrplänen als Anschauungs6
Der Lehrplan für den Unterricht in Gestaltender Kunst an den Akademien der Bundesländer sieht vor, den Studierenden die Ziele
4 Originalität,
4 Innere Stimmigkeit,
4 Ausgleich von Form und Inhalt,
4 Intellektualität des Hintergrundes
Beispiel
Die Anwendung dieses Maßes wird anhand des folgenden Beispiels (. Tab. 2.18 und
. Tab. 2.19) demonstriert.
Ü
= Übereinstimmungskoeffizient,
QSinnh = Quadratsumme innerhalb der Personen,
QSmax = maximal mögliche Quadratsumme innerhalb der Personen.
= 1 - QSinnh
U
QSmax
und Tempo in Kurzschrift oder Maschinenschreiben, wenn es um die Eignung als
Sekretärin geht. Ferner gehören auch Untersuchungen an Fahr- und Flugsimulatoren
hierher.
In solchen Fällen ist die Übereinstimmung zwischen der Test- und Nicht-Testsituation unmittelbar augenfällig, weshalb darauf verzichtet werden kann, diese näher
zu bestimmen.
Es lassen sich aber leicht andere Beispiele anführen, wo die Entsprechungen weniger
evident sind und es zweckmäßig erscheint, numerische Werte für die inhaltliche Validität zu ermitteln. Meist wird dabei wie folgt verfahren: In einem ersten Schritt wird das
in Betracht gezogene Zielkonstrukt begrifflich und theoretisch expliziert. Sofern noch
keine Aufgaben oder Fragen vorliegen, die das Zielkonstrukt treffen sollen, werden
diese sodann nach Maßgabe operationaler Definitionen (s. Fricke, 1974) oder generativer Regeln (Klauer, 1987) erstellt. Die vorliegenden oder erhaltenen Items werden
von mehreren unabhängig voneinander arbeitenden Personen (meist Experten oder
zumindest in die Materie eingewiesene) daraufhin beurteilt, inwieweit sie dem Inhalt
des Konstruktes, ggf. auch den Vorgaben der generativen Regeln entsprechen. Mitunter
kommt es auch darauf an, die Einhaltung vorgegebener Quoten (z. B. Aufgaben mit
bestimmten Strukturmerkmalen) einzuschätzen. Das Maß der Beurteilerübereinstimmung liefert einen Koeffizienten für die Inhalts- oder Kontentvalidität. Herangezogen werden dafür die pro Item beobachtbaren Urteilsstreuungen zwischen den
Einschätzern. Für die Gesamtzahl der Items einer Skala bietet sich der Ü-Koeffizient
von Fricke (1974, S. 40–43) an:
Kapitel 2 · Grundlagen diagnostischer Verfahren
Quantitative Bestimmung der inhaltlichen
Validität
150
3
Rohwert
3
0
1
1
1
2
Bilder
4
1
1
1
1
1
n
n⋅ k
j=1
2
n
j=1
2
4 (k ∑x j - ∑x j )
.
2
0
1
0
1
2
3
1
1
0
1
3
3
1
1
0
1
3
4
1
1
1
1
4
3
1
1
1
0
4
2
0
1
1
0
5
2
0
0
1
1
5
2
0
0
1
1
6
3
1
1
0
1
6
3
5
4
5
Randsumme
4
4
4
5
Randsumme
= 1 - 4 (4 ⋅17- 53) = 1 - 60 = 0.375.
U
6 • 16
96
für das Kriterium »Innere Stimmigkeit« ein solcher von
= 1 - 4 (4 ⋅17- 49) = 1 - 76 = 0.208,
U
6 ⋅16
96
k = Anzahl der Beurteiler,
n = Anzahl der Bilder,
xj = Rohwert (d. h. Summe) von Bild j.
Für das Kriterium »Originalität« ergibt sich demnach ein Ü-Koeffizient von
= 1 U
Die Formel lautet:
Rohwert
1
2
3
4
Professoren
. Tabelle 2.19. Kriterium 2
1
0
1
1
1
Bilder
1
2
3
4
Professoren
. Tabelle 2.18. Kriterium 1
material beigefügt werden, beurteilen 4 Professoren für Kunst in einer Art Kreuzvalidierung, ob jedes der Kriterien aus ihrer Sichtweise erfüllt ist.
In . Tab. 2.18 und . Tab. 2.19 werden Urteile einer Gruppe von Personen aufgelistet, ob das Kriterium 1 bzw. Kriterium 2 (7 weiter oben) in jedem von 6 Bildern erfüllt ist (= 1) oder nicht erfüllt ist (= 0).
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
151
2
2
Korrelationsschluss
vom Testergebnis auf
das Kriterium
Ein überregional operierendes Taxiunternehmen führt eine Untersuchung zur psychologischen Erfassung der Eignung zum Führen eines Taxis durch. Die im Unternehmen beschäftigten Fahrer werden von ihren Gruppenleitern hinsichtlich ihres
beruflichen Erfolges, also der Eignung, eingeschätzt (= Kriterium). Dafür bieten sich
u. a. die folgenden Gesichtspunkte an: Die Zahl beförderter Passagiere in einem festgelegten Zeitraum, zurückgelegte Wegstrecken, die Zahl von Unfällen, Schäden am
Fahrzeug, Beschwerden von Fahrgästen, Fehlzeiten und Strafmandate (die letzten
Merkmale mit jeweils negativer Gewichtszahl).
Jede dieser Variablen indiziert nur einen bestimmten Aspekt des »Berufserfolges«. Es mag deshalb naheliegen, die einzelnen Punktwerte zu einem Globalwert
der Eignung zusammenzufassen. Je nach dem Dafürhalten der maßgeblichen Vorgesetzten oder der Unternehmensleitung erfahren einzelne Subdimensionen eine
besondere Gewichtung. So könnte die Organisation bestrebt sein, nach außen ein
nobles Erscheinungsbild abzugeben und aus diesem Grunde saubere Kleidung und
verbindliche Umgangsformen als besonders wichtig erachten. (Das macht deutlich,
dass Kriterien sich keineswegs immer auf selbstverständliche Weise ergeben, sondern häufig von Festlegungen verschiedenster Art wie Zielvorstellungen, Verfügbarkeit, Akzeptanz, Kosten u. Ä. abhängen.)
Mit jeder der Einzelvariablen und/oder deren optimaler Kombination als Kriterien für die Fahrereignung werden die Ergebnisse solcher Leistungstests korreliert,
die als einschlägig erachtet und deshalb den Beschäftigten vorgegeben werden:
Dazu zählen vielleicht allgemeines Wissen, verbales Verständnis und Wortschatz (um
6
Beispiel
2. Kriteriumsbezogene Validität. Immer dann, wenn es nicht möglich ist, das Zielmerkmal als Ganzes oder wenigstens Stichproben daraus in einem Test zusammenzustellen, sondern die ausgewählten Verhaltensweisen oder Aufgaben nur bestimmte
Merkmale indizieren (also für etwas anderes stehen und nicht nur für sich selbst), bedarf es eines Korrelationsschlusses, um von den Ergebnissen des Tests auf das interessierende Zielmerkmal oder Kriterium schließen zu können. Eine solche Korrelation
muss empirisch ermittelt werden. Zu diesem Zweck bearbeitet eine Stichprobe von
Probanden den Test, und es wird geprüft, ob die Ergebnisse mit dem Kriterium übereinstimmen, d. h. mit Punktwerten. Diese indizieren ihrerseits interindividuelle Unterschiede in der Zieldimension und müssen unabhängig von der Testung ermittelt worden sein. Um diese Unabhängigkeit der Erhebungsmodalitäten deutlich zu machen, hat
man den Begriff »Außenkriterium« für Messwertreihen gewählt (im Unterschied zu
sog. »Binnenkriterien« wie dem Skalenscore als Kriterium für die Bestimmung der
Trennschärfe). Der Validitätskoeffizient wird mit rtc bezeichnet, der Korrelation des
Tests mit einem Kriterium (engl.: criterion).
Denkbar ist auch eine Bestimmung der Inhaltsvalidität auf experimentellem Wege:
Mindestens 2 Gruppen von Personen werden die Explikationen eines Konstruktes sowie die Regeln vorgegeben, nach denen Items zu generieren sind. Die auf diese Weise
unabhängig voneinander entstandenen Tests werden dann von einer größeren Stichprobe von Probanden bearbeitet. Die zwischen den Ergebnissen auftretende Korrelation ist gleichfalls ein Maß für die inhaltliche Validität beider Verfahren (s. Fricke, 1974,
S. 45).
Kapitel 2 · Grundlagen diagnostischer Verfahren
Experimentelle
Bestimmung der
inhaltlichen Validität
152
Lienert (1989, S. 17) spricht in Bezug auf den letzten Faktor von »Zulänglichkeit« als
der Kommunalität, die nach Absehung von der Reliabilität des Tests und derjenigen
des Kriteriums besteht. Die numerische Bestimmung der Zulänglichkeit müsste deshalb mittels der doppelten Minderungskorrektur erfolgen (7 Abschn. 2.1.1.3). Dabei
wird jedoch primär der technisch-instrumentellen Unzulänglichkeit Rechnung getragen, nicht so sehr dagegen der Zentralität oder der inhaltlichen Validität des Kriteriums
für das in Frage stehende Konstrukt. Unter sonst gleichen Voraussetzungen wird ein
Kriterium valide (und der Test eher zulänglich) sein, wenn es sich um eine Indizierung
derselben Merkmalsdimension handelt, d. h. semantisch und theoretisch eine hohe
Ähnlichkeit besteht. Eine Qualifizierung als Kriterium erlangen entsprechende Variablen erst dann, wenn sie darüber hinaus einen höheren Status aufweisen, letztlich also
verlässlicher und entscheidungsrelevanter sind.
Als informelle Regel bei der Beurteilung des Status empfiehlt Burisch (1984), sich das
Dilemma zu vergegenwärtigen, auf der Basis inkonsistenter Informationen diagnostische Entscheidungen von erheblicher praktischer Bedeutung vornehmen zu müssen.
So müssten die Fragen beantwortet werden, ob ein Patient wegen seiner Depression
hospitalisiert werden müsse oder nicht, ob ein mehrfach rückfälliger Straftäter nach
Verbüßung einer längeren Haftstrafe bedingt entlassen werden dürfe oder nicht, ob sich
ein Bewerber für eine risikoreiche Expedition aufgrund seiner emotionalen Stabilität
eigne oder nicht. Zwei Informationsquellen (z. B. die Einschätzung von Ärzten, Anstaltsleitung oder Bekannten bzw. die Punktwerte vorgegebener Tests) lieferten wechselseitig
inkompatible Hinweise, die Variable X1 in der einen, X2 in der anderen Richtung. Diejenige Quelle, die den Ausschlag gäbe, qualifiziere sich als »echtes« Kriterium.
Davon zu unterscheiden sind solche Kriterien, für die zwar die Bedingung der semantischen und theoretischen Äquivalenz, nicht aber diejenige des höherwertigen
(Diese Voraussetzungen sind geradezu trivial, denn wenn eine Variable nicht mit sich
selbst korreliert, kann sie schon gar nicht mit anderen Variablen kovariieren.)
4 vom Grad dessen, was Test und Kriterium an konzeptueller Gemeinsamkeit enthalten.
Da häufig mehrere Kriterien vorliegen oder denkbar sind und vorab nicht entschieden
werden kann, welches davon das optimale ist, hat ein Test so viele Validitäten, wie es
vernünftige Kriterien für dasjenige gibt, was der Test messen soll.
Wie unmittelbar einzusehen ist, hängt die kriteriumsbezogene Validität u. a. von
den folgenden Faktoren ab:
4 der Reliabilität des Tests,
4 der Reliabilität des Kriteriums,
die Voraussetzungen für Kommunikation mit den Fahrgästen und im Unternehmen
zu prüfen), rechnerisches Denken, Merkfähigkeit, technisches Verständnis, motorische Fertigkeiten, des Weiteren Fragebogen zur Extraversion, Aggressivität und
Frustrationstoleranz.
Die korrelative Übereinstimmung zwischen der Kombination der Testwerte einerseits und derjenigen der Kriteriumsvariablen andererseits zeigt die Validität der
Testbatterie gegenüber »dem« Kriterium an, d. h. das Ausmaß, in dem die Unterschiede im Außenkriterium durch Unterschiede in den Testleistungen erfassbar sind.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
»Echte Kriterien«
Auswahl einer geeigneten Kriteriumsvariablen
Kommunalität als Grad
der konzeptuellen
Gemeinsamkeit von
Test und Kriterium
Einflussfaktoren der
kriteriumsbezogenen
Validität
153
2
Konkurrente und
prädiktive Gültigkeit
Berücksichtigung von
Grund- und Selektionsquoten
»Effektivität« von
Skalen
Target-Variablen
Ranges gilt. Solche Variablen verdienen nur eine Bezeichnung als »Quasikriterien«, da
sie ihrerseits einer Validierung an echten Kriterien bedürfen. Das trifft etwa auf jene
Fälle zu, in denen eine neu entwickelte Skala an einem Test »validiert« wird, der dasselbe Merkmal erfassen soll. So sind zahlreiche Intelligenztests mit dem Binet-Staffeltest
verglichen worden, weil dieser selbst am Altersverlauf der Lösungswahrscheinlichkeiten und am Lehrerurteil entwickelt wurde. Bei der dabei verwendeten externalen Konstruktionsstrategie war die Validität der Items gleichsam Voraussetzung und deshalb
gewährleistet.
Von »echten« und »Quasikriterien« zu unterscheiden sind die sog. Target-Variablen. Dabei handelt es sich um eine spezifische Klasse von Kriterien, die aufgrund bestehender Sachzwänge vorhergesagt werden müssen, und zwar auf der Basis irgendwelcher
Informationen. Beispiele dafür sind das Suizidrisiko bei psychiatrischen Patienten, die
Zufriedenheit oder Unfallneigung von Beschäftigten in einem Betrieb oder das Alkoholismusrisiko bei Funktionsträgern in Überwachungsbereichen. In solchen Fällen kommt
es lediglich auf das prognostische Ziel einer Maximierung der Trefferquoten an. Jede
Testskala ist hierbei willkommen, die in signifikanter Weise zur Aufklärung der TargetVarianz beiträgt, gleich ob die Konfiguration der Testbatterie unter inhaltlich-psychologischer Perspektive einen (theoretischen) Sinn macht oder nicht. Die Korrelation von
Skalen mit solchen Target-Variablen sollte zweckmäßigerweise als Effektivität bezeichnet werden. Die Höhe dieses Koeffizienten sagt nur wenig über den verwendeten Test
als solchen aus, sondern nur etwas über die Angemessenheit seines Einsatzes: Ein Hammer beispielsweise zum Sägen oder Schrauben verwendet, würde nur eine geringe Effektivität aufweisen, und zwar nur deshalb, weil er dysfunktional eingesetzt wäre. Weil
Target-Variablen meist in alternativ abgestufter Form vorliegen (hospitalisiert ja/nein;
gefährdet/nicht gefährdet usw.) stellt sich hier das Problem des umgekehrt u-förmigen Zusammenhanges zwischen Grundquote und Höhe der Korrelation (das bereits
unter der Trennschärfe angesprochen wurde; 7 Abschn. 2.2.7.2, S. 121, Implikationen:
. Abb. 2.29) erneut, diesmal im Hinblick auf die Validität. Die Untersuchungen von
Hollmann (1993) haben nachdrücklich vor Augen geführt, dass – abgesehen von der Art
des verwendeten Korrelations-Koeffizienten – bei der Beurteilung »der« Validität unbedingt die Grund- und mehr noch die Selektionsquoten berücksichtigt werden müssen; letztere können z. B. je nach den wirtschaftlichen Gegebenheiten und dem Verhältnis zwischen Zahl der Bewerber und freien Stellen starken Schwankungen unterliegen.
Burisch (1984) hat die vorgenannten 3 Arten von Validierungen anhand der nachfolgenden Graphiken veranschaulicht (. Abb. 2.31).
Als Unterformen der kriteriumsbezogenen Validität lassen sich wiederum die konkurrente (gleichzeitige) und die prädiktive Gültigkeit voneinander unterscheiden. Die
erste ist dann gegeben, wenn Test- und Kriteriumswerte nahezu gleichzeitig erhoben
werden, die zweite liegt dann vor, wenn zu einem Zeitpunkt t1 die Testscores und zu
einem späteren Zeitpunkt t2 die Punktwerte im Kriterium erhoben werden. Bestehen
signifikante Korrelationen, so sprechen wir bei konkurrenter oder auch Übereinstimmungsvalidität davon, dass sich die Varianz des Kriteriums (als deskriptives Konstrukt)
auf die Varianz der Testwerte zurückführen oder durch sie (als explikatives Konstrukt)
auf- bzw. erklären lässt.
Häufig hängt es allerdings nur von der Perspektive des Betrachters ab, in welcher
Rolle jedes der beiden miteinander verglichenen Konstrukte gehandhabt wird, denn
ebensogut wie man den schulischen Erfolg auf Intelligenz zurückführen kann, ist
es möglich, Intelligenz mit der schulischen Leistung zu erklären usw. (»Henne-EiProblem«).
Kapitel 2 · Grundlagen diagnostischer Verfahren
»Quasikriterien«
154
Deshalb kommt der prädiktiven Validität ein höherer Stellenwert zu: Nach den
Regeln unserer Logik kann nur zeitlich Früheres ursächlich verantwortlich sein für
zeitlich Späteres und damit dieses erklären (sofern der Einfluss von Drittvariablen ausgeschlossen ist). Es spricht deshalb besonders nachhaltig für die Brauchbarkeit eines
Tests, wenn etwa dessen heute ermittelten Punktwerte den Ausbildungs- oder Berufserfolg in 10 Jahren präzise vorherzusagen erlauben, das Instrument somit eine hohe
prädiktive Validität aufweist. Wegen der im Vorhersageintervall auf die Probanden
einwirkenden sehr verschiedenen und schwerlich kontrollierbaren Bedingungen liegen
die Koeffizienten für die prädiktive Validität in aller Regel deutlich unter denen der
konkurrenten Validität.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Stellenwert der prädiktiven Gültigkeit aufgrund der Brauchbarkeit von Vorhersagen
. Abb. 2.31. Verschiedene
Arten von Validierungen.
(Aus Burisch, 1984)
155
2
156
rtc ⋅ Sx
sx
2
2
rtc ⋅ Sx
2
1-rtc +
2
sx
(2.83)
Rtc = auf die größere (repräsentative) Streuung von Sx aufgewerteter Validitätskoeffizient,
rtc = beobachteter Validitätskoeffizient,
sx = beobachtete Messwertestreuung,
Sx = angenommene Messwertestreuung.
R tc =
Validität bei eingeschränkter Variabilität
Für Auslese- und Platzierungsentscheidungen auf der Basis von psychodiagnostischen Informationen bedarf es vorheriger längsschnittlicher Erhebungen. Damit
wird der Fehlermöglichkeit vorgebeugt, wonach beispielsweise das Ausüben einer
beruflichen Tätigkeit auch Auswirkungen auf das Lösen von Testaufgaben hat, etwa
weil dabei Fertigkeiten vermittelt oder geübt werden, die bei der Bearbeitung des
Tests dienlich sind. Dadurch aber würden die Testleistungen einseitig erhöht, ohne
dass damit eine äquivalente Mehrleistung im Kriterium einherginge. Dies hätte die
Folge, dass der Testwert für die Trennung voraussichtlich erfolgreicher und erfolgloser Bewerber falsch festgelegt wird. Diese Fehlerquellen werden vermieden, wenn
zunächst die Prädiktorenscores erhoben, dann die (unter optimalen Bedingungen:
alle getesteten) Probanden zum jeweiligen »treatment« (Behandlung, Schulung,
Berufstätigkeit usw.) zugelassen und schließlich deren Erfolgsraten registriert werden. Der Rekurs auf die dabei gewonnenen Erkenntnisse (die Höhe des Validitätskoeffizienten, Quoten von Erfolg und Misserfolg usw.) bei zukünftig anstehenden Entscheidungen setzt somit die Konstanz aller Rahmenbedingungen voraus. Das
heißt, es muss unterstellt werden, dass die sich später meldenden Bewerber auch
repräsentativ sind für die seinerzeitige Forschungs- oder Begleituntersuchung und
alle zwischen Testung und Erhebung der Kriteriumswerte auftretenden sozialen,
ökonomischen und ökologischen Faktoren auch später dieselben sein werden –
sicher weithin eine Fiktion.
Da es aus verschiedenen Gründen nur selten möglich ist, alle Bewerber einzustellen, muss eine Selektion erfolgen. Für diese wird mitunter bereits auf den Test
zurückgegriffen, dessen längsschnittliche Validität erst erprobt werden soll, etwa
deshalb, weil man auf dessen Validität bereits vertraut, und zwar in der Art und
Weise, dass die Leistungsschwächsten nicht zugelassen werden. In der Prädiktordimension (und weniger stark auch in der Kriteriumsvariablen) kommt es dadurch
zu einer Einengung der Variabilität, d. h. für die Validitätsprüfung steht nicht mehr
die gesamte Streubreite der Messwerte zur Verfügung, mit der Folge einer Minderung des Validitätskoeffizienten (. Abb. 2.32).
Es sind deshalb Formeln entwickelt worden, um den bei restringierter Streuung
im Prädiktor empirisch ermittelten Validitätskoeffizienten auf repräsentative Breite
aufzuwerten:
Exkurs
Kapitel 2 · Grundlagen diagnostischer Verfahren
Als Voraussetzung gilt die Annahme, dass die Standardschätzfehler und die Steigung
der Regressionsgeraden gleich sind.
Analoge Formeln liegen auch für jene Fälle vor, in denen nur die Kriteriumsvarianz
eingeschränkt ist (wenn etwa die ungeeigneten Personen durch Entlassung oder Umsetzung für die Validitätsprüfung nicht mehr zur Verfügung stehen) oder sofern die
Selektion und die damit einhergehende Varianzeinschränkung anhand eines bereits
validitätserprobten Tests stattfanden, mit dem das neuentwickelte Verfahren der ausgelesenen Stichprobe korreliert (s. dazu Lienert, 1989, S. 304–309).
Noch komplizierter sind diejenigen Fälle, in denen die »eigentliche« Validität für
einen neuen Test ermittelt werden soll, der mit bewährten Skalen korreliert, anhand
derer eine Selektion, gestaffelt nach der Höhe der Prädiktionsscores, vorgenommen
R tc =
.50 ⋅10
5
.502 ⋅102
1− .502 +
52
1
1
1
= .76.
=
=
=
25
1.75 1.32
.75 +
25
Ein neuentwickelter Test hätte in der Normierungsstichprobe eine Streuung von Sx
= 10 aufgewiesen. In der Validierungsgruppe habe sich nur ein Wert von sx = 5 gezeigt; die Validität sei mit rtc = .50 errechnet worden.
Wie hoch wäre die Validität ausgefallen, wenn die gesamte Prädiktor-Streuung
vorgelegen hätte?
Beispiel
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Weitere mögliche
Varianzeinschränkungen
. Abb. 2.32. Korrelationshöhe in Abhängigkeit von
der Homogenität der Probandenstichprobe. Selegiert
man nur die im Test höher
als der Durchschnitt scorenden Personen, wird die Korrelationsellipse der dann
homogeneren Stichprobe
runder als sie in der unausgelesenen Stichprobe ist.
Wegen der hier angenommenen recht hohen Korrelation zwischen Test und Kriterium bedeutet die Selektion
nach dem Prädiktor zugleich
auch eine solche im Kriterium. (Aus Amelang &
Bartussek, 1990, S. 103)
157
2
Kennwerte zur
Konstruktvalidität
existieren nicht
Validierung als Prozess
Die Theorie zur Introversions-Extraversions-Dimension von Eysenck (1957) beinhaltet im wesentlichen die Vorstellung, dass alle zentralnervösen Prozesse durch ein
genetisches, interindividuell unterschiedliches Verhältnis von nervösen Erregungszu Hemmungsprozessen gekennzeichnet sind. Extravertierte sind nach Eysenck
dadurch gekennzeichnet, dass sie zur Ausbildung nur schwacher exzitatorischer
Potentiale, aber schnell aufgebauter, intensiver und langsam abklingender inhibitorischer Prozesse neigen. Introvertierte sollen umgekehrt starke exzitatorische Potentiale, aber nur langsam einsetzende, schwache Inhibitionsprozesse aufweisen. Als
neurophysiologisches Korrelat der »excitation-inhibition-balance« wird die Erregungsschwelle des aufsteigenden retikulären Aktivierungssystems (ARAS) gesehen,
und zwar mit einer bei Introvertierten leichteren, bei Extravertierten erschwerten
Affizierbarkeit.
Für eine Skala, die auf das besagte Erregungs-Hemmungs-Gleichgewicht abhebt,
resultieren daraus u. a. die folgenden Vorhersagen:
4 Bei Applikation von sedierenden Psychopharmaka müssten Extravertierte eher
Leistungseinbußen erkennen lassen als Introvertierte; umgekehrt sollten stimu6
Beispiel
3. Konstruktvalidität. Gleichsam eine Synthese aus inhaltlicher und kriteriumsbezogener Validität stellt die Konstruktvalidität dar. Darüber hinausgehend wird unter diesem
Begriff die Einbettung des mit einem Test erfassten Konstruktes in das nomologische
Netzwerk anderer, und zwar teils inhaltlich ähnlicher und teils völlig »artfremder«
Konstrukte verstanden. Auf diese Weise fällt die Perspektive zumindest vom Anspruch
her sehr viel breiter aus als bei den üblichen Validitätsuntersuchungen. Ferner gehört
zu dem Bedeutungsgehalt des Begriffes die Vorstellung von einem andauernden Prozess: Weniger die Validität als ein gewissermaßen fertiges »Produkt«, sondern mehr die
Validierung als Vorgang, dessen Abschluss offen steht, ist damit gemeint.
Wie die erwähnte Einbettung im Einzelnen zu erfolgen hat, dafür existieren keine
Handlungsanweisungen. Im Allgemeinen wird der postulierte Validierungsprozess
darauf hinauslaufen, aus dem gewählten Konstrukt eine möglichst große Zahl verschiedener Hypothesen zum Verhalten von Personen mit unterschiedlichen Testscores
auf der fraglichen Dimension abzuleiten. In mehreren gesonderten Schritten kommt
es sodann darauf an, diese Hypothesen empirisch und/oder experimentell zu überprüfen. Dabei ist es wünschenswert, ein möglichst breites Spektrum von Verhaltensbereichen abzudecken und tunlichst verschiedene Analysemethoden anzuwenden, wie
Mittelwertsprüfungen, Cluster- und Faktorenanalysen usw. Die Gesamtheit der erhaltenen Resultate steht dann für die Konstruktvalidität des Tests. Kennwerte, die
dieses facettenreiche Bild in einem quantitativen Ausdruck zusammenfassen, existieren nicht.
wurde. Diese Konstellation lag vor bei der Erprobung des Tests für Medizinische Studiengänge (TMS). Die Zulassung erfolgte nach Maßgabe der Schulnoten, und zwar
derart, dass die Zulassungschance von Note zu Note multiplikativ anstieg. Demgemäß
ist die Stichprobe der Zugelassenen in Form und Breite der Prädiktionswerteverteilung
»verschoben«. Bartussek et al. (1986) haben die notwendigen Entzerrungen modellhaft
vorgenommen und eine prädiktive Validität des TMS für die Examenszwischennote
von rtc=.45 errechnet.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Einbettung des
Konstrukts in andere
Konstrukte
158
Der geschilderte Variantenreichtum von Ansätzen, Methoden und Analysen einerseits,
die Beliebigkeit der Vorgehensweise und die Kombination von Elementen andererseits,
hat die Konstruktvalidität dem Vorwurf ausgesetzt, es fehle ihr an methodischer Stringenz, und auch zur präzisen Elaboration der Konstrukte (Pervin, 1981, S. 147) leiste
sie keinen eigenständigen Beitrag. In der Tat trifft zu, dass die Konstruktvalidierung
nicht über ein spezifisches Arsenal an Methoden oder Analysetechniken verfügt, sondern als Ober- und Sammelbegriff die bekannten Validitätsarten nur konstruktzentriert
bündelt.
Als ein besonderes Instrument der Zusammenführung von Validitätsklassen kann
hier allerdings die sog. Multitrait-Multimethod-Analyse (Campbell & Fiske, 1959)
rubriziert werden, bei der es sich um ein vergleichsweise sophistiziertes Validierungskonzept handelt. Ihr Grundgedanke besteht darin, dass die Ergebnisse allen wissenschaftlichen Messens auch von der gewählten Methode abhängen. Jedes Konstrukt ist
nicht »an sich« beobachtbar oder aufzeigbar, sondern zumindest teilweise eine Resultante der vorgenommenen Operationalisierungen zu deren Erfassung. Von daher besteht ein wichtiges Anliegen darin, den spezifischen Anteil, den die jeweilige Operationalisierung oder Methode an der beobachtbaren Variation erzeugt, aus der Konfundierung Konstrukt plus Methode herauszulösen und »sichtbar« zu machen. Dazu sind
mindestens die Kombinationen von 2 Konstrukten mit 2 Methoden (z. B. ein Test und
dazugehörige Fremdeinschätzungen) erforderlich. Die angestrebte Trennung gelingt
dann am besten, wenn Konstrukte und Methoden voneinander stark divergieren. Das
Zu all diesen und vielen weiteren theoriegeleiteten Hypothesen liegen bestätigende Befunde vor. Ungeachtet einiger Inkonsistenzen (s. Amelang & Bartussek, 1990,
S. 321–331) ist dadurch die Konstruktvalidität der E-I-Skala in einer außerordentlich
umfassenden Weise abgeklärt. Daneben werden ständig weitere Arbeiten durchgeführt, als deren Folge sich u. a. auch Differenzierungen und Modifikationen der zugrundeliegenden theoretischen Vorstellungen ergeben.
4
4
4
4
lierende Substanzen bei Extravertierten größere Leitungszuwächse produzieren
als bei Introvertierten.
In fortlaufenden einfachen motorischen Handlungen mit Wiederholungscharakter sind eher Anzeichen von »Ermüdung« (Hemmung) bei den Extravertierten als
bei den Introvertierten zu erwarten.
Die Schmerzresistenz ist bei Extravertierten höher als bei Introvertierten. Zu
prognostizieren ist bei Extravertierten auch ein stärkerer Reminiszenzeffekt, ein
höherer α-Anteil im Ruhe-EEG und ein geringeres Langzeitgedächtnis.
Im Sozialverhalten sind auf seiten der Extravertierten höhere Kriminalitäts- und
Scheidungsraten zu erwarten, des Weiteren eine Neigung zu Drogen im weitesten Sinne (Alkohol, Nikotin), Einstellungen mehr im Sinne von »tough-mindedness« und weniger in Richtung von »tender-mindedness«.
Eine Erregung des limbischen Systems, das als neurophysiologische Grundlage
von Neurotizismus angenommen wird, führt vorliegenden Anhaltspunkten zufolge zu retikulärem Arousal, also einer nervösen »Feuerung« (aber umgekehrt
führt retikuläres Arousal nicht zu limbischer Aktivation). Aus diesem Grunde ist
eine geringe Korrelation der Neurotizismus- mit Introversionsscores wahrscheinlich.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
Multitrait-Multimethod-Analyse
159
2
2
160
.57ss
.00
–.25ss
HN
E
N
.02
.05
Gesellig
Ängstlich
6
.24ss
Vertrauensvoll
Methode 2
.84
.57ss
IT27
SRT
Methode 1
IT27
–.04
.26
.42ss
–.16
.28s
.41ss
.70
SRT
Methode 1
.11
.00
.22ss
–.02
.17
.73
HN
–.18
.34ss
.04
–.15
.83
E
.41ss
–.03
.18
.85
N
.10
.40ss
.69ss
Vertrauensvoll
–.12
.67ss
Gesellig
Methode 2
.42ss
Ängstlich
. Tabelle 2.20. Multitrait-Multimethod-Matrix mit den Methoden 1 (Fragebogen) und 2 (gemittelte Fremdeinschätzung) sowie den Konstrukten Vertrauen (erfasst mit den Skalen IT27, SRT
und HN) sowie Extraversion und Neurotizismus. (Nach Amelang et al., 1984, S. 210)
Bei der Erprobung einer neuen Skala für zwischenmenschliches Vertrauen bearbeiteten 101 Erwachsene beiderlei Geschlechts u. a. 3 Fragebogentests zum Konstrukt
Vertrauen, und zwar eine deutschsprachige Adaptation der auf Rotter zurückgehenden Interpersonal Trust Scale sowie die Skalen Self Reported Trust (SRT) von Constantinople (1970) und Trust aus den Philosophies of Human Nature (HN) von
Wrightsman (1974). Als diskriminante Konstrukte dienten Extraversion und Neurotizismus, erfasst mit Hilfe des Eysenck-Personality-Inventory. Als alternativer methodischer Zugang zu diesen Fragebogen standen Fremdeinschätzungen von jeweils 2
Bekannten oder Freunden auf konstruktadäquaten Eigenschaftsdimensionen zur
Verfügung. Die Resultate sind ausschnitthaft in . Tab. 2.20 zusammengestellt.
Beispiel
zentrale Prinzip besteht darin, die 4 Messwertreihen an einer Stichprobe von Personen
zu erheben und Korrelationen zu analysieren. Die verschiedenen Methoden zu einem
Konstrukt sollten miteinander hoch, die mit ein und derselben Methode erfassten Konstrukte jedoch niedrig miteinander interkorrelieren (konvergente bzw. diskriminante
Validität), d. h. auch bei identischer Methode sollten sich unähnliche Konstrukte als
relativ unabhängig erweisen. Nachfolgend wird ein empirisches Beispiel dazu gegeben.
Eingehender sind die Prinzipien der Multitrait-Multimethod-Analyse von Ostendorf et al. (1986) dargestellt und anhand von Erhebungen an N = 641 Probanden mit
der deutschsprachigen Form der Personality Research Form exemplifiziert worden.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Nebengütekriterien
Über die relative Wichtigkeit der Nebengütekriterien zueinander (und auch zu den
Hauptgütekriterien) mögen die Meinungen auseinandergehen. Es gibt keine Anhaltspunkte für eine unter allen Gesichtspunkten objektive Entscheidung. Für die
nachfolgende Darstellung sollen 2 Kriterien herausgegriffen werden, von denen
das eine relativ »testnah« ist, insofern es die Einordnung der ermittelten Testscores
in das Verhalten anderer Testteilnehmer betrifft, das andere mehr »entscheidungsnah«, weil die aus den Testdaten abzuleitenden Konsequenzen im Vordergrund
stehen.
2.3.2
Insgesamt können damit die Forderungen von Campbell und Fiske (1959) für die
Validierung der Vertrauensskala als erfüllt gelten.
Dimensionen finden sich im linken unteren Drittel und sind durch Schattierung
besonders hervorgehoben. Alle Werte sind mindestens auf dem 5%-Niveau
signifikant. Das arithmetische Mittel beträgt r-tc = .35. Mit dem Nachweis dieser
signifikanten (konvergenten) Validitäten ist die erste Forderung erfüllt.
4 Eine zweite Forderung geht dahin, dass die eben dargestellten Kombinationen
höhere Koeffizienten aufweisen als die »nichthomologen« Paarungen von Testund Fremdeinschätzungsskalen. In der Tat beträgt deren arithmetisches Mittel
nur r- = .10 (ohne Berücksichtigung des Vorzeichens), was die diskriminante Validität belegt.
4 Die dritte Forderung bezieht sich auf das Multitrait-Monomethod-Dreieck und
läuft auf höhere Korrelation innerhalb ein und desselben Traits (bei Konstanz der
Methode) als zwischen den Traits hinaus. Das betrifft im vorliegenden Material
nur die linke obere Matrix. Das Mittel der eingerandeten Koeffizienten beträgt
r- = .51, dasjenige der restlichen Werte außerhalb der Reliabilitätsdiagnonalen
nur r- = .15. Auch hier findet sich also ein wesentlicher Unterschied zwischen
konvergenter und diskriminanter Validität.
4 Eine vierte Forderung verlangt schließlich identische Zusammenhänge zwischen
den Traits unabhängig von der Messmethode (Äquivalenz der divergenten
Validitäten). Während sich für die Fragebogen ein Zusammenhang zwischen
den 3 Vertrauensskalen und Extraversion von durchschnittlich r- = .15 errechnet,
beträgt der eine Koeffizient für die Kombination der Fremdeinschätzungen
vertrauensvoll/gesellig r = .40; das stellt keine gute Übereinstimmung dar.
Wesentlich günstiger sieht es aber für Neurotizismus aus, wo die entsprechenden Koeffizienten r- = –.14 und r = .10 lauten. Schließlich ist auch der Zusammenhang zwischen E und N mit r = –.15 bzw. r = –.12 durchaus wechselseitig konkordant.
4 Die Koeffizienten für die Kombination von Test mit »zugehörigen« Rating-
Von spezifischer Bedeutung für die hier anstehende Analyse sind andere Werte:
am höchsten, was als eine Grundtatsache zu erwarten ist.
4 In der Hauptdiagonalen stehen die Reliabilitäten der Skalen. Diese Werte sind
In der Matrix gebührt den Diagonalen vorrangige Aufmerksamkeit:
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
161
2
2
Äquivalentnormen:
Zuordnung der Scores
zum Alter oder zu
Reifeabschnitten
Bei den Staffeltests, die auf Binet zurückgehen, sind die Aufgaben bekanntlich danach ausgewählt worden, dass sie – darin den Entwicklungstests sehr ähnlich – einen besonders steilen Anstieg der Lösungswahrscheinlichkeiten auf bestimmten
Altersstufen aufwiesen. Aufgaben qualifizierten sich dann für die Testendform, wenn
sie etwa von einer Altersgruppe in besonderer Häufung, von der darunter liegenden
Altersgruppe gar nicht gelöst werden konnten. Die Stelle auf dem Alterskontinuum,
an der diese Gegebenheiten vorlagen, entschied über die Zuordnung von Aufgaben
zu Altersgruppen. Pro Altersstufe gab es 5 Aufgaben, die zusammen 1 Jahr oder 12
Monate Intelligenzalter (IA) definierten. Pro richtig gelöstem Item entsprach das
mithin 12/5 IA oder 2,4 Monatsäquivalenten.
Wenn ein Proband im Lebensalter (LA) von 8 Jahren (= 96 Monaten) die für seine
Altersgruppe vorgesehenen Aufgaben (und auch diejenigen für die darunterliegenden Altersgruppen) richtig beantwortete, entsprach das einem individuellen IA von
96 Monaten oder 8 Jahren. Jede weitere richtige Lösung, gleich auf welcher Altersstufe, würde ein Mehr in Einheiten von 2,4 Monatsäquivalenten bedeuten. Hätte der
Proband hingegen nur Aufgaben für die 6jährigen (= 72 Monate) plus 2 weitere aus
dem Pool der 7jährigen geschafft, wäre das gleichbedeutend mit einem IA = 72 +
(2 × 2,4) = 76,8 gewesen.
Aus dem Vergleich des individuellen IA mit dem LA geht hervor, ob die Intelligenz »altersgemäß« ausgeprägt ist oder nicht.
Beispiel
Bei der Bildung von Äquivalentnormen erfolgt eine Zuordnung der jeweiligen Rohwerte oder Skalenscores zu bestimmten Zeitabschnitten, für die die betreffende Leistung besonders typisch ist, und zwar deshalb, weil sie von einer Referenzgruppe in
besonderer Häufung gezeigt wurde. Die Zeitstufe, auf die Bezug genommen wird, stellt
bei Intelligenz das Alter, bei Entwicklung der Reifestatus dar (Intelligenz- bzw. Entwicklungsalter).
! Bei diesem Transformationen unterscheidet man
5 Äquivalentnormen,
5 Variabilitäts- oder Abweichungsnormen,
5 Prozentrangnormen.
2.3.2.1 Normierung
Die Normierung eines Tests liefert das Bezugssystem, um die individuellen Testscores
im Vergleich zu denen einer größeren und meist »repräsentativen« Stichprobe von
Testteilnehmern einordnen zu können.
Auch wenn eine Skala hochgradig objektiv, reliabel und auch valide sein mag, so interpretieren sich die damit erhaltenen Scores doch nicht »aus sich selbst heraus«. Beispielsweise bedeuten 15 richtige Lösungen etwas Verschiedenes, wenn die Zahl angebotener
Aufgaben auch 15 oder aber 30 beträgt, und sie bedeuten etwas völlig Verschiedenes, wenn
alle anderen Probanden auch 15 geschafft haben oder aber keiner. Noch in einem anderen
Sinne bedeuten die 15 Richtigen etwas anderes, je nachdem, ob von ihnen die Leistung des
Probanden oder aber die Schwierigkeit des Tests charakterisiert werden soll.
Die Normierung stellt den diesbezüglich erforderlichen Bezugsrahmen zur Verfügung und sagt uns, was die Rohpunktwerte »bedeuten«. Zu diesem Zweck werden die
Rohwerte in transformierte Werte überführt, deren Bedeutung durch Rekurs auf bestimmte Operationalisierungen bekannt ist.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Normierung als
Bezugssystem zur
Interpretation von
Testscores
162
Jedenfalls handelt es sich bei dieser Auflistung um ein Gefüge theoretischer Annahmen
von hoher Plausibilität oder um ein Modell, das z. B. in Gestalt des sog. Galton-Brettes
das Entstehen von Normalverteilungen bei der zufälligen Kombination vieler Bedingungen (Kugeln, die auf Reihen von Nägeln fallen und unten in Schächten aufgefangen
werden) sehr eindrucksvoll vor Augen führt (. Abb. 2.34).
Normalverteilungen weisen die Eigenschaften auf, dass
4 der Abstand vom Mittelwert M der Verteilung zu deren Wendepunkt identisch ist
mit einer Einheit der Standardabweichung s und
4 die relative Häufigkeit von Messwerten unter den einzelnen Abschnitten der Verteilung, sofern diese in Einheiten der Standardabweichung ausgedrückt werden, stets
gleich ist, oder mit anderen Worten: Die Häufigkeit von Maßzahlen steht in direkter
Beziehung zu s. Das heißt, immer dann, wenn M und s bekannt sind und feststeht,
dass eine »normale« Verteilung vorliegt, kann die gesamte Verteilung aller Messwerthäufigkeiten angegeben werden. So liegen in der Standardnormalverteilung
zwischen M und 1s ca. 34% der Maßzahlen, zwischen M und 2s ca. 48% usw.
Die Einheit »Intelligenzalter« (oder bei anderen Tests: »Entwicklungsalter«) bildet somit
ein Äquivalent für die Zahl richtiger Lösungen, nämlich jener, die von den Angehörigen
einer Altersgruppe mehrheitlich gemeistert werden. Wegen der Plausibilität dieses Konzeptes haben derartige Äquivalentnormen verbreitete Akzeptanz gefunden.
Weil gleiche numerische Differenzen (IA–LA) etwas ganz Unterschiedliches bedeuten,
je nachdem, auf welcher LA-Stufe sie auftreten (z. B. ein Minus von 2 IA-Einheiten bei einem 12jährigen keineswegs als dramatisch erscheint, bei einem 4jährigen dagegen Schwachsinn anzeigen kann), hat Stern (1911) (. Abb. 2.33) vorgeschlagen, IA und LA in einem
Quotienten aufeinander zu beziehen, dem Intelligenzquotienten, und den Bruch zur
Gewährleistung ganzer Zahlen mit dem Faktor 100 zu multiplizieren: IQ = (IA/LA) · 100.
Damit sollte eine Vergleichbarkeit von Leistungsvorsprüngen bzw. -rückständen über verschiedene Altersstufen erreicht werden [so besteht für einen Probanden, der als 4jähriger
ein IA von 3 aufweist (IQ = 3/4 · 100 = 75), als 8jähriger ein IA von 6 erzielt (IQ = 6/8 ·
100 = 75) usw. damit eine Konstanz des IQ in seiner Bedeutung als Vergleichsmaßstab zu
Altersgleichen]. Gebunden ist dies an die Voraussetzung, dass mit zunehmendem Alter die
Streuung der IA-Einheiten proportional zunimmt, was weithin zutraf. Ungeachtet der
Gleichheit der Zahlen bedeuten aber psychologisch die beiden IQs etwas ganz Verschiedenes, und zwar deshalb, weil unterschiedliche absolute Leistungen in IA-Einheiten eingehen.
Darüber hinaus ist die Bildung eines derartigen Quotienten nur legitim bei strikt linearem
Anstieg der Leistungen über das Alter hinweg. Die meisten der vorliegenden Untersuchungen haben demgegenüber einen negativ beschleunigten Entwicklungsverlauf gefunden, mit
einem Kulminationspunkt im frühen Erwachsenenalter. Gerade wegen des Abflachens der
Leistungszuwächse mit zunehmendem Alter in der Jugendzeit war es unmöglich, das Konzept der Äquivalentnormen auch auf spätere Altersgruppen anzuwenden.
Variabilitäts- oder Abweichungsnormen kennen die zuletzt genannten Probleme
nicht, setzen dafür aber ein gewisses Verständnis für die Beschreibung von Häufigkeitsverteilungen voraus, in denen die Messwerte entweder im Sinne der Gaußschen Glockenkurve normal oder auch nicht normal verteilt sind.
Normalverteilungen kommen dann zustande, wenn an der Hervorbringung einer
Merkmalsausprägung
4 eine Vielzahl verschiedener Wirkfaktoren beteiligt ist,
4 diese Faktoren unabhängig voneinander ihren Einfluß entfalten und
4 sich die verschiedenen Wirkungen zu der Merkmalsausprägung addieren.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Eigenschaften von
Normalverteilungen
Kennzeichen von
Normalverteilungen
Variabilitäts- oder
Abweichungsnormen:
Bezug zu Häufigkeitsverteilungen
Der Intelligenzquotient
als Äquivalentnorm
. Abb. 2.33. William Stern
führte 1911 das Konzept des
Intelligenzquotienten ein
163
2
Konstante Multiplikatoren und Polungen
bei Standardskalen
Transformation in
z-Werte
Standardnormalverteilung: M = 0 und s =1
(2.84)
Durch diesen Rekurs auf die Standardnormalverteilung sind die Rohwerte in sog. Standardnormen transformiert worden. Jeder z-Wert ist eindeutig dadurch definiert, wie
weit der zugehörige Rohwert vom Mittelwert der originalen Maßzahlen entfernt ist
(. Abb. 2.35).
Zur Vermeidung von negativen Vorzeichen und gebrochenen Zahlen ist es üblich,
die z-Werte mit einem Faktor zu multiplizieren und eine additive Konstante hinzuzufügen. Am weitesten verbreitet ist die Konstante 100. Was den Multiplikator angeht, so
sind dafür ganz unterschiedliche Größen gewählt worden. Wechsler entschied sich bei
der Vorstellung seines »Abweichungs-Intelligenz-Quotienten« für den Faktor 15, und
zwar deshalb, weil die Standardabweichung der IQs als Bruch von IA und LA empirisch
einen Wert von ca. 15 ergeben hatte und zwischenzeitlich eine allgemeine Vertrautheit
damit eingetreten war.
Andere Autoren gaben sehr viel kleineren Werten den Vorzug. Beispielsweise beträgt der Multiplikator im Leistungsprüfsystem (LPS) von Horn (1983) nur 2. Maßgeblich dafür war u. a. die Überlegung, dass höhere Multiplikatoren die Gefahr beinhalten könnten, eine Differenzierung vorzuspiegeln, die mit Blick auf die nicht absolute Reliabilität keine Rechtfertigung findet.
X-M
=z
sx
Die sog. Standardnormalverteilung ist durch M = 0 und s = 1 erschöpfend beschrieben. Die Verteilungen von Merkmalen, wie Körpergröße oder Körpergewicht, politischen Einstellungen auf einem globalen Links-Rechts-Kontinuum usw., mögen je nach
Art des gegebenen Abszissenmaßstabes verschieden breit bzw. schmal erscheinen. Man
erhält jedoch häufig ein und dasselbe charakteristische Aussehen, d. h. denselben Verlauf der Häufigkeiten, wenn als Abszissenmaßstab die empirisch ermittelte Standardabweichung der jeweiligen Verteilung gewählt wird. Das geschieht, indem die Abweichung jedes einzelnen Messwertes X vom Mittelwert M der Verteilung in Einheiten der
jeweiligen Streuung sx, also in Standardwerten (z-Werte) ausgedrückt wird:
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.34. Nagelbrett
zur Veranschaulichung einer
Normalverteilung (Aus
Bortz, 1997)
164
0
100
100
50
5
5
5,5
z- Werte
IQ
Z-Werte
T-Werte
Centile
Stanine
Stene
1
15
10
10
2
2
2
Standardabweichung
–2 bis +2
70-130
80-120
30-70
1-9
1-9c
1-10
Bereich
HAWIE/HAWIK
IST-Amthauer
MMPIa
PSBb
FPId
16PFf
Beispiel
b
MMPI Minnesota Multiphasic Personality Inventory (7 Abschn. 3.2.3).
PSB Prüfsystem für Schul- und Bildungsberatung (Horn, 1969).
c
Dieser Bereich definiert die Skala als »standard-nine«; im Unterschied zu den anderen Normskalen sind hier keine noch extremeren Werte möglich.
d
Freiburger Persönlichkeits-Inventar.
e
Von Standart-ten.
f
16 PF 16 Personality Factors (7 Abschn. 3.2.3).
a
Mittelwert
Skala
. Tabelle 2.21. Einige gebräuchliche Normenmaßstäbe. (Unter »Bereich« ist die Spanne von
±2 Standardabweichungen angegeben.)
Beispiel
Üblicherweise erfolgt die Polung in der Richtung, dass höheren Normwerten auch
höhere Leistungen entsprechen. Diese Regel aber fand keine Anwendung im Begabungstestsystem (BTS) von Horn (1972), das in Analogie zu den Schulnoten auf
M = 3,0 und s = 1,0, aber mit negativen Vorzeichen normiert wurde, hohe Testleistungen also zu niedrigen Normwerten führen und umgekehrt. Einige gebräuchliche Normenmaßstäbe werden in . Tab. 2.21 aufgeführt.
Da sich alle Standardskalen leicht ineinander überführen lassen, darf zu Recht die
Frage gestellt werden, ob nicht einem der Normierungsmaßstäbe eine allgemeine Leitfunktion beigemessen werden sollte.
Immer dann, wenn die Messwerte nicht normalverteilt sind, verbietet sich die
Transformation in Standardnormen, und zwar deshalb, weil die dafür notwendigen
Voraussetzungen nicht erfüllt sind. Statt dessen werden derartige Verteilungen nach
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
. Abb. 2.35. Relative
Häufigkeiten von z- sowie
IQ-Werten unter den einzelnen Abschnitten der Normalverteilung
165
2
Repräsentativität der
Normierungs- oder
Eichstichprobe
Gleiche Abstände
haben u. U. verschiedene Bedeutungen
Prozentränge
benötigen keine
Voraussetzungen
Prozentrangnormen:
Relative Position auf
der Rangreihe der
Bezugsgruppe
cumf
⋅100
N
13
4
84
14
1
85
(2.85)
Der große Vorzug von Prozenträngen besteht in ihrer Voraussetzungslosigkeit, was die
Verteilungsform der Messwerte angeht, und in ihrer leichten Verständlichkeit: Jedermann kann sich ganz unschwer vorstellen, dass einem PR von beispielsweise 90 die
Tatsache entspricht, dass nur 10% der vergleichbaren Probanden einen noch höheren
Messwert erreichen.
Andererseits muss bei Prozenträngen in Rechnung gestellt werden, dass numerisch
gleiche Differenzen in der PR-Skala in Abhängigkeit vom Abschnitt der Messwerteverteilung ganz unterschiedlichen Differenzen in Standardwertnormen entsprechen. Der
Abstand beispielsweise zwischen PR 5 und 15 ist numerisch identisch mit demjenigen
zwischen 50 und 60. Dies bedeutet in der Verteilung mit M = 9,76 und s = 1,63 (7 Beispiel) im ersten Fall jedoch eine Z-Werte-Differenz von 5 (nämlich von Z = 85 bis
Z = 90), im zweiten von 2,5 (nämlich von Z = 100 bis Z = 102,5) Punkten.
Was die empirischen Daten angeht, die für jede Normierung unerlässlich sind, so
ist eine repräsentative Zusammenstellung der Normierungs- oder Eichstichprobe un-
Der Prozentrang für die Maßzahl 8 beträgt: PR = cumf/N · 100
= 17/85 · 100
= 20
X = M = 9,76,
s = 1,63.
In einem Experiment hätten sich folgende Häufigkeiten ergeben:
Maßzahl
5
6
7
8
9
10
11
12
f
1
0
6
10
19
24
14
6
cumf
1
1
7
17
36
60
74
80
Beispiel
PR = Prozentrang,
f
= Häufigkeit von Messwerten innerhalb einer Klasse,
cumf = kumulierte Häufigkeit der Messwerte bis zur Klassengrenze,
N
= Gesamtzahl aller Probanden.
PR =
Maßgabe der relativen Maßzahlhäufigkeiten (= »Fläche«) in einzelne Abschnitte aufgeteilt und diesen Segmenten oder Transformationen Standardnormäquivalente zugeordnet.
Ob eine Normalverteilung der Messwerte vorliegt oder nicht: Weder in dem einen
noch dem anderen Fall kann daraus auf die Verteilungsform des Konstruktes »an sich«
geschlossen werden, da sich in den Maßzahlen auch stets die spezifischen Operationalisierungen zur Erfassung der Merkmalsdimension niederschlagen und insofern der
Untersuchungsgegenstand stets auch von der Methode abhängt, die zu seiner Beschreibung herangezogen wird.
Bei Prozenträngen (PR) handelt es sich um eine weitere Normierung, bei der die
Transformation darin besteht, dass den Maßzahlen die relative Position auf der nach
Größe ranggereihten Messwerteskala der Bezugsgruppe zugeordnet wird:
Kapitel 2 · Grundlagen diagnostischer Verfahren
Alternative: Zuordnung von Standardnormäquivalenten
166
Testfairness
Die gesellschaftspolitischen Bewegungen und gesetzgeberischen Initiativen, wie sie in
dem soeben angeführten Zitat exemplarisch geschildert werden, haben auch in der
testpsychologischen Fachliteratur zu einer intensiven Diskussion über »Testfairness«,
»Testbias« und »Fairness der Auslese« Anlass gegeben (. Abb. 2.36). Als Ergebnis dieser
Kontroverse liegen seit Ende der 60er Jahre ganz unterschiedliche Vorstellungen darüber vor, was im Einzelnen unter einer fairen Selektionsstrategie zu verstehen ist. Ein
Vergleich der verschiedenen Definitionen von Fairness lässt jedoch erkennen, dass
diese nicht primär fachwissenschaftliche, sondern spezifisch politische Wertvorstellungen implizieren. Je nachdem, welche gesellschaftspolitischen Ziele im Einzelfall handlungsbestimmend sind, bedeutet das eine Entscheidung zugunsten ganz bestimmter
und zu Lasten anderer Fairnessmodelle. Weil sich die zugrundeliegenden Wertvorstellungen wechselseitig ausschließen, handelt es sich bei Fairness nicht um eine technische
Qualität, die einem Instrument zu eigen ist oder nicht. Es gibt nicht den fairen Test oder
das faire Selektionsverfahren, sondern nur Fairness im Hinblick auf Handlungs- und
Entscheidungsaspekte (die expliziert werden müssen). In dem Maße, in dem sich die
angestrebten Ziele voneinander unterscheiden, kann ein und dasselbe Testinstrumentarium als mehr oder weniger fair angesehen werden.
»Murphy Archibald, 30, ein Vietnam-Heimkehrer aus Alabama, hatte sich, wie er meinte, durch gute akademische Leistungen die Aufnahme in ein Stipendium an der Vilanova-Universität verdient. Doch als er an der Universität auftauchte, befand sich seine
Akte unter »Minoritäten-Bewerber« mit einem b wie »black« darauf. Als die Sachbearbeiter erkannten, dass der Mann aus Alabama nicht schwarz, sondern weiß war, wurde
ihm das Stipendium entzogen. Ex-Stipendiat Archibald verdankt sein Scheitern der
guten Absicht der Bürgerrechtsbewegung des Präsidenten Johnson: Der Civil-RightsAct von 1964 verbietet in Absatz 7 jedwede Benachteiligung amerikanischer Bürger
aufgrund von Rasse, Geschlecht, Hautfarbe, Religion oder nationaler Herkunft.« (Der
Spiegel, 1975, Nr. 7, S. 93)
2.3.2.2
erlässlich; nur dann macht es Sinn, einzelne Messwertträger mit ihrem Punktwert auf
den durch die Population definierten Hintergrund zu beziehen. Sinnvoll und aussagekräftig sind neben einer Aufgliederung in Altersgruppen bei Leistungstests auch gesonderte Normen für verschiedene Schultypen. Ein Z-Wert von 110 bedeutet zwar für die
Gesamtheit aller Probanden ein leicht überdurchschnittliches Niveau (= Prozentrang
84), doch in Bezug auf Oberschüler nur eine durchschnittliche Leistung und im Vergleich zu den erfolgreichen Examinanden eines Studienganges vermutlich weniger als
den Durchschnitt. In Persönlichkeitstests finden sich häufiger auch geschlechterspezifische Normen. Wenn beispielsweise bekannt ist, dass Frauen im Mittel ängstlicher sind
als Männer, könnte es leicht zu falschen Schlüssen führen, den Ängstlichkeitsscore einer
weiblichen Probandin am Durchschnitt aller Merkmalsträger zu relativieren.
Eine weitere Forderung geht dahin, dass die Normdaten aktueller Herkunft sein
sollen. Die Literatur ist voller Beispiele über markante Leistungszuwächse im Laufe der
Zeit, teils als Folge allgemein verbesserter Anregungs- und Schulungsbedingungen,
teils als Folge spezifischer Ereignisse in Technik, Sport oder Wissenschaft. Diese führen
dazu, dass ein und derselbe individuelle Punktwert immer leichter zu erzielen ist. Vor
diesem sich änderndem Hintergrund müßten die Verfahren laufend »nachnormiert«
werden, doch hapert es an der Einlösung dieser Notwendigkeit ebensooft wie an der
Bereitstellung hinreichend repräsentativer Eichstichproben.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Gesellschaftspolitischer Einfluss auf die
Definition von Fairness
Normdaten sollen
aktuell sein
167
2
Schwachstelle:
Effizienz des Verfahrens unbeachtet
Proportionale
Repräsentativität der
Stichprobe
»nur unter einer Annahme sinnvoll zu sein, die von den Vertretern dieses Modells offenbar implizit gemacht wird, nämlich unter der Annahme, daß die … Gruppen ›in
Wirklichkeit‹ gleich leistungsfähig sind (sowohl im Kriterium wie in den durch den Test
zu erfassenden Merkmalen) und daß der Test durch fehlerhafte Konstruktion Unterschiede zwischen den Gruppen nur vortäuscht.« (Bartussek, 1982, S. 3)
Einer gängigen Position zufolge gilt eine Selektionsmaßnahme dann als fair, wenn sie
gewährleistet, dass in der Stichprobe der ausgewählten Bewerber die Proportion der
miteinander verglichenen Gruppen dieselbe ist wie in der Bewerberpopulation (= proportionale Repräsentation). Gewöhnlich läuft das auf die Forderung nach Übereinstimmung der Mittelwerte und Standardabweichungen (sowie weiterer Verteilungskennwerte) für Populationssubgruppen hinaus, die als relevant erscheinen (z. B. Geschlechter,
soziale Schichten, regionale Herkunft usw.).
Die Schwachstellen einer solchen Definition sind sowohl konzeptioneller als auch
empirischer Art. Weil nur die Gegebenheiten auf seiten des Vorhersageinstrumentes in
die Definition eingehen, bleiben Aussagen über die Effizienz des Verfahrens im Hinblick auf den Erfolg der ausgewählten Bewerber gleichsam ausgeblendet. Unterstellt
man andererseits, dass Diagnosen keinen Selbstzweck erfüllen, sondern die Basis für
Prognosen wie etwa dem Erfolg in einem Kriterium liefern, scheinen die Forderungen
des Modells
Das Modell der proportionalen Repräsentation(Quotenmodell, Identitätskonzept)
Die nachfolgende Darstellung gilt nur den wichtigsten Fairnessmodellen. Weitere
Konzepte und insbesondere eine vertiefende Auseinandersetzung damit finden sich in
den Sammeldarstellungen von Jensen (1980), Weiss und Davison (1981) sowie Bartussek (1982).
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.36. Im Hinblick
auf inter-ethnische Unterschiede stellt sich das Problem der Fairness von Begutachtung und Entscheidung
168
Der Definition von Cleary (1968) zufolge ist ein Selektionsverfahren dann fair, wenn
bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht.
Diese Forderung ist dann erfüllt, wenn die zur Vorhersage des Kriteriums verwendeten gruppenspezifischen Regressionsgeraden miteinander identisch sind, d. h. gleiche Steigungen aufweisen und an derselben Stelle die Ordinate schneiden (Konstante a
in der Regressionsgleichung, 7 Abschn. 2.1.1.5, Vorhersage auf der Basis von Testwerten). Für die Prädiktion des Kriteriums Y aus den Testwerten X kann deshalb in einem
solchen Fall für alle Messwertträger (ohne Berücksichtigung ihrer Gruppenzugehörigkeit) eine gemeinsame Regressionsgerade angenommen werden, ohne dass dadurch
einzelne Probanden je nach ihrer Gruppenzugehörigkeit systematisch bevorzugt oder
benachteiligt würden.
Das Regressionsmodell (Modell einer fairen Vorhersage)
Eben diese Annahme trifft nach den vorliegenden Ergebnissen für gut konstruierte
Tests definitiv nicht zu (s. Jensen, 1980, S. 465–515; Weiss & Davison, 1981, S. 697 ff.).
Wenngleich hin und wieder Resultate berichtet werden, die näherungsweise in Einklang damit zu stehen scheinen (z. B. Michel, 1977; Trost et al., 1978, 1980), weist die
Befundliteratur doch überwiegend eine deutliche Abhängigkeit der Mittelwerte von
Leistungs- und Persönlichkeitstests von Gruppierungsgesichtspunkten der genannten
Art aus. Die Erfüllung einer radikalen Fassung eines solchen Konzeptes muss somit aus
methodischer Sicht fragwürdig erscheinen, weil sie nur zu Lasten der Validität geleistet
werden könnte.
Die mit systematischen Gruppenunterschieden verbundenen Probleme sind innerhalb der psychologischen Diagnostik für bestimmte Teilgruppen schon frühzeitig berücksichtigt worden; allerdings erfolgt die Beschäftigung damit unter dem Stichwort
einer »Normierung« der Testwerte. Namentlich im Leistungsbereich werden i. Allg.
individuelle Punktwerte an denjenigen von alters- und/oder geschlechtsgleichen Personen relativiert (vgl. Abweichungsnormen). Dahinter verbirgt sich die Überzeugung,
dass es alters- oder geschlechtsabhängige Unterschiede nicht geben »darf« bzw. es unbillig wäre, etwa ältere Personen hinsichtlich ihrer Leistungsfähigkeit mit jüngeren zu
vergleichen. Bemerkenswert dabei ist, dass von einer Normierung für die verschiedenen sozioökonomischen Schichten in den allermeisten Fällen abgesehen wird, obwohl
gerade im Hinblick darauf die Mittelwertsunterschiede gravierend sind.
Ungeachtet solcher Erwägungen kann Fairness kaum hergestellt werden durch Verwendung detaillierter, alle denkbaren Unterscheidungsmerkmale berücksichtigender
Normtabellen: So wäre es gewiss unsinnig, beispielsweise einen 50jährigen Alkoholkranken mit einer anspruchs- und verantwortungsvollen Überwachungsaufgabe nur
deshalb zu betrauen, weil er innerhalb der Subgruppe altersgleicher Alkoholkranker
über hervorragende Leistungen in den einschlägigen Tests verfügt. Vielmehr muss die
Entscheidung darüber von dem Umstand abhängig gemacht werden, welches Ausmaß
an faktischer Bewährung bei einem gegebenen Testpunktwert zu erwarten ist. Der ausschlaggebende Aspekt liegt somit nicht in der Frage, ob es Unterschiede der Testmittelwerte an sich gibt, sondern ob bestimmte Verfahren zu subgruppenspezifischen Fehleinschätzungen der Kriteriumswerte führen oder nicht (s. Wottawa & Amelang, 1980).
Das Identitätskonzept wird deshalb in der psychologischen Literatur nicht ernsthaft
vertreten. Vielmehr stehen dort solche Modelle im Mittelpunkt, bei denen der Erfolg
im Kriterium eine vorrangige Rolle spielt, wobei dieser in unterschiedlicher Weise auf
jenen im Prädiktor bezogen wird.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Fairness bei identischen Regressionsgraden
Subgruppenspezifische Fehleinschätzungen der Kriteriumswerte
Umgang mit systematischen Gruppenunterschieden
169
2
Auswahl der im
Kriterium voraussichtlich Besten
Beispiel für Testfairness
nach dem Regressionsmodell
. Abbildung 2.37 veranschaulicht diese Gegebenheiten am Beispiel von 2 Gruppen
und macht zugleich deutlich, dass bei diesem Modell sehr wohl bedeutsame Mittelwertsunterschiede im Prädiktor auftreten mögen, mit denen aber richtungsgleiche Differenzen eines bestimmten Ausmaßes im Kriterium einhergehen müssen.
Solche Verhältnisse liegen beispielsweise in dem Untersuchungsmaterial von Simons
und Möbus (1976) vor, wo aus einer Stichprobe von N = 310 Schülern des ersten Grundschuljahres N = 58 Arbeiter- und N = 63 Akademikerkinder ausgewählt worden waren.
Die Prädiktoren bestanden aus 6 Untertests der Testbatterie Primary Mental Abilities in
der deutschsprachigen Adaptation von Kemmler (1967), die Kriterien aus den Schulleistungen in Deutsch und Rechtschreiben. Alle Variablen waren für die Gesamtstichprobe
T-normiert (7 Abschn. 2.3.2.1), also auf den Mittelwert 50 und eine Streuung von 10
standardisiert. Im Mittel der Testskalen erzielten die Arbeiterkinder einen Wert von
M = 44,9, die Akademikerkinder einen solchen von M = 54,6; im Kriterium lauteten die
Mittelwerte M = 48,1 und 54,4. Bei einem Vergleich der Regressionskoeffizienten aus
beiden Substichproben wichen die Schätzungen durch die gemeinsamen und die getrennten Regressionen nicht signifikant voneinander ab – womit die Testbatterie für das
anstehende Vorhersageproblem gemäß der übernommenen Definition fair war.
Eine der vorrangigen Implikationen des regressionsanalytischen Fairnessmodells
besteht darin, dass nur die im Kriterium voraussichtlich Besten ausgewählt werden,
d. h. der durch den Test vorhergesagte Kriteriumswert bestimmt die Auswahl. Fair ist
dieses Vorgehen für jeden einzelnen Probanden deshalb, weil jeder voraussichtlich im
Kriterium bessere Bewerber jedem voraussichtlich weniger leistungsfähigen Bewerber
vorgezogen wird (Position des »qualified individualism« sensu Hunter & Schmidt,
1976).
Ein allgemeines Merkmal dieses Modells besteht darin, dass es wegen der Auswahl
am Kriterium die voraussichtliche Erfolgsrate darin maximiert.
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.37. Das regressionsanalytische Fairnesskonzept von Cleary (1968),
veranschaulicht am Beispiel
von 2 Gruppen A und B: Die
Regressionsgrade gyx zur
Vorhersage des Kriteriums Y
aus den Testwerten X ist in
den beiden Gruppen A und
B identisch. Sie geht durch
– –
–
die Punkte (XA, YA) und (XB,
–
YB), also die jeweiligen
Schnittpunkte des Prädiktormit dem Kriteriumsmittelwert in beiden Stichproben
170
Thorndike (1971) verlangt von fairen Verfahren, dass das Verhältnis zwischen der Zahl
der durch die Testung ausgewählten Bewerber und der Zahl im Kriterium potentiell
(d. h. ohne Auswahl!) Erfolgreicher in den miteinander verglichenen Gruppen gleich
oder konstant ist.
Gemäß der schematischen Darstellung in . Abb. 2.38 bedeutet das die Forderung
nach Identität der Proportionen: (RP + FP) : (RP + FN).
Beispielsweise wären von 300 erfolgreichen Teilnehmern an einem Ausbildungsprogramm 200 aus der Unterschicht und 100 aus der Oberschicht. Könnten infolge einer
bedeutsamen Erweiterung des Trainingsinstituts 600 Bewerber für den nächsten Kurs
zugelassen werden, so würden gemäß dieser Konzeption die im Test besten 400 Unterund besten 200 Oberschichtangehörigen akzeptiert.
Soll derartigen Anforderungen Genüge geleistet werden, ohne für die Gruppen unterschiedliche Testtrennwerte einzuführen, so bedeutet das in regressionsanalytischer
Formulierung eine Parallelverschiebung der Regressionsgeraden, wie es in . Abb. 2.39
veranschaulicht ist.
Das Modell ist fair gegenüber den Gruppen A und B, weil der Anteil auszuwählender Bewerber an dem Anteil potentiell Erfolgreicher in jeder Gruppe definiert wird
(Position einer Quotendefinition von Fairness). Aus der Abbildung geht hervor, dass
–
– unter der Annahme, ein Überschreiten von YA bedeute Erfolg – bei Festsetzung des
–
–
Testtrennwertes für Auswahl bzw. Zurückweisung entweder bei XA oder XB, das Verhältnis der selegierten zu den potenziell Erfolgreichen in beiden Gruppen jeweils gleich
ist, und zwar im gewählten Beispiel 1,0.
Das Cleary-Modell würde eine derartige Konstanz der Quoten nicht gewährleisten,
wie ein Blick auf . Abb. 2.37 erkennen lässt: Dort ist zwar das Verhältnis der Ausgewählten zu den Erfolgreichen in den beiden Gruppen gleich 1 (und zwar 50%), doch
Das Modell konstanter Verhältnisse (»constant ratio model«)
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Parallelverschiebung
der Regressionsgeraden
. Abb. 2.38. Die 4 Ergebnisse eines Selektionsverfahrens. RP richtige Positive
(Anzahl Ausgewählter, die
erfolgreich sind), FP falsche
Positive (Anzahl Ausgewählter, die nicht erfolgreich
sind), RN richtige Negative
(Anzahl Zurückgewiesener,
die tatsächlich auch nicht
erfolgreich sind), FN falsche
Negative (Anzahl Zurückgewiesener, die erfolgreich
wären). x+ »cut-off« im Zulassungstest, y+ »cut-off« im
Kriterium (schlechtester
Kriteriumswert, der noch als
Erfolg gilt)
171
2
Fair gegen Selegierte,
unfair gegenüber
Abgelehnten
Nach Cole (1973) ist ein Test fair, wenn der Quotient RP:(RP + FN) in den miteinander
verglichenen Gruppen gleich ist (»conditional probability model«).
In regressionsanalytischen Terms bedeutet das im Vergleich zum Thorndike-Modell eine noch größere Distanz zwischen den parallelen Regressionsgeraden, wenn ohne
gruppenspezifische Testtrennwerte oder Bonus-Malus-System ausgekommen werden
soll. (Letzteres findet bekanntlich bei der Verteilung der Studienplätze durch die Zentrale Vergabestelle Anwendung, wo die Bewerber je nach dem Abiturnotendurchschnitt
ihres Heimatbundeslandes eine Gut- oder Lastschrift auf ihre individuellen Noten erhalten.) Linn (1973) definiert Fairness durch die Konstanz des Bruches RP : (RP + FP)
Weitere Fairnesskonzepte
stehen in B den wenigen Testbesten viel mehr potenziell Erfolgreiche im Kriterium
gegenüber.
Ein Nachteil des Thorndike-Modells besteht darin, dass es im Vergleich zur Konzeption von Cleary die Kriteriumsleistungen insgesamt gegenüber dem erreichbaren
Maximum reduziert. Das wird deutlich an Grenzfällen: Wenn beispielsweise jemand
–
aus Gruppe A den kritischen Trennwert XA knapp verfehlt, so wird er gemäß der getroffenen Vorabfestlegungen zurückgewiesen, und zwar im Unterschied zu einem Bewerber aus B, der denselben »cut-off« knapp überwunden hat, obwohl der erste Proband
nach Maßgabe der Regressionsgeraden gyxa einen höheren Erfolg aufgewiesen hätte als
B auf der Basis von gyxb. Ein konzeptuelles Problem aller Quotendefinitionen besteht
darin, dass die Definition von Fairness, orientiert an Selegierten und potenziell Erfolgreichen, in aller Regel unvereinbar ist mit einer solchen, die auf die Abgewiesenen und
potentiell Erfolglosen abhebt, oder mit anderen Worten: Ein Test, der fair ist mit Blick
auf die Selegierten, ist unfair gegenüber den Abgelehnten (= logische Inkonsistenz der
kriteriumsbezogenen Quotendefinitionen nach Novick & Peterson, 1976).
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.39. Das Fairnessmodell konstanter Verhältnisse von Thorndike (1971)
in regressionsanalytischer
Veranschaulichung: Das Verhältnis der selegierten zu
den potenziell erfolgreichen
Bewerbern ist in beiden
Gruppen A und B konstant
(hier bei dem gewählten
–
Testtrennwert XA und dem
Erreichen von Erfolg im Kriterium durch Überschreiten
–
von YA jeweils 1)
172
Misserfolg
Kriterium
18
77%
60%
Anteil der Selektierten an allen potenziell Erfolgreichen (Modell konstanter Verhältnisse; Thorndike)
Anteil der validen Positiven an allen potenziell Erfolgreichen (Modell bedingter Wahrscheinlichkeiten; Cole)
6
77%
77%
Anteil der validen Positiven an allen Selektierten (Modell gleicher Wahrscheinlichkeiten; Linn)
Proportion korrekter Entscheidungen
40%
31%
Selektionsrate
5
17
Basisrate
60
angenommen
(22)
7
24
angenommen
(31)
West
Misserfolg
Kriterium
abgelehnt (78)
Test
53
16
abgelehnt (69)
Test
3. Vergleich
Erfolg
Kriterium
2. Ost (von je 100)
Erfolg
Kriterium
1. West (von je 100)
49%
63%
77%
77%
22%
35%
Ost
65
35
Grundquote/
Basisrate
60
40
Grundquote/
Basisrate
. Tabelle 2.22. Häufigkeiten von Vorhersagequoten und -fehlern bei identischer Kriteriumsvalidität der in Ost- und Westdeutschland eingesetzten Testverfahren. (Nach Kersting, 1995,
S. 37)
Anhand der zwischen Ost- und Westdeutschen auftretenden Unterschiede in Leistungstests ist Kersting (1995) der Frage nachgegangen, welche Probleme im Hinblick auf die Fairness selbst dann bestehen mögen, wenn für beide Gruppen von
einer identischen Validität der Prädiktoren ausgegangen wird. Grundlage waren
die zwischen 1991 und 1992 erhobenen eignungspsychologischen Testdaten von
N = 1377 Bewerbern beiderlei Geschlechts um eine Ausbildung zum gehobenen
nichttechnischen Verwaltungsdienst. Die Probanden aus den alten Bundesländern
wiesen im Vergleich zu jenen aus den neuen durchschnittlich 2,6 Standardwerte
höhere Leistungen auf. Unter verschiedenen Rahmenannahmen (u. a. Testkriteriumsvalidität in beiden Gruppen rtc = .54, Anwendung desselben Testtrennwertes)
führten die Modellrechnungen zu den in . Tab. 2.22 wiedergegebenen Resultaten.
Beispiel
(»equal probability model«), d. h. für die Zugelassenen aus den relevanten Gruppen soll
die Wahrscheinlichkeit eines Erfolges im Kriterium gleich sein. Die Inkompatibilität
dieses Modells mit jenem von Cleary ist am geringsten.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
173
2
2
Überlegungen zur
Validitätssteigerung
Wechselbeziehungen zwischen Gütekriterien
Innerhalb der Hauptgütekriterien kommt der Validität die höchste Bedeutung zu: Die
präzise Bestimmung inter- oder intraindividueller Unterschiede stellt kein Ziel für sich
selbst dar, sondern bildet nur die notwendige Voraussetzung für die Möglichkeit von
Generalisierungen, d. h. Rückschlüsse aus dem Verhalten in der Testsituation auf Merkmalsunterschiede außerhalb davon anstellen zu können. Insofern sind Objektivität und
Reliabilität der Validität gleichsam vorgeordnet: Ohne ein Mindestmaß an Objektivität
ist keine Reliabilität denkbar, ohne befriedigende Reliabilität keine hinlängliche Validität. Lienert (1989, S. 20) hat die Beziehungen der Hauptgütekriterien zueinander, wie
in . Abb. 2.40 zu sehen, veranschaulicht.
Ist eine hohe Validität erwiesen, entbindet dieses vom Nachweis der Objektivität und
Reliabilität, da in einem solchen Fall diese Gütekriterien (ebenfalls) erfüllt sein müssen.
Meist wird es jedoch darauf ankommen, durch geeignete Maßnahmen die Validität zu
2.3.3
Bei Jensen (1980, S. 405) findet sich eine vergleichende Übersicht über die vorgenannten Fairnesskonzepte, in der die Identität der Regressionsgeraden im Sinne von Cleary
angenommen wird. Um dabei den Anforderungen der einzelnen Definitionen entsprechen zu können, bedarf es gruppenspezifischer Trennwerte, die je nach Modell verschieden weit auseinander liegen.
Im konkreten Entscheidungsfall mögen politische oder ökonomische Vorgaben den
Ausschlag zugunsten des einen oder anderen Quotenmodells geben (man denke nur
an die Diskussion um die »Quotenfrauen«). Mit der Maximierung des Erfolges im
Kriterium und der Akzentuierung der Test-Kriteriums-Validitäten gebührt aber unter
methodischen Erwägungen dem Regressionsmodell von Cleary (1968) eine gewisse
Vorzugsstellung. Simons und Möbus (1976) haben zudem wahrscheinlich gemacht,
dass in bestimmten Fällen durch die Hinzunahme weiterer Prädiktoren in die Vorhersagebatterie und die dadurch erreichte Verbesserung der Validität auch subgruppenspezifischen Benachteiligungen entgegengewirkt werden kann, oder mit anderen Worten: Je höher die Validität, um so geringer ist das Risiko eines Testbias gegenüber einer
relevanten Untergruppe von Merkmalsträgern.
Abschließende Bemerkungen
Wie ersichtlich, sind die Proportionen korrekter Entscheidungen und der Anteil
der richtigen Positiven an allen Selegierten mit 77% jeweils gleich. Dieses wird erreicht, indem der ungünstigeren Basisrate im Osten (35% gegenüber 40%) durch
eine strengere Selektionsrate entgegengewirkt wird. Daraus resultieren aber unterschiedliche Quoten nach dem Thorndike- und Cole-Modell. Für das letztere, das
Modell der bedingten Wahrscheinlichkeiten, bedeuten die angegebenen Prozentzahlen für Westdeutsche eine im Vergleich zu den Ostdeutschen höhere Wahrscheinlichkeit, überschätzt zu werden: Mehr potenziell erfolgreiche Ostbewerber werden
zurückgewiesen als angenommen oder in anderer Wendung: Im Westen werden 40%
von 40%, also 16% von potentiell erfolgreichen Bewerbern nicht richtig erkannt; im
Osten lauten die Zahlen 51% von 35%, also 18% (siehe die jeweils durch Fettdruck
hervorgehobenen Quoten) – ein Beispiel dafür, wie bei einer an den Selektierten ausgerichteten Fairness gleichzeitig Unfairness bei den Abgelehnten bestehen kann.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Validität als wichtigstes Gütekriterium
174
der Interpretation
Validität
(kriterienbezogen)
innere Konsistenz
Parallel- und Retest
Reliabilität
der Auswertung
der Durchführung
Objektivität
Zulänglichkeit
Konstanz des Persönlichkeitsmerkmals
Eine zentrale Bedeutung innerhalb solcher Überlegungen kommt der Variabilität der
Schwierigkeitskoeffizienten zu: Weil extreme Schwierigkeiten im Vergleich zu mittleren
die Iteminterkorrelationen, die Trennschärfeindizes und (als Folge davon) die Homogenität der gesamten Skala mindern, bietet die Variation der Itemschwierigkeiten eine
relativ einfache Handhabe für die Verbesserung der Validitätserwartungen (zu Lasten
der Reliabilität).
Batterien von Tests werden den in gewissen Grenzen unvereinbaren Anforderungen auf optimale Weise gerecht: In Form der homogenen Einzelskalen dem Aspekt
der Messgenauigkeit, in Gestalt des Gesamttestwertes dem Gesichtspunkt der Validität.
steigern, weil deren Höhe noch nicht ausreichend ist. Folgende Punkte sind in diesem
Zusammenhang zu erwägen:
4 Retestreliabilität und Paralleltestreliabilität können nicht größer sein als Objektivität
und Konsistenz. Eine Verbesserung der letztgenannten Kriterien schafft deshalb
bessere Voraussetzungen für die Reliabilität.
4 Da die Reliabilität durch Verlängerung des Tests relativ leicht angehoben werden
kann, wird darin oft ein probates Mittel zur Erzielung einer höheren Validität gesehen. Das kann i. Allg. durchaus zu praktischen Erfolgen führen. In theoretischer
Hinsicht sind Reliabilität und Validität aber partiell miteinander inkompatibel: Wie
aus der Erörterung der einfachen und doppelten Minderungskorrektur erinnerlich
ist, stehen in der betreffenden Formel zur Aufwertung der Validität (7 Abschn. 2.1.1.3)
sowohl die Reliabilität des Tests als auch diejenige des Kriteriums im Nenner. Jede
Vergrößerung dieser Kennwerte muss deshalb zu einer Verminderung des Bruches
führen, d. h. der (theoretisch interessierende) Zuwachs der Korrelation zwischen
den wahren Test- und wahren Kriteriumswerten sinkt mit steigender Reliabilität
(Attenuations- oder Verdünnungsparadox).
4 In der diagnostischen Praxis geht damit die Erfahrung einher, dass jene Verfahren,
die eine besonders hohe Reliabilität aufweisen, nämlich sehr homogene Tests, häufig nur wenig valide sind gegenüber komplexeren Außenkriterien. Die Veränderung
der Tests in Richtung auf eine größere inhaltliche Heterogenität – also unter Einbußen der Reliabilität – stellt dabei eine realistische Option zur Verbesserung der
Validität dar.
III
II
I
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Testbatterien als
Lösung der partiellen
Unvereinbarkeit der
Gütekriterien
. Abb. 2.40. Wechselbeziehungen zwischen den
Hauptgütekriterien (Aus
Lienert, 1989, S. 20)
175
2
»Aktuelle« Kriterien
erfassen »eigentliche«
Kriterien oft unzureichend
In der Praxis häufig
Verwendung leicht
verfügbarer Kriterien
Eine gesonderte Problematik ergibt sich aus dem Umstand, dass zwischen »eigentlichen« (ultimate) und »aktuellen« Kriterien unterschieden werden muss. Bei Berufserfolg handelt es sich beispielsweise um ein komplexes Kriterium, dessen individuelle
Bestimmung erst dann mit »letzter« Sicherheit erfolgen kann, wenn eine Person altersbedingt aus dem Berufsleben ausgeschieden ist und damit alle Fakten zur Beurteilung
vorliegen (wie z. B. höchste erreichte Position, Dauer der Partizipation am Arbeitsprozess, Produktivität oder Effizienz, Stetigkeit vs. Wechsel der Arbeitsverhältnisse, Kontinuität vs. Variation des Einkommens und der Beschäftigungszeiten usw.).
In aller Regel stehen weder die zeitlichen noch sachlichen Ressourcen zur Verfügung, um derartige Entwicklungen abzuwarten; vielmehr müssen sich die Konstrukteure und Anwender von Tests meist mit leichter verfügbaren aktuellen Kriterien begnügen. Für das Beispiel des (lebenslangen) Berufserfolges würde das naheliegenderweise der bisherige oder aktuelle berufliche Erfolg sein, der operationalisiert werden
könnte durch quantitative Einheiten für die momentan eingenommene Stellung oder
das monatliche Einkommen, bei bestimmten Tätigkeitsfeldern durch die Zahl abgerechneter Krankenscheine, angemeldeter Patente, publizierter Forschungsarbeiten oder
die fremdeingeschätzte Fachreputation. Häufig stehen gar nur Indikatoren wie gefertigte Stückzahlen, produzierter Ausschuss oder Fehlzeiten zur Verfügung.
All diese Indikatoren stehen nur für Teilaspekte der aktuellen Kriterien und decken
im ungünstigen Fall kaum noch relevante Seiten des »eigentlich« interessierenden Kriteriums ab. Sie sind durch Vorläufigkeit gekennzeichnet. Eine Erkrankung gerade durch
die Ausübung einer beruflichen Tätigkeit kann den weiteren Verbleib im bisherigen
Verantwortungsbereich erschweren oder verbieten, ein schwerer Sturz vom Gerät den
strahlenden Weltmeister vieler Jahre für den Rest seines Lebens in den Rollstuhl zwingen (. Abb. 2.41), die Approbation und Niederlassung eines zusätzlichen Arztes am Ort
die Zahl der Krankenscheine beim bislang ansässigen Doktor rapide reduzieren usw.
Für ultimative Kriterien wie den individuellen Erfolg in Ausbildung oder Therapie,
den institutionellen Erfolg einer Selektion, Platzierung oder Klassifikation (7 Kap. 6)
ließen sich unschwer analoge Beispiele in großer Zahl auflisten. Je nach dem Zeitpunkt,
an dem das Kriterium erhoben wird, müssen daraus ganz unterschiedliche individuelle Kennwerte resultieren. Das beeinflusst die Validität, und zwar ungeachtet der konzeptuellen Unzulänglichkeiten solcher aktueller Kriterien. Beschrieben wird diese Konfiguration mit den Begriffen
Die Obergrenze der Validität wird durch die Wurzel aus der Zuverlässigkeit definiert: rtc = rtt .
4 Zwischen verschiedenen (weiteren) Kombinationen von Gütekriterien bestehen
(ebenfalls) partielle Unvereinbarkeiten, und sei es nur unter ganz bestimmten Rahmenbedingungen oder Messintentionen: Änderungssensitivität und Retestreliabilität sind beispielsweise bei einem Verfahren zur Erfassung der aktuellen Befindlichkeit nicht gut auf einen gemeinsamen Nenner zu bringen. Auch kann es die Transparenz eines Fragebogens den Probanden leicht machen, ihre Antworten gezielt zu
verstellen. Das kann je nach den Gegebenheiten in vermutet positiver oder negativer
Richtung geschehen, ohne dass dies anhand der Punktwerte etwaiger »Lügenskalen« zu erkennen wäre (s. z. B. Kroger & Turnbull, 1975). Aus der Verfälschbarkeit
resultieren Validitätsminderungen. Deshalb ist generell vom Einsatz von Persönlichkeitstest in solchen Kontextbedingungen abzuraten, wo gezielte Verstellungen
besonders wahrscheinlich sind, nämlich allen Selektionsprozeduren (s. Hampel &
Klinkhammer, 1978; Thornton & Gierasch, 1980).
4
Kapitel 2 · Grundlagen diagnostischer Verfahren
»Eigentliche« vs.
»aktuelle« Kriterien
176
Die Problematik einer möglicherweise nur unzureichenden Operationalisierung des
(Kriterium-) Konstruktes in Form bestimmter Indikatoren besteht auch für die Prädiktorenseite. Auch da treffen die jeweiligen Fragen oder Aufgaben die aus theoretischen
Gründen als relevant erachteten Prädiktionskonstrukte im Regelfall nicht in ihrer umfassenden Bedeutung (man denke etwa an die Itemsammlungen zur Erfassung des Konstruktes »Studierfähigkeit« bei der Vorhersage des Erfolges von Medizinstudenten der
ersten Semester an der Universität, in denen die Bereiche der sozialen Kompetenz und
des Selfmanagement völlig fehlen). Daraus können im Extremfall die beiden folgenden
Konstellationen resultieren (nach Wottawa & Hossiep, 1987):
Der Prädiktionsmesswert korreliert hoch mit den Punktwerten für das aktuelle Kriterium, weist aber keinerlei Relevanz für das »eigentliche« Kriterium auf (. Abb. 2.42).
Kriteriumskontamination (= Eigenständigkeit des aktuellen Kriteriums gegenüber
dem eigentlichen Kriterium),
4 Kriteriumsrelevanz (= Kommunalität oder wechselseitige Überlappung zwischen
aktuellem und eigentlichem Kriterium),
4 Kriteriumsdefizienz (= nicht erfasste Aspekte des eigentlichen Kriteriums durch das
aktuelle Kriterium).
4
b
a
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
c
2
Unzureichende
Operationalisierung
der Prädiktionskonstrukte
Beziehungen zwischen
»aktuellem« und »eigentlichem« Kriterium
. Abb. 2.41a–c. Das Ausmaß an beruflichem Erfolg
und die Kriterien dafür mögen während verschiedener
Lebensabschnitte sehr unterschiedlich sein
177
2
Empirische Validität
bedeutet nicht zwingend auch bedeutsame Korrelation der
Konstrukte
. Abb. 2.43. Schematische
Veranschaulichung einer
Konstellation, bei der die
Punktwerte eines Prädiktors
zwar nicht mit dem aktuellen, aber mit dem eigentlichen Kriterium korrelieren
Der Prädiktionsmesswert korreliert zwar nicht mit den Indikatoren für das aktuelle
Kriterium, weist aber eine hohe Aussagekraft für das »eigentliche« Kriterium auf
(. Abb. 2.43).
Zwischen den beiden Konstellationen sind »Mischformen« denkbar, bei denen man
nicht ohne Weiteres erkennt, welche Gegebenheiten im Einzelnen vorliegen. Wichtig
ist, dass auch im Falle einer empirisch belegten und numerisch hohen Validität gegenüber einem Kriterium unter Umständen nur wenig über die Korrelation zwischen einem theoretisch bedeutsamen Prädiktorkonstrukt und einem gleichermaßen wichtigen
»eigentlich« interessierenden Kriterium ausgesagt ist.
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.42. Schematische
Veranschaulichung für eine
Konstellation, bei der die
Punktwerte eines Prädiktors
hoch mit dem aktuellen,
aber zu Null mit dem eigentlichen Kriterium korrelieren
178
(S.373-377)
Messung von Veränderungen und Unterschieden
(S.371-372)
Unimodale vs. multimodale Datenerfassung
Erhebungsstrategien
Unimodale vs. multimodale Datenerfassung
Bei ausschließlicher Verwendung nur je eines der bisher besprochenen diagnostischen
Verfahren würde man von unimodaler oder unimethodaler Datenerfassung sprechen.
Der Gebrauch dieser Begriffe ist nach Fahrenberg (1987) zur Zeit noch uneinheitlich.
Situationen, in denen derart singuläre Diagnostik zur Anwendung gelangt, sind nicht
sehr zahlreich. Sie findet sich allenfalls bei der institutionellen Diagnostik grosser
Bewerbergruppen, bei der die Zahl der mit weiteren Verfahren zu diagnostizierenden
Personen durch Einsatz eines Filtertests reduziert werden soll. Aber bereits bei den
Eignungsuntersuchungen für medizinische Studiengänge wurden die Testergebnisse
mit der Durchschnittsnote im Abitur, also einer weiteren Datenquelle kombiniert.
Bei der individuellen Diagnostik der klinischen und Beratungspraxis wird kaum
ein Diagnostiker sein Urteil auf ein einziges Verfahren stützen wollen und deshalb
mehrere diagnostische Verfahren einsetzen. Selbst dort, wo auf den ersten Blick nur
eine diagnostische Methode, wie z. B. das Gespräch, angewandt wird, erfolgt in der
Regel eine Kombination der Selbstbeurteilung des Klienten mit der Fremdbeurteilung
durch den Diagnostiker. Somit ist unimethodale Datenerhebung in der Praxis die Ausnahme, multimethodale Diagnostik dagegen die Regel (. Abb. 4.2).
Dieses Thema wurde in den letzten Jahren deshalb intensiv diskutiert, weil sich das
Interesse der Persönlichkeitsforschung zunehmend auf die teilweise nur mäßige Übereinstimmung zwischen den Ergebnissen verschiedener Methoden und die dafür maßgeblichen Ursachen gerichtet hat. Bereits Cattell (1966) rekurriert bei der Gewinnung
seiner Persönlichkeitsdimensionen auf Selbstbeurteilungen in Fragebogen, Fremdbeurteilungen, objektive Tests und physiologische Daten. Die dabei zutage getretene unbefriedigende Konkordanz der aus verschiedenen Quellen stammenden Befunde beschäftigt die Differentielle Psychologie bis heute. Einige Erfolge waren ihr bei der Suche
nach Verbesserungsmöglichkeiten beschieden. So ist die Übereinstimmung zwischen
Selbstbeurteilungen in Fragebogen und Fremdbeurteilungen grösser, wenn Messwerte
über mehrere Messzeitpunkte hinweg aggregiert werden (Epstein, 1979). Eine weitere
Erhöhung der Übereinstimmung gelang Wittmann (1987) durch die zusätzliche Aggregierung von Daten aus verschiedenen Kriteriumsbereichen. Borkenau und Amelang
4.3
wie eine Vigilanzuntersuchung unter entspannten Bedingungen für die Tätigkeit eines
Fluglotsen.
Der Gegensatz zwischen den beiden Gestaltungsprinzipien für die diagnostische
Situation geht auf die in 7 Kap. 1 angesprochenen unterschiedlichen diagnostischen
Zielsetzungen zurück. Die Selektion von Personen für bestimmte Tätigkeiten verlangt
in der Tat die Berücksichtigung der Anforderungen in der Bewährungssituation, die
deshalb vor Beginn der eigentlichen diagnostischen Untersuchung sorgfältig zu ermitteln sind. Testaufgaben wie externe Bedingungen sollten den im Kriterium herrschenden Anforderungen entsprechen, um aus dem Testverhalten valide Vorhersagen auf das
Kriteriumsverhalten machen zu können. Die Selektion von Bedingungen, unter denen
eine bestimmte Person ihr bestmögliches Ergebnis erzielen kann, erfordert dagegen die
Schaffung einer optimalen Untersuchungssituation. Bei einer Berufsberatung, bei der
die individuellen Fähigkeiten des Bewerbers zu ermitteln und zu berücksichtigen sind,
ist dagegen eine Kombination beider Strategien geboten, um zu prüfen, welches die
optimalen Bedingungen sind, unter denen ein Bewerber erfolgreich sein könnte, falls
er den Anforderungen eines bestimmten Bewährungskriteriums nicht genügt.
4.3 · Unimodale vs. multimodale Datenerfassung
4
Aggregation über
Messzeitpunke
Möglichkeiten der
Verbesserung:
Mäßige Konkordanz
von Daten aus verschiedenen Quellen
Individuelle
Diagnostik:
Meist multimodal
Institutionelle
Diagnostik:
Meist unimodal
Diagnostische Zielsetzung leitet Gestaltung
371
4
Umgang mit den divergierenden Befunden
Befunde durch mindestens 2 Methoden
absichern
Regressionsanalytische
Kombination
Aggregation über
Kriteriumsbereiche
(1985) ermittelten eine Zunahme der Konkordanz zwischen Selbst- und Fremdbeurteilung bei Items, die von den Versuchspersonen als zu ihrer Beurteilung angemessen
eingeschätzt wurden. In der Klinischen Psychologie, wo multimodale Diagnostik nach
Seidenstücker und Baumann (1987) zum Standard gehört, beklagen die Autoren dagegen, dass diese Problematik noch zu wenig gesehen und empirisch geprüft wird.
Bei der systematischen Personalauslese, bei der viele Daten anfallen, wird das Problem der variierenden Übereinstimmung von Ergebnissen verschiedener diagnostischer
Methoden mit der Fremdbeurteilung des Kriteriumsverhaltens schon länger thematisiert, wie die von Schuler und Schmitt (1987) zitierten Metaanalysen zeigen. Die differentielle Validität der verschiedenen Methoden bei unterschiedlichen Kriterien legt für
die beiden Verfasser eine regressionsanalytische Kombination von Methoden mit je
nach Kriterium jeweils anderer Gewichtung als Lösungsmöglichkeit nahe.
Diese Lösung ist dem in der individuellen Diagnostik tätigen Psychologen verwehrt,
hat er es doch meist mit sehr spezifischen Problemstellungen zu tun, für die es keine
Regressionsanalysen gibt. Er muss die Ergebnisse verschiedener Methoden ohne statistische Hilfe integrieren. Als Leitsatz hierbei hat nach allgemeiner Auffassung zu gelten,
dass ein Befund erst dann als gesichert anzusehen ist, wenn er durch mindestens 2
verschiedene Methoden möglichst unterschiedlicher Art bestätigt wird. Besondere
Schwierigkeiten machen auch hier die divergierenden Befunde. Im Gegensatz zu
Großserienuntersuchungen hat der Diagnostiker aber bei Individualuntersuchungen
die Möglichkeit, den Ursachen von Diskrepanzen durch Gespräche mit dem Klienten,
Analyse der verwendeten Methoden und beobachteten Prozesse oder Hinzuziehung
weiterer Informationen nachzugehen. Wie Psychologen ihre Daten zu einem Befund
integrieren und wie sie schließlich zu einem diagnostischen Urteil gelangen, wird in
7 Kap. 5 angesprochen.
Kapitel 4 · Erhebungsstrategien
. Abb. 4.2. Bei Assessment
Centern zur beruflichen Eignungsdiagnostik werden die
Ergebnisse der verschiedenen (multimodalen) »Übungen« für jeden Teilnehmer in
einer »Beobachterkonferenz« zusammengetragen
und diskutiert
372
Einstufige vs. mehrstufige Datenerhebung
Messung von Veränderungen und Unterschieden
Ein Spezialfall von mehrstufiger Datenerhebung liegt dann vor, wenn ein- und dieselbe
Messung zu wiederholten Zeitpunkten vorgenommen wird, um etwa das Ausmaß der
zwischen den Messungen eingetretenen Veränderungen und deren Stabilität abschätzen zu können (= indirekte im Unterschied der auf Einmalerhebungen beruhenden
direkten Veränderungsmessung). Derartige Veränderungen mögen als Folge einer gezielten Intervention (Training, Unterweisung, Therapie) intendiert oder auch bloß der
Ausdruck »zufälliger« Merkmalsoszillationen sein; denkbar sind auch Veränderungen
infolge von Regressionseffekten oder solche, die durch eine Testung selbst hervorgerufen werden. Nachfolgend soll nur auf einige allgemeine Prinzipien eingegangen werden;
die Spezialliteratur ist umfangreich (s. dazu insbesondere den »Klassiker« Harris, 1963,
im Weiteren Petermann, 1978, und das Themenheft der diagnostica von 1986). Die
besonderen Fragestellungen hauptsächlich innerhalb der Klinischen Diagnostik und
Intervention finden im letzten Abschnitt dieses Buches detaillierter Erwähnung (s. dazu
auch Baumann, Fähndrich, Stieglitz & Woggon, 1990).
Allgemein stellt sich bei der wiederholten Vorgabe ein- und desselben Tests an einzelnen Personen vor der inhaltlichen Interpretation eventuell aufgetretener Differenzen
(etwa im obigen Sinne) zunächst die methodische Frage nach deren statistischer Bedeutsamkeit. Darauf wurde in 7 Abschn. 2.1.1.5. bereits eingegangen. Darüber hinaus
4.5
Ob eine diagnostische Untersuchung in einer einzigen Sitzung durchgeführt werden soll
oder besser auf mehrere, zeitlich voneinander getrennte Termine aufzuteilen ist, wird
häufig unter dem Zwang äußerer Bedingungen entschieden. Ist z. B. dem Probanden aus
technischen oder ökonomischen Gründen ein mehrfaches Erscheinen nicht zuzumuten,
muss die Untersuchung in einer Sitzung abgeschlossen werden. Soll die Untersuchung
Hinweise auf die Belastungsfähigkeit eines Probanden in der Bewährungssituation ergeben, wäre es unter dem Aspekt der Repräsentativität der Testsituation für das Kriterium
sogar unverzichtbar, eine mehrstündige Untersuchung anzusetzen.
Andererseits sprechen plausible Gründe durchaus für eine mehrstufige Datenerhebung. So sind, wie schon weiter oben ausgeführt, zur angemessenen Gestaltung der
Testsituation genaue Kenntnisse von Fragestellung und Bewährungssituation erforderlich, die erst in einem einleitenden Gespräch in Erfahrung gebracht und u. U. nicht
sofort methodisch umgesetzt werden können. Das weitere diagnostische Vorgehen
kann häufig erst dann optimal erfolgen, wenn die Ergebnisse von Verfahren zur Groborientierung vorliegen. Eine aufgrund vorliegender Teilbefunde getroffene Methodenauswahl vermeidet überflüssigen Verfahrensaufwand und trägt somit zur Verringerung
von Kosten bei. Bei sehr speziellen Fragestellungen bietet eine Bedenkzeit zwischen
zwei Sitzungen die Möglichkeit, zusätzliche Informationen einzuholen. Ferner verstärken wiederholte Kontakte die Vertrauensbasis zwischen Diagnostiker und Proband und
verbessern so die motivationalen Bedingungen für eine Untersuchung unter optimierten Umständen. Des Weiteren gibt eine Datenerhebung zu unterschiedlichen Zeitpunkten dem Diagnostiker Gelegenheit, Informationen über Konstanz und situationale
Variabilität von Verhaltensweisen seines Klienten zu sammeln. Schließlich haben Cronbach und Gleser (1965) die Vorzüge einer sequentiellen Strategie unter entscheidungstheoretischem Aspekt herausgestellt (7 Kap. 6).
4.4
4.5 · Messung von Veränderungen und Unterschieden
4
Statistische
Bedeutsamkeit der
Differenzen
Indirekte Veränderungsmessung
Argumente für eine
mehrstufige Erhebung
Argumente für eine
einstufige Erhebung
373
4
»ReliabilitätsValiditäts-Dilemma«
r11 − r12
1 − r12
(4.1)
Die Reliabilität der Differenzwerte würde sich bei diesen Gegebenheiten also nur
auf .60 belaufen; individuelle Unterschiede wären bei einer derart niedrigen Reliabilität kaum als Grundlage für eine inhaltliche Interpretation geeignet.
r(1−2 )(1−2 ) =
.90 − .75
1− .75
.15
=
.25
= .60
Ein Fragebogen zur habituellen Ängstlichkeit habe eine Reliabilität (interne Konsistenz) von rtt = .90. Die Wiederholungsstabilität (= Korrelation zwischen zwei Testungen) bei einem Intervall von 6 Monaten betrage rtt = .75. Wie hoch ist die Reliabilität
der Differenzwerte? In Formel (4.1) eingesetzt erhalten wir:
Beispiel
Hierbei wird unterstellt, dass die Streuung und Reliabilität der erhobenen Rohwerte zu
den beiden Vergleichszeitpunkten identisch sind. Aus der Formel geht hervor, dass die
Reliabilität von Testwertdifferenzen immer dann unter derjenigen der originalen Testwerte liegt, wenn die Korrelation zwischen den Zeitpunkten positiv und grösser als Null
ist; mit zunehmender Korrelation zwischen den beiden Testadministrationen wird die
Reliabilität der Differenzen immer niedriger ausfallen, weil die Testungen 1 und 2 dann
immer mehr an wahrer Varianz gemeinsam haben und deshalb die Differenz primär
Fehleranteile widerspiegelt. Im Extremfall einer sehr hohen Korrelation zwischen den
beiden Testungen (wie sie etwa bei Paralleltests angestrebt wird) bestehen die auftretenden Differenzen praktisch nur aus Zufalls- oder Fehlergrößen. Umgekehrt bedeutet eine
nur niedrige Korrelation zwischen den beiden Testzeitpunkten, dass die Messungen zu
den verschiedenen Zeitpunkten nicht das Gleiche bedeuten können; hier wäre zwar eine
hohe Reliabilität der Differenzen gewährleistet, aber für Testscores von fragwürdiger
Validität (weil deren Reliabilität nicht gegeben ist; »Reliabilitäts-Validitäts-Dilemma«).
Damit ist eines der vorrangigen Ziele der Klassischen Testtheorie (KTT), nämlich
höchstmögliche Reliabilität zu jedem von möglichen (Einzel-)Zeitpunkten zu erzielen,
unvereinbar mit einer hohen Zuverlässigkeit der bestimmbaren Differenzwerte. Oder
mit anderen Worten: Die KTT führt zu dem Paradoxon, dass die Reliabilität von Differenzwerten immer geringer wird, je höher die Reliabilität der Ausgangswerte ist;
wegen der oft genug nur niedrigen Reliabilität der Differenzen sind diese für individuelle Interpretationen meistens unbrauchbar. Ein Beispiel möge diese Prinzipien veranschaulichen (7 Beispiel).
r(1–2)(1–2) = Reliabilität der Differenz zwischen 2 Testwerten
r11
= Reliabilität der Rohwerte, ausgedrückt als Anteil der wahren Varianz an
der Gesamtvarianz
r12
= Korrelation zwischen den beiden Testwerten
r(1−2)(1−2) =
interessiert, welche Zuverlässigkeit die ermittelten Differenzwerte aufweisen. Die Reliabilität von Veränderungswerten bemisst sich nach folgendem Ausdruck (Notation
nach Lienert & Raatz, 1994, S. 215):
Kapitel 4 · Erhebungsstrategien
Reliabilität von
Veränderungswerten
374
= Reliabilität von Test 1
= Reliabilität von Test 2
= Streuung von Test 1
= Streuung von Test 2
s12 r11 + s22 r22 − 2r12s1s2
s12 + s22 − 2r12s1s2
s12 = Varianz von Test 1
s22 = Varianz von Test 2
(4.2)
r11 + r22 − 2r12
2(1 − r12 )
(4.3)
Dieser Ausdruck ist von vorrangiger Bedeutung bei der Interpretation von individuellen Profildifferenzen, also von Werten zwischen Skalen innerhalb von Testsystemen wie
dem IST-2000, HAWIK-R und MMPI, FPI oder 16 PF-R, bei denen die Untertests alle
dieselbe Streuung aufweisen. Auftretende Profildifferenzen sind also dann eher reliabel,
r(1−2)(1−2) =
Die Formel ist auch angemessen für solche Konstellationen, bei denen ein- und derselbe Test zweimal angewendet wird, wo aber zu den beiden Zeitpunkten die Streuung und
die Reliabilität verschieden sind. Solche Gegebenheiten mögen vorliegen, wenn zwischen der Erst- und Zweitdurchführung ein Trainingsprogramm oder eine psychotherapeutische Intervention stattgefunden haben und sich dadurch die Unterschiede zwischen den Probanden ebenso veränderten wie die Reliabilitäten.
Weisen die beiden Tests identische Streuungen auf, vereinfacht sich Formel (4.2) zu
dem nachfolgenden Ausdruck:
Die Differenzen weisen in dem Beispiel eine Reliabilität von .80 auf und können deshalb interpretiert werden.
r(1−2 )(1−2 ) =
100 ⋅ .90 + 225 ⋅ .85 − 2 ⋅ .35 ⋅10 ⋅15
100 + 225 − 2 ⋅ .35 ⋅10 ⋅15
176.25
=
220
= .80
Eine Skala zur Erfassung rechnerischen Denkens sei auf die Streuung s = 10 normiert
und weise eine Reliabilität von rtt =. 90 auf; für eine andere Skala zu Wortschatz lauten die entsprechenden Daten für Streuung und Reliabilität s = 15 und rtt = .85. Die
Interkorrelation zwischen beiden Tests betrage .35. Wie hoch ist die Reliabilität der
individuell bestimmbaren Differenzwerte? Eingesetzt in die obige Formel erhalten
wir:
Beispiel
Wie ersichtlich, ist hier eine Generalisierung auf verschiedene (anstelle ein und desselben) Tests vorgenommen werden. Damit lassen sich Fragestellungen etwa der Art bearbeiten, wie reliabel die Differenzen zwischen verschiedenen Leistungs- oder Persönlichkeitsmerkmalen sind. Auch dazu sei ein Beispiel gegeben (7 Beispiel).
r11
r22
s1
s2
r(1−2)(1−2) =
Die Verallgemeinerung der obigen Formel für die Reliabilität von Veränderungsscores
lautet (s. O’Connor, 1972, S. 91):
4.5 · Messung von Veränderungen und Unterschieden
4
Interpretation von
individuellen Profildifferenzen
Berechnung der
Reliabilität von
Differenzen zwischen
verschiedenen Leistungs- und Persönlichkeitsmerkmalen
Verallgemeinerung
der Formel
375
4
Ausgangswertgesetz
Regression zur Mitte
»Effekt-« und
»Reliabilitätsfunktion«
Verschiedene Indices
für die Änderungssensitivität von Verfahren
rtt − rst
1 − rst
(4.4)
Um die Unzulänglichkeiten der KTT zur Lösung des Konstanz-Variabilitäts-Problems
zu überwinden, hat es verschiedene Ansätze gegeben, spezifische Indices für die Änderungssensibilität von Verfahren zu formulieren und Skalen danach zu konzipieren.
Einer der grundlegenden Gedanken geht dahin, in der Kombination von hoher interner
Konsistenz einerseits mit geringer Reteststabilität andererseits Voraussetzungen für
Änderungssensitivität zu sehen. Davon ausgehend hat Tack (1986) einen Lösungsvorschlag unterbreitet, der unter Verzicht auf zwei Kernannahmen der KTT (Konstanz der
wahren Werte und Unkorreliertheit der Fehler) eine »Effektfunktion« (Korrelation
zwischen den wahren Werten zu zwei verschiedenen Zeitpunkten) und eine »Reliabilitätsfunktion« (zeitabhängige Korrelation zwischen Messfehlern) vorsieht. Aber auch
in seinem System von Annahmen und Konzepten könne »eine Differenzen-Reliabilität
nie für ein Verfahren generell, sondern nur für ein Verfahren in Kombination mit einer
bestimmten Intervention und damit zusammenhängenden situativen Änderungen und
Restriktionen angegeben werden« (Tack, 1986, S. 63). Da es im Einzelfall schwer fällt,
die für die erwähnten Funktionen notwendigen Parameter in hinlänglich präziser Weise zu quantifizieren, haben diese Gedanken bislang keinen Eingang in die Praxis psychologischer Diagnostik gefunden.
Neben der fragwürdigen Reliabilität von Differenzwerten gibt es weitere Problembereiche, die eine Interpretation von Veränderungsscores zu einer diffizilen Aufgabe machen: Zum Einen ist das auf unzureichenden Reliabilitäten beruhende Phänomen der
Regression zur Mitte zu nennen. Bei der wiederholten Messung psychologischer Merkmale weist – sofern keine Übungs- oder Gedächtniseffekte auftreten – die Verteilung
aller Messwerte als Ganzes zwar dieselbe Gestalt auf, doch sind die anfänglich extrem
hohen oder extrem niedrigen Messwerte bei der zweiten Messung etwas zur Mitte regrediert; ihren ursprünglicher Platz in der Verteilung haben andere Messwerte eingenommen. Ursächlich dafür ist, dass die Extremität unter anderem durch die ungewöhnliche
Kombination vieler förderlicher bzw. hinderlicher Fehlerfaktoren bewirkt wird, die in
dieser spezifischen Konstellation kaum wieder auftritt. Vermeintlich eindeutige und
statistisch signifikante Verminderungen von anfänglich hohen Ängstlichkeitstestwerten
nach einer mehrwöchigen Intervention, wie sie in der Studie von Wieczerkowski et al.
(1969) beobachtet wurden, beruhen deshalb höchstwahrscheinlich nur auf diesem statistischen Artefakt und dürften deshalb – entgegen der Auffassung der Autoren – nicht
auf die angstreduzierende Wirkung der Intervention zurückgeführt werden.
Auswirkungen haben diese Prinzipien auch auf das Ausgangswertgesetz, demzufolge die Höhe eines Anfangswertes negativ mit dem Zuwachs korreliert. Dafür sind – je
nach Sachverhalt – teils biologische Faktoren verantwortlich, teils auch Limitierungen
wobei
–
rtt = arithmetisches Mittel aller Reliabilitätskoeffizienten aller k-Tests eines Profils
und
–r = arithmetisches Mittel der Interkorrelationen aller k-Tests.
st
prof rtt =
wenn die Subtests für sich eine hohe Reliabilität aufweisen, die Skalen untereinander
aber nur niedrig (im besten Falle: Zu Null) miteinander korrelieren.
Geht es nicht nur um die Reliabilität der Differenz zwischen zwei Testwerten, sondern um diejenige zwischen den Werten einer Batterie oder eines Testprofils, also um
die Profilreliabilität, gilt die Verallgemeinerung von (4.1):
Kapitel 4 · Erhebungsstrategien
Konstanz-VariabilitätsProblem
376
4. Welche Gründe lassen sich
für eine einstufige, welche
für eine mehrstufige Entscheidungsprozedur anführen?
suchungen sprechen ihre Vertraulichkeit, die Möglichkeit zu Beobachtungen, die Vermeidung von Störungen durch andere.
Befunde aus verschiedenen Datenquellen. Durch Gespräche mit dem
Klienten, Analyse der verwendeten Methoden und der beobachteten
Prozesse oder durch Hinzuziehung weiterer Informationen muss der
Diagnostiker versuchen, diesen Dissens aufzuklären.
Ad 4. Für einstufige Datenerhebung sprechen in erster Linie zeitökonomische Gründe. Für eine mehrstufige Erhebung sprechen mehrere
Gründe. So sind zur angemessenen Gestaltung der Testsituation genaue Kenntnisse von Fragestellung und Bewährungssituation erforderlich, die oft erst in einem einleitenden Gespräch in Erfahrung gebracht
und nicht sofort methodisch umgesetzt werden können. Das weitere
diagnostische Vorgehen kann häufig erst dann optimal erfolgen, wenn
die Ergebnisse von Verfahren zur ersten Groborientierung vorliegen.
Bei sehr speziellen Fragestellungen bietet eine Bedenkzeit die Möglichkeit, zusätzliche Informationen einzuholen. Eine aufgrund vorliegen-
Ad 3. Das Hauptproblem multimodaler Diagnostik sind diskrepante
Ad 2. Optimalbedingungen zu schaffen ist sinnvoll, wenn für den
Klienten eine Bedingungsoptimierung intendiert ist. Zu Selektionszwecken ist eine Orientierung an der Bewährungssituation geboten.
! Ad 1. Gruppenuntersuchungen sind ökonomischer. Für Einzelunter-
4
suchungen in Einzelsitzungen oder besser in Gruppen
erfolgen?
2. Was spricht für die Schaffung von Optimalbedingungen in der Testsituation,
was dagegen?
3. Welche Probleme ergeben
sich bei multimodaler
Diagnostik?
»Physicalism-subjectivism-dilemma«
377
? 1. Sollen diagnostische Unter-
Übungsfragen
von Seiten der vorgegebenen Skalen, im Weiteren aber auch unzureichende Reliabilitäten. Vergegenwärtigen lassen sich die dafür maßgeblichen Überlegungen sehr gut am
Würfeln als einer »Messung«, die nur auf Zufall beruht. Bei einer 6 im ersten Wurf ist
die Wahrscheinlichkeit für eine erneute 6 in einem zweiten Wurf nur 1/6; entsprechend
liegt die Wahrscheinlichkeit für eine niedrigere Ziffer als 6 bei 5/6. Umgekehrt verhält
es sich bei einer 1 im ersten Wurf. In diesen Fällen korrelieren die »Zuwächse« (= Veränderungen) negativ mit dem Ausgangswert. Mehrfach ist deshalb vorgeschlagen worden, die Werte der Anfangsmessung aus denen der Endmessung herauszupartialisieren;
die erhaltenen Residualwerte seien dann »basefree measures of change« (Tucker, Damarin & Messick, 1966). Kritisch daran sind u. a. erneut die fragwürdigen Reliabilitäten
von Residuen, vor allem bei kleinen Stichprobenumfängen, und das Problem, ob die
Linearitätsannahme regressionsanalytischer Prinzipien immer gerechtfertigt ist.
Ein grundsätzliches Problem zum Schluss: Es betrifft die Frage, ob numerisch identische Veränderungen auf den verschiedenen Abschnitten des Messwertekontinuums
Gleiches bedeuten (»physicalism-subjectivism-dilemma«, Bereiter, 1963). Das Intervallskalenniveau, das im Regelfall bei den herkömmlichen Leistungs- und Persönlichkeitstests angenommen wird, ist bekanntlich durch eben diese Eigenschaft definiert,
aber dennoch scheint einer trainingsbedingten Leistungssteigerung von, um nur ein
Beispiel zu geben, 10 IQ-Punkten bei extrem niedriger oder extrem hoher Intelligenz
eine andere Bedeutung zuzukommen als einer numerisch identischen Veränderung im
Mittelbereich. Gleiche Veränderungswerte stehen deshalb nicht zweifelsfrei für gleiche
psychologische Veränderungen.
4.5 · Messung von Veränderungen und Unterschieden
(S.385-388)
Das diagnostische Gutachten
(S.381-383)
Das diagnostische Urteil
(S.380-381)
Modellvorstellungen
Der diagnostische Prozess
5
Auswertung der
Ergebnisse
Planung der
Untersuchung
Operationalisierbarkeit
Generierung von
Hypothesen
Fragestellung leitet
Diagnostik
Anliegen wird zu psychologischem Auftrag
Modellvorstellungen
War früher die Gewinnung eines umfassenden Persönlichkeitsbildes die wichtigste
Aufgabe psychologischer Diagnostik (Fahrenberg, 1987), so setzte sich Mitte der 60er
Jahre die Erkenntnis durch, dass alle derartigen Versuche immer selektiv bleiben. Wenn
aber Selektivität schon nicht zu vermeiden sei, so sollte sie zumindest im Sinne der
praktischen Fragestellung des Auftraggebers erfolgen (Holzkamp, 1966), die der Diagnostiker folglich vor Beginn der eigentlichen Untersuchung kennen muss. Entweder
der Klient selbst oder eine die Untersuchung anordnende Person oder Institution können dabei als Auftraggeber fungieren. Dieser trägt die Fragestellung der Untersuchung
an den Diagnostiker heran, der das in der Regel nur laienhaft formulierte Anliegen
allerdings erst in seine psychologische Fachsprache übersetzen und meist weiter ausdifferenzieren muss. Mit der Fragestellung steht die Bewährungssituation für das Urteil
des Diagnostikers in engem Zusammenhang (Holzkamp, 1966). Die dort herangezogenen Bewährungskriterien bilden auf der einen Seite die Grundlage für die Gestaltung
der Testsituation und markieren andererseits als Zielkriterien den Punkt, an dem eine
Intervention als erfolgreich angesehen werden kann. Sie sind daher zusammen mit der
Fragestellung detailliert zu eruieren. Dies geschieht in der Regel im einleitenden diagnostischen Gespräch.
Nach dem Modell von Jäger (1982; . Abb. 5.1) muss der Diagnostiker aufgrund der
dabei ermittelten Informationen entscheiden, ob sich die Fragestellung in psychologische Hypothesen übersetzen lässt, und im negativen Fall versuchen, die Fragestellung
zu modifizieren. Im positiven Fall sollte der Diagnostiker nicht nur in der Lage sein,
Hypothesen über das Zustandekommen eines Problemverhaltens zu formulieren, sondern auch Annahmen darüber, durch welche Interventionsmaßnahmen ein problematischer Ist-Zustand in einen erwünschten Soll-Zustand überführt werden kann.
Nach Formulierung der Untersuchungshypothesen stellt sich die Frage nach deren
Operationalisierbarkeit. Erscheint diese aus technischen oder in der Person des Diagnostikers liegenden Gründen nicht möglich, ist der Klient darüber aufzuklären und ggf.
an eine kompetentere Adresse zu verweisen.
Während die formulierten Hypothesen den Inhalt der diagnostischen Untersuchung, die strategische Planung, bestimmen (Kaminski, 1970), dreht sich die taktische
Planung um die mehr technische Frage, mit Hilfe welcher Verfahren die inhaltlichen
Ziele zu erreichen sind. Dabei bestimmen Fragen der Repräsentativität der Testsituation für die Bewährungssituation sowohl die Testauswahl als auch die im vorangegangenen Kapitel diskutierten Erhebungsstrategien.
Die erste Auswertung der Untersuchungsergebnisse ermöglicht nur in seltenen Fällen eine direkte Antwort auf die gestellte Frage. Meist müssen Hypothesen zusätzlich
abgesichert oder sich neu ergebende operationalisiert und überprüft werden.
Als diagnostischer Prozess wird die Abfolge von Maßnahmen zur Gewinnung diagnostisch relevanter Informationen bezeichnet.
Definition
Der diagnostische Prozess beginnt nicht erst mit der diagnostischen Untersuchung
selbst, sondern bereits mit der ersten Kontaktnahme des Diagnostikers mit dem Auftraggeber der Untersuchung.
5.1
Kapitel 5 · Der diagnostische Prozess
Persönlichkeitsbilder
sind immer selektiv
380
nein
zusätzliche
Hypothesen
Datenauswertung
Untersuchungsplanung
und Durchführung
der Untersuchung
ja
Operationalisierbarkeit
Hypothesenformulierung
ja
Umsetzbarkeit in
psychologische
Hypothesen
Ausarbeitung
einer differenzierten
Fragestellung
Rückgabe des
Auftrags
gegebenenfalls Umformulierung der
Fragestellung
nein
Absicherung
der
Hypothesen
ja
Fragestellung
nein
nein
nein
Auftraggeber
Das diagnostische Urteil
Von den Teilaspekten des diagnostischen Prozesses wurde in der Literatur besonders
jener problematisiert, der sich mit dem Zustandekommen des diagnostischen Urteils
als Grundlage der Beantwortung der Fragestellung des Auftraggebers befasst. Nach
einer Klassifikation von Meehl (1954) und Sawyer (1966) lassen sich 2 gegensätzliche
Strategien der diagnostischen Urteilsbildung unterscheiden, eine statistische und eine
klinische Form.
Bei der statistischen Form wird die Datenintegration mit Hilfe statistischer Gleichungen vorgenommen, bei der klinischen kombiniert der Diagnostiker die Einzeldaten zu einem diagnostischen Urteil. Zu den gängigsten Verfahren der statistischen
Datenintegration gehören Regressions- und Diskriminanzanalysen. Nach den Analysen von Meehl und Sawyer erwiesen sich statistische Verfahren der Datenintegration
5.2
Die . Abb. 5.1 versucht, diesen iterativen Prozess mit Hilfe eines Flussschemas zu veranschaulichen.
! Der diagnostische Prozess ist somit keine Einbahnstraße, sondern eher ein Geschehen, bei dem der Diagnostiker sich u. U. erst nach mehreren Durchgängen dem
Ziel, der Beantwortung der Fragestellung, nähert.
Beantwortung
der
Fragestellung
Ausarbeitung
einer
Fragestellung
5.2 · Das diagnostische Urteil
Statistische
Urteilsbildung
Beantwortung
der Fragestellung
. Abb. 5.1. Der diagnostische Prozess. (Aus Jäger,
1982)
381
5
5
In einer Metaanalyse haben Grove, Zald, Lebow, Snitz und Nelson (2000) die vorliegenden Untersuchungen zur mechanischen (statistischen) und klinischen (menschlichen)
Urteilsbildung einer vergleichenden Bewertung unterzogen. Sie nahmen 136 Untersuchungen in ihre Analyse auf, die sich mit der Genauigkeit von Urteilen aus dem psychologischen und medizinischen Bereich befassten; Studien zur Vorhersage von Börsenkursen, Pferderennen oder etwa dem Wetter blieben unberücksichtigt. Insgesamt
erwies sich die mechanische Vorhersage der klinischen als überlegen. Die mittlere Effektstärke ist mit d = .089 aber sehr klein. Die große Streuung der Effektstärken veranlasste die Autoren, nach Moderatorvariablen zu suchen. So prüften sie, ob der Unterschied zwischen den beiden Methoden der Urteilsbildung von der verwendeten Definition der Effektstärke, dem Publikationsjahr, der Stichprobengröße, dem vorhergesagten Kriterium, von Training oder Erfahrung der Urteiler, der Informationsmenge und
von der Informationsart abhängt. Lediglich bei zwei Variablen – dem vorhergesagten
Kriterium und der Informationsart – entdeckten sie einen Effekt. Die mechanische
Urteilsbildung scheint der klinischen besonders dann überlegen zu sein, wenn medizinische und forensische Kriterien vorherzusagen sind, und wenn die Informationen in
Form von Interviewdaten vorliegen.
Warum erreichen menschliche Urteile nicht die Genauigkeit, die bei Anwendung
von mechanischen Urteilsmodellen möglich ist? Grove et al. (2000) vermuten, dass die
Anfälligkeit für bestimmte Urteilsfehler dafür verantwortlich ist. Verschiedene Untersuchungen belegen, dass Menschen oft die Basisrate ignorieren (also zu oft Diagnosen
stellen, die statistisch selten und damit unwahrscheinlich sind), Informationen falsch
gewichten, indem sie etwa leicht verfügbare Informationen übergewichten (availability
Heuristik), oder die Regression zur Mitte vernachlässigen.
Trotz ihrer offensichtlichen Überlegenheit ist auch Kritik an der mechanischen
Vorhersage angebracht. Ein statistisches Urteilsmodell kann nur mit Informationen
konstruiert werden, die für alle Probanden vorliegen. Zudem sind große Fallzahlen bei
einer einheitlichen Fragestellung erforderlich. In der Forschung fand zudem oft eine
(unrealistische) Beschränkung auf einen Test statt.
Ein bekanntes statistisches Urteilsmodell ist der Goldberg-Index (Goldberg (1965),
mit dessen Hilfe anhand von MMPI-Testergebnissen (zum MMPI 7 Abschn. 3.2.3)
festgestellt werden kann, ob ein Patient psychotisch ist oder nicht. Fünf Skalenwerte
(T-Werte) werden nach der Formel L+Pa+Sc–Hy–Pt verrechnet. Liegt der Index über
45, gilt der Patient als psychotisch. Klinische Urteilsbildung bedeutet, dass klinische
Experten anhand der gleichen Informationen beurteilen, ob ein Patient psychotisch
ist oder nicht. Sie verlassen sich dabei auf ihre klinische Erfahrung und brauchen ihr
Urteil nicht zu begründen. In einem Vergleich erwies sich die statistische Methode
der klinischen als überlegen (Goldberg, 1965). Als Kriterium für die »wahre« Diagnose dienten Psychiaterurteile über die gleichen Patienten. Betrachten wir nur die
Fälle, in denen ein Patient nach Einschätzung des Psychiaters entweder psychotisch
oder neurotisch ist, so erzielten die Klinker eine Trefferquote von 68%, während die
Anwendung des Goldberg-Index in 74%der Fälle zu richtigen Urteilen führte.
Beispiel
der klinischen Urteilsbildung in der Prognosegenauigkeit überlegen, unabhängig
davon, ob die Daten durch klinische Methoden, Testverfahren oder kombiniert erhoben
wurden (Sawyer, 1966).
Kapitel 5 · Der diagnostische Prozess
Höhere Prognosegenauigkeit
382
In der diagnostischen Praxis gilt es, die Vorteile und Chancen beider Urteilsmodelle
zu nutzen. Der Diagnostiker sollte mechanische Vorhersagemodelle kennen und bei
seiner Diagnose oder Prognose nutzen – aber ohne ihnen blind zu vertrauen. In begründeten Fällen sollte er die mechanische Vorhersage korrigieren oder ganz durch
eine klinische ersetzen, z. B. wenn er Zweifel daran hat, dass das Vorhersagemodell für
seinen Probanden angemessen ist. Für die Korrektur kann der Diagnostiker zusätzliche
Informationen nutzen, die im mechanischen Modell nicht berücksichtigt wurden.
Die meisten statistischen Urteilsmodelle verwerten nur lineare Zusammenhänge
zwischen Prädiktoren und Kriterien und sind »blind« für die Wirkungsmechanismen,
die der Beziehung beider Variablen zugrunde liegen. Mit den Künstlichen Neuronalen
Netzen stehen statistische Auswertungsprogramme zur Verfügung, die auch komplexe,
nichtlineare Verknüpfungen mehrerer Prädiktoren mit einem Kriterium entdecken
und für die Vorhersage nutzen. Häusler und Sommer (im Druck) gelang es mit diesem
Ansatz, die Vorhersage von Ausbildungserfolg mit Leistungstests als Prädiktoren gegenüber einer linearen Vorhersage zu verbessern.
Statistische Modelle beschreiben Zusammenhänge, indem sie viele möglicherweise
relevante Randbedingungen ignorieren. Sie verleiten den Diagnostiker dazu, einen Zusammenhang als allgemeingültig anzusehen und auf den Einzelfall zu übertragen, ohne
dabei zu wissen, ob dieser Schritt angemessen ist. Durch eine gründliche Erforschung
moderierender Faktoren wird der Geltungsbereich eines statistischen Vorhersagemodells
eingeengt und die Vorhersage verbessert. Ein gutes Beispiel ist die Prognose, ob ein Patient, der wegen Gewalttätigkeit in einer psychiatrischen Einrichtung untergebracht wurde, nach seiner Entlassung wieder gewalttätig wird. Rückfälle hängen von einer Reihe von
Randbedingungen ab, darunter dem sozialen Umfeld des Patienten nach seiner Entlassung. Eine kriminelle Nachbarschaft erhöht das Risiko erneuter Gewalt. Die Kriminalitätsrate in der Nachbarschaft erklärt sogar den bekannten Zusammenhang zwischen
Rasse und Gewalt (Monahan, 2003). Ohne dieses Wissen hätte ein Farbiger in den USA
eine schlechte Rückfallprognose. Wird die nun bekannte Moderatorvariable berücksichtigt, fällt die Prognose im Einzelfall oft anders aus als nach dem »alten« Modell. Nicht die
Hautfarbe, sondern das soziale Umfeld nach der Entlassung ist ein Risikofaktor.
Damit individuelle Diagnostik nicht zur esoterischen Kleinkunst verkommt, muss
sie wissenschaftliche Kriterien erfüllen. Fasst man die diagnostische Untersuchung als
psychologisches Experiment auf, so gehören zu ihren wesentlichen Bestimmungsstücken die Explizierung der Untersuchungshypothesen und die Kontrolle der Untersuchungsbedingungen, die eine Wiederholung und einen Vergleich mit anderen Untersuchungen erst ermöglichen. Darüber hinaus sind besonders die Explikation der Entscheidungsregeln und die Erfassung der Prognosegenauigkeit, der Validität der Diagnose, wichtig.
Das Ausgehen von Untersuchungshypothesen fordern bereits die Modelle von Kaminski (1970) und Jäger (1986). Probleme auf dieser diagnostischen Stufe bestehen in
einer eingeschränkten Wissensbasis, die zur Formulierung weniger Alternativhypothesen führt, und in einer mangelhaften Dokumentation dieser Annahmen, die eine spätere Korrektur erschwert. Die systematische Kontrolle der Untersuchungsbedingungen
ist zwar für einen methodisch gut ausgebildeten Psychologen eine Selbstverständlichkeit, ihre Dokumentation sollte aber ebenfalls selbstverständlich werden.
Das zentrale Problem der diagnostischen Urteilsbildung stellen die Entscheidungsregeln dar, die häufig mehr oder minder implizit angewendet werden. Wie diese nachträglich ermittelt und explizit gemacht werden können, haben Wottawa und Hossiep
(1987; . Abb. 5.2) beschrieben.
5.2 · Das diagnostische Urteil
5
Zentrales Problem: Die
Entscheidungsregeln
Probleme der klinischen Urteilsbildung
Forderungen an die klinische Urteilsbildung
383
Das diagnostische Gutachten
Demzufolge stellt das Gutachten eine wissenschaftlich begründete Entscheidungshilfe
bei einem gegebenen Problem dar. Im Mittelpunkt der Betrachtung steht dabei lediglich
ein bestimmter Ausschnitt aus dem Verhalten einer Person und nicht die »ganze Persönlichkeit«.
Gewöhnlich wird das Gutachten schriftlich fixiert; verschiedentlich erfolgt aber
auch eine Erstattung oder auch (nur zusätzliche) Erläuterung in mündlicher Form.
Die Übernahme von Gutachten versetzt den Diagnostiker gewöhnlich in ein komplexes Feld, das durch eine Vielzahl rechtlicher Bestimmungen vorstrukturiert wird
(s. dazu insbesondere Zuschlag, 1992). Bedeutsame ethische Limitierungen werden
besonders dann salient, wenn es sich bei der Interaktion von diagnostizierenden Psychologen und begutachteten Klienten nicht um einen »freien« Kontrakt (wie z. B. in
Form eines Privatgutachtens), sondern um einen solchen handelt, der allenfalls »bedingt frei« oder definitiv »aufgezwungen« ist (s. zu dieser Unterscheidung Lang, 1978).
Der letztere Fall liegt beispielsweise vor, wenn festgestellt werden soll, ob ein Zeuge
aufgrund seiner intellektuellen Leistungsfähigkeit oder wegen aktueller Affekte in der
Lage war, das Geschehen »objektiv« wahrzunehmen. Zu den »bedingt freien« Kontrakten zählen die meisten Untersuchungen im Gefolge von Sorge- und Umgangsrechtsstreitigkeiten; häufig ist es dabei so, dass die Eltern für sich keine einvernehmliche
»Psychodiagnostische Gutachten für (meist fachfremde) Dritte als selbständige (in
sich geschlossene) zusammenfassende Darstellung der psychodiagnostischen Vorgehensweise, der Befunde und Schlussfolgerungen in Bezug auf eine hinsichtlich
einer konkreten Fragestellung zu begutachtende Person, Institution oder Situation,
basierend auf einem der Fragestellung gemäßen, angemessen komplexen diagnostischen Prozess für einen Gutachtenempfänger (Auftraggeber). Mit Hilfe des Gutachtens soll sein Empfänger Entscheidungen in seinem System (seinem diagnostischen Prozess) fundierter treffen können.«
Definition
Die Fragestellung und der Untersuchungsplan zur Erhebung psychodiagnostischer
Informationen, die eingesetzten Verfahren, die ermittelten Daten sowie die daraus gezogenen Schlussfolgerungen werden häufig in Form eines Gutachtens zusammengestellt. Schmidt (1995, S. 468) definiert:
5.3
der Therapeut nichts erfährt. Bei Klassifikationsempfehlungen, bei denen die Erfolgsquote aller Behandlungsalternativen ermittelt werden kann, ist eine Rückmeldung dagegen prinzipiell möglich. Sie muss aber auch systematisch angestrebt werden. Dort,
wo der Diagnostiker auch die Intervention durchführt, hat er am ehesten die Möglichkeit, die Güte seiner Diagnosen zu evaluieren und ggf. Korrekturen vorzunehmen. Die
Lokalität für erforderliche Verbesserungen lässt sich um so leichter bestimmen, je genauer Hypothesen, Untersuchungsbedingungen und Entscheidungsregeln expliziert
wurden. Diese Form individueller Diagnostik wird von Petermann (1987) treffend mit
dem Begriff kontrollierte Praxis umschrieben und sollte für den Diagnostiker, der den
Anspruch hat, wissenschaftlich fundierte Diagnostik zu betreiben, zur selbstverständlichen Routine werden.
5.3 · Das diagnostische Gutachten
5
Rechtliche Vorschriften
und ethische Fragen
Kontrollierte Praxis
385
5
Nach Westhoff und Kluck (1998) besteht die Erstellung eines psychologischen Gutachtens aus einer Serie von Entscheidungen, die vom Psychologen zu treffen sind. Nachfolgend sind die einzelnen Schritte des diagnostischen Entscheidungsprozesses aufgelistet und in Anlehnung an Westhoff und Kluck erläutert:
1. Fragestellung,
2. Annahmen,
3. Anforderungsprofil,
4. psychologische Fragen (= Hypothesen),
5. Untersuchungsplan,
6. Durchführen der diagnostischen Untersuchung,
7. Darstellen der Ergebnisse,
8. Befund: Beantworten der psychologischen Fragen und damit der Fragestellung,
9. Vorschläge bzw. Empfehlungen zum weiteren Vorgehen.
In einem ersten Schritt ist u. a. zu klären, ob die Fragestellung, mit der ein Auftraggeber
an den Psychologen herantritt, überhaupt ethisch vertretbar sowie grundsätzlich zu beantworten ist. Danach muss entschieden werden, ob ein Psychologe vom Fachwissen her
Schritte des diagnostischen Entscheidungsprozesses
Voraussetzungen für
die Übernahme eines
Gutachtens
Lösung finden können und dafür mit Unterstützung eines Gerichtes Vorschläge von
einem Sachverständigen erwarten, dem dann aber in aller Regel aus dem Wunsch heraus, etwas zu behalten oder zu bekommen (nämlich das Besuchs- oder Sorgerecht),
die Arbeit häufig durch selektive Informationsüberlassung nicht sonderlich erleichtert wird.
Um der besonderen Verantwortung von Psychologen Rechnung zu tragen, hat die
Föderation der Deutschen Psychologenvereinigungen (1998) im Rahmen ihrer Ethischen Richtlinien verbindliche Kriterien für Gutachten und Untersuchungsberichte
formuliert:
1. Sorgfaltspflicht: Allgemein gilt, dass die Erstellung und Verwendung von Gutachten und Untersuchungsberichten von Psychologen größtmögliche sachliche und
wissenschaftliche Fundiertheit, Sorgfalt und Gewissenhaftigkeit erfordern. Gutachten und Untersuchungsberichte sind frist- und formgerecht anzufertigen. Die föderativen Richtlinien für die Erstellung von Gutachten sind zu beachten.
2. Transparenz: Gutachten und Untersuchungsberichte müssen für die Adressaten
inhaltlich nachvollziehbar sein.
3. Einsichtnahme:
a) Sind Auftraggeber und Begutachtete nicht identisch, kann das Gutachten bzw.
der Untersuchungsbericht nur mit Einwilligung des Auftraggebers den Begutachteten zugänglich gemacht werden.
b) Psychologen sind gehalten, darauf einzuwirken, dass die Begutachteten ihr Gutachten bzw. den Untersuchungsbericht auf Wunsch einsehen können, sofern für
sie kein gesundheitlicher Schaden zu befürchten ist.
c) Falls der Auftrag eine Einsichtnahme von vornherein ausschließt, müssen die
Begutachteten vorab davon in Kenntnis gesetzt werden.
4. Gefälligkeitsgutachten: Gefälligkeitsgutachten sind nicht zulässig, ebensowenig
die Abgabe von Gutachten, die Psychologen durch Dritte ohne eigene Mitwirkung
erstellen lassen.
5. Stellungnahme zu Gutachten von Kollegen: Stellungnahmen zu Gutachten von
Kollegen sind zulässig, wobei der Abschnitt B.II. (1) dieser Ethischen Richtlinien
(Kollegiales Verhalten) besonders zu beachten ist.
Kapitel 5 · Der diagnostische Prozess
Verbindliche Kriterien
für Gutachten und Untersuchungsberichte
386
Danach ist Verhalten eine Funktion folgender (nichtpsychologischer und psychologischer ) Variablengruppen:
4 Umgebungsvariablen (U; äußere Lebensbedingungen, z. B. Wohnsituation, finanzielle Situation),
4 Organismusvariablen (O; körperliche Bedingungen, z. B. Krankheiten, Behinderungen),
4 kognitive Variablen (K; Leistungsfähigkeit und Inhalte des Wahrnehmens, Lernens
und Denkens, z. B. Allgemeine Intelligenz, Intelligenzstruktur, Konzentration),
4 emotionale Variablen (E; z. B. emotionale Belastbarkeit, Umgang mit Gefühlen und
Belastungen),
4 motivationale Variablen (M; z. B. Leistungs- und Machtmotiv, Interessen, Werte),
V= f1(U, O, K, E, M, S)
hierfür zuständig ist bzw. ob prinzipiell genügend Wissen zur Bearbeitung vorliegt.
Schließlich muss für die Übernahme einer Fragestellung diese eindeutig formuliert sein.
Maßgeblich für den diagnostischen Entscheidungsprozess sind darüber hinaus die
grundlegenden Annahmen des Psychologen über menschliches Verhalten. So lässt sich
beispielsweise individuelles Verhalten lediglich dann beschreiben, erklären, vorhersagen und beeinflussen, wenn man von regelhaften und gesetzmäßigen Zusammenhängen zwischen Merkmalen von Situation und Verhaltensweisen sowie zwischen den
Verhaltensweisen selber ausgehen kann.
Wie bereits erwähnt, besteht das Ziel jedes diagnostischen Prozesses in der Bereitstellung von Entscheidungshilfen bei wichtigen Fragen, wie z. B. ob jemand für einen
bestimmten Beruf geeignet ist oder welche Therapieform bei einer vorliegenden Störung die größte Aussicht auf Erfolg hat. Um zwischen verschiedenen Alternativen (z. B.
Beruf, Therapieform) entscheiden zu können, müssen Kriterien bzw. Anforderungen
vorliegen, die den Verhaltensmerkmalen und Eigenschaften der beurteilten Person
gegenüber zu stellen sind. So kann man beispielsweise die Anforderungen des Berufs
Diplom-Sozialarbeiter mit dem Leistungs- und Persönlichkeitsprofil einer Person vergleichen, um die Frage zu beantworten, ob sie für diese Tätigkeit geeignet ist. In Anlehnung an arbeitspsychologische Fragestellungen wird die Summe der jeweiligen Anforderungen als Anforderungsprofil bezeichnet; diesen Begriff übertragen Westhoff und
Kluck auch auf den klinischen, pädagogisch-psychologischen und forensischen Bereich. Dabei lassen sich kompensatorische von nichtkompensatorischen sowie stabile
von instabilen Anforderungen unterscheiden (Westhoff & Kluck, 1998, S. 18 f.). Generell müssen die Anforderungen möglichst verhaltensorientiert definiert sein, um sie
exakt beurteilen zu können.
Da die Fragestellung meistens in einer sehr globalen Form vorliegt, wird sie in psychologische Fragen (= Hypothesen) übersetzt. Demzufolge werden ausgehend von der
Fragestellung Variablen ausgewählt, anhand derer man das relevante Verhalten erklären
oder vorhersagen kann. Diese Vorgehensweise dient einerseits zur Strukturierung und
Gliederung des diagnostischen Prozesses und andererseits zur Erhöhung der Transparenz und Prüfbarkeit des Gutachtens und wirkt sich somit positiv auf die Verständlichkeit für die (meist psychologisch nicht geschulten) Leser aus. Die Auswahl geeigneter
Variablen zur Überprüfung der psychologischen Fragen erfolgt nach Westhoff und
Kluck (1998, S. 25 f.) u. a. durch Zuhilfenahme der Verhaltensgleichung. Diese Formel
fasst alle relevanten Variablen zusammen, die zur Erklärung, Vorhersage und Beeinflussung individuellen Verhaltens bedeutsam sind:
5.3 · Das diagnostische Gutachten
5
Nichtpsychologische
und psychologische
Variablengruppen
Verhaltensgleichung
Anforderungsprofil
Diagnostik als
Entscheidungshilfe
Psychologische Annahmen über Verhalten
387
5
Fragestellungen
für Gutachten
Befund
Untersuchungsdurchführung
U und O sind damit nichtpsychologische Variablengruppen, K, E, M und S gehören zu
den psychologischen Variablengruppen.
Im Rahmen des diagnostischen Prozesses kann durch die Verwendung der Verhaltensgleichung sichergestellt werden, dass keine relevanten Variablen unberücksichtigt
bleiben.
Damit für die Leser des Gutachtens nachvollziehbar ist, auf welche Weise die Erhebung der relevanten Variablen erfolgt, werden die hierzu verwendeten Verfahren und
sonstigen Informationsquellen im Untersuchungsplan beschrieben. Nach Westhoff
und Kluck (1998) soll als übergeordnetes Kriterium für die Auswahl von Informationsquellen stets das Verhältnis von Kosten und Nutzen bei deren Einsatz herangezogen
werden. Weitere Kriterien für die Auswahl von beispielsweise standardisierten diagnostischen Verfahren sind u. a. die jeweiligen testtheoretischen Gütekriterien (Objektivität,
Reliabilität, Validität) sowie die Verfügbarkeit über entsprechende Normen.
Nach diesen Vorbereitungen kann die Durchführung der diagnostischen Untersuchung stattfinden. Die eingesetzten Verfahren und die damit gewonnenen Ergebnisse, Resultate aus Fragebögen, Tests, Gesprächen sowie anderen Informationsquellen,
werden in allgemeinverständlicher Form dargestellt. Der diagnostische Prozess endet
damit, dass die Untersuchungsergebnisse im Befund so integriert werden, dass sie die
zuvor formulierten psychologischen Fragen beantworten.Die Stellungnahme gibt
schließlich eine Antwort auf die zu bearbeitende Fragestellung des Gutachtens. Daran
können sich Vorschläge und Empfehlungen in Bezug auf das weitere Vorgehen anschließen.
Die Fragestellungen, Arbeitsfelder und Aufgabenbereiche für psychodiagnostische Gutachten sind zahlreich, wie der nachfolgenden Auflistung zu entnehmen ist
(nach Föderation Deutscher Psychologenvereinigungen, 1988):
4 Schule (Schulfähigkeit, Lernfähigkeit; Lern-/Leistungsstörungen; Verhaltensauffälligkeiten; Schullaufbahnberatung),
4 Universität/Hochschule (Zulassung zum Studium, z. B. Härtefälle; Wechsel des Studienortes/-faches; Zulassung zum Zweitstudium/ Doppelstudium),
4 Versicherungsträger (Rentenfragen, Berufsunfähigkeit, Begründung psychotherapeutischer Interventionen, Rehabilitationsmaßnahmen mit beruflichen Einsatzmöglichkeiten usw.),
4 Gesundheitswesen (im Falle klinisch-psychologischer Interventionen, bei psychiatrischen Fragestellungen, z. B. als Zusatzgutachten; bei Fragen der psychologischen
Vorbereitung und Begleitung medizinischer Interventionen, z. B. Operationsvorbereitung, Vorbereitung auf schmerzhafte diagnostische Behandlungen usw.; bei Fragen der psychologischen Nachsorge nach medizinischen Interventionen, z. B. nach
entstellenden Operationen oder dauerhaften Funktionseinschränkungen; bei Entscheidungen über ausgewählte medizinische Eingriffe, z. B. Sterilisation, Geschlechtsumwandlung, Schönheitsoperation),
4 öffentliche Verwaltung (Städteplanung, Medien, Namensänderung),
4 Arbeitsamt (Berufseignung, Berufslaufbahn, Beratung),
4 Verkehrsbehörden (insbesondere Fahreignungsuntersuchungen),
4 Kreiswehrersatzamt (Wehrdiensttauglichkeit; Gewissensüberprüfung bei Kriegsdienstverweigerung),
4 und deren Wechselwirkungen (Subskript I).
deren«)
4 soziale Variablen (S; soziale Intelligenz, Normen, Einflüsse von »bedeutsamen An-
Kapitel 5 · Der diagnostische Prozess
Auswahl von
Informationsquellen
388
(S.410-415)
Nutzenerwägungen
(S.408-409)
Festsetzung von Testtrennwerten
(S.404-408)
Entscheidungsfehler
(S.401-404)
Einstufige vs. mehrstufige
Entscheidungsstrategien
(S.399-401)
Kompensatorische und konjunktive
Entscheidungsstrategien
(S.396-399)
Arten diagnostischer Entscheidungen
Zuordnungs- und
Klassifikationsstrategien
6
Institutionelle
Entscheidung
Entscheidungen setzen
Alternativen voraus
Arten diagnostischer Entscheidungen
1.
2.
3.
4.
5.
6.
Nutzen der Entscheidungen geht zugunsten
Annahme
Behandlungen
Möglichkeit von Ablehnungen
Informationsdimensionen
Entscheidungen
Institution
festgelegt
singulär
ja
univariat
terminal
vs.
vs.
vs.
vs.
vs.
vs.
Individuum
variabel
multipel
nein
multivariat
investigatorisch
. Tabelle 6.1. Arten diagnostischer Entscheidungen. (Nach Cronbach & Gleser, 1965, S. 16)
Es ist bereits mehrfach darauf hingewiesen worden, dass moderne Diagnostik einen
Finalitätscharakter besitzt, d. h. mit einer konkreten Zielvorstellung vorgenommen
wird, die über die Beschreibung eines bestimmten Zustandes hinausgeht. Auf der Basis
der erhobenen diagnostischen Informationen müssen Entscheidungen über anstehende Fragen gefällt werden, etwa der Art, ob ein Bewerber die ausgeschriebene Stelle erhält, welche Schüler zweckmäßigerweise welchen Unterrichtseinheiten zugeordnet
werden, ob bei einem Klienten eine Gesprächs- oder Verhaltenstherapie angemessen
ist usw. In einem allgemeinen Sinn gehören die Arbeitsstelle, Unterrichtseinheiten und
therapeutische Eingriffe in die Kategorie von Interventionen, d. h. Maßnahmen, die
aus den verschiedensten Gründen eingeleitet werden. Sie setzen an diagnostischen
Feststellungen an, mit dem Ziel, Veränderungen auf organisatorischer oder individueller Ebene herbeizuführen. Im angloamerikanischen Raum ist dafür der Terminus
»treatment«, also Behandlung, gebräuchlich. Die intendierten Effekte sind erwartungsgemäß dann besonders positiv, wenn die Passung zwischen Diagnose und Intervention
in optimaler Weise ausfällt. Nachfolgend sollen die Probleme, Fehler und Lösungsmöglichkeiten erörtert werden, die sich bei der Zuordnung von diagnostischen Daten zu
Interventionen ergeben.
Die für jede Zuordnung notwendigen Entscheidungen setzen voraus, dass mindestens 2 Alternativen vorhanden sind (z. B. Annahme oder Ablehnung). Sofern nicht von
einer vollständigen Gültigkeit des diagnostischen Instrumentariums für das anstehende Problem ausgegangen werden kann, sind die Entscheidungen mit Unsicherheit oder
dem Risiko des Irrens behaftet. Klassifiziert werden diagnostische Entscheidungen
nach einem Raster, das auf das nachgerade epochale Buch von Cronbach und Gleser
(1965) zurückgeht (. Tab. 6.1).
Aus der Kombination aller Klassifikationskriterien mit allen anderen resultieren
26 = 64 verschiedene Arten von diagnostischen Entscheidungen. Viele davon haben in
der Praxis jedoch nur eine untergeordnete Bedeutung, so dass in diesem Abschnitt eine
Beschränkung auf die häufiger vorkommenden Konstellationen erfolgen kann.
Eine Entscheidung ist von institutioneller Art, wenn eine Organisation (z. B. ein
Betrieb oder eine Fortbildungsanstalt) nach einem standardisierten Vorgehen alle Personen in der gleichen Weise einem Verfahren unterzieht. So müssen z. B. alle Personen
ein und denselben Test bearbeiten oder an einem Vorstellungsgespräch teilnehmen,
dessen Ergebnisse dann für die »Behandlung« relevant sind. In solchen Fällen wird eine
Entscheidungsregel gesucht, die den Nutzen vieler (gleichartiger) Entscheidungen über
alle Entscheidungssituationen hinweg für die Institution maximiert, die die Eignungsprüfungen organisiert, weil sie ein Interesse daran hat, die bestgeeigneten Personen für
Arbeit, Training oder Unterweisung heranzuziehen.
6.1
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
Diagnose und
Intervention
396
a
C
Score y1
B
A
Zuordnung Zuordnung Zuordnung
zu
zu
zu
Behandlung Behandlung Behandlung
Score y1
Ablehnung
Annahme
b
Ganz anders gelagert sind dagegen die Verhältnisse, wenn ein Individuum auf
einen Diagnostiker oder eine Institution zugeht (z. B. um Rat über die anstehende Berufswahl oder eine Therapieform einzuholen) und dort je nach Biographie, Vorkenntnissen oder Beschwerden ein spezifisches Untersuchungsprogramm mit dem Ziel
zusammengestellt wird, die beste Handlungsalternative für die nachfragende Person
herauszufinden. Hierbei interessiert allein der individuelle Nutzen (der sich über alle
Personen hinweg auch als institutioneller Nutzen, z. B. für den gesamten Gesellschaftsverband, begreifen lässt).
Um festgelegte Annahmequoten handelt es sich dann, wenn z. B. nur eine bestimmte Zahl von Therapie- oder Ausbildungsplätzen zur Verfügung steht, denen die
Interessenten oder Bewerber zugeordnet werden müssen. Übersteigt die Zahl der Personen diejenige der vorhandenen Plätze, kann diese Zuordnung nur dann rational erfolgen, wenn von allen Personen die diagnostischen Daten vorliegen. Die Entscheidungen über einzelne Personen erfolgen dann aber nicht unabhängig voneinander, weil ein
Votum zugunsten bestimmter Personen implizit zu Lasten anderer geschieht und jedenfalls auf einem Vergleich von zumindest einer Ordinalrelation beruht.
Hingegen ist bei nichtfestgelegten oder variablen Annahmequoten wechselseitige
Unabhängigkeit der Entscheidungen über die einzelnen Probanden gegeben. Dies trifft
beispielsweise zu, wenn die Eltern aller Kinder, die im 7. Lebensjahr noch einnässen,
einer psychologischen Exploration unterzogen werden.
Unter Behandlung werden allgemein höchst unterschiedliche Interventionen subsumiert. Es mag sich dabei um eine eng umschriebene Maßnahme handeln (wie z. B.
die Therapie eines Klienten) oder um eine Kombination vieler einzelner »treatments«
(wie z. B. den Einbezug der Familie oder der Arbeitskollegen in den Behandlungsplan).
Hauptsächlich denken Cronbach und Gleser (1965, S. 16) aber, wie Erläuterungen erkennen lassen, an die Unterscheidung zwischen einstufigen und mehrstufigen (sequentiellen) Testungen. Im ersten Fall erfolgt die Zuordnung auf der Basis einer punktuell-einmaligen Diagnose, im letzten als Resultat eines gestuften Vorgehens in mehreren Schritten (mehr dazu 7 unten).
Sind Ablehnungen aufgrund von Testungen möglich, liegt die klassische Struktur
von Selektionsparadigmen vor. Verbleiben hingegen alle Probanden im System und
werden infolge der Diagnoseerstellung nur horizontal oder vertikal zu spezifischen
Interventionen »verschoben«, spricht man von Platzierung (. Abb. 6.1a und b).
Platzierungen federn gleichsam die harschen Schnitte einfacher Selektionen insofern ab, als niemand von einer (positiven) Intervention ausgeschlossen wird.
Für eine Selektion ist nicht notwendig, dass – wie in der . Abb. 6.1 dargestellt – 2
Variablen vorliegen; vielmehr genügt dazu bereits ein Prädiktor. Damit wird zu einem
weiteren Punkt übergeleitet: Die diagnostische Information kann sich auf eine Dimension beschränken (z. B. Allgemeine Intelligenz oder die Abiturnote), also univariat
vorliegen, oder aus mehreren Dimensionen stammen und somit multivariat beschaf-
6.1 · Arten diagnostischer Entscheidungen
Score y2
6
. Abb. 6.1. a Platzierung;
b Selektion (Aus Cronbach &
Gleser, 1965, S. 13)
Univariate vs. multivariate Informationen
Einstufige vs. mehrstufige Testungen
Behandlung
Variable Annahmequoten
Festgelegte
Annahmequoten
Individuelle
Entscheidung
397
6
Zielsetzung und
Strategie
Regelkreismodell
Terminale vs. investigatorische Entscheidung
C
B
A
Test 1
fen sein. Meist werden zur Erhöhung der Validität und damit auch der Entscheidungssicherheit mehrere Prädiktoren herangezogen, weil damit verschiedene Facetten des
Kriteriums abgedeckt werden können. Zudem erlauben nur multivariate Ansätze die
Vornahme einer Klassifikation, d. h. der Zuweisung von Probanden entsprechend einer ermittelten Merkmalskonfiguration, wie sie in . Abb. 6.2 am Beispiel einer Zuordnung zu einem von mindestens 3 Treatments dargestellt ist.
Der Begriff »Klassifikation« steht hier also für eine ganz bestimmte Art von Klassenzuweisung, nämlich einer nach Maßgabe der Merkmalsstruktur. Wie Janke (1982)
deutlich gemacht hat, wird der Term in der Literatur zum Teil auch in anderer Bedeutung gebraucht, so z. B. für die Methoden zur Bildung von Klassen (Typenbildung,
Gruppierung, Clusteranalyse) und solche zur Trennung der Klassen voneinander (z. B.
Diskriminanzanalyse). Zur Differenzierung der verschiedenen Arten von Klassen selbst
sei auf die Darstellung von Kallus und Janke (1992) verwiesen.
Wird auf der Basis der diagnostischen Information ein Proband einer Behandlung
zugeführt, in der er mehr oder weniger lange verbleibt (z. B. einer Sonder- anstelle der
Grundschule, Übertragung einer neuen Verantwortung, Aufnahme in ein Ausbildungsprogramm), handelt es sich um eine terminale Entscheidung. Mit der Zuweisung ist
die diagnostische Aufgabe abgeschlossen. Soll die Maßnahme, der eine Person als Ergebnis diagnostischer Datensammlung zugeordnet wird, hingegen nur vorläufigen,
weil weiter erkundenden Charakter haben (wie z. B. eine Anstellung auf Probe, um die
Bewährung an konkret anfallenden Anforderungen abschätzen zu können; eine spezifische Medikation, um zu sehen, wie der Patient »darauf anspricht« usw.), sprechen wir
von einer investigatorischen Entscheidung. Somit ist das Ergebnis einer investigatorischen Entscheidung eine neue Frage oder ein ganzer Satz von neuen Fragen.
Tack (1976) hat verschiedene Komponenten des diagnostischen Entscheidungsprozesses, darunter die terminalen und investigatorischen Entscheidungen, in einer Art
Regelkreismodell zusammengestellt (. Abb. 6.3), dessen Grundaufbau auf Cronbach
und Gleser (1965, S. 18) zurückgeht.
Neu darin ist die Zielsetzung. Sie spielt eine wesentliche Rolle für die im Verlauf
des diagnostischen Prozesses überhaupt in Betracht kommenden Einzelentscheidungen. So sind etwa die potentiellen Behandlungen bei Eheleuten, die wegen Partnerschaftsschwierigkeiten um Rat fragen, grundsätzlich andere als diejenigen bei depressiven Klienten oder verhaltensauffälligen Kindern. Die Einweisung in eine von mehreren freien Stellen folgt völlig anderen Prinzipien als die Beratung über mögliche
berufliche Optionen. Insofern wirkt die jeweilige Zielsetzung auch auf eine Strategie,
die im Zentrum des Modells steht. Strategien sind Regeln, um zu Entscheidungen zu
Test 2
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
. Abb. 6.2. Klassifikation,
d. h. Zuweisung zu einer von
3 verschiedenen Maßnahmen auf der Basis von 2 Prädiktoren. (Nach Cronbach &
Gleser, 1965, S. 12)
398
Frage C
Frage B
Frage A
terminale
Entscheidung
Ergebnis
investigatorische
Entscheidung
Strategie
Zielsetzung
Behandlung C
Behandlung B
Behandlung A
Kompensatorische und konjunktive
Entscheidungsstrategien
Die lineare Kombination von Prädiktionswerten zu einem Rechenmaß, das eine maximale (multiple) Korrelation mit dem jeweiligen Kriterium gewährleistet, impliziert ein
sog. kompensatorisches Modell. Das heißt, ein und derselbe (globale) Prädiktionswert
kann durch ganz verschiedene Merkmalskonfigurationen in den Einzeltests erreicht
werden, oder mit anderen Worten: Niedrige Leistungen in einigen Prädiktoren können
durch hohe in anderen wettgemacht werden. Eine solche Kompensation gelingt dann
besonders leicht, wenn hohe Scores in jenen Tests erzielt werden, die innerhalb der
Batterie hohe β-Gewichte aufweisen.
Kompensatorische Modelle liegen der diagnostischen Praxis sehr häufig zugrunde.
Etwa kann das Ziel der Versetzung in die nächste Schulklasse auch bei starken Defiziten
in bestimmten Fächern erreicht werden, wenn diese durch besonders gute Leistungen
in anderen ausgeglichen werden (eine Fünf in einem Nebenfach ist durch eine Zwei in
einem anderen kompensierbar, hingegen bedarf es bei einer Fünf in einem Hauptfach
guter Noten in mehreren anderen Fächern usw.). Ein ordentlicher Verkäufer mag eine
Qualifikation erreichen, indem er mit bestechender Sachkenntnis seine holprigen Umgangsformen überspielt usw.
6.2
gelangen, oder, wie es Tack (1976, S. 105) formuliert: »Darunter verstehen wir ein
(normatives) System von Regeln, die angewandt auf vorliegende Informationen unter Berücksichtigung der jeweiligen Zielsetzung zu einer bestimmten Entscheidung
führen.«
Die wichtigsten Grundmuster derartiger Strategien sollen nachfolgend vorgestellt
werden.
•••
Informationen
über eine
Person
Problemstellung
6.2 · Kompensatorische und konjunktive Entscheidungsstrategien
•••
6
Prädiktionswerte
durch unterschiedliche Merkmalskonfigurationen
. Abb. 6.3. Schematische
Darstellung des diagnostischen Entscheidungsprozesses. (Aus Tack, 1976, S. 105)
399
6
. Abb. 6.4a,b. Entscheidungsstrategien: a kompensatorische, b konjunktive.
(Aus Wieczerkowski &
Oeveste, 1982, S. 931)
Trennwerte
»Und-Konzept«
Abweisung
-3 -2 -1
0
1
2
3 (Z1)
a Kompensatorisches Modell
-3
-2
0
1
2
2
2
Zulassung
Abweisung
3
-3 -2 -1
1
b Konjunktives Modell
-3
-2
0
-1
0
1
-1
2
Zŷ = -1
1
(Z 2) 3
Zulassung
2
(Z 2) 3
3 (Z1)
Nur ein kleiner Schritt ist es von der kombinatorisch-kompensatorischen Strategie
zu einem »Oder-Konzept«. Dort ist es nicht notwendig, die Summe aus Teilkompetenzen zu bilden, sondern es genügen entsprechend hohe Punktwerte in einem der Prädiktoren. Eine solche Auswahlstrategie liegt dann nahe, wenn die durch das Kriterium
geforderte Leistung entweder auf die eine oder andere Weise erbracht werden kann,
dass also für beide Prädiktoren Mindestanforderungen gestellt werden, aber ein Bewerber nur die Mindestanforderung in einem Prädiktor erfüllen muss, um zugelassen zu
werden. Gute Leistungen in der Schule können beispielsweise durch Fleiß oder Begabung erreicht werden. Ein guter Lehrer mag sich für seinen Beruf durch große Fähigkeit
in Mathematik oder in Geschichte empfehlen usw.
Kompensatorische Strategien sind immer dort dysfunktional, wo in jedem Teilbereich bestimmte Mindestleistungen unabdingbar vorliegen müssen, um eine Tätigkeit
erfolgreich ausführen zu können. Beispielsweise kann ein Chirurg nicht mangelnde
feinmotorische Kompetenz durch Intelligenz kompensieren, ein Pilot nicht fehlende
Sehtüchtigkeit durch gute räumliche Orientierung, ein Systemüberwacher nicht Ausfälle der Daueraufmerksamkeit durch kognitive Flexibilität usw. Hier besteht also die
Forderung nach Leistungen in dem einen und dem anderen Bereich, weshalb diese
Modelle auch konjunktive bzw. »Und-Strategien« heißen. Ein kompensatorisches und
ein konjunktives Modell sind in . Abb. 6.4a und b für den Fall graphisch veranschaulicht, dass der für die Zulassung kritische Testtrennwert mit zŷ = –1 festgelegt worden
wäre. Nach der kompensatorischen Strategie (. Abb. 6.4a) fallen alle Probanden in die
Kategorie »Zulassung«, bei denen die Kombination aus z1 und z2 mindestens den Wert
zŷ = –1 ergibt (also z1 = +2, z2 = –3; z1 = +1, z2 = –2 usw.). Da ein z-Wert von –1 einem
Prozentrang von 16 entspricht, gehören 84% aller Probanden in die Kategorie »Zulassung«, deren Grenze durch die schräge Gerade in . Abb. 6.4a markiert wird.
Dem konjunktiven Modell (. Abb. 6.4b) zufolge ist der kritische Trennwert in jeder
der beiden Variablen bei z = –1 angesetzt worden. Daraus resultiert ein insgesamt konservativeres Vorgehen, d. h. die Anforderungen sind höher, um in die Kategorie der
Zugelassenen zu gelangen. Dementsprechend fallen nunmehr die mit 1 und 2 bezeichneten Segmente – im Gegensatz zur kompensatorischen Strategie – unter die Abgelehnten. Gleichwohl gäbe es auch einige Probanden, die unter den gegebenen Randbedingungen unter der konjunktiven, aber nicht unter der kompensatorischen Strategie zugelassen werden. Sie sind mit 3 gekennzeichnet.
Sofern die Aufnahmequoten fest vorgegeben sind, führen die kombinatorische
(kompensatorische bzw. Oder-Strategie) sowie die konjunktive Und-Strategie zu unterschiedlichen Trennwerten, wie aus . Abb. 6.5 hervorgeht.
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
»Oder-Konzept«
400
1T2
Oder-Strategie
x
X1
Einstufige vs. mehrstufige Entscheidungsstrategien
1
x1T
Kombinatorische (kompensatorische)
Strategie
Und - Strategie
Persönliche Entscheidungen erfolgen meist als Elemente einer langen Endloskette.
So trifft ein Abiturient vielleicht die Entscheidung zugunsten eines bestimmten Studiums. Nach dem ersten Semester stellt er fest, dass ihn die Materie weit weniger
interessiert, als er zuvor angenommen hat und wechselt deshalb zu einem anderen
Fach. Dort fühlt er sich überfordert und wendet sich wieder seiner ursprünglichen
Wahl zu, diesmal jedoch mit anderen Schwerpunkten. Nach dem Examen geht er in
die freie Wirtschaft, gründet später selbst eine Firma, die aber nach einigen Jahren
wegen starker Konkurrenz eingeht, was eine erneute Umorientierung nötig macht
usw.
Ähnliches gilt für institutionelle Entscheidungen: Zu Vorprüfungen in einigen
Studiengängen wird nur zugelassen, wer die notwendigen Leistungsnachweise in einzelnen Lehrveranstaltungen erbracht hat (. Abb. 6.6). Wiederholtes Nichtbestehen der
Zwischenprüfungen führt zum Ausschluss aus dem System (d. h. dem Studiengang).
Aber auch nach dem Ablegen der Zwischenprüfungen muss in weiteren Lehrveranstaltungen und Prüfungen unter Beweis gestellt werden, dass man vom Angebot des Treatments »Lehre« in hinreichender Weise profitiert hat. Das heißt, die Institution Universität sammelt im Sinne investigatorischen Vorgehens fortwährend diagnostische Informationen über den Leistungs- (und Motivations-)stand jedes Studierenden. Ganz
ähnlich geht es in Behörden, Betrieben und auch im Bereich des sportlichen Wettkampfes zu. Setzt man Tests an die Stelle der Tätigkeiten, so wird klar, dass definitiv »terminale« Entscheidungen selten oder auf jene Fälle beschränkt sind, in denen eine institutionelle Entscheidungsinstanz eine Person aus ihrem System entlässt und damit keine
weiteren Informationen mehr über sie erhebt. Umgekehrt ist sequentielles Vorgehen in
der Lebenswirklichkeit offenkundig die Regel.
6.3
1
x2T
2
x2T
X2
6.3 · Einstufige vs. mehrstufige Entscheidungsstrategien
6
»Terminale« Entscheidungen sind selten
Institutionelle
Entscheidungen
Persönliche
Entscheidungen
. Abb. 6.5. Festlegung der
Trennwerte (T1 und T2) in
2 Prädiktoren (X1 und X2) bei
festen Selektionsraten und
unterschiedlichen Auswahlstrategien
401
6
. Abb. 6.7a-e. Zwei nichtsequentielle (a und b) und
3 sequentielle (c–e) Auswahlstrategien. (Aus Cronbach & Gleser, 1965, S. 73)
Sequentielles
Vorgehen
Einstufiges Vorgehen
IV
c Vorauswahl
I
III
I
II
III
II
I
IV
III
II
e Vollständige sequentielle Strategie
b Einzelteststrategie
d Vorentscheidung
I
a Nichtsequentielle Batterie
IV
III
Innerhalb des sequentiellen Vorgehens sind die folgenden 3 Grundmuster möglich:
4 Vorauswahl-(Pre-reject-)Strategie (. Abb. 6.7c): Nach einem ersten Test werden
alle Probanden, die einen bestimmten Score nicht erreichen, von weiteren Untersu-
In der diagnostischen Praxis kommt aus Zeit- und Kostengründen das einstufige
Vorgehen recht häufig vor. Hier unterscheidet man die
4 »nichtsequentielle Batterie« (. Abb. 6.7a): Die gesamte Batterie wird an alle Probanden vorgegeben, und es werden diejenigen ausgewählt (III), die in dem optimal
gewichteten Summenwert die höchsten Scores erzielen, und den
4 »single screen« (. Abb. 6.7b): Auf einem Test allein (Annahmebereich = II) fußen
alle weiteren Entscheidungen.
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
. Abb. 6.6. Zu universitären Zwischen- und Abschlussprüfungen werden
oft nur diejenigen Studierenden zugelassen, die
bestimmte Leistungsnachweise erbracht haben
402
Das Auswahlverfahren der »Studienstiftung des Deutschen Volkes« ähnelt sehr stark
der Vorauswahlstrategie: Nur mit jenen Kandidaten wird sich eingehender befasst, die
aufgrund ihrer schulischen oder akademischen Leistungen aus dem Gros der Mitschüler bzw. Kommilitonen herausragen und deshalb als Kandidaten der Stiftung gegenüber
nominiert werden. Unter ihnen wird mit Hilfe eines Verfahrens, das seinerseits sequentiell strukturiert ist (Gruppentestung, später Interviews mit den Testbesten), nach den
vermutlich geeignetsten Personen gesucht (. Abb. 6.8).
Hingegen wies die Zulassung zum Medizinstudium bis 1996/97 einige Elemente der
Vorentscheidungsstrategie auf: Hier wurde ein bestimmtes Kontingent der Plätze für
die nach Schulnoten Besten reserviert, des Weiteren ein Kontingent für die Besten
unter denjenigen, die sich dem mehrstündigen TMS (7 Abschn. 1.6) unterzogen hatten.
Für die restlichen Bewerber galt ein Zulassungsschlüssel, in den die Schulnoten und
Testergebnisse mit unterschiedlichen Gewichtszahlen eingingen.
Die relative Überlegenheit von sequentiellen zu nichtsequentiellen Strategien ist bei
institutionellen Entscheidungen an Nutzenüberlegungen (7 dazu Abschn. 6.6) gekoppelt, d. h. die Gewinne, die eine Organisation daraus erwirtschaftet, dass auf der Basis
von diagnostischen Untersuchungen die Bestgeeigneten identifiziert werden, im Vergleich zu den Kosten, die eben diese Testungen verursachen (. Abb. 6.7a–e). Dabei
spielen, wie noch zu zeigen sein wird, vor allem die Validität und der Prozentanteil
auszuwählender Bewerber eine wichtige Rolle. Ungeachtet der dadurch notwendigen
Differenzierungen sind sequentielle Strategien den einstufigen Vorgehensweisen generell überlegen, doch verschwindet diese Überlegenheit bei extremen Selektionsraten
(Cronbach & Gleser, 1965, S. 77 ff.).
chungen ausgeschlossen und zurückgewiesen (I). Die verbleibenden Probanden
absolvieren weitere Verfahren. Die Entscheidung über Annahme (III) vs. Ablehnung (IV) wird aus der Kombination zwischen Erst- und Folgetests getroffen.
4 Vorentscheidungs-(Pre-accept-)Strategie (. Abb. 6.7d): Nach einem ersten Teil
werden alle Probanden, die einen bestimmten Trennwert überschreiten, bereits
(terminal) akzeptiert (II). Mit den verbleibenden Probanden wird analog zur Vorauswahlstrategie verfahren.
4 Vollständige sequentielle Strategie (. Abb. 6.7e): Kombination der beiden vorgenannten Vorgehensweisen. Nach Maßgabe der Punktwerte in einem Test erfolgt
eine Aufteilung aller Probanden in 3 Gruppen, eine, die (terminal) akzeptiert (II),
eine andere, die definitiv abgewiesen (I) und eine dritte, die mit einem Folgetest
untersucht wird.
6.3 · Einstufige vs. mehrstufige Entscheidungsstrategien
6
. Abb. 6.8. Beispiel für
eine Pre-reject-Strategie: Zur
praktischen Fahrprüfung
werden nur diejenigen Bewerber zugelassen, die bereits die theoretische Prüfung bestanden haben
Überlegenheit der sequentiellen Strategien
Beispiel für Pre-accept
Beispiel für Pre-reject
403
6
Entscheidungsfehler
Risiko: 1 – α
^ )
p(KA–
Risiko: α
^ )
p(KA+
^
^
^
p(K A− ∩ K A − )
TN
Ⳏ
p(K A − )
FN + TN :
Prädiktiver Wert einer negativen Zuordnung (Anteil der richtig diagnostizierten Gesunden in der
Gruppe der als gesund diagnostizierten Personen)
Prädiktiver Wert einer positiven Zuordnung (Anteil der richtig diagnostizierten Kranken an allen
als krank diagnostizierten Personen)
^
^
p(K A+ ∩ K A+ )
TP
Ⳏ
p(K A+ )
TP + FP :
^
^
Spezifität der Zuordnungsregel (Anteil der richtig diagnostizierten Gesunden in der Gruppe der
Gesunden)
1
p(KA–)
p(K A− ∩ K A− )
TN
Ⳏ
p(K A− )
FP + TN :
^
p( TN) = p(K A − ∩ K A− )
p(FP ) = p(K A + ∩ K A− )
^
Richtige Zuordnung
(–; –)
TN (wahre Negative)
richtig als gesund identifizierte Gesunde
Risiko: β
falsche Zuordnung Typ 1
(+; –)
FP (falsche Positive)
fälschlich als krank bezeichnete Gesunde
Risiko: 1 – β
p(KA+)
Sensitivität der Zuordnungsregel (Anteil der richtig diagnostizierten Kranken in der Gruppe der
Kranken)
KA(gesund)
^
p(FN) = p(K A− ∩ K A+ )
p( TP) = p(K A + ∩ K A+ )
^
falsche Zuordnung Typ 2
(–; +)
FN (falsche Negative)
fälschlich als gesund bezeichnete Kranke
richtige Zuordnung
(+; +)
TP (wahre Positive)
richtig als krank identifizierte Kranke
Grundrate KÂ–
(Diagnose »gesund«)
p(K A+ ∩ K A+ )
TP
Ⳏ
p(K A+ )
TP + FN :
Tatsächliche
Zugehörigkeit
KA+
(krank)
Grundrate KÂ+
(Diagnose »krank«)
Zuordnung aufgrund des Prädiktors
. Tabelle 6.2. Arten richtiger und falscher Klassenzuordnung, zusammen mit den Zuordnungsregeln und Risiken für Fehlentscheidungen bei der statistischen Hypothesentestung. (Überarbeitet nach Kallus & Janke, 1992, S. 175 und 178)
Die zentrale Aufgabe von Zuordnungsstrategien besteht darin, Fehler bei der Klassenzuordnung zu vermeiden. Derartige Fehler liegen immer dann vor, wenn die Zuordnung aufgrund der Prädiktorvariablen nicht mit der tatsächlichen Klassenzugehörigkeit übereinstimmt. Für den Fall von 2 Klassen sind in . Tab. 6.2 die 4 möglichen
Kombinationen von Übereinstimmung/ Nichtübereinstimmung der Vorhersagen des
6.4
Sequentielle Entscheidungen lassen sich stets auf eine Folge einstufiger Klassenzuordnungen reduzieren. Deshalb genügt es, nachfolgend einige grundlegende Probleme
nur für einstufige Strategien zu besprechen.
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
Fehler bei der Klassenzuordnung vermeiden
404
Sensitivität und Spezifität lassen sich unabhängig von den Grundraten oder der Prävalenz bestimmen; hingegen unterliegen die Prädiktions- oder Vorhersagewerte sehr
stark deren Einfluss. Das wird sogleich deutlich, wenn man sich den Grundlagen der
Selektion und dort insbesondere den Bemühungen von Taylor und Russell (1939) um
eine Verbesserung der Effizienz von Auswahlentscheidungen zuwendet. Beide Autoren
haben erstmals gezeigt (und dafür ausführliche Tabellenwerke erstellt), dass es auch bei
Tests mit einer nur mäßigen Validität möglich ist, hochgradig effizient auszuwählen,
d. h. weitgehend nur diejenigen Bewerber, die später auch erfolgreich sein werden.
Voraussetzungen dafür sind allerdings hohe Grundraten der ohne Testung Erfolgreichen und eine niedrige Selektionsrate. Die Prinzipien sind schematisch in . Abb. 6.9
veranschaulicht. (Test und Kriterium sind hier – dem Regelfall entsprechend – positiv
gepolt, d. h. höhere Werte stehen jeweils für höhere Leistungen im Test und höheren
»Erfolg« im Kriterium. Um die Gegebenheiten aus . Tab. 6.2, wo es um die Identifikation von Krankheiten ging, darauf zu übertragen, müssten höhere Werte in T und K mit
größerer Wahrscheinlichkeit von »Krankheit« gleichgesetzt werden, was durchaus Sinn
macht, wenn man etwa Skalen für Krankheitsdisponiertheit einsetzt; die Erfüllung des
Kriteriums »Krankheit« wäre in diesem Sinne der Vorhersage gemäß ein »Erfolg«,
obwohl Krankheit als solche üblicherweise damit nicht gleichgesetzt wird.)
Das Verhältnis der im Kriterium erfolgreichen Probanden zur Gesamtzahl aller
Meßwertträger, also der Quotient (TP+FN)/N definiert die Basisrate; dafür ist auch die
Bezeichnung »natürlicher Eignungsquotient« geläufig (»Success without use of test«).
Die Effizienz der Auslese bemisst sich nach dem Anteil der Geeigneten an allen Ausgewählten, also gemäss TP/(TP+FP). Dieser Term heißt »selektiver Eignungsquotient«,
und er ist, wie ein vergleichender Blick auf Tab. 6.2 lehrt, identisch mit dem dort aufgeführten »positiven Prädiktionswert«. Verändert man den Testtrennwert, der über
Annahme oder Ablehnung entscheidet, von x1 zu x′1, so stellt sich ein positiver Prädik-
Im Anschluss an . Tab. 6.2 sind die Gütekriterien aufgeführt, die zur Beschreibung
einer Entscheidungsstrategie errechnet werden können (nach Noack & Petermann,
1992, S. 299):
4 Sensitivität: die Wahrscheinlichkeit, mit der ein vorliegender positiver Zustand als
solcher erkannt wird.
4 Spezifität: die Wahrscheinlichkeit, mit der ein vorliegender negativer Zustand als
solcher erkannt wird.
4 Positiver Prädiktionswert: die Wahrscheinlichkeit, mit der eine positive Diagnose
zutreffend ist.
4 Negativer Prädiktionswert: die Wahrscheinlichkeit, mit der eine negative Diagnose zutreffend ist.
Prädiktors mit der »wahren« Kategorienzugehörigkeit zusammengestellt, und zwar der
besseren Anschaulichkeit halber mit den aus der klinischen Diagnostik dafür gebräuchlichen Begriffen.
KA+ bzw. KA– bezeichnen die Kategorien der klinisch Kranken und Gesunden. KÂ+
und KÂ– stehen für die aufgrund der Prädiktoren geschätzte Klassenzugehörigkeit.
Demnach sind 2 Arten von Zuordnungsfehlern zu unterscheiden:
4 Fehler erster Art: FP = falsche Positive, d. h. Personen werden als krank bezeichnet,
obwohl sie gesund sind.
4 Fehler zweiter Art: FN = falsche Negative, d. h. Personen werden als gesund diagnostiziert, obwohl sie der Krankengruppe angehören.
6.4 · Entscheidungsfehler
Selektiver
Eignungsquotient
Effizienz der
Entscheidungen
Taylor-Russell-Tafeln
Gütekriterien
einer Entscheidungsstrategie
Fehler 1. und 2. Art
405
6
6
Entscheidungsregeln
Bedingte Fehlerzuordnungswahrscheinlichkeiten
Bedeutung der Fehlerarten unterschiedlich
TN
FN
x1
FP
TP
x1' x1''
T
tionswert von 1,0 ein (d. h. alle durch den Test Ausgewählten sind auch tatsächlich erfolgreich). Dieser ist allerdings auch abhängig von der Grundrate, denn wenn diese
anstelle von y1 durch den Kriteriumstrennwert y′1 definiert wäre, würde ein Trennwert
x′1 noch einen kleinen Teil von FP mit auswählen (in der Abbildung andersfarbig schraffiert gekennzeichnet). Deshalb bedürfte es eines noch weiter hinausgeschobenen Testtrennwertes x″1, um auch bei der niedrigeren Rate natürlicher Eignung einen höchstmöglichen positiven Prädiktionswert zu gewährleisten. Es fällt also leichter, bei einer
hohen Grundrate geeigneter Probanden effektiv im Sinne dieser Konzeption zu arbeiten, oder mit anderen Worten: Die Güte des Zuordnungsverfahrens hängt stark von der
Grundrate ab.
Was diese Güte angeht, so wird sie allgemein in dem Sinne definiert, dass eine Regel
»zulässig« ist, wenn es keine andere gibt, die besser ist. »Besser« bedeutet mindestens
so gute Trefferraten in jeder der Klassen und Überlegenheit in mindestens einer weiteren. Dabei können Nutzenerwägungen eine Rolle spielen, die Abhebung von Zufallstreffern oder eine besondere Gewichtung spezifischer Kategorien. So kann beispielsweise die Zuordnung zur Kategorie KÂ+ in . Tab. 6.2 als eine Entscheidung mit der
größeren Bedeutung (»Alternativhypothese«) angesehen werden, weil nur dies die Einleitung einer Behandlung sicherstellt. Deshalb kommt es darauf an, die Wahrscheinlichkeit einer fälschlichen Nicht-Zuordnung zu dieser Klasse (also die Annahme der
Nullhypothese bei gültiger Alternativhypothese) zu minimieren (= Fehler zweiter Art,
FN, β-Fehler).
Damit sind die Prinzipien der statistischen Hypothesenprüfung angesprochen. Um
diese anwenden zu können, müssen die bedingten Fehlerzuordnungswahrscheinlichkeiten herangezogen werden. Das heißt, die in den Feldern von . Tab. 6.2 eingetragenen absoluten Wahrscheinlichkeiten müssen auf die jeweiligen Grundraten relativiert
werden (woraus sich die Formeln im unteren Teil der Tabelle ergeben).
Um die Fehler bei Zuordnungsverfahren gering zu halten, bieten sich mehrere Arten von Entscheidungsregeln an (nach Kallus & Janke, 1992, S. 179):
y1
y1'
K
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
. Abb. 6.9. Anteile von:
Richtig klassifiziert Positiven
(TP), falsch klassifiziert Positiven (FP), falsch klassifiziert
Negativen (FN) und richtig
klassifiziert Negativen (TN).
Im Fall von FP lautet die
Diagnose aufgrund des Tests
»erfolgreich«, obwohl die
Probanden im Kriterium
nicht erfolgreich sind, im Fall
von FN »nicht erfolgreich«,
obwohl Erfolg tatsächlich
vorliegt
406
p(x i /K A + )
>c
p(x i /K A − )
(6.1)
Wird c = 1 gesetzt, ergibt sich die Zuordnung nach dem Prinzip der maximalen
Gruppenzugehörigkeitswahrscheinlichkeit. Durch Einsetzen anderer Werte für c
lässt sich die Sensitivität zu Lasten der Spezifität und vice versa beeinflussen. Desgleichen können Multiplikatoren von c herangezogen werden, um Kosten-NutzenÜberlegungen mit einzubinden.
Bei einer Berücksichtigung der Grundraten muss der Likelihood-Quotient anhand
der empirischen Wahrscheinlichkeiten errechnet werden.
4 Regressionstechniken: Durch Einsetzen der individuellen Prädiktionswerte in die
für das anstehende Problem ermittelte Regressionsgleichung werden individuelle
Kriteriumswerte ermittelt. Die Zuordnung zu den Kategorien erfolgt durch Differenzbildung mit kritischen Kriteriumswerten.
xi = Vektor aller Prädiktoren eines Individuums i.
L(x i ) =
Je nach diagnostischer Fragestellung ist einer der vorgenannten Regeln der Vorzug zu
geben.
Die Analyse von Zuordnungsfehlern setzt voraus, dass zuvor eine Zuordnung bereits
stattgefunden hat. Diese kann sich verschiedener Methoden bedienen:
4 Zugehörigkeitswahrscheinlichkeiten: Auf der Basis von Wahrscheinlichkeitstafeln, wie sie Taylor und Russell (1939) erarbeitet haben, erfolgt die Zuordnung zu
derjenigen Klasse, der das Individuum nach Maßgabe der Ausprägung im Prädiktor
mit der größten Wahrscheinlichkeit angehört. Dafür wird der Likelihood-Quotient
herangezogen:
Likelihood-Quotient
Zuordnungsmethoden
Minimum-Loss
Minimax
6
ROC-Kurve:
Unabhängige Bestimmung von Spezifität
und Sensitivität
Cattellsche Formel
Euklidische Distanz
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
2 ⋅ χ 0,5( k )2σ 2 − D2
2 ⋅ χ 0,5( k )2σ 2 + D2
(6.3)
Festsetzung von Testtrennwerten
Je nachdem, zu welchem der Gruppenvergleichsprofile die größere Ähnlichkeit bzw.
geringere Distanz besteht, geschieht die Zuordnung des Einzelfalles.
Allerdings setzt die Berechnung der Distanz D die Unabhängigkeit der Prädiktoren
voraus, die nur in den wenigsten Fällen vorliegen dürfte. Die Mahalanobis-Distanz
als Verallgemeinerung der Euklidischen Distanz verlangt diese Voraussetzung nicht
(zu den Details und Einschränkungen s. Kallus & Janke, 1992).
k = Anzahl der Freiheitsgrade,
σ = Standardabweichung der Profilnormen.
ri =
Desgleichen ist die von Lienert (1989) adaptierte Cattellsche Formel gebräuchlich:
Aus der Beschäftigung mit den positiven Prädiktions- oder Vorhersagewerten bzw.
dem selektiven Eignungsquotienten im vorangegangenen Abschnitt ist bekannt, dass
sich diese Größen durch Verschiebung des Trennwertes vergleichsweise einfach verändern lassen: Je weiter der kritische Cut-off in Richtung auf das zu identifizierende
Merkmal (z. B. Krankheit oder Eignung) hin angehoben wird, um so höher fallen die
besagten Quotienten aus. Allerdings wird damit nur der Fehler einer falsch positiven
Entscheidung (FP, . Abb. 6.9) ins Kalkül gezogen, nicht aber derjenige der falsch negativen. Zudem sind für die Festlegung des Testtrennwertes die Grundrate bzw. der natürliche Eignungsquotient von Bedeutung. Mit Hilfe der sog. ROC-Kurve (von Receiver-Operating Characteristic aus der Signal-Entdeckungs-Theorie; s. Schäfer, 1989)
lassen sich simultan Spezifität und Sensitivität unabhängig von den Basisraten für verschiedene Testtrennwerte bestimmen, sofern aufgrund empirischer Untersuchungen
die Verteilungskennwerte der unterschiedlichen Gruppen ermittelt werden konnten. In
6.5
(6.2)
dj = Profildifferenz von 2 Probanden (oder Gruppen von Merkmalsträgern) in
einem Test.
D = ∑d j 2
gleichbar, nur noch einfacher. Denn durch Einsetzen der individuellen Testwerte in
die Diskriminanzfunktion resultiert ein Wert, der entweder größer, gleich oder
kleiner ist als der kritische Diskriminationswert, der die Klassen voneinander trennt.
Entsprechend kann anhand des individuellen Diskriminationswertes unmittelbar
die Zuordnung zu einer der Gruppen vorgenommen werden.
4 Ähnlichkeits- bzw. Distanzmaße: Häufig wird ein individuelles Testwerteprofil mit
dem durchschnittlichen Profil verschiedener Gruppen von Personen (z. B. Schülern
des sprachlichen oder mathematischen Zweiges; Angehörigen verschiedener Berufe; erfolgreichen und nichterfolgreichen Stelleninhabern usw.) verglichen. Dafür
stehen verschiedene Maße zur Verfügung, z. B. das Ähnlichkeitsmaß (Euklidische
Distanz) von Osgood und Suci (1952):
Verschiebung des Entscheidungskriteriums
408
4 Diskriminanzanalyse: Das Verfahren ist demjenigen der multiplen Regression ver-
6
entscheidungen in die Klassenzuordnungsunterscheidung mit einzubeziehen. Sein
Prinzip besteht darin, das Modell der statistischen Hypothesenprüfung auf die
Klassenzuordnungsentscheidung anzuwenden. In Analogie zur Festlegung des kritischen Wertes der Teststatistik bei der Hypothesenprüfung wird das Entscheidungskriterium so verschoben, dass das Risiko für den Fehler erster Art unterhalb
eines frei bestimmbaren Wertes liegt (z. B. α < 0,05 oder 0,01 usw.). Allerdings
wächst mit der Reduzierung des Fehlers erster Art derjenige zweiter Art, und zwar
in einem unbekannten Ausmaß. Deshalb ist ein solches Modell nur in Situationen
sinnvoll, in denen Fehlentscheidungen zweiter Art vergleichsweise unbedeutend
sind. In der klinischen Diagnostik dürften solche Fehler aber gravierendere Ausmaße aufweisen als diejenigen erster Art (weil die Vorenthaltung einer Behandlung
im Zweifelsfall die Gefahr größerer Fehlentwicklungen beinhaltet als die Vornahme einer überflüssigen Behandlung und die damit möglicherweise einhergehende
Stigmatisierung).
4 Nach dem Minimax-Kriterium wird der maximale Zuordnungsfehler (betrachtet
in allen Klassen) möglichst klein gehalten. Der Betrag des größten Zuordnungsfehlers aller Klassen/Kategorien/Gruppen ist am geringsten.
4 Das Minimum-Loss-Kriterium minimiert die Zuordnungsfehler über alle Klassen
hinweg. Dies kann im Vergleich zum Minimax-Kriterium bedeuten, dass eine Konstellation gewählt wird, bei der ein Zuordnungsfehler einer Kategorie/Klasse/Gruppe im Vergleich zu allen anderen relativ hoch ist.
407
4 Das Neyman-Pearson-Kriterium erlaubt es, unterschiedliche Risiken von Fehl-
6.4 · Entscheidungsfehler
x2
x3
Testwert z. B. IQ
mögliche Cut-off-Werte
x1
Verteilung der
positiven bzw.
geeigneten
Personen
1,0
0,0
b
x3
x2
x1
ROC- Kurve
409
Die engen Beziehungen zur Fairness-Problematik liegen auf der Hand (7 Abschn. 2.3.2.2).
»Die Festsetzung kritischer Trennwerte stellt somit ein Problem dar, für das es eine eindeutige Lösung nicht gibt, weil sie zugleich ein Werturteil erfordert, das nicht allein
wissenschaftlich begründbar ist, sondern stets auch auf persönlichen, sozialen und
ökonomischen Werten sowie auf praktischen Erwägungen beruht« (Wieczerkowski &
Oeveste, 1982, S. 929f.).
. Abb. 6.10a und b ist dafür ein Beispiel gegeben. Auf der Abszisse ist nicht die Spezifität, sondern die Rate Falsch-Positiver (=1-Spezifität) abgetragen.
Wie ersichtlich, geht mit der Heraufsetzung des Testtrennwertes von X1 über X2 nach
X3 ein Rückgang der Fehlerrate vom Typ 1, FP (d. h. eine Zunahme an Spezifität) sowie
eine Zunahme der Fehler vom Typ 2, FN (d. h. eine Abnahme der Sensitivität) einher.
Damit sind die betreffenden Kennwerte zwar »unter einen Hut gebracht«, doch
bedarf es auch in solchen Fällen einer zusätzlichen Bewertung der einzelnen Ausgänge
und Fehlermöglichkeiten, die völlig unabhängig von methodischen Zugängen ist.
Wieczerkowski und Oeveste (1982, S. 929) zitieren ein Beispiel aus der Literatur zum
Zusammenhang zwischen einem Prädiktor und dem Erfolg im Studium. Zwingen etwa
die Kosten für die Ausbildung und knappe öffentliche Gelder dazu, das Risiko des
Scheiterns möglichst niedrig zu halten, würden nur Bewerber zugelassen, bei denen die
Wahrscheinlichkeit für Erfolg bei – sagen wir – 75% liegt; das hätte einen Trennwert
von 112 zur Folge. Sprächen aber gesellschaftliche Werte und pädagogisch relevante
Gründe dafür, den Schülern eine möglichst große Wahlfreiheit einzuräumen, könnte
man sich auch mit einer nur ca. 25%igen Erfolgsaussicht zufrieden geben, was einem
Trennwert von 82 entspräche. Im ersten Entscheidungsfall würde die Zahl fälschlich
zugelassener Schüler verringert, aber der Anteil fälschlich abgewiesener erhöht, im
zweiten der Anteil fälschlich abgewiesener vermindert und die größere Rate fälschlich
zugelassener in Kauf genommen.
1,0
6
Kritische Trennwerte
beinhalten Werturteile
Zusätzliche Bewertung der möglichen
Ausgänge
Komplementäre Veränderung der Fehler
Fehlerrate = 1 - Spezifität
. Abb. 6.10a,b. Verteilungen von 2 Gruppen unterschiedlicher Eignung (a) für die eingetragenen
Optionen möglicher Trennwerte (b) und ROC-Kurve (Aus Noack & Petermann, 1992, S. 300)
a
Verteilung der
negativen bzw.
ungeeigneten
Personen
6.5 · Festsetzung von Testtrennwerten
Sensitivität
6
Strategiematrix
Nutzenfunktionen
Nutzenerwägungen
1
> xiTe
0
0
≤ xiTe
1
≤ 2,5
1
0
0
0
0
0
1
0
.05
.90
.00
.80
.95
.05
.20
.10
–
probabilistisch
+
!d
+b
–c
alternativ
Entscheidungen t
> 2,5
Informationsklassen r
Anmerkung.
a Hohe Schulnoten stehen hier für gute Leistungen.
b + = Akzeptieren (terminal).
c - = Ablehnen (terminal)
d ! = weitere Informationen einholen (investigatorisch).
e x = Testtrennwert.
iT
Intelligenzquotient
Schulnoten
a
Informationsquelle
.00
.05
.80
.10
!
. Tabelle 6.3. Strategiematrix für zwei unterschiedliche Informationsquellen und dichotome
bzw. kontinuierlich abgestufte Entscheidungswahrscheinlichkeiten
Institutionelle und individuelle Entscheidungen werden getroffen, weil sich die jeweiligen Organisationen bzw. Personen im Fall richtiger Entscheidungen etwas davon
versprechen, nicht zuletzt positive ökonomische Auswirkungen, also Gewinne, während bei falschen Entscheidungen die Gefahr von Verlusten droht. So mögen sich für
ein Unternehmen die erheblichen Investitionen für das Auffinden, Abwerben und Einstellen einer fähigen Führungskraft um ein Vielfaches wieder auszahlen, wenn es die
richtige Wahl war. Umgekehrt kann eine krasse Fehlbesetzung an wichtiger Stelle den
Konzern an den Rand des Ruins bringen, wie viele Beispiele aus der Gegenwart anschaulich vor Augen führen. Auch individuelle Entscheidungen für Ausbildung und
Beruf können sich in »Mark und Pfennig« bemerkbar machen, weil bei richtigen Entscheidungen unter sonst gleichen Voraussetzungen ein vergleichsweise höherer Erfolg
als bei falschen zu erwarten steht.
Cronbach und Gleser (1965) haben diese ökonomische Dimension bei institutionellen
Entscheidungen formalisiert und Nutzenfunktionen entwickelt, mit deren Hilfe sich der
Gesamtnutzen einer Entscheidungsstrategie bestimmen lässt. Dafür ist eine sog. Strategiematrix unabdingbare Voraussetzung. In ihr sind die Regeln festgehalten, nach denen
auf der Basis von diagnostischen Informationen Entscheidungen getroffen werden sollen.
Die Werte einer solchen Matrix geben die Wahrscheinlichkeit an, mit der ein Proband,
von dem die Information xr vorliegt, der Behandlung t zugeführt wird: p(t|xr). In . Tab. 6.3
ist ein Beispiel für eine solche Strategiematrix wiedergegeben.
Wie ersichtlich, verlangt die Strategie in der diskreten Formulierung, dass bei überdurchschnittlichen Schulnoten der Proband akzeptiert, bei unterdurchschnittlichen
dagegen weiter untersucht wird. Im Fall der IQ-Testung ist eine solche investigatorische
Entscheidung nicht vorgesehen. Anstelle der imperativen 0/1-Regel sind auch probabilistische Verknüpfungen möglich, wie sie im rechten Teil der Tabelle angegeben sind.
6.6
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
Gewinne bei richtigen
Entscheidungen
410
p(1/2t)
>xiTe
≤xiTe
p(2/2t)
p(2/1t)
.35
.15
.20
p(3/2t)
p(3/1t)
.30
.25
.05
nicht erfolgreich (3)
1.00
.50
.50
Summe
U
ec
= Utility,
= Nutzen der Kriteriumsleistung c,
II
III U = N∑p(x r )∑p(t|x r )∑p(c|x r ,t )ec − N∑p(x r ) ⋅ cr
r
t
c
r IV
I
(6.4)
Darüber hinaus bedarf es einer Verknüpfung zwischen den vorgenommenen Behandlungen und deren Ergebnis, gleichsam dem Erfolg im Kriterium. Diese Verknüpfung wird festgehalten in der sog. Validitätsmatrix. Deren Einträge geben die Wahrscheinlichkeit dafür an, dass ein Proband mit xr und der Behandlung t den Kriteriumswert cr erlangt: p(c|xr,t). Die Kriteriumswerte können im einfachsten Fall dichotome
Kategorien (erfolgreich/nicht erfolgreich; gesund/krank) bilden; möglich sind auch
kontinuierliche Abstufungen. . Tabelle 6.4 gibt ein Beispiel für eine Validitätsmatrix.
Analoge Matrizen müssten auch für die beiden anderen Behandlungen in . Tab. 6.3
angefertigt werden. (Daraus werden bereits die empirischen Schwierigkeiten deutlich,
denn die Abgelehnten kommen möglicherweise auf einem anderen Weg, z. B. in einer
anderen Schule, doch zum Erfolg.)
Schließlich ist es erforderlich, jeder Kriteriumsklasse C einen Nutzenvektor ec und
jeder Informationsklasse einen Kostenvektor cc zuzuordnen. Der Nutzen ist der Wert,
der sich bei jeder Stufe des Kriteriums für die auslesende Institution ergibt; die Kosten
gelten den Aufwendungen, die zur Gewinnung der jeweiligen Information notwendig
sind. Eine erfolgreiche Führungskraft, eingestellt im Alter von 45 Jahren, kann dem
Unternehmen vielleicht 500.000 € wert sein (jährliches Gehalt von 100 000 € mal 20
absehbare Berufsjahre. Vermutlich stellt dieser Ansatz jedoch eine Unterschätzung dar,
weil der Mitarbeiter angeworben wurde, um den Profit des Unternehmens zu mehren,
er also »mehr wert« ist, als es seinem Gehalt entspricht) und eine mäßig erfolgreiche
Kraft vielleicht nur die Hälfte, während ein Versager mit einem Minusbetrag von angenommen 500.000 € zu Buche schlägt.
Wichtig ist, dass Nutzen und Kosten auf derselben Skala abgetragen sein und mindestens Intervallniveau aufweisen müssen. Für monetäre Einheiten, also Geld, sind
diese Erfordernisse erfüllt.
Gestützt auf die Eintragungen in der Strategiematrix und den Validitätsmatrizen
sowie die Werte des Nutzen- und Kostenvektors lässt sich die folgende nichtparametrische Nutzenfunktion aufstellen (nach Crombach & Gleser, 1965, S. 24):
.35
.10
.25
p(1/1t)
Testwerte
weniger erfolgreich (2)
Kriteriumsklassen C
erfolgreich
(1)
Informationsklassen
. Tabelle 6.4. Beispiel einer Validitätsmatrix für die Behandlung tA (Annahme), zwei Informations- und drei Kriteriumsklassen. In den Feldern der Matrix bedingte Wahrscheinlichkeiten für
das Eintreten der Ereignisse
6.6 · Nutzenerwägungen
Voraussetzungen: Intervall-Skalen-Niveau
Vektoren für Nutzen
und Kosten
Validitätsmatrix
411
6
6
Netto-Nutzen
A-priori-Nutzen
Nutzenmodell
von Brodgen
= Wert aus der Validitätsmatrix für die Behandlung t,
= Wert aus der Strategiematrix,
= Wahrscheinlichkeit der Informationsklasse r,
= Kosten für die Einholung der Information r,
= Anzahl der Probanden, auf die die Strategie angewendet wird,
= erwarteter Nutzen eines Individuums im Kriterium, wenn es sich in Informationsklasse r befindet und es der Behandlung t zugeführt wird,
= erwarteter Nutzen eines Individuums in der Informationsklasse r,
= erwarteter Nutzen eines Individuums (= Mittelwert über Kriteriumsklassen, Behandlungen und Informationsklassen),
= erwartete Kosten zur Informationseinholung über einen Probanden.
= durchschnittlicher Nutzen, den ein Proband bei Treatment A (Annahme)
der Institution bringt,
= Streuung der erwarteten Nutzenwerte,
= Korrelation zwischen Prädiktor und (Nutzenunterschieden im) Kriterium, et(A), se, rxe müssen vor der Testanwendung in der Grundgesamtheit bestimmt werden,
= Ordinate der Standardnormalverteilung im (standardisierten) Testtrennwert xiT,
= Selektionsrate beim Trennwert xiT,
= Kosten.
(6.5)
(6.6)
(6.7)
Geteilt durch die Zahl der getesteten Probanden, erhält man den Nettonutzen »per man
tested« (Cronbach & Gleser, 1965, S. 308), also pro untersuchte Person.
Wie aus den Gleichungen hervorgeht, spielen die Validität des Tests, die Variabilität
der Nutzen und die Selektionsquote für den Nutzen eine Rolle; wenn beispielsweise die
Selektionsquote extrem hoch oder niedrig ist, kann auch der Einsatz eines hochvaliden
Tests keinen Nutzen bringen.
U − U o = N ⋅ s e ⋅ rxe ⋅ V( xiT) − NC x
Der Nutzen durch Anwendung des Tests (Nettonutzen) an N Probanden bemisst sich
deshalb als
U o = Nφ( xiT) e t ( A )
Der A-priori-Nutzen ist jener, der daraus resultiert, wenn N · φ(xiT) Personen aus der
Grundgesamtheit durch Zufall ausgewählt werden:
φ(xiT)
C
V(xiT)
se
rxe
et(A)
U = N ⋅ s e ⋅ rxe V( xiT) + N ⋅ φ( xiT) e t ( A ) − NC x
Wenn Nutzen und Kosten mit der Zahl der untersuchten Probanden multipliziert werden, so ergibt die Formel den erwarteten Nettonutzen einer Strategie, insoweit diese
auf eine Gruppe von N Individuen angewendet wird.
Werden für die Informations- und Kriteriumskategorien Kontinuitätsannahmen
gemacht, konstante Kosten für alle Probanden unterstellt und eine lineare Beziehung
zwischen Testwerten und Nutzen angenommen, dann geht das Modell in dasjenige von
Brogden (1949) über. Dessen zentrale Formel lautet:
IV
II
III
p(c|xr,t)
p(t|xr)
p(xr)
cr
N
I
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
Nettonutzen einer
Strategie
412
Zwischenzeitlich sind die geschilderten Modelle unter anderem durch die Berücksichtigung des Zeitfaktors und des Kalkulationszinsfußes sowie den Einfluss der Gewinnsteuern und die Diskontierung für sofort anfallende Kosten präzisiert worden
(s. die Übersicht bei Boudreau, 1991). Auch sind wesentliche Fortschritte erzielt worden bei der Methodik zur Bestimmung der Leistungsstreuung.
Die Voraussetzung des linearen Zusammenhanges zwischen Prädiktor und Nutzen
wird vielfach nicht erfüllt sein. Etwa ist denkbar, dass an Probanden gewisse Mindestanforderungen gestellt werden müssen, d. h. erst ab einem bestimmten Testwert steigt die
Regressionsgerade sprunghaft an. Auch sind Gegebenheiten leicht vorstellbar, bei denen eine umgekehrt U-förmige Regressionslinie besteht, weil vielleicht die im Test besonders leistungsfähigen Probanden durch die auszuführende Tätigkeit unterfordert
werden und deshalb mäßigere Kriteriumsleistungen erbringen. Abgesehen von diesen
spezifischen Gesichtspunkten bereitet es größte Schwierigkeiten, die Werte für die Validitätsmatrizen zu erhalten, denn es darf für deren Bestimmung keine vorherige Selektion gemäß der Entscheidungsstrategie vorgenommen worden sein, oder mit anderen
Worten: Die in Betracht kommenden Personen hätten (nach Zufall) auf die vorhandenen Treatments aufgeteilt und längsschnittlich begleitet werden müssen, um die Erfolgsraten adäquat ermitteln zu können.
Neben diesem Grundsatzproblem stellt sich die Bestimmung der Geldwertäquivalente als vergleichsweise einfach dar. Zumindest die Kosten scheinen hier auf den ersten
Blick in den Griff zu bekommen sein (. Abb. 6.11), weil leicht zu eruieren ist, was man
für den Test selbst sowie für dessen Administration und Auswertung bezahlen muss.
Korrekterweise müssten allerdings auch die Aufwendungen für die Entwicklung eines
Verfahrens und die Ausbildung des Diagnostikers umgelegt werden. Schwerer zu beziffern ist dagegen der Verlust, der bei (richtiger oder fälschlicher) Abweisung entsteht.
Cronbach und Gleser (1965, S. 36 ff.) stellen im Hinblick darauf lapidar fest:
6.6 · Nutzenerwägungen
6
. Abb. 6.11. Die praktischen und finanziellen Konsequenzen einer »Fehlbesetzung« von verantwortungsvollen Positionen können
beträchtlich sein
Bestimmung der
Geldwertäquivalente
Linearität des
Zusammenhanges
413
6
Kalkulation der
Nutzenwerte
Kostensenkung durch
Psychotherapie
Dies ist ein sehr einfacher Ansatz, der der bisherigen Praxis in Institutionen allerdings
wohl noch am besten gerecht wird. Betriebswirtschaftlich müsste man von Opportunitätskosten sprechen im Sinne eines dadurch entgangenen Gewinns, dass ein geeigneter Bewerber fälschlicherweise nicht angenommen worden ist.
Für den Bildungsbereich und auch für therapeutische Zwecke ist eine direkte
Übertragung eines solchen Ansatzes, der die institutionelle Perspektive verfolgt, nicht
prinzipiell ausgeschlossen, selbst wenn weiterhin eine angemessene Berücksichtigung
auch der individuellen Kosten und Nutzen in den Modellen nicht geleistet wird. In
gewissen Grenzen müssen zudem individuelle Verluste als gesellschaftliche Kosten
verstanden werden, weil in einem Sozialstaat der Einzelne nicht einfach seinem Schicksal überlassen bleibt, auch wenn er von einer oder mehreren Institutionen abgewiesen
wurde. In einem solchen Sinne und unter Heranziehung von Anhaltspunkten über die
Effektivität eines Trainings bzw. die relative Wirksamkeit einer Behandlung konnte
gezeigt werden, dass sich durch psychotherapeutische Intervention bei Alkoholismus,
bei Asthma bronchiale, Angst- und Panikattacken sowie psychosomatischen Störungen
die Kosten, die anderenfalls durch Inanspruchnahme von stationären medizinischen
Diensten, Arbeitsunfähigkeit und Frühberentung entstanden wären, in ganz erheblicher Weise senken ließen (7 die Übersicht bei Amelang, 1999).
Die Kalkulation der Nutzenwerte ist bei elementaren Leistungen (wie z. B. Stückzahlen im Akkord oder am Fließband) noch vergleichsweise einfach, bereitet aber auch
bei komplexeren Tätigkeiten keine unüberwindlichen Schwierigkeiten. So war in der
Studie von Brandstätter (1970) die durchschnittliche Gesamtleistung der nach Schulzeugnis und psychologischen Tests ausgewählten Rechtspfleger um ca. 16.000 DM
nützlicher als die Durchschnittsleistung der nur nach dem Schulzeugnis ausgewählten
Bewerber - doch orientierte sich die Untersuchung am Erfolg in der Ausbildung und
nicht demjenigen in der beruflichen Praxis. Gösslbauer (1981) beziffert den Nutzen der
Auswahl für Studienplätze auf den negativen Betrag von U = –115.700.000 DM. Demgegenüber erzielte ein biographischer Fragebogen, der zur Auswahl von Mitarbeitern
einer Versicherungsgesellschaft benutzt wurde und eine inkrementelle Validität von
nur r = .18 im Vergleich zu den Daten aus den Bewerbungsunterlagen und Erstgesprächen aufwies, für 3 Anwendungsperioden und 4 Jahre Wirkung einer Anwendung einen Netto-Barwert-Nutzen von nicht weniger als einer halben Million DM; das Verhältnis von Kosten zu Erträgen lag bei 1:5 (s. Barthel & Schuler, 1989). Für ein neues
Auswahlverfahren in Forschung und Entwicklung ermittelten Schuler, Funke, Moser
und Donat (1995) selbst unter der Annahme ungünstigster Bedingungen (Durchführung nur eines Assessment Centers pro Jahr mit 10 Bewerbern, von denen die Hälfte
angenommen würde; inkrementelle Validität r = .20) noch einen Gewinn von nahezu
100.000 DM für das Unternehmen. Weitere Anwendungsbeispiele finden sich bei
Weinstein und Fineberg (1980). Hunter und Schmidt (1992) haben die beträchtlichen
Auswirkungen auf die Produktivität einer ganzen Nation herausgestellt, wenn die Arbeitsplätze auf den unterschiedlichen Ebenen der Beschäftigungshierarchien nach Gesichtspunkten einer optimierten Platzierung vergeben werden.
Ein anderer Ansatz zur Schätzung des Nutzens bezieht sich nicht auf die Parameter
der Cronbach- und Gleser-Gleichungen, sondern geht von einer durchschnittlichen
volkswirtschaftlichen Wertschöpfung jedes unselbstständig Beschäftigten von ca.
»Die Entscheidung, einen Bewerber zurückzuweisen, bedeutet meist, dass er keinen
weiteren Kontakt mit der Institution hat. Wir können daher das Ergebnis einer solchen
Entscheidung so betrachten, als habe es einen Wert von Null.«
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
Individuelle und
gesellschaftliche
Kosten und Nutzen
414
Abschließende Bemerkungen
Entscheidungstheoretische Prinzipien haben in der psychologischen Praxis bislang
keine breite Anwendung erfahren. Das liegt unter anderem daran, dass beispielsweise
im klinisch-therapeutischen Alltag, z. T. aber auch im Bildungswesen - abgesehen von
Grobkategorien wie Gesprächs- oder Verhaltenstherapie, ambulant oder stationär vorgenommene Behandlungen usw. - keine klar abgrenzbaren Treatments vorliegen. Die
einzelnen Behandlungen können zudem in der Interaktion von Therapeut und Klient
individuell abgewandelt werden, so dass es eine unüberschaubare Zahl von Interventionsmöglichkeiten gibt, für die die Erfolgschancen im einzelnen unmöglich ermittelt
werden können. Gleiches gilt für die noch vorgeordnete Problematik einer Quantifizierung bedingter Wahrscheinlichkeiten für die Zugehörigkeit zu einzelnen Klassen. Angesichts dieser grundsätzlichen Probleme verlassen sich viele Praktiker bei der Bewältigung der einzelnen Fälle auf ihre »Erfahrung« und verschreiben sich somit mehr den
sog. klinischen als den statistischen Verfahrensweisen.
Ein Ansatz, dabei wenigstens Nutzenerwägungen praktisch umsetzen zu können, besteht in der sog. MAUT-Technik (Multi-Attributive Utility-Technique; s. Slovic
et al., 1977). Dabei werden alle bedeutsam erscheinenden Aspekte von Nutzen (und
nicht nur der ökonomische) zunächst generiert und im Hinblick auf ihre Wichtigkeit
eingeschätzt. Das Produkt aus relativer Wichtigkeit eines Aspektes und aus dem Nutzen der Alternativen für diesen Aspekt wird für jede Behandlungsalternative errechnet. Der höchste Wert gibt den Ausschlag dafür, welche Intervention angewendet
wird.
6.7
Insgesamt handelt es sich bei den Nutzenfunktionen um einen eminent wichtigen
Beitrag, der die psychologische Diagnostik um die ökonomische Dimension erweitert. Sie wird in einer Zeit zunehmenden Wettbewerbes in allen Bereichen menschlichen Handelns eine weiter wachsende Bedeutung erfahren. So überzeugend die
vorgetragenen Überlegungen und Modelle auch sind, wirft die konkrete Ermittlung
der relevanten Parameter doch schwierige Fragen auf. Deren Beantwortung geschieht in weitem Maße auf höchst unsicherer Grundlage, so dass es sich bei dem
Gewinn an Präzision durch Anwendung der Formeln partiell um eine nur scheinbare
Genauigkeit handelt. Davon abgesehen lenken die Modelle von Cronbach und Gleser (1965) den Blick auf die Notwendigkeit, dass sich psychologische Diagnostik im
weitesten Sinne auch »rechnen« lassen muss. Dabei ist es aber dringend geboten,
die institutionelle Perspektive durch die individuelle zu ergänzen.
Fazit
60.000 DM aus. Nimmt man nur eine Leistungssteigerung von 5% durch den Einsatz
psychologischer Diagnostik an (eine Marge, die unschwer zu erreichen sein dürfte), so
ergibt sich daraus ein Nutzen von 3.000 DM pro Besetzungsentscheidung und Jahr oder
– für den Fall einer 10jährigen Verweildauer auf der neuen Position – von 30.000 DM für
jeden psychodiagnostisch ausgewählten Mitarbeiter. Davon müssen zwar die Investitionen und die Kapitalverzinsung eines Unternehmens für die Anstellung eines Psychologen
sowie die für dessen Arbeit notwendigen zusätzlichen Ressourcen abgezogen werden,
doch verbleibt immer noch ein Netto-Überschuss in zweistelliger Milliardenhöhe für die
Volkswirtschaft durch psychodiagnostische Eignungsauswahl (Wottawa, 1997).
6.7 · Abschließende Bemerkungen
6
MAUT-Technik
Entscheidungstheoretische Prinzipien bisher
kaum angewandt
Erwiesener Nutzen von
psychodiagnostischer
Eignungsauswahl für
Volkswirtschaft
415
(S.432-438)
Bindung von kriteriumsirrelevanter
Prädiktorenvarianz: Suppression
(S.427-430)
Moderation: Identifikation von Personengruppen
mit einer besonders hohen Vorhersagbarkeit
(S.420-427)
Kontextuelle Faktoren
und technische Verbesserungen
Probleme und Differenzierungen
von Prognosen
7
Beispiel: Extravertiertes Verhalten unter
hohem vs. niedrigem
situativem Druck
Auslesesituation:
Konformes Verhalten
angeregt
Projektive Tests:
Individuelles Verhalten
angeregt
Kontextuale Faktoren und technische Verbesserungen
Bei projektiven Tests, wie den Klecksbildern von Rorschach (o.J.), den Bildern des
Thematischen Apperzeptionstests von Murray (1936) oder den Aufnahmen des FotoHandtests von Belschner (1970), sind bereits die Wahrnehmungsvorlagen unbestimmt
oder unscharf, um auf diese Weise den Probanden einen höchstmöglichen Spielraum
für ihre persönlichkeitseigene »Deutung« einzuräumen. Umgekehrt üben Konkurrenz- und Auslesesituationen für die Beantwortung von Persönlichkeitsfragebogen
offenkundig einen so massiven Druck im Hinblick auf die Abgabe sozial erwünschter
Antworten aus, dass die Testwerte für die ins Auge gefassten Ziele unbrauchbar sind.
(In dieser Hinsicht sind Leistungstests den Persönlichkeitsfragebogen grundsätzlich
überlegen: Man kann darin nicht »nach oben« schwindeln, d. h. einen fähigeren Eindruck erwecken, als es aufgrund der individuellen Kompetenzen möglich ist.)
Monson et al. (1982) sind diesem Aspekt gezielt nachgegangen. In 2 experimentell
realisierten Bedingungen bestand für die Versuchspersonen ein hoher situativer Druck
in Richtung auf extravertiertes bzw. introvertiertes Verhalten; eine dritte Situation war
diesbezüglich neutral. Mit der von unabhängigen Beurteilern eingeschätzten Gesprächigkeit der Versuchspersonen während der experimentellen Aufgabe korrelierten die
präexperimentell (also unter diagnostischen Standardbedingungen) erhobenen Extraversionswerte numerisch nur unter jener Situation befriedigend und signifikant (r=.56
gegenüber .18 und .38), die für die Versuchspersonen unbestimmt und mehrdeutig war.
Dieser Effekt war, wie nicht anders zu erwarten, hauptsächlich durch die zwangsbedingt
verminderte Streuung der Kriteriumswerte verursacht. In einer zweiten Studie der Autoren fungierten insgesamt 4 Papier- und Bleistiftszenarien als Kriterien, zu denen die
Versuchspersonen ihre wahrscheinlichste Verhaltensweise angeben mussten. So sollten
sich die Probanden vorstellen, an ihrer Universität, an der sie gerade neu eingeschrieben
ten zu zeigen, schwinden traitgeleitete individuelle Verhaltensunterschiede.
! Besteht in einer gegebenen Situation ein hoher Druck, ein bestimmtes Verhal-
Bestimmte Situationen engen den Verhaltensspielraum in einem Maße ein, dass interindividuelle Unterschiede nahezu verschwinden. Damit aber droht der Ansatz sinnfrei
zu werden, auf der Basis von Eigenschaftsmaßen Vorhersagen und Varianzaufklärung
vornehmen zu wollen. So stellt z. B. Rotlicht bei Verkehrsampeln für alle Kraftfahrer
einen »starken« Stimulus mit hohem Uniformitätsdruck dar. Ähnlich verhält es sich mit
dem Erscheinen des Pfarrers in der Kirche oder dem Heben des Taktstocks durch den
Dirigenten, was i. Allg. alle Unterhaltungen binnen kurzem verstummen lässt. Diese
Erwartung konformer Verhaltensweisen kann auch zum Konzept von prototypischen
Situationen gewendet bzw. verallgemeinert werden (s. Schutte et al., 1985), die ganz
spezifische Verhaltensmuster nahelegen bzw. mit unterschiedlich starkem Nachdruck
verlangen (. Abb. 7.1a–c). Wenn dabei allerdings der situative Druck soweit geht, traitgeleitete Unterschiede in Handlungstendenzen obsolet zu machen (Stagner, 1977),
schwindet die individuelle Variabilität und damit die Aussicht, diese durch Testmaße
aufklären zu können. Vielmehr verlangt der eigenschaftstheoretische Ansatz außerhalb
des Leistungsbereiches zwingend solche Situationen, die eher schwach oder uneindeutig strukturiert sind und für verschiedene Individuen eine unterschiedliche Bedeutung
aufweisen. Diese Forderung gilt gleichermaßen für die Erhebung von Prädiktor- wie
von Kriteriumsmaßen.
7.1.1 Verhaltensvariabilität
7.1
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Situativer Druck
führt zu Verhaltenskonformität
420
c
a
b
7.1 · Kontextuale Faktoren und technische Verbesserungen
7
. Abb. 7.1a–c. Intraindividuelle Variabilität erklärt
sich häufig als Folge veränderter situativer Anforderungen(a, b). Mitunter
verlangt der situative Kontext interindividuelle Uniformität des Verhaltens (c)
421
7
. Abb. 7.2. Mittlere Korrelation zwischen einem
Punktwert im Verhaltensprätest und (selbstberichteten)
»Kriteriumsmaßen« als Funktion des Kriteriumsumfanges (1, 2, 3 oder 4 Szenarien)
und der Wahrscheinlichkeit,
eine vorhersagbare (nicht
durch Druck gekennzeichnete) Situation zu enthalten
1
2
3
4
Alle Kriterien
Kriterien, die mindestens
eine vorhersagbare
Situation enthalten
Umfang des Kriteriums (aggregierte Verhaltensszenarien)
Kriterien, die keine
vorhersagbare Situation
enthalten
.00
0.1
0.2
0.3
0.4
0.5
seien, wäre eine »get acquainted-party« für den Samstagabend anberaumt worden. Sie
hätten bis dahin noch kaum eine Gelegenheit gehabt, die Bekanntschaft anderer Leute
zu machen, und diese Veranstaltung böte die Chance, gleich viele auf einmal kennenzulernen. Druck in Richtung auf extra- und introvertiertes Verhalten wurde dadurch
erzeugt, dass Zusatzinformationen gegeben wurden wie: die meisten anderen Kommilitonen würden einen ermutigt haben, zur Party zu gehen, der nach wie vor begehrte
Ex-Partner würde die Veranstaltung ebenfalls besuchen, bzw. dass der Besuch der Party mit den Verpflichtungen des Studiums kollidieren oder die Wahrnehmung eines
Teilzeitjobs unmöglich machen würde.
Im Mittel der 4 Szenarios korrelierten die unbeeinflusst erhobenen Extraversionstestwerte mit dem Verhalten unter schwachem Druck zu r = .42, mit dem unter starkem
Druck geäußerten (Kriteriums-)Verhalten zu r = .12, was insofern die früheren Resultate bestätigte bzw. weiter differenzierte. Zusätzlich bedeutsam war die Frage, wie die
Kombination der Szenarios zu unterschiedlich großen »Aggregaten« (7 7.1.3) die Validität beeinflussen würde. Die Resultate sind in . Abb. 7.2 zusammengestellt.
Wie die Resultate lehren, beeinflusst die Zahl der situativen Zusatzinformationen
mit den jeweils gewählten Verhaltensweisen, die in ein Kriterium eingehen, nicht wesentlich die Korrelation (»Validität«), wenn die Wahrscheinlichkeit konstant gehalten
wird, dass im Kriterium eine vorhersagbare und damit nicht durch Druck gekennzeichnete Situation enthalten ist. Sofern die Wahrscheinlichkeit für das Vorhandensein einer
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Einfluss des Kriteriumsumfanges auf die
Validität von Verhaltenstests
422
Durchschnittliche Korrelationen
In einer zwischenzeitlich sehr bekannt gewordenen Untersuchung haben Pryor et al.
(1977) das Ausmaß von selbstzentrierter Aufmerksamkeit dadurch erhöht, dass ein
Teil der Probanden beim Ausfüllen von inhaltsvaliden Tests zur Soziabilität einen Spiegel
vor sich auf dem Tisch stehen hatte (. Abb. 7.3). Gegenüber einem wenige Tage später
erhobenen Verhaltensmaß zur Soziabilität (Kombination aus Fremdrating und Zahl von
Worten in einer Wartesituation) korrelierten die unter den üblichen Bedingungen gelieferten Fragebogenpunktwerte nur gering (r = .16). Hingegen war die Korrelation für die
Probanden hoch (r = .62; Differenz signifikant), die während der ersten Sitzung mit einem Spiegel konfrontiert waren. »Die Induktion selbstzentrierter Aufmerksamkeit
scheint also bei einem inhaltsvaliden Messverfahren ein Instrument zu sein, die Vorhersagevalidität eines Selbstberichtes zu erhöhen« (Wicklund, 1977, S. 402).
Weitere Experimente haben entsprechende Resultate auch zu anderen Eigenschaftsdimensionen erbracht (u. a. Wicklund, 1982). Solche Befunde nähren den Verdacht,
dass die üblicherweise für Fragebogen gegebene Instruktion, bei der Beantwortung
»nicht lange nachzudenken«, einen folgenschweren Missgriff darstellt. Damit hoffen
Testautoren implizit, Überlegungen auf Seiten der Probanden, welche Antwort sie in
einem günstigeren Licht erscheinen lassen würde, abzukürzen. Aber vieles spricht da-
7.1.2 Aktuelle Selbstaufmerksamkeit
Sofern es nicht um Leistungen geht, müssen die kontextualen Rahmenbedingungen sowohl bei der Erhebung der Prädiktor- als auch derjenigen der Kriterienwerte
von einer Art sein, die individuelle Unterschiede in der Häufigkeit, der Intensität und
dem Stil des Verhaltens hervortreten lässt. Nur unter diesen Voraussetzungen ist es
sinnvoll, mit Hilfe des eigenschaftstheoretischen Ansatzes Varianzaufklärung bzw.
Verhaltensvorhersagen vornehmen zu wollen. Hilfreich ist die zusätzliche Erfassung
der subjektiven Besonderheiten bei der Wahrnehmung und Verarbeitung der Informationen über die Anforderungsmerkmale einer Situation.
Fazit
vorhersagbaren Situation 1.0 beträgt (7 obere Linie in Abb. 7.2), verändert sich die Korrelation nicht bedeutsam mit einer Zunahme im Umfang des Kriteriums. Gleiches gilt,
wenn die besagte Wahrscheinlichkeit .00 beträgt (untere Linie), das Verhalten also in
allen Szenarien durch hohen situativen Druck beeinflusst wird. Variiert jedoch die
Wahrscheinlichkeit für vorhersagbare Situationen, stellt sich die typische Beziehung
zwischen Höhe der Korrelation und Umfang des Kriteriums ein.
Aber auch stark einengende Situationsfaktoren mögen individuell verschieden aufgenommen und interpretiert werden. Deshalb ist eine Berücksichtigung der als Mediatoren zwischen Persönlichkeitseigenschaften und konkreten Verhaltensweisen fungierenden individuellen Perzeptionen und Kognitionen zweckmässig. Mischel (1977)
hat vorgeschlagen, das individuelle Kategorisierungsverhalten von Situationen festzuhalten, ferner die Erwartungen, die durch bestimmte Situationen geweckt und im Hinblick auf antizipierte Handlungsfolgen gehegt werden. Soweit hier allgemeinere Strategien für Klassen von Situationen ausfindig gemacht werden könnten, ist eine Operationalisierung vergleichbar mit derjenigen zu den generalisierten Erwartungen Rotters
(1954) (internale vs. externale Bekräftigungsüberzeugung, zwischenmenschliches Vertrauen) naheliegend.
7.1 · Kontextuale Faktoren und technische Verbesserungen
7
Bedenkzeit bei
Fragebogen durchaus
sinnvoll
Selbstaufmerksamkeit
erhöht Validität von
Selbstberichten
Berücksichtigung individueller Perzeptionen
und Kognitionen
423
7
Aggregation von
Kriteriumsverhalten
Reliabilitätsverbesserung auf Prädiktorenseite
Die Prinzipien der Reliabilitätsverbesserung durch Verlängerung von Skalen sind seit
Spearman-Brown (7 2.1.1.4) allgemein bekannt. Sie wurden auf die verschiedensten
Prädiktoren ganz selbstverständlich immer wieder angewendet. Es bedurfte jedoch des
Beitrages von Epstein (1979), um deren Effektivität auch auf der Seite der Kriterien
drastisch vor Augen zu führen: Wurde die Stabilität des vorherzusagenden Verhaltens
durch Aggregation (d. h. durch Mittelung prinzipiell ein und desselben Verhaltens
über mehrere Beobachtungszeitpunkte) auf ein akzeptables Niveau gehoben, stellten
sich bei einigen Skalen Test-Kriteriums-Korrelationen um rtc = .40 bis .50 ein – aber nur
unter eben den besagten Bedingungen (= Reliabilitätserhöhung durch Aggregation
über »occasions« mit indirekten Auswirkungen auf die Validität). Eine substantielle
7.1.3 Aggregation von Maßen
! Die Validität von Selbstbeschreibungen kann durch Induktion erhöhter
Selbstaufmerksamkeit während der Testsituation gesteigert werden.
für, dass gerade Antworten im Sinne sozialer Erwünschtheit sehr rasch gegeben werden
können, sodass im Zweifelsfall durch die Tempobetonung eher reflektive Gedanken
über die eigene Persönlichkeit unterbunden werden, was die Validität der Selbstbeschreibung beeinträchtigen müsste.
Auch wenn bislang bei einer Variation der Instruktion »spontanes Antworten« vs.
»genaues Überlegen« nur Mittelwertsunterschiede, aber keine Validitätsdifferenzen
gefunden wurden (s. Krämer & Schneider, 1987, deren Stichprobenumfänge allerdings
für die zufallskritische Absicherung von Korrelationsunterschieden viel zu klein waren), kann für die psychodiagnostische Praxis eine sinnvolle Empfehlung nur darin
bestehen, durch geeignete Massnahmen, wie z. B. ein einführendes Gespräch oder eine
ausführlichere Exploration, situative Rahmenbedingungen dafür zu schaffen, dass die
Testperson sich selbst in möglichst adäquater Weise beschreiben kann.
Kapitel 7 · Probleme und Differenzierungen von Prognosen
. Abb. 7.3. Eine erhöhte
Selbstaufmerksamkeit kann
die Validität von Selbstbeschreibungen erhöhen
424
1
Geleitet von verschiedenen Techniken der Validitätserhöhung und der dabei erzielten Erfolge sind
noch folgende Wendungen in der Literatur gebraucht worden: »Predicting more of the people
more of the time« (Bem & Funder, 1978), »On predicting most of the people much of the time« (Epstein, 1979), »Vorhersagen für einige Personen in vielen Merkmalen« (Amelang & Borkenau, 1981a)
und »Vorhersagen für einige Personen in einigen Dimensionen« (Borkenau & Amelang, 1983), doch
ein Beitrag etwa des Inhalts »Predicting all of the people all of the time« ist noch in Vorbereitung
(Bem & Funder, 1978).
Ein durchgängiger Argumentationsstrang der bisherigen Ausführungen ging dahin,
dass durch Erhöhung der Reliabilität im Prädiktor und/oder Kriterium im Regelfall auch
Validitätsgewinne zu erwarten sind, und zwar unbeschadet der Prinzipien des sog. »Verdünnungsparadoxons« (zur Wechselbeziehung zwischen Reliabilität und Validität
7.1.4 Validität ohne Stabilität
! Reliabilitätserhöhungen durch Aggregation über Beobachtungszeitpunkte,
Verhaltensweisen und Situationen können zu einer substantiellen Erhöhung
der Validität führen.
Erhöhung der Validität lässt sich auch erzielen, wenn auf seiten der Prädiktoren und/
oder Kriterien über »modes« aggregiert wird. So fasste beispielsweise Moskowitz (1982)
Verhaltensweisen wie Kommandieren, Nahelegen, Drohen u. Ä. zu »multiple referents«
für Dominanz als der einen Dimension und Hilfesuchen, Berühren, Aufmerksamkeit
heischen etc. für Abhängigkeit als einer anderen Dimension zusammen. Mit diesen
durch mehrere Indikatoren repräsentierten Traitmaßen korrelierten die Einzelindizes
wesentlich höher als paarweise untereinander. Im Grunde entspricht das einer Berechnung von Trennschärfekoeffizienten bzw. Iteminterkorrelationen. Dabei ist im vorliegenden Fall die für Persönlichkeitsfragebogen (also: selbstberichtetes Verhalten) wiederkehrend angestellte Beobachtung auch auf fremdbeobachtetes Verhalten übertragbar: Sogenannte »single acts« in Form einzelner Verhaltensweisen, selbst- oder
fremdeingeschätzt, korrelieren infolge ihrer geringen Stabilität und hohen Spezifität
nur relativ niedrig miteinander, hingegen vergleichsweise hoch mit dem »Aggregat«
oder »Konglomerat« anderer für das Konstrukt einschlägiger Verhaltensweisen. Die
Summierung über verschiedene Verhaltensweisen bewirkt nicht nur eine Erhöhung der
Reliabilität, sondern auch eine solche der Heterogenität und inhaltlichen Breite, mit der
Folge höherer Validitäten und transsituativer Verhaltenskonsistenzen. Diese Regeln
standen auch bei der Entwicklung der Multiple Act Criteria (Fishbein & Ajzen, 1974)
sowie einer Multiple Act Criterion Scale (Jaccard, 1974) Pate.
Schließlich kommt noch die Aggregation über Situationen in Betracht. Bei einer
Klumpung von Verhaltensstichproben aus verschiedenen Situationen konnte Moskowitz
(1982) die transsituative Konsistenz der Maße für Dominanz beträchtlich erhöhen. »The
strategy used in this study (provided) average predictions of moderate accuracy for many
people« bemerkt Moskowitz (1982, S. 765) in Abwandlung des bekannten Titels der Arbeit von Bem und Allen (1974): »On predicting some of the people some of the time.«1)
Wie Schwenkmezger (1984) allerdings feststellt, ist die Aggregation über Situationen nur sinnvoll, wenn das Durchschnittsverhalten in einer Klasse von ähnlichen Situationen interessiert; hier kann durch Reduktion des Messfehlers die Vorhersagegenauigkeit erhöht werden. Steht hingegen die Reaktion von Individuen in ganz spezifischen Situationen im Vordergrund des Interesses, verdeckt eine solche Aggregation
eher die situationsspezifischen Varianzanteile.
7.1 · Kontextuale Faktoren und technische Verbesserungen
7
Aggregation über
Situationen
Erhöhung von Reliabilität, Heterogenität
und inhaltlicher Breite
Validitätserhöhung
durch multipel
repräsentierte TraitDimensionen
425
7
. Abb. 7.4. Schwankungen
der Messwerte von 4 hypothetischen Probanden um
einen gemeinsamen Mittelwert. ----/––– denkbare
Schwellen (Aus Wottawa &
Hossiep, 1987, S. 14)
Andere Indizes zur Reliabilitätsbestimmung
6
Die referierten Untersuchungen belegen an inhaltlichen Beispielen die Prinzipien,
die bereits in allgemeiner Form unter den methodischen Gesichtspunkten (7 oben
die Ausführungen zur Reliabilität) behandelt wurden. Sie zeigen, dass für eine Reliabilitätserhöhung primär eine Aggregation von (ein und demselben) Verhalten über
Fazit
7 Abschn. 2.3.3). Nun sind aber Fälle denkbar, für die hohe Reliabilitätsanforderungen
im Sinne von Reteststabilitäten dysfunktional oder abwegig sind, weil diese dem spezifischen Anspruch, sensitiv auf Änderungen anzusprechen, nachgerade entgegenstehen.
Dieses trifft auf die Verfahren zur Erfassung von States zu. Gerade weil sich die aktuellen
Zustände durch eine gewisse Flüchtigkeit, also Instabilität auszeichnen, kann hier die
Retestung kein angemessener Zugang zur Abschätzung der Stabilität sein. Generell gilt
das für alle Fälle, in denen der wahre Wert nennenswerte Oszillationen aufweist, wie es
z. B. auch für Schwankungen der Aufmerksamkeit unterstellt werden kann. Wottawa
und Hossiep (1987) haben dies, wie es in . Abb. 7.4 zu sehen ist, veranschaulicht.
Das Beispiel ist so gewählt, dass die 4 Probanden zwar denselben Mittelwert aufweisen, aber mit unterschiedlicher Wellenlänge um das mittlere Niveau oszillieren. Es ergibt
sich eine Nullstabilität, wenn 2 beliebige Zeitpunkte herausgegriffen und miteinander in
korrelative Beziehung gesetzt werden, obwohl die Muster der Schwankungen für sich
idealtypisch stabil sind. In solchen Fällen, in denen also die herkömmlichen Reliabilitätsschätzungen als Anteil der wahren an der Messwertevarianz versagen, müssen andere
Indizes gewählt werden. Einfach wäre es, für das in der Abbildung gewählte Beispiel die
jeweils höchste Amplitude während eines längeren Beobachtungsausschnittes zu wählen
(was zu 2 unterschiedlichen Scores führt) und 2 derartige Messstrecken miteinander
zu vergleichen. Aufwändiger sind Verfahren wie die Fourier-Analysen, bei denen
die beobachtbaren Schwankungen spektralanalytisch, d. h. in Anteile von Frequenzbändern zerlegt werden, was in der EEG-Forschung eine der Standardtechniken darstellt.
Eine Übersicht der Kennwerte zur Charakterisierung derartiger Modelle gibt u. a. Sammer (1994).
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Änderungssensitivität
bei der Erfassung von
States
426
427
7
Moderation: Identifikation von Personengruppen mit einer
besonders hohen Vorhersagbarkeit
Moderatorvariablen:
Einfluss auf die
Validität
Leistungsbereichs nach Testsituationen, die eher schwach oder uneindeutig strukturiert sind und durch verschiedene Individuen mit verschiedenen Bedeutungen ausgefüllt werden. Werden traitgeleitete Unterschiede in Handlungstendenzen durch situativen Druck obsolet
gemacht, sinkt die individuelle Variabilität und damit die Vorhersagemöglichkeit durch einen Testwert.
Ad 2. Pryor et al. (1977) stellten einem Teil der Probanden (Versuchsgruppe) beim Ausfüllen eines inhaltsvaliden Fragebogens zur Soziabilität einen Spiegel auf den Tisch, in dem sie sich selber sehen konnten.
Gegenüber einem wenige Tage später erhobenen Verhaltensmaß zur
Soziabilität erwies sich die Vorhersagevalidität (Korrelation der Fragebogenwerte mit dem Verhaltensmaß) in der Versuchsgruppe als sehr
viel höher als in der Kontrollgruppe, deren Selbstaufmerksamkeit nicht
gezielt erhöht worden war.
Ad 3. Wenn das Durchschnittsverhalten von Individuen in einer Klasse von ähnlichen Situationen interessiert; nicht jedoch, wenn die Reaktion von Individuen in ganz spezifischen Situationen im Vordergrund
steht.
! Ad 1. Der eigenschaftstheoretische Ansatz verlangt außerhalb des
Erstmals ist es Ghiselli (1963) gelungen, ein gesondertes Testverfahren zu konstruieren,
nach dessen Punktwert entschieden werden konnte, für welche Probanden in einer
Stichprobe von Taxifahrern (aus deren Punktwerten in Leistungstests) Vorhersagen
über das Ausmaß der allgemeinen Fahrtauglichkeit möglich waren und für welche
nicht. Der fragliche Teil war damit ein Test zur individuellen Prognostizierbarkeit,
weil er mit der Differenz zwischen den jeweils standardisierten Leistungspunktwerten
und den Kriteriumswerten für Fahreignung oder, was dasselbe ist: Mit dem Zusammenhang zwischen diesen beiden Messwertreihen korrelierte.
Seitdem hat es an Bemühungen zum Auffinden solcher Moderatorskalen, die also
mit der Validität korrelieren, nicht gefehlt. Häufig waren die Befunde jedoch nicht
replizierbar, was u. a. daran liegt, dass teils die Suche nach Moderatoren vorwiegend
7.2
3. Wann ist die Aggregation
von Verhaltensweisen über
Situationen zur Erhöhung
der Validität sinnvoll?
sind an Testsituationen zu
stellen, wenn mit Hilfe des
eigenschaftstheoretischen
Ansatzes Verhaltensvorhersagen gemacht werden
sollen?
2. Wodurch wurde in der Untersuchung von Pryor et al.
(1977) selbstzentrierte Aufmerksamkeit erzeugt und
welche Auswirkungen
hatte sie auf die Vorhersagevalidität?
? 1. Welche Anforderungen
Übungsfragen
(zu Abschn. 7.1)
verschiedene Zeitpunkte ein probates Mittel darstellt. Teils als Konsequenz davon,
teils durch die zusätzliche Aufnahme anderer Verhaltensweisen im Prädiktor sowie
im Kriterium bietet die Aggregation über Modes die Aussicht auf eine zusätzliche
Steigerung der Validität. Erfolgt zudem eine Aggregation über Situationen, so wird
dieses die Validität gegenüber einem breiten Spektrum möglicher Kontextbedingungen allgemein positiv beeinflussen, und zwar zu Lasten von einzelnen (im Vergleich zu vielen und verschiedenen) Kriterien.
7.2 · Moderation: Identifikation von Personengruppen
7
Die einfachste und deshalb in der Literatur am häufigsten verwendete Methode bei der
Suche nach Moderatorfunktionen besteht darin, die Gesamtstichprobe nach Maßgabe
einer theoretisch belangvollen Variablen in (meist 2–3) homogenere Subgruppen aufzuteilen und für jede dieser Untergruppen getrennt die Test-Kriteriums-Korrelationen
zu ermitteln. Unterscheiden sich diese Validitätskoeffizienten signifikant voneinander,
so übt die Teilungsvariable einen bedeutsamen Moderatoreffekt aus. Im Falle der Untersuchung von Todt (1966; 7 Beispiel) trifft dies auf die Differenz R = .11 und R = .63
Frederiksen und Melville (1954) hatten herausgefunden, dass sich relativ zwanghafte Studenten in allen Lehrfächern nahezu gleichmäßig einsetzten, und zwar
ungeachtet ihrer jeweiligen Interessensschwerpunkte, während sich nichtzwanghafte Personen nur gemäß ihrer Neigungen engagierten. Das legt die Hypothese
nahe, dass sich akademische Leistungen nichtzwanghafter Studenten aus Interessentests viel besser vorhersagen lassen als diejenigen ihrer zwanghaften Kommilitonen – was auch der Fall war.
An dieser Beobachtung knüpft Todt (1966) an. Seinen Erhebungen zufolge war
die mittlere Schulnote von Schülern ein Jahr vor dem Abitur aus ganz unterschiedlichen Prädiktorenkombinationen vorhersagbar, je nachdem, ob es sich um Besucher
des sprachlichen oder naturwissenschaftlichen Zweiges handelte. Bei den Sprachlern ergab die optimale Gewichtung von 6 Skalen des Differentiellen Interessentests
(7 3.2.5) mit einer Subskala aus dem Differentiellen Kenntnistest und dem Intelligenztest von Wilde (s. Jäger & Todt, 1964) eine multiple Korrelation von R = .44; hingegen bestand die optimale Prädiktorenkombination bei den Naturwissenschaftlern aus 3 Intelligenz- und 4 Kenntnissubskalen, die zu R = .38 mit dem Kriterium
korrelierten. Daraus ließ sich unter Bezugnahme auf die Befunde aus den USA die
Hypothese ableiten, dass Zwanghaftigkeit nur bei den Sprachlern die Validität der
Prognosebatterie (die fast nur aus Interessentests bestand) moderieren würde, nicht
aber bei den Naturwissenschaftlern, weil deren Interessen für die Vorhersage des
Schulerfolges praktisch ohne Belang waren. Als Diagnostikum der Zwanghaftigkeit
stand die Skala Rigidität von Brengelmann und Brengelmann (1960) zur Verfügung.
In der Tat errechnete sich für die relativ rigiden Schüler aus dem sprachlichen
Zweig ein R = .11, hingegen für die relativ flexiblen ein R = .63. In der Gruppe der
Naturwissenschaftler lauteten die Koeffizienten R = .44 bzw. .51 – was die Hypothese in überzeugender Weise bestätigte. Innerhalb der Sprachler wiesen somit zwar
Interessen den besten Vorhersagewert auf, und zwar im deutlichen Unterschied zu
den Naturwissenschaftlern, doch waren diese für flexible Schüler von wesentlich
größerer Bedeutung als für rigide.
Diese Studie belegt nachdrücklich, dass es innerhalb von größeren Personengruppen Substichproben mit ganz unterschiedlicher Vorhersagbarkeit gibt. Sie wirft
aber auch die Frage auf, welche Instrumente bei den nur mäßig prognostizierbaren
Personen erfolgreich angewendet werden können.
Die Vorhersage des Schulerfolges bei rigiden und flexiblen Schülern
Beispiel
»blind-analytisch« vor sich ging, teils einige methodische Probleme bei der Verwendung von Moderatorvariablen ausser acht gelassen wurden (s. Zedeck, 1971). Einiges
spricht dafür, dass positive Resultate dann zu erwarten sind, wenn theoriegeleitet geforscht wird (7 Beispiel).
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Suche nach Moderatoreffekten
428
Saunders (1956) hat deshalb ein Modell vorgeschlagen, mit dem die eben geschilderten
Unzulänglichkeiten regressionsanalytisch umgangen werden. Zentral darin ist der Gedanke, die Steigung der einfachen linearen Regression eines Kriteriums auf einen Prädiktor mit Hilfe einer weiteren Variablen, dem Moderator, zu beschreiben. Das Modell
ist für diesen einfachsten Fall in . Abb. 7.5 grafisch veranschaulicht.
! Zur Identifikation einer Moderatorvariablen ist die Fraktionierung einer Stichprobe dann sinnvoll, wenn die zu prüfende Variable alternativ oder mehrklassig diskret ist. Ist die Variable kontinuierlich-quantitativ abgestuft, ist ein
regressionsanalytisches Modell besser geeignet.
zu, die auf dem 5%-Niveau signifikant ist. Dementsprechend stellt die Rigiditätsskala
eine Moderatorvariable dar.
Die Methode einer solchen Fraktionierung von Gruppen ist immer dann angemessen, wenn die auf ihre potentielle Moderatorfunktion geprüfte Variable alternativ (z. B.
Geschlecht: männlich/weiblich) oder mehrklassig diskret ist (z. B. ethnische Herkunft:
kaukasoid/negroid/ mongolid; Körperbau: pyknisch/leptosom/athletisch).
Handelt es sich bei der Unterteilungsvariablen aber um eine Skala mit kontinuierlich-quantitativen Abstufungen (so z. B. der Rigiditätstest in der Todtschen Studie),
weist die Fraktionierungsmethode einige Nachteile auf. Vorrangig ist diesbezüglich die
Vergrößerung des Stichprobenfehlers zu nennen, die es nach Halbierung oder Drittelung der Gesamtstichprobe reichlich erschwert, Unterschiede zwischen den dann relativ kleinen Substichproben zufallskritisch abzusichern. Zudem erfolgt die Trennung am
Median bzw. an Perzentilwerten in gewisser Weise willkürlich, jedenfalls nicht nach
psychologisch plausiblen Ableitungen. Es kann nämlich kaum davon ausgegangen werden, dass sich mit der Überschreitung beispielsweise des Medians in einer Verteilung
kontinuierlich abgestufter Werte die zugrundeliegenden Prozesse in einem qualitativen
Sprung ändern. Darüber hinaus hängt der jeweilige Trennungspunkt davon ab, welche
Probanden mit welchen Merkmalsausprägungen jeweils Eingang in die Untersuchungsstichprobe gefunden haben. Ferner erlaubt eine Zwei- oder Dreiteilung nicht die Beschreibung der Moderatorfunktion in Art einer mathematischen Funktion, ganz abgesehen von den Problemen, die sich daraus ergeben mögen, dass die potentielle Moderatorvariable vielleicht selbst mit dem Kriterium und/oder den Prädiktoren korreliert.
7.2 · Moderation: Identifikation von Personengruppen
7
. Abb. 7.5. Räumliche Darstellung einer moderierten
Regression des Kriteriums Y
auf den Prädiktor X bei linearer Moderatorfunktion der
Variablen Z: Die Steigungskoeffizienten der Regressionsgeraden AB, CD, EF, GH,
IJ, KL und MN stellen eine
lineare Funktion von Z dar.
(Aus Bartussek, 1970, S. 59)
Regressionsanalytisches Modell
Fraktionierung
von Stichproben
429
7
Prüfung quadratischer
Moderatorfunktionen
Vorhersage mit
Prädiktor- und Moderatorvariablen
Lineare Regressionsgleichung
(7.1)
b = d + fZ
(7.2)
a = c + eZ
(7.3)
(7.5)
(7.4)
Die Formel (7.5) entspricht einer herkömmlichen Regressionsgleichung für die Vorhersage des Kriteriums Y auf der Basis von 3 Prädiktoren. Neben X und Z sind die individuellen Kreuzpunkte zwischen X und Z als dritter Prädiktor hinzugekommen. Durch
die Multiplikation der X- und Z-Werte trägt dieser Prädiktor jenen Anteil zur Vorhersage des Kriteriums bei, der sich analog zu den varianzanalytischen Wechselwirkungen
experimenteller Versuchspläne interpretieren lässt. Sofern die multiple Korrelation zur
Vorhersage des Kriteriums Y aus X und Z durch Hinzunahme des Terms XZ signifikant
ansteigt, liegt mit der Skala Z ein bedeutsamer Moderator vor.
Bartussek (1970) hat dieses Modell auf die Prüfung quadratischer (also U- bzw.
umgekehrt U-förmiger) Moderatorfunktionen erweitert. Inhaltlich bedeutet das die
Hypothese einer unterschiedlichen Prognostizierbarkeit der Probanden, die auf der
Moderatorvariablen extrem niedrig oder hoch scoren im Vergleich zu denjenigen im
Mittelbereich. Solche Gegebenheiten liegen etwa im Fall des Antwortstils Akquieszenz
bei der Bearbeitung von Fragebogen vor: Die ausgeprägten »Ja-Sager« sind den notorischen »Nein-Sagern« (»Yeah-« vs. »Nay-Sayer«) insofern ähnlich, als sie vom Iteminhalt offenkundig keine rechte Notiz nehmen und statt dessen in stereotyper Weise
nur mit einer individuell präferierten Antwortkategorie reagieren. Von daher wäre für
Ŷ = c + dX + eZ + fXZ
Nach Auflösen der Klammern und Umstellen der Formel erhält man
Ŷ = (c + eZ) + (d + fZ)X
Die Formel (7.3) beschreibt die unterschiedlichen Schnittstellen der Regressionen Y
auf Z mit der Regressionsfläche Y auf X (die Geraden AM, OP, QR, ST und BN in
. Abb. 7.5).
Setzt man (7.2) für b und (7.3) für a in (7.1) ein, so ergibt sich:
Z
Eine Änderung des b in (7.2) aufgrund der linearen Abhängigkeit von Z hat eine Änderung von a in (7.1) zur Folge, da sich durch die Drehung der Regressionslinie für
jeden Z-Wert andere Schnittpunkte der Regressionsgeraden mit Y ergeben müssen. Auf
diese Weise entspricht jedem Zb ein bestimmtes Za, sodass gilt:
f = Ausmaß der Änderung von Zb mit Z, d = Zb für Z = 0.
Z
Die Steigung b dieser Regressionsgeraden soll nun eine lineare Funktion des Moderators Z sein, sodass sich auf jeder Stufe von Z eine andere Steigung Zb ergibt:
Ŷ = a + bX.
Die Steigungskoeffizienten der Regressionsgeraden AB, CD, EF usw. bis MN stellen
eine lineare Funktion von Z dar (aus Bartussek, 1970, S. 59). Für die Prüfung der Frage,
ob in Gestalt der Variablen Z ein potentieller Moderator vorliegt (d. h. eine Variable,
von der der Steigungskoeffizient byx linear abhängt), sind folgende Erwägungen bzw.
Ableitungen anzustellen:
Die lineare Form einer Regression von Y auf X lautet bekanntlich (7 S. 57 ff.):
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Lineare Moderatorfunktion
430
7
Suppression
Paradoxe Qualität
von Prädiktoren
Validitätsverbesserung
durch mehrere Prädiktoren
Bindung von kriteriumsirrelevanter Prädiktorenvarianz:
Suppression
Ad 2. Zentral ist der Gedanke, die Steigung der einfachen linearen
Regression eines Kriteriums auf einem Prädiktor mit Hilfe einer weiteren Variablen, dem Moderator, zu beschreiben.
theoretisch belangvollen Variablen in homogene Subgruppen aufzuteilen bzw. zu fraktionieren und für jede dieser Gruppen getrennt die
Test-Kriteriums-Korrelationen zu ermitteln.
! Ad 1. Sie besteht darin, die Gesamtstichprobe nach Maßgabe einer
6
Eines der ersten empirischen Beispiele für Suppression berichtet Horst (1966) aus
den Versuchen, im Zweiten Weltkrieg den Erfolg von Ausbildungsprogrammen für
Piloten vorherzusagen. In einer dieser Studien bestand die Testbatterie aus
4 Mechanical ability (M),
4 Numerical ability (N),
Validitätsgewinn durch Unterdrückung irrelevanter Prädiktorenvarianz
Beispiel
Die Kombination von verschiedenen Prädiktoren führt bekanntlich dann zu besonders
markanten Zuwächsen an Validität, wenn jede einzelne der herangezogenen Skalen
bereits für sich selbst möglichst hoch mit dem Kriterium und möglichst niedrig mit den
anderen Prädiktoren korreliert. In einem solchen Fall deckt jeder Prädiktor einen anderen Aspekt des Kriteriums ab, was sich für die Validität der Testbatterie als Ganzes
sehr positiv auswirkt.
Ähnliche Konsequenzen ergeben sich aber auch dann, wenn die Rahmenbedingungen gegenteiliger Art sind, nämlich Variablen in eine Testbatterie zusätzlich aufgenommen werden, die mit dem Kriterium niedrig, aber möglichst hoch mit den anderen
Prädiktoren korrelieren. Weil die Validitätserhöhung in einer derartigen Konstellation
trotz (oder, wie noch zu zeigen sein wird, gerade wegen) der Nullkorrelation mit dem
Kriterium auftritt, handelt es sich gleichsam um eine paradoxe Qualität. Sie kommt
dadurch zustande, dass aufgrund der hohen Korrelation einer oder mehrerer zusätzlicher Variablen mit den übrigen Prädiktoren deren kriteriumsirrelevante Varianzanteile gebunden oder unterdrückt werden; dementsprechend heisst die Bezeichnung für
dieses Phänomen der Validitätssteigerung »Suppression«.
7.3
Methode bei der Suche
nach Moderatorfunktionen, wenn die auf die Moderatorfunktion geprüfte
Variable alternativ oder
mehrklassig diskret ist?
2. Welches ist der zentrale Gedanke in Saunders’ Modell
(1956) für Skalen mit kontinuierlich-quantitativen
Abstufungen?
? 1. Welches ist die einfachste
(zu Abschn. 7.2)
schen Verfahren, die gerade das Letztere leisten, ist bislang allerdings ein empfindlicher
Mangel zu beklagen.
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Übungsfragen
432
nc
n x + nc ⋅ n y + nc
(7.7)
7
= .44.
9+7 ⋅ 9+7
Wenn 8 der 9 für die Vorhersage des Kriteriums durch p irrelevanten Elemente durch
den Suppressor erklärt werden (p–s), der für sich selbst keinerlei Überlappung mit dem
Kriterium aufweist, lauten die Korrelationen wie folgt:
rpc =
Im Beispiel von . Abb. 7.6 besteht das Kriterium c aus insgesamt 16 Elementen, von
denen 7 mit dem Prädiktor gemeinsam sind (c–p). Der Prädiktor setzt sich gleichfalls
aus 16 Elementen zusammen, von denen 9 für das Kriterium irrelevant sind (8×(p–s)
+ 1p).
Gemäß (7.7) errechnet sich daraus die Korrelation
nx = Zahl der Elemente spezifisch für x,
ny = Zahl der Elemente spezifisch für y,
nc = Schnittmenge der Elemente aus x und y.
rxy =
Das Zustandekommen von Suppressionseffekten kann auf methodische Weise mit
Hilfe eines Scheibchendiagramms und durch Rückgriff auf die Interpretation von Korrelationen als Folge gemeinsamer Elemente (McNemar, 1962) veranschaulicht werden
(. Abb. 7.6).
Die allgemeine Formel für die »Common-elements-Korrelation« lautet:
Die ersten 3 Faktoren korrelierten positiv mit dem Kriterium. Verbales Geschick stand
mit dem Kriterium nicht in Beziehung, korrelierte aber mit den anderen Skalen. Trotz
der Nullkorrelation zwischen verbalen Leistungen und dem Trainingserfolg verbesserte die Hinzunahme von Verbal ability die Validität der Batterie erheblich.
Horst interpretierte diesen Effekt psychologisch, indem er feststellte, dass die
verbalen Fähigkeiten zwar mit dem Ergebnis des Flugtrainings nichts zu tun haben
mochten, wohl aber eine hohe Ausprägung in V den Erhalt hoher Punktwerte in den
übrigen Prädiktoren begünstigte, und zwar vermutlich über das bessere Verständnis
der Testinstruktion und der allgemeinen Prinzipien zum Lösen der Aufgaben. Von
daher kam es darauf an, eben jene durch V »verursachten« Varianzanteile zu eliminieren bzw. von der sonstigen Prädiktionsvarianz abzuziehen. Denn für den Flugtrainingserfolg war es wichtig, hohe Punktwerte in erster Linie in den Skalen M, N
und S zu erzielen, weil damit Komponenten abgedeckt werden, die für die Steuerung eines Flugzeuges unabdingbar sind. Hingegen war es eher irrelevant für die
Vorhersage, wenn Probanden hohe Punktwerte in der Batterie hauptsächlich durch
ihre verbalen Fähigkeiten erreichten. In der Tat führte der Abzug der Varianz zu Lasten von V, d. h. ein negatives β-Gewicht in der Linearkombination der Prädiktoren,
zu einer bedeutsamen Validitätsverbesserung der Gesamtbatterie.
4 Spatial ability (S) und
4 Verbal ability (V).
7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression
Prädiktor-Kriterium
Common-elementsKorrelation
Methodische Veranschaulichung des
Suppressoreffekts
433
7
7
Klassischer Fall:
Suppressorvariable
wird abgezogen
Erhöhte Validität durch
Suppressoreffekt
Suppressor-Kriterium
Prädiktor-Suppressor
c
c
c
c
c
c-p
c-p
c-p
c-p
c-p
c
c-p
c-p
p
s
7
= .62.
1+ 7 ⋅ 9 + 7
Bei der Ermittlung der Regressionsgleichung auf der Basis der bivariaten Korrelationen zeigen die Vorzeichen der Regressionsgewichte (0,66p–0,50s), dass die gewichtete s-Variable von den Prädiktorwerten abgezogen werden muss, um die kriteriumsirrelevante Varianz zu entfernen. Das stellt den »klassischen Fall« des Suppressionsparadigmas dar.
Eine Quelle möglicher Konfusionen tut sich aber auf, wenn alle Variablen mit negativen β-Gewichten in Prädiktionskombinationen als »negative Suppressoren« bezeichnet werden. Lubin (1957) und Darlington (1968) verfahren so und belegen mit
diesem Begriff solche Variablen, die positiv mit dem Kriterium, aber negativ mit anderen Prädiktoren korrelieren. Das mag deshalb zu Missverständnissen führen, weil zahlreiche Dimensionen außerhalb des Leistungsbereiches bipolarer Art sind, wie an Skalen
zur Erfassung von Einstellungen oder Persönlichkeitsmerkmalen sowie kognitiven Stilen zu erkennen ist, deren Scorungsrichtung und positive Bewertung innerhalb gewisser Grenzen von willkürlichen Festlegungen abhängt. Auf diese Weise aber könnte ein
Prädiktor (wie z. B. Extraversion oder Flexibilität) durch einfache Reflektion zu einem
Suppressor (Introversion bzw. Rigidität) konvertiert werden. Zur Vermeidung solcher
konzeptueller Unschärfen soll hier an der restriktiven Definition eines Suppressors
festgehalten werden, in der die Nullkorrelation mit dem Kriterium eine entscheidende
Rolle einnimmt.
rpc =
Weil es bei der Korrelation zwischen s und c keine gemeinsamen Elemente gibt, steht
im Zähler der Common-elements-Korrelation zwischen Suppressor- und Kriteriumsvariablen Null, deshalb: rsc = 0,00.
Nun lässt die Betrachtung von . Abb. 7.6 erkennen, dass es trotz der Irrelevanz von
s für c nützlich ist, die »frei schwebenden« Elemente in p, d. h. jene, die keine Kommunalität mit c zeigen, durch s zu »binden«. In einem solchen Fall weist p nur noch 8 andere Elemente auf (1p sowie 7c–p), und die Prädiktor-Kriteriums-Korrelation beläuft
sich dann auf
suppressor (s)
p-s
p-sp-s
p-s
p-s p-s
p-s
p-s
8
= .67.
8 + 8 ⋅ 1+ 8
criterion (c)
c
rps =
c
c
predictor (p)
Kapitel 7 · Probleme und Differenzierungen von Prognosen
. Abb. 7.6. Veranschaulichung der Korrelation zwischen je einer Prädiktor-,
Suppressor- und KriteriumsVariablen als Folge gemeinsamer Elemente. (Aus Conger & Jackson, 1972, S. 582)
434
1− rps
2
rcp − rcsrps
(7.8)
rcp
1− rps
2
(7.9)
2
1− rcs
rcp − rcs ⋅ rps
1− rps
2
(7.10)
6
Unter idealen Suppressorbedingungen vereinfacht sich (7.10) ebenfalls zu (7.9). Bei
suboptimalen Gegebenheiten muss der resultierende Koeffizient etwas höher ausfallen als (7.8), weil im Vergleich zum Partkoeffizienten im Nenner rcs zusätzlich berücksichtigt wird.
rc( p ⋅ s ) =
Die Formel (7.9) besagt, dass der Partkoeffizient immer dann höher als rcp (= die Validität) ausfällt, wenn rps ungleich Null ist.
Soll der Einfluss einer Drittvariablen aus 2 anderen Variablen herausgezogen werden
(z. B. der Suppressor gleichermaßen aus dem Prädiktor und dem Kriterium), ist die
Partialkorrelation angemessen, also
rc( p ⋅ s ) =
Falls die Korrelation zwischen s und c Null beträgt (= ideale Suppressorvoraussetzung), vereinfacht sich (7.8) zu
c = Kriterium,
p = Prädiktor,
s = Suppressor (oder Variable, die eine kleinere Korrelation mit c aufweist als p).
rc( p ⋅ s ) =
Die Formel für die Partkorrelation lautet:
Wie Conger und Jackson (1972) deutlich gemacht haben, bestehen enge Beziehungen zwischen dem Suppressionskonzept und der Part- bzw. Partialkorrelation:
Wird nämlich der Einfluss einer Variablen von einer anderen eliminiert und mit
einer dritten Variablen korreliert, liegt eine Konstellation vor, in der eine Partkorrelation angemessen ist (. Abb. 7.7). Genau das ist auch das Rationale für Suppressoreffekte.
Zur Beziehung der Suppression zu Part- und Partialkorrelation
Exkurs
7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression
7
. Abb. 7.7. Konstellation
für eine Partkorrelation sowie einen Suppressoreffekt.
P = Prädiktor, C = Kriterium,
S = Suppressor
Partialkorrelation
Partkorrelation
435
7
. Abb. 7.8. Zunahmen an
Validität (Ordinate) als Funktion der Korrelationen zwischen Suppressor und Prädiktor (rps; Abszisse) sowie
der originalen Test-Kriteriums-Validitäten (Linienschwarm)
Ausmaß der
Validitätssteigerung
1− rps 2
rcp 2 + rcs 2 − 2rcprcsrps
(7.11)
0,00
0,20
0,40
0,60
0,80
1,00
0,20
0,98
0,95
-1–
0,40
0,92
δ = rcp ((1-r 2sp ) 2 -1)
0,995
δ = r'c·sp - rcp
0,87
0,60
0,80
0,70
0,80
0,60
0,50
0,40
0,30
1,00
0,20
0,10
rps
Das Ausmaß der möglichen Validitätssteigerung durch einen Suppressor hängt nicht
nur von der Enge der Korrelation zu den anderen Prädiktoren der Batterie ab, sondern
auch von der originalen Prädiktor-Kriteriums-Validität. Die dafür maßgeblichen Funktionen sind aus . Abb. 7.8 ersichtlich.
Wenn die Validität beispielsweise mit rcp = .40 gleich hoch ist wie die Interkorrelation rps, bedeutet das einen Zugewinn um rund 0,04 Einheiten oder ca. 10%. Erst bei
sehr hohen Werten für rps fallen die Validitätszunahmen ernsthaft ins Gewicht.
Eben diese Voraussetzung aber war in den bislang durchgeführten empirischen
Untersuchungen nicht erfüllt (s. die Zusammenstellung bei Holling, 1981), weshalb die
Resultate insgesamt höchst unbefriedigend ausgefallen sind. Um dafür ein Beispiel zu
geben: In einer äußerst aufwändigen Studie prüfte Vagt (1974) die Hypothese, ob Aspekte der Testangst und Testmotivation als Suppressoren wirken. Zusätzlich zu vorliegenden Skalen entwickelte er eigens Fragebogen u. a. zur Erfassung von Angst vor der
R = rc( p⋅s ) =
Bei Verletzung der idealen Suppressorbedingungen liefert, wie bei einem Vergleich
der beiden Formeln deutlich wird, die multiple Korrelation den höheren Validitätskoeffizienten:
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Mulitiple Korrelation
436
rcq 2
rcp + rcq 2
2
(7.13)
(7.12)
Das bedeutet nichts Anderes, als dass die Suppressorvarianz 4mal soviel Varianz im
Prädiktor wie der zweite Prädiktor an Varianz im Kriterium erklären muss, um den
gleichen Effekt in Bezug auf die Validitätssteigerung zu erzielen.
rps 2 =
Werden die Zuwächse miteinander gleichgesetzt, so gilt:
p = 1. Prädiktor,
q = 2. Prädiktor (und potentieller Suppressor).
δ p = rc⋅pq − rcp ⋅ rcp2 + rcq 2 − rcp
Testsituation und den Testkonsequenzen, vor Psychologen und unangenehmer Selbsterkenntnis bzw. Tests zur Feststellung der Wichtigkeit von Psychologie für das Bedürfnis nach Selbsterkenntnis und des Vertrauens in die Gültigkeit von Prüfungen u. Ä.
Diese Skalen wurden zusammen mit Intelligenztests in einer Situation vorgegeben,
deren ernster, bedrohlicher Charakter durch verschiedene Maßnahmen betont wurde.
Das Kriterium bestand aus einem Maß für sprachliche Ausdrucksfähigkeit, das aus 2
Aufsätzen gewonnen wurde, die freiwillig und in einer entspannten Atmosphäre geschrieben worden waren. Die Validität des Intelligenztests für dieses Kriterium betrug
an N = 253 Schülern rcp=.66. Die Korrelationen zwischen einer der Suppressorskalen
und dem Kriterium lagen ganz überwiegend bei Null (höchste Koeffizienten rcs = –.25,
.14, und .12). Allerdings korrelierten die Suppressorvariablen auch mit dem Prädiktor
bestenfalls zu rps = –.25 (Angst vor Psychologen und der Psychologie) und rps = .23
(Leistungsmotivation), sodass von daher kaum Aussicht auf einen nennenswerten Validitätsgewinn durch Suppression bestand. Die einzige signifikante Erhöhung der Validität war im Falle der Wichtigkeit von Psychologie mit rcs = .12 und rps = .04 weniger
eine Folge von Suppression als vielmehr eine solche der Hinzunahme eines weiteren
unabhängigen Prädiktors.
Desgleichen mussten die Bemühungen von Goldberg et al. (1970), verschiedene
Antwortstilskalen auf ihre Suppressionseffekte gegenüber dem California Psychological
Inventory zu untersuchen, schon im Ansatz als aussichtslos angesehen werden, weil
Antwortstile mit den inhaltlichen Skalen nicht in einem Ausmaß korrelieren, das für
eine substantielle Validitätserhöhung Voraussetzung ist.
Um aber die bestechende Brillanz des Suppressionskonzeptes praktisch nutzen zu
können, bedarf es auch einer hohen Korrelation rps mit den Prädiktoren, die im Regelfall leichter zu erzielen ist als eine entsprechende Validität (rcp).
Allerdings gibt es einen Grund, warum entsprechende Bemühungen nicht mit dem
zu erwartenden Nachdruck entfaltet wurden: Im Vergleich zu dem Validitätsgewinn
durch einen Suppressor, wie er sich in . Abb. 7.6 als Formel für δ eingetragen findet,
beträgt der Zugewinn im Falle eines weiteren Prädiktors
7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression
7
Weiterer Prädiktor effektiver als Suppressor
Validitätsgewinn durch
zusätzlichen Prädiktor
Beispiel: Antwortstil
als Suppressor
Beispiel: Testangst und
Testmotivation als
Suppressoren
437
7
der Suppression?
ditätserhöhung beitragen können, obwohl sie mit dem Kriterium nicht
oder nur gering korrelieren. Aufgrund der hohen Korrelationen der
zusätzlichen Variablen mit den übrigen Prädiktoren werden deren kriteriumsirrelevante Varianzanteile gebunden oder unterdrückt.
! Ad 1. Suppression bezeichnet die Feststellung, dass Variablen zur Vali-
Conger, 1974; Holling, 1981.
Weiterführende Literatur
? 1. Was bezeichnet der Begriff
(zu Abschn. 7.3)
Fazit
Insgesamt zeigen die Forschungen zum Suppressorkonzept, dass es neben der
direkten Erhöhung der Validität durch Einsatz von weiteren Prädiktoren auch die
Möglichkeit gibt, Variablen zu erheben, die keinen oder einen nur sehr geringen
Zusammenhang zum Kriterium aufweisen. Die Brillanz des Suppressionskonzeptes
liegt darin, irrelevante Varianzanteile der Prädiktoren zu binden oder zu unterdrücken.
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Übungsfragen
438
(S.472-473)
Diagnostik und Intervention
bei Gruppen
(S.468-471)
Tätigkeitsbezogene Diagnostik
und Intervention
(S.444-447, 449-451, 453-455, 458-465)
Personalbeurteilung
(S.440-443)
Diagnostik und Entwicklung
von Organisationen
Diagnostik in der Arbeits-, Betriebsund Organisationspsychologie
8
Strukturdiagnostik
Aufgaben der Organisationsdiagnostik
Bereiche der Diagnostik und Intervention
Diagnostik und Entwicklung von Organisationen
Eine so verstandene Organisationsdiagnostik stellt allerdings »eher ein Programm als
eine Sozialtechnologie« (von Rosenstiel, 1992, S. 358) dar, denn es gibt kaum genormte
Verfahrensweisen in diesem Bereich (. Abb. 8.1).
Allgemein lassen sich 2 grundlegende Muster voneinander unterscheiden, nämlich
die Strukturdiagnostik und die Prozessdiagnostik.
4 Die Strukturdiagnostik stellt das Mittel der Wahl in der vergleichenden Organisationsforschung dar, die dem sog. Kontingenzansatz verpflichtet ist. »Damit wird die
Annahme gekennzeichnet, dass Unterschiede zwischen Organisationsstrukturen
»Die psychologische Organisationsdiagnose dient dazu, die psychologischen Aspekte des Erlebens und Verhaltens von Mitgliedern in Organisationen zu diagnostizieren, um Regelhaftigkeiten im Erleben, im Verhalten und in den Interaktionen zu beschreiben, zu erklären und zu prognostizieren« (Büssing 1993, S. 445).
Definition
Im Gegensatz zu den mehr betriebswirtschaftlich ausgerichteten Organisationsanalysen, in denen es um »die systematische Untersuchung des gegebenen Gesamtzustandes
einzelner Organisationen mit dem Ziel der Aufdeckung vorhandener Organisationsprobleme und die Vorbereitung von Organisationsänderungen zum Zwecke der Verringerung oder Beseitigung dieser Probleme« (Klages, 1980, zit. nach Büssing, 1993,
S. 446) geht, ist die Aufgabe der psychologisch ausgerichteten Organisationsdiagnostik
mehr am Verhalten und Erleben der Mitglieder in Organisationen ausgerichtet:
8.1.1 Organisationsdiagnostik
Dabei gelten Organisationsdiagnostik und -entwicklung als Felder, in denen der Versuch einer Integration der 3 anderen Bereiche unternommen wird. Im Hinblick auf den
sich daraus ergebenden Überordnungsstatus soll nachfolgend zuerst darauf eingegangen werden.
Vier Bereiche sind es vor allem, innerhalb derer Diagnostik und Intervention einen
wichtigen Stellenwert einnehmen (s. von Rosenstiel, 1992; Bungard & Antoni, 1993):
4 Individuen,
4 Aufgaben,
4 Gruppen (darin auch Konflikte zwischen Personen) und
4 Organisationen.
8.1
Von Anfang an waren Diagnostik und Intervention in der ABO-Psychologie sehr
eng auf die praktischen Bedürfnisse von Organisationen (und zwar vor allem im industriellen Bereich) bezogen. Zu ihren Anwendungsfeldern zählen auf einer mehr abstrakten Ebene die Diagnostik und Entwicklung von Organisationen, und auf etwas konkreterem Niveau einerseits die am Individuum ausgerichtete Beurteilung und Entwicklung von Personal sowie andererseits die an den Arbeitsbedingungen ansetzende
Analyse und psychologische Gestaltung der Arbeit.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Diagnostik und
Entwicklung von
Organisationen,
Personal- und Arbeitsbedingungen
440
Angesichts der Verschiedenheit der Anforderungen, die in den einzelnen Anwendungsbereichen an die psychologische Diagnostik gestellt werden, ist evident, dass eine übergreifende und hinreichend kohärente Organisationsdiagnostik nur sehr schwer zu operationalisieren ist.
Ein Versuch in diese Richtung stellt das Organisationsanalyseinstrumentarium
OAI von van de Ven und Ferry dar (1980, zit. nach Büssing, 1993). Fünf verschiedene
»Module«, zu denen jeweils Fragebogen vorliegen, sollen den komplexen Anforderungen organisatorischen Geschehens gerecht werden:
1. Macroorganizational module: Dient der Messung der Gesamtstruktur der Organisation,
2. Interunit relations module: Hebt auf die Messung der Koordination zwischen
organisationalen Einheiten ab,
auf Unterschiede in den Situationen zurückzuführen sind, in denen sich die jeweiligen Organisationen befinden« (Büssing, 1993, S. 452). Solche »Situationen« können z. B. bestimmte Technologien oder die Größe der Unternehmen sein, die dann
innerhalb der Strukturdiagnose erfasst werden.
4 Die Prozessdiagnostik geht demgegenüber davon aus, dass »eine Vielzahl von Merkmalen und Bedingungen in Organisationen einer fortwährenden Veränderung unterliegt« (Büssing, 1993, S. 453). Organisationsdiagnostik kann sich bei einer solchen
Sichtweise im Gegensatz zu strukturdiagnostischen Vorgehensweisen nicht in einer
einmaligen Datengewinnung erschöpfen, sondern muss einen mehrstufigen Vorgang bilden. Sie wird besonders häufig angewandt bei der Diagnose von
5 organisationalen Veränderungen,
5 sozialer Interaktion und Kommunikation innerhalb von Organisationen und
5 Wechselwirkungen zwischen Strukturmerkmalen, situativen Faktoren und dem
Erleben/Verhalten in Organisationen.
8.1 · Diagnostik und Entwicklung von Organisationen
8
Organisationsanalyseinstrumentarium OAI
Prozessdiagnostik
. Abb. 8.1. Auch die
Raumgestaltung in Organisationen kann Hinweise auf
die Unternehmenskultur liefern
441
8
SORK-Paradigma
Intervention in
Organisationen
Beispiel: Diagnose des
Organisationsklimas
Unter Organisationsentwicklung versteht man eine geplante, meist mehrjährige Intervention in der gesamten Organisation (also nicht nur in einzelnen Bereichen oder
Gruppen). Was die Zielsetzung solcher Interventionen angeht, soll es nicht um »klassische Rationalisierungsprojekte (gehen), die ausschließlich auf eine Erhöhung der
Produktivität abzielen; vielmehr steht zum einen die Forderung der Selbstverwirklichung und Autonomie der Mitarbeiter im Vordergrund, (zum anderen soll) durch die
Konzipierung und Implementation geeigneter Arbeits-, Führungs- und Kooperationsformen ein hohes Maß an Commitment sowie eine hinreichende leistungsbezogene
Effizienz aller Organisationsmitglieder sichergestellt werden« (. Abb. 8.2, Gebert,
1993).
Beruhend auf dem S(Stimulus)-O(Organismus)-R(Reaktion)-K(Konsequenz)Paradigma unterscheidet Gebert (1993) einen personalen und einen strukturalen
8.1.2 Organisationsentwicklung
Die darauf gerichteten Untersuchungen ergaben am Ende aber, dass sich das Konstrukt
des Organisationsklimas, obgleich konzeptuell eigenständig, empirisch, also in der Praxis, von »Betriebsklima« und »Arbeitszufriedenheit« kaum unterscheiden lässt (s. von
Rosenstiel, 1992).
Auf weitere Beispiele für die Diagnostik in anderen Teilbereichen von Organisationen wird in 7 Abschn. 8.1.2 eingegangen.
Vom OAI einmal abgesehen, handelt es sich bei Organisationsdiagnostik mehr um eine
theoretische Fiktion denn um ein konkretes Diagnostikinstrumentarium. So ist es in
der Praxis durchaus üblich, jeweils nur Teilbereiche diagnostisch zu erfassen, was am
Beispiel der Messung des »Organisationsklimas« kurz dargestellt werden soll:
Das Konstrukt des »Organisationsklimas« unterscheidet sich von dem mehr industriesoziologischen Ansatz des »Betriebsklimas«. Unter Letzterem wird die bewertende
Beschreibung einer Organisation durch ein aggregiertes soziales Kollektiv verstanden,
wohingegen das Organisationsklima für eine nichtbewertende Beschreibung der Organisation durch den Einzelnen steht. In diesem Sinne zielen Untersuchungsinstrumente
zum Organisationsklima z. B. auf die folgenden, rein deskriptiv zu verstehenden Gesichtspunkte:
4 Betrieb als Ganzes,
4 Kollegen,
4 Vorgesetzte,
4 Aufbau- und Ablauforganisation,
4 Information und Mitsprache,
4 Interessenvertretung,
4 betriebliche Leistung.
3. Organizational unit module: Erfasst die Aufgaben, Strukturen und Prozesse auf
verschiedenen Arbeitsebenen,
4. Job design module: Misst Merkmale einzelner Arbeitsplätze einschließlich ihrer
strukturellen Anforderungen und der Einstellung sowie die Zufriedenheit der Arbeitenden,
5. Performance module: Richtet sich an die Effizienz und Effektivität auf den verschiedenen Arbeitsebenen.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Begriff »Organisationsdiagnostik« eher
theoretische Fiktion
442
rung der Arbeitswelt sowie die Erhöhung von Effizienz und Commitment der
Organisationsmitglieder abzielen.
! Die Organisationsentwicklung umfasst Maßnahmen, die auf die Humanisie-
Das allgemeine Anliegen der Organisationsentwicklung besteht darin, solche (Rahmen-)Bedingungen in Organisationen zu schaffen, die einer Verwirklichung der oben
angeführten Ziele dienlich sind. Dabei muss hauptsächlich zu Beginn von entsprechenden Maßnahmen sowohl auf Seiten des Managements als auch auf Seiten der Belegschaft viel Überzeugungsarbeit geleistet werden, um neue, partizipativere Arbeits- und
Führungsstile dauerhaft verwirklichen zu können. Konkret können dafür Führungstraining und Teamfähigkeitstraining vonnöten sein, oder auch die Auswahl von Mitarbeitern, die eine besondere Schulung erfahren, um die neuen Formen der Arbeit
optimal vorstellen zu können.
Hand in Hand damit sollte eine Enthierarchisierung innerhalb der Organisationsstrukturen angestrebt werden, um den Mitarbeitern im Sinne der Humanisierung der
Arbeitswelt mehr Mitsprachemöglichkeiten und Autonomie zu geben. Diese Beispiele
sollen auf die große Zahl und Bandbreite denkbarer Organisationsentwicklungsmaßnahmen auf den unterschiedlichsten Organisationsebenen hinweisen. In der Praxis
sind häufig genug ökonomische Erwägungen oder anderweitige Sachzwänge (z. B. die
Einführung neuer Techniken) für die Realisierung solcher Maßnahmen entscheidend.
Die in der Theorie und Programmatik gewöhnlich in den Vordergrund gerückten humanistischen Ziele stellen meist nur (durchaus willkommene) Nebeneffekte dar.
Ansatz der Organisationsentwicklung. Dabei sollten im Idealfall beide Ansätze gleichzeitig verwirklicht werden:
4 Der personale Ansatz richtet sich auf die Kategorien O und R und beinhaltet beispielsweise gruppendynamische Trainings- sowie Weiterbildungsmaßnahmen.
4 Der strukturale Ansatz bezieht sich auf die Elemente S und K und beinhaltet, grob
vereinfacht, die sog. »neuen Formen der Arbeitsgestaltung« (u. a. »job enrichment«)
sowie die Implementierung von Gruppenarbeitsmodellen.
8.1 · Diagnostik und Entwicklung von Organisationen
8
Humanisierung
der Arbeitswelt
Schaffung von
Rahmenbedingungen
Strukturaler Ansatz
Personaler Ansatz
. Abb. 8.2. Besonders in
der Automobilindustrie sind
Beispiele für die Einrichtung
»teilautonomer Arbeitsgruppen« bekannt geworden,
deren Vor- und Nachteile
heftig diskutiert wurden
443
8
Regelmäßige Leistungsbeurteilungen
Rückmeldungen zum
Arbeitsverhalten
3 Ebenen der
Beurteilung
Personalbeurteilung
Personalbeurteilung
Leistungseinschätzung,
Zielsetzung
2. Ebene
Leistungsbeurteilung
Fähigkeitseinschätzungen,
Prognosen
Verhaltenssteuerung, Lernen
1. Ebene
Day-to-day-Feedback
3. Eben
Potentialbeurteilung
Funktion
Ebene
Eignungsdiagnose,
Assessment Center
systematische Beurteilung
Gespräch, Unterstützung
Verfahrensweise
. Tabelle 8.1. 3 Ebenen der Personalbeurteilung. (Nach Schuler & Prochaska, 1992, S. 178)
Dabei lassen sich 3 Ebenen der Beurteilung unterscheiden (. Tab. 8.1).
Die erste Ebene bezieht sich hauptsächlich auf das alltägliche Arbeitsverhalten.
Hier hat sich gezeigt, dass Feedback, wie aus den experimentellen Laborstudien nicht
anders zu erwarten, dann am wirksamsten ist, wenn dem Akteur die Kontingenzen
zwischen Verhalten und dessen Konsequenzen klar vor Augen geführt werden können.
Solche Rückmeldungen sind von großer Bedeutung für das Verhalten der Beurteilten,
weil das fragliche Verhalten noch relativ gegenwärtig oder »greifbar« ist. Da die methodischen Ansprüche auf dieser Ebene vergleichsweise gering sind, kann meist auf ein
systematisches Beurteilungsverfahren verzichtet werden.
Die zweite Ebene wird markiert durch die regelmässig stattfindenden Leistungsbeurteilungen, die für Zwecke der Personalentwicklung und des Personalmanagements unentbehrlich sind (z. B. für Platzierungs- und Beförderungsentscheidungen).
Die Beurteilung erfolgt meist auf der Basis eines Gespräches zwischen Vorgesetztem/
Vorgesetzter und Mitarbeiter/Mitarbeiterin, wobei dieses Gespräch aus Gründen der
Objektivitätsoptimierung zumindest in halbstandardisierter Form erfolgen sollte. Neben konkret-objektiven Indikatoren wie Verkaufs- und Umsatzzahlen, den Diskrepanzen zwischen Soll- und Ist-Zuständen u. a. werden gewöhnlich auch potentielle individuelle Förderungsmassnahmen und solche zur Erhöhung der persönlichen Bewährungswahrscheinlichkeit und Einsatzbreite einen Themenschwerpunkt bilden. Wichtig
ist für den Ertrag der Unterredung eine besondere Schulung des Vorgesetzten in Ge-
»Leistungs- und Potentialdaten werden im organisationalen Kontext zum Zwecke der
individuellen Auswahl, Beurteilung und Förderung erhoben, um Über- und Unterforderung von Mitarbeitern zu vermeiden, Entwicklungsmöglichkeiten zu sichern und
gleichzeitig die Effizienz von Organisationen zu steigern« (Schuler & Prochaska, 1992,
S. 158).
Die auf Individuen bezogene Diagnostik lässt sich in 2 Bereiche untergliedern:
4 Im Rahmen der Eignungsdiagnostik werden Daten über die Eignung von Bewerbern für Stellen oder Funktionen erhoben.
4 Die (systematische) Personalbeurteilung schließt eignungsdiagnostische Aussagen
häufig ein, geht andererseits in jenen Fällen darüber hinaus, wo es um die Abschätzung von Potentialen und die Zuführung zu Personalentwicklungsmaßnahmen
geht.
8.2
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Eignungsdiagnostik
444
Dabei sind 3 prototypische Konstellationen identifizierbar, zwischen denen aber fließende Übergänge auftreten (zit. nach von Rosenstiel, 1992):
4 Es sind mehrere freie Stellen, aber nur ein Bewerber oder eine Bewerberin vorhanden. Diese(r) soll auf jene Stelle kommen, die ihr/ihm am besten entspricht (Auswahl der bestgeeigneten Funktion oder Stelle; »Eignungsdiagnostik«).
»Unter Berufseignungsdiagnostik wird die Gesamtheit aller wissenschaftlichen und
wissenschaftsgeleitet-praktischen Bemühungen verstanden, die auf dem Wege über
eine gedankliche Zuordnung von beruflichen Situationen zu Personen oder von Personen zu beruflichen Situationen die Ziele ›Maximierung beruflicher Zufriedenheit‹
und ›Maximierung beruflicher Leistung‹ anstreben« (Eckardt & Schuler, 1992, S. 534).
Definition
8.2.1 (Berufs-)Eignungsdiagnostik
sprächsführung. Hilfreich können für den Beurteiler auch Einstufungsverfahren, wie
z. B. Skalen zur Verhaltensbeobachtung, sein.
Von der dritten Ebene wird allgemein eine besondere prognostische Funktion erwartet, sie wird deshalb auch als Potentialbeurteilung bezeichnet und liefert die
Grundlage für nachfolgende Personalentwicklungsmaßnahmen. Die methodischen
Ansprüche an diese Form der Mitarbeiterbeurteilung sind hoch, sodass neben der Ergebnis- bzw. Verhaltensbeurteilung durch einen Vorgesetzten mehr und mehr Elemente der Assessment-Center-Technik zum Tragen kommen.
8.2 · Personalbeurteilung
8
3 Aufgabenstellungen
möglich
Potentialbeurteilung
. Abb. 8.3. In Dienstleistungsberufen sollte z. B.
auch »kundenorientiertes
Verhalten« bei einer Personalbeurteilung berücksichtigt werden
445
8
446
In den so genannten »Leitsätzen« werden allgemeine Empfehlungen zum Vorgehen
formuliert. Beispielsweise sollte zur Aufklärung über die Untersuchungssituation gehören, dass die Kandidaten erfahren, welche Personen an der Untersuchung mitwirken,
4 Für die Anbieter entsprechender Dienstleistungen (»Auftragnehmer«): Leitfaden
für die Planung und Durchführung von Eignungsbeurteilungen.
4 Für die Personen und Institutionen, die Eignungsbeurteilungen durchführen lassen (»Auftraggeber«): Maßstab für die Bewertung von externen Angeboten.
4 Für die Personalverantwortlichen: Qualitätssicherung und -optimierung von
Personalentscheidungen.
4 Für die Personen, deren Eignung beurteilt wird: Schutz vor unsachgemäßer oder
missbräuchlicher Anwendung von Verfahren.
Zweck der DIN 33430
DIN 33430 zu berufsbezogenen Eignungsbeurteilungen: Anforderungen an
Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen
Zur Feststellung der berufsbezogenen Eignung wurden in der Vergangenheit häufig
Verfahren mit fraglicher Validität herangezogen. Umgekehrt ist in der beruflichen Praxis die Akzeptanz für nachweislich hoch valide Verfahren gering (. Tab. 8.2). Aus der
Unzufriedenheit mit der Praxis der beruflichen Eignungsdiagnostik entwickelte sich
eine Initiative zur Etablierung eines Standards für eine wissenschaftlich fundierte Vorgehensweise. Der Berufsverband Deutscher Psychologinnen und Psychologen (BDP)
stellte 1995 beim Deutschen Institut für Normierung e.V. (DIN e.V.) den formalen
Antrag, eine Norm zur beruflichen Eignungsdiagnostik zu erarbeiten. Unterstützung
fand der BDP durch die Deutsche Gesellschaft für Psychologie (DGPs). Am 9. Juni 1997
nahm ein Ausschuss des Deutschen Instituts für Normung, der mit Vertretern aus
Wissenschaft und Praxis, Unternehmen, Behörden, Verbänden und Verlagen besetzt
war, unter Vorsitz von Prof. Hornke die Arbeit auf (7 auch Interview mit Prof. Hornke).
Das Ergebnis dieser Arbeit ist letztlich ein Konsens, der auch von Interessen der Beteiligten geprägt ist. Im Jahr 2002 erfolgte die Veröffentlichung der »Anforderungen an
Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen: DIN 33430«
(Beuth-Verlag, Berlin).
Auf 15 Seiten Text (der durch sieben Seiten Glossar ergänzt wird) werden Qualitätsstandards sowohl für die Personen, die als Auftragnehmer oder Mitwirkende die Eignungsbeurteilung durchführen, als auch an die dabei eingesetzten Verfahren definiert.
Die DIN 33430 ist nicht rechtsverbindlich. Das Deutsche Institut für Normung ist ein
privater Verein, der auf Antrag Dritter den Normerstellungsprozess koordiniert. Es
steht potentiellen Anwendern frei, sich künftig nach der Norm zu richten. Allerdings
darf die Norm nicht beliebig zu Werbezwecken benutzt werden; bei Missbrauch droht
eine Abmahnung. Denkbar ist, dass sich Gerichte künftig bei Klagen von abgewiesenen
Bewerbern an der DIN 33430 orientieren.
nete Person soll ermittelt werden (»Konkurrenzauslese«).
4 Nur eine Stelle ist frei, für die sich mehrere Interessenten bewerben. Die bestgeeig-
Ziel ist die wechselseitige optimale Zuordnung oder Platzierung.
4 Die Anzahl der offenen Stellen und die Anzahl der Bewerber entsprechen einander.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Anforderungsbezug
Kandidaten vorab möglichst Informationen über den Arbeitsplatz geben
Vorgehensweise der Vorauswahl und die Auswahlkriterien vorab festlegen
Gesetzliche Vorgaben (u. a. Schweigepflicht, Datenschutz) beachten
Kandidaten vorab über die Untersuchungssituation aufklären und diese angemessen gestalten.
Bei den Personen, die an der Eignungsuntersuchung beteiligt sind, wird zwischen Auftraggeber, Auftragnehmer und »Mitwirkenden« unterschieden, die einzelne Verfahren
durchführen und auswerten können. Auftraggeber kann z. B. ein Unternehmen sein,
das freie Stellen besetzen möchte. Der eignungsdiagnostische Prozess kann von Mitarbeitern des Unternehmens in Eigenregie durchgeführt werden, es können aber auch
externe Experten beauftragt werden. In beiden Fällen wären diese Personen Auftragnehmer. Der Auftragnehmer ist hauptverantwortlich für den gesamten Prozess, der von
der Planung und Durchführung der Untersuchung über die Auswertung und Interpretation der Ergebnisse bis zum Bericht an den Auftraggeber reicht. Er muss die zur
Verfügung stehenden Verfahren und Prozesse kennen. Dazu gehören auch Kenntnisse
über die Konstrukte (z. B. Intelligenz) und über die Qualität und Einsatzvoraussetzungen der Verfahren. Bestimmte Teilprozesse, insbesondere die Durchführung und Auswertung einzelner Verfahren, kann er an »Mitwirkende« delegieren.
Von den Verfahren wird verlangt, dass sie grundsätzlich einen Bezug zu den Anforderungen aufweisen. Ein Verfahren, das bei einer Fragestellung passend ist, kann
bei einer anderen völlig unangemessen sein. Es werden jedoch auch allgemein gültige
Auswahlkriterien genannt. So sollen in den Unterlagen zu einem Verfahren die Handhabung erklärt und Angaben gemacht werden, die zu einer kritischen Bewertung
nötig sind. Konkrete Anforderungen werden an die Objektivität, Zuverlässigkeit, Gültigkeit und die Normen formuliert. In einem Anhang der DIN-Norm finden sich detaillierte Forderungen, welche Informationen über ein Verfahren verfügbar sein
sollten (z. B. zur Zielsetzung, der theoretischen Grundlage, bestimmte Aspekte der
Reliabilität).
Nach gegenwärtigem Stand (Juli 2005) ist nur eine Lizenzierung von Personen realisiert worden. Organisiert werden die Prüfungen von der Deutschen Psychologenakademie (DPA), einer Bildungseinrichtung des BDP, die auch ein öffentlich zugängiges
Register lizenzierter Personen führt. Für die Zulassung zur Prüfung ist kein bestimmter
Berufs- oder Studienabschluss erforderlich, wohl aber ein Nachweis angeleiteter Praxiserfahrung. Informationen zur DIN-Prüfung, aber auch weitere aktuelle Informationen
zur DIN 33430 finden sich über die Homepage des BDP (http://www.bdp-verband.
org/bdp/politik/din.shtml). Das Grundwissen zur DIN 33430, das zugleich auch für die
Zertifizierung nach DIN 33430 prüfungsrelevant ist, liegt in einem von Westhoff et al.
(2005) herausgegebenen Band vor.
4
4
4
4
4
Leitsätze für die die Vorgehensweise bei berufsbezogenen Eignungsbeurteilungen
welche Folgen eine mangelnde Kooperation haben kann und wer von den Ergebnissen
der Untersuchung erfährt.
8.2 · Personalbeurteilung
447
8
Um Antworten auf jede dieser Fragestellungen zu erhalten, bedient sich die berufliche
Eignungsdiagnostik nahezu der gesamten Palette verfügbarer Instrumente, vielleicht
mit Ausnahme der projektiven Verfahren. Innerhalb des Entscheidungsprozesses, der
zur Einstellung bzw. zur Ablehnung eines Bewerbers führt, kommt auch heute noch
dem Bewerbungsgespräch die Funktion eines Eckpfeilers zu (. Tab. 8.2). Darin ist
allerdings eine gewisse Gefahr insofern enthalten, als implizite Theorien auf Seiten des
Gesprächsleiters eine informationssuchende und entscheidungsleitende Funktion
übernehmen können, und zwar zu Lasten einer sachlichen Angemessenheit. Daher
sind strukturierte Interviews gegenüber unstrukturierten wegen ihrer höheren Validität
und Fairness - die Bewerber werden weitgehend gleich behandelt - zu bevorzugen.
Was Tests angeht, so kommen hauptsächlich solche zur Allgemeinen Intelligenz zur
Anwendung. Insbesondere der Zusammenhang der Allgemeinen Intelligenz mit der
Leistungshöhe im Beruf ist durch zahllose Untersuchungen empirisch gut belegt, und
zwar für nahezu alle Gruppen von beruflichen Tätigkeiten (s. Eckardt & Schuler, 1992,
S. 538). Weitere Merkmale, die mittels Leistungstests erfasst werden, gehören je nach
den Anforderungen der zu besetzenden Stellen zu den Bereichen der anschauungsge-
Wird in Zukunft eine einheitliche europäische Norm angestrebt?
Die DIN 33430 auf europäischem Parkett zu präsentieren und u. a. dort zu etablieren
ist eine sinnvolle und folgerichtige Idee, aber so schwierig es war, sich national zu einigen, so schwierig wird es sein, sich europäisch zu einigen. In Österreich hat man zwischenzeitlich die DIN 33430 in eine Önorm übernommen. Vorbildlich sind zwar die
Vorstellungen der British Psychological Society, die A-, B-, C-Lizenzen für Testanwender vorsehen. Aber die DIN 33430 rückt ja gerade vom Test ab und betont den gesamten Prozess der Eignungsbeurteilungsarbeit. Das ist weit mehr als Testanwenden! <
Woran kann beispielsweise ein Bewerber erkennen, dass seine berufliche Eignung
professionell nach den DIN-Standards beurteilt wird?
Zunächst einmal daran, dass die Rückmeldung, die jemand nach der Eignungsbeurteilung erhält, die eigenen Leistungen und Neigungen angemessen widerspiegelt. Problematisch wird das naturgemäß dann, wenn Bewerber sich anders sehen als sie von Eignungsbeurteilern erlebt werden. Aber die DIN 33430 will da ja gerade helfen, Willkür
in der Eignungsbeurteilung abzustellen.
Was bedeutet DIN 33430 für Absolventen eines Psychologiestudiums, die in ihrem
angestrebten Beruf berufliche Eignungsdiagnostik betreiben wollen?
Zunächst bedeutet es, dass Absolventen der Psychologie sich auf Augenhöhe mit
den Angehörigen anderer Berufsgruppen messen müssen, wenn es um Mitarbeit in der
beruflichen Eignungsbeurteilung geht. Sie alle haben über solides Wissen zu verfügen
und auftragsangemessen zu planen sowie eignungsbezogene Informationen zu erheben.
eine Fortbildungsserie für in der Eignungsbeurteilung Tätige entwickelt (s. http://www.
dpa-bdp.de/willkommen__21.html). Deshalb wurde auch eine Lizenzprüfung konzipiert und zwischenzeitlich schon über 40mal durchgeführt. Deshalb wurde ein öffentliches Register erstellt, in das sich - auch psychologiefremde - Personen nach erfolgreicher Lizenzprüfung eintragen lassen können. Deshalb wird weiter für die DIN 33430
geworben, damit aus der Normungsidee eine normierte, gute Praxis wird, bei der nicht
einfach Schritte weggelassen oder vergessen werden, die für die so entscheidende Beurteilung der Eignung von Personal wesentlich sind.
8.2 · Personalbeurteilung
Tests zur Allgemeinen
Intelligenz
Bewerbungsgespräch
449
8
8
Prognosegüteb
.51
.54
.48
.51
.38
.41
.37
.35
.26
.02
Berufserfolg
Einsatzhäufigkeit (%) a
3
12
5
50
51
5
12
14
32
3
Ausbildungserfolg
Prognosegüteb
.56
_
–
.35
.35
.38
–
.30
.23
–
Einsatzhäufigkeit (%) a
32
20
40
55
28
10
6
11
5
0
bundenen Intelligenz (Wahrnehmungsgeschwindigkeit und -genauigkeit) sowie der
Psychomotorik (Hand- und Fingergeschicklichkeit, sensomotorische Koordination).
Insbesondere wird jedoch den letzteren gewöhnlich ein sehr viel geringeres Gewicht als
den kognitiven Fähigkeitsfaktoren zugemessen. In . Tab. 8.2 sind unter »Leistungstests« Verfahren zusammengefasst, die berufsrelevantes Wissen erfassen.
Leistungsmotivation stellt weithin verbreiteten Überzeugungen zufolge eine ganz
wesentliche Voraussetzung für beruflichen Erfolg dar. Spangler (1992) führte eine
Metaanalyse über insgesamt 105 empirische Untersuchungen zum Zusammenhang
zwischen Leistungsmotivation und verschiedenen Leistungsmaßen durch. Die Leistungsmotivation wurde entweder durch Fragebogen (193 Korrelationen, N = 15.328)
oder durch einen projektiven Test, den TAT (190 Korrelationen; N = 12.961) gemessen. Unter den analysierten Leistungsmaßen stellen reale Leistungen im Leben, bspw.
Einkommen oder Verkaufserfolge, das härteste Validitätskriterium dar. Fragebogenmaße korrelierten durchschnittlich zu .13 mit realen Leistungen, TAT-Maße zu .22.
Bei den Koeffizienten handelt es sich um beobachtete, unkorrigierte Werte. Die leichte Überlegenheit des projektiven Verfahrens ist möglicherweise auf eine Konfundierung mit Intelligenz zurückzuführen. Intelligentere Personen produzieren eher längere Geschichten zu den TAT-Bildern, und mit der verbalen Produktivität steigt das
Motivmaß an.
Eine weitere Metaanalyse (Robbins, Lauver, Le, Davis, Langley & Carlstrom, 2004)
galt der Beziehung zwischen psychosozialen Faktoren, unter anderem auch von – mit
Fragebogen erfasster – Leistungsmotivation und Studienerfolg. Die Autoren errechneten eine mittlere Korrelation von .26 (korrigiert .30) zwischen Leistungsmotivation und
a
Anmerkung. Leicht modifiziert nach Schmidt-Atzert (2005, S. 227). Ergebnisse zu ausgewählten
Verfahren. Weitere Erläuterungen im Text.
Einsatzhäufigkeit in deutschen Unternehmen nach Schuler, Frier und Kaufmann (1993); prozentualer Anteil der Unternehmen, die das Verfahren zur externen Personalauswahl bei
Auszubildenden/(Fach-) Arbeitern, Angestellten ohne Führungsaufgaben, Trainees und Führungskräften einsetzen. Bei Interview jeweils höchste Nennungshäufigkeit aus Personalabteilung oder Fachabteilung.
b nach Schmidt und Hunter (1998).
c Zur Spezifizierung dieser Verfahren 7 Text.
Kognitive Leistungstests
Arbeitsproben
Leistungstestsc
Interview, strukturiert
Interview, unstrukturiert
Persönlichkeitstestsc
Assessment Center
Biograf. Fragebogen
Referenzen
Graphologie
Verfahren
. Tabelle 8.2. Einsatzhäufigkeit und Prognosegüte verschiedener Verfahren zur Vorhersage
von Ausbildungs- und Berufserfolg
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Leistungsmotivation
450
6
bei der Bundeswehr«
Wie viele Psychologen arbeiten bei der Bundeswehr, welche Anforderungen müssen
sie bei der Einstellung erfüllen, und wie werden sie weiter für ihre Einstellung qualifiziert?
Zahl der Psychologinnen und Psychologen bei der Bundeswehr: 180.
Anforderungen bei der Einstellung:
4 Hauptdiplom in Psychologie einer Universität,
4 Uneingeschränkte Bereitschaft zum Einsatz im gesamten Bundesgebiet,
4 Uneingeschränkte Bereitschaft zur truppenpsychologischen Ausbildung und zur
Teilnahme an Auslandseinsätzen der Bundeswehr (ggf. im Soldatenstatus),
> Interview mit Dr. Dieter Hansen zum Thema »Psychodiagnostische Verfahren
Studienleistungen in Form von Noten (17 Korrelationen, N = 9.330). Fazit: Trotz der
plausiblen Annahme, dass berufliche Leistungen oder Studienleistungen erheblich von
der Leistungsmotivation abhängen, lassen sich zwar positive, aber doch nur schwache
Korrelationen finden.
Zwischen den »Big-Five«-Persönlichkeitsmerkmalen und Berufserfolg besteht nur
ein schwacher Zusammenhang. Barrick, Mount und Judge (2001) haben insgesamt 15
Metaanalysen dazu vorgefunden und die Ergebnisse daraus aggregiert. Der höchste
Zusammenhang besteht mit einer Korrelation von .12 für Gewissenhaftigkeit (Mittelwert von 239 Studien, N = 48.000). Nach Korrektur für Varianzeinschränkung und
Reliabilität entspricht dem eine Korrelation von .27 auf Konstruktebene. In Tab. 8.2
sind unter »Persönlichkeitstests« Ergebnisse zu einer speziellen Variante von Fragebögen aufgeführt, nämlich Integritätstests. Diese Verfahren wurden entwickelt, um
kontraproduktives Verhalten im Unternehmen (Diebstahl, Alkohol- oder Drogenkonsum, Beschädigung oder Zerstörung von Sachen etc.) vorherzusagen. Integritätstests
weisen nicht nur eine beachtliche Validität auf, sie haben zudem eine inkrementelle
Validität gegenüber der Intelligenz (Schmidt & Hunter, 1998). In Deutschland finden
Integritätstests kaum Verwendung.
Relativ gute Validitäten erbringen biografische Fragebogen, deren Grundgedanke
darin besteht, »dass vergangene Erfahrungen und deren subjektive Verarbeitung
brauchbare Prädiktoren künftigen Verhaltens sein müssten« (Schuler & Prochaska,
1992, S. 171). Metaanalysen ergaben allerdings, dass die Höhe der Validitätskoeffizienten stark von der jeweiligen Gruppe abhängt, sodass z. B. akzeptable Werte bei
Militärs und Wissenschaftlern, nur sehr niedrige hingegen (aus verständlichen Gründen) bei Jugendlichen zu beobachten waren (zusammenfassend s. Schuler & Prochaska, 1992).
Die bei den erwähnten und weiteren Prädiktortypen als durchschnittlich ermittelten Validitätskoeffizienten sind in . Tab. 8.2 zusammengestellt. Die in der ersten Spalte
aufgeführten Befragungsergebnisse zeigen, dass die Anwendungshäufigkeit eines Verfahrens mehrfach nicht mit der Validität korrespondiert. So haben sich kognitive Leistungstests, andere Leistungstests und Arbeitsproben zur Vorhersage von Berufserfolg
bewährt. Den Befragungsergebnissen zufolge werden sie dennoch relativ selten eingesetzt.
Eine Institution, in der Personalauswahl in großem Umfang betrieben wird, ist die
Bundeswehr. Das 7 Interview mit Dr. Hansen gibt einen Einblick in die Praxis der Personalauswahl und informiert über die Anforderungen an Psychologen, die bei der
Bundeswehr tätig sein wollen.
8.2 · Personalbeurteilung
Biografische
Fragebogen
Andere Persönlichkeitsmerkmale
451
8
Ein wiederkehrendes Problem eignungsdiagnostischer Untersuchungen besteht darin,
dass Testverfahren zum Einsatz gelangen, die nicht in ausreichendem Maße auf die
üblichen Testgütekriterien hin überprüft wurden. Das liegt vielfach daran, dass zahlreiche Betriebe aufgrund sehr spezifischer Voraussetzungen und Anforderungen der jeweiligen Stellen zunächst eigene Testverfahren entwickeln, die dann aus Zeit- oder
Geldmangel, mitunter auch weil nach einer Stellenbesetzungsphase nicht mehr die
! Eignungsdiagnostische Untersuchungen werden durchgeführt, um größtmögliche Übereinstimmung zwischen beruflichen Anforderungen und optimaler
Bewerberauswahl und -zuordnung zu erreichen. Dazu bedient sie sich nahezu
der gesamten Palette verfügbarer Instrumente. Besondere Bedeutung kommt
dem Bewerbungsgespräch zu.
In welchem Verhältnis steht nach Ihren Erfahrungen der personelle Aufwand der
psychologischen Eignungsdiagnostik zu dessen Nutzen?
Militärische Ausbildungsgänge sind im Allgemeinen mit hohen Kosten verbunden
(z. B. kostet die Ausbildung eines Kampfpiloten 1,5 Mio Euro). Darüber hinaus können
Fehlleistungen von Spezialpersonal, das fälschlicherweise ausgewählt wurde, in risikoreichen Situationen (z. B. Flugsicherheit) zu dramatischen Konsequenzen führen. Personalauswahl dient insofern nicht nur dazu, die Versagerraten in der Ausbildung auf
einem vertretbar niedrigen Niveau zu halten, sondern auch der Gewährleistung der
Sicherheit und Effektivität im Einsatz. Sowohl aus qualitativer als auch aus ökonomischer Sicht hat sich der Einsatz der psychologischen Eignungsdiagnostik mit dem damit
verbundenen personellen Aufwand im Rahmen der Bundeswehr ausgezahlt. <
Wie ist es Ihren Erfahrungen zufolge um die prognostische Validität der eingesetzten diagnostischen Verfahren bestellt?
Die Erfassung der prognostischen Validität der in der Bundeswehr eingesetzten diagnostischen Verfahren bereitet erhebliche Probleme, da die Verfahren häufig geändert
werden (Berücksichtigung neuer Anforderungen in der Ausbildung und im beruflichen Einsatz), und weil die Zeitspanne zwischen Testdurchführung und der Verfügbarkeit von Leistungsergebnissen aus der Ausbildung bzw. aus der beruflichen Bewährung
zumeist mehrere Jahre beträgt. Einige Analysen zeigen, dass die Validitätskoeffizienten
der simulationsgestützten Arbeitsproben im Mittel über .50 liegen, während Intelligenz- und Konzentrationsverfahren mittlere Werte um .40 erreichen. Weniger valide
sind Interview und Gruppensituationsverfahren.
Für den Laien müssten Integritätstests in einer Organisation wie der Bundeswehr
eine große Bedeutung haben, stimmt das?
Sog. Integritätstests finden bei der Bundeswehr keine Verwendung.
Für Außenstehende kommen Fragen der Belastbarkeit eine besondere Bedeutung
innerhalb militärischer Belange zu; stimmt das, und welcher Art sind die darauf
gerichteten Instrumente?
Das Merkmal »Belastbarkeit« ist in der Tat für die Mehrzahl der militärischen Verwendungen von besonderer Bedeutung.
Belastbarkeit wird mit folgenden Instrumenten bewertet:
4 teilstandardisiertes Interview (Prüfgruppe aus Psychologen und Offizieren),
4 Verhaltensbeobachtung bei simulationsgestützten Arbeitsproben,
4 Verhaltensbeobachtung bei Gruppensituationsverfahren.
8.2 · Personalbeurteilung
8
Problem: Mangelnde
Testgüte der Verfahren
453
8
Platzierung
Selektion
guter Eindruck
vorwiegend Leistungsmerkmale
nicht unbedingt erforderlich
Messgegenstand
Normen
Welcher Proband passt am besten
zu dem Beruf?
Ziel des Probanden
Fragestellung
unbedingt erforderlich
auch Interessen und Persönlichkeit
realistisches Bild
Welcher Beruf passt zum
Eignungsprofil des Probanden?
Platzierung
. Tabelle 8.3. Unterschiede zwischen Selektion und Platzierung
Notwendigkeit weiterer Testuntersuchungen besteht oder sich die Gegebenheiten im
Umfeld ändern, keiner weiteren Überprüfung mehr unterzogen werden.
Ein weiterer Problembereich liegt darin, dass Eignungsdiagnostik in aller Regel
Status- und nicht Prozessdiagnostik ist. Damit bestimmt gleichsam die Tagesform der
Bewerber ihre Chance, und die punktuellen Messungen eröffnen nur geringe Möglichkeiten, treffsichere Aussagen über künftige Entwicklungen der Bewerber zu machen.
Um die Statusdiagnostik durch die Perspektive des Prozessualen zu erweitern, wurden u. a. die Entwicklungen des Assessment Centers (7 Abschn. 8.2.2) vorangetrieben.
Bei dieser Technik werden mehrere Personen für meistens 2–3 Tage unter gleichsam
»kasernierten« Bedingungen zusammengeführt. In derartigen Settings bearbeiten die
Probanden nicht nur vielfältige Leistungs- und Persönlichkeitstests, sondern nehmen
auch an Gruppen- und Kommunikationsübungen teil, simulieren Arbeits- und Gruppenprozesse usw. Die Ergebnisse werden i. Allg. von Führungskräften des betreffenden
Konzerns und von Psychologen beurteilt. Trotz des relativ hohen Aufwandes an Kosten
und Personal finden Assessment Center wegen ihrer relativ hohen Validität zunehmend
mehr Anwendungsbereiche.
In vielen Fällen dürfte die »Methode der Wahl« in der Realisierung einer möglichst
langen Probezeit liegen. Allerdings erhalten darin nur die bereits eingestellten Bewerber
die Chance, sich in der konkreten Arbeitssituation zu bewähren.
Während in Unternehmen und Behörden vorrangig eine Konkurrenzauslese betrieben wird, stellt sich bei der Berufsberatung die Frage nach der richtigen Platzierung.
Welcher Beruf oder welche Berufsausbildung ist für den Ratsuchenden am besten geeignet? Diese Frage wird an Psychologen der Bundesagentur für Arbeit gerichtet (7 dazu
auch Interview mit Prof. Hilke). Selektion und Platzierung unterscheiden sich in mehrfacher Hinsicht (. Tab. 8.3). Bei einer Selektion genügt es, einige wenige Merkmale der
Bewerber zu erfassen, die einer Anforderungsanalyse und Validitätsuntersuchungen
zufolge für den einen Beruf relevant sind. Auch wenn mehrere Bewerber geeignet sind,
wird nur der beste ausgewählt; die Auswahl bezieht sich auf Personen. Für eine Berufswahlentscheidung werden die Anforderungen mehrerer Berufe mit dem Eignungsprofil des Ratsuchenden abgeglichen; hier bezieht sich die Auswahl auf Berufe.
In einer Auswahlsituation werden sich die Bewerber günstig darzustellen versuchen. Beim Einsatz von Fragebögen und Interviews ist deshalb mit Verfälschungen zu
rechnen. Auch in einem Assessment Center besteht die Gefahr, dass sich Bewerber so
präsentieren, wie es ihnen vorteilhaft erscheint. In einer Beratungssituation ist die Motivlage eine andere; der Proband wird sich eher so darstellen, wie es für ihn typisch ist.
Deshalb kommen in dieser Situation auch Verfahren in Frage, die leicht verfälscht wer-
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Problem: Meist nur
Statusdiagnostik
454
6
Wie viele Psychologen arbeiten bei der BA, welche Anforderungen müssen sie bei
ihrer Einstellung erfüllen, und wie werden sie weiter für ihre Tätigkeit qualifiziert?
Insgesamt arbeiten im PD der BA 443 Psychologinnen und Psychologen, 410 in den
Agenturen, 20 in den Regionaldirektionen und 13 im BA-Servicehaus und der Zentrale.
Worin unterscheiden sich die Tests, die vom Psychologischen Dienst der BA verwendet werden, von den Tests, die von den Testverlagen zum Kauf angeboten werden?
Wir müssen im Rahmen von psychologischen Begutachtungen auch Aussagen machen,
auf die Entscheidungen über finanzielle Leistungen der BA gestützt werden können. Wir
müssen deshalb auf den Testschutz besonderen Wert legen. Dies ist der zentrale Grund
für die Entwicklung BA-eigener Testverfahren. Bei der Entwicklung der Verfahren
orientieren wir uns an denselben Konstruktionsprinzipien und wissenschaftlichen Kriterien wie andere Testkonstrukteure auch. Wir haben allerdings den nicht zu unterschätzenden Vorteil, Auswahl bzw. Konstruktion der Einzeltests stärker populations- und
fragestellungsbezogen vornehmen zu können als ein Testautor, der für den Markt produziert. Zudem stellen wir bei den BA-eigenen computergestützten Tests durch verzweigte Testinstruktionen sicher, dass die Ratsuchenden mit dem Testmaterial vertraut
sind, bevor der eigentliche Test beginnt. Für die im Rahmen der Entwicklung der Tests
notwendigen empirischen Studien können wir in der Regel auf relativ große Stichproben
zurückgreifen und haben damit eine gute »empirische Basis« für unsere Verfahren.
scher Verfahren bei Berufseignungsuntersuchungen«
Wie viele Berufseignungsuntersuchungen führt die Bundesagentur für Arbeit (BA)
jedes Jahr durch und zu welchem Zweck wird von der BA Diagnostik betrieben?
Eignungsurteile werden im Rahmen jeder beruflichen Beratung und bei jeder Vermittlung durch eine Vermittlungs- und Beratungsfachkraft der BA abgegeben. Es sind im
Jahr etwa 240.000 solcher Untersuchungen. Wir unterscheiden fünf Arten von Begutachtungen; das Spektrum reicht von der »Begutachtung nach Aktenlage« über die
»Standardisierte Eignungsuntersuchung« mit dem Berufswahltest (BWT) bis zur »Psychologischen Begutachtung von hochgradig Sinnesbeeinträchtigten«. Es geht dabei
immer um Fragen der beruflichen Eignung, aber zumeist nicht um Fragen der Eignung
alleine. Zum Psychologischen Dienst (PD) kommen Menschen im Alter von 14 Jahren
bis über 50 Jahre, Menschen jedes Bildungsniveaus, geistig behinderte Menschen ebenso wie Akademiker und Menschen mit Behinderungen, deren berufliche Eingliederung
der Agentur-Psychologe unterstützt. Er muss Eignungsaussagen zu etwa 800 Berufen
machen.
Eigentlich müsste ich von der Agentur-Psychologin sprechen, denn wir haben bald
mehr weibliche Psychologen beschäftigt als männliche.
> Interview mit Prof. Dr. Reinhard Hilke zum Thema »Anwendung diagnosti-
den können. Persönlichkeitsmerkmale und (berufliche) Interessen sind für die Platzierung relevant und werden daher berücksichtigt. Da für die einzelnen Berufe Mindestanforderungen (z. B. eine mindestens durchschnittliche Intelligenz) feststehen,
sind normierte Werte erforderlich. Die Verfahren müssen nicht nur normiert sein, es
ist auch erforderlich, dass berufsbezogene Vergleichswerte von erfolgreichen Stelleninhabern verfügbar sind.
8.2 · Personalbeurteilung
8
Prof. Dr. Reinhard Hilke, Leiter des Psychologischen Dienstes der
Bundesagentur für
Arbeit
455
8
Unbestimmt bleibt in dieser Definition allerdings noch das »diagnostische Modell«:
Dieses entwickelte sich aus einer Überwindung der Vorstellungen, dass es eine Art
»Führungspersönlichkeit« gebe, die in der Lage sei, ein weites Spektrum von Anforderungen zu meistern und als eine Funktion stabiler Persönlichkeitsmerkmale verstanden
werden müsse. Dagegen wird mittlerweile davon ausgegangen, dass es – anstelle von
breit generalisierten Führungskompetenzen – individuelle Stärken und Schwächen der
Mitarbeiter zu berücksichtigen gelte, die mit den speziellen Anforderungen der Führungsposition verglichen werden müssten; nur im Hinblick auf diese Anforderungen
könne Führungseignung sachgerecht diagnostiziert werden.
Im AC wird versucht, die zukünftigen Anforderungssituationen zu simulieren, um
so individuelle Fähigkeiten im Verhalten beobachtbar (und damit diagnostizierbar) zu
machen.
»Ein Assessment Center ist ein umfassendes, standardisiertes Verfahren, im Rahmen
dessen unterschiedlichste Beurteilungs- und Bewertungsverfahren, wie beispielsweise
situative Übungen, Interviews, Unternehmungsplanspiele, Tests, Gruppendiskussionen und eine Vielzahl von Simulationen eingesetzt werden, um einzelne Mitarbeiter
im Hinblick auf verschiedene Zielsetzungen zu beurteilen. Eine Anzahl ausgebildeter
Beurteiler, die nicht im direkten Vorgesetztenverhältnis zu den Teilnehmern stehen
sollen, verbringen 3 bis 5 Tage mit der Beobachtung der Kandidaten und bewerten sie
abschließend hinsichtlich ihres Managementpotentials und ihres Weiterbildungsbedarfs. Die Beurteilungsergebnisse werden den vorgesetzten Stellen mitgeteilt und dienen dann als Grundlage personalpolitischer Entscheidungen, wie Beförderung, Versetzung und Karriereplanung. Wenn die Ergebnisse auch den Teilnehmern bekanntgegeben werden, sollen sie zur eigenen individuellen Entwicklungsplanung beitragen.«
Beschreibung des AC
Neues Modell der
Führungseignung
Diagnostische Zielsetzungen und Prinzipien: Das Assessment Center (AC) ist eine
Methode der Personalauswahl und -entwicklung. Ursprünglich wurde dieses zeitlich
und finanziell aufwändige Verfahren vor allem zur Auswahl von Führungskräften,
Spezialisten und Trainees eingesetzt. Erst seit Mitte der 70er Jahre findet es auch als
Instrument der Personalentwicklung verstärkt Anwendung. Die meisten Organisationen kombinieren heute beide Aspekte miteinander. Bemerkenswerterweise bilden
in Deutschland Hochschulabsolventen die größte Zielgruppe von AC-Seminaren, sofern es um die Auswahl für Trainingsprogramme geht (s. Obermann, 1992, S. 31).
Eine nähere Gegenstandsbeschreibung, die alle wesentlichen Elemente eines AC
aufzeigt, stammt von Blumenfeld (1971, zit. nach Stehle, 1982, S. 50):
8.2.2 Exkurs: Assessment Center
Fazit
Es kann festgehalten werden, dass ein »gemischtes« Verfahren mit möglichst verschiedenen Prädiktionselementen und auch einigen Interventionsansätzen, wie es
im Assessment Center praktiziert wird, die insgesamt verlässlichsten Prognosen liefern dürfte. Unabdingbare Bestandteile darin wären (zumindest halbstandardisierte)
Vorstellungs- oder Bewerbungsgespräche, bewährte Leistungstests zu kognitiven
Funktionen sowie Verhaltensbeobachtungen zu simulierten Arbeitsproben, die den
zukünftigen Tätigkeiten möglichst weitgehend ähneln.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Zielsetzungen des AC
458
Zudem erfolgt im Anschluss an die Absolvierung des AC-Programms für jeden Teilnehmer ein Rückmeldegespräch mit individuellem Feedback in Bezug auf das konkrete Anforderungsprofil. Diese Offenheit und Transparenz führen dazu, dass die Akzeptanz des AC durch die Teilnehmer weit über derjenigen anderer eignungsdiagnostischer
Methoden liegt.
Steht die Optimierung einer Selektionsentscheidung im Zuge der Personalauswahl
im Vordergrund, spricht man von Auswahl- oder Beurteilungsseminaren. Kommt es
hingegen bei der Veränderung von Personen oder Bedingungen als Teil der Personalentwicklung auf eine Modifikationsentscheidung an, ist eine Bezeichnung als Entwicklungs- oder Förderungs-Seminar üblich (Jeserich, 1981, S. 36).
Der Einsatz eines AC als Bestandteil der Personalauswahl ist nach Obermann (1992,
S. 16) immer dann sinnvoll, wenn überfachliche Eigenschaften eine wesentliche Rolle
für den Berufserfolg spielen. Es eignet sich dabei gleichermaßen zur Unterstützung der
Selektion externer wie auch interner Bewerber.
Von diesen Annahmen ausgehend ist das AC folgenden Prinzipien verpflichtet (vgl.
Neubauer, 1980, S. 125):
4 Verhaltensorientierung: Nicht Persönlichkeitseigenschaften, sondern Verhaltensweisen als Indikatoren der Eignung bilden die Grundlage der Beurteilung. Zur
Provokation von Verhaltensweisen bedarf es der möglichst realistischen Simulation
der zukünftigen Führungsanforderungen. Die Ähnlichkeit der situativen Übungen/
Arbeitsproben mit den tatsächlichen Aufgaben bestimmt die Genauigkeit der Vorhersage (= Repräsentationsschluss der Verhaltenstheorie, 7 Abschn. 1.4 und 1.6).
4 Anforderungsbezogenheit: »Die Diagnose kann nicht besser sein als die Vorstellung darüber, wodurch sich geeignete von weniger geeigneten Mitarbeitern unterscheiden« (Jeserich, 1981, S. 53). Neubauer (1980, S. 125) spricht davon, dass Eignung sich nur durch das »geeignet wofür« bestimmen lässt. Von daher ist für jedes
AC eine detaillierte Anforderungsanalyse unabdingbar notwendig.
4 Methodenvielfalt: Das Prinzip der Methodenvielfalt dient dazu, die Fehlerquellen
einzelner Verfahren auszugleichen. Einzelne Anforderungskriterien müssen in
Rollenübungen, Gruppendiskussionen, Simulationen usw. mehrfach und unabhängig voneinander beobachtbar sein, um Beurteilungen zuverlässig vornehmen
zu können.
4 Mehrfachbeurteilung: Gewöhnlich wird jeder Teilnehmer eines AC-Seminars von
mehreren Personen (in der Regel Führungskräfte des Unternehmens) beobachtet,
und zwar abwechselnd in verschiedenen Einzelübungen, um etwaige Beobachtungs- und Beurteilungsfehler auszugleichen. Das Verhältnis von Teilnehmern zu
Beobachtern ist meist 2:1. Die Verhaltensbeobachtung erfordert ein intensives Training und wiederholte Schulung der Führungskräfte. Diese aus dem eigenen Unternehmen für die Aufgaben innerhalb der AC-Seminare zu rekrutieren, bringt eine
Reihe von Vorteilen mit sich: Kenntnis der Unternehmenskultur und damit der
angestrebten »Passung« zwischen Anforderungen und Bewerbern, Möglichkeiten
der Selbstdarstellung und Repräsentation des Unternehmens, Kontaktanbahnung
zur kommenden Führungsgeneration u. a.
4 Transparenz: Schon bei der Konstruktion, später auch bei der Durchführung, liegen
die Anforderungen und Beobachtungskriterien offen. Der Zusammenhang zwischen
Verfahren und Ziel ist evident, die inhaltliche Verwandtschaft der Übungs- und Simulationselemente zur Zielfunktion und dem Soll-Zustand stellt eine Besonderheit
dar, die gleichsam eine Art Gegenpol zu den projektiven Verfahren markiert.
8.2 · Personalbeurteilung
8
Auswahl- oder Entwicklungsseminare
Rückmeldung
Transparenz
Mehrfachbeurteilung
Methodenvielfalt
Anforderungsbezogenheit
Verhaltensorientierung
Prinzipien des AC
459
8
Verfahren der Anforderungsanalyse. Eine exakte und umfassende Anforderungsmessung und der aus ihr abgeleitete Anforderungsrahmen liefern den Maßstab für die
Beurteilung der Teilnehmerleistungen im AC. Die Strukturierung des Anforderungskataloges erfordert auf der höchsten Abstraktionsebene einen Satz von Kategorien,
denen ein Komplex von spezifischen Verhaltensweisen bzw. Tätigkeiten (Merkmale)
zugeordnet ist. Bei der Konstruktion von Übungselementen muss darauf geachtet werden, dass diese Anforderungsmerkmale für den Beurteiler im Verhalten beobachtbar
sind. Durch die Gewichtung der Anforderungen entsteht das Anforderungsprofil, das
in der Regel die gewünschte Mindestausprägung bzw. die Ausprägungsspanne des
Merkmals für eine bestimmte Position definiert.
Bei der Durchführung des AC mit Entwicklungszielsetzung sind die Anforderungen weniger eng und konkret auf eine bestimmte Position bezogen definiert. Es wird
vielmehr eine breitere organisationsspezifische Vorstellung von Führungsfähigkeiten
realisiert.
Die Methoden der Anforderungsanalyse teilt Obermann (1992, S. 77) in 2 große
Blöcke ein, die er »Bottom-up-« und »Top-down-Verfahren« nennt. Die Gruppe der
»Bottom-up-Vorgehensweisen« hilft die Frage zu beantworten, wie sich gegenwärtig
erfolgreiche von weniger erfolgreichen Positionsinhabern unterscheiden. Durch die
Orientierung an momentan bestehenden Strukturen gerät aber der Versuch, zukünftige Veränderungen und Entwicklungen mit zu berücksichtigen, zu einem äußerst
schwierigen Unterfangen.
Die »Top-down-Methoden« hingegen orientieren sich nicht am Bestehenden,
sondern an strategischen Unternehmungszielen, Marktentwicklungen und Werten, die das Unternehmen in Zukunft prägen sollen. Damit wird die Vorwegnahme von zukünftigen Entwicklungen zur Leitlinie für die Beurteilung von Mitarbeitern.
Zwei prototypische Vertreter der »Bottom-up-Vorgehensweise« sind:
Anforderungsanalyse
Top-down
Bottom-up
Operationalisierung
durch beobachtbare
Verhaltensweisen
Mehr Raum nehmen AC-Veranstaltungen hingegen unter der Perspektive der Personalentwicklung ein. Diesbezüglich eröffnen sich u. a. die folgenden Anwendungsmöglichkeiten (nach Obermann, 1992, S. 18 ff.):
4 Trainingsbedarfsanalysen: Diagnostizierte und präzise umschriebene Schwächen
von Mitarbeitern liefern den Ansatz für individuell abgestimmte bedarfsorientierte
Trainingsmaßnahmen,
4 Potentialanalyse: Insbesondere im Hinblick auf weiterführende Aufgaben,
4 Kompetenzerweiterung: Z. B. in Kommunikation oder Führung,
4 Entwicklung der Unternehmenskultur: Förderung der Identifikation der Mitarbeiter mit unternehmerischen Werten,
4 Laufbahnplanung/Ausbildungsberatung,
4 Hilfsmittel der Arbeitsplatzgestaltung: Die Ergebnisse von AC-Veranstaltungen
müssen sich nicht auf Veränderungen an Personen beschränken, sondern können
auch solche von bestehenden Arbeitsbedingungen mit einschließen, etwa in Form
der Erweiterung von Aufgaben, Verantwortung und Herausforderung (darunter Job
enlargement, Job enrichment, Job rotation, 7 Abschn. 8.4),
4 Trainingsevaluation,
4 berufliche Rehabilitation: AC-Untersuchungen an Rehabilitanden können nicht
nur das Ausmaß an Einschränkung und Behinderung attestieren, sondern auch
positiv aufzeigen, in welchen Bereichen welche Kompetenzen vorhanden sind
(s. Schuler & Stehle, 1983, S. 40).
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
AC zur Personalentwicklung
460
6
1. Auf »Verhaltensindikatoren« gestützte Verfahren.
Aus eigenschaftsorientierten Methoden wie
– Intelligenztests,
– allgemeinen Leistungstests,
– Interessentests
lassen sich nur unter Rekurs auf psychologische Theorien Vorhersagen über konkretes Verhalten ableiten. Solche Verfahren sind dem AC gemeinhin wesensfremd, doch wird – trotz ihrer geringen Transparenz und Akzeptanz – gelegentlich zu Zwecken der Grobklassifikation darauf zurückgegriffen.
Kategorien der AC-Übungen nach Neubauer (1980, S. 129 ff.)
Übungen des AC-Verfahrens. Zwar besteht die Möglichkeit, Standardübungen – ggf.
mit Modifikationen – anzuwenden, doch spricht die Spezifität der jeweiligen Anforderungen eher dafür, gesonderte (»maßgeschneiderte«) Übungen zu konstruieren. Ungeachtet ihrer Vielfalt und Spezifität lassen sich dabei jedoch nach Neubauer (1980,
S. 129 ff.) die in der 7 Übersicht dargestellten Kategorien unterscheiden.
gen Strukturen (Bottom-up) oder an zukünftigen Entwicklungszielen (Topdown) einer Organisation orientieren.
! Die Methoden der Anforderungsanalyse können sich entweder an gegenwärti-
Weitere Verfahren sind bei Jeserich (1981) und Obermann (1992) beschrieben, darunter auch der Fragebogen zur Arbeitsanalyse von Frieling und Hoyos (1978), der unter
7 Abschn. 8.4 kurz vorgestellt wird.
1. Die Critical Incident Technique (CIT). Die von Flanagan (1954) entwickelte CIT
verlangt von den Führungskräften der Zielebene, dass sie mehr oder weniger typische Vorfälle, darunter insbesondere wichtige und plötzliche/unerwartete Ereignisse, auflisten. Der erhaltene Katalog wird Führungskräften vorgelegt, die die
Zielposition kennen. Diese sollen beurteilen, mit welchen Verhaltensweisen erfolgreiche und mit welchen weniger erfolgreiche Stelleninhaber diese Vorfälle meistern. Über die Gewichtung und Systematisierung der Verhaltensweisen gelangt
man zu einem Anforderungsprofil. Ein Vorteil dieser Methode besteht darin, dass
aus der CIT sowohl kritische Verhaltensweisen und somit Beurteilungsdimensionen als auch Situationsaspekte und somit Bausteine für AC-Übungen abgeleitet
werden können.
2. Die Repertory-Grid-Technik (REP). In einer Modifikation der auf Kelly (1955) zurückgehenden Methode werden von den Führungskräften mehrere erfolgreiche
und weniger leistungsfähige Kollegen genannt. Deren Namen, auf Karten geschrieben, werden in verschiedenen Dreiergruppen Experten vorgelegt. Diese sollen die
Gemeinsamkeiten von 2 Personen benennen, die diese beiden von der dritten Person unterscheiden. Ähnlichkeit bzw. Unterschiedlichkeit sollen sich auf die konkrete Funktion der Personen als Führungskräfte beziehen und in Form beobachtbaren
Verhaltens beschrieben werden. Daraus resultiert eine Liste von Gegensatzpaaren,
die zu einem Fragebogen zusammengefasst und mit Skalen versehen wird. Mit
Hilfe dieses Fragebogens wird das Verhalten von erfolgreichen und weniger erfolgreichen Stelleninhabern eingeschätzt.
8.2 · Personalbeurteilung
8
AC-Übungen
Beispiel: Benennung
von Gemeinsamkeiten
Beispiel: Auflistung
typischer Vorfälle
461
8
Validität. In Abhängigkeit von der Zielsetzung eines AC, dessen inhaltlichen Bausteinen, der Stichprobe der daran teilnehmenden Personen und den verfügbaren Kriterien
tenz und Retestung) kommt beim AC als weiterer Zugang die Prüfung der Übereinstimmung zwischen den Beurteilern hinzu. Je nachdem, ob nur einzelne Übungen oder
deren Gesamtheit eingeschätzt werden und je nachdem, ob die Beurteiler unabhängig
voneinander vorgehen oder nicht, schwanken die Werte für die Interraterreliabilität
erheblich und liegen zwischen .50 und .90. Ähnliches gilt für Maße der internen Konsistenz. Kommen sehr verschiedene Aspekte von Leistungen zum Tragen, können die
betreffenden Koeffizienten allenfalls mittlere Höhen erreichen (um .50; s. Hinrichs &
Haanperä, 1976). Wiederholungsuntersuchungen fehlen wegen der damit verbundenen Kosten und auch deshalb, weil durch ein AC Veränderungen induziert werden
sollen: Ein erneutes AC-Seminar mit der gleichen Zielsetzung würde nicht mehr an den
gleichen personalen Voraussetzungen anknüpfen.
Reliabilität. Zu den üblichen Ansätzen der Reliabilitätsabschätzung (interne Konsis-
Auswertung. Grundsätzlich sollte eine strikte Trennung in die zwei Abschnitte von
Beobachtung einerseits und Beurteilung andererseits stattfinden. In der ersten Phase
werden lediglich Daten gesammelt, in der zweiten diese den Beurteilungskriterien zugeordnet. Die strenge Trennung soll gewährleisten, dass nicht bereits durch erste und
diffuse Eindrücke die Qualität der Daten gemindert wird. Den Ergebnissen von Thornton et al. (1987) zufolge lässt sich die Auswertungsobjektivität durch die Hinzuziehung
von Psychologen und Managern, die die Anforderungen gut kennen und im Hinblick
darauf die gezeigten Leistungen angemessen interpretieren können, verbessern.
Methodenvielfalt und Einsatz mehrerer Beobachter sind der Auswertungsobjektivität deshalb förderlich, weil sich dadurch ein Fehlerausgleich (potentiell) erzielen
lässt.
Trennung von
Beobachtung und
Beurteilung
Prüfung der Beurteilerübereinstimmung
Durchführung. Obgleich in der eingangs gegebenen Definition von »Standardisierung«
die Rede war, ist Objektivität der Durchführung beim AC nicht gegeben, was mit den
Besonderheiten situativer Übungen zu tun hat.
2. Auf »früheres Verhalten« gestützte Verfahren.
Nach dem Credo der Verhaltenstheorie »The best predictor of future performance is past performance« (Wernimont & Campbell, 1968, S. 372) kommen hier
in Betracht:
– Hintergrundinterviews,
– biographische Fragebogen.
3. Auf »aktuelles Verhalten« gestützte Verfahren.
Sie bilden das Kernstück der AC-Methodologie:
– schriftliche Einzelübungen (Ausarbeitungen; Postkörbe),
– mündliche Einzelübungen (Vorträge und Präsentationen; Interviewsimulation und Rollenspiele).
4. Gruppendiskussionen.
5. Sonstige Verfahren.
Mischformen aus den vorgenannten Verfahren; Lockerungsübungen ohne Bewertungsdruck, Peer-ratings, computersimulierte Unternehmensplanspiele.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Keine Durchführungsobjektivität
462
.37
.36
.53
.33
.35
.36
Beförderung
Frühe Identifikation
Auswahl
Forschung
.30
.46
.41
.48
Resultate – unterteilt nach Zielen des AC
Leistung
Potential
Dimensionen
Training
Karriere
Resultate – unterteilt nach Kriterienmaßen
Gesamtresultat
Validitätsmittelwert
.0293
.0000
.0032
.0000
.0203
.0373
.0998
.0197
.0000
.0172
Varianz
.04 bis .64
.46 bis .46
.30 bis .52
.48 bis .48
.08 bis .64
.15 bis .91
–.29 bis .95
.07 bis .63
.36 bis .36
.11 bis .63
Konfidenzintervall
65
0
9
0
43
64
77
69
0
46
P
. Tabelle 8.4. Ergebnisse der Metaanalyse von Thornton et al. (1987). (Aus Obermann, 1992,
S. 255) P »wahre« Varianz der Validität in den Studien
ist eine erhebliche Streuung der Validitätskoeffizienten zu erwarten. In die Metaanalyse von Thornton et al. (1987) gingen 50 Einzelstudien ein, deren Validität zwischen
rtc = –.25 und +.78 variierte. Bei den Kriterien handelte es sich um Einschätzungen der
Arbeitsleistung, des Leistungspotentials, der Leistungen in den im AC verwendeten
Dimensionen und der Leistungen in einem Managertrainingsprogramm sowie um
Maße der Karriereentwicklung wie Gehaltserhöhungen und Anzahl der Beförderungen. Nach einer Artefaktkorrektur für die Stichprobenfehler aufgrund der wechselnden
(und häufig nur mäßigen) Gruppengrößen der Einzelstudien, für die mangelnde Reliabilität der Kriterien und für die aufgrund der starken Vorselektion eingeschränkte
Messwertestreuung (nicht aber für die Unreliabilität der Prädiktoren) betrug die mittlere prädiktive Validität rtc = .37 (. auch Tab. 8.2). Die getrennt für die einzelnen Kriterienmaße und Ziele der AC ermittelten Validitätskoeffizienten sind aus . Tab. 8.4 ersichtlich. Die Frage nach der Generalisierbarkeit der Validität kann bejaht werden, da
die Berechnung des 95%-Konfidenzintervalles einen unteren Wert von rtc = .11 ergab,
der auf dem 1%-Niveau von Null verschieden ist.
Weitere Untersuchungen, darunter solche zur inkrementellen Validität einzelner
Bausteine des AC, haben Neubauer und Volkmann (1989) zusammengestellt.
Nicht alle der in der Literatur berichteten Validitätskoeffizienten sind direkt mit
denjenigen herkömmlicher Tests vergleichbar, und zwar deshalb nicht, weil die Ergebnisse des AC gewöhnlich den Teilnehmern und anderen Führungskräften detailliert
mitgeteilt werden. Daraus mögen Effekte im Sinne einer »self-fulfilling prophecy« resultieren, und zwar auch deshalb, weil Beförderungs- und Besetzungsentscheidungen
vom Wissen der AC-Ergebnisse beeinflusst sein können, somit das Kriterium vom
Prädiktor nicht unabhängig ist. Außerdem kann jemandem, dem beispielsweise in einer
AC-Veranstaltung herausragende Entwicklungspotentiale zuerkannt wurden, später
nur schwer völliges Versagen attestiert werden, zumal dann nicht, wenn die Beurteiler
der AC-Leistungen und derjenigen aus dem regulären Arbeitsablauf teilweise dieselben
8.2 · Personalbeurteilung
Mangelnde Vergleichbarkeit mit herkömmlichen Tests
Erhebliche Streuung
der Vailiditätskoeffizienten
463
8
8
Einengung anderer
Validitätsaspekte
Im Vergleich zu anderen eignungsdiagnostischen Verfahren wie Praktika, Schulnoten,
Tests, biografischen Daten und graphologischen Gutachten nimmt das AC hinter dem
Vorstellungsgespräch Platz 2 in Bezug auf die soziale Validität ein. Die berichteten
Ergebnisse gelten allerdings ausschließlich dem AC als Selektionsinstrument; über
analoge Einordnungen unter der Entwicklungsperspektive fehlen zunächst Anhaltspunkte.
Mit dem hohen Ausmaß an sozialer Validität geht andererseits eine gewisse Einengung anderer Validitätsaspekte einher. So beklagt Neubauer (1980, S. 154 ff.) die Ausrichtung auf einen ganz bestimmten »Erfolgstyp«, einen »Vielredner mit eindrucksvollem Auftreten und Durchsetzungsvermögen«, des Weiteren »übungsspezifische Filtereffekte«, da das Medium aller Übungen die verbale Ausdrucksfähigkeit sei. Generell
muss zudem damit gerechnet werden, dass die demotivierenden Effekte auf Seiten
nichterfolgreicher Teilnehmer besonders gravierend sind.
In Bezug auf jeden der Gesichtspunkte ist das AC anderen Methoden deutlich überlegen. Der Zusammenstellung von Obermann (1992, S. 269 ff.) folgend gilt:
4 das AC wird als wenig angst- und stressinduzierend erlebt,
4 es hat eine hohe Augenschein-(Face-)Validität,
4 nach Teilnahme verschiebt sich die positive Einschätzung der sozialen Validität
noch mehr zugunsten des AC, hängt aber verständlicherweise auch z. T. vom Abschneiden selbst ab.
Positive Beurteilung
der AC
Soziale Validität
AC zumindest
»gleichwertig«
Personen sind. Von daher besteht die Gefahr einer direkten Kriterienkontamination
(s. dazu Klimoski & Brickner, 1987) und artifiziell erhöhter Validitäten. Von eminent
wichtiger Bedeutung ist deshalb die berühmte AT & T-Studie von Bray et al. (1974), in
der die AC-Ergebnisse gegenüber Teilnehmern und Vorgesetzten geheim gehalten wurden. Dessen ungeachtet belief sich auch unter diesen Gegebenheiten die prädiktive
Validität nach einem Vorhersageintervall von 8 Jahren auf rtc = .46.
Angesichts solcher Befunde gelangt Hossiep (1994, S. 96) in seiner Würdigung des
AC, die sich an dem Kriterienkatalog des Testkuratoriums orientiert (7 Abschn. 2.3), zu
der Feststellung, »dass die AC in ihrer Vorhersagekraft für Beförderungskriterien und
subjektive Leistungskriterien alternativen Prädiktoren eher überlegen, zumindest aber
gleichwertig erscheinen«.
Mit dem Begriff der »sozialen Validität« haben Schuler und Stehle (1983) eine Art
Kontrastkonzept zur empirisch-technischen Vorhersagevalidität geschaffen. Damit
werden die Reaktionen der Getesteten auf die eignungsdiagnostischen Untersuchungen
in den Vordergrund von Erwägungen gerückt. Die soziale Validität betrifft den sozialen
Kontext der Diagnostik und ist durch 4 Aspekte gekennzeichnet:
4 Berücksichtigung sozialpsychologischer Anforderungen (insbesondere die Information über die zur Selbstselektion relevanten Charakteristika von Arbeitsplatz
und Organisation),
4 Partizipation der Betroffenen (sowohl bei der Entwicklung als auch der Durchführung von Untersuchungen),
4 Transparenz,
4 angemessene wechselseitige Kommunikation (darunter Urteilskommunikation,
Feedback in rücksichtsvoller, verständlicher und nachvollziehbarer Form).
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Gefahr direkter
Kriterienkontamination
464
6
Worin bestand im vorliegenden Fall Ihre Leistung?
Auf der Basis umfangreicher Anforderungs- und Sollprofil- Analysen haben wir ein
umfangreiches Management Assessment (MA) zusammengestellt. Dieses MA wird von
den Managern der oberen Ebenen besucht. Im Rahmen der umfangreichen Verhaltensdiagnostik wird ein Stärken- und Schwächenbild der einzelnen Teilnehmer und in der
Aggregation der Führungsmannschaft erstellt. Im Rahmen von Feedbacksitzungen
werden aus den individuellen Ergebnisreports individuelle Entwicklungsmaßnahmen
abgeleitet.
Aus welchen Gründen entscheiden sich Unternehmen dafür, Ihre Dienste in Anspruch zu nehmen? Vielleicht können Sie das an einem Beispiel erläutern.
Aktuell ist unsere Auftragslage durch die wirtschaftliche Situation geprägt. Fragestellungen der Verhaltens- und Leistungsdiagnostik (Management Diagnostik) in Zeiten
der Reorganisation oder der Akquisition haben eine entsprechende Nachfrage. Aber es
gibt auf der anderen Seite auch die Kunden, die ihre Entwicklungsprogramme weiter
elaborieren. So führt aktuell ein Kunde, Marktführer im Bereich der technischen Kommunikation, eine Zusammenführung beider Fragestellung in der Art durch, dass er mit
unserer Hilfe umfangreiche Potentialassessments im Top-Management umsetzt, um im
Anschluss daran die Weiterentwicklung des Managements differentiell und damit gezielter gestalten zu können.
Managementberatung«
Herr Dries, stellen Sie doch bitte erst einmal Ihre Firma kurz vor. Wie viele Psychologen sind bei Ihnen beschäftigt und worauf haben Sie sich spezialisiert?
Wir, das kölner institut für managementberatung, sind eine Unternehmensberatung,
die sich auf die Kompetenzfelder Personalmanagement und Organisationsberatung
spezialisiert hat. Durch die wissenschaftlich-psychologische Ausbildung unserer 15 fest
angestellten Mitarbeiter und die enge Zusammenarbeit mit verschiedenen Hochschulen bearbeiten wir Fragestellungen der Praxis auf der Basis neuester wissenschaftlicher
Erkenntnisse und Methoden. Insbesondere im AC Bereich gehören wir zu den führenden Anbietern in Deutschland. So vergeht kein Tag im Kalenderjahr, an dem nicht einer
unserer Berater im nationalen oder internationalen Kontext ein Assessment durchführt.
> Interview mit Dr. Christian Dries zum Thema »Assessment Center in der Praxis:
»Das Assessment Center leistet einen wichtigen Beitrag zu Auswahlprozessen in
Wirtschaft und Verwaltung... Der Trend zum Assessment Center ist... ungebrochen,
da gleichermaßen eine durchgängig hohe Akzeptanz durch Unternehmen und Bewerber gegeben ist und Inhalt wie Ablauf von Gruppenauswahlverfahren als anforderungsnah erlebt werden. Anwendungsgebiete, Zielgruppen und Erfassungsbreite
des Verfahrens sind denkbar groß...« (Hossiep, 1994, S. 102), die Ökonomie des Verfahrens im diametralen Gegensatz dazu äußerst gering.
Von den Hauptgütekriterien kann nur die Validität zufriedenstellen, die im Einzelfall sehr stark von der Sorgfalt in Entwicklung und Durchführung abhängt. Die
hohe soziale und die Augenscheinvalidität sind potentielle Hinderungsgründe für
die Notwendigkeit von kontrollierten Bewährungsstudien.
Fazit
8.2 · Personalbeurteilung
Dipl.- Psych. Dr. Christian Dries, Geschäftsführer des kölner
instituts für managementberatung.
465
8
8
. Abb. 8.4. Die Wirkung
von Kontext- und ContentVariablen auf Unzufriedenheit und Zufriedenheit. (Aus
von Rosenstiel, 1992, S. 77)
Motivatoren und
Satisfaktoren
Hygienefaktoren
Tätigkeitsbezogene Diagnostik und Intervention
1. Die sog. Hygienefaktoren, die die Rand- und Folgebedingungen der Arbeit betreffen:
Sie werden auch als Kontextvariablen bezeichnet. Diese Art von Variablen affiziert
die extrinsische Arbeitsmotivation, und sie können Unzufriedenheit abbauen, ohne
deshalb Zufriedenheit zu erzeugen. Im Hinblick darauf ist auch eine Bezeichnung als
»Dissatisfaktoren« gebräuchlich. Zu dieser Ebene zählen u. a. Faktoren wie
5 Führungsstil,
5 Arbeitsbedingungen,
5 interpersonale Beziehungen,
5 Gehalt.
2. Demgegenüber betreffen die Contentvariablen die intrinsische Arbeitsmotivation
(deshalb auch die Bezeichnung »Motivatoren«). Bei entsprechender Ausprägung
führen sie zu Zufriedenheit (»Satisfaktoren«). Dazu gehören u. a.
5 Leistung,
5 Anerkennung (der eigenen Leistung),
5 Verantwortung.
Zweifaktorentheorie der Arbeitszufriedenheit von Herzberg et al. (1959)
Für die Ausgestaltung tätigkeitsbezogener Maßnahmen, also jener, die an konkreten
Handlungen innerhalb einer Organisation ansetzen, war die Zweifaktorentheorie der
Arbeitszufriedenheit von Herzberg et al. (1959) von maßgeblichem Einfluss. Selbst
wenn diese Theorie und mehr noch die daran ansetzenden Operationalisierungen während der letzten 25 Jahre mannigfaltige Kritik erfahren haben, soll sie dennoch hier
vorgestellt werden.
Herzberg unterscheidet zwei Ebenen, die für die Arbeitszufriedenheit verantwortlich sind (7 Übersicht). . Abbildung 8.4 veranschaulicht diese Theorie als dimensionales System.
8.4
verwandt, bei dem ein älteres Organisationsmitglied einen ihm zugeordneten jüngeren
Mitarbeiter berät und unterstützt.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Zweifaktorentheorie
von Herzberg
468
6
Instruktion und Beispielitems für die Bereiche
Informationsaufnahme und Gefährdungsarten
1.
Informationsaufnahme und Informationsverarbeitung
Arbeitselemente 1.01 bis 1.66
1.1.
Quellen der Arbeitsinformation
Hinweise zur Einstufung der Arbeitselemente 1.01 bis 1.20
Stufen Sie die Arbeitselemente danach ein, wie häufig sie als Informationsquellen vom Stelleninhaber benutzt werden, um die Aufgaben erfolgreich
erledigen zu können.
Fragebogen zur Arbeitsanalyse (FAA)
Beispiel
Die daraus ableitbaren praktischen Implikationen sind mannigfach; zumindest einige
können hier angesprochen werden:
Auf der Ebene der Kontextfaktoren kommt die Optimierung von Bereichen bzw.
Variablen wie Lärmpegel am Arbeitsplatz, Beleuchtungsverhältnisse (man denke an das
berühmte 1939 publizierte Hawthorne-Experiment), Arbeitsmodelle (z. B. Auswirkung von Schichtarbeit auf psychische, vegetative und psychosomatische Variablen)
und weitere potentielle Stressoren in Betracht. Etwa hat die Einführung der Computer
am Arbeitsplatz ganz neue Probleme geschaffen. Viele der daran tätigen Menschen
klagen z. B. über Kopf- und Rückenschmerzen oder Augenreizung usw.
Das vorrangige Interventionsziel der Psychologie in diesem Bereich besteht dementsprechend darin, möglichst günstige Arbeitsrahmen- bzw. Arbeitsplatzbedingungen zu schaffen. Dadurch soll der Umfang an Beeinträchtigungen in erträglichem Ausmaß gehalten werden, etwa in Gestalt verbesserter Beleuchtungsverhältnisse, der Schaffung von Ruheräumen, der Bereitstellung von strahlungsarmen Bildschirmen usw.
Auch die Erhebung und Umsetzung möglichst wenig belastender Schichtarbeitsmodelle gehört hierher.
Vielen Untersuchungen zufolge ziehen verbesserte Arbeitsplatzbedingungen auch
bessere Leistungen nach sich, sodass Maßnahmen der besagten Art auch im Interesse
der Unternehmensleitung liegen, ganz abgesehen von den Vorgaben des Programms
zur »Humanisierung der Arbeitswelt« (zusammenfassend s. Frieling & Sonntag,
1987).
Verbesserungen in diesen Bereichen würden im Sinne der Theorie die Unzufriedenheit reduzieren, ohne Einfluss auf die Arbeitszufriedenheit zu nehmen.
Hauptsächlich auf diese Ebene bezieht sich der in Deutschland weit verbreitete
»Fragebogen zur Arbeitsanalyse FAA« von Frieling und Hoyos (1978), der aus dem im
angloamerikanischen Raum gebräuchlichen »Position Analysis Questionnaire PAQ«
(McCormick et al., 1969) hervorgegangen ist. Die annähernd 200 Items gelten Variablengruppen wie kognitiven Prozessen (u. a. Informationsaufnahme), dem Arbeitsoutput, der Beziehung zu anderen Personen, der Arbeitsumgebung u. a. (7 Beispiel). Das
»Ziel des FAA ist es, explizit das Was der Tätigkeit zu analysieren« (Gebert & von Rosenstiel, 1989, S. 232). Die Beantwortung der Fragen geschieht teilweise durch Befragungen, teilweise durch Beobachtungen. Das Verfahren eignet sich hauptsächlich zur
Beschreibung und Bewertung motorischer Tätigkeiten und weniger für diejenige geistiger Arbeiten. Die erhaltenen Resultate erlauben nicht zuletzt auch einen Vergleich
verschiedener Tätigkeiten miteinander.
8.4 · Tätigkeitsbezogene Diagnostik und Intervention
8
FAA: Befragung und
Beobachtung
FFA zur Arbeitsanalyse
Humanisierung
der Arbeitswelt
Bessere Leistungen
Praktische Implikationen: Bessere
Arbeitsbedingungen
469
8
Wie häufig dient Zahlenmaterial (Material, das aus Zahlen oder Beträgen besteht; z. B. numerische Angaben, Rechnungen, technische Daten oder Zahlentabellen) als Quelle der Arbeitsinformation?
H 1.03
Wie häufig dient handgeschriebenes Material (z. B. Entwürfe für Briefe, Notizen, handschriftliche Anweisungen oder Stenogramme) als Quelle der Arbeitsinformation?
H 1.02
Optische Quellen der Arbeitsinformation
Wie häufig dient gedrucktes, maschinengeschriebenes oder in Druckschrift geschriebenes Material (z. B. Bücher, Zeitschriften, Zeitungen, Berichte, Dienstschreiben, Texte oder Briefe) als Quelle der Arbeitsinformation?
H 1.01
Auf der Ebene der »Satisfaktoren« bietet sich u. a. das Verfahren der »Subjektiven
Arbeitsanalyse SAA« von Udris und Alioth (1980) an, dessen 50 Items sich auf die
folgenden Bereiche richten (von denen die letzten beiden mehr zu den Dissatisfaktoren
gehören):
Gefährdung durch Hitze bzw. Feuer
H 4.19
(Der Stelleninhaber ist bei seiner Arbeit der Gefahr von Verbrennungen ausgesetzt;
z. B. beim Schweißen, beim Kochen oder beim Löschen von Bränden)
Gefährdung durch »Arbeit an erhöhten Plätzen«
H 4.18
(Der Stelleninhaber arbeitet auf Leitern, Gerüsten, Dächern, Kaminen usw. Berücksichtigen Sie bei der Einstufung, dass die Unfallgefährdung durch die Wettereinflüsse noch gesteigert werden kann)
Gefährdung durch sich bewegende oder fallende Objekte
H 4.17
(Der Stelleninhaber steuert oder bedient Fahrzeuge und/oder Transportgeräte, oder
er arbeitet an Transporteinrichtungen, Hebezeugen oder Hochregalen; z. B. Anschläger, Gabelstaplerfahrer, Kranführer oder Lagerist)
Gefährdungsarten
Gefährdung durch Werkzeuggebrauch
H 4.16
(Der Stelleninhaber benutzt unfallträchtige Werkzeuge; z. B. Schnitt- und Stechwerkzeuge, Sägen oder Skalpelle)
1.1.1
Die Häufigkeit soll dabei auf die Gesamtheit aller am Arbeitsplatz auftretenden Arbeitsprozesse bezogen werden.
Schlüssel (H)
Häufigkeit
0
trifft nicht zu
1
sehr selten
2
selten
3
mittel
4
häufig
5
sehr häufig
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
SAA zur subjektiven
Arbeitsanalyse
470
»Mit Hilfe der SAA kann die Arbeitssituation, wie sie subjektiv wahrgenommen wird, in
theoretisch relevanten Aspekten erfasst werden, wobei das Verfahren den Vorteil hat,
zur Analyse recht unterschiedlicher Arbeitstätigkeiten eingesetzt werden zu können«
(von Rosenstiel, 1992, S. 71).
Handlungsspielraum (z. B. Autonomie),
Transparenz (z. B. im sozialen Bereich),
Verantwortung (z. B. für eine gemeinsame Aufgabe),
Qualifikation (Anforderung, Einsatz, Chance),
soziale Struktur (z. B. Unterstützung durch Kollegen),
Arbeitsbelastung.
Die sog. »neuen Wege psychologischer Arbeitsgestaltung« beinhalten im Grunde all
solche Maßnahmen, die im Sinne der Herzbergschen Theorie die intrinsische Arbeitsmotivation erhöhen können und somit den negativen Folgen der tayloristischen Vereinzelung und Entfremdung (»innere Kündigung«, höhere Fluktuation und Fehlzeiten)
entgegenwirken. Des Weiteren zielen sie auch auf eine sinngebende und zufriedenstellende Arbeitssituation, eine Erhöhung der Partizipation der Arbeitenden, und sie richten sich in der Regel an den Vorgaben der »Humanisierung der Arbeitswelt« aus:
Job enlargement: Erweiterungen der Aufgaben im horizontalen Sinne. Ausführung
von verschiedenen Tätigkeiten an einem Arbeitsplatz, die zuvor von mehreren, stärker
spezialisierten Arbeitskräften verrichtet wurden. Eine solche Form der Arbeitsumgestaltung bringt allerdings keine Autonomie oder Partizipation mit sich, sondern nur
eine Vergrösserung des Tätigkeitsspielraumes.
Job rotation: Geplanter Arbeitsplatztausch innerhalb eines Bereiches. Auch dieser
Ansatz zielt vor allen Dingen auf eine höhere Qualifikation des Arbeitenden ab.
Job enrichment: Ausweitung des Arbeitsbereiches in horizontaler und vertikaler
Richtung; letzteres bedeutet Zugestehen von Autonomie- und Entscheidungsspielräumen. Konkret könnten einem Beschäftigten nicht nur zusätzliche Arbeitselemente,
sondern in gewissen Grenzen auch die Planung und Endkontrolle seiner Tätigkeit
übertragen werden.
Der Ansatz der teilautonomen Arbeitsgruppen vereint die 3 vorgenannten Konzepte. Darunter versteht man »kleine funktionale Einheiten der regulären Organisationsstruktur (ca. 3 bis 10 Personen), die konstant zusammenarbeiten und denen die
Erstellung eines kompletten (Teil-)Produkts oder einer Dienstleistung mehr oder weniger eigenverantwortlich übertragen wurde« (Bungard & Antoni, 1993, S. 391).
Obwohl auch die Autonomie solcher Arbeitsgruppen im konkreten Fall recht eingeschränkt sein mag, überzeugt der Gedanke in konzeptioneller Hinsicht als eine perspektivenreiche Alternative, die Arbeitenden mehr in das Geschehen der Organisation
einzubinden.
Eine weitere Maßnahme auf dem Weg zu einer Erhöhung der intrinsischen Arbeitsmotivation besteht in der Implementierung von »Qualitätszirkeln«, deren Aufgabe
primär darin besteht, innerhalb der eigenen Gruppe Problembereiche in moderierten
Gesprächsrunden zu thematisieren und Lösungsvorschläge aufzuzeigen.
Wie bereits dargelegt, dürften die »humanitären« Gesichtspunkte kaum ausschlaggebend dafür sein, sie in der Praxis umzusetzen, um damit zu einer Erhöhung der Arbeitszufriedenheit beizutragen. Vielmehr werden es eher ökonomische Überlegungen
sein, die auf Seiten der Unternehmensleitung handlungsbestimmend sind. Das Motto
von der Humanisierung der Arbeitswelt stellt insofern im Regelfall wohl nur eine sozial
4
4
4
4
4
4
8.4 · Tätigkeitsbezogene Diagnostik und Intervention
Ökonomische Ziele
handlungsbestimmend
Qualitätszirkel
Teilautonome
Arbeitsgruppen
Umfassende Ausweitung des Arbeitsbereiches
Arbeitsplatztausch
Tätigkeitsspielraum
Erhöhung der
intrinsischen Arbeitsmotivation
471
8
8
Verbesserung der
Kommunikation
Interpersonale
Kommunikation als
Problemfeld
Konfliktdiagnostik
Diagnostik und Intervention bei Gruppen
Angesichts der zunehmenden Verwirklichung von Gruppenarbeitskonzepten (wie teilautonome Arbeitsgruppen, Qualitätszirkel u. a.) in Organisationen befasst sich neuerdings die ABO-Psychologie auch mehr und mehr mit gruppenspezifischen Diagnostikund Interventionsfragestellungen. Dabei wird allerdings fast ausschließlich auf bekannte Ansätze aus der Sozialpsychologie zurückgegriffen, sodass es genügt, hier ganz
kurz einige Beispiele herauszustellen.
Von zentralem Interesse ist u. a. die Konfliktdiagnostik, die etwa anhand strukturaler Organisationsmerkmale erfolgen könnte (dazu würden u. a. die Wettbewerbshaltung innerhalb von und zwischen den Gruppen gehören, des Weiteren vielleicht gleiche
oder unklare Machtverhältnisse zwischen oder innerhalb der Gruppen usw.). In einem
solchen Fall müsste es dem Psychologen darum gehen, die Bedingungen herauszufinden, die zur Entstehung, Aufrechterhaltung und Förderung von Konflikten führen.
Diese Faktoren können auch individueller Art sein und das Verhalten der einzelnen
Beschäftigten beeinflussen, wie z. B. Überbetonung der eigenen Ziele, Verheimlichung
der »eigentlichen« Interessen, Hintergehen der anderen Gruppen, »mobbing« u. Ä.
Aus den sozialpsychologischen Experimentalanordnungen aus dem Arbeitskreis
um Sherif (Sherif et al., 1961) ist bekannt, dass konfliktuöse Situationen zur Intensivierung des Gruppenzusammenhaltes, zu einer steigenden Zielorientierung und der Bereitschaft, autoritäre Führungsstile zu akzeptieren, beitragen. Als denkbare Lösung
kommt u. a. in Betracht, die Kooperation durch Konzipierung von Zielen zu fördern,
die nur gemeinsam erreichbar sind.
Ein weiteres Problemfeld, hauptsächlich im Verhältnis zwischen Gruppen, besteht
in der interpersonalen Kommunikation. In Bezug auf diese wird die psychologische
Diagnostik und Intervention vor allem zur Aufdeckung und Beseitigung von Kommunikationsfehlern eingesetzt. Die Grundfrage diagnostischen Vorgehens lautet gemäß
der Laswell-Formel: »Wer sagt was zu wem auf welchem Kanal mit welchem Effekt?«
(von Rosenstiel, 1992, S. 295 ff.). Ausgehend von dieser Frage lassen sich insgesamt 5
potentielle Fehlerquellen in einer Kommunikation festmachen, die dann ggf. verändert
werden können. Zur Intervention sind 3 allgemeine Ratschläge von Sader (1976) zur
Verbesserung der Kommunikation hilfreich:
4 Kurze Wege für den Informationsfluss (wenig Schaltstellen),
4 Berücksichtigung möglicher Informationsveränderungen [man denke an Bartletts
Konzeption der Gerüchtebildung (1932)],
4 Bevorzugung der schriftlichen Form.
8.5
sische Motivationsfaktoren für die Arbeitszufriedenheit verantwortlich. Das
Modell impliziert eine Reihe von Folgerungen zur Humanisierung der Arbeit,
deren praktische Umsetzung in der Regel jedoch ökonomischen Notwendigkeiten untergeordnet ist.
! Dem Modell von Herzberg zufolge sind sowohl intrinsische als auch extrin-
erwünschte Bemäntelung einer ökonomischen Ausnützung des Produktivitätsfaktors
Gruppenarbeit dar.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Rückgriff auf die
Sozialpsychologie
472
lung von Organisationen und auf konkreter Ebene einerseits die am
Individuum ausgerichtete Beurteilung und Entwicklung von Personal
sowie andererseits die an den Arbeitsbedingungen ansetzende Analyse
und psychologische Gestaltung der Arbeit.
Ad 2. Innerhalb der Personalbeurteilung unterscheidet man die Eignungsdiagnostik von der (systematischen) Personalbeurteilung. Mit
der Eignungsdiagnostik werden Bemühungen umschrieben, größtmögliche Übereinstimmung zwischen beruflichem Anforderungsprofil einerseits und optimaler Bewerberauswahl und -zuordnung andererseits zu verwirklichen.
Zur Erreichung dieses Ziels bedient sie sich nahezu der gesamten Palette verfügbarer Instrumente, vielleicht mit Ausnahme der projektiven
Verfahren. Eine Sonderstellung nehmen die sog. Assessment Center
ein.
Die systematische Personalbeurteilung schließt eignungsdiagnostische Aussagen häufig ein, geht aber in jenen Fällen darüber hinaus, wo
es um die Abschätzung von Potentialen und die Zuführung zu Personalentwicklungsmaßnahmen geht.
Ad 3. Ein Assessment Center (AC) ist ein umfassendes, standardisiertes
Verfahren, in dessen Rahmen unterschiedlichste Beurteilungs- und Bewertungsverfahren wie z. B. Tests, Interviews oder Simulationen, eingesetzt werden, um einzelne Mitarbeiter im Hinblick auf Personalauswahl
oder -entwicklung zu beurteilen. Es wird dabei versucht, die zukünftigen Anforderungssituationen zu simulieren, um so individuelle Fähigkeiten im Verhalten beobachtbar und diagnostizierbar zu machen.
Ad 4. Der Begriff »soziale Validität« stellt ein Kontrastkonzept zur empirisch-technischen Vorhersagevalidität dar. Sie betrifft den sozialen
Kontext der Diagnostik und ist durch 4 Aspekte gekennzeichnet: Berücksichtigung sozialpsychologischer Anforderungen, Partizipation der Betroffenen, Transparenz und angemessene wechselseitige
Kommunikation.
4. Was bedeutet der Begriff
»soziale Validität«?
3. Was ist ein Assessment
Center?
2. Welche Bereiche werden in
der Personalbeurteilung
unterschieden und wie
lassen sie sich charakterisieren?
! Ad 1. Auf abstrakter Ebene zählen dazu die Diagnostik und Entwick-
8
zählen zur ABO-Psychologie?
473
? 1. Welche Anwendungsfelder
Übungsfragen
Zur historischen Entwicklung der Diagnostik im Führungsbereich, aktuellen Modellen
und der Validität von Prädiktoren für Managementpositionen s. Sarges (1994).
Weiterführende Literatur
Fazit
Diagnostik und Intervention in der ABO-Psychologie kommen vor allem praktischen
Bedürfnissen in Organisationen nach: Der Auswahl, Beurteilung und Entwicklung
von Personal, der Strukturierung von Organisationen oder deren Teilen sowie der
Analyse und psychologischen Gestaltung der Arbeit. Sie hat vor allem auf der Ebene
des Individuums (Berufseignung, Personalentwicklung und Arbeitsanalyse) theoretische Konzepte und Instrumentarien von Bedeutung hervorgebracht.
Im Bereich der Gruppendiagnostik wurden jedoch noch sehr wenige eigenständige Ansätze von Seiten der ABO-Psychologie entwickelt.
8.5 · Diagnostik und Intervention bei Gruppen
(S.485-488)
Hochbegabtendiagnostik
(S.481-485)
Diagnostik und Intervention bei
der individuellen Schülerhilfe
(S.476-481)
Diagnostik und Intervention bei
der Schullaufbahnberatung
Diagnostik und Intervention in der
pädagogischen Psychologie
9
Zurückstellung bei
mangelnder Schulfähigkeit
Bewährung ist bessere
Methode
Problem:
Bereits hohe Grundrate
Schulreife
Passung von Schulanforderungen und
Lernvoraussetzungen
Diagnostik und Intervention bei der Schullaufbahnberatung
Die Beobachtung, dass Schüler, die den Anforderungen der ersten Schulklasse nicht
gewachsen waren, ein Jahr später dem Unterricht folgen konnten, ließ Kern (1951)
vermuten, der Schulerfolg sei eine Funktion der Schulreife, die sich bei verschiedenen
Schülern zu unterschiedlichen Zeitpunkten von selbst einstelle. Man müsse nur durch
den Einsatz geeigneter Schulreifetests verhindern, dass noch nicht schulreife Kinder zu
früh eingeschult würden. Der von Kern für diese Zwecke vorgeschlagene Grundleistungstest konnte die Aufgabe jedoch nur sehr unvollkommen erfüllen. Neuere Schulreifetests (7 Abschn. 3.1.5) erwiesen sich als reliabler und auch valider. Nach Berechnung von Tiedemann (1974) können Schulreifetests jedoch die Erfolgsquote von 90%
bei Einschulung aller Schüler nur selten erreichen, sodass die Bewährung in der ersten
Klasse die bessere diagnostische Methode ist, die überdies den Vorzug hat, konkrete
Bewährungskriterien zu liefern anstelle der durch die Tests repräsentierten sehr allgemeinen Leistungsanforderungen.
Aus diesen Gründen wäre es ökonomischer, auf Schuleingangstests ganz zu verzichten und das Ergebnis der schulischen Bewährung abzuwarten. Die mit einem schulischen Versagen verbundenen traumatisierenden Lernerfahrungen lassen es jedoch
geboten erscheinen, einem noch nicht schulfähigen Kind möglichst bald die ständigen
Überforderungserlebnisse zu ersparen. Hier können bei gegebenem Verdacht auf Schulunreife eingesetzte Schuleingangstests Hinweise geben. Die Nachteile einer Zurückstellung haben sich verringert, seit Vorklassen zurückgestellten Schulanfängern eine angemessene Lernumwelt bereitstellen. Will man diese Nachteile weiter reduzieren, müssen
die Befunde von Schulreifetests durch den Einsatz weiterer Entwicklungstests abgesichert werden. Empfehlungen für einen Verbleib in der Schule sollten sich jedoch nicht
nur auf die genannten Verfahren stützen, sondern auch eine Diagnose des erreichten
Kenntnisstandes einbeziehen und detaillierte Ratschläge für eine gezielte Förderung
enthalten.
9.1.1 Diagnostik und Intervention beim Schuleintritt
Der Einsatz diagnostischer Verfahren bei der Schullaufbahnberatung wird begründet
durch den Wunsch nach Optimierung der Passung zwischen Lernvoraussetzungen
beim Schüler und schulischen Anforderungen sowie nach Vermeidung frustrierender
Erfahrungen durch schulische Überforderungen.
9.1
Diagnostik im Rahmen der Pädagogischen Psychologie war von Anfang an auf Intervention angelegt. Zwei große Bereiche zählen zu ihren Anwendungsfeldern, die
Schullaufbahnberatung und die individuumzentrierte Schülerhilfe. Während die
Intervention bei der Schullaufbahnberatung sich auf Personen- und/oder Bedingungsselektion im Sinne von Pawlik (1976) beschränkt, kann bei individueller Schülerhilfe
eher von Intervention im Sinne von Behandlung gesprochen werden.
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Ausrichtung auf
Intervention
476
Die wohl folgenschwerste Aufgabe im Rahmen von Schullaufbahnberatungen hat die
pädagogische Diagnostik bei der Überweisung von Schülern in die Sonderschule für
Lernbehinderte zu leisten, da diese Maßnahme mit dem Verlust von sozialem Status
und späteren Berufs- und Lebenschancen verbunden ist. Die Überweisungsmodalitäten sind in den einzelnen Bundesländern relativ ähnlich und durch Verwaltungsverordnungen geregelt. Sie setzen einen mehr als einjährigen allgemeinen Leistungsrückstand
in der Grundschule voraus, der durch eine weitere Klassenwiederholung nicht zu kompensieren ist. Falls sich dieser Leistungsrückstand durch Schulleistungstests objektivieren lässt, muss als weiteres Kriterium ein Intelligenzquotient <85 gegeben sein, um eine
Umschulungsempfehlung zu rechtfertigen (vgl. Kautter, 1979). Durch die Anwendung
eines objektiven Schulleistungstests soll verhindert werden, dass schwache Schüler in
sehr guten Klassen oder etwa bei zu strenger Benotung fälschlicherweise als lernbehindert eingestuft werden. Auch Schüler mit nur partiellen Lernschwierigkeiten sollen auf
diese Weise erfasst und von einer Überweisungsprozedur ausgeschlossen werden. Die
Intelligenzdiagnostik soll darüber hinaus verhindern, dass Kinder ohne kognitive Retardierungen nur aufgrund ihrer Schulleistungsdefizite in die Lernbehindertenschule
abgeschoben werden. Intelligenztests wie der HAWIK-R sind wegen ihrer Sprach- und
Schulleistungsabhängigkeit für diese Aufgabe allerdings weniger gut geeignet. Sie würden die Ergebnisse der Schulleistungsüberprüfung vermutlich nur bestätigen. Trotzdem gehört der HAWIK immer noch zu den bevorzugten Verfahren bei der Sonderschulauslese (Probst, 1984). Weniger sprachabhängige Verfahren wie die Tests aus der
Raven- oder der CFT-Reihe sind als Verfahren zur Verhinderung vorschneller Sonderschulüberweisungen besser geeignet. Für die immer größer werdende Zahl von Ausländerkindern unter den Schulversagern stellen sie auf jeden Fall die Alternative mit
der größeren Testfairness dar.
Auf den ersten Blick scheinen damit genügend Sicherungen gegen eine ungerechtfertigte Sonderschulselektion in das Auswahlverfahren eingebaut zu sein. Um so erstaunlicher ist demgegenüber die Zahl der Sonderschüler mit knapp durchschnittlicher
oder durchschnittlicher Intelligenz (Kautter, 1975). Eine Ursache für diese offensichtliche Missklassifikation könnte man in der Tatsache vermuten, dass die Ausleseverfahren nicht durch ausgebildete Psychologen, sondern durch Sonderschullehrer durchgeführt werden, die z. T. beharrlich an überalterten Testverfahren festhalten (Probst,
1984). Als Angehörige der aufnehmenden Institution sind sie obendrein nicht neutral.
Durch ihr Ausleseergebnis haben sie Einfluss auf Bestand und Ausbau ihrer eigenen
Institution. Mit dem Ausbaugrad des Sonderschulwesens erhöhte sich aber auch die
Neigung der Grundschulen, Problemschüler in die dafür scheinbar besser qualifizierte
Schulform abzuschieben. Weitere Sicherungen gegen eine zu großzügige Sonderschulselektion zeigt eine diagnostische Strategie von Kornmann (1977a; . Abb. 9.1) auf.
In den letzten Jahren ist die Unzufriedenheit der Sonderschule mit ihrer Lückenbüßerfunktion für die Unfähigkeit der Grundschule, mit Problemschülern fertigzuwerden, wie auch an dem praktizierten Ausleseverfahren deutlich gewachsen. Nicht auslesen, sondern fördern lautete die Devise eines Symposions, das sich mit Möglichkeiten
einer Förderdiagnostik befasste (Kornmann et al., 1983). Die vor allem von den Ausbildern für das Fach Sonderpädagogik ausgehenden Bestrebungen zur Veränderung der
Auslesepraxis werden von Probst (1984) allerdings skeptisch bewertet. Förderungsdiagnostische Bemühungen würden von den Grundschulen zu wenig aufgenommen und
kämen auch in der Regel zu spät, nämlich erst dann, wenn massive Lernrückstände
9.1.2 Diagnostik und Intervention bei der Sonderschulüberweisung
9.1 · Diagnostik und Intervention bei der Schullaufbahnberatung
9
Fördern statt auslesen
Möglichkeiten einer
Förderdiagnostik
Viele Sonderschüler
mit durchschnittlicher
Intelligenz
Verwendete
Testverfahren
Maßnahmen gegen
vorschnelle Sonderschuleinweisungen
Kriterien zur Sonderschulüberweisung
Folgenschwere
Aufgabe
477
9
Rechtzeitige Diagnose
soll Lernprobleme
mindern
ja
ja
ja
L
I–
Versuch
d. Inter vention
I+
KL
KL
KL
2.3
I–
Versuch
d. Regulierung
I + = Intervention erfolgreich
I – = Intervention erfolglos
1.4.
Diskrepanz
zw. schulischer
u. häusl.
Erzieh.
1.3.
plötzl.
Änd. d. Lernu. Lebensbeding.
1.2.
Schulver säumnisse
ja
I+
KL
2.4.
Persönlich keitsstörungen
2.3
Behinderung
i. S. einer and.
So - Schul art
2.2.
Hirn schädigung
L = Lernbehinderung
KL = Keine Lernbehinderung
Diagnostiker muss
sich beraten lassen
nein
nein
nein
nein
2.1.
Sozioökonom.
u. soziokultur.
Fakt.
2.
geht nicht
auf behebbare
Faktoren
zurück
ja
ja
ja
ja
Therap.
veranlassen
KL
weitere
Unters.
veranl.
KL
L
L
entstanden und mit den Mitteln der Grundschule nicht mehr zu beheben seien. Braband und Kleber (1983) versuchten daher, Sonderschullehrer als Diagnostiker und
Berater bei Lernschwierigkeiten bereits in der Grundschule einzusetzen, um ein gravierendes Lernversagen erst gar nicht entstehen zu lassen, und hatten dabei gute Erfolge. Sicher wird sich auf diese Weise nur ein Teil der Lernschwierigkeiten beheben lassen.
Die Zahl der Sonderschulselektionen zu verringern und auf das absolut notwendige
Maß zu reduzieren, ist jedoch ein erstrebenswertes Ziel. Pädagogisch-psychologische
2.
nein
nein
nein
nein
1.1.
Sinnesstörung
1.
geht auf
behebbare
Faktoren
zurück
Ist der Leistungsrückstand zeitlich überdauernd
und weder mit schulischen noch mit außer schulischen Maßnahmen behebbar ?
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
. Abb. 9.1. Strategie zur
Sonderschulauslese. (Aus
Kornmann, 1977a)
478
Die früher übliche Praxis, die Eignung von Schülern für weiterführende Schulen nur
mit Hilfe von Aufnahmeprüfungen zu ermitteln, wurde schon früh kritisiert. Der Subjektivität der Aufnahmeprüfungen und der Empfehlungen der abgebenden Grundschulen sollten Testverfahren abhelfen, die weniger schulisches Wissen als die Begabung der Schüler erfassen. Die dafür verwendeten Entwicklungstests sowie die eigens
zu diesem Zweck konstruierten Übertrittstests (. Abschn. 3.1.5.2) konnten allerdings
die Hoffnung, langfristige Prognosen von hinreichender Gültigkeit zu erstellen, trotz
Anwendung sophistizierter statistischer Methoden nicht erfüllen. Lediglich im Bereich
kurz- bis mittelfristiger Vorhersagen konnten Validitätskoeffizienten bis .60 erzielt werden. In diesem Vorhersagezeitraum konkurrieren sie jedoch mit Schulleistungsergebnissen, die als Indikatoren notwendiger Vorkenntnisse wie der kognitiven Bedingungen
zu ihrem Erwerb gelten.
Damit käme an sich dem Urteil der abgebenden Grundschule wieder ein größeres
Gewicht bei der Empfehlung zu, welche Schulart für einen Schüler am besten geeignet
sei. Für eine stärkere Gewichtung der Grundschulempfehlung spricht auch die längere
Beobachtung der Schüler, die eine zuverlässigere Einschätzung ermöglicht als eine einmalige Testuntersuchung. Gegen eine Dominanz der Grundschulempfehlung lässt sich
allerdings die eingeschränkte Vergleichbarkeit der Schulzensuren sowie eine angesichts
der drohenden Auszehrung der Hauptschule zu befürchtende Zurückhaltung mit
Übertrittsempfehlungen ins Feld führen. Obendrein vermag kein noch so zuverlässiges
und valides Lehrerurteil die konkreten Lernbedingungen der aufnehmenden Schule,
zu denen nicht nur das Anforderungsniveau der jeweiligen Schule, sondern auch die
dort unterrichtenden Lehrer gehören, hinreichend zu antizipieren.
Die sicherste Methode zur Feststellung der Eignung für eine bestimmte Schulart,
die auch die konkreten Anforderungen berücksichtigt, wäre somit, wie bei der Aufnahme in die Grundschule, die Bewährung in der gewählten Schulart. Da eine Aufnahme
aller Schüler aus Kapazitätsgründen nicht in Betracht kommt, hat sich inzwischen in
einigen Bundesländern ein Verfahren herauskristallisiert, das wichtige Komponenten
vereinigt. Auf der Basis der Übertrittsempfehlungen der abgebenden Grundschule
wählen die Erziehungsberechtigten kraft Elternrecht die gewünschte Schule. Aufnahmeprüfungen sind nur für den Fall vorgesehen, dass Übertrittsempfehlung und Elternwunsch differieren. An der aufnehmenden Schule ist eine zeitlich begrenzte Bewährungsphase zu durchlaufen, nach deren Abschluss die endgültige Entscheidung über
Verbleib oder Umschulung getroffen wird. Was auf den ersten Blick wie eine Bankrotterklärung der pädagogisch-psychologischen Diagnostik aussieht, ist bei genauerem
Hinsehen nur die Ersetzung einer unzureichenden, allein auf die Konstanz individueller Differenzen aufbauenden Statusdiagnostik durch eine auch die konkreten Kontextbedingungen einbeziehende Prozessdiagnostik. Diese sollte allerdings nicht den Lehrern allein überlassen bleiben, sondern zumindest im Problemfall auch den psychologischen Experten einbeziehen. Der hierfür zuständige schulpsychologische Dienst ist
jedoch noch nicht überall zureichend ausgebaut.
9.1.3 Diagnostik beim Übertritt in weiterführende Schulen
Diagnostik, die bereits im Stadium des Entstehens von Lernschwierigkeiten einsetzt
und die Basis für eine gezielte Förderung schafft, könnte helfen, dieses Ziel zu erreichen
(7 Abschn. 9.2).
9.1 · Diagnostik und Intervention bei der Schullaufbahnberatung
9
Prozessdiagnostik ersetzt Statusdiagnostik
Lösung: Bewährungsphase in gewünschter
Schulform
Vor- und Nachteile
der Grundschulempfehlung
Nur kurz- und mittelfristige Prognosen
möglich
Probleme langfristiger
Prognosen
Probleme von
Aufnahmeprüfungen
479
9
Das wirft die Frage auf, welche Fächer bzw. Fächer-Gruppen voneinander unterschieden werden müssen, um gegebenenfalls dafür gesonderte Verfahren vorzusehen. Ne-
Welche Fächer bilden
homogene Gruppen?
Forschungsbedarf
Ziel: Passung von
Anforderungen und
Personenmerkmalen
Kombination von
Abiturnoten, Tests und
Interviews
In der Bundesrepublik Deutschland übertrifft seit geraumer Zeit die Nachfrage nach
Studienplätzen das von den Universitäten vorgehaltene Angebot um etwa den Faktor 2,
d. h. es haben sich ungefähr doppelt so viele Studierende eingeschrieben, wie Plätze für
sie vorhanden sind. Es steht zu befürchten, dass auch in Zukunft eine Beschränkung
von Zulassungen unausweichlich ist, was die Frage aufwirft, nach welchen Gesichtspunkten das vergleichsweise rare Gut »Studienplätze« vergeben werden soll. Dieser
Frage kommt eine besondere Aktualität deshalb zu, weil den Hochschulen eine stärkere Autonomie eingeräumt werden soll, in deren Rahmen es ihnen dann auch freisteht,
zumindest einen Teil »ihrer« Studierenden selbst auszuwählen.
Im Fach Medizin war für die Selektion der TMS (7 Abschn. 1.6) entwickelt worden,
doch wurde beschlossen, ihn 1997 letztmalig einzusetzen, weil durch die Beschränkung
der Niederlassungsfreiheit für Ärzte nunmehr weniger Studienbewerber in das Fach
drängen, was den Aufwand nicht mehr rechtfertigen würde.
Ansetzend an den positiven Erfahrungen mit einem Auswahlverfahren, in dem
Tests eine Rolle spielen, und geleitet von der Absicht, das Dilemma zu überwinden, das
aus der partiellen Unvereinbarkeit von Autonomie der einzelnen Hochschulen einerseits und Einheitlichkeit des Zulassungssystems andererseits resultiert, hat der Deidesheimer Kreis (1997) Empfehlungen zur Feststellung der Studieneignung erarbeitet.
Zentral darin ist – neben einer Berücksichtigung der Durchschnittsnote im Abschlusszeugnis als Indikator der allgemeinen Studieneignung – die Entwicklung und flexible
Verwendung von studienfach- bzw. studienfeldbezogenen Fähigkeitstests vorgesehen,
im Weiteren der lokale Einsatz von Interviews, die den Bewerbern Gelegenheit geben
sollen, sich in ihrer Gesamtpersönlichkeit darzustellen und darüber hinaus ihre Motivations- und Interessenstruktur darzulegen.
Die Realisierung eines derartigen Verfahrens dürfte zu einer besseren »Passung«
von individuellen Voraussetzungen der Studierenden mit den fach- und ortsspezifischen Anforderungen an die Studierenden führen und im Gefolge davon eine Verminderung von Studienabbrüchen, Fachwechseln und Prüfungswiederholungen, allgemein
also eine effektivere Nutzung der Kapazitäten bewirken.
Einige der Voraussetzungen und Implikationen bedeuten jedoch einen gewissen
weiteren Forschungsbedarf:
4 Zur Erreichung des besagten »person-job-fit« gehört nicht nur die Auswahl von
Personal, sondern auch dessen Entwicklung, also die Vermittlung von Kenntnissen
und Fähigkeiten zur Bewältigung der beruflichen Anforderungen.
Über die Sozialisation an und durch Hochschulen ist freilich vergleichsweise wenig
bekannt (s. Amelang & Hoppensack, 1977; Hoffmann & Stiksrud, 1994).
4 Die wechselseitige »Passung« und die Entwicklung von Prognosesystemen erfordern
systematische Anforderungsanalysen, die sich des besonderen Methodenarsenals der
Arbeits- und Organisationspsychologie zu bedienen hätten (s. Sonntag, 1992).
Das Pilotprojekt »Profilbildung« der Hochschulrektorenkonferenz (s. Hödl, 1995)
ist dafür immerhin ein erster Schritt.
4 Der Gesichtspunkt einer hinreichenden Ökonomie verlangt eine fachübergreifende, das spezifische Anforderungsprofil einer bestimmten Ausbildungsstätte gegebenenfalls eine fachspezifische Prädiktion.
9.1.4 Diagnostik beim Übertritt in den tertiären Bildungsbereich
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Beschränkung der
Zulassung wegen
Studienplatzknappheit
480
Diagnostik und Intervention bei individueller Schülerhilfe
Über diese Kernvariablen hinaus werden Kontextfaktoren wie Unterrichtsklima sowie
Stimulation oder Beeinträchtigung durch Bedingungen der Peer-Group und des Elternhauses als für die Schulleistung bedeutsam angenommen.
Die häufigsten Anlässe für Diagnose und Intervention im Aufgabenbereich der Pädagogischen Psychologie sind individuelle Lernschwierigkeiten. Sie äußern sich in
negativen Abweichungen der Schülerleistungen von klassenbezogenen Normen oder
individuellen Erwartungen. Für die Beurteilung einer konkreten Schülerleistung bildet in der Regel die Durchschnittsleistung der Klasse den Bezugsrahmen. Wird sie
deutlich und nicht nur vorübergehend unterschritten, ist Anlass für diagnostische
Maßnahmen gegeben, da ohne sie zielgerichtete Interventionen nicht ergriffen werden
können. Aber auch ein Nachlassen der Leistungen eines bislang guten Schülers kann
diagnostische Maßnahmen initiieren, wenn seine Leistungen dauerhaft hinter den
individuellen Erwartungen zurückzubleiben drohen. Da Lernschwierigkeiten nach
übereinstimmender Auffassung als multifaktoriell bedingt angesehen werden, stellt
sich die Frage, an welchem Punkt diagnostische Maßnahmen sinnvollerweise anzusetzen sind.
Ein Modell von Haertel et al. (1983) nimmt an, dass Erfolg und Misserfolg im Unterricht von 5 Bedingungen abhängig sind, und zwar von:
1. der zur Bewältigung einer Aufgabe vom Schüler benötigten Lernzeit,
2. der von ihm konkret aufgewandten Lernzeit,
3. seiner Fähigkeit, Instruktionen zu verstehen,
4. der ihm vom Lehrer zugestandenen Lernzeit und
5. der Qualität des Unterrichts.
9.2
Gleichwohl liegen Arbeiten vor, die in der Tat eigenständige Validitätsaspekte von Interviews für die Vorhersage des Studienerfolges belegen (s. z. B. Hojat et al., 1993). In
Nachuntersuchungen an jenen Studierenden, die über das Auswahlgespräch einen Studienplatz in Medizin erhielten, fanden Ittner und Halsig (1993) zwar eine leistungsmäßige Unterlegenheit gegenüber den nach Leistungsquoten Zugelassenen, aber auch
Unterschiede in verschiedenen Kategorien des Studienerlebens und des Selbstbildes,
die als sehr positiv zu bewerten sind.
ben einer konventionell-rationalen Klassifikation, wie sie im Arbeitskreis um Trost
(Blum & Trost, 1982; Blum et al., 1982; Fay et al., 1982) mit Tests für Ingenieurwissenschaften, Mathematik, Naturwissenschaften, Philologie sowie Rechts- und Wirtschaftswissenschaften vorgenommen wurde, ist auch ein analytisch-induktives Vorgehen
denkbar. Giesen et al. (1986) haben diesen Weg sehr erfolgreich eingeschlagen und u. a.
gezeigt, dass eine Polarität zwischen einem eher mathematisch-naturwissenschaftlichen und einer eher kultur- und geisteswissenschaftlichen Orientierung besteht, und
auf einer anderen Dimension soziale und pädagogische Neigungen von Interesse an
Politik und Wirtschaft getrennt werden.
4 Ein Interview als Bewerbungsgespräch verspricht gewöhnlich gleichermaßen der
interviewenden und der interviewten Person hochgradige subjektive Evidenzen
über die inhaltliche Richtigkeit, die häufig genug in diametralem Gegensatz zur
empirischen Befundlage stehen.
9.2 · Diagnostik und Intervention bei individueller Schülerhilfe
Bedingungen
des Schulerfolgs
Hilfe bei Lernschwierigkeiten
Validität von
Interviews
481
9
9
Neue Sicht der
»Faulheit«
Fähigkeit, Anstrengung, Aufgabenschwierigkeit, Zufall
Modell der Lernmotivation
Entwicklungsprozess
zur nächsten Lernzielebene
Ermittlung der basalen
Lernzielebene
Die von einem Schüler zur Bewältigung einer konkreten Lernaufgabe aufgewendete
Lernzeit ist der Verhaltensbeobachtung zugänglich und ein Indikator seiner Lernmotivation. Nach einem Modell der Lernmotivation von Heckhausen und Rheinberg
(1980) ist die Bereitschaft eines Schülers, sich für eine Lernaufgabe zu engagieren,
abhängig von dessen subjektiver Einschätzung, ob er das Ergebnis durch eigenes
Handeln beeinflussen kann, ob das Ergebnis positive Konsequenzen hat, und ob ihm
diese Konsequenzen auch wünschenswert erscheinen. Der Vergleich eines Handlungsergebnisses mit einem Gütemaßstab entscheidet darüber, ob dieses als Erfolg oder
Misserfolg bewertet werden kann. Je nachdem, ob ein Handlungsergebnis auf eigene
Fähigkeit, Anstrengung, Aufgabenschwierigkeit oder Zufall zurückgeführt wird,
empfindet der Handelnde Befriedigung und Stolz oder Unzufriedenheit und Scham.
Die Erklärung von Misserfolgen durch mangelnde eigene Fähigkeiten würde die
zukünftige Anstrengungsbereitschaft beeinträchtigen, da eigene Anstrengungen als
zwecklos angesehen werden. Ein Zurückführen von Misserfolgen auf mangelnde
Anstrengung eröffnet dagegen Verbesserungschancen. Auf der anderen Seite würden
Erfolge eine geringere positive Wertigkeit in der Selbstbewertungsbilanz erhalten,
wenn sie entweder auf Glück oder zu geringe Aufgabenschwierigkeit zurückgeführt
würden.
Die von Lehrern beobachtete Unwilligkeit eines Schülers mit Lernschwierigkeiten,
die ihm zugestandene Lernzeit hinreichend zu nützen, könnte somit darin begründet
sein, dass er die Erfolgschancen der eigenen Handlungsmöglichkeiten in einer konkreten Lernsituation aufgrund zurückliegender Erfahrung als so gering einstuft, dass ihm
jede Eigenaktivität aussichtslos erscheint. Aber selbst wenn ein Lernergebnis erreichbar
erschiene, könnten eigene Anstrengungen ausbleiben, falls keine positiven Ergebnisfolgen antizipiert oder als nicht attraktiv genug bewertet würden.
9.2.2 Diagnostik und Beeinflussung der aufgewendeten Lernzeit
Je unzureichender die aufgabenspezifischen Lernvoraussetzungen eines Schülers sind,
desto mehr Lernzeit muss er zur Erreichung eines Lernziels aufwenden. Das Fehlen
spezifischer Vorkenntnisse gilt inzwischen als wichtigste Ursache zur Erklärung von
Lernschwierigkeiten und steht deshalb im Vordergrund der zu ihrer Aufklärung anzusetzenden diagnostischen Bemühungen. Fachspezifische Schulleistungstests können
helfen, den Bereich der Lernvoraussetzungen grob zu strukturieren. Zur Feindiagnostik
eignen sich informelle Lernzielkontrollen, die neueren Unterrichtswerken inzwischen
immer häufiger beigegeben werden. Ziel einer Vorkenntnisdiagnose ist die Ermittlung
jener basalen Lernzielebene, auf der der Schüler mit Lernschwierigkeiten keine oder
nur geringfügige Vorkenntnisdefizite hat (Gagné, 1973). Von dieser Ebene ausgehend,
haben Interventionsmaßnahmen das Erreichen der nächst höheren Lernzielebene anzustreben und die Konsolidierung der Leistungen auf diesem Niveau zu sichern. Durch
zwischengeschaltete Lehrzieltests ist dieser Entwicklungsprozess zur jeweils nächsthöheren Lernzielebene diagnostisch so lange zu begleiten, bis der Schüler den Anschluss
an seine Lerngruppe gefunden und seine Kenntnisse in einem Abschlusstest unter
Beweis gestellt hat. Liegen Vorkenntnisdefizite zu weit zurück, müssen schulische Interventionsbemühungen eventuell durch außerschulische Nachhilfemaßnahmen ergänzt werden.
9.2.1 Diagnostik und Beeinflussung der benötigten Lernzeit
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Mangelnde Vorkenntnisse als Ursache von
Lernschwierigkeiten
482
Die quantitativen unterrichtsorganisatorischen Rahmenbedingungen werden durch
das Ausmaß an zugestandener Lernzeit definiert, die unterrichtsdidaktischen durch
die Qualität des Unterrichts. Ob in einer Klasse die zugestandene Lernzeit zu knapp
9.2.4 Diagnostik und Verbesserung des Unterrichts
Ist das Verständnis für sprachliche Instruktionen reduziert, haben Schüler zwangsläufig
Probleme, dem Unterricht zu folgen. Traditonellerweise wird diese Fähigkeit durch
sprachliche Intelligenztests überprüft. Da diese Verfahren Instruktionsverständnis
meist nur mittelbar erfassen, sind Tests vorzuziehen, die, wie der Anweisungs- und
Sprachverständnistest von Kleber und Fischer (1982) oder der Hörverstehenstest von
Urban (1986), speziell auf diesen Bereich zugeschnitten sind und ihn deshalb differenzierter erfassen können. Dadurch bieten sie prinzipiell bessere Ansatzpunkte für Interventionsmaßnahmen als traditionelle Intelligenztests.
In der Praxis erweist sich die Förderung der sprachlichen Verstehenskompetenz jedoch als schwierig. Nach einer Metaanalyse (Kavale, 1990) war psycholinguistisches Training von Sprachverständnis mit einer Effektstärke von .20 nur wenig erfolgreich. Auch
existiert derzeit im deutschen Sprachraum mit dem psycholinguistischen Sprachförderungsprogramm von Lug (1985) lediglich ein formelles Verfahren, das eine Förderung auf
diesem Gebiet verspricht. Über seine Effektivität liegen derzeit noch keine verlässlichen
Angaben vor. Es stellt sich auch die Frage, ob anstelle des Versuchs, allgemeines Sprachverständnis zu fördern, nicht besser Übungen geeignet wären, die fachspezifisch ansetzen.
Berichte von Palinscar und Brown (1984) über ein Gruppentraining zur Förderung von
Textverständnis, bei dem die Gruppenmitglieder nach Maßgabe ihres erreichten Verständnisgrades immer aktiver in Gruppendiskussionen einbezogen werden, bis sie selbst
Instruktionsaufgaben übernehmen können, klingen recht ermutigend.
9.2.3 Diagnostik und Beeinflussung von Instruktionsverständnis
Motivationale Diagnostik kann sich folglich nicht mit der Feststellung ungenügender
Ausnützung der zur Verfügung stehenden Lernzeit begnügen, sondern muss die subjektive Einschätzung des Schwierigkeitsgrades konkreter Aufgaben, die Erwartung positiver Handlungsfolgen und deren subjektive Bewertung einbeziehen. Schätzt ein Schüler
eine Aufgabe als zu schwer ein, ist deren Schwierigkeitsgrad so weit zu reduzieren, dass
dem Schüler ein Erfolg durch eigene Anstrengung möglich erscheint. Bei Schülern mit
häufigen Lernschwierigkeiten reicht diese Maßnahme oft nicht aus, da sie sich für nicht
befähigt genug halten. Ihnen müssen zumindest zeitweilig zusätzliche Anreize in Form
von Lob oder Belohnungen angeboten werden, damit sich für sie die Anstrengung lohnt
(Lukan & Blöschl, 1977). Welche Anreize jeweils wirksam sind, lässt sich durch Vorgabe
sog. Verstärkerlisten (Windheuser & Niketta, 1972) diagnostizieren, die auch eine Einschätzung der subjektiven Wertigkeit der einzelnen Verstärker erlauben.
Erfolge, die durch die genannten Maßnahmen ermöglicht werden, reichen jedoch oft
nicht aus, die negativen Folgen häufig erlebter Misserfolge zu kompensieren, solange ein
Schüler mangelnde eigene Fähigkeiten für sein Versagen verantwortlich macht. Erst
wenn es durch ein entsprechendes Attributionstraining gelingt, ihn davon zu überzeugen, dass der entscheidende Faktor für den Erfolg die eigene Anstrengung ist, ergeben
sich nach Befunden von Borkowski et al. (1988) reliable Leistungsverbesserungen.
9.2 · Diagnostik und Intervention bei individueller Schülerhilfe
9
Diagnostik der
Unterrichtsqualität
Förderung von Sprachverständnis schwierig
Tests zur Prüfung
von Instruktionsverständnis
Langfristige Verbesserungen durch
Attributionstraining
Aufgaben einer
Motivationsdiagnostik
483
9
Einfluss auf Lernschwierigkeiten und
Verhaltensstörungen
Verbesserung
des Klimas
Diagnostik des
Unterrichtsklimas
Probleme der praktischen Umsetzung
Einer der wichtigsten sozialen Kontextfaktoren für Erfolg und Misserfolg in der Schule ist das Unterrichtsklima. Ein Verfahren, das Unterrichtsklima mit Hilfe eines Fragebogens zu diagnostizieren, konstruierten v. Saldern und Littig (1987). Es erfasst die
sozialen Beziehungen zwischen Schülern wie die zwischen Lehrer und Schülern sowie
allgemeine Unterrichtsmerkmale. Da soziale Probleme von der Zusammensetzung der
einzelnen Gruppe abhängen und sich somit jeweils anders darstellen, müssen Interventionsmaßnahmen die spezielle Situation berücksichtigen. Hierzu kann der genannte
Fragebogen wichtige Informationen beitragen. Eine vielversprechende generelle Maßnahme scheint die Umstellung von einem Wettbewerbsklima auf kooperative Arbeitsstrukturen zu sein (Johnson et al., 1981). Sie führt offenbar nicht nur zu größerer Zufriedenheit und gegenseitiger Akzeptanz der Schüler, sondern auch zu verbesserten
Einzelleistungen. Da mit Leistungsverbesserungen wiederum eine Reduktion von Verhaltensproblemen verbunden ist (Winett & Roach, 1973), könnte dieser Ansatz geeignet sein, sowohl Lernschwierigkeiten als auch mit ihnen verbundene Verhaltensstörungen anzugehen.
9.2.5 Diagnostik und Beeinflussung von Kontextfaktoren
bemessen wird, lässt sich durch Unterrichtsbeobachtung oder Befragung der Schüler
ermitteln. Von zu engen zeitlichen Vorgaben ist auszugehen, wenn nicht nur einzelne
Schüler, sondern ganze Gruppen die Lernziele in der vorgegebenen Zeit nicht voll erreichen. Eine Intervention muss hier auf Gewährung von ausreichender Lernzeit, die
auch eine Sicherung der Lernergebnisse erlaubt, ausgerichtet sein.
Eine Diagnose der Unterrichtsqualität kann sich dagegen nicht nur an äußerlichen
Merkmalen orientieren. Dass ein Unterricht, der Vorkenntnisdefizite nicht zu verhindern oder beheben sucht, Lernschwierigkeiten Vorschub leistet, gilt nach Bloom
(1976) als hinreichend gesichert. Als Hauptaufgabe einer Unterrichtsdiagnose ist folglich zu prüfen, wie mit Vorkenntnislücken umgegangen wird. Die Bereitstellung zusätzlicher Lernzeit ist dabei ein wesentliches quantitatives Indiz. Weitere qualitative
Merkmale sind nach Weinert et al. (1990) intensive Nutzung der zur Verfügung stehenden Unterrichtszeit, Konzentration auf Lernziele, Kontrolle der Lernaktivitäten
der Schüler, ständige Überwachung des Lernfortschritts, Vermeidung von Schülerfehlern durch präzise Aufgabenstellungen und einfache Fragen sowie die sofortige Verfügbarkeit von Hilfsmaßnahmen, wenn Lernschwierigkeiten auftreten. Die Effektivität derartiger Maßnahmen, auch unter dem Oberbegriff direkter Unterricht bekannt,
ist vielfach belegt (Brophy & Good, 1986; Helmke et al., 1986). Als wichtigstes Merkmal erwies sich nach Weinert et al. (1989) der unterstützende Kontakt des Lehrers mit
dem Schüler. Seine Anpassung an die Bedürfnisse der Schüler und seine Geduld mit
langsamen Lernern wirkten sich auch positiv auf deren Lernmotivation aus (Weinert
et al., 1992).
So plausibel die angeführten Ansätze für eine Unterrichtsdiagnose erscheinen mögen, so schwierig ist ihre Umsetzung in die Praxis. Es bedarf hierzu einmal der Bereitschaft des Lehrers, Fehler auch im eigenen pädagogischen Handeln zuzugestehen und
fachkundigen Rat einzuholen. Zum Anderen mangelt es an institutionellen Einrichtungen für informelle pädagogische Beratung. Ohne pädagogische Ausbildung fehlt Schulpsychologen häufig die hierzu notwendige Qualifikation. Sonderschullehrer, wie sie in
dem Schulversuch von Braband und Kleber (1983) in Regelschulen eingesetzt wurden,
könnten diese Lücke eventuell schließen.
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Qualitätsmerkmale
des Unterrichts
484
Hochbegabtendiagnostik
Definitionsprobleme. Ein wesentliches Problem bei der Diagnostik von Hochbegabung liegt bereits in der Begriffsbestimmung von Hochbegabung. Vor allem ist die inhaltliche Breite des Konzepts strittig. Über die verschiedenen Hochbegabungskonzepte
und -modelle informieren Holling und Kanning (1999) sowie Rost, Sparfeldt und Schilling (im Druck). Einige Autoren präferieren eine Hochbegabtendiagnostik ausschließlich anhand der Allgemeinen Intelligenz, andere schließen auch andere Fähigkeitsbereiche wie Soziale Intelligenz oder Kreativität mit ein. Dementsprechend wird je nach
Begriffsverständnis das Urteil, ob eine Hochbegabung vorliegt, unterschiedlich ausfallen. Vor allem reduziert sich bei einem mehrdimensionalen Definitionsansatz die Zahl
der Hochbegabten. Hanses und Rost (1998) haben berechnet, wie viele Personen in
Abhängigkeit von der Anzahl der geforderten Kriterien (bei einem festgelegten CutOff-Wert) untersucht werden müssen, um 50 Hochbegabte zu finden. Daraus lässt sich
ablesen, wie hoch der Anteil der Hochbegabten in der Population sein muss. Verlangt
9.3
Ein weiterer sozialer Kontextfaktor ist die soziale Stellung innerhalb der Schulklasse. Korrelationen zwischen dem Beliebtheitsgrad eines Schülers und seinen Schulleistungen (Bless, 1986) weisen auf bedeutsame Zusammenhänge hin und lassen die Diagnostik seines sozialen Ranges mittels soziometrischer Befragungen geboten erscheinen
(Müller, 1980; Petillon, 1980). Weniger einfach sind Versuche, den sozialen Rang von
Schülern mit Lernschwierigkeiten zu verbessern. Sitzplatzveränderungen nach soziometrischen Präferenzen verschärften die sozialen Probleme sogar (Johansen, 1972).
Zwar finden sich Hinweise darauf, dass z. B. positive Verstärkungen durch den Lehrer
zu Statusverbesserungen führen können (Retish, 1973), doch ergeben sich gerade bei
Lernschwierigkeiten oft nicht genug Gelegenheiten hierzu. Ein weiteres Problem stellen
die mit Lernschwierigkeiten häufig verbundenen Verhaltensprobleme dar. Versuche,
diese isoliert anzugehen, waren, wie Analysen von Bryan und Lee (1990) zeigen, wenig
erfolgreich. Die Beobachtung, dass der Zusammenhang zwischen sozialem Status und
Lernerfolg von Klasse zu Klasse stark schwanken kann (Selg, 1965), deutet vielmehr
darauf hin, dass dieses Problem im konkreten sozialen Kontext gesehen und gelöst
werden muss.
Familiäre Ursachen von Lernschwierigkeiten entziehen sich i. Allg. systematischer
Diagnostik, da die jeweilige Familienkonstellation von Fall zu Fall stark variiert. Die
diagnostische Methode der Wahl ist deshalb das Gespräch, in dem am besten auf die
spezielle Problematik eingegangen werden kann. Zur Erfassung des Erziehungsstils
existieren Verfahren, mit deren Hilfe wesentliche Aspekte, wie Unterstützung, Strenge
und Zuwendung im Selbstbericht (Baumgärtel, 1979) oder aus der Sicht der Schüler
(Krohne & Pulsack, 1990), erfasst werden können. Über weitere familiendiagnostische
Verfahren informiert Cierpka (1987).
Erfolgreiche Behandlung familiärer Probleme setzt die Bereitschaft der Familienmitglieder zur Mitwirkung voraus. Diese hängt mit davon ab, wie Eltern sich das Zustandekommen der Schwierigkeiten erklären. Wenn sie eine Mitverantwortung bejahen, sind sie eher zur Mitarbeit bereit (Strey, 1993). Für die Behandlung tieferliegender
Familienprobleme hat sich seit einigen Jahren die familientherapeutische Sichtweise
durchgesetzt, bei der die betroffenen Familienmitglieder nicht als Einzelpersonen, sondern als Teil eines dynamischen Systems gesehen werden, das als Ganzes behandelt
werden muss (Schneewind, 1991).
9.3 · Hochbegabtendiagnostik
9
Definitionsprobleme
Familientherapie: Mitglieder als Teil eines
dynamischen Systems
Probleme einer
Intervention
Diagnostik des
sozialen Ranges
485
9
Anforderungen an Intelligenztest. Welche Anforderungen sind an einen Intelligenztest zur Feststellung von Hochbegabung zu stellen? Erstens sollte der Test ein breites
Anforderungen
an Intelligenztest
Overachiever
Achiever
Underachiever
Begabung und Leistung. Unter Intelligenz wird das Potential einer Person verstanden,
kognitive Leistungen zu erbringen. Eine hoch intelligente Person kann, muss aber nicht
gute Leistungen in der Schule oder etwa im Beruf zeigen. Motivationale Gründe oder
ungünstige Arbeitsbedingungen können dazu führen, dass die Person nicht die Leistungen zeigt, zu der sie eigentlich fähig wäre.
Die strikte Unterscheidung zwischen Fähigkeit (Potential) und Performanz führt
dazu, dass - bei einer kategorialen Betrachtung - zwei Typen von Hochbegabten resultieren: Underachiever (die Leistungen sind niedriger, als nach dem Potential zu erwarten wäre) und Achiever (Hochbegabte, deren Leistungen ihren Fähigkeiten entsprechenden). Dass es auch Hochbegabte geben kann, deren Leistungen über ihrem Potential liegen, ist hier unerheblich. Wird zunächst nur auf eine außergewöhnliche Performanz (z. B. sehr gute Leistungen in der Schule) geachtet, fallen beide Typen von
Hochbegabten nicht gleichermaßen auf. Hochbegabte Underachiever sind benachteiligt. Eine diagnostische Entscheidung wird durch Einsatz eines Intelligenztests herbeigeführt. In die Gruppe der diagnostizierten Hochbegabten werden bei dieser Vorselektion nicht alle tatsächlich Hochbegabten eingehen (siehe auch »Hochbegabtendiagnostik durch Lehrer«). Viele hochbegabte Underachiever werden darin fehlen. Mit anderen
Worten: Es gibt noch unentdeckte Hochbegabte. Am Rande sei angemerkt, dass sich
messfehlerbedingt unter den diagnostizierten Hochbegabten auch Personen mit einem
wahren IQ von etwas weniger als 130 befinden werden. Es sind normal begabte Overachiever, die durch herausragende Leistungen aufgefallen sind und in der diagnostischen Untersuchung die magische IQ-Grenze von 130 erreicht haben.
Potential für kognitive
Leistungen
»Die Feststellung einer intellektuellen Hochbegabung orientiert sich als Richtwert an
einem Intelligenzquotienten (IQ) von 130 bzw. einem Prozentrang (PR) von 98« (Amtsblatt des Hessischen Kultusministeriums, 2001, S. 518; zit. nach Rost et al., im Druck).
Definition von Hochbegabung
Definition
man, dass ein Hochbegabter in einem Kriterium (z. B. Intelligenz) zu den oberen 2%
der Verteilung gehört, sind 2.500 Personen zu untersuchen. Schon bei zwei Kriterien
(Annahme: Sie korrelieren zu .30) erhöht sich die Zahl auf 30.048. Die Hinzunahme
eines zweiten Kriteriums führt dazu, dass jetzt nicht mehr 2% der Population als hochbegabt gelten, sondern nur noch 0.17 Prozent. Bei drei Kriterien (die ebenfalls .30
miteinander korrelieren) verringert sich der Anteil der Hochbegabten bereits auf 0.03%.
Diese Modellrechnung macht deutlich, dass die Vorannahmen über das Konzept der
Hochbegabung enorme praktische Konsequenzen haben. Durch die Forderung nach
immer weiteren Kriterien lässt sich die Hochbegabung schlicht wegdefinieren. Außerdem wird mit jedem weiteren Kriterium konzeptuell unklarer, was die Kombination
von Multitalenten inhaltlich bedeutet.
Gut begründbar und auch weitgehend konsensfähig sind die Festlegung auf ein Kriterium, und zwar das der Allgemeinen Intelligenz, und die Festsetzung der unteren
Grenze für Hochbegabung bei zwei Standardabweichungen über dem Populationsmittelwert (vgl. Holling & Kanning, 1999; Rost et al., im Druck). Diese Konzeption ist vor allem
auch für die Praxis nützlich, da sie eine klare diagnostische Entscheidung ermöglicht.
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Festlegung auf ein
Kriterium: Die Allgemeine Intelligenz
486
Hochbegabtendiagnostik durch Lehrer. Die Schule ist der Ort, an dem Hochbegabte
vor allem auffallen sollten. Können Lehrer aber eine herausragende intellektuelle Begabung ohne Zuhilfenahme von Tests erkennen?
Wild (1993) hat in einer groß angelegten Studie an Drittklässlern die Übereinstimmung zwischen Lehrerurteilen und Intelligenztestergebnissen überprüft. Die Lehrerstichprobe umfasste 388 Lehrkräfte, die insgesamt über 7.000 Schüler beurteilten. Die
Intelligenz wurde mit drei Tests gemessen: Grundintelligenztest – Skala 2 (CFT 20),
Zahlen-Verbindungs-Test (ZVT) und Sprachliche Analogien 3/4 (SPA). Die Lehrer
stuften die Intelligenz ihrer Schüler auf siebenstufigen Ratingskalen von »extrem
schwach« bis »exzellent« ein. Sie erhielten Informationen über Inhalt (auch Itembeispiele) und Aufbau der Intelligenztests, an denen ihr Urteil später überprüft werden
sollte. Sie gaben für jeden der drei Tests eine Prognose ab. Weiterhin nominierten sie
einige ihrer Schüler. Dazu diente eine Liste von 15 begabungsrelevanten Merkmalen
(z. B. formal-logisches Denken, Merkfähigkeit; solche Checklisten finden z. T. in der
Hochbegabungsdiagnostik Verwendung). Pro Item durften die Lehrer maximal drei
Schüler mit hoher Merkmalsausprägung benennen.
Die Korrelationen zwischen den Testleistungen und Ratings sowie den Nominationen variierten sehr stark zwischen den Klassen. Einige Lehrer schätzten die Intelligenz
ihrer Schüler also recht gut ein, andere erwiesen sich als schlechte Diagnostiker. Über
alle Klassen hinweg korrelierte die Intelligenztestleistung (aggregiert über die drei
Tests) mit den ebenfalls gemittelten Lehrer-Einschätzungen zu .59. Für die Nomination
fiel die vergleichbare Korrelation mit .47 niedriger aus.
Von großer praktischer Bedeutung sind die Trefferquoten, die mit einem Intelligenzrating und einem Nominationsverfahren erzielt werden. Als Kriterium für Hochbegabung wird eine Gesamttestleistung von mindestens zwei Standardabweichungen
über dem Mittelwert festgesetzt, was einem IQ über 130 entspricht. Von den Schülern,
die nach dem Lehrerurteil »exzellent« begabt sind, erwiesen sich - gemäß den Intelligenztests – 35,1% als tatsächlich hochbegabt. Der Rest hatte zu niedrige Intelligenztestergebnisse. Eine andere Frage ist, wie viele der tatsächlich hochbegabten Schüler
(IQ>130) durch eine Lehrerbeurteilung entdeckt würden. Es sind gerade 16,4%. Mit der
Frage, welche ihrer Schüler exzellent begabt sind, lassen sich also die meisten Hochbegabten (83,6%) nicht auffinden. Auch die Nominationsmethode erwies sich als ineffi-
g-Maß darstellen, die Intelligenz also über mehrere Teilbereiche prüfen. Werden beispielsweise nur numerische Testaufgaben verwendet, kann der Testwert, bedingt etwa
durch besondere schulische Förderung in Mathematik, im Vergleich zu anderen Begabungsbereichen erhöht sein und zu einer Überschätzung der Intelligenz führen. Umgekehrt führen eine Teilleistungsschwäche oder eine mangelnde schulische Förderung
dazu, dass die Allgemeine Intelligenz unterschätzt wird. Anstelle eines einzigen breiten
Tests kann auch eine Kombination mehrerer Intelligenztests verwendet werden, wobei
darauf zu achten ist, dass diese unterschiedliche Intelligenzkomponenten abdecken.
Zweitens sind aktuelle Normen zu fordern. Durch die beobachtete Zunahme der Intelligenztestleistungen im Laufe der Zeit (Flynn-Effekt) muss die Verwendung überalterter Normen dazu führen, dass zu viele Personen als hochbegabt diagnostiziert werden.
Drittens muss der Test im oberen Leistungsbereich gut differenzieren. Dazu sollen die
Normen weit über einen IQ von 130 hinausgehen, und die Lösung einer weiteren Aufgabe darf zu keinen Sprüngen im IQ führen. Selbstverständlich ist zu fordern, dass die
Eichstichprobe repräsentativ für die jeweilige Altersgruppe (also beispielsweise keine
Übergewichtung von Gymnasiasten) und hinreichend groß ist.
9.3 · Hochbegabtendiagnostik
9
Intelligenzrating und
Nominationsverfahren
487
9
Talent
4
4
4
4
4
4
Vorzeitige Einschulung
Überspringen einer Klasse
Besuch einer Sonderklasse für Hochbegabte
Stärkere innere Differenzierung im Unterricht
Einsatz als Tutor im regulären Unterricht
Spezielle Freizeitangebote für Hochbegabte (Feriencamps etc.)
Ausgewählte Fördermaßnahmen für Hochbegabte
Interventionen. Nach der Diagnose »Hochbegabung« fragen sich die Betroffenen,
meist sind es die Eltern eines Kindes und dessen Lehrer, was nun zu tun ist. Zunächst
einmal ist festzustellen, dass Hochbegabung nicht mit einer Benachteiligung in anderen
Merkmalsbereichen »bezahlt« wird. Es ist ein Mythos, der von einigen Elternvereinigungen mit Hinweis auf Einzelfälle genährt wird, dass hochbegabte Kinder im sozialen
oder emotionalen Bereich als Folge ihrer Hochbegabung leiden. Im Gegenteil: »Hochbegabte Kinder gehen beispielsweise stärker aus sich heraus, sind warmherziger, emotional stabiler, ruhiger, fröhlicher, enthusiastischer, natürlicher als Schüler mittlerer
oder unterer Intelligenz« (Rost, 2001, S. 180). Da eine Begabung nicht automatisch zu
entsprechenden Leistungen führt, liegt es nahe, über Fördermaßnahmen nachzudenken, die Hochbegabten hilft, ihr Potential zu entfalten. Im Einzelfall ist unter Berücksichtigung der individuellen Lern- und Lebensbedingungen zu erwägen, ob eine Fördermaßnahme überhaupt angebracht ist und wenn ja, welche.
Spezialbegabungen. Menschen können – neben der Intelligenz – auch in anderen Bereichen besonders begabt sein. Beispiele sind Mathematik, Kunst, Sport und Musik. Diese
Begabungen oder Talente sollten nicht zum Begriff der Hochbegabung zählen, der für eine
sehr hohe Allgemeine Intelligenz reserviert bleiben sollte. Im Einzelfall stellt sich aber die
Frage, ob eine Spezialbegabung nicht Ausdruck einer außergewöhnlich hohen Intelligenz
ist. Kognitive Fähigkeiten sind positiv korreliert. Herausragende Leistungen in der Mathematik werden meist mit einer sehr hohen Intelligenz einhergehen. Für eine explizit nicht
intellektuelle Spitzenbegabung sollte der Begriff Talent verwendet werden (Rost, 2001).
zient. Als Kriterium für Hochbegabung laut Nomination legte Wild fest, dass ein Schüler bei mindestens 12 der 15 Merkmale benannt sein musste. Von den so als hochbegabt
beurteilten Schülern wiesen 33% einen IQ über 130 auf. Von den per Test als hochbegabt diagnostizierten Schüler wurden lediglich 14,9% auch mit dem Nominationsverfahren als hochbegabt erkannt. Insgesamt belegt diese Untersuchung eindruckvoll, dass
Lehrerurteile wenig brauchbar sind, um Hochbegabte zu entdecken.
Lehrerurteile lassen sich aus pragmatischen Gründen für eine Vorselektion verwenden. Damit möglichst viele wirklich Hochbegabte gefunden werden, muss man den
Ergebnissen dieser Studie zufolge alle Schüler einer gründlichen Intelligenzdiagnostik
unterziehen, die von den Lehrern mindestens als »gut« begabt (3. Stufe auf der 7stufigen
Skala) beurteilt werden. Bei einer derart groben Vorauswahl würden lediglich 1,5% der
Hochbegabten nicht entdeckt.
Neben Lehrern können auch andere Personen zur Entdeckung von Hochbegabten
beitragen. Neben den Eltern sind hier Peers (Mitschüler, Freunde) und auch die Hochbegabten selbst zu nennen. Die Güte dieser Quellen ist allerdings als kritisch zu beurteilen (s. Rost et al., im Druck).
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Lehrerurteile als
Vorselektion
488
(S.554-559)
Verkehrspsychologische Diagnostik
(S.543-546, 548-553)
Rechtspsychologische Diagnostik
Diagnostik und Intervention in
weiteren Anwendungsfeldern
Rechtspsychologische Diagnostik
Glaubhaftigkeit von Zeugenaussagen. In Strafverfahren kommt der Aussage von
Zeugen oft eine große Bedeutung zu. Wenn es stimmt, was der Zeuge berichtet, wird
der Beschuldigte verurteilt – oder auch nicht, wenn es sich um eine entlastende Zeugenaussage handelt. Manchmal sind jedoch Zweifel an der Zeugenaussage angebracht.
In diesem Fall kann das Gericht eine Begutachtung veranlassen. Grundsätzlich ist zwischen der Glaubhaftigkeit der Aussage und der Glaubwürdigkeit der Person des Zeugen zu unterscheiden (Steller & Volbert, 1997).
Auch wenn ein Zeuge sich um eine korrekte Aussage bemüht, können ihm Fehler
unterlaufen. Beobachtungen (und Aussagen darüber) decken sich oft nicht mit den
Fakten, die beobachtet werden. Vielen Menschen unterlaufen teilweise gravierende
Beobachtungsfehler, wie in empirischen Untersuchungen mit gestellten oder im Film
gezeigten Ereignissen eindrucksvoll demonstriert wurde (z. B. Loftus, 1979). Inzwischen konnten zahlreiche Faktoren, die sich auf die Identifikation durch Augenzeugen
Die Fragestellungen sind so heterogen, dass ein einheitliches Vorgehen völlig abwegig
wäre. Deshalb wird exemplarisch auf vier Bereiche eingegangen, die in der Praxis eine
große Bedeutung haben: Die Beurteilung der Glaubhaftigkeit von Zeugenaussagen, der
Schuldfähigkeit von Straftätern, die Kriminalprognose und schließlich – aus dem zivilgerichtlichen Bereich – auf Sorgerechtsentscheidungen.
In Strafverfahren:
– Glaubwürdigkeit einer Zeugenaussage
– Schuldfähigkeit eines Täters
– Strafrechtliche Verantwortlichkeit bei jugendlichen Tätern
In Zivilverfahren:
– Entzug der Geschäftsfähigkeit
– Umgangs- und Sorgerecht für ein Kind nach Scheidung der Eltern
– Entzug der elterlichen Sorge
In Sozialgerichtsverfahren:
– Arbeits- und Erwerbfähigkeit
– Voraussetzungen für eine Umschulungsmaßnahme
– Berufsunfähigkeit
Im Strafvollzug:
– Erstellen eines Vollzugsplans
– Vollzugslockerung
– Kriminalprognose (vorzeitige Entlassung, Sicherheitsverwahrung)
Diagnostische Fragestellungen in der Rechtspsychologie
Klassische diagnostische Aufgaben in der Rechtspsychologie sind die Erstellung von
Gerichtsgutachten zu Fragen der Schuldfähigkeit von Straftätern, der Glaubhaftigkeit
von Zeugenaussagen oder etwa des Sorgerechts in Scheidungsverfahren sowie die
Untersuchung von Straftätern, die bereits überführt sind und sich nun in einer Haftanstalt befinden. Damit soll eine fundierte Auswahl von Behandlungsmaßnahmen
gewährleistet und gegebenenfalls gegen Ende des Strafvollzugs eine Rückfallprognose
erstellt werden.
11.2
11.2 · Rechtspsychologische Diagnostik
11
Beobachtungen
decken sich oft nicht
mit den Fakten
Aussage oder
Person des Zeugen
untersuchen
Aufgaben und
Fragestellungen
543
11
Eigenschaften der
Person des Zeugen
„Realkennzeichen“
der Aussage
Logische Konsistenz
Schilderungen von Komplikationen im Handlungsverlauf
Schilderung ausgefallener Einzelheiten
Schilderung eigener psychischer Vorgänge
Eingeständnis von Erinnerungslücken
Schließlich richtet sich die Aufmerksamkeit auf die Person des Zeugen. Ist die Person
aufgrund ihres Urteilsvermögens grundsätzlich in der Lage, zu dem Sachverhalt eine
gültige Aussage zu machen? Eine niedrige Intelligenz, fehlender Erfahrungshinter-
4
4
4
4
4
Beispiele für Realkennzeichen (das Vorliegen spricht für eine glaubwürdige
Aussage)
Die vorliegende Aussage wird inhaltlich danach analysiert, ob sie bestimmte Kriterien
für Glaubhaftigkeit aufweist. Der Gutachter sucht dabei nach so genannten »Realkennzeichen« (vgl. Steller & Volbert, 1997). Diese Realkennzeichen (7 Übersicht) differenzieren zwischen Aussagen, die auf selbst versus nicht selbst erlebten Ereignissen beruhen. Das Vorliegen vieler Realkennzeichnen in einer Aussage spricht dafür, dass der
Zeuge das Ereignis selbst erlebt hat und keine »Erfindungen« präsentiert. Ein Problem
besteht darin, dass es keine verbindlichen Standards (Normen) dafür gibt, wie viele
Realkennzeichnen vorliegen müssen, damit eine Aussage als sehr wahrscheinlich authentisch eingestuft werden kann. Es bleibt also dem Gutachter überlassen, die Zahl der
vorgefundenen Realkennzeichen richtig zu interpretieren. Interpretationsobjektivität
ist also nicht gegeben.
4 »Hat der Mann gesagt, du sollst mitkommen?« (der Sachverhalt, dass der Mann
das gesagt hat, wird unterstellt).
4 »Könnte es sein, dass das Messer schon am Tatort lag?« (Aufforderung zu einer
Spekulation, implizite Erwartung).
4 Verstärkung von Antworten (Nicken, »ahja«, »gut beobachtet«), die ins Konzept
des Interviewers passen (der Zeuge erfährt, welche Antworten erwünscht sind).
4 Wiederholung einer Frage im Verlauf des Interviews (erzeugt Druck, nun endlich
die »richtige« Antwort zu geben).
Beispiele für eine suggestive Befragung
auswirken, durch experimentelle Untersuchungen identifiziert werden (für eine Übersicht siehe Wells & Olsen, 2003). Insgesamt belegen diese Untersuchungen, wie trügerisch es sein kann, sich auf menschliche Beobachtungen zu verlassen. Bei der Begutachtung von Zeugenaussagen werden aus diesen Gründen zuerst die Umstände, unter
denen die Aussage zustande gekommen ist, analysiert. Dabei spielen die Wahrnehmungsbedingungen (z. B. Beobachtungsdauer, mögliche Ablenkung der Aufmerksamkeit, sensorische Wahrnehmungsbedingungen) ebenso eine Rolle wie die Bedingungen,
unter denen die Aussage aufgenommen wurde. Besonders bei Kindern kann sich eine
(ungewollt) suggestive Befragung auf die Aussagen auswirken (Volbert, 2000). Günstig
sind Aufforderungen, zu einem Thema zu erzählen (»Beschreibe doch einmal, wie der
Mann aussah«) und offene Fragen (»Was hat der Mann zu dir gesagt?«).
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Entstehungsbedingungen der Aussage analysieren
544
§ 20 StGB
Schuldunfähigkeit und verminderte Schuldfähigkeit eines Täters. In § 20 des deutschen Strafgesetzbuchs wird festgelegt: »Ohne Schuld handelt, wer bei Begehung der
Tat wegen einer krankhaften seelischen Störung, wegen einer tiefgreifenden Bewusstseinsstörung oder wegen Schwachsinns oder einer schweren anderen seelischen Abartigkeit unfähig ist, das Unrecht der Tat einzusehen oder nach dieser Einsicht zu handeln«. Eine verminderte Schuldfähigkeit liegt nach § 21 StGB vor, wenn »die Fähigkeit
des Täters, das Unrecht der Tat einzusehen oder nach dieser Einsicht zu handeln, aus
einem der in § 20 bezeichneten Gründe bei Begehung der Tat erheblich vermindert«
ist. In diesem Fall kann die Strafe gemildert werden.
Die Begutachtung der Schuldfähigkeit bzw. einer verminderten Schuldfähigkeit
setzt an den in § 20 StGB genannten möglichen Bedingungen an. Es genügt jedoch
nicht, dass eines dieser Kriterien vorliegt. Vielmehr muss daraus eine Aufhebung oder
§ 21 StGB
Verfahren zur
Begutachtung von
Zeugen
Motive für
Falschaussage
545
Für die Begutachtung der Person des Zeugen finden Akteninformationen (Gerichtsakten) Verwendung, weitere Informationen werden im diagnostischen Interview gewonnen. Wenn sich die Frage nach einer psychischen Störung stellt, bieten sich dazu
ein strukturiertes klinisches Interview sowie bestimmte klinische Fragebogen an. Je
nach Sachlage kommen auch Testverfahren (Intelligenztests, Konzentrationstests, Gedächtnistests etc.) zum Einsatz.
Antje F. (20 Jahre) sagt in einem Strafverfahren gegen Herrn S. aus. Der Zuhälter
habe sie in der Wohnung eingeschlossen, ihr Rauschgift verkauft und sie zur Prostitution gezwungen. Nach 10 bis 11 Monaten wurde sie »seelisch und körperlich heruntergekommen« vom Zuhälter in die Klinik gebracht. Ihre Glaubwürdigkeit als Zeugin wird dadurch erschüttert, dass ihr Erinnerungsvermögen möglicherweise durch
mehrjährigen Heroingebrauch beeinträchtigt ist. Es liegt langjähriger Alkohol- und
Drogenkonsum vor; bereits mit etwa 17 Jahren hat sie auch Heroin (ca. 3 g pro Tag)
konsumiert. Drogengebrauch über längere Zeit kann die Persönlichkeit, die Konzentrationsfähigkeit, die Gedächtnisleistung etc. negativ verändern. Die Untersuchung
ergibt, dass ihre Aussagen als glaubhaft erscheinen, da Kriterien wie Detailfülle, folgerichtige Handlungsverkettungen, teils widersprüchliche, aber geklärte Aussagen
und Selbstbezichtigung erfüllt sind. In Tests zur Messung der Intelligenz, der Konzentrationsfähigkeit und der Merkfähigkeit erreicht sie durchschnittliche bis leicht
überdurchschnittliche Werte. Der Gutachter kommt zu dem Schluss, dass keine Verschlechterung der intellektuellen Leistungsfähigkeit (hierzu stellt er einen Vergleich
mit den früheren Schulleistungen an) erkennbar ist, keine Hinweise auf cerebralpathologische Abbauprozesse vorliegen, und die Erinnerungsfähigkeit nicht eingeschränkt ist. Er bejaht die Glaubwürdigkeit der Zeugin und die Glaubhaftigkeit
ihrer Aussagen. Das Gericht hatte keine Zweifel an ihren Aussagen. Angesichts dieser Situation ließ sich der Angeklagte auf die wesentlichen Punkte der Anklageschrift ein (Quelle: Reichert, 1997).
Beispiel
grund, bestimmte psychische Störungen oder Alkohol- oder Drogenkonsum können
Zweifel an dem Urteilsvermögen begründen. Hat die Person besondere Gründe, die sie
zu einer Falschaussage veranlassen könnte? Möglicherweise hat sie Motive, sich für
etwas zu rächen oder würde von einer Verurteilung profitieren (das Sorgerecht für das
Kind erhalten, einen ungeliebten Konkurrenten loswerden).
11.2 · Rechtspsychologische Diagnostik
11
11
Weitreichende
Konsequenzen
Tiefgreifende Bewusstseinsstörung
Schwere seelische
Abartigkeit
Schwere seelische
Störung
6
Entlassung aus der Sicherheitsverwahrung? Franz H. (51 Jahre), wurde vor 13
Jahren wegen sexueller Nötigung zu 3 Jahren Freiheitsstrafe und anschließender
Sicherheitsverwahrung verurteilt. Das Gericht hat zu entscheiden, ob die restlichen
6 Monate zur Bewährung ausgesetzt werden können oder ob nach § 67, Abs. 3 StGB
eine Fortdauer der Sicherheitsverwahrung über die 10 Jahre hinaus angeordnet
werden muss. Das vom Gericht in Auftrag gegebene Gutachten soll klären, ob weitere erhebliche Straftaten zu erwarten sind, insbesondere solche, die zur Sicherheitsverwahrung führten. Ferner soll der Gutachter vorbereitende Maßnahmen
vorschlagen, die eine Entlassung aus der Sicherheitsverwahrung ohne Gefährdung
der Allgemeinheit ermöglichen. Der dafür erforderliche Zeitraum soll angegeben
werden.
Vorgeschichte laut Akten: Herr H. hatte 1986 eine flüchtige Bekannte in deren
Wohnung aufgesucht, mit ihr einige Gläser Wein getrunken, getanzt und geschmust
und sie schließlich zum Geschlechtsverkehr aufgefordert. Sie weigerte sich und er
schlug ihr daraufhin ins Gesicht, riss ihr Teile der Kleidung vom Leib. Die Frau konnte
Beispiel
Kriminalprognose. Die Prognose des zukünftigen Verhaltens eines Straftäters hat eine
erhebliche Bedeutung für die Auswahl und Bemessung der Strafe bzw. anderer Maßnahmen (z. B. Sicherheitsverwahrung), die Ausgestaltung des Strafvollzugs und für
dessen Beendigung (Dahle, 1997, 2000). Beispielsweise hat ein Straftäter einen Großteil
seiner Strafe verbüßt, und es steht nun eine Entscheidung über eine vorzeitige Haftentlassung auf Bewährung an. In bestimmten Fällen wird nach Verbüßung einer Haftstrafe
geprüft, ob die Notwendigkeit einer Sicherheitsverwahrung besteht.
Einschränkung des Unrechtsbewusstsein oder der Steuerungsfähigkeit bei der Tat herrühren.
Die juristischen Begriffe können nicht eins zu eins in psychologische oder auch
psychiatrische Kategorien übersetzt werden. Am einfachsten ist aus psychologischer
Sicht mit dem Begriff des Schwachsinns umzugehen, der als intellektuelle Minderbegabung bzw. geistige Behinderung aufzufassen ist. Zur Feststellung sind Intelligenztests
geeignet. Eine wichtige Informationsquelle stellen auch biografische Daten wie Art und
Dauer des Schulbesuchs, die Beschäftigung oder die Unterbringung in einem Heim für
geistig behinderte Menschen dar. Bezugspersonen können im Interview nach Kompetenzen des Täters zur Bewältigung alltäglicher Probleme befragt werden. Die Feststellung einer schweren seelischen Störung oder einer schweren anderen seelischen Abartigkeit fällt in die klinische Diagnostik (7 Kap. 10), denn hier geht es um psychiatrische
Diagnosen. Die anderen schweren seelischen Abartigkeiten sind überwiegend im Bereich gravierender Persönlichkeitsstörungen und bei Suchterkrankungen zu suchen.
Eine tiefgreifende Bewusstseinsstörung muss nicht krankhaft sein; auch ein psychisch
gesunder Täter kann sich bei der Tat in einer hochgradigen affektiven Erregung befunden haben. Bei der Begutachtung kommt daher der Analyse des Tatablaufs und der
Vorgeschichte, die zur Tat geführt hat, eine besondere Bedeutung zu. Weitere Faktoren
sind etwa die Persönlichkeit des Täters, seine Beziehung zum Opfer und Erinnerungsstörungen nach der Tat. Die nötigen Informationen erhält der Gutachter durch Auswertung der gerichtlichen Akten, durch ein Interview mit dem Täter, aber auch mit
Persönlichkeitsfragebogen oder projektiven Verfahren.
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Intellektuelle
Minderbegabung
546
11
Deshalb sind grundsätzlich nur Wahrscheinlichkeitsaussagen möglich (»es ist zu erwarten, dass…«). Die Folgen einer Fehleinschätzung des Rückfallrisikos sind schwerwiegend, und zwar im einen Fall für die Opfer, und im anderen Fall für den Straftäter,
wenn ihm unbegründet die Freiheit vorenthalten wird.
Bei der Begutachtung können statistische Erkenntnisse über Rückfallrisiken in vergleichbaren Fällen genutzt werden. Die statistische Vorhersage muss sich auf Merkmale
der Tat und der Delinquenten konzentrieren, die allgemein verfügbar sind. Kriminalprognosetafeln enthalten daher Merkmale wie die Art der Straftat, Alter, Geschlecht
und (in den USA) die Hautfarbe des Delinquenten. Sie helfen, das Risiko abzuschätzen,
können aber nicht erklären, warum ein Straftäter rückfällig wird. Die Hautfarbe hat in
den USA eine hohe Priorität; eine schwarze Hautfarbe kann jedoch nicht direkt kausal
dafür verantwortlich sein, dass jemand wieder eine Straftat begeht. Eine schwarze Hautfarbe geht normalerweise mit vielen anderen Merkmalen einher. Durch gründliche
Forschung kann manchmal aufgedeckt werden, dass andere, hinter dem leicht erfassbaren Merkmal stehende Faktoren für die Kriminalprognose entscheidend sind. Der
Faktor Hautfarbe verliert bei der Prognose von künftigen Gewalttaten seine Vorhersagekraft, wenn die Kriminalität in der Nachbarschaft, in die sich der ehemalige Straftäter
nach seiner Entlassung begibt, berücksichtigt wird (Monahan, 2003; 7 Abschn. 5.2). Die
statistische Prognose vernachlässigt zwangsläufig die seltenen, nicht bei allen Personen
vorhandenen Risikofaktoren und protektiven Faktoren.
Gretenkord (2002) hat einen treffenden Vergleich für die Nutzung statistischer Vorhersagen gefunden: Beim Verkauf eines Autos kann der Verkäufer mit einem Programm nach Eingabe von Typ, Baujahr und Kilometerleistung einen Listenpreis suchen
lassen. Er kann sich nach diesem Preis richten, wenn er sein Fahrzeug anbietet; er kann
aber auch davon abweichen, weil er Besonderheiten seines Autos wie etwa eine kleine
Beule oder die wenig gefragte Wagenfarbe berücksichtigt. Der aus der Liste ermittelte
Preis dient als Anhaltspunkt; einen realistischen Verkaufspreis findet er, indem er diesen Preis korrigiert. Genauso beachtet der Gutachter die statistischen »Gesetzmäßigkeiten« von Prognosetafeln und stellt vielleicht fest, dass der Proband aufgrund seines
Alters, seiner Vorstrafen etc. ein hohes Rückfallrisiko von 30% hat. Bis dahin hat sich
der Gutachter nicht der Gefahr von Urteilsfehlern (z. B. Ignorieren von Basisraten;
7 Abschn. 5.2) ausgesetzt.
. Tabelle 11.4 zeigt ein Beispiel für eine Prognosetafel. Zu deren Erstellung hatte
Gretenkord (2002) 188 Straftäter, die im Durchschnitt acht Jahre lang in einer Klinik
für gerichtliche Psychiatrie untergebracht waren, nach drei Variablen klassifiziert, die
Nur Wahrscheinlichkeitsaussagen möglich
Beispiel für
Prognosetafel
Individuelle
Besonderheiten
Grenzen der statistisch
begründeten Prognose
Kriminalprognosetafeln
Statistische
Urteilsbildung
Prognosen über künftiges delinquentes Verhalten sind schwer zu stellen, da gleich
mehrere ungünstige Bedingungen zusammentreffen (vgl. Dahle, 2000):
4 Das vorherzusagende Verhalten tritt (zumindest bei zahlreichen Delikten) selten
auf. Viele Gewalttäter und gewalttätige Sexualstraftäter bleiben Jahre oder gar Jahrzehnte lang unauffällig, um dann plötzlich wieder einschlägige Straftaten zu begehen.
4 Verhalten wird immer auch durch die Situation determiniert. In welche Situationen
der Straftäter einmal kommen wird, die ihn wieder in Versuchung bringen, ist ungewiss. Auch ungünstige Lebensumstände wie Arbeitslosigkeit oder das Zerbrechen
einer Beziehung oder Ehe sind schwer vorherzusehen. Günstige Randbedingungen,
die anfangs vorhanden sind und bei der Begutachtung berücksichtigt wurden (z. B.
Alkoholabstinenz), können später wegfallen.
4 Der Geltungszeitraum der Prognose ist gerade bei jungen Straftätern sehr lang.
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Schwierige
Randbedingungen
für Prognose
548
nein
ja
nein
ja
36%
65%
16%
39%
15%
37%
16%
38%
6%
18%
6%
16%
2%
6%
6&
17%
2%
7%
2%
6%
1%
2%
60 Jahre
der internationalen Forschung zufolge (46 Studien) zur Vorhersage des Rückfallrisikos
gut geeignet sind: Vorliegen einer Persönlichkeitsstörung (meist Psychopathie), früheres Gewaltdelikt, Gewalttätigkeit während der Unterbringung und Alter. Er überprüfte,
ob die Patienten in einem Zeitraum von durchschnittlich acht Jahren nach ihrer Entlassung einen Eintrag im Bundeszentralregister erhalten hatten, also wieder straffällig
geworden waren.
. Tabelle 11.4 lässt sich entnehmen, dass das Rückfallrisiko deutlich mit dem Alter
abnimmt. Prognostisch ungünstig sind eine Persönlichkeitsstörung, Vorstrafen wegen
eines Gewaltdeliktes und Gewalttätigkeit während des Maßregelvollzugs. Das höchste
Risiko (Rückfallwahrscheinlichkeit von 65%) haben Patienten, die jung sind (Altersgruppe 20 Jahre) und drei weitere Risikomerkmale (. Tab. 11.4) aufweisen. Am unwahrscheinlichsten ist ein Rückfall bei älteren Patienten (Altersgruppe 60 Jahre), die
weder eine Persönlichkeitsstörung noch eine Vorstrafe wegen eines Gewaltdelikts haben oder trotz einschlägiger Vorstrafe während ihres Klinikaufenthaltes nicht gewalttätig geworden sind oder eine Persönlichkeitsstörung haben, aber weder aufgrund ihrer
Vorstrafen noch durch ihr Verhalten während des Maßregelvollzugs als gewalttätig
gelten. Die Rückfallwahrscheinlichkeit liegt hier nur bei 1 oder 2%.
Liegen Prognosetafeln vor, überlegt der Gutachter im nächsten Schritt, ob es gute
Gründe gibt, die statistische Vorhersage zu korrigieren. Dazu befasst er sich mit den
Besonderheiten des Delinquenten und bezieht sie in sein Urteil ein. Beispielsweise ist
der Proband zwar wegen eines Gewaltdelikts vorbestraft, aber es handelt sich nur um
ein kleines Delikt, das zudem schon sehr lange zurückliegt. Die Prognose kann in
diesem Fall günstiger ausfallen. Dahle (2000) spricht bei diesem Vorgehen von »klinischen Prognosen« – der Begriff darf nicht mit der »klinischen« Urteilsbildung (. Abschn. 5.2) verwechselt werden, die Dahle als »intuitive« Prognose bezeichnet. Die klinische Prognose im Sinne von Dahle orientiert sich an der statistischen Vorhersage,
versucht diese aber durch Berücksichtigung von individuellen Besonderheiten zu optimieren. Ziel ist es letztlich, ein Erklärungsmodell für den Straftäter zu entwickeln.
Dieses sollte sparsam sei, vor allem mit theoretisch oder empirisch nicht belegbaren
Zusatzannahmen. Gutachter, die sich diesem Ansatz verpflichtet fühlen, werden etwa
folgende Fragen stellen:
Ja
Nein
nein
ja
Ja
Ja
nein
ja
Nein
Nein
6%
17%
20 Jahre
40 Jahre
Entlassungsalter
Persönlichkeitsstörung
Mind. 2 x
gewalttätig
Vorstrafe mit
Gewaltdelikt
Risikofaktor
. Tabelle 11.4. Beispiel für eine Prognosetafel zur Rückfallwahrscheinlichkeit von männlichen
Straftätern nach Entlassung aus dem Maßregelvollzug
11.2 · Rechtspsychologische Diagnostik
11
Erklärungsmodell für
den Straftäter
Korrektur der statistischen Vorhersage
möglich
Kombination von Risikofaktoren entscheidend
Rückfallrisiko ablesen
549
11
Gemeinsamer Elternvorschlag gewichtig
Personen- und
Vermögensvorsorge
Hauptanlass
Scheidungsverfahren
recht für die Kinder, führt das Familiengericht eine Entscheidung herbei, wobei das
Streit um das Sorgerecht. Kommt es dagegen zu einem Streit der Eltern um das Sorge-
Elterliche Sorge. Die elterliche Sorge gilt von der Geburt bis zur Volljährigkeit des
Kindes und umfasst die Personen- und die Vermögensfürsorge. Zur Personenfürsorge
gehören die Fürsorge für das körperliche Wohl des Kindes, die Erziehung, Aufenthaltsbestimmung, Aufsichtspflicht und die Umgangsbestimmung. Die Vermögensfürsorge
betrifft die Vertretung des Kindes in finanziellen Angelegenheiten. Die Ausübung der
elterlichen Fürsorge ist nicht nur ein Recht, sondern auch eine Pflicht. Kein Elternteil
kann darauf verzichten. Möglich ist es allerdings, die Fürsorge dem anderen Elternteil
oder einer dritten Person zu überlassen; dies ist jederzeit widerrufbar. In einem Scheidungs- oder Trennungsverfahren müssen die Eltern angeben, ob gemeinsame minderjährige Kinder betroffen sind. Legen sie eine einvernehmliche Regelung zur elterlichen
Sorge und zum Umgang mit den Kindern vor, besteht seitens des Gerichts normalerweise kein Handlungsbedarf. Der gemeinsame Elternvorschlag steht sogar über dem
Kindeswohl, sofern dieses nicht erkennbar beeinträchtigt ist.
Viele Begutachtungen ergeben sich durch Scheidungsverfahren, von denen minderjährige Kinder betroffen sind. Laut Statistischem Bundesamt (Pressemitteilung vom
13. Juli 2005, s. www.destatis.de/presse/deutsch/pm2005/p2980023.htm) wurden 2004
in Deutschland insgesamt 213.691 Ehen geschieden und in etwa 50% der Fälle hatten
die Ehepartner ein oder mehrere minderjährige Kinder.
Familiengericht: Sorgerechtsentscheidungen. Im Rahmen von familiengerichtlichen
Verfahren können psychologische Gutachten zu sehr unterschiedlichen Fragestellungen angefordert werden (Salzgeber, 2001). Fragestellungen, die z. B. selten vorkommen,
sind:
4 die Beurteilung der Ehemündigkeit von heiratswilligen Minderjährigen,
4 die Frage, ob eine Minderjährige die Folgen und die Tragweite eines Schwangerschaftsabbruchs einschätzen kann oder
4 die Frage, ob die Aufrechterhaltung einer Ehe eine besondere Härte darstellt.
Die dazu benötigten Informationen finden sich in den Akten über die früheren Straftaten, in früher erstellten Gutachten, in der Dokumentation des Haftverlaufs, in Interviews mit dem Täter und evtl. auch mit wichtigen Bezugspersonen (z. B. der Ehefrau).
Zur Beurteilung der Persönlichkeit können auch Persönlichkeitsfragebögen oder projektive Verfahren herangezogen werden. Je nach Fragestellung kann auch ein Intelligenztest oder ein anderer Leistungstest eingesetzt werden.
Unter welchen Bedingungen wurde die Straftat begangen?
Wie kann die Entstehung der damaligen Straftat erklärt werden?
Wie hat sich die Persönlichkeit des Delinquenten in der Haft verändert?
Welche therapeutischen Maßnahmen wurden mit welchem Erfolg durchgeführt?
Wie ist der »soziale Empfangsraum« nach der möglichen Entlassung (Arbeitsplatz,
Unterkunft, soziale Beziehungen)?
4 Welche Lebensperspektiven (berufliche Möglichkeiten, Partnerschaft, Familie etc.)
hat der Delinquent?
4 Wie hoch ist die Wahrscheinlichkeit, dass kritische Umstände auftreten, unter denen bei dieser Person die Gefahr einer erneuten Straftat groß ist?
4
4
4
4
4
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Diagnostische
Verfahren
550
der Scheidungen mit minderjährigen Kindern einigen sich die Eltern darauf. Dass
dieser Entscheidung Vermittlungsbemühungen vorausgegangen sein können, wurde
bereits oben erwähnt. In strittigen Fällen kann der Antrag eines Elternteils jedoch auch
anders lauten. In der Übersicht sind einige Entscheidungsmöglichkeiten in Sorgerechtsverfahren aufgeführt, die oft nicht die Zustimmung eines Elternteils oder die eines über
14jährigen Kindes finden, und die zur Hinzuziehung eines Sachverständigen führen
können.
Gerade der letzte Punkt, die Umgangsregelung, kann sich im Detail als schwierig
und strittig erweisen. Ziel der Regelung des Umgangs des Kindes mit seinen Eltern ist
es, eine harmonische Eltern-Kind-Beziehung mit beiden Elterteilen auch nach deren
Fragestellungen. Die gemeinsame elterliche Sorge stellt den Regelfall dar; in über 90%
Psychologischer Sachverständiger. In familiengerichtlichen Verfahren, die ein Kind
betreffen, hat der Familienrichter eine Ermittlungspflicht. Es steht im Ermessen des
Familienrichters, ein Sachverständigengutachten einzuholen. Die erforderliche fachliche Kompetenz findet das Gericht nicht nur bei Psychologen, sondern, je nach Fragestellung, auch manchmal bei Ärzten für Kinder- und Jugendpsychiatrie, selten auch bei
Kinderärzten oder Diplompädagogen. Wen der Richter im Einzelfall beauftragt, steht
ihm frei. In Bayern gibt es öffentlich bestellte und beeidigte Sachverständige, die nach
der Zivilprozessordnung anderen Sachverständigen vorgezogen werden sollen. Bei der
Auswahl des Sachverständigen spielen sicherlich auch Kriterien wie wissenschaftliche
Reputation, Prozesserfahrung, Ansehen bei Rechtsanwälten und Bewährung in Prozessen eine wesentliche Rolle. Formal betrachtet steht der Sachverständige dem Richter in
der Rolle des Gehilfen oder Helfers gegenüber.
Kindeswohl und Kindeswille. Bei der Suche nach einer Lösung der Sorgerechtsfrage
hat das Gericht wie auch ein hinzugezogener Sachverständiger aufgrund gesetzlicher
Vorgaben das Kindeswohl, sowie bei über 14jährigen Kindern auch den Willen des
Kindes, zu beachten. Das Kindeswohl umfasst das leibliche und das geistig/seelische
Wohl des Kindes. Der Begriff ist juristisch nicht definiert; zur Beurteilung des Kindeswohls sind vor allem sozialwissenschaftliche Erkenntnisse anzuwenden. Das Kindeswohl hat in einem Sorgerechtsverfahren eine zentrale Bedeutung. Kommt das Gericht,
etwa aufgrund eines psychologischen Gutachtens, zu der Erkenntnis, dass das Kindeswohl gefährdet ist, kann es weit reichende Maßnahmen beschließen. So kann es die
Wohnung ausschließlich einem der Elternteile zuweisen, einem Elternteil oder einem
Dritten den Zutritt zum Haus bzw. der Wohnung verbieten oder vorschreiben, das
Stadtgebiet nicht mehr zu betreten. Es kann sogar einem Elternteil oder auch beiden
Eltern das Sorgerecht entziehen. Bei der Sorgerechtsentscheidung ist ferner der Kindeswille zu berücksichtigen. Ein über 14jähriges Kind darf selbst einen Vorschlag zum
Sorgerecht machen. Wenn das Kind einem gemeinsamen Elternvorschlag zur Regelung
des Sorgerechts explizit nicht zustimmt, trifft das Gericht eine Entscheidung, die sich
am Kindeswohl orientiert.
Gericht auf eine einvernehmliche Regelung der Betroffenen hinwirken sollte. Bevor es
jedoch zu einer gerichtlichen Entscheidung kommt, müssen Schlichtungs- und Vermittlungsversuche unternommen werden. Wird ein psychologischer Sachverständiger
vom Gericht hinzugezogenen, gilt dieser Grundsatz auch für ihn. Diagnostik und Intervention (Hinwirken auf eine Einigung, Vermittlung, Beratungsangebot etc.) sind in
diesem Fall eng verzahnt.
11.2 · Rechtspsychologische Diagnostik
11
Umgangsregelung
Strittige
Entscheidungsmöglichkeiten
Auswahlkriterien für
Sachverständige
Kindeswohl im Sorgerechtsverfahren von
zentraler Bedeutung
Diagnostik und
Intervention verzahnt
Einvernehmliche
Regelung angestrebt
551
11
4
4
4
4
4
4
4
4
4
Ist die Erziehungsfähigkeit durch eine Erkrankung eingeschränkt?
Liegt sexueller Missbrauch vor?
Ist die Bereitschaft vorhanden, elterliche Verantwortung zu übernehmen?
Sind die Betreuungs- und Versorgungsmöglichkeiten ausreichend?
Wie stark ist die Bindung des Kindes an einen Elternteil?
Was ist der Kindeswille?
Wie groß ist die Förderkompetenz des Elternteils?
Liegt ein Mangel an erzieherischer Kompetenz vor?
Wendet ein Elternteil unzulässige Erziehungsmaßnahmen an?
Beispiele für psychologische Fragen in Sorgerechtsentscheidungen:
Diagnostisches Vorgehen. Bei den in der Übersicht aufgeführten Fragestellungen handelt es sich um juristische Fragen, aus denen zunächst psychologische Fragen abgeleitet
werden. Familienrichter werden in der Regel nur dann einen psychologischen Sachverständigen hinzuziehen, wenn sie psychologische Fragestellungen sehen, die sie nicht
selbst beantworten können. Für die Ableitung der psychologischen Fragen sind nicht
nur Vorinformationen über den individuellen Fall erforderlich, sondern auch Kenntnisse der einschlägigen Gesetze und der Rechtssprechung. Welche konkreten psychologischen Fragen gestellt werden, ergibt sich oft erst nach einem Aktenstudium oder
einem ersten Gespräch mit den Eltern. Ein Richter kann aber auch die Fragestellung
von Anfang an auf eine oder mehrere Teilfragen einengen.
Trennung zu ermöglichen. Wenn sich ein Elternteil als problematisch erweist, kann das
Gericht beispielsweise einen beaufsichtigten Umgang anordnen, oder den Kontakt zum
Kind für eine bestimmte Zeit untersagen. Auch der Umgang mit weiteren Personen
(z. B. neuer Partner eines Elternteils, Großeltern, Stiefeltern) kann Gegenstand einer
Umgangsregelung sein.
4 Alleinige elterliche Sorge (einem Elternteil wird die Sorge übertragen),
4 Aufteilung der Sorge (ein Elternteil z. B. zuständig für die schulische Erziehung
etc.),
4 Aufhebung der gemeinsamen Sorge (die gemeinsame Sorge wird in eine alleinige umgewandelt),
4 Entzug der elterlichen Sorge oder Teilen der elterlichen Sorge (eventuell auch
Übertragung auf eine dritte Person),
4 Rückführung eines Kindes nach dem Haager Übereinkommen (das Kind lebt bei
einem Elternteil in einem anderen Staat),
4 Meinungsverschiedenheiten der Eltern bei gemeinsamem Sorgerecht (Uneinigkeit in Angelegenheiten, die für das Kind wichtig sind, beispielsweise Auswahl
der Schule),
4 Regelung des Umgangs des Kindes mit seinen Eltern (das Kind lebt bei einem
Elternteil, hat aber auch Umgang mit dem anderen Elternteil oder weiteren
Personen).
Fragestellung bei und nach Trennung oder Scheidung der Eltern:
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Psychologische Fragen
aus Vorinformationen
und Rechtssprechung
herleiten
552
Welche Art von psychodiagnostischen Verfahren fehlt in Ihrem Arbeitsbereich am
meisten?
Die Arbeit einer Familienrichterin sollte weniger rückwärtsgewandt/aufklärend als
lösungsorientiert sein. Wichtig wären also Tests, mit deren Hilfe zukünftiges Verhalten/
Einstellungen prognostiziert bzw. beeinflusst werden könnten.
6
Sind die dabei erstellten Gutachten von Psychologen für Sie nachvollziehbar und
schlüssig? Inwiefern hilft es Ihnen?
Nachvollziehbar und schlüssig: Ja. Normalerweise sind die psychologischen Gutachten
in einen Anamnese- und Beobachtungs- sowie einen Diagnostikteil gegliedert. Die
angewendeten Testverfahren sind bekannt bzw. werden erläutert. Die eingeholten Gutachten helfen mir. Nicht immer bringen sie für mich »neue« Erkenntnisse. Aber es ist
einerseits hilfreich, wenn die eigene Meinung »fundiert« bestätigt wird, andererseits
lässt sich durch Übersendung bzw. Erläuterung des Gutachtens an die Parteien oft ein
Ergebnis besser vermitteln, wodurch die Akzeptanz für eine zutreffende Entscheidung
erhöht bzw. im besten Falle eine Entscheidung sogar entbehrlich wird, weil die Eltern
auf der Grundlage des Gutachtens eine eigenverantwortliche Lösung treffen.
In welcher Art von Fällen nehmen Sie die spezifische Kompetenz von Psychologen
in Anspruch?
Sorge- und Umgangsrechtsstreitigkeiten zwischen getrennt lebenden Eltern, selten zwischen Eltern und Pflegeeltern.
achten in der Rechtssprechung«
Wie häufig ziehen Sie Psychologen zu Rate?
Ein- bis höchstens zweimal jährlich.
> Interview mit Dr. Ulrike Schmidt-Aßmann zum Thema »Psychologische Gut-
Diagnostische Verfahren. Auf die psychologischen Fragen sucht der Diagnostiker mit
Hilfe von Aktenanalysen, diagnostischem Interview, Verhaltensbeobachtung, Persönlichkeitsfragebogen, Leistungstests oder auch projektiven Verfahren eine Antwort. Die
Auswahl der Verfahren richtet sich stark nach der spezifischen Fragestellung. Beispielsweise stellt sich die Frage, ob die Erziehungsfähigkeit durch eine (dem Gutachter bekannte) hirnorganische Erkrankung eingeschränkt ist. In diesem Fall wird der
Gutachter mit Hilfe von neuropsychologischen Tests (7 Abschn. 11.1) versuchen, die
Schwere der Funktionsbeeinträchtigungen abzuschätzen. In einem anderen Fall ist der
Verdacht aufgekommen, dass ein Elternteil das alleinige Sorgerecht anstrebt, um Unterhaltsforderungen stellen zu können oder um den Partner dafür zu »bestrafen«, dass
er die Ehe zerstört hat. In diesem Fall ist die Bereitschaft zu hinterfragen, elterliche
Verantwortung zu übernehmen. Durch ein diagnostisches Interview kann der Gutachter eruieren, welche konkreten Zukunftspläne bezüglich Kindesbetreuung, Freizeitgestaltung und Umgang mit anstehenden Problemen ein Elternteil hat und wie dieser in
der Vergangenheit seine Elternrolle ausgefüllt hat. Zur Beurteilung der Bindung des
Kindes an einen Elternteil bietet sich bei Kleinkindern die Verhaltensbeobachtung der
Eltern-Kind-Interaktion bei einem Hausbesuch an. Ferner können die Eltern befragt
werden. Bei älteren Kindern kommen auch ein diagnostisches Interview mit dem Kind
in Frage sowie projektive Tests wie der Familien-Beziehungs-Test (Howells & Lickorish, 2003).
11.2 · Rechtspsychologische Diagnostik
11
Dr. Ulrike SchmidtAßmann, seit 1979
Familienrichterin am
Amtsgericht Heidelberg; ausgebildete
Familienmediatorin
(BAFM); vielfältig in der
Aus- und Weiterbildung tätig.
Bindung des Kindes
an einen Elternteil
feststellen
Auswahl durch
Fragestellung geleitet
Breites Spektrum
an Verfahren
553
11
Alkoholproblematik
häufigster Untersuchungsanlass
Statistik der
Bundesanstalt für
Straßenwesen
Untersuchungsanlässe. Für eine medizinisch-psychologische Begutachtung kommen
verschiedene Anlässe in Frage. Eine Statistik der Bundesanstalt für Straßenwesen gibt
Aufschluss über die Art und die Häufigkeit der einzelnen Untersuchungsanlässe sowie
über das Ergebnis der Begutachtung (. Tab. 11.5). Neben einem positiven oder negativen Ergebnis besteht für die Gutachter in den meisten Fällen auch die Möglichkeit, eine
Nachschulung vorzuschlagen und gegebenenfalls festzustellen, ob der Proband nachschulungsfähig ist.
Über die Hälfte der Begutachtungen fällt wegen einer Alkoholproblematik an. Maßgeblich sind hier § 13, Nr. 2 der FeV (7 Übersicht).
Fahrerlaubnis-Verordnung. Die rechtliche Grundlage für eine Begutachtung der
Fahreignung stellt die »Verordnung über die Zulassung von Personen zum Straßenverkehr« (kurz Fahrerlaubnis-Verordnung) vom 18. August 1998 (BGBl. I S. 2214) in der
Fassung des Inkrafttretens vom 01.07.2004 dar (s. www.verkehrsportal.de/fev/fev.
php).
Rechtliche Grundlage
für Begutachtung
Verkehrspsychologische Diagnostik
Im Volksmund gibt es das böse Wort »Idiotentest« für die psychodiagnostische Untersuchung, der sich viele Kraftfahrer nach dem Verlust des Führerscheins unterziehen
müssen. Dass die Betroffenen überwiegend ablehnend reagieren, ist zumindest nachvollziehbar. Schwer zu verstehen ist hingegen, dass sich verkehrsunauffällige Kraftfahrer
und sogar Automobilclubs mit denen solidarisieren, die stark alkoholisiert am Steuer
gesessen haben oder etwa durch aggressives Fahrverhalten Leben und Gesundheit ihrer
Mitmenschen gefährdet haben.
11.3
Haben die psychologischen Gutachten erfahrungsgemäß eher einen geringen oder
großen Einfluss bei der Entscheidungsfindung?
Wenn schon ein Gutachten eingeholt wird, hat es auch eher einen erheblichen Einfluss
auf die Entscheidungsfindung. <
Wie ist es um Rückmeldungen über die Treffsicherheit der Gutachterempfehlungen
in Ihrem Arbeitsbereich bestellt?
Die Frage scheint mir nicht richtig formuliert. Nicht der Gutachter hat zu entscheiden,
also »treffsicher« zu sein, sondern ich als Richterin. Dafür benötige ich die Hilfe des
Gutachters. Habe ich Zweifel am Gutachten, werde ich mir das Gutachten mündlich
erläutern lassen. Natürlich gibt es unterschiedliche Einschätzungen.
Inwieweit befürchten Sie, dass die Klienten bei familienrechtlichen Gutachtenfällen
durch persönliche Verstellung das Ergebnis des Gutachtens in Ihrem Sinne beeinflussen können?
Selbstverständlich wollen die Klienten sich gegenüber dem/der GutachterIn besonders
gut darstellen. Ich sehe keine Gefahr darin, dass dadurch Ergebnis und Qualität des
Gutachtens beeinflusst werden. Es ist ein bekanntes Phänomen. Wichtig ist die Art der
Fragestellung an den Gutachter. Je weniger es um eine klassische Diagnostik mit Beschreibung eines »Ist-Zustandes«, je mehr es um lösungsorientierte Hilfestellung geht,
umso weniger groß ist die Beeinflussung durch persönliche Verstellung.
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
„Idiotentest“
emotional besetzt
554
1.678
Sonstige Anlässe
100%
1.5%
4.1%
1.0%
1.4%
1.4%
1.7%
9.1%
10.1%
18.4%
39.1%
2.5%
9.6%
Anteil
45%
–
91%
43%
48%
47%
43%
38%
49%
40%
43%
45%
44%
15%
–
–
8%
6%
17%
6%
16%
9%
14%
17%
17%
26%
Schulung
40%
–
9%
49%
46%
36%
51%
46%
42%
46%
39%
38%
30%
negativ
Ergebnis der Begutachtung
positiv
6
[Die Fahrerlaubnisbehörde ordnet an, dass]
1. ein ärztliches Gutachten (§ 11, Abs. 2 Satz 3) beizubringen ist, wenn Tatsachen
die Annahme von Alkoholabhängigkeit begründen oder die Fahrerlaubnis
wegen Alkoholabhängigkeit entzogen war oder sonst zu klären ist, ob Abhängigkeit nicht mehr besteht, oder
2. ein medizinisch-psychologisches Gutachten beizubringen ist, wenn
a) nach dem ärztlichen Gutachten zwar keine Alkoholabhängigkeit, jedoch
Anzeichen für Alkoholmissbrauch vorliegen oder sonst Tatsachen die Annahme von Alkoholmissbrauch begründen,
b) wiederholt Zuwiderhandlungen im Straßenverkehr unter Alkoholeinfluss
begangen wurden,
FeV § 13 Klärung von Eignungszweifeln bei Alkoholproblematik
Anmerkungen. Quelle: Bundesanstalt für Straßenwesen, Oktober 2004 (www.bast.de/htdocs/
aktuelles/presse/2004/mpu_2003.pdf ). Nur Untersuchungsanlässe mit mind. 1.000 Fällen pro
Jahr aufgeführt.
110.776
4.571
FeV §10: Abweichung vom
Mindestalter
Gesamt
1.152
1.516
Verkehrsauffälligkeit + Medikamente/Drogen
Sonstige Mehrfachfragestellungen
1.913
Alkohol + Verkehrs- oder
strafrechtl. Auffälligkeit
1.585
10.076
Betäubungsmittel- & Medikamentenaufällige
Verkehrsauffälligkeit + strafrechtl.
Auffälligkeit
11.194
Alkoholauffälligkeit, wiederholt
Alkohol + Medikamente/Drogen
43.330
20.408
Alkoholauffälligkeit, erstmalig
2.754
10.599
Verkehrsauffälligkeiten
Sonstige strafrechtl. Auffälligkeiten
Anzahl
Untersuchungsanlass
. Tabelle 11.5. Begutachtungen bei den Medizinisch-Psychologischen Untersuchungsstellen
2003
113 · Verkehrspsychologische Diagnostik
555
11
11
Paradigmenwechsel:
Modifizierbares Verhalten statt Dispositionen
relevant
Verhaltensgewohnheiten, Persönlichkeit
oder Leistungsfähigkeit entscheidend
Spezifizierung der Anforderungen
Begutachtungs-Leitlinien. Für die Begutachtung stellen heute »Begutachtungs-Leitlinien zur Kraftfahrereignung« (Lewrenz, 2000) ein wichtiges Hilfsmittel dar (auch
unter www.fahrerlaubnisrecht.de/Begutachtungsleitlinien/BGLL%20Inhaltsverzeichnis.htm). Die Leitlinien wurden von dem so genannten Paritätischen Ausschuss unter
befasst sich mit unterschiedlichen Aspekten der Fahreignung. Je nach Begutachtungsanlass und Fragestellung liegt der Schwerpunkt etwa auf Verhaltensgewohnheiten im
Umgang mit Alkohol, der Persönlichkeit des Fahrers oder auf bestimmten Merkmalen
der Leistungsfähigkeit. Im Fall der Fahrerlaubnis zur Fahrgastbeförderung oder bei
Zweifeln an der psychischen Leistungsfähigkeit stehen eindeutig kognitive Leistungsmerkmale im Vordergrund: Optische Orientierung, Konzentrationsfähigkeit, Aufmerksamkeit, Reaktionsfähigkeit und Belastbarkeit. Bei Straftaten, die im Zusammenhang mit der Kraftfahreignung oder der Teilnahme am Straßenverkehr stehen, können
das Aggressionspotential, die Neigung zu rücksichtsloser Durchsetzung eigener Anliegen oder die Bereitschaft zu ausgeprägt impulsivem Verhalten begutachtungsrelevant
sein. Damit kommt wieder das diagnostische Interview als Methode in Frage, eventuell
auch Fragebogen zur Erfassung von Persönlichkeitsmerkmalen (z. B. Aggressivität), die
jedoch verfälschbar sind.
In den letzten Jahrzehnten fand in der verkehrspsychologischen Eignungsdiagnostik ein Paradigmenwechsel statt. Früher spielte die Annahme stabiler Dispositionen
(Persönlichkeitsmerkmale, Leistungsdefizite) eine wichtige Rolle, heute hat sich die
Ansicht durchgesetzt, dass das Verhalten wichtig ist, und dass Verhalten auch modifizierbar ist. Dem wird mit dem Konzept der Nachschulung Rechnung getragen (Wittkowski & Seitz, 2004).
Psychologische Fragen und diagnostisches Vorgehen. Die Fahreignungsdiagnostik
Viele andere Fragestellungen ergeben sich aus der Anwendung von § 11 der FeV, der
sich auf die Eignung der Führerscheininhaber, speziell auf die »notwendigen körperlichen und geistigen Anforderungen« bezieht. Eine Begutachtung ist unter anderem
vorgesehen »bei erheblichen oder wiederholten Verstößen gegen verkehrsrechtliche
Vorschriften oder bei Straftaten, die im Zusammenhang mit dem Straßenverkehr oder
im Zusammenhang mit der Kraftfahrereignung stehen oder bei denen Anhaltspunkte
für ein hohes Aggressionspotential bestehen« (§ 11, Abs. 3;4). Wer eine Fahrerlaubnis
zur Fahrgastbeförderung anstrebt, also beispielsweise als Taxifahrer oder als Busfahrer
tätig sein will, braucht dazu eine spezielle Fahrerlaubnis, deren Erteilung in § 48 geregelt
ist. »Die Fahrerlaubnis zur Fahrgastbeförderung ist zu erteilen, wenn der Bewerber…
[u. a.] seine geistige und körperliche Eignung gemäß § 11, Abs. 9 in Verbindung mit
Anlage 5 nachweist.« In Anlage 5 der Fahrerlaubnisverordnung werden folgende Anforderungen spezifiziert: Belastbarkeit, Orientierungsleistung, Konzentrationsleistung,
Aufmerksamkeitsleistung, Reaktionsfähigkeit.
c) ein Fahrzeug im Straßenverkehr bei einer Blutalkoholkonzentration von 1,6
Promille oder einer Atemalkoholkonzentration von 0,8 mg/l oder mehr geführt wurde,
d) die Fahrerlaubnis aus einem der unter Buchstabe a bis c genannten Gründe
entzogen war oder
e) sonst zu klären ist, ob Alkoholmissbrauch nicht mehr besteht.
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
»Geistige Anforderungen« erfüllt?
556
Beispiel Alkoholproblematik. Am Beispiel der Alkoholproblematik sollen die Begutachtungsgrundsätze in knapper Form erläutert werden. In den Leitlinien wird zwischen
Alkoholmissbrauch und Alkoholabhängigkeit unterschieden. Die Diagnostik einer Alkoholabhängigkeit erfolgt nach den üblichen ICD-10-Kriterien (7 Kap. 10). Menschen, die alkoholabhängig sind, dürfen kein Kraftfahrzeug führen. Für die Feststellung, dass keine Abhängigkeit mehr vorliegt, wird der Nachweis verlangt, dass eine
dauerhafte Abstinenz besteht. In der Regel sind eine erfolgreiche Entwöhnungsbehandlung und eine einjährige Abstinenz nach der Entgiftungs- und Entwöhnungszeit nachzuweisen. Außerdem dürfen keine sonstigen eignungsrelevanten Mängel vorliegen.
Auch Alkoholmissbrauch (nach ICD-10 »schädlicher Gebrauch«) ist unvereinbar mit
dem Führen eines Kraftfahrzeugs. Missbrauch liegt vor, wenn der Proband, ohne bereits
alkoholabhängig zu sein, vor der Teilnahme am Straßenverkehr nicht zuverlässig auf
Alkoholkonsum verzichtet, der die Fahrsicherheit beeinträchtigt. Ein sicherer diagnostischer Hinweis ist, wenn der Proband wiederholt ein Fahrzeug unter unzulässig hoher
Alkoholwirkung geführt hat. Als starker Hinweis auf Alkoholmissbrauch gilt auch,
wenn er nur einmal mit hoher Alkoholkonzentration gefahren ist, ohne dass dabei
weitere Anzeichen einer Alkoholwirkung (Ausfallserscheinungen) erkennbar waren. In
diesem Fall ist eine extreme Gift-/Trinkfestigkeit anzunehmen.
Dass ein Alkoholmissbrauch abgestellt wurde, kann unter anderem anhand folgender Kriterien beurteilt werden:
4 Das Trinkverhalten wurde ausreichend geändert.
4 Die Änderung im Umgang mit Alkohol ist stabil und motivational gefestigt.
Selbstverständlich ersetzen die Leitlinien nicht eine individuelle Begutachtung und
Begründung des Gutachtens. Sie zeigen Beurteilungsgrundsätze und Begründungen
auf und dienen als Entscheidungshilfe.
der Leitung des Bundesministeriums für Verkehr, Bau- und Wohnungswesen erstellt.
Sie führen die Begutachtungs-Leitlinien »Krankheit und Kraftverkehr« mit dem »Psychologischen Gutachten Kraftfahreignung« zusammen. Aktuelle Stellungnahmen der
relevanten medizinischen und psychologischen Fachgesellschaften und gutachtliche
Erfahrungen fanden Berücksichtigung. So verbinden die Leitlinien Erfahrungen aus
der Praxis der Begutachtung mit einschlägigen wissenschaftlichen Erkenntnissen.
Die Leitlinien gehen in einem allgemeinen Teil auf Themen von grundsätzlicher
Bedeutung (z. B. Anforderungen an die psychische Leistungsfähigkeit) und auf organisatorische und rechtliche Bedingungen der Begutachtung (z. B. rechtliche Stellung des
Gutachters) ein. Im speziellen Teil werden einzelne eignungsausschließende und -einschränkende körperlich-geistige (psychische) und charakterliche Mängel beim Fahrerlaubnisbewerber und Fahrerlaubnisinhaber behandelt. Einige sind rein medizinischer Art (z. B. verschiedene Herz- und Gefäßkrankheiten), andere fallen in den Kompetenzbereich von Medizinern und Psychologen (z. B. psychische Störungen, Alkohol)
und ein kleiner Teil (z. B. intellektuelle Leistungseinschränkungen, Thema Fahrgastbeförderung) wird am ehesten von einem Psychologen begutachtet werden. Für die Begutachtungspraxis erfüllen die Leitlinien vor allem zwei wichtige Funktionen:
4 Zusammenstellung aller wichtigen eignungsausschließenden und -einschränkenden Merkmale;
4 Argumentationshilfe: Der Gutachter kann sich im Einzelfall auf die BegutachtungsLeitlinien beziehen und muss nicht jede gutachterliche Schlussfolgerung eingehend
erläutern.
113 · Verkehrspsychologische Diagnostik
11
Alkoholmissbrauch
abgestellt?
Diagnostische Kriterien
für Alkoholmissbrauch
Alkoholabhängigkeit
und Alkoholmissbrauch schließen
Führen eines Kraftfahrzeugs aus
Beurteilungsgrundsätze und Entscheidungshilfe
Spezieller Teil: konkrete
eignungsrelevante
Merkmale
Allgemeiner Teil
Praxis und
Wissenschaft vereint
557
11
Inhaltsanalytische
Auswertung von
Gutachten
Eigenes Fehlverhalten
erkennen und ändern
Fakten von Beschönigungen unterscheiden
Leistungstests
Akteninformationen
Diagnostisches
Interview von zentraler
Bedeutung
Qualität der Gutachten. Für die Erstellung von Gutachten zur Kraftfahrereignung
gelten die gleichen Anforderungen wie für andere Gutachten (7 Abschn. 5.3). Wittkowski und Seitz (2004) haben insgesamt 122 Gutachten aus 39 medizinisch-psychologischen Begutachtungsstellen analysiert. Anlass war immer das Fahren unter Alkoholeinfluss. Die Beurteiler überprüften jedes Gutachten anhand einer umfangreichen
Merkmalsliste. Mit diesem inhaltsanalytischen Vorgehen konnten sie zahlreiche Stärken und Schwächen der Gutachten aufdecken. Die Ergebnisse sind zu umfangreich, um
Was sollte der Betroffene sagen, um ein positives Gutachten zu bekommen? Unter
dieser Überschrift gibt ein Rechtsanwalt folgenden Rat: »Ganz allgemein kann aber
gesagt werden, dass von dem Betroffenen eine kritische Auseinandersetzung mit dem
eigenen Verhalten verlangt wird. Es wird verlangt, dass der Betroffene sein früheres
Fehlverhalten erkannt hat und sich damit intensiv auseinandergesetzt hat, um dann zu
einer in Hinsicht auf die Kraftfahreignung »besseren« Lebensweise zu kommen…«. Wer
im Rahmen einer MPU angibt, er habe einfach Pech gehabt, weil andere ja auch ständig
gegen Verkehrsvorschriften verstoßen, ohne dabei erwischt zu werden, hat keine Aussicht auf ein positives Gutachten. Auch mit dem Hinweis, man habe ja schließlich z. B.
zu schnell fahren müssen, weil der Chef einen ständig unter Druck setze, ist das negative Gutachten in der Praxis schon vorprogrammiert. Bei einer solchen Haltung wird
nämlich gerade nicht deutlich, dass man sein eigenes Fehlverhalten als solches erkannt
hat und aufgrund einer Aufarbeitung des eigenen Fehlverhaltens eine Verhaltensänderung herbeigeführt hat.« (www.verkehrsportal.de/verkehrsrecht/mpu_05.php)
Problem der Verfälschung. Die Klienten werden bestrebt sein, einen »guten« Eindruck
zu hinterlassen, um den Führerschein (wieder) zu erlangen. Das diagnostische Interview hat bei vielen Fragestellungen einen hohen Stellenwert. Die Fragen müssen daher
so ausgewählt werden, dass diagnostisch relevante Fakten von beschönigenden Darstellungen unterschieden werden können.
Für jedes dieser Kriterien finden sich in den Leitlinien Hinweise zur Operationalisierung. So ist eine stabile und motivational gefestigte Änderung des Trinkverhaltens
unter anderem daran zu erkennen, dass der Änderungsprozess nachvollziehbar aufgezeigt werden kann und die mit der Verhaltensänderung erzielten Wirkungen positiv
erlebt werden.
Die Beurteilungsgesichtspunkte lassen bereits erkennen, welche diagnostischen
Verfahren bei Annahme einer Alkoholproblematik nahe liegen. Zur Feststellung von
Alkoholmissbrauch oder -abhängigkeit kommt dem diagnostischen Interview eine zentrale Bedeutung zu. Nur dieses Verfahren kann die nötigen Informationen über Trinkund Verhaltensgewohnheiten sowie über Problembewusstsein, eingeleitete Therapiemaßnahmen etc. liefern. Der Gutachter kann schriftliche Belege über Therapiemaßnahmen verlangen. Dem Interview geht eine Auswertung der Akten voraus. Wichtige
Informationen sind die Höhe des Blutalkoholspiegels, das Verhalten unter Alkoholeinfluss (unauffälliges Verhalten spricht für eine hohe Alkoholtoleranz), eventuelle Vorgutachten, medizinische Befunde zu alkoholbedingten Schädigungen, Laborwerte etc.
Zur Überprüfung von Leistungs- oder Funktionsbeeinträchtigungen nach einer überwundenen Alkoholabhängigkeit finden Leistungstests Verwendung.
ren Alkoholmissbrauchs fehlen.
4 Verkehrsrelevante Leistungs- oder Funktionsbeeinträchtigungen als Folgen frühe-
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Verhaltensnahe
Operationalisierung
558
Welche forderdringlichen Entwicklungsnotwendigkeiten sehen Sie in der verkehrspsychologischen Diagnostik?
Es werden Testverfahren benötigt, die gerade im unteren Skalenbereich besonders gut
differenzieren, da für das Führen eines Kraftfahrzeuges, eines Flugzeuges, eines Triebfahrzeuges oder auch eines Motorbootes, Mindestvoraussetzungen erfüllt sein müssen,
6
in der Verkehrspsychologie«
Für welche Aufgabenbereiche innerhalb der Verkehrspsychologie sehen Sie einen
besonderen Nutzen der psychologischen Diagnostik?
Bei der medizinisch-psychologischen Begutachtung spielen diagnostische Verfahren
aus verschiedenen Fachgebieten der Psychologie, z. B. Explorationstechniken, Erfassung psychofunktionaler Leistungsvoraussetzungen (v. a. Konzentration, Orientierung,
Belastbarkeit, Reaktion, Aufmerksamkeit) und Persönlichkeitsmerkmale (v. a. Eigenkritikfähigkeit und Selbstkontrolle) sowie intellektuelle Leistungsvoraussetzungen eine
besondere Rolle. Hinzu kommen verschiedene Befunde aus der Medizin (z. B. Laborparameter, klinische Befunde), sozialanamnestische und soziodemografische Daten.
Einen besonderen Nutzen sehe ich im Einsatz leistungsdiagnostischer Testverfahren bei
der Fahreignungsdiagnostik. Hier werden modernste Verfahren eingesetzt, die sich
mehr als in der Vergangenheit am Grundlagenwissen der Psychologie orientieren und
nach neuen Technologien – z. B. nach dem Konstituentenansatz – konstruiert und
theoriegeleitet validiert sind. Ihre Relevanz für die Beantwortung von diagnostischen
Fragestellungen an die Fahreignungsbegutachtung, z. B. nach dem Vorliegen alkohol-,
drogen-, oder altersbedingter Leistungsbeeinträchtigungen, ist durch empirische Untersuchungen belegt. Die verwendeten Verfahren sind kein Ersatz für Fahrverhaltensbeobachtungen, sondern erlauben es, Leistungsbesonderheiten heraus zu präparieren
und Hinweise für zielgerichtete Intervention sowie therapeutische Maßnahmen abzuleiten, z. B. bei der Rehabilitation von Alkoholabhängigen und der Bewertung der Abstinenzbehauptung. Die diagnostische Besonderheit dieses Begutachtungsprozesses
besteht darin, dass die im Einzelnen erhobenen Befunde aus Psychologie und Medizin
widerspruchsfrei im Sinne der zu beantwortenden - vom Gericht oder von der Behörde
veranlassten - Fragestellung zu integrieren und interpretieren sind.
> Interview mit Dr. Wolfgang Schubert zum Thema »Psychologische Diagnostik
Insgesamt unterstreicht diese Untersuchung, dass die abgelieferten Gutachten in vielen
Fällen (noch) nicht den Standards entsprechen.
hier wiedergegeben zu werden. Exemplarisch sind im Folgenden einige Bewertungsaspekte aufgeführt (in Klammern der Anteil von Gutachten mit Mängeln):
4 Gutachtenauftrag wörtlich wiedergegeben (81%)
4 Quellen zur Feststellung des bisherigen Sachverhalts benannt (23%)
4 Fragestellungen in konkrete Untersuchungsvariablen überführt (39%)
4 Vollständige Angaben zur Art der Informationsquellen wie Akten, Testverfahren
etc. (25%)
4 Im Ergebnisbericht Trennung von Informationen und deren Interpretation (2%)
4 Ergebnisse für den Leser klar und eindeutig formuliert (61%)
4 Integrative Befunde (sofern vorhanden) durch Mehrfachbelege gestützt (52%)
4 Fragestellung klar und unmissverständlich beantwortet (97%)
4 Vollständiges Literaturverzeichnis am Ende des Gutachtens (80%)
113 · Verkehrspsychologische Diagnostik
11
Dr. rer. nat. Wolfgang
Schubert, Dipl.-Psych.,
Leiter des Fachbereiches Verkehrspsychologie der DEKRA Automobil GmbH, 1. Vorsitzender des Vorstandes
der Deutschen Gesellschaft für Verkehrspsychologie e. V.
Gutachten teilweise
unzulänglich
559
Abels, D. (1974). Konzentrations-Verlaufs-Test KVT. Göttingen: Hogrefe.
Allehoff, W. (1984). Berufswahl und berufliche Interessen. Göttingen: Hogrefe.
Allen, B. P. & Potkay, Ch. R. (1981). On the arbitrary distinction between states and traits. Journal
of Personality and Social Psychology, 41, 916-928.
Allport, G. W. (1953). The trend in motivational theory. American Journal of Orthopsychiatry, 32,
107-119.
Amelang, M. (1978). Hochschulzugang. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (S. 1013-1022). Düsseldorf: Schwann.
Amelang, M. (1985). Historische Bedingtheit der empirisch orientierten Persönlichkeitsforschung.
In T. Herrmann & E. Lantermann (Hrsg.), Persönlichkeitspsychologie. Ein Handbuch in Schlüsselbegriffen (S. 9-19). München: Urban & Schwarzenberg.
Amelang, M. (1987). Fragebogen-Tests und experimentalpsychologische Variablen als Korrelate
der Persönlichkeitsdimensionen Extraversion/Introversion (E/I) und Neurotizismus (N). In M.
Amelang (Hrsg.), Bericht über den 35. Kongress der Deutschen Gesellschaft für Psychologie
in Heidelberg 1986 (Bd. 2, S. 403-416). Göttingen: Hogrefe.
Amelang, M. (1994). Über die Prozesse bei Selbsteinschätzungen. Eine Reaktionszeitanalyse
von State- und Trait-Urteilen. In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 241-257). Göttingen:
Hogrefe.
Amelang, M. (1999). Zur Lage der Psychologie: Einzelaspekte von Ausbildung und Beruf unter
besonderer Berücksichtigung der ökonomischen Implikationen psychologischen Handelns.
Psychologische Rundschau, 50, 2-13.
Amelang, M. & Bartussek, D. (1990). Differentielle Psychologie und Persönlichkeitsforschung
(3. Aufl., 5. Aufl. 2001). Stuttgart: Kohlhammer.
Amelang, M. & Borkenau, P. (1981a). Vorhersagen für einige Personen in vielen Merkmalen.
Oder: Konsistenz über Variable und Kontextbedingungen als Eigenschaft. In W. Michaelis
(Hrsg.), Bericht über den 32. Kongreß der Deutschen Gesellschaft für Psychologie in Zürich
1980 (S. 495-498). Göttingen: Hogrefe.
Amelang, M. & Borkenau, P. (1981b). Untersuchungen zur Validität von Kontroll-Skalen für Soziale
Erwünschtheit und Akquieszenz. Diagnostica, 27, 295-312.
Amelang, M. & Borkenau, P. (1982). Über die faktorielle Struktur und externe Validität einiger Fragebogen-Skalen zur Erfassung von Dimensionen der Extraversion und emotionalen Labilität.
Zeitschrift für Differentielle und Diagnostische Psychologie, 3, 119-146.
Amelang, M. & Borkenau, P. (1986). Zur faktorenanalytischen Kontrolle sozialer Erwünschtheitstendenzen. Eine Untersuchung anhand des Freiburger Persönlichkeitsinventars. Zeitschrift
für Differentielle und Diagnostische Psychologie, 7, 17-28.
Amelang, M., Gold, A. & Külbel, E. (1984). Über einige Erfahrungen mit einer deutschsprachigen
Skala zur Erfassung des zwischenmenschlichen Vertrauens (Interpersonal Trust). Diagnostica,
30, 198-215.
Amelang, M., Herboth, G. & Oefner, J. (1991). A prototype strategy for construction of a creativity
scale. European Journal of Personality, 5, 261-285.
Amelang, M. & Hoppensack, Th. (1977). Persönlichkeitsstruktur und Hochschulbesuch I. Merkmalsveränderungen während des Studiums bei Studierenden verschiedener Fachrichtungen.
Psychologische Beiträge, 19, 161-188.
Amelang, M. & Pielke, M. (1992). Effects of erotica upon men’s and women’s loving and liking responses for their partners. Psychological Reports, 71, 1235-1245.
Amelang, M., Schäfer, A. & Yousfi, S. (2002). Comparing verbal and nonverbal personality scales:
Psychometric properties, the influence of social desirability, and the effects of fake good instruction. Psychologische Beiträge, 44, 24-41.
Amelang, M., Schwarz, G. & Wegemund, A. (1989). Soziale Intelligenz als Trait-Konstrukt und TestKonzept bei der Analyse von Verhaltensauffälligkeiten. Zeitschrift für Differentielle und Diagnostische Psychologie, 10, 37-57.
Literaturverzeichnis
567
568
Literaturverzeichnis
Amelang, M. & Vagt, G. (1970). Warum sind die Schulnoten von Mädchen durch Leistungstests
besser vorherzusagen als diejenigen von Jungen? Zeitschrift für Entwicklungspsychologie
und Pädagogische Psychologie, 2, 210-220.
American Psychiatric Association. (1987). Diagnostic and statistical manual of mental disorders
DSM-III-R. Washington: American Psychiatric Association.
American Psychiatric Association. (1994). Diagnostic and statistical manual of mental disorders
DSM-IV. Washington: American Psychiatric Association.
Amthauer, R. (1953). Intelligenz-Struktur-Test IST (2. Aufl. 1955). Göttingen: Hogrefe.
Amthauer, R. (1957). Über die Prüfung der Zuverlässigkeit von Tests – erörtert am IST. Psychologische Rundschau, 8, 165-171.
Amthauer, R. (1972). Test zur Untersuchung des praktisch-technischen Verständnisses PTV.
Göttingen: Hogrefe.
Amthauer, R. (1973). IST 70 (4. Aufl., 1. Aufl. 1970). Göttingen: Hogrefe.
Amthauer, R., Brocke, B., Liepmann, D. & Beauducel, A. (2001). Intelligenz-Struktur-Test 2000
(IST 2000). Göttingen: Hogrefe.
Andersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38, 123-140.
Andersen, E. B. (1980). Discrete statistical models with social science applications. Amsterdam:
North Holland.
Andersen, E. B. (1995). Polytomous Rasch models and their estimation. In G. H. Fischer &
I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications
(pp. 271-291). New York: Springer.
Anderson, N. R. & West, M. A. (1994). The Team Climate Inventory. Windsor: Berks ASE.
Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43,
561-573.
Angleitner, A. (1993). Zur Konvergenz von verbalen und nicht-verbalen Erfassungstechniken von
Persönlichkeitsmerkmalen. Bielefeld: Unveröffentlichter Praktikumsbericht.
Angleitner, A. (1997). Minnesota Multiphasic Personality Inventory (MMPI). Rezension. Zeitschrift
für Differentielle und Diagnostische Psychologie, 18, 4-10.
Antonovsky, A. (1979). Health, stress, and coping. San Francisco: Jossey-Bass.
Arbeitskreis OPD. (1996). Operationalisierte psychoanalytische Diagnostik. Bern: Huber.
Arentewicz, G. & Schmidt, G. (1986). Sexuell gestörte Beziehungen. Konzept und Technik der Paartherapie. Berlin, Heidelberg, New York: Springer.
Armstrong, M. A. S. (1954). Children’s responses to animal and human figures in thematic pictures.
Journal of Consulting Psychology, 18, 76-70.
Atkinson, J. W. (1978). Motivational determinants of intellective performance and cumulative
achievement. In J. W. Atkinson & J. O. Raynor (Eds.), Personality, motivation, and achievement
(pp. 221-212). Washington: Hemisphere.
Barrick, M. R., Mount, M. K. & Judge, T. A. (2001). Personality and performance at the beginning of
the new millenium: What do we know and where do we go next? International Journal of
Selection and Assessment, 9, 9-30.
Bartenwerfer, H. (1964). Allgemeine Leistungstests. In R. Heiss (Hrsg.), Handbuch der Psychologie,
Psychologische Diagnostik (S. 385-410). Göttingen: Hogrefe.
Bartenwerfer, H. (1983). Allgemeine Leistungsdiagnostik. In K. J. Groffmann & L. Michel (Hrsg.),
Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 2: Intelligenz- und Leistungsdiagnostik (S. 482-521). Göttingen: Hogrefe.
Barthel, D. & Schuler, H. (1989). Nutzenkalkulationen eignungsdiagnostischer Verfahren am Beispiel eines biographischen Fragebogens. Zeitschrift für Arbeits- und Organisationspsychologie, 33, 73-83.
Bartlett, F. C. (1932). Remembering. A study in experimental and social psychology. Cambridge:
Cambridge University Press.
Bartling, G., Fiegenbaum, W. & Krause, R. (1980). Reizüberflutung. Theorie und Praxis. Stuttgart:
Kohlhammer.
Bartling, G., Echelmeyer, L., Engberding, M. & Krause, R. (2005). Problemanalyse im therapeutischen Prozess (5. Aufl.). Stuttgart: Kohlhammer.
Bartussek, D. (1970). Eine Methode zur Bestimmung von Moderatoreffekten. Diagnostica, 16, 57-76.
Bartussek, D. (1982). Modelle der Testfairness und Selektionsfairness. Trierer Psychologische Berichte, 9, Heft 2.
Bartussek, D. (1988). Beurteilung der deutschen Form des 16 PF-Tests. Diagnostica, 34, 367-379.
Bartussek, D. & Amelang, M. (1992). Verschränkungen mit der Differentiellen Psychologie. In
R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. veränderte Aufl., S. 50-64).
Weinheim: Psychologie Verlags Union
Bartussek, D., Raatz, U., Stapf, K. H. & Schneider, B. (1986). Die Evaluation des Tests für Medizinische
Studiengänge, 3. Zwischenbericht. Bonn: Ständige Konferenz der Kultusminister der Länder.
Basler, H.-D. & Kröner-Herwig, B. (Hrsg.), (1995). Psychologische Therapie bei Kopf- und Rückenschmerzen. Ein Schmerzbewältigungsprogramm zur Gruppen- und Einzeltherapie. München:
Quintessenz.
Bastine, R. (Hrsg.). (1992a). Klinische Psychologie (Bd. 2). Stuttgart: Kohlhammer.
Bastine, R. (1992b). Klinische Psychodiagnostik. In R. Bastine (Hrsg.), Klinische Psychologie (Bd. 2,
S. 1-55). Stuttgart: Kohlhammer.
Bastine, R. (1992c). Psychotherapie. In R. Bastine (Hrsg.), Klinische Psychologie (Bd. 2, S. 179-308).
Stuttgart: Kohlhammer.
Bastine, R. (1998). Klinische Psychologie (Bd. 1, 3. Aufl.). Stuttgart: Kohlhammer.
Bastine, R. & Tuschen, B. (1996). Klinisch-psychologische Diagnostik. In A. Ehlers & K. Hahlweg
(Hrsg.), Psychologische und biologische Grundlagen der Klinischen Psychologie. Enzyklopädie der Psychologie: Themengebiet D, Serie 2, Klinische Psychologie, Bd. 1 (S. 195-268).
Göttingen: Hogrefe.
Baumann, U. (1981). Indikationen zur Psychotherapie. München: Urban & Schwarzenberg.
Baumann, U. (1990). Klinisch-Psychologische Diagnostik: Gibt es Alternativen zur klassischen
Diagnostik? Zeitschrift für Klinische Psychologie, 19, 179-182.
Baumann, U., Fähndrich, E., Stieglietz, R. D. & Woggon, B. (Hrsg.). (1990). Veränderungsmessung in
Psychiatrie und Klinischer Psychologie. München: Profil-Verlag.
Baumgärtel, F. (1979). Hamburger Erziehungsverhaltensliste für Mütter. Göttingen: Hogrefe.
Bäumler, G. (1974b). Lern- und Gedächtnistest LGT 3. Göttingen: Hogrefe.
Bäumler, G. (1985). Farb-Wort-Interferenztest FWIT. Göttingen: Hogrefe.
Beauducel, A., Brocke, B. & Liepmann, D. (2001). Perspectives on fluid and crystallized intelligence:
facets for verbal, numerical, and figural intelligence. Personality and Individual Differences,
30, 977-994.
Beck, A. T. & Emery, G. (1981). Kognitive Verhaltenstherapie bei Angst und Phobien. Tübingen:
Deutsche Gesellschaft für Verhaltenstherapie.
Beck, A. T., Freeman, A. & Associates (1995). Kognitive Therapie der Persönlichkeitsstörungen
(3. Aufl.). Weinheim: Psychologie Verlags Union.
Beck, A. T., Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar (BDI).
(2., überarb. Aufl.). Göttingen: Hogrefe.
Beck, A. T., Rush, A. J., Shaw, B. F. & Emery, G. (1996). Kognitive Therapie der Depression (5. Aufl., 1.
Aufl. 1992). Weinheim: Psychologie Verlags Union.
Becker, P. (1982). Psychologie der seelischen Gesundheit. Göttingen: Hogrefe.
Becker, P. (1987). Interaktions-Angstfragebogen IAF (2. Aufl., 1. Aufl. 1982). Weinheim: Beltz.
Becker, P. (1988). Ein Strukturmodell der emotionalen Befindlichkeit. Psychologische Beiträge, 30,
514-536.
Becker, P. (1996). Der Gießen-Test (GT) und ein Sechs-Faktoren-Modell der Persönlichkeit. Trierer
Psychologische Berichte, 23, Heft 3.
Becker, P. (1999). Beyond the Big Five. Personality and Individual Differences, 26, 511-530.
Becker, P. (2003). Trierer Integriertes Persönlichkeitsinventar TIPI. Göttingen: Hogrefe
Becker, P., Bös, K. & Woll, A. (1994). Ein Anforderungs-Ressourcen-Modell der körperlichen Gesundheit: Pfadanalytische Überprüfungen mit latenten Variablen. Zeitschrift für Gesundheitspsychologie, 2, 25-48.
Becker, P. & Hänsgen, K. D. (1994). Persönlichkeitsvergleich von Ost- und Westdeutschen in Indikatoren der seelischen Gesundheit und der Verhaltenskontrolle. Report Psychologie, 19, 2841.
Becker, P., Krieger, W., Kamm, U. & Schoerer, S. (1989). Alltagskorrelate und -verläufe der emotionalen Befindlichkeit: Literaturüberblick sowie zeitreihenanalytische Studien an fünf Paaren
über 100 Zeitpunkte. Trierer Psychologische Berichte, 16, Heft 3.
Becker, P., Schaller, S. & Schmidtke, A. (1978). Coloured Progressive Matrices CPM. (Deutsche
Version). Weinheim: Beltz.
Literaturverzeichnis
569
570
Literaturverzeichnis
Beckmann, D., Brähler, E. & Richter, H.-E. (1990). Der Gießen-Test (4. Aufl.). Bern: Huber.
Beckmann, D., Brähler, E. & Richter, H.-E. (1991). Der Gießen-Test GT. Ein Test für die Individual- und
Gruppendiagnostik. Handbuch (4. Aufl., 1. Aufl. 1972). Bern: Huber.
Bellak, L. & Bellak S. S. (1965). Children’s apperception test. (Human figures). New York: CPS.
Belschner, F. (1970). Der Foto-Handtest (FHT). Über die Entwicklung eines projektiven Verfahrens
zur Erfassung aggressiven Verhaltens. Diagnostica, 16, 123-138.
Belschner, F., Lischke, G. & Selg, H. (1971). Foto-Hand-Test (FHT) zur Erfassung der Aggressivität.
München: Alber.
Bem, D. J. & Allen, A. (1974). On predicting some of the people some of the time: The search for
cross-situational consistencies in behavior. Psychological Review, 81, 506-520.
Bem, D. J. & Funder, D. C. (1978). Predicting more of the people more of the time: Assessing the
personality of situations. Psychological Review, 85, 485-501.
Bene, E. & Anthony, J. (1957). Family Relations Test. London: National Foundation for Educational
Research.
Benjamin, L. S. (1974). Structural Analysis of Social Behavior. Psychological Review, 81, 392-425.
Benton-Sivan, A. B. & Spreen, O. (1996). Der Benton Test (7., vollst. überarb. Aufl.). Göttingen:
Hogrefe.
Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. In C. W. Harris (Ed.),
Problems in measuring change (pp. 3-20). Madison: University of Wisconsin Press.
Bergeman, N. & Johann, G. K. (1993). Berger-Skala zur Erfassung der Selbstakzeptanz. Göttingen:
Hogrefe.
Biermann-Ratjen, E. M., Eckert, J. & Schwartz, H. J. (2003). Gesprächspsychotherapie. Verändern
durch Verstehen (9. Aufl.). Stuttgart: Kohlhammer.
Binet, A. & Simon, Th. (1905). Methodes nouvelles pour le diagnostique du niveau intellectuel des
arnomaux. Année Psychologique, 11, 191-244.
Binz, U. & Wendt, G. (1986). Kurz-Skala Stimmung/Aktivierung KUSTA. Weinheim: Beltz.
Birbaumer, N. & Schmidt, R. F. (1966). Biologische Psychologie (3. Aufl.). Berlin, Heidelberg, New
York: Springer.
Birnbaum, A. (1968). Some latent trait models. In F. M. Lord & M. R. Novick (Eds.), Statistical theories
of mental test scores (pp. 395-479). Reading, MA: Addison-Wesley.
Bless, G. (1986). Der soziometrische Status des integrierten Hilfsschülers. Untersuchung in Regelklassen mit heilpädagogischer Schülerhilfe. Vierteljahresschrift für Heilpädagogik und ihre
Nachbargebiete, 55, 49-58.
Block, J. (1961). The Q-Sort method in personality assessment and psychiatric research. Springfield: C. C. Thomas.
Bloom, B. S. (1976). Human characteristics and school learning. New York: McGraw.
Blum, F., Hengsen, A. & Trost, G. (1982). Studienfeldbezogener Beratungstest Naturwissenschaften
(SFT-NW). Bonn: Institut für Test- und Begabungsforschung.
Blum, F. & Trost, G. (1982). Studienfeldbezogener Beratungstest Ingenieurwissenschaften (SFT-IW).
Bonn: Institut für Test- und Begabungsforschung.
Blum, G. S. (1950). Blacky pictures. New York: Psychological Corporation.
Bolm, W. (1994). Goal Attainment Scaling: Gütemaß und praktische Erfahrungen bei 397 psychiatrischen Behandlungsverläufen. Zeitschrift für Klinische Psychologie, Psychopathologie und
Psychotherapie, 42, 128-138.
Bölte, S., Adam-Schwebe, S., Englert, E., Schmeck, K. & Poustka, F. (2000). Zur Praxis der psychologischen Testdiagnostik in der deutschen Kinder- und Jugendpsychiatrie: Ergebnisse einer
Umfrage. Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie, 28, 151-161.
Bommert, H. (1987). Grundlagen der Gesprächspsychotherapie (4. Aufl.). Stuttgart: Kohlhammer.
Bommert, H. & Hockel, M. (Hrsg.). (1982). Therapieorientierte Diagnostik. Stuttgart: Kohlhammer.
Borkenau, P. (1986). Untersuchungen zur internen Konsistenz und externen Validität der deutschsprachigen Form des 16 PF-Tests von Schneewind, Schröder & Cattell. Diagnostica, 32, 100110.
Borkenau, P. & Amelang, M. (1983). Vorhersagen für einige Personen in einigen Dimensionen.
Oder: Individuelle Angemessenheit von Eigenschaftskonstrukten und Differentielle Validität.
In G. Lüer (Hrsg.), Bericht über den 33. Kongreß der Deutschen Gesellschaft für Psychologie in
Mainz 1982, Bd. 1 (S. 468-472). Göttingen: Hogrefe.
Borkenau, P. & Amelang, M. (1985). Individuelle Angemessenheit von Eigenschaftskonstrukten als
Moderatorvariable für die Übereinstimmung zwischen Selbst- und Bekannten-Ratings.
Diagnostica, 31, 105-118.
Borkenau, P. & Amelang, M. (1986). Zur faktorenanalytischen Kontrolle sozialer Erwünschtheitstendenzen. Eine Untersuchung anhand des Freiburger-Persönlichkeits-Inventars. Zeitschrift
für Differentielle und Diagnostische Psychologie, 7, 17-28.
Borkenau, P. & Ostendorf, F. (1993). NEO-Fünf-Faktoren Inventar (NEO-FFI) nach Costa & McCrae.
Göttingen: Hogrefe.
Borkowski, J. G., Weyhing, R. S. & Carr, M. (1988). Effects of attributional retraining on strategybased reading comprehension in learning disabled students. Journal of Educational Psychology, 80, 46-53.
Bös, K. (Hrsg.). (2001). Handbuch Motorische Tests: Sportmotorische Tests, Fragebogen zur körperlich-sportlichen Aktivität und sportpsychologische Diagnoseverfahren (2., vollständig
überarbeitete und erweiterte Auflage). Göttingen: Hogrefe.
Bös, K. & Mechling, H. (1985). Der Bilder-Angst-Test für Bewegungssituationen. Göttingen:
Hogrefe.
Boudreau, J. W. (1991). Utility Analysis for decisions in human resource management. In N. I. Dunnette & L. N. Lough (Eds.), Handbook of industrial and organisational psychology (Vol 2,
pp. 621-745). Palo Alto, CA: Consulting Psychologists Press.
Braband, H. & Kleber, E. W. (1983). Sonderpädagogische Interventionen in der Grundschule als
integriertes Analyse-Interventions- und Beratungssystem. In R. Kornmann, H. Meister & J.
Schlee (Hrsg.), Förderungsdiagnostik (S. 160-170; 2. Aufl. 1986). Heidelberg: Schindele.
Brackmann, A. (2000). Zur Konvergenz verbaler und nonverbaler Erfassungstechniken von Persönlichkeitsmerkmalen. Unveröffentlichte Diplomarbeit am Psychologischen Institut, Universität
Heidelberg.
Brähler, E. & Beckmann D. (1981). Stabilität der Gießen-Test-Skalen. Diagnostica, 27, 110-126.
Brähler, E. & Beckmann D. (1984). Die Erfassung von Partnerbeurteilungen mit dem Gießen Test.
Diagnostica, 30, 184-197.
Brähler, E. & Brähler, Ch. (1993). Paardiagnostik mit dem Gießen-Test. Bern: Huber.
Brähler, E., Holling, H., Leutner, D. & Petermann, F. (Hrsg.). (2002). Brickenkamp Handbuch psychologischer und pädagogischer Tests (3., vollständig überarbeitete und erweiterte Aufl.). Göttingen: Hogrefe.
Brandstätter, H. (1970). Leistungsprognose und Erfolgskontrolle. Bern: Huber.
Brandstätter, H. (1978). Organisationsdiagnose. In A. Mayer (Hrsg.), Organisationspsychologie (S. 4371). Stuttgart: Poeschel.
Brandstätter, V. (2005). Der objektive Leistungsmotivations-Test OLMT von L. Schmidt-Atzert.
Rezension. Zeitschrift für Personalpsychologie, 4, 132-137.
Bray, D. W. Campbell, R. J. & Grant, D. L. (1974). Formative years in business: A longterm AT and T
study of managerial lives. New York: Wiley.
Brengelmann, J. C. & Brengelmann, L. (1960). Deutsche Validierung von Fragebogen der Extraversion, neurotischen Tendenz und Rigidität. Zeitschrift für Experimentelle und Angewandte
Psychologie, 7, 291-331.
Brickenkamp, R. (1986). Handbuch apparativer Verfahren in der Psychologie. Göttingen:
Hogrefe.
Brickenkamp, R. (1994). Test d2 (8. Aufl., 1. Aufl. 1962). Göttingen: Hogrefe.
Brickenkamp, R. (2002). Test d2: Aufmerksamkeits-Belastungs-Test (9., überarbeitete und neu
normierte Aufl.). Göttingen: Hogrefe.
Brickenkamp, R., Merten T. & Hänsgen, K.-D. (1997). d2-C Computersystem Hogrefe Testsystem.
Göttingen: Hogrefe.
Brickenkamp, R. & Zillmer, E. (1998). The d2 Test of Attention. Seattle: Hogrefe and Huber Publishers.
Brocke, B., Beauducel, A. & Tasche, K. (1995). Der Intelligenz-Struktur-Test: Analysen zur theoretischen Grundlage und technischen Güte. Technische Universität Dresden: Forschungsberichte, 2.
Brodbeck, F., Anderson, N. & West M. (2000). Teamklima-Inventar TKI. Göttingen: Hogrefe.
Brody, N. (1988). Personality. In search of individuality. San Diego: Academic Press.
Brogden, H. E. (1949). When testing pays off. Personnel Psychology, 2, 171-185.
Literaturverzeichnis
571
572
Literaturverzeichnis
Bronisch, T., Hiller, W., Zaudig, M. & Mombour, W. (1995). IDCL-P Internationale Diagnose Checklisten für Persönlichkeitsstörungen nach ICD-10 und DMS-IV. Bern: Huber.
Brophy, J. E. & Good, T. L. (1986). Teacher behavior and student achievement. In M. C. Wittrock (Ed.),
Handbook of research on teaching (3rd ed., pp. 328-375). New York: Macmillan.
Broughton, R. (1984). A prototype strategy for construction of personality scales. Journal of
Personality and Social Psychology, 47, 1334-1346.
Bryan, T. & Lee, J. (1990). Training social skills with learning disabled children and adolescents:
The state of the art. In T. E. Scruggs & B. Y. L. Wong (Eds.), Intervention research in learning disabilities. Berlin, Heidelberg, New York: Springer.
Bühler, C. & Hetzer, H. (1932). Kleinkindertests. Leipzig: Barth.
Bühner, M. & Schmidt-Atzert, L. (2004). Überprüfung der Äquivalenz einer Test d2-Version für
ältere Probanden. Zeitschrift für Neuropsychologie, 15, 7-13.
Bühner, M., Schmidt-Atzert, L., Grieshaber, E. & Lux, A. (2001). Faktorenstruktur verschiedener
neuropsychologischer Tests. Zeitschrift für Neuropsychologie, 12, 181-187.
Bungard, W. (1987). Zur Problematik von Reaktivitätseffekten bei der Durchführung eines Assessment Centers. In H. Schuler & W. Stehle (Hrsg.), Assessment Center als Methode der Personalentwicklung (S. 99-125). Stuttgart: Verlag für Angewandte Psychologie.
Bungard, W. & Antoni, C. H. (1993). Gruppenorientierte Interventionstechniken. In H. Schuler
(Hrsg.), Lehrbuch der Organisationspsychologie (S. 377-404). Bern: Huber.
Burisch, M. (1984). Approaches to personality inventory construction. A comparison of merits.
American Psychologist, 39, 214-227.
Buse, L. (1975). Dimensionen und Komponenten des Interesses. Unveröffentlichte Dissertation,
Universität Hamburg.
Buss, D. M. & Craik, K. H. (1980). The frequency concept of dispostion: Dominance and prototypically dominant acts. Journal of Personality, 48, 379-392.
Buss, D. M. & Craik, K. H. (1984). Acts, dispositions, and personality. In B. A. Maher & W. B. Maher
(Eds.), Progress in experimental personality research (Vol. 13, pp. 241-301). New York:
Academic Press.
Büssing, A. (1993). Organisationsdiagnose. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 445-479). Bern: Huber.
Campbell, G. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the multitraitmultimethod matrix. Psychological Bulletin, 56, 81-105.
Cantor, N. & Mischel, W. (1979). Prototypes in person perception. In L. Berkowitz (Ed.), Advances in
experimental social psychology (Vol. 12, pp. 3-52). New York: Academic Press.
Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. New York:
Cambridge University Press.
Caspar, F. (1986). Die Plananalyse als Konzept und Methode. Verhaltensmodifikation, 7, 235-256.
Caspar, F. (Hrsg.). (1996). Psychotherapeutische Problemanalyse. Tübingen: DGVT-Verlag.
Catron, D. W. (1978). Immediate test-retest changes in WAIS scores among college males. Psychological Reports, 43, 279-290.
Cattell, R. B. (1966). The data box: Its ordering of total resources in terms of possible relational
systems. In R. B. Cattell (Ed.), Handbook of multivariate experimental psychology (pp. 67-128).
Chicago: Rand McNally.
Cattell, R. B. (1972). The 16PF and basic personality structures: A reply to Eysenck! Journal of
Behavioral Science, 17, 169-187.
Cattell, R. B. & Warburton, F. W. (1967). Objective personality and motivation tests. Urbana: University of Illinois Press.
Chaiken, A. L., Derlerga, V. J. & Miller, S. J. (1976). Effects of room environment on self-disclosure in
a counceling analogue. Journal of Counseling Psychology, 23, 479-481.
Chamberlin, R. W. (1969). A study of an interview method for identifying family authority patterns.
Genetic Psychology Monograph, 80, 129-148.
Chambless, D. L. (1993). Task force on promotion and dissemination of psychological procedures.
Report of Division 12. Washington: American Psychological Association.
Chambless, D. L. & Hollon, S. D. (1998). Defining empirically supported therapies. Journal of Consulting and Clinical Psychology, 66, 7-18.
Christensen, L. & Mendoza, J. L. (1986). A method of assessing change in a single subject: An
alteration of the RC Index. Behavior Therapy, 17, 305-308.
Cierpka, M. (Hrsg.). (1987). Familiendiagnostik. Berlin, Heidelberg, New York: Springer.
Cierpka, M. (Hrsg.). (1996). Handbuch der Familiendiagnostik. Berlin, Heidelberg, New York, Tokio:
Springer.
Cleary, T. A. (1968). Testbias: Prediction of grades of negro and white students in integrated
colleges. Journal of Educational Measurement, 5, 115-124.
Clement, U. & Löwe, B. (1996). Fragebogen zum Körperbild. Göttingen: Hogrefe.
Cole, N. S. (1973). Bias in selection. Journal of Educational Measurement, 10, 237-255.
Colvin, C. R. & Funder, D. C. (1991). Predicting personality and behavior: A boundary on the
acquaintanceship effect. Journal of Personality and Social Psychology, 60, 884-894.
Comer, R. J. (2001). Klinische Psychologie (2. Aufl.). Heidelberg: Spektrum Akademischer Verlag.
Conger, A. J. (1974). A revised definition for suppressor variables. Educational and Psychological
Measurement, 34, 35-46.
Conger, A. J. & Jackson, D. N. (1972). Suppressor variables, prediction, and the interpretation of
psychological relationships. Educational and Psychological Measurement, 32, 579-599.
Conrad, W., Baumann, E. & Mohr, V. (1980). Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens MTP. Göttingen: Hogrefe.
Conrad, W., Büscher, P., Hornke, L., Jäger, R., Schweizer, H., Stünzner, W. v. & Wiencke, W. (1986).
Mannheimer Intelligenztest MIT (2. Aufl., 1. Aufl. 1971). Weinheim: Beltz.
Constantinople, A. (1970). Some correlates of average level of happiness among college students.
Developmental Psychology, 2, 447.
Costa, P. T. & McCrae, R. R. (1989). NEO PI/FFI manual supplement. Odessa, FL: Psychological
Assessment Resources.
Costa, P. T. & McCrae, R. R. (1992). Revised NEO Personality Inventory (NEO PI-R) and NEO Five
Factor Inventory. Professional manual. Odessa, FL: Psychological Assessment Resources.
Cranach, M. v. (1983). Present State Examination PSE (2. Aufl., 1. Aufl. 1978). Weinheim: Beltz.
Cranach, M. v., Kalbermatten, U., Indermühle, K. & Gugler, B. (1980). Zielgerichtetes Handeln. Bern:
Huber.
Crick, N. R. & Dodge, K. A. (1994). A review and reformulation of social information-processing
mechanisms in children’s social adjustment. Psychological Bulletin, 115, 74-101.
Cronbach, L. J. & Gleser, G. C. (1965). Psychological tests and personnel decisions (2. Aufl., 1. Aufl.
1957). Urbana, JL: University of Illinois Press.
Curran, J. P. & Cattell, R. B. (1970). Eight State Questionnaire. Champaign, JL: Institute for Personality and Ability Testing.
Dahl, G. (1971). Zur Berechnung des Schwierigkeitsindex bei quantitativ abgestufter Aufgabenbewertung. Diagnostica, 17, 139-142.
Dahle, K-P. (1997). Kriminalprognosen im Strafrecht: Psychologische Aspekte individueller Verhaltensvorhersagen. In M. Steller & R. Volbert (Hrsg.), Psychologie im Strafverfahren: Ein Handbuch
(S. 119-140). Bern: Huber.
Dahle, K. P. (2000). Psychologische Begutachtung zur Kriminalprognose. In H.-L. Kröber & M. Steller
(Hrsg.), Psychologische Begutachtung im Strafvervahren: Indikationen, Methoden und Qualitätsstandards (S. 77-111). Darmstadt: Steinkopff.
Dahme, G., Bleich, C., Jungnickel, D. & Rathje, H. (1992). Ermutigende Befunde zur Reliabilität und
enttäuschende Ergebnisse zur Konstruktvalidität des HAKEMP: Daten aus einer Felduntersuchung. Zeitschrift für Differentielle und Diagnostische Psychologie, 13, 139-160.
Dahmer, J. (1973). Anamnese und Befund. Stuttgart: Thieme.
Daniels, J. C. (1967). Figure Reasoning Test. London: Crosby Lockwood.
Darlington, R. B. (1968). Multiple regression in psychological research and practice. Psychological
Bulletin, 69, 161-182.
Davier, M. v. & Rost, J. (o. J.). WINMIRA. Windows 3.x – Programmsystem zur Analyse von RaschModell, Mixed Rasch-Modell und Latent Class Analyse. Kiel: Institut für Pädagogik der
Naturwissenschaften.
Davison, G. C. & Neale, J. M. (2002). Klinische Psychologie (6. Aufl.). Weinheim: Psychologie Verlags
Union.
Deidesheimer Kreis (1997). Hochschulzulassung und Studieneignungstests. Göttingen, Zürich:
Vandenhoeck & Ruprecht
De Jong-Gierveld, J. & Kamphuis, F. (1985). The development of a Rasch-type loneliness scale.
Applied Psychological Measurement, 9, 3, 289-299.
Literaturverzeichnis
573
574
Literaturverzeichnis
Deneke, F.-W. & Hilgenstock, B. (1989). Das Narzißmusinventar. Göttingen: Hogrefe.
Deusinger, I. M. (1986). Frankfurter Selbstkonzeptskalen FSKN. Göttingen: Hogrefe.
Dieterich, R. (1973). Psychodiagnostik. Grundlagen und Probleme. München: Reinhardt.
Dilling, H. & Freyberger, H. J. (Hrsg.). (2001). Taschenführer zur ICD-10-Klassifikation psychischer
Störungen der Weltgesundheitsorganisation (2. Aufl.). Bern: Huber.
Dilling, H., Mombour, W. & Schmidt, M.H. (1993). Internationale Klassifikation psychischer Störungen, ICD-10 Kapitel V (2. Aufl.). Bern: Huber.
Dilling, H., Mombour, W., Schmidt, M.H. & Schulte-Markwort, E. (1994). Internationale Klassifikation
psychischer Störungen, ICD-10 Kapitel V; Forschungskriterien. Bern: Huber.
DiNardo, P. A. (1975). Social class and diagnostic suggestion as variables in clinical judgement.
Journal of Consulting and Clinical Psychology, 43, 363-368.
Dreesmann, H. (1979). Zusammenhänge zwischen Unterrichtsklima, kognitiven Prozessen bei
Schülern und deren Leistungsverhalten. Zeitschrift für Empirische Pädagogik, 3, 121-133.
Dudek, F. J. (1979). The continuing misinterpretation of the standard error of measurement.
Psychological Bulletin, 86, 335-337.
Duhm, E. & Hansen, J. (1957). Der Rosenzweig P-F-Test, Form für Kinder. Göttingen: Hogrefe.
Düker, H. & Lienert, G. A. (1965). Konzentrations-Leistungs-Test KLT. Göttingen: Hogrefe.
Düker, H., Lienert, G. A., Lukesch, H. & Mayrhofer, S. (2001). KLT-R. Konzentrations-Leistungs-Test
(revidierte Fassung). Göttingen: Hogrefe.
Ebel, O. & Lienert, G. A. (1960). Ein Index zur numerischen Bestimmung der Niveau-Eigenschaften
eines psychologischen Tests. Metrica. Zeitschrift für theoretische und angewandte Statistik,
3, 117-123.
Eckardt, H. H. & Schuler, H. (1992). Berufseignungsdiagnostik. In R. S. Jäger & F. Petermann (Hrsg.),
Psychologische Diagnostik (2. Aufl., S. 533-551). Weinheim: Psychologie Verlags Union.
Eggert, D. (1974). Lincoln-Oseretzky-Skala. KF. 18 (2. Aufl., 1. Aufl. 1971). Weinheim: Beltz.
Eggert, D. (1976). Hannover-Wechsler-Intelligenztest für das Vorschulalter HAWIVA. Bern: Huber.
Ehlers, A. (1999). Posttraumatische Belastungsstörung. Göttingen: Hogrefe.
Ehlers, A. (2000). Psychologische Grundlagen der Verhaltenstherapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (S. 69-87). Heidelberg: Springer.
Ehlers, A., Margraf, J. & Chambless, D. (2001). Fragebogen zu körperbezogenen Ängsten, Kognitionen und Vermeidung AKV (2. Aufl.). Weinheim: Beltz.
Ellis, A. & Grieger, R. (1995). Praxis der rational-emotiven Therapie (2. Aufl., 1. Aufl. 1979). Weinheim:
Psychologie Verlags Union.
Emmelkamp, P.M.G. & van Oppen, P. (2000). Zwangsstörungen. Göttingen: Hogrefe.
Endler, N. S., Hunt, J. McV. & Rosenstein, A. J. (1962). An S-R-inventory of anxiousness. Psychological
Monographs, 76, No. 17.
Epstein, S. (1979). The stability of behavior: I. On predicting most of the people much of the time.
Journal of Personality and Social Psychology, 37, 1097-1126.
Erzigkeit, H. (1993). Kurztest zur Erfassung von Gedächtnis- und Aufmerksamkeitsstörungen SKT
(5., neubearb. Aufl.). Weinheim: Beltz.
Exner, J. E. Jr. (2003). The Rorschach: A comprehensive system (4th ed.). New York: Wiley.
Eysenck, H. J. (1953). The structure of human personality. London: Methuen.
Eysenck, H. J. (1957). The dynamics of anxiety and hysteria. London: Routledge.
Eysenck, H. J. (1967). The biological basis of personality. Springfield, IL: Ch. Thomas.
Eysenck, H. J. (1970). EPI Eysenck Personality Inventory. London: University of London Press.
Fahrenberg, J. (1964). Objektive Tests. In R. Heiss (Hrsg.), Handbuch der Psychologie in 12 Bänden,
Bd. 6: Psychologische Diagnostik (S. 488-532). Göttingen: Hogrefe.
Fahrenberg, J. (1987). Multimodale Diagnostik - eine Einleitung. Diagnostica, 33, 185-187.
Fahrenberg, J. (1994). Freiburger Beschwerden-Liste. Göttingen: Hogrefe.
Fahrenberg, J., Hampel, R. & Selg, H. (2001). Das Freiburger Persönlichkeitsinventar: FPI; Revidierte
Fassung FPI-R und teilweise geänderte Fassung FPI-A1 (7. Aufl., 1. Aufl. 1970). Göttingen:
Hogrefe.
Fahrenberg, J. & Selg, H. (1970). Das Freiburger Persönlichkeitsinventar FPI. Göttingen: Hogrefe.
Faßnacht, G. (1979). Systematische Verhaltensbeobachtung (1. Aufl., 2. verb. Aufl. 1994). München:
Reinhardt.
Fay, E. (1992). Über die Übbarkeit der Leistung in einem Durchstreichverfahren zur Messung der
Konzentrationsfähigkeit. Diagnostica, 38, 301-311.
Fay, E. (2003). Bochumer Matrizentest (BOMAT – advanced – short version). In E. Fay (Hrsg.), Tests
unter der Lupe 4: Aktuelle psychologische Testverfahren – kritisch betrachtet (S. 24-35).
Göttingen: Vandenhoeck & Ruprecht.
Fay, E., Mausfeld, R., Niederée, R., Stumpf, H. & Trost, G. (1982). Studienfeldbezogener Beratungstest Mathematik (SFT-MATH). Bonn: Institut für Test- und Begabungsforschung.
Fay, E. & Stumpf, H. (1995). Leistungsdaten. In R. S. Jäger (Hrsg.), Psychologische Diagnostik
(S. 380-396). München, Weinheim: Psychologie Verlags Union.
Fels, M. & Geissner, E. (1997). Neglect-Test (NET) (2., korrigierte Aufl.). Göttingen: Hogrefe.
Feuerlein, W., Küfner, H., Ringer, Ch. & Antons, K. (1989). Kurzfragebogen für Alkoholgefährdete
KFA. Weinheim: Beltz.
Feuerlein, W., Ringer, Ch., Küfner, H. & Antons, K. (1979). Münchner Alkoholismus-Test MALT. Weinheim: Beltz.
Fiedler, P. (2001). Persönlichkeitsstörungen (5. Aufl.). Weinheim: Psychologie Verlags Union.
Fiedler, P., Stieglitz, R. D., Baumann, U. & Freiberger, H. J. (Hrsg.). (2001). Interaktionsdiagnostik bei
Paaren und Familien. Psychodiagnostik in Klinischer Psychologie, Psychiatrie und Psychotherapie. Stuttgart: Thieme.
Fiegenbaum, W. & Tuschen, B. (2000). Reizkonfrontation. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 413-426). Heidelberg: Springer.
Fieguth, G. (1977). Die Entwicklung eines kategoriellen Beobachtungsschemas. In U. Mees & H.
Selg (Hrsg.), Verhaltensbeobachtung und Verhaltensmodifikation (S. 33-42). Stuttgart: Klett.
Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber.
Fischer, G. H. (1978). Probabilistic test models and their application. The German Journal of
Psychology 2, 298-319.
Fischer, G. H. (1983). Neuere Testtheorie. In J. Bredenkamp & H. Feger (Hrsg.), Messen und Testen
(S. 604-692). Göttingen: Hogrefe.
Fischer, G. H. (1988). Spezifische Objektivität. Eine wissenschaftstheoretische Grundlage des
Rasch-Modells. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 87-111). Weinheim: Psychologie Verlags Union.
Fischer, G. H. (1995a). Linear logistic models for change. In G. H. Fischer & I. W. Molenaar (Eds.),
Rasch models: Foundations, recent developments, and applications (pp. 157-180). New York:
Springer.
Fischer, G. H. (1995b). The linear logistic test model. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch
models: Foundations, recent developments, and applications (pp. 131-155). New York:
Springer.
Fischer, G. H. (1996). IRT-Modelle als Forschungsinstrumente der Differentiellen Psychologie.
In K. Pawlik (Hrsg.), Grundlagen und Methoden der Differentiellen Psychologie (S. 673-729).
Göttingen: Hogrefe.
Fischer, G. H. & Molenaar, I. W. (Eds.). (1995). Rasch models: Foundations, recent developments,
and applications. New York: Springer.
Fischer, G. H. & Parzer, P. (1991). An extension of the rating scale model with an application to the
measurement of treatment effects. Psychometrika, 56, 637-651.
Fischer, G. H. & Ponocny, I. (1995). Extended rating scale and partial credit models for assessing
change. In G. H. Fischer & I. W. Molenaar (Eds.). Rasch models: Foundations, recent developments, and applications (pp. 353-370). New York: Springer.
Fischer, G. H. & Spada, H. (1973). Die psychometrischen Grundlagen des Rorschachtests und der
Holtzman Inkblot Technique. Bern: Huber.
Fishbein, M. & Ajzen, I. (1974). Attitudes towards objects as predictors of single and multiple
behavioral criteria. Psychological Review, 81, 59-74.
Fiske, D. W. & Butler, J. M. (1963). The experimental conditions for measuring individual differences. Educational and Psychological Measurement, 23, 249-266.
Fisseni, H. J. (1982). Persönlichkeitsbeurteilung. Zur Theorie und Praxis des Psychologischen Gutachtens. Göttingen: Hogrefe.
Fisseni, H. J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen: Hogrefe.
Flanagan, J. (1954). The critical incident technique. Psychological Bulletin, 51, 327-358.
Fleischmann, U. M. (2000). Gerontoneuropsychologie - Diagnostik, Therapie und Intervention. In
W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie:
Grundlagen, Methoden, Diagnostik, Therapie (S. 663-673). Lisse, NL: Swets & Zeitlinger.
Literaturverzeichnis
575
576
Literaturverzeichnis
Fleishman, E. A. & Hempel, W. P. (1955). The relation between abilities and improvement with
practice in a visual discrimination reaction task. Journal of Experimental Psychology, 49, 301312.
Fliegel, S. (1996). Rollenspiele. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 353359). Berlin, Heidelberg, New York: Springer.
Fliegel, S., Groeger, W., Künzel, R., Schulte, D. & Sorgatz, H. (1998). Verhaltenstherapeutische Standardmethoden: Ein Übungsbuch (3. Aufl.). Weinheim: Psychologie Verlags Union.
Flor, H., Behle, D. J. & Hermann, C. (1992). Psychophysiologische Methoden bei der Diagnose
chronischer Schmerzen. In E. Geissner & G. Jungnitsch (Hrsg.), Psychologie des Schmerzes
(S. 171-187). Weinheim: Psychologie Verlags Union.
Florin, I. (1989). Verhaltensmedizin. Bedeutung eines interdisziplinären Ansatzes für die Erforschung und Therapie körperlicher Krankheiten. In I. Florin, G. Haag, U. Brack & E. M. Fahrner
(Hrsg.), Perspektive Verhaltensmedizin (S. 1-9). Berlin: Springer.
Föderation Deutscher Psychologenvereinigungen (1988). Richtlinien für die Erstellung Psychologischer Gutachten. Bonn: Deutscher Psychologenverlag.
Formann, A. K. (1984). Die Latent-Class-Analyse. Weinheim: Beltz.
Formann, A. K. (1993). Some simple latent class models for attitudinal scaling in the presence of
polytomous items. Methodika, 7, 62-78.
Formann, A. K. & Piswanger, K. (Hrsg.). (1979). Wiener Matrizen-Test WMT. Ein Rasch-skalierter
sprachfreier Intelligenztest. Weinheim: Beltz.
Frank, L. K. (1948). Projective methods. Springfield, IL: C. C. Thomas.
Franke A. (1991). Gruppentraining gegen psychosomatische Störungen (2. Aufl.). Weinheim:
Psychologie Verlags Union.
Franke, G. H. (2000). Brief Symptom Inventory von Derogatis (BSI). Göttingen: Hogrefe.
Franke G. H. (2002). SCL-90-R. Die Symptom-Checkliste von Derogatis – Deutsche Version.
Göttingen: Beltz-Test.
Frankenburg, W. K. & Dodds, J. B. (1967). The Denver developmental screening test. Journal of
Pediatrics, 7, 181-191.
Frederiksen, N. & Melville, S. D. (1954). Differential predictability in the use of test scores. Educational and Psychological Measurement, 14, 647-656.
Freud, S. (1952). Gesammelte Werke, 18 Bände. Frankfurt: Fischer.
Fricke, R. (1972). Testgütekriterien bei lehrzielorientierten Tests. Zeitschrift für erziehungswissenschaftliche Forschung, 6, 150-175.
Fricke, R. (1974). Kriterienorientierte Leistungsmessung. Stuttgart: Kohlhammer.
Frieling, E. & Hoyos, C. Graf (1978). Fragebogen zur Arbeitsanalyse (FAA). Deutsche Bearbeitung
des PAQ. Bern: Huber.
Frieling, E. & Sonntag, K. H. (1987). Arbeitspsychologie. Bern: Huber.
Fröse, S., Mölders, R. & Wallrodt, W. (1986). Kieler Einschulungsverfahren KEV. Weinheim: Beltz.
Fruhner, R., Schuler, H., Funke, U. & Moser, K. (1991). Einige Determinanten der Bewertung
von Personalauswahlverfahren. Zeitschrift für Arbeits- und Organisationspsychologie, 35,
170-178.
Funder, D. C., Block, J. H. & Block, J. (1983). Delay of gratification: Some longitudinal personality
correlates. Journal of Personality and Social Psychology, 44, 1198-1213.
Funder, D. C. & Colvin, C. R. (1988). Friends and strangers: Acquaintanceship, agreement, and the
accuracy of personality judgment. Journal of Personality and Social Psychology, 55, 149-158.
Funder, D. C. & Dobroth, K. M. (1987). Differences between traits: Properties associated with interjudge agreement. Journal of Personality and Social Psychology, 52, 409-418.
Funder, D. C. & West, S. G. (1993). Consensus, self-other agreement, and accuracy in personality
judgment: an introduction. Journal of Personality, 61, 457-476.
Funke, W., Funke, J., Klein, M. & Scheller, R. (1987). Trierer Alkoholismus-Inventar TAI. Göttingen:
Hogrefe.
Fydrich, T. (1995). Fragebogen zur sozialen Angst; Deutsche Bearbeitung des Social Phobia and
Anxiety Inventory (SPAI) von Turner und Beidel. Unveröffentlichtes Manuskript. Heidelberg.
Fydrich, T. (1996). Komorbidität psychischer Störungen. Empirische Untersuchungen zu einem
umstrittenen Konzept. Habilitationsschrift, Universität Heidelberg.
Fydrich, T. (2002a). Beck-Inventar zu kognitiven Schemata (B-IKS). In E. Brähler, J. Schumacher &
B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 51-55). Göttingen: Hogrefe.
Fydrich, T. (2002b). SPAI – Soziale Phobie und Angst Inventar. In E. Brähler, J. Schumacher & B. Strauß
(Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 335-338). Göttingen:Hogrefe.
Fydrich, T. (2002c). F-SozU – Fragebogen zur sozialen Unterstützung. In E. Brähler, J. Schumacher &
B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 150-153). Göttingen: Hogrefe.
Fydrich, T. (2003). Soziale Phobie. Psychologisches Störungsmodell und kognitiv-verhaltenstherapeutische Behandlung. Psychotherapie im Dialog, 4 (1), 10-16.
Fydrich, T. & Bürgener, F. (2005). Ratingskalen für soziale Kompetenz. In N. Vriends & J. Margraf
(Hrsg.), Soziale Kompetenz – Soziale Unsicherheit – Soziale Phobie (3. Aufl., S. 81-96). Baltmannsweiler: Schneider-Verlag Hohengehren.
Fydrich, T., Geyer, M., Hessel, A., Sommer, G. & Brähler, E. (1999). Fragebogen zur sozialen Unterstützung (F-SozU): Normierung an einer repräsentativen Stichprobe. Diagnostica, 45, 112-126
Fydrich, T., Laireiter, A. R., Saile, H. & Engberding, M. (1996). Diagnostik und Evaluation in der Psychotherapie. Zeitschrift für Klinische Psychologie, 25, 161-168.
Fydrich, T., Renneberg, B., Schmitz, B. & Wittchen, H.-U. (1997). SKID-P. Strukturiertes Klinisches
Interview für DSM-IV, Achse II (Persönlichkeitsstörungen). Göttingen: Hogrefe.
Fydrich, T., Schmitz, B., Hennch, C. & Bodem, M. (1996). Zuverlässigkeit und Gültigkeit diagnostischer Verfahren zur Erfassung von Persönlichkeitsstörungen. In B. Schmitz, T. Fydrich &
K. Limbacher (Hrsg.), Persönlichkeitsstörungen: Diagnostik und Psychotherapie (S. 91-113).
Weinheim: Psychologie Verlags Union.
Fydrich, T. & Sommer G. (2003). Diagnostik sozialer Unterstützung. In M. Jerusalem & H. Weber
(Hrsg.), Psychologische Gesundheitsförderung (S. 79-104). Göttingen: Hogrefe.
Fydrich, T., Sommer, G. & Brähler, E. (2004). Fragebogen zur sozialen Unterstützung (F-SozU).
Göttingen: Hogrefe.
Fydrich, T., Sommer, G., Menzel, U. & Höll, B. (1987). Fragebogen zur sozialen Unterstützung (Kurzform; SOZU-K-22). Zeitschrift für Klinische Psychologie, 16, 434-436.
Gagné, R. M. (1973). Die Bedingungen menschlichen Lernens. Hannover: Schroedel.
Galton, F. (1869). Natural inheritance. London: Macmillan.
Gardner, H. (2002). Intelligenzen: Die Vielfalt des menschlichen Geistes. Stuttgart: Klett Cotta.
Gatterer, G. (1990). Alterskonzentrationstest AKT. Göttingen: Hogrefe.
Gaul, D. (1990). Rechtsprobleme psychologischer Eignungsdiagnostik. Bonn: Deutscher Psychologen Verlag.
Gebert, D. (1993). Interventionen in Organisationen. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 481-494). Bern: Huber.
Gebert, D. & v. Rosenstiel, L. (1989). Organisationspsychologie (2. Aufl.). Stuttgart: Kohlhammer.
Gerhard, U. (1981). Zur Diagnose und Bedeutung von Zwangsphänomenen. Weinheim: Beltz.
Ghiselli, E. E. (1963). Moderating effects and differential reliability and validity. Journal of Applied
Psychology, 47, 81-86.
Gierschmann, F. (2003). Raven´s Progressive Matrices (PPM). In E. Fay (Hrsg.), Tests unter Lupe 4:
Aktuelle psychologische Testverfahren - kritisch betrachtet (S. 105-123). Göttingen: Vandenhoeck & Ruprecht.
Giesen, H., Gold, A., Hummer, A. & Jansen, R. (1986). Prognose des Studienerfolgs. Ergebnisse aus
Längsschnittuntersuchungen. Frankfurt am Main: Unveröffentlichter Projektbericht.
Gittler, G. (1990). Dreidimensionaler Würfeltest (3DW). Ein Rasch-skalierter Test zur Messung des
räumlichen Vorstellungsvermögens. Weinheim: Beltz.
Gittler, G. & Wild, B. (1988). Der Einsatz des LLTM bei der Konstruktion eines Itempools für das
adaptive Testen. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 115-139). Weinheim: Psychologie Verlags Union.
Glanzmann, P. (1985). Zusammenhänge zwischen Angstneigung und Zustandsangst in unterschiedlichen Stress-Situationen. Zeitschrift für Differentielle und Diagnostische Psychologie,
6, 161-173.
Glas, C. A. W. & Verhelst, N. D. (1989). Extensions of the partial credit model. Psychometrika, 54,
635-659.
Goldberg, L. R. (1965). Diagnosticians vs. diagnostic signs: The diagnosis of psychosis vs. neurosis
from the MMPI. Psychological Monographs: General and Applied, 79 (9, Whole No. 602).
Goldberg, L. R., Rorer, L. G. & Green, M. M. (1970). The usefulness of »stylistic« scales as potential
suppressors or moderator variables in prediction from the CPI. Research Bulletin, 10. Eugene,
OR: Research Institute.
Literaturverzeichnis
577
578
Literaturverzeichnis
Goldfried, M. R. & Kent, R. N. (1976). Herkömmliche gegenüber verhaltenstheoretischer Persönlichkeitsdiagnostik: Ein Vergleich methodischer und theoretischer Voraussetzungen. In
D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (S. 3-23). München: Urban & Schwarzenberg.
Goodenough, F. L. (1949). Mental testing. New York: Rinehart.
Goodman, L. A. (1974). Exploratory latent structure analysis using both identifiable and unidentifiable models. Biometrika, 61, 215-231.
Gösslbauer, J. P. (1981). Grundprinzipien der Entscheidungstheorie in der Psychologischen
Diagnostik. In E. G. Wehner (Hrsg.), Psychodiagnostik in Theorie und Praxis (S. 214-258). Bern:
Lang.
Gough, H. G. (1969). Manual for the California Psychological Inventory. Palo Alto: Consulting
Psychologists Press.
Gough, H. G. & Heilbrun, A. B. (1980). Adjective Check List manual. Palo Alto, CA: Consulting
Psychologists Press.
Graczyk, W. (1990). Der Wilde-Intelligenz-Test (WIT). Diagnostica, 30, 310-320.
Gräser, H. (1979). Überprüfung der faktoriellen Struktur einer deutschsprachigen Version des
»Eight State Questionnaire« mittels Ketten-P-Technik. Diagnostica, 25, 49-58.
Graumann, C. F. (1960). Eigenschaften als Problem der Persönlichkeitsforschung. In Ph. Lersch &
H. Thomae (Hrsg.), Persönlichkeitsforschung und Persönlichkeitstheorie. Handbuch der
Psychologie (Bd. IV, S. 87-154). Göttingen: Hogrefe.
Grawe, K. (1982). Der Veränderungsprozeßbogen (VPB). In M. Zielke (Hrsg.), Diagnostik in der
Psychotherapie (S. 231-252). Stuttgart: Kohlhammer.
Grawe, K. (1991). Über den Umgang mit Zahlen. In K. Grawe, R. Hänni, N. Semmer & F. Tschan
(Hrsg.), Über die richtige Art, Psychologie zu betreiben (S. 89-105). Hogrefe: Göttingen.
Grawe, K. (1992). Psychotherapieforschung zu Beginn der neunziger Jahre. Psychologische Rundschau, 43, 132-162.
Grawe, K., Caspar, F. & Ambühl, H. (1990). Differentielle Therapieforschung: Vier Therapieformen
im Vergleich. Zeitschrift für Klinische Psychologie, 19, 292-376.
Grawe, K., Donati, R. & Bernauer, F. (1994). Psychotherapie im Wandel. Von der Kofession zur Profession (2. Aufl.). Göttingen: Hogrefe.
Gregory, R. J. (1992). Psychological testing: History, principles, and applications. Boston: Allyn and
Bacon.
Greif, S. (1970). Untersuchungen zur deutschen Übersetzung des 16 PF-Fragebogens. Psychologische Beiträge, 12, 186-213.
Gretenkord, L. (2002). Prognose im Maßregelvollzug (§ 63 StGB) – wie lassen sich die Ergebnisse
von Rückfallstudien nutzen? In T. Fabian, G. Jacobs, S. Nowara & I. Rode (Hrsg.), Qualitätssicherung in der Rechtspsychologie (S. 347-360). Münster: LIT-Verlag.
Griffith, R. M. (1951). The test-retest similarities of the Rorschachs of patients without retention,
Korsakoff. Journal of Projective Techniques, 15, 516-525.
Griffith, R. (1954). The abilities of babies: A study in mental measurement. New York: McGraw-Hill.
Grimm, H. & Schöler, H. (1985). Sprachentwicklungsdiagnostik. Göttingen: Hogrefe.
Grimm, H. & Schöler, H. (1991). Heidelberger Sprachentwicklungstest HSET (2. Aufl., 1. Aufl. 1978).
Braunschweig: Westermann.
Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E. & Nelson, C. (2000). Clinical versus mechanical
prediction: A meta-analysis. Psychological Assessment, 12, 19-30.
Gruhle, H. W. (1948). Verstehende Psychologie. Stuttgart: Thieme.
Guilford, J. P. (1964). Persönlichkeit. Weinheim: Beltz.
Guilford, J. P. (1974). Persönlichkeitspsychologie. Stuttgart: Kohlhammer.
Guilford, J. P. (1976). Apitude for creative thinking: One or many? Journal of Creative Behavior, 10,
165-169.
Gulliksen, H. (1950). Theory of mental tests. New York: Wiley.
Guttmann, G. & Ettlinger, S. C. (1991). Susceptibility to stress and anxiety in relation to performance, emotion, and personality: The ergopsychometric approach. In C. D. Spielberger, I. G.
Sarason, J. Strelau & J. M. T. Brebner (Eds.), Stress and anxiety, Vol. 13 (pp. 23-52). New York:
Hemisphere Publishing Corporation.
Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer (Ed.), The American soldier.
Studies in social psychology in World War II. Princeton: Princeton University Press.
Häcker, H. (1982). Objektive Tests zur Messung der Persönlichkeit. In K. J. Groffmann & L. Michel
(Hrsg.), Enzyklopädie der Psychologie, Serie Diagnostik, Bd. 3: Persönlichkeitspsychologie
(S. 132-185). Göttingen: Hogrefe.
Häcker, H., Leutner, D. & Amelang, M. (Hrsg.). (1998). Standards für pädagogisches und psychologisches Testen. Diagnostica und Zeitschrift für Differentielle und Diagnostische Psychologie,
Supplementum.
Häcker, H., Schmidt, L. R., Schwenkmezger, P. & Utz, H. E. (1975). OATB 75 Objektive Testbatterie
Manual. Weinheim: Beltz.
Häcker, H., Schwenkmezger, P. & Utz, H. E. (1979). Über die Verfälschbarkeit von Persönlichkeitsfragebogen und Objektiven Persönlichkeitstests unter SD-Instruktion und in einer Auslesesituation. Diagnostica, 25, 7-23.
Haertel, G. D., Walberg, H. J. & Weinstein, T. (1983). Psychological models of educational performance: A theoretical synthesis of constructs. Review of Educational Research, 53, 75-91.
Hageböck, J. (1994). Computerunterstützte Diagnostik in der Psychologie – Die Entwicklung eines
computergestützten Diagnosesystems für die Einzelfallhilfe in der Schulpsychologie. Göttingen: Hogrefe.
Hahlweg, K. (1986). Partnerschaftliche Interaktion. München: Röttger.
Hahlweg, K. (1996). Fragebogen zur Partnerschaftsdiagnostik (FDP). Handanweisung. Göttingen:
Hogrefe.
Hahlweg, K., Dürr, H. & Müller, U. (1995). Familienbetreuung schizophrener Patienten. Weinheim:
Psychologie Verlags Union.
Hahlweg, K., Schindler, L. & Revenstorf, D. (1982). Partnerschaftsprobleme: Diagnose und Therapie. Berlin, Heidelberg, New York: Springer.
Hahn, M. G. (1992). Modelle für den Urteilsprozeß: Kritische Betrachtung formaler Urteilsmodelle
am Beispiel klinischer Aufgaben. Frankfurt: Lang.
Hake, A. (2000). Aggregatbezogene statistische Kennwerte bei der Einzelfallanalyse. Heidelberg:
Dissertation in der Fakultät für Sozial- und Verhaltenswissenschaften.
Hambleton, R. K. & Swaminathan, H. (1985). Item response theory. Principles and applications.
Boston: Kluwer-Nijhoff Publishing.
Hamilton, M. (1986). The Hamilton rating scale for depression. In N. Sartorius & T.A. Ban (Eds.),
Assessment of depression (pp. 278-296). Berlin: Springer.
Hampel, R. & Klinkhammer, F. (1978). Verfälschungstendenzen beim Freiburger PersönlichkeitsInventar in einer Bewerbungssituation. Psychologie und Praxis, 22, 58-69.
Hamster, W, Langner, W. & Mayer, K. (1980). Neuropsychologische Testbatterie TÜLUC. Weinheim:
Beltz.
Hanses, P. & Rost, D. H. (1998). Das »Drama« der hochbegabten Underarchiever – »Gewöhliche« oder
»außergewöhnliche« Underarchiever? Zeitschrift für Pädagogische Psychologie, 21, 53-71.
Hany, E. A. (1987). Psychometrische Probleme bei der Identifikation Hochbegabter. Zeitschrift für
Differentielle und Diagnostische Psychologie, 8, 173-191.
Hardesty, F. P. & Priester, H. J. (1956). Hamburg-Wechsler-Intelligenztest für Kinder HAWIK. Bern:
Huber.
Hartje, W. (2004). Neuropsychologische Begutachtung. Göttingen: Hogrefe.
Hartje, W. & Rixecker, H. (1978). Der Recurring-Figures-Test von Kimura. Normierung an einer
deutschen Stichprobe. Nervenarzt, 49, 354-356.
Harris, C. W. (Ed.). (1963). Problems in measuring change. Madison: University of Wisconsin Press.
Härting, C., Markowitsch, H. J., Neufeld, H., Calabrese, P. & Deisinger, K. (2000). Wechsler Gedächtnis Test – Revidierte Fassung (WSM-R). Deutsche Adaptation der revidierten Fassung der
Wechsler-Memory-Scale. Göttingen: Hogrefe.
Hasemann, K. (1983). Verhaltensbeobachtung und Ratingverfahren. In K. J. Groffmann & L. Michel
(Hrsg.), Enzyklopädie der Psychologie, Serie Diagnostik, Bd. 4: Verhaltensdiagnostik (S. 434488). Göttingen: Hogrefe.
Hasenbring, M. (1994). Kieler Schmerz-Inventar. Bern: Huber.
Hathaway, S. R. & McKinley, J. C. (1951). The Minnesota Multiphasic Personality Inventory Manual
revised. New York: The Psychological Corporation.
Hathaway, S. R., McKinley, J. C. & Engel, R. R. (2000). MMP-2. Manual. Bern: Huber.
Häusler, J. & Sommer, M. (2006). Neuronale Netze: Nichtlineare Methoden der statistischen Urteilsbildung in der psychologischen Eignungsdiagnostik. Zeitschrift für Personalpsychologie, 5, 4-15.
Literaturverzeichnis
579
580
Literaturverzeichnis
Hautzinger, M. (1994). Diagnostik in der Psychotherapie. In R.-D. Stieglitz & U. Baumann (Hrsg.),
Psychodiagnostik psychischer Störungen (S. 284-295). Stuttgart: Enke.
Hautzinger, M. (2002). Hamilton Depressions-Skala. In: E. Brähler, J. Schumacher & B. Strauß (Hrsg.),
Diagnostische Verfahren in der Psychotherapie (S. 183-186). Göttingen: Hogrefe.
Hautzinger, M. & Bailer, M. (1993). Allgemeine Depressions-Skala ADS. Weinheim: Beltz.
Hautzinger, M., Bailer, M. & Keller, F. (1995). Beck-Depressions-Inventar BDI (2. Aufl.). Bern: Huber.
Hautzinger, M., Stark, W. & Treiber, R. (1997). Kognitive Verhaltenstherapie bei Depressionen (4.
Aufl.). Weinheim: Psychologie Verlags Union.
Haynes, S. N. & Horn, W. F. (1982). Reactive effects of behavioral observation. Behavioral Assessment, 4, 443-469.
Heckhausen, H. (1963). Hoffnung und Furcht in der Leistungsmotivation. Meisenheim: Hain.
Heckhausen, H. & Rheinberg, F. (1980). Lernmotivation im Unterricht, erneut betrachtet. Unterrichtswissenschaft, 8, 7-47.
Hehl, F. J. & Hehl, R. (1975). Persönlichkeitsskalen System 25, PSS 25. Weinheim: Beltz.
Hehl, F. J. & Wirsching, M. (1983). Psychosomatischer Einstellungs-Fragebogen (PEF). Göttingen:
Hogrefe.
Heil, F. E. (1984). Zur Erfassung von Coorientierungsstrukturen in Partnerschaften. Grundlegung,
Entwicklung und Evaluation des Trierer Partnerschaftsinventars. Trier: Dissertation im Fachbereich Psychologie.
Heil, F. E. (1993). Partnerschaftszufriedenheit: Eine theoretisch fundierte Alternative zu traditionellen Diagnoseverfahren. In L. Montada (Hrsg.), Bericht über den 38. Kongreß der Deutschen
Gesellschaft für Psychologie in Trier 1992 (Bd. 2, S. 580-588). Göttingen: Hogrefe.
Heil, F. E. (1998). Das Trierer Partnerschaftsinventar (TPI). Manual Entwurf. Trier: Fachbereich
Psychologie.
Heilmann, K. (1999). Das Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung
(BIP). In E. Fay (Hrsg.), Tests unter der Lupe II (S. 19-38). Lengerich: Pabst.
Heimberg, R. G, Juster, H. R., Hope, D. A. & Mattia, J. I. (1995). Cognitive behavioral group treatment
for social phobia: Description, case presentation, and empirical support. In M. B. Stein (Ed.),
Social phobia: Clinical and research perspectives (pp. 293-321). Washington: American
Psychiatric Press.
Heinemann, M. & Höpfner, C. (1993). Screeningverfahren zur Erfassung von Sprachentwicklungsverzögerungen SEV. Weinheim: Beltz.
Heller, K. A. (Hrsg.), (1992). Hochbegabung im Kindes- und Jugendalter. Göttingen: Hogrefe.
Heller, K. A. (1997). Grundintelligenztest Skala 2 (CFT 20). Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 53-55.
Heller, K. A, Gaedike, A. K. & Weinläder, H. (1985). Kognitiver Fähigkeits-Test für 4. bis 13. Klassen
KFT 4-13 (2. Aufl., 1. Aufl. 1976). Weinheim: Beltz.
Heller, K. A, Rosemann, B. & Steffens, K. H. (1978). Prognose des Schulerfolgs. Weinheim: Beltz.
Helmke, A. (1983). Prüfungsangst. Psychologische Rundschau, 34, 7-47.
Helmke, A., Schneider, W. & Weinert, F. E. (1986). Quality of contribution to the IEA classroom
environment study. Teaching and Teacher Education, 2, 1-31.
Hermans, H., Petermann, F. & Zielinski, W. (1978). Leistungs-Motivations-Test LMT. Amsterdam:
Swets & Zeitlinger.
Hermans, H. (1976). Leistungsmotivationstest für Jugendliche LMT-J (deutsche Fassung von Udo
Undeutsch). Amsterdam: Swets.
Hermans, H. J. M. (1976). Prestatie Motivatie Test (1. Aufl. 1968). Amsterdam: Swets & Zeitlinger.
Herrle, J. & Kühner, C. (1994). Depression bewältigen. Ein kognitiv-verhaltenstherapeutisches
Programm nach P. M. Lewinsohn. Weinheim: Beltz, Psychologie Verlags Union.
Herrmann, Th. (1976). Lehrbuch der empirischen Persönlichkeitsforschung. Göttingen: Hogrefe.
Hersch, J. (1974). Die Unfähigkeit, Freiheit zu ertragen – Reden und Aufsätze. Zürich, Köln:
Bezinger.
Herzberg, F., Mausner, B. & Snyderman, B. B. (1959). The motivation to work (2nd ed.). New York:
Wiley.
Hetzer, H. & Tent, L. (1971). Weilburger Test für Schulanfänger. Weinheim: Beltz.
Heubrock, D. (1995). Neuropsychologische Diagnostik bei Simulationsverdacht: Ein Überblick
über Forschungsergebnisse und Untersuchungsmethoden. Diagnostica, 41, 303-321.
Heyde, G. (1995). Inventar komplexer Aufmerksamkeit (INKA). Frankfurt: Swets Test Services.
Heyde, G. (2004). INKA - Inventar Komplexer Aufmerksamkeit. In G. Büttner & L. Schmidt-Atzert
(Hrsg.), Diagnostik von Konzentration und Aufmerksamkeit (S. 133-142). Göttingen: Hogrefe.
Hiller, W., Zaudig, M. & Mombour, W. (1995). ICD-10 Checklisten. Bern: Huber.
Hinrichs, J. R. & Haanperä, S. (1976). Reliability of measurement in situational exercises: An assessment of the assessment center method. Personnel Psychology, 29, 31-40.
Hobi, V. (1985). Basler Befindlichkeits-Skala. Weinheim: Beltz.
Hödl, E. (1995). Hochschulberichtssystem und Profilbildung. Forschung und Lehre, 6, 322-324.
Hofer, M. (1969). Die Schülerpersönlichkeit im Urteil des Lehrers. Weinheim: Beltz.
Hofer, M. (Hrsg.). (1981). Informationsverarbeitung und Entscheidungsverhalten von Lehrern.
Beiträge zu einer Handlungstheorie des Unterrichtens. München: Urban & Schwarzenberg.
Hofmann, H. & Stiksrud, A. (1994). Zufriedenheit mit einem Psychologie-Lehrbetrieb. Aspekte der
Evaluation von Evaluatoren. Empirische Pädagogik, 8, 169-198.
Hofmann, K. & Kubinger, K. D. (2001). Herkömmliche Persönlichkeitsfragebogen und Objektive Persönlichkeitstests im »Wettstreit« um (Un-)Verfälschbarkeit. Report Psychologie, 26, 298-304.
Hofstee, W. K. B. (1994). Who should own the definition of personality? European Journal of
Personality, 8, 149-162.
Hohenberger, E. & Schindler, L. (1984). Ein verhaltenstherapeutisches Programm zur Behandlung
von Schlafstörungen. In J. C. Brengelmann & G. Bühringer (Hrsg.), Therapieforschung in der
Praxis (S. 55-71). München: Röttger.
Hojat, M., Robeson, M., Damjanov, L., Veloski, J. J., Glaser, K. & Gonnella, J. S. (1993). Students
psychosocial characteristics as predictors of academic performance in medical school.
Academic Medicine, 68, 635-637.
Holden, R. R., Wood, L. L. & Tomashewski, L. (2001). Do response time limitations counteract the
effect of faking on personality inventory validity? Journal of Personality and Social Psychology,
81, 160-169.
Holling, H. (1981). Das Suppressor Konzept. Eine systematische Analyse und Neudefinition. Zeitschrift für Differentielle und Diagnostische Psychologie, 2, 123-150.
Holling, H. & Kanning, U. P. (1999). Hochbegabung: Forschungsergebnisse und Fördermöglichkeiten. Göttingen: Hogrefe.
Hollmann, H. (1988). Das Freiburger Persönlichkeitsinventar. Diagnostica, 34, 277-285.
Hollmann, H. (1993). Validität der Eignungsdiagnostik. Göttingen: Hogrefe.
Holmes, D. S. (1968). Dimensions of projection. Psychological Bulletin, 69, 248-268.
Holmes, D. S. & Tyler, J. D. (1968). Direct versus projective measurement of achievement motivation. Journal of Consulting and Clinical Psychology, 32, 712-717.
Holtzman, W. H, Thorpe, I. S, Swartz, J. D. & Herron, E. W. (1961). Inkblot perception and personality.
Austin: University of Texas Press.
Holzkamp, K. (1966). Begutachtung als Kommunikation. In A. O. Jäger & F. Merz (Hrsg.), Prognose
und Bewährung in der psychologischen Diagnostik (S. 19-40). Göttingen: Hogrefe.
Hörmann, H. (1964). Aussagemöglichkeiten psychologischer Diagnostik. Göttingen: Hogrefe.
Hörmann, H. (1978). Theoretische Grundlagen der projektiven Tests. In R. Heiss, K.-J. Groffmann &
L. Michel (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik
(S. 71-112). Göttingen: Hogrefe.
Hörmann, H. (1982). Theoretische Grundlagen der projektiven Verfahren. In K. J. Groffmann &
L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 3:
Persönlichkeitsdiagnostik (S. 173-247). Göttingen: Hogrefe.
Horn, A. & Bonz, G. (1969). Persönlichkeitsuntersuchungen mit dem Rorschach-Test bei bewegungsbehinderten Kindern. Schweizerische Zeitschrift für Psychologie, 28, 39-48.
Horn, J. L. & Cattell R. B. (1966). Refinement and test of theory of fluid and crystallized intelligence.
Journal of Educational Psychology, 57, 253-270.
Horn, R. (2003). Eine kritische Anmerkung zum K-ABC. Report Psychologie, 28, 189.
Horn, W. (1969). Prüfsystem für Schul- und Bildungsberatung PSB. Göttingen: Hogrefe.
Horn, W. (1972). Begabungstestsystem BTS (2. Aufl.). Göttingen: Hogrefe.
Horn, W. (1983). Leistungs-Prüf-System LPS (2. Aufl., 1. Aufl. 1962). Göttingen: Hogrefe.
Horn, W., Lukesch, H., Kormann, A. & Mayrhofer, S. (2002). PSB-R 4-6: Prüfsystem für Schul- und
Bildungsberatung für 4. bis 6. Klassen – revidierte Fassung. Göttingen: Hogrefe.
Horn, W., Lukesch, H., Mayrhofer, S. & Kormann, A. (2003). PSB-R 6-13: Prüfsystem für Schul- und
Bildungsberatung für 6. bis 13. Klassen – revidierte Fassung. Göttingen: Hogrefe.
Literaturverzeichnis
581
582
Literaturverzeichnis
Hornke, L. F. & Kersting, M. (2004). Checkliste zur DIN 33430. In L. F. Hornke & U. Winterfeld (Hrsg.),
Eignungsbeurteilungen auf dem Prüfstand: DIN 33430 zur Qualitätssicherung (S. 273-324).
Heidelberg: Spektrum Akademischer Verlag.
Hornke, L. F. & Etzel, S. (1993/1995). Theoriegeleitete Konstruktion und Evaluation von computergestützten Tests zum Merkmalsbereich »Gedächtnis und Orientierung«. Untersuchungen des
Psychologischen Dienstes der Bundeswehr 1993/1995 (Bd. 2), 183-296.
Hornke, L. F., Rettig, K. & Hutwelker, R. (1988). Theoriegeleitete Konstruktion eines Tests zur Messung des räumlichen Vorstellungsvermögens. Untersuchungen des Psychologischen Dienstes der Bundeswehr, 23, 145-222.
Hornke, L. F. & Storm, G. (1993/1995). Theoriegeleitete Konstruktion von Items zur Messung visueller Analyseleistungen III. Untersuchungen des Psychologischen Dienstes der Bundeswehr
1993/1995 (Bd. 2), 37-182.
Horowitz, L. M., Strauß, B. & Kordy, H. (2000). Inventar zur Erfassung interpersonaler Probleme
(IIP-D) (2. Aufl.). Weinheim: Beltz.
Horst, P. (1966). Psychological measurement and prediction. Belmont, CA: Wadsworth.
Hossiep, R. (1994). Das Assessment-Center. Diagnostica, 40, 89-104.
Hossiep, R. & Paschen, M. (1998). Das Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung BIP. Göttingen: Hogrefe.
Hossiep, R., Turck, D. & Hasella, M. (1999). BOMAT – advanced. Bochumer Matrizentest. Göttingen:
Hogrefe.
Hossiep, R., Turck, D. & Hasella, M. (2001). BOMAT – advanced – short version. Bochumer Matrizentest. Göttingen: Hogrefe.
Hossiep, R. & Wottawa, H. (1993). Diagnostik. In A. Schorr (Hrsg.), Handwörterbuch der Angewandten Psychologie (S. 131-136). Bonn: Deutscher Psychologen Verlag.
Howells, J. G. & Lickorish, J. R. (2003). Familien-Beziehungs-Test (FBT) (6. Aufl.).München: Ernst
Reinhardt Verlag.
Huber, W., Poeck, K., Weniger, D. & Willmes, K. (1983). Aachener Aphasietest AAT. Göttingen:
Hogrefe.
Huffcutt, A. I., Conway, J. M., Roth, P. L. & Klehe, U. C. (2004). The impact of job complexity and study
design on situational and behavior description interview validity. International Journal of
Selection and Assessment, 12, 262-273.
Hundleby, J., Pawlik, K. & Cattell, R. B. (1965). Personality factors in objective test devices. San
Diego: Knapp.
Hunter, J. E. & Schmidt, F. L. (1976). Critical analysis of the statistical and ethical implications of
various definitions of test bias. Psychological Bulletin, 83, 1053-1071.
Husslein, E. (1978). Der Schulangst-Test. Göttingen: Hogrefe.
Hylla, E. & Kraak, B. (1976). Aufgaben zum Nachdenken AZN (3. Aufl., 1. Aufl. 1965). Weinheim: Beltz.
Ihl, R. & Weyer, G. (1993). Alzheimer’s Disease Assessment Scale ADAS. Weinheim: Beltz.
Ingenkamp, K. (1988). Pädagogische Diagnostik. In R. S. Jäger (Hrsg.), Psychologische Diagnostik
(S. 423-436). München: Psychologie Verlags Union.
Ingenkamp, K., Jäger, R. S. & Horn, R. (Hrsg.). (1981). Tests und Trends. Jahrbuch der Pädagogischen
Diagnostik. Weinheim: Beltz.
Ingenkamp, K., Wolf, B., Christmann, H., Lißmann, U., Knapp, A. & Haenisch, H. (1977). Bildungs-Beratungs-Test für 4. bis 6. Klassen BBT 4-6. Weinheim: Beltz.
Institut für Test- und Begabungsforschung. (1990). Test für Medizinische Studiengänge TMS
(3. Aufl., 1. Aufl. 1987). Göttingen: Hogrefe.
Irle, M. & Allehoff, W. (1984). Berufs-Interessen-Test II (BIT II). Göttingen: Hogrefe.
Iseler, A. (1967). Zur varianzanalytischen Schätzung der Auswertungsobjektivität von psychologischen Tests. Diagnostica, 13, 135-148.
Ittner, E. & Halsig, N. (1993). Prognostische Relevanz des Auswahlgesprächs als qualitativ neue
Methode beim Zugang zum Studium der Medizin. In F. Baumgärtel (Hrsg.), Klinische Psychologie im Spiegel ihrer Praxis (S. 113-119). Bonn: Deutscher Psychologenverlag.
Jaccard, J. J. (1974). Predicting social behavior from personality traits. Journal of Research in
Personality, 1, 358-367.
Jäckel, U. (1980). Partnerwahl und Ehe-Erfolg. Stuttgart: Enke.
Jackson, D. N. (1967). Manual for the Personality Research Form (2nd ed. 1974). Goshen: Research
Psychologists Press.
Jacobi, C., Thiel, A. & Paul, T. (1995). Kognitive Verhaltenstherapie bei Anorexia und Bulimia nervosa. Weinheim: Psychologie Verlags Union.
Jacobson, N. S, Folette, W. C. & Revenstorf, D. (1984). Psychotherapy outcome research: Methods
for reporting variability and evaluating clinical significance. Behavior Therapy, 15, 336-352.
Jacobson, N. S. & Revenstorf, D. (1988). Statistics for assessing the clinical significance of psychotherapy techniques: Issues, problems, and new developments. Behavioral Assessment, 10,
133-145.
Jacobson, N. S. & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful
change in psychotherapy research. Journal of Consulting and Clinical Psychology, 59, 12-19.
Jäger, A. O. (1963). Der Wilde Test, ein neues Intelligenzdiagnostikum. Zeitschrift für Experimentelle und Angewandte Psychologie, 10, 260-278.
Jäger, A. O. (1984). Intelligenzstrukturforschung: Konkurrierende Modelle, neue Entwicklungen,
Perspektiven. Psychologische Rundschau, 35, 21-35.
Jäger, A. O. & Althoff, K. (1994). Wilde-Intelligenztest WIT (1. Aufl.age 1983). Göttingen: Hogrefe.
Jäger, A. O, Süß, H.-M. & Beauducel, A. (1997). Berliner Intelligenzstruktur-Test (Form 4; BIS-4).
Göttingen: Hogrefe.
Jäger, A. O. & Todt, E. (1964). Zur Faktorenstruktur des WIT bei 17jährigen; Faktorenanalyse der
WIT-Langformen. Diagnostica, 10, 3-14.
Jäger, R. S. (1970). Personalauslese. In A. Mayer & B. Herwig (Hrsg.), Handbuch der Psychologie,
Bd. IX: Betriebspsychologie (S. 613-667). Göttingen: Hogrefe.
Jäger, R. S. (1982). Diagnostische Urteilsbildung. In K. J. Groffmann & L. Michel (Hrsg.). Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 1: Grundlagen psychologischer
Diagnostik (S. 295-375). Göttingen: Hogrefe.
Jäger, R. S. (1986). Der diagnostische Prozeß (2. Aufl., 1. Aufl. 1983). Göttingen: Hogrefe.
Jäger, R. S. (1986). Measuring examiner and examinee reactions to each other and to the psychodiagnostic situation. In B. Nevo & R. S. Jäger (Eds.), Psychological testing: The examinee perspective (pp. 129-149). Göttingen: Hogrefe.
Jäger, R. S. (1988). Der diagnostische Prozeß. In R. S. Jäger (Hrsg.), Psychologische Diagnostik
(S. 382-386). München: Psychologie Verlags Union.
Jäger, R. S., Mattenklott, A. & Schröder, R. D. (Hrsg.). (1984). Diagnostische Urteilsbildung in der
Psychologie. Göttingen: Hogrefe.
Jäger, R. S. & Petermann, F. (1992). Psychologische Diagnostik (2. veränderte Aufl.). Weinheim:
Psychologie Verlags Union.
Janke, W. (1971). Klassifikation. In R. Heiss, K. J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik (3. Aufl., S. 901-929). Göttingen: Hogrefe.
Janke, W. (1973). Das Dilemma von Persönlichkeitsfragebogen. Einleitung des Symposiums über
Konstruktion von Fragebogen. In G. Reinert (Hrsg.), Bericht über den 27. Kongreß der Deutschen Gesellschaft für Psychologie in Kiel 1970. Göttingen: Hogrefe.
Janke, W. (1982). Klassenzuordnung. In K. J. Groffmann & L. Michel (Hrsg.), Grundlagen psychologischer Diagnostik (S. 376-466). Göttingen: Hogrefe.
Janke, W. & Debus, G. (1978). Die Eigenschaftswörterliste EWL. Göttingen: Hogrefe.
Janke, W. & Erdmann, G. (Hrsg.). (1996). Streßverarbeitungsfragebogen (SVF 120). Kurzbeschreibung und grundlegende Kennwerte. Göttingen: Hogrefe.
Janke, W. & Erdmann, G. (2002). SVF 78: Eine Kurzform des Stressverabeitungsfragebogens
SVF 120. Göttingen: Hogrefe.
Janke, W., Erdmann, G. & Kallus, W. (1985). Streßverarbeitungs-Fragebogen SVF. Göttingen:
Hogrefe.
Janke, W., Erdmann, G. & Kallus, K. W. (2002). SVF mit SVF 120 und SVF 78. Stressverarbeitungsfragebogen (3., erweiterte Auflage). Göttingen: Hogrefe.
Janke, W. & Hüppe, M. (1991). Emotionalität. In W. D. Oswald, W. M. Herrmann, S. Kanowski,
U. M. Lehr & H. Thomae (Hrsg.), Gerontologie (2. Aufl., S. 88-124). Stuttgart: Kohlhammer.
Jensen, A. R. (1980). Bias in mental testing. London: Methuen.
Jeserich, W. (1981). Mitarbeiter auswählen und fördern: Assessment Center-Verfahren. München:
Hanser.
Joerin, S., Stoll, F., Bergmann, C. & Eder, F. (2000). EXPLORIX - das Werkzeug zur Berufswahl und
Laufbahnplanung. Deutschsprachige Adaptation des Self-directed Search (SDS) nach John
Holland. Bern: Huber.
Literaturverzeichnis
583
584
Literaturverzeichnis
Johansen, I. (1972). Gruppenbildung und Soziometrie. In E. Meyer (Hrsg.), Gruppenpädagogik
zwischen Moskau und New York (S. 140-149). Heidelberg: Quelle & Meyer.
Johnson, D. W., Maruyama, G., Johnson, R., Nelson, D. & Skon, L. (1981). Effects of cooperative,
competitive, and individualistic goal structures on achievement: A metaanalysis. Psychological Bulletin, 89, 47-62.
Jungnitsch, G. (1992). Schmerz- und Krankheitsbewältigung bei rheumatischen Erkrankungen.
München: Quintessenz.
Kaiser, A. & Hahlweg, K. (1996). Kommunikations- und Problemlösetraining. In J. Margraf (Hrsg.),
Lehrbuch der Verhaltenstherapie (Bd. 1, S. 371-385). Berlin, Heidelberg, New York: Springer.
Kallus, K. W. & Janke, W. (1992). Klassenzuordnung. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (S. 170-186). Weinheim: Psychologie Verlags Union.
Kaminski, G. (1970). Verhaltenstheorie und Verhaltensmodifikation. Stuttgart: Klett.
Kämmerer, A. (1983). Die therapeutische Strategie »Problemlösen«. Theoretische und empirische
Perspektiven ihrer Anwendung in der Kognitiven Psychotherapie. Münster: Aschoff.
Kanfer, F. H., Reinecker, H. & Schmelzer, D. (2006). Selbstmanagement-Therapie (4. Aufl.). Berlin:
Springer.
Kanfer, F. H. & Saslow, G. (1976). Verhaltenstheoretische Diagnostik. In D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (2. Aufl., 1. Aufl. 1974; S. 24-59). München: Urban & Schwarzenberg.
Kanfer, R., Dugdale, B. & Mc Donald, B. (1994). Empirical findings on the action control scale in the
context of complex skill aggression. In J. Kuhl & J. Beckmann (Eds.), Volition and personality.
Action vs. state orientation (pp. 61-77). Seattle: Hogrefe und Huber.
Kanning, U. P. (2003). Sieben Anmerkungen zum Problem der Selbstdarstellung in der Personalauswahl. Zeitschrift für Personalpsychologie, 2, 193-195.
Karnath, H.-O. (2000). Vernachlässigung – Neglect. In W. Sturm, M. Herrmann & C. W. Wallesch
(Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik,
Therapie (S. 366-374). Lisse, NL: Swets & Zeitlinger.
Kastner, M. (1978). Zur Problematik von Tests zum Übergang an weiterführende Schulen. Psychologie in Erziehung und Unterricht, 25, 9-15.
Kaufman, A. S., Kaufman, N. L., Melchers, P. & Preuß, U. (2001). Kaufman Assessment Battery for
Children, Deutsche Version (6., teilweise ergänzte Auflage). Göttingen: Hogrefe.
Kautter, H. (1975). Zur Klassifikation und schulischen Plazierung von Lernbehinderten. Zeitschrift
für Heilpädagogik, 26, 222-238.
Kautter, H. (1979). Der Übergang zu Sonderschulen. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (Bd. 4, S. 977-988). Düsseldorf: Schwann.
Kavale, K. A. (1990). Variances and varieties in learning disability interventions. In T. E. Scruggs &
B. Y. L. Wong (Eds.), Intervention research in learning disabilities (pp. 3-33). Berlin, Heidelberg,
New York: Springer.
Keats, J. A. (1957). Estimation of error variances of test scores. Psychometrika, 22, 29-41.
Kelly, G. A. (1955). The psychology of personal constructs. New York: Norton.
Kemmler, L. (1967). Erfolg und Versagen auf der Grundschule. Göttingen: Hogrefe.
Kent, R. N., O’Leary, K. D., Dietz, A. & Diamant, C. (1979). Comparision of observational recordings in vivo via mirror and via television. Journal of Applied Behavior Analysis, 12, 517522.
Kenrick, D. T. & Stringfield, D. O. (1980). Personality traits and the eye of the beholder: Crossing
some traditional boundaries in the search for consistency in all of the people. Psychological
Review, 87, 88-104.
Kern, A. (1951). Sitzenbleiberelend und Schulreife. Freiburg: Herder.
Kersting, M. (1995). Der Einsatz »westdeutscher« Tests zur Personalauswahl in den Neuen Bundesländern und die Fairneßfrage. Report Psychologie, 20, 32-41.
Kersting, M. (1999a). Diagnostik und Personalauswahl mit computergestützten Problemlöseszenarien? Zur Kriteriumsvalidität von Problemlöseszenarien und Intelligenztests. Göttingen:
Hogrefe.
Kersting, M. (1999b). Intelligenz-Struktur-Test 2000 (IST 2000). In E. Fay (Hrsg), Tests unter der Lupe
II (S. 88-115). Lengerich: Pabst.
Keßler, B. H. (1976). Elternanamnese zur Erziehungsberatung. In L. R. Schmidt & B. H. Keßler (Hrsg.),
Anamnese (S. 294-305). Weinheim: Beltz.
Keßler, B. H. (1982). Biographische Diagnostik. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie
der Psychologie, Serie II: Psychologische Diagnostik, Bd. 3: Persönlichkeitsdiagnostik (S. 1-56).
Göttingen: Hogrefe.
Keßler, B. H. (1988). Daten aus dem Interview. In R. S. Jäger (Hrsg.), Psychologische Diagnostik – ein
Lehrbuch (363-372). München: Psychologie Verlags Union.
Kessler, J., Denzler, P. & Markowitsch, H. J. (1988). Demenztest. Weinheim: Beltz.
Kessler, J. & Kalbe, E. (2000). Gerontoneuropsychologie – Grundlagen und Pathologie. In W. Sturm,
M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 648-673). Lisse, NL: Swets & Zeitlinger.
Kessler, J., Markowitsch, H. J. & Denzler, P. (1990). Mini Mental Status Test MMST. Weinheim: Beltz.
Kessler, J., Schaaf, A. & Mielke, R. (1993). Fragmentierter Bildertest. Göttingen: Hogrefe.
Kici, G. & Westhoff, K. (2000). Anforderungen an psychologisch-diagnostische Interviews in der
Praxis Report Psychologie, 25, 428-436.
Kiesler, D. J., Anchin, J. C., Perkins, M. J., Chirico, B. M., Kyle, E. M. & Federman, E. J. (1976). The Impact
Message Inventory IMI. Richmond: Virginia Commonwealth University.
Kind, H. (1973). Leitfaden für die psychiatrische Untersuchung. Berlin, Heidelberg, New York:
Springer.
Kiresuk, T., Smith, A. & Cardillo, J. E. (Eds.). (1994). Goal attainment scaling: Applications, theory,
and measurement. Hillsdale: Lawrence Erlbaum Associates.
Kisser, R. (1992). Adaptive Strategien. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 161-170). Weinheim: Psychologie Verlags Union.
Klages, H. (1980). Organisationsanalyse in der öffentlichen Verwaltung. In E. Grochla (Hrsg.), Handwörterbuch der Organisation (S. 1460-1468). Stuttgart: Poeschel.
Klages, U. (1989). Zur Entwicklung eines Fragebogens irrationaler Einstellungen: Ergebnisse einer
Repräsentativbefragung. Zeitschrift für Psychologie, Psychopathologie und Psychotherapie,
37, 5-13.
Klages, U. (1989). Fragebogen irrationaler Einstellungen FIE. Göttingen: Hogrefe.
Klauer, K. C. (1991). An exact and optimal standardized person fit test for assessing consistency
with the Rasch model. Psychometrika, 56, 213-228.
Klauer, K. C. (1995). The assessment of person fit. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch
models: Foundations, recent developments, and applications (pp. 97-110). New York:
Springer.
Klauer, K. J. (1972). Zur Theorie und Praxis des binomialen Modells lehrzielorientierter Tests.
In K. J. Klauer, R. Fricke, M. Herbig, H. Rupprecht & F. Schott (Hrsg.), Lehrzielorientierte Tests
(S. 161-201). Düsseldorf: Schwann.
Klauer, K. J. (1987). Kriteriumsorientierte Tests. Göttingen: Hogrefe.
Klauer, K. J., Fricke, R., Herbig, M., Rupprecht, H. & Schott, F. (Hrsg.), (1972). Lehrzielorientierte Tests.
Düsseldorf: Schwann.
Kleber, E. W. (1979). Tests in der Schule. München: Reinhardt.
Kleber, E. W. & Fischer, R. (1982). Anweisungs- und Sprachverstehenstest. Weinheim: Beltz.
Klein, F. J. (1982). Die Rechtmäßigkeit psychologischer Tests im Personalbereich. Gelsenkirchen:
Manhald.
Klepsch, R., Zaworka, W., Hand, I., Lünenschloß, K. & Jauernig, G. (1993). Hamburger Zwangsinventar-Kurzform HZI-K. Weinheim: Beltz.
Klimoski, R. & Brickner, M. (1987). Why do assessment centers work? The puzzle of assessment
center validity. Personnel Psychology, 40, 243-260.
Klinck, D. (2002). Computergestützte Diagnostik: Beeinflusst das Medium der Testverarbeitung die
Testcharakteristika, die Testfairness oder das Erleben der Testsituation? Göttingen: Hogrefe.
Knowles, E. S. (1988). Item context effects on personality scales: Measuring changes the measure.
Journal of Personality and Social Psychology, 55, 312-320.
Koch, C. (1981). Fragebogen zur Abschätzung psychosomatischen Krankheitsgeschehens FAPK.
Weinheim: Beltz.
Köhler, T. (1979). Teststatistische Anforderungen an ein State-Meßinstrument. Diagnostica, 25,
64-75.
Köller, O. (1993). Die Identifikation von Ratern bei Leistungstests mit Hilfe des Mixed-RaschModells. Vortrag auf der 1. Tagung der Fachgruppe Methoden der Deutschen Gesellschaft für
Psychologie in Kiel. Empirische Pädagogik (o. A.).
Literaturverzeichnis
585
586
Literaturverzeichnis
Koppenhöfer, E. (2004). Kleine Schule des Genießens. Ein verhaltenstherapeutisch orientierter
Behandlungsansatz zum Aufbau positiven Erlebens und Verhaltens. Lengerich: Pabst.
Kormann, A. (Hrsg.). (1987). Beurteilen und Fördern in der Erziehung. Salzburg: Müller.
Kornmann, R. (1977a). Diagnose von Lernbehinderungen. Weinheim: Beltz.
Kornmann, R. (1977b). Testbatterie zur Untersuchung entwicklungsrückständiger Schulanfänger
TES. Weinheim: Beltz.
Kornmann, R., Meister, H. & Schlee, J. (Hrsg.). (1983). Förderungsdiagnostik (2. Aufl. 1986). Heidelberg: Schindele.
Kraak, B. & Nord-Rüdiger, D. (1989). Fragebogen zu Lebenszielen und zur Lebenszufriedenheit FLL.
Göttingen: Hogrefe.
Krämer, H.-J. & Schneider, J. F. (1987). Validität von Fragebogendaten in Abhängigkeit von Antwort-Zeit-Instruktionen und der intraindividuellen Variabilität der Probanden. Psychologische
Beiträge, 29, 458-468.
Krampen, G. (1981). IPC – Fragebogen zur Erfassung generalisierter Kontrollüberzeugungen.
Göttingen: Hogrefe.
Krampen, G. (1986). Zur Validität der deutschen Form des 16 PF. Faktorielle Validität und Beziehungen zum FPI. Diagnostica, 32, 91-99.
Krampen, G. (1996). Kreativitätstest für Vorschul- und Schulkinder. Version für die psychologische
Anwendungspraxis (KVS-P). Handanweisung. Göttingen: Hogrefe.
Krauth, J. (1995). Testkonstruktion und Testtheorie. Weinheim: Beltz, Psychologie Verlags Union.
Kröber, H.-L. & Steller, M. (Hrsg.). (2000). Psychologische Begutachtung im Strafverfahren: Indikationen, Methoden und Qualitätsstandards. Darmstadt: Steinkopff.
Kroger, R. O. & Turnbull, W. (1975). Invalidity of validity scales: The case of the MMPI. Journal of
Consulting and Clinical Psychology, 43, 238-260.
Krohne, H. W. (1980). Prüfungsangst: Defensive Motivation in selbstwertrelevanten Situationen.
Unterrichtswissenschaft, 8, 226-242.
Krohne, H. W. & Hindel, C. (1988). Trait anxiety, state anxiety, and coping behavior as predictors of
athletic performance. Anxiety Research, 1, 225-234.
Krohne, H. W. & Pulsack, A. (1990). Erziehungsstilinventar. Weinheim: Beltz.
Kröner-Herwig, B. & Sachse, R. (1988). Biofeedbacktherapie (2. Aufl.). Stuttgart: Kohlhammer.
Krüger, C. & Amelang, M. (1995). Bereitschaft zu riskantem Verhalten als Trait-Konstrukt und TestKonzept. Zur Entwicklung eines Fragebogens auf der Basis des Handlungs-Häufigkeits-Ansatzes. Diagnostica, 41, 1-18.
Kruse, L. (1980). Privatheit als Gegenstand und Problem der Psychologie. Bern: Huber.
Kubinger, K. D. (1987). Adaptives Testen. In R. Horn, K. Ingenkamp & R. S. Jäger (Hrsg.), Tests und
Trends – 6. Jahrbuch der Pädagogischen Diagnostik (S. 103-127). München: Psychologie Verlags Union.
Kubinger, K. D. (1988). Aktueller Stand und kritische Würdigung der probabilistischen Testtheorie.
In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 19-83). Weinheim: Beltz.
Kubinger, K. D. (Hrsg.). (1988). Moderne Testtheorie. Weinheim: Psychologie Verlags Union.
Kubinger, K. D. (Hrsg.). (1989). Moderne Testtheorie – ein Abriß samt neuesten Beiträgen (2. Aufl.).
Weinheim: Psychologie Verlags Union.
Kubinger, K. D. (1992). Testtheorie: Probabilistische Modelle. In R. S. Jäger & F. Petermann (Hrsg.),
Psychologische Diagnostik (2. Aufl., S. 322-334). Weinheim: Psychologie Verlags Union.
Kubinger, K. D. (1995). Einführung in die Psychologische Diagnostik. Weinheim: Psychologie Verlags Union.
Kubinger, K. D. (1995). Objektive Diagnostik. In K. Pawlik (Hrsg.), Enzyklopädie der Psychologie.
Differentielle Psychologie, 1, Grundlagen und Methoden (S. 507-541). Göttingen: Hogrefe.
Kubinger, K. D. (1996). Methoden der psychologischen Diagnostik. In E. Erdfelder, R. Mausfeld,
Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 567-576). Weinheim:
Psychologie Verlags Union.
Kubinger, K. D. & Ebenhöh, J. (1996). Arbeitshaltungen – Kurze Testbatterie. Anspruchsniveau,
Frustrationstoleranz, Leistungsmotivation, Impulsivität/Reflexivität. Frankfurt/M.: Swets.
Kubinger, K. D., Fischer, D. & Schuhfried, G. (1993). Begriffs-Bildungs-Test (BBT). Mödling: Dr. G.
Schuhfried.
Kubinger, K. D., Wagner, M. & Alexandrowicz, R. (1998). Zur Interpretation der Paardiagnostik mit
dem Gießen-Test. Psychotherapie, Psychosomatik und Medizinische Psychologie, 49, 249-253.
Kubinger, K. D., & Wurst E. (1991). Adaptives Intelligenz Diagnostikum AID. Weinheim: Beltz.
Kubinger, K. D., & Wurst, E. (2001). AID 2: Adaptives Intelligenz Diagnostikum 2. Göttingen:
Hogrefe.
Kuder, G. F. & Richardson, W. (1937). The theory of the estimation of test reliability. Psychometrika,
2, 151-160.
Kuhl, J. (1990). Kurzanweisung zum Fragebogen HAKEMP 90. Unveröffentliches Manuskript.
Osnabrück.
Kuhl, J. (1994a). A theory of action and state orientations. In J. Kuhl und J. Beckmann (Eds.), Volition
and personality. Action vs. state orientation (pp. 9-46). Seattle: Hogrefe & Huber.
Kuhl, J. (1994b). Action vs. state orientation: Psychometric properties of the action control scale
(ACS-90). In J. Kuhl & J. Beckmann (Eds.), Volition and personality. Action vs. state orientation
(pp. 47-59). Seattle: Hogrefe und Huber.
Kuhl, J. & Fuhrmann, A. (1995). Funktionskomponenten des Willens im Selbsterleben. Kurzmanual
für den Fragebogen VCC. Unveröffentlichtes Manuskript. Osnabrück.
Kurth, E. & Büttner, G. (1999). TPK Testreihe zur Prüfung der Konzentrationsfähigkeit (2., neu
bearbeitete Auflage). Göttingen: Hogrefe.
Kurth, E., & Büttner, G. (2004). Testreihe zur Prüfung der Konzentrationsfähigkeit (TPK). In
G. Büttner & L. Schmidt-Atzert (Hrsg.), Diagnostik von Konzentration und Aufmerksamkeit
(S. 143-159). Göttingen: Hogrefe.
Lakatos, A. & Reinecker, H. (2001). Kognitive Verhaltenstherapie bei Zwangsstörungen – Ein
Therapiemanual (2. Aufl.). Göttingen: Hogrefe.
Lambert, M. J., Bergin A. E. & Garfield, S. L. (2003). Handbook of Psychotherapy and Behavior
Change (5th ed.). New York: Wiley.
Lamiell, J. T. (1987). The psychology of personality: An epistemological inquiry. New York: Columbia
University Press.
Lang, A. (1978). Diagnostik und Autonomie der Person. In U. Pulver, A. Lang & F. W. Schmid (Hrsg.),
Ist Psychodiagnostik verantwortbar? (S. 17-30). Bern: Huber.
Langer, E. J. & Abelson, R. P. (1974). A patient by any other name: Clinician group difference in
labeling bias. Journal of Consulting and Clinical Psychology, 42, 4-9.
Langfeldt, H.-P. & Tent, L. (1999). Pädagogisch-psychologische Diagnostik. Bd. 2: Anwendungsbereiche und Praxisfelder. Göttingen: Hogrefe.
Laux, L. & Glanzmann, P. G. (1996). Angst und Ängstlichkeit. In M. Amelang (Hrsg.), Enzyklopädie
der Psychologie. Differentielle Psychologie (Bd. 3, 107-151). Göttingen: Hogrefe.
Laux, L., Glanzmann, P., Schaffner, P. & Spielberger, C. D. (1981). State-Trait-Angst-Inventar STAI.
Weinheim: Beltz.
Lazarsfeld, P. F. (1950). The logical and mathematical foundation of latent structure analysis. In
S. A. Stouffer, L. Guttman, E. A. Suchman, P. F. Lazarsfeld, S. A. Star & J. A. Clausen (Eds.),
Studies in social psychology in World War II, Vol IV: Measurement and prediction (pp. 362-472).
Princeton, NJ: Princeton University Press.
Lazarsfeld, P. F. & Henry, N. W. (1968). Latent structure analysis. Boston: Houghton Mifflin.
Lazarus, A. A. (1976). Multimodale Verhaltenstherapie. Frankfurt: Fachbuchhandlung für Psychologie.
Lehrl, S. & Gallwitz, A. (1977). Erlanger Depressions-Skala EDS. Göttingen: Hogrefe.
Lehrl, S., Merz, J., Erzigkeit, H. & Galster, V. (1974). MWT-A Mehrfachwahl-Wortschatz-Test, Form
A. Balingen: Spitta Verlag.
Leichner, R. (1979). Psychologische Diagnostik. Grundlagen, Kontroversen, Praxisprobleme. Weinheim: Beltz.
Leidig, S. & Pein, A. V. (1994). Stationäre Gruppentherapie für Patienten mit chronifizierten
somatoformen Störungen. In M. Zielke & J. Sturm (Hrsg.), Handbuch stationäre Verhaltenstherapie (S. 533-539). Weinheim: Psychologie Verlags Union.
Lersch, Ph. (1948). Der Aufbau des Charakters. Leipzig: Johann Ambrosius Barth-Verlag.
Lewrenz, H. (2000). Begutachtungs-Leitlinien zur Kraftfahrereignung des Gemeinsamen Beirats
für Verkehrsmedizin beim Bundesministerium für Gesundheit. Berichte der Bundesanstalt für
Straßenwesen (Heft M 115).
Lezak, M. D. (1995). Neuropsychological assessment (3. Aufl.). New York: Oxford University Press.
Lienert, G. A. (1964). Mechanisch-technischer Verständnistest MTVT. Göttingen: Hogrefe.
Lienert, G. A. (1967a). Testaufbau und Testanalyse (2. Aufl., 1. Aufl. 1961). Weinheim: Beltz.
Literaturverzeichnis
587
588
Literaturverzeichnis
Lienert, G. A. (1967b). Drahtbiegeprobe. Göttingen: Hogrefe.
Lienert, G. A. (1989). Testaufbau und Testanalyse (4. Aufl.). München: Psychologie Verlags Union.
Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz.
Lienert, G. A. & Schuler, H. (1994). Revidierter Allgemeiner Büro-Arbeitstest ABAT-R (3. Aufl., 1. Aufl.
1967). Göttingen: Hogrefe.
Lilienfeld, S. O., Wood, J. M. & Garb, H. N. (2000). The scientific status of projective techniques.
Psychological Science in the Public Interest, 1, 27-66.
Linden, W. J. van der & Hambleton, R. K. (Eds.). (1996). Handbook of modern item response theory.
New York: Springer.
Linehan, M. M. (1993). Skills training manual for treating borderline personality disorder. New York:
Guilford Press.
Linn, R. L. (1973). Fair test use in selection. Review of Educational Research, 43, 139-161.
Littmann, E. (2000). Forensische Neuropsychologie – Aufgaben, Anwendungsfelder und Methoden. In H.-L. Kröber & M. Steller (Hrsg.), Psychologische Gutachten im Strafverfahren: Indikationen, Methoden und Qualitätsstandards (S. 57-75). Darmstadt: Steinkopff.
Lockowandt, O. (1987). Frostig Entwicklungstest der visuellen Wahrnehmung FEW (5. Aufl., 1. Aufl.
1974). Weinheim: Beltz.
Loevinger, J. (1947). A systematic approach to the construction and evaluation of tests of ability.
Psychological Monographs, 64, 285.
Loevinger, J. (1957). Objective tests as instruments of psychological theory. Psychological Reports,
3, 635-694.
Loftus, E. F. (1979). Eyewitness testimony. Cambridge, MA: Harvard University Press.
Loranger, A. W. (1996). IPDE. International Personality Disorder Examination. ICD-10 Modul.
Deutschsprachige Ausgabe von W. Mombour, M. Zaudig, P. Berger, K. Gutierrez, W. Berner,
K. Berger, M. v. Cranach, O. Giglhuber, M. v. Bose. Bern: Huber.
Lord, F. M. (1955). Estimating test reliability. Educational and Psychological Measurement, 15,
325-336.
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale:
Erlbaum.
Lord, F. N. & Novick, M. R. (1974). Statistical theories of mental test scores (2nd ed., 1st ed. 1968).
Reading, MA: Addison-Wesley.
Lubin, A. (1957). Some formulae for use with suppressor variables. Educational and Psychological
Measurement, 17, 286-296.
Luborsky, L. (1984). Principles of psychoanalytical psychotherapy. New York: Basic Books.
Lück, H. E. & Timaeus, E. (1969). Skalen zur Messung Manifester Angst (MAS) und sozialer Wünschbarkeit (SDS-E und SDS-MC). Diagnostica, 15, 134-141.
Lüer, G., Cohen, R. & Nauck, W. W. (1966). Eine Kurzform der Vineland Social Maturity Scale für
minderbegabte Kinder. Praxis der Kinderpsychologie und Kinderpsychiatrie, 15, 101-105.
Lug, J. M. (1985). Psycholinguistisches Sprachförderungsprogramm. Weinheim: Beltz.
Lukan, U. & Blöschl, L. (1977). Verhaltenstherapeutisch orientierte Behandlung von Lernschwierigkeiten. Unterrichtswissenschaft, 5, 325-332.
Lutz, R. (1978). Das verhaltensdiagnostische Interview. Stuttgart: Kohlhammer.
Lutz, R. (1996). Euthyme Therapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1,
S. 335-351). Berlin, Heidelberg, New York: Springer.
Lutz, R. (2000). Gesundheit und Genuss: Euthyme Grundlagen der Verhaltenstherapie. In J. Margraf
(Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 2, S. 167-182). Heidelberg: Springer.
MacAndrew, L. (1965). The differentiation of male alcoholic outpatients from nonalcoholic
psychiatric outpatients by means of the MMPI. Quaterly Journal of Studies on Alcohol, 26,
238-246.
Maercker, A. (2000a). Operante Verfahren. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie
(Bd. 2, S. 541-550). Berlin, Heidelberg, New York: Springer.
Maercker, A. (2000b). Systematische Desensibilisierung. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 2, S. 405-412). Berlin, Heidelberg, New York: Springer.
Mahoney, M. J. (1977). Kognitive Verhaltenstherapie. Neue Entwicklungen und Integratonsschritte. München: Pfeiffer.
Mai, N. (1976). Zur Anwendung der additiven Nutzentheorie bei der Bewertung von Therapien.
Zeitschrift für Klinische Psychologie, 5, 180-193.
Malloy, T. E., Agatstein, F., Yarlas, A. & Albright, L. (1997). Effects of communication, information
overlap, and behavioural consistency on consensus in social perception. Journal of Personality and Social Psychology, 73, 270-280.
Manns, M., Schultze, J., Herrmann, C. & Westmeyer, H. (1987). Beobachtungsverfahren in der Verhaltensdiagnostik. Salzburg: Müller.
Marchese, M. C. & Muchinski, P. M. (1993). The validity of the employment interview: A metaanalysis. International Journal of Selection and Assessment, 1, 18-26.
Marcus, B. (2003). Das Wunder sozialer Erwünschtheit in der Personalauswahl. Zeitschrift für
Personalauswahl, 2, 129-132.
Margraf, J. (1994). Mini-DIPS. Diagnostisches Kurz-Interview bei psychischen Störungen. Berlin,
Heidelberg, New York: Springer.
Margraf, J. (2000). Therapieindikation. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1,
2. Aufl.; S. 145-154). Berlin, Heidelberg, New York: Springer.
Margraf, J. & Schneider, S. (1990). Panik. Angstanfälle und ihre Behandlung. Berlin, Heidelberg,
New York: Springer.
Margraf, J., Schneider, S. & Ehlers, A. (1994). Diagnostisches Interview bei psychischen Störungen
DIPS (2. Aufl., 1. Aufl. 1991). Berlin, Heidelberg, New York: Springer.
Mariacher, H. & Neubauer, A. (2005). PAI30: Test zur Praktischen Alltagsintelligenz. Göttingen:
Hogrefe.
Marks, I. M. & Mathews, A. M. (1990). Angstfragebogen. In G. Hank, K. Hahlweg & N. Klann (Hrsg.),
Diagnostische Verfahren für Berater. Materialien zur Diagnostik und Therapie in Ehe-, Familien- und Lebensberatung (S. 263-267). Göttingen: Beltz-Test.
Marschner, G. (1972). Revisions-Test (Rev.T.) nach Dr. Berthold Stender: Ein allgemeiner Leistungstest
zur Untersuchung anhaltender Konzentration bei geistiger Tempoarbeit. Göttingen: Hogrefe.
Marschner, G. (1981a). Büro-Test BT (2. Aufl., 1. Aufl. 1967). Göttingen: Hogrefe.
Marschner, G. (1981b). Untersuchungen mit dem Lern- und Gedächtnis-Test LGT 3 bei Facharbeitern. Diagnostica, 27, 261-265.
Marschner, G. (1982). Untersuchungen zur Reliabilität und Retest-Stabilität des Prüfsystems für
Schul- und Bildungsberatung PSB. Diagnostica, 28, 263-272.
Marschner, G., Stender, B. & Hamster, W. (1989). Revisions-Test (4. Aufl., 1. Aufl. 1972). Göttingen:
Hogrefe.
Martin, B. A., Bowen, C. C. & Hunt, S. T. (2002). How effective are people at faking on personality
questionnaires? Personality and Individual Differences, 32, 247-256.
Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149-174.
Masters, G. N. & Wright B. D. (1984). The essential process in a family of measurement models.
Psychometrika, 49, 529-544.
Mathews, A. M., Gelder, M. & Johnston, D. (1988). Platzangst - Eine Anleitung zur Durchführung
einer Exposition in-vivo unter Einsatz eines Selbsthilfemanuals. Berlin, Heidelberg, New York:
Springer.
McCormick, E. J., Jeanneret, P. R. & Mecham, R. C. (1969). The development and background of the
Position Analysis Questionnaire (PAQ). Purdue University: Occupational Research Center.
McDaniel, M. A., Whetzel, D. L., Schmitt, F. L. & Maurer, S. D. (1994). The validity of employment
interviews: A comprehensive review and meta-analysis. Journal of Applied Psychology, 79,
599-616.
McNemar, J. (1962). Psychological statistics. New York: Wiley.
Mead, A. D. & Drasgow, F. (1993). Equivalence of computerized and paper-and-pencil cognitive
ability tests: A meta-analysis. Psychological Bulletin, 114, 449-458.
Meehl, P. E. (1954). Clinical vs. statistical prediction. Minneapolis: University of Minnesota Press.
Mees, U. (1977). Einführung in die systematische Verhaltensbeobachtung. In U. Mees & H. Selg
(Hrsg.), Verhaltensbeobachtung und Verhaltensmodifikation (S. 14-32). Stuttgart: Klett.
Mees, U. & Selg, H. (Hrsg.), (1977). Verhaltensbeobachtung und Verhaltensmodifikation. Stuttgart:
Klett.
Meichenbaum, D. (1995). Kognitive Verhaltensmodifikation (2. Aufl.). Weinheim: Psychologie Verlags Union.
Melchers, P. & Lehmkuhl, G. (2000). Neuropsychologie des Kindes- und Jugendalters. In W. Sturm,
M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 613-647). Lisse, NL: Swets & Zeitlinger.
Literaturverzeichnis
589
590
Literaturverzeichnis
Melchers, P. & Preuß, U. (1994). Kaufman-Assessment Battery for Children K-ABC (1. Aufl. 1991).
Lisse, NL: Swets & Zeitlinger.
Messick, S. (1991). Psychology and methodology of response styles. In R. E. Snow & D. E. Wiley
(Eds.), Improving inquiry in social science: A volume in honor of Lee J. Cronbach (pp. 161-200).
Hillsdale, N.J.: Erlbaum.
Metzler, P. & Schmidt, K. H. (1992). Rasch-Skalierung des Mehrfachwahl-Wortschatztests (MWT).
Diagnostica, 38, 31-51.
Meyerhoff, H. & Dony, M. (1970). Die Zuverlässigkeit anamnestischer Angaben zur frühkindlichen
Entwicklung. Zeitschrift für Kinderheilkunde, 108, 41-45.
Michel, L. (1967). Die Auswertungsobjektivität des Intelligenz-Struktur-Tests (IST). Diagnostica, 13,
148-153.
Michel, L. (1977). Hochschuleingangstest für das Studienfeld Medizin. Bonn: Kultusministerkonferenz.
Michel, L. & Conrad, W. (1982). Theoretische Grundlagen psychometrischer Tests. In K. J. Groffmann
& L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik (Bd. 1,
S. 1-129). Göttingen: Hogrefe.
Michel, L. & Mai, N. (1968). Entscheidungstheorie und Probleme der Diagnostik bei Cronbach &
Gleser. Diagnostica, 14, 99-121.
Michel, L. & Mai, N. (1969). Zur varianzanalytischen Schätzung der Auswertungsobjektivität und
eine empirische Untersuchung des Hamburg-Wechsler-Intelligenz-Tests für Erwachsene
(HAWIE). Psychologische Beiträge, 11, 23-33.
Miesen, J., Schuhfried, G. & Wottawa, H. (1999). ELIGO: Eine vorläufige Antwort auf Grundprobleme
der testgestützten Eignungsdiagnostik. Wirtschaftspsychologie, 6, 16-24.
Milner, J. S. & Moses, T. (1972). Sexual responsivity as a function of test administrator’s gender.
Journal of Consulting and Clinical Psychology, 39, 515.
Miltner, W., Birbaumer, N. & Gerber, W.-D. (1986). Verhaltensmedizin. Berlin, Heidelberg, New York:
Springer.
Mischel, W. (1968). Personality and assessment. New York: Wiley.
Mischel, W. (1977). The interaction of person and situation. In D. Magnusson & N. S. Endler (Eds.),
Personality at the crossroads: Current issues in interactional psychology (pp. 333-352).
Hillsdale: Erlbaum.
Mittenecker, E. (1971). Subjektive Tests zur Messung der Persönlichkeit. In R. Heiss, K. Groffmann
& L. Michel (Hrsg.), Handbuch der Psychologie: Bd. 6, Psychologische Diagnostik (3. Aufl.,
S. 461-427). Göttingen: Hogrefe.
Möbus, C. (1978). Zur Fairness psychologischer Intelligenztests: Ein unlösbares Trilemma
zwischen den Zielen von Gruppen, Individuen und Institutionen? Diagnostica, 24, 191234.
Molenaar, I. W. (1995). Estimation of item parameters. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch
models: Foundations, recent developments, and applications (pp. 39-51). Berlin, Heidelberg,
New York: Springer.
Molenaar, I. W. & Hoijtink, H. (1990). The many null distributions of person fit indices. Psychometrika,
55, 75-106.
Monahan, J. (2003). Violence risk assessment. In A. M. Goldstein & I. B. Weiner (Eds.), Handbook of
psychology: Forensic psychology (Vol. 11, pp. 527-540). New York: Wiley.
Monson, Th. C., Hesley, J. W. & Chernick, L. (1982). Specifying when personality traits can and
cannot predict behavior: An alternative to abandoning the attempt to predict single-act
criteria. Journal of Personality and Social Psychology, 43, 385-399.
Moog, W. (1955). Der Kinder-Apperzeptions-Test. Deutsche Bearbeitung des Children’s Apperception Test von Bellak & Bellak. Göttingen: Hogrefe.
Moos, R. H. (1974a). Family environment scale (FES). Preliminary manual. Palo Alto: Stanford University, Social ecology laboratory Department of Psychiatry.
Moos, R. H. (1974b). The Social Climate Scale: An Overview. Palo Alto, CA: Annual Reviews.
Moosbrugger, H. (1984). Konzeptuelle Probleme und praktische Brauchbarkeit von Modellen zur
Erfassung von Persönlichkeitsmerkmalen. In M. Amelang & H. J. Ahrens (Hrsg.), Brennpunkte
der Persönlichkeitsforschung (S. 67-86). Göttingen: Hogrefe.
Moosbrugger, H. (1990). Testtheorie und Testkonstruktion. Arbeiten aus dem Institut für Psychologie der Johann Wolfgang Goethe Universität, Heft 1.
Moosbrugger, H. (1992). Testtheorie: Klassische Ansätze. In R. S. Jäger & F. Petermann
(Hrsg.), Psychologische Diagnostik (2. Aufl., S. 310-322). Weinheim: Psychologie Verlags
Union.
Moosbrugger, H. & Frank, D. (1992). Clusteranalytische Methoden in der Persönlichkeitsforschung.
Bern, Göttingen: Huber.
Moosbrugger, H. & Frank, D. (1995). Clusteranalytische Verfahren zur typologischen Analyse. In
K. Pawlik & M. Amelang (Hrsg.), Enzyklopädie der Psychologie: Serie VIII: Differentielle Psychologie (Bd. 1, S. 731-774). Göttingen: Hogrefe.
Moosbrugger, H. & Goldhammer, F. (2005). Computerprogramm zur computergestützten Testauswertung des Frankfurter Aufmerksamkeits-Inventar FAIR (2., aktualisierte Auflage). Göttingen:
Apparatezentrum.
Moosbrugger, H. & Heyden, M. (1977). Frankfurter Adaptiver Konzentrationsleistungs-Test (FAKT).
Bern, Göttingen, Toronto, Seattle: Hogrefe Huber Publishers.
Moosbrugger, H. & Heyden, M. (1996). FAKT. Frankfurter Adaptiver Konzentrationsleistungs-Test.
Testmanual, Version 1.5. Arbeiten aus dem Institut für Psychologie der Johann-WolfgangGoethe Universität Frankfurt/M., Heft 1.
Moosbrugger, H. & Oehlschlägel, J. (1994). Frankfurter Aufmerksamkeitsinventar FAIR. Göttingen:
Hogrefe.
Moosbrugger, H. & Oehlschlägel, J. (1996). FAIR. Frankfurter Aufmerksamkeits-Inventar. Bern:
Huber.
Moosbrugger, H. & Zistler, R. (1993). Wie befreit man die Item-Trennschärfe von den Zwängen der
Item-Schwierigkeit? Das SPS-Verfahren. Diagnostica, 39, 22-43.
Morrison, J. (1995). The first interview. New York: Guilford Press.
Moskowitz, D. S. (1982). Coherence and cross-situational generality in personality: A new analysis
of old problems. Journal of Personality and Social Psychology, 43, 754-768.
Mowrer, O. H. (1960). Learning theory and behavior. New York: Wiley.
Müller, H. (1987). A Rasch model for continuous ratings. Psychometrika, 52, 165-181.
Müller, H. (1997). Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen. Bern:
Huber.
Müller, R. (1980). Diagnostisches Soziogramm. Weinheim: Beltz.
Mummendey, H. D. (1987). Die Fragebogen-Methode. Göttingen: Hogrefe.
Murray, H. A. (1938). Explorations in personality. New York: Oxford University Press.
Murray, H. A. (1936). Thematic Apperception Test. New York: Grune & Stratton.
Murray, H. A. (1943). Thematic Apperception Test. Cambridge: Harvard University Press.
Nährer, W. (1986). Schnelligkeit und Güte als Dimensionen kognitiver Leistungen. Berlin, Heidelberg, New York: Springer.
Nauels, H.-U. & Klieme, E. (1994). Wie hat sich das »besondere Auswahlverfahren« bewährt?
Prüfungsleistungen und Erfolgsraten von Medizinstudenten, die nach verschiedenen Kriterien zugelassen worden sind. In G. Trost (Hrsg.), Tests für Medizinische Studiengänge (TMS):
Studien zur Evaluation (18. Arbeitsbericht) (S. 138-152). Bonn: Institut für Test- und Begabungsforschung.
Nedopil, N. & Krupinski, M. (2001). Beispiel-Gutachten aus der Forensischen Psychiatrie. Stuttgart:
Thieme.
Neisser, U., Boodoo, G., Bouchard, T. J. Jr., Boykin, A. W., Brody, N., Ceci, S. J., Halpern, D. F., Loehlin,
J. C., Perloff, R., Sternberg, R. J. & Urbina, S. (1996). Intelligence: Knowns and unknowns.
American Psychologist, 51, 77-101.
Nell, V. (2003). Konzentrations-Leistungs-Test, revidierte Fassung (KLT-R). In E. Fay (Hrsg.), Tests
unter der Lupe 4: Aktuelle psychologische Testverfahren – kritisch betrachtet (S. 59-75).
Göttingen: Vandenhoeck & Ruprecht.
Nell, V., Bretz, J., & Sniehotta, F. F. (2004). KT 3-4 R. Konzentrationstest für 3. und 4. Klassen (revidierte Fassung). Göttingen: Hogrefe.
Neubauer, R. (1980). Die Assessment Center Technik. Ein verhaltenstheoretischer Ansatz zur
Führungskräfteauswahl. In R. Neubauer & L. v. Rosenstiel (Hrsg.), Handbuch der Angewandten Psychologie (Bd. 1, S. 122-158). München: Verlag Moderne Industrie.
Neubauer, R. (1989). Implizite Eignungstheorien im Assessment Center. In C. Lattmann (Hrsg.), Das
Assessment-Center-Verfahren der Eignungsbeurteilung. Sein Aufbau, seine Anwendung und
sein Aussagegehalt (S. 191-221). Heidelberg: Physica-Verlag.
Literaturverzeichnis
591
592
Literaturverzeichnis
Neubauer, R. & Volkmann, D. (1989). Beobachtungs- und Beurteilungsprozesse im Assessment
Center. In Arbeitskreis Assessment Center (Hrsg.), Assessment Center in der betrieblichen
Praxis: Erfahrungen und Perspektiven (S. 137-159). Hamburg: Windmühle.
Neuberger, O. (1989). Assessment Centers – Ein Handel mit Illusionen? In C. Lattmann (Hrsg.), Das
Assessment-Center-Verfahren der Eignungsbeurteilung. Sein Aufbau, seine Anwendung und
sein Aussagegehalt (S. 291-307). Heidelberg: Physica-Verlag.
Neville, D. (1965). The relationship between reading skills and intelligence scores. Reading Teacher,
18, 257-261.
Noack, H. & Petermann, F. (1992). Entscheidungstheorie. In R. S. Jäger & F. Petermann (Hrsg.),
Psychologische Diagnostik (S. 295-310). Weinheim: Psychologie Verlags Union.
Norman, W. T. & Goldberg, L. R. (1966). Raters, ratees, and randomness in personality structure.
Journal of Personality and Social Psychology, 4, 681-691.
Novick, M. R. & Peterson, N. S. (1976). Towards equalizing educational and employment opportunity. Journal of Educational Measurement, 13, 77-88.
Obermair, W., Stoll, K. D. & Rickels, K. (1983). Test zur Erfassung der Schwere einer Depression TSD.
Weinheim: Beltz.
Obermann, C. (1992). Assessment Center. Wiesbaden: Gabler.
O’Connor, Jr., E. F. (1972). Extending classical test theory to the measurement of change. Review
of Educational Research, 42, 73-97.
Oden, M. H. (1968). The fulfillment of promise: 40-year follow-up of the Terman gifted group.
Genetic Psychology Monographs, 77, 3-93.
Oehlschlägel, J. & Moosbrugger, H. (1991). Konzentrationsleistung ohne Konzentration? Zur Schätzung wahrer Leistungswerte im Aufmerksamkeits-Belastungs-Test d2. Diagnostica, 37, 42-51.
Ones, D. S., Viswesvaran, C. & Reiss, A. D. (1996). Role of social desirability in personality testing for
personnel selection: The red herring. Journal of Applied Psychology, 81, 660-679.
Orendi, B., Pabst, J. & Udris, J. (1986). Kooperation in Arbeitsgruppen – Gruppentrainings zur
Förderung sozialer Handlungskompetenzen. Zürich: ETH.
Orgass, B. (1982). Token Test TT. Weinheim: Beltz.
Osgood, Ch. E. & Suci, G. J. (1952). A measure of relation determined by both mean differences and
profile information. Psychological Bulletin, 49, 251-262.
Ostendorf, F. & Angleitner, A. (2004). NEO-PI-R: NEO-Persönlichkeitsinventar nach Costa und McCrae, revidierte Fassung. Göttingen: Hogrefe.
Ostendorf, F., Angleitner, A. & Ruch, W. (1986). Die Multitrait-Multimethod Analyse. Konvergente
und diskriminante Validität der Personality Research Form. Göttingen: Hogrefe.
O’Sullivan, M., Guilford, J. P. & De Mille, R. (1965). The measurement of social intelligence. Los
Angeles: Reports from the Psychological Laboratory, 34.
Oswald, W. D. & Fleischmann, U. M. (1995). Nürnberger Alters-Inventar (NAI) (3., überarb. &
erg. Aufl.). Göttingen: Hogrefe.
Oswald, W. D. & Hagen, B. (1997). Test d2. Aufmerksamkeits-Belastungs-Test (Rezension). Zeitschrift für Differentielle und Diagnostische Psychologie, 18 (1/2), 87-89.
Oswald, W. D. & Roth, W. (1987). Der Zahlen-Verbindungs-Test (ZVT). Göttingen: Hogrefe.
Palinscar, A. S. & Brown, A. L. (1984). Reciprocal teaching of comprehension-fostering and monitoring activities. Cognition and Instruction, 1, 175-177.
Parry, H. J. & Crossley, H. M. (1950/51). Validity of response to survey questions. Public Opinion
Quaterly, 14, 61-80.
Paterson, D. G. & Tinker, M. A. (1930). Time-limit versus work-limit methods. American Journal of
Psychology, 42, 101-112.
Paul, G. L. (1967). Strategy of outcome research in psychotherapy. Journal of Consulting Psychology, 31, 109-118.
Paulhus, D. L. (1984). Two-component models of socially desirable responding. Journal of
Personality and Social Psychology, 46, 598-609.
Paulhus, D. L. & Martin, C. L. (1987). The structure of personality capabilities. Journal of Personality
and Social Psychology, 52, 354-365.
Pauls, C. A. & Crost, N. W. (2004). Effects of faking on self-decption and impression management
scales. Personality and Individual Differences, 37, 1137-1151.
Pauls, C. A. & Crost, N. W. (2005). Effects of different instructional sets on the construct validity of
the NEO-PI-R. Personality and Individual Differences, 39, 297-308.
Paunonen, S. V. (1989). Consensus in personality judgments: Moderating effects of target-rater
acquaintanceship and behavior observability. Journal of Personality and Social Psychology,
56, 823-833.
Paunonen, S. V. & Jackson, D. N. (1986). Idiothetic inquiry and the toil of sisyphus. Journal of
Personality, 54, 470-477.
Paunonen, S. V. & Jackson, D. N. (1988). Nichtsprachlicher Persönlichkeitsfragebogen. London,
Canada: University of Western Ontario.
Paunonen, S. V., Jackson, D. N. & Keinonen, M. (1990). The structured nonverbal assessment of
personality. Journal of Personality, 58, 481-502.
Paunonen, S. V., Jackson, D. N., Trzebinski, J. & Forsterling, F. (1992). Personality structure across
cultures: A multimethod evaluation. Journal of Personality and Social Psychology, 62,
447-456.
Pawlik, K. (1976). Modell- und Praxisdimensionen psychologischer Diagnostik. In K. Pawlik (Hrsg.),
Diagnose der Diagnostik (S. 13-43). Stuttgart: Klett.
Pekrun, R. (1984). An expectancy-value model of anxiety. In H. M. van der Ploeg, R. Schwarzer &
C. D. Spielberger (Eds.), Advances in test anxiety research (Vol. 3, pp. 52-73). Hillsdale, NJ:
Erlbaum.
Perrez, M. (1985). Diagnostik in der Psychotherapie - ein anachronistisches Ritual? Psychologische
Rundschau, 36, 106-109.
Perrez, M. & Baumann, U. (Hrsg.). (1990). Lehrbuch der Klinischen Psychologie, Bd. 1: Grundlagen,
Diagnostik, Ätiologie. Bern: Huber.
Perrez, M. & Baumann, U. (Hrsg.). (1990). Lehrbuch der Klinischen Psychologie, Bd. 2: Intervention.
Bern: Huber.
Perrez, M. & Baumann, U. (Hrsg.). (2006). Lehrbuch Klinische Psychologie – Psychotherapie. Bern:
Huber.
Pervin, L. A. (1970). Personality: Theory, assessment, and research. New York: Wiley.
Pervin, L. A. (1981). Persönlichkeitstheorien. München: Reinhardt.
Petermann, F. (1978). Veränderungsmessung. Stuttgart: Kohlhammer.
Petermann, F. (1987). Kontrollierte Praxis. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 113116). München: Psychologie Verlags Union.
Petermann, F. (Hrsg.). (1995). Lehrbuch der Klinischen Kinderpsychologie. Göttingen: Hogrefe.
Petillon, H. (1980). Soziometrischer Test für 4. bis 13. Klassen. Weinheim: Beltz.
Petry, J. (1996). Alkoholismustherapie: Vom Einstellungswandel zur kognitiven Therapie (3. Aufl.,
1. Aufl. 1985). München: Urban & Schwarzenberg.
Piel, E., Hautzinger, M. & Scherbarth-Roschmann, P. (1991). Analyse der Freiburger Beschwerden-Liste (FBL-K) mit Hilfe des stochastischen Testmodells von Rasch. Diagnostica, 37, 226235.
Posthuma, R. A., Morgeson, F. P. & Campion, M. A. (2002). Beyond employment interview validity:
A comprehensive narrative review of recent research and trends over time. Personnel Psychology,
55, 1-81.
Preusche, I. & Leiss, U. (2003). Intelligenztests für Kinder. HAWIK-III, AID 2 und K-ABC im Vergleich.
Report Psychologie, 28, 12-26.
Priester, H.-J. (1958). Die Standardisierung des Hamburg-Wechsler-Intelligenztests für Kinder.
Bern, Stuttgart: Huber.
Probst, H. (1984). Die pädagogisch-psychologische Begutachtung bei der Sonderschuleinweisung.
In H. A. Hartmann & R. Haubl (Hrsg.), Psychologische Begutachtung (S. 254-276). München:
Urban & Schwarzenberg.
Pryor, J. B., Gibbons, F. X., Wicklund, R. A., Fazio, R. H. & Hood, R. (1977). Self-focused attention and
self-report validity. Journal of Personality, 45, 513-527.
Pudel, V. & Westhöfer, J. (1989). Fragebogen zum Eßverhalten FEV. Göttingen: Hogrefe.
Querido, J., Eyberg, S., Kanfer, R. & Krahn, G. (2001). The process of the clinical child assessment
interview. In C. E. Walker & M. C. Roberts (Eds.), Handbook of clinical child psychology (3rd. ed.)
(pp. 75-89). New York: Wiley.
Rabin, A. I. & Haworth, M. R. (Eds.). (1965). Projective techniques with children. New York: Grune &
Stratton.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Kopenhagen:
The Danish Institute for Educational Research.
Literaturverzeichnis
593
594
Literaturverzeichnis
Rasch, G. (1961). On general laws and the meaning of measurement in psychology. In J. Neyman
(Ed.), Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability (Vol. 4, pp. 321-333). Berkeley, CA: University of California Press.
Rathus, S. A. & Nenid, J. S. (1977). Behavior therapy. Strategies of solving problems in living.
Bergenfield, NY: New American Library.
Rauh, H. (1988). Verschränkungen mit der Entwicklungspsychologie. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 49-58). München, Weinheim: Psychologie Verlags Union.
Raven, J. G. (1965). Standard Progressive Matrices. Cambridge: University Press.
Raven, J. C., Bulheller, S. & Häcker, H. (2002). CPM. Coloured Progressive Matrices (3., neu normierte
Auflage). Göttingen: Hogrefe.
Rehfisch, H.-P., Basler, H.-D. & Seemann, H. (1989). Psychologische Schmerzbehandlung bei
Rheuma – Manuale zur Verhaltenstherapie. Berlin, Heidelberg, New York: Springer.
Reichert, J. (1997). Begutachtung des Erinnerungsvermögens einer Zeugin mit mehrjährigem
Drogenmissbrauch – Antje F., 20 Jahre. In K. D. Kubinger & H. Teichmann (Hrsg.), Psychologische Diagnostik und Intervention in Fallbeispielen (S. 121 ff.). Weinheim: Psychologie Verlags Union.
Reicherts, M. & Perrez, P. (1992). Fragebogen zum Umgang mit Belastungen im Verlauf. Göttingen:
Hogrefe.
Reimann, G. (2004). Arbeits- und Anforderungsanalyse. In K. Westhoff, L. Hellfritsch, L. F. Hornke,
K. Kubinger, F. Lang, H. Moosbrugger, A. Püschel & G. Reimann (Hrsg.), Grundwissen für die
berufsbezogene Eingungsbeurteilung nach DIN 33430 (S. 105-120). Lengerich: Pabst.
Reinecker, H. S. (1994). Zwänge. Diagnose, Theorie und Behandlung (2. Aufl.). Bern, Göttingen,
Toronto, Seattle: Hans Huber.
Reinert, G. (1964). Entwicklungstests. In R. Heiss, K. J. Groffmann & L. Michel (Hrsg.), Handbuch der
Psychologie, Bd. 6: Psychologische Diagnostik (S. 280-351). Göttingen: Hogrefe.
Reitan, R. M. & Wolfson, D. (1985). The Halstead-Reitan neuropsychological test battery: Theory
and clinical interpretation. Tuscon: Neuropsychology.
Renneberg, B. (1991). Personality disorders and interactional behavior of agoraphobic outpatients.
Dissertationsschrift, Phillips-Universität Marburg.
Renneberg, B. (1996). Verhaltenstherapeutische Gruppentherapie bei Patienten mit selbstunsicherer Persönlichkeitsstörung. In B. Schmitz, T. Fydrich & K. Limbacher (Hrsg.), Persönlichkeitsstörungen: Diagnostik und Psychotherapie (S. 344-358). Weinheim: Psychologie Verlags
Union.
Rennen-Allhoff, B. & Allhoff, P. (Hrsg.). (1987). Entwicklungstests für das Säuglings-, Kleinkind- und
Vorschulalter. Berlin, Heidelberg, New York: Springer.
Renner, G. & Fricke, T. (2001). Der Hamburg-Wechsler-Intelligenztest für Kinder-III [Rezension].
Report Psychologie, 26, 460-477.
Retish, P. M. (1973). Changing the status of poorly esteemed students through teacher reinforcement. Journal of Applied Behavioral Science, 9, 44-50.
Revenstorf, D. (1993-1996). Psychotherapeutische Verfahren (Bd. I-IV, 2. Aufl.). Stuttgart: Kohlhammer.
Revers, W. J. (1973). Der Thematische Apperzeptions-Test TAT (3. Aufl.). Bern: Huber.
Revers, W. J. & Taeuber, K. (1968). Der Thematische Apperzeptionstest. Bern: Huber.
Revers, W. J. & Widauer, H. (1985). Thematischer Gestaltungstest (Salzburg). TGT-S. Weinheim:
Beltz.
Rheinberg, F. (2004). Motivationsdiagnostik. Göttingen: Hogrefe.
Richardson, M. W. & Kuder, G. F (1939). The calculations of test reliability coefficients based on the
method of rational equivalence. Journal of Educational Psychology, 30, 681.
Rief, W. (1996). Therapeutische Settings. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie
(Bd. 1 (S. 449-467). Berlin, Heidelberg, New York: Springer.
Rief, W. & Birbaumer, N. (2000). Biofeedback Therapie – Grundlagen, Indikation und praktisches
Vorgehen. Stuttgart: Schattauer.
Rief, W. & Hiller, W. (1998). Somatisierungsstörung und Hypochondrie. Göttingen: Hogrefe.
Rief, W., Schäfer, S. & Fichter, M. M. (1992). SOMS: Ein Screening-Verfahren zur Identifizierung von
Personen mit somatoformen Störungen. Diagnostica, 38, 228-241.
Rief, W., Hiller, W. & Heuser, J. (1997). SOMS: Screening für somatoforme Störungen. Göttingen:
Hogrefe.
Riemann, D. & Backhaus, J. (1996). Behandlung von Schlafstörungen. Weinheim: Psychologie Verlags Union.
Riemann, R. (1991). Repertory Grid Technik. Göttingen: Hogrefe.
Riemann, R. (1992). Konstruktion und Validierung eines Inventars zur Erfassung von Persönlichkeits-Fähigkeiten. Bielefeld: Unveröffentlichtes Manuskript.
Riemann, R. & Abels, D. (1994). Personality abilities: Construct validation. In B. deRaad, W. K. B.
Hofstee & G. L. van Heck (Eds.), Personality psychology in Europe (Vol. 5). Tilburg, NL: Tilburg
University Press.
Riemann, R. & Schumacher F. J. (1996). Zur Validität der Deutschen Personality Research Form:
Vorhersage des Verkaufserfolges von Außendienst-Mitarbeitern. Zeitschrift für Differentielle
und Diagnostische Psychologie, 17, 4-13.
Robbins, S. B., Lauver, K., Le, H., Davis, D., Langley, R. & Carlstrom, A. (2004). Do psychosocial and
study skill factors predict college outcomes? A meta-analysis. Psychological Bulletin, 130, 261288.
Roder, V., Brenner, H. D., Kienzle, N. & Hockel, B. (1995). Integriertes psychologisches Therapieprogramm für schizophrene Patienten IPT (3. Aufl., 1. Aufl. 1988). Weinheim: Psychologie Verlags
Union.
Roether, D. (1984). Tempoleistungen und Merkfähigkeit Erwachsener (TME). Berlin: Psychodiagnostisches Zentrum.
Rogers, C. R. (1973). Die klientbezogene Gesprächstherapie. München: Kindler.
Rogers, C. R. (1981). Der neue Mensch. Stuttgart: Klett-Cotta.
Rohracher, H. (1965). Kleine Charakterkunde. Wien: Urban & Schwarzenberg.
Rorschach, H. (1921). Psychodiagnostik. Der Rorschach-Test. Bern: Huber.
Rosch, E. (1975). Cognitive representations of sematic categories. Journal of Experimental
Psychology, General, 104, 192-233.
Rosenstiel, L. von (1992). Grundlagen der Organisationspsychologie. Stuttgart: SchäfferPoeschel.
Rosenzweig, S. (1950). Levels of behavior in psychodiagnosis with special reference to the PictureFrustration-Study. American Journal of Orthopsychiatry, 20, 63-72.
Roskam, E. E. (1996). Latent-Trait-Modelle. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger
(Hrsg.), Handbuch Quantitative Methoden (S. 431-458). Weinheim: Psychologie Verlags Union.
Rost, D. H. (2001). Hochbegabung. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (2., überarb. & erw. Aufl., S. 239-248). Weinheim: Beltz, PVU.
Rost, D. H., Sparfeldt, J. R. & Schilling, S. R. (im Druck). Hochbegabung. In: K. Schweizer (Hrsg.),
Leistung und Leistungsdiagnostik. Berlin: Springer.
Rost, J. (1988). Quantitative und qualitative probabilistische Testtheorie. Bern: Huber.
Rost, J. (1990). Rasch models in latent classes: An integration of two approaches to item analysis.
Applied Psychological Measurement, 14, 271-282.
Rost, J. (1995). Die testdiagnostische Erfassung von Typen. In K. Pawlik (Hrsg.), Bericht über den
39. Kongreß der Deutschen Gesellschaft für Psychologie in Hamburg 1994 (S. 392-398).
Göttingen: Hogrefe.
Rost, J. (1996). Lehrbuch Testtheorie – Testkonstruktion. Bern: Huber.
Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion (2. Aufl.). Bern: Huber.
Rost, J. & Langenheine, R. (Eds.). (1996). Applications of latent trait and latent class models in the
social sciences. Münster: Waxmann.
Rost, J. & Spada, H. (1977). Probabilistische Testtheorie. In K. J. Klauer (Hrsg.), Handbuch der pädagogischen Diagnostik (Bd. 1, S. 59-97). Düsseldorf: Schwann.
Rost, J. & Spada, H. (1983). Die Quantifizierung von Lerneffekten anhand von Testdaten. Zeitschrift
für Differentielle und Diagnostische Psychologie, 4, 29-49.
Rost, J. & Strauß, B. (1992). Review: Recent developments in psychometrics and test-theory. The
German Journal of Psychology, 16, 2, 91-119.
Roth, J. (1978). Fragebogen zum Trinkverhalten Alkoholabhängiger FTA. Göttingen: Hogrefe.
Rotter, J. B. (1954). Social learning and clinical psychology. Englewood Cliffs, NY: Prentice Hall.
Rotter, J. B. (1967). A new scale for measurement of interpersonal trust. Journal of Personality, 35,
651-665.
Rüdiger, D. (1987). Der Übertritt auf weiterführende Schulen. In A. Kormann (Hrsg.), Beurteilen und
Fördern in der Erziehung (S. 98-121). Salzburg: Müller.
Literaturverzeichnis
595
596
Literaturverzeichnis
Rüdiger, D., Peez, H. & Kormann, A. (1985). Analyse der Schulleistung. Studienbrief 4 des Fernstudienlehrgangs zur Ausbildung von Beratungslehrern. Tübingen: Deutsches Institut für Fernstudien.
Rudolf, G. (1981). Psychischer und Sozial-Kommunikativer Befund PSKB. Weinheim: Beltz.
Rudolf, G. (1991). PSKB-Se – Ein psychoanalytisch fundiertes Instrument zur Patienten-Selbsteinschätzung. Zeitschrift für Psychosomatische Medizin und Psychoanalyse, 37, 350-360.
Rudolf, G. (1993). Psychischer und Sozial-Kommunikativer Befund (PSKB). Ein Instrument zur
standardisierten Erfassung neurotischer Befunde. Göttingen: Hogrefe.
Sack, P. M. & Witte, E. H. (1990). Untersuchungen zur Konstruktvalidität des HAKEMP 85 von J. Kuhl.
Zeitschrift für Differentielle und Diagnostische Psychologie, 11, 17-26.
Sader, M. (1976). Psychologie der Gruppe. München: Juventa.
Sader, M. & Keil, W. (1966). Bedingungskonstanz in der psychologischen Diagnostik. Archiv für die
gesamte Psychologie, 118, 279-308.
Saldern, M. v. & Littig, K. E. (1987). Landauer Skalen zum Sozialklima für 4. bis 13. Klassen. Weinheim: Beltz.
Salgado, J. F. & Moscoso, S. (2002). Comprehensive meta-analysis of the construct validity of the
employment interview. European Journal of Work and Organizational Psychology, 11, 299-324.
Saltstone, R., Skinner C. & Tremblay, P. (2001). Conditional standard error of measurement and
personality scale scores: An investigation of classical test theory estimates with 4 MMPI scales.
Personality and Individual Differences, 30, 691-698.
Salzgeber, J. (2001). Familienpsychologische Gutachten: Rechtliche Vorgaben und sachverständiges Vorgehen (3., überarb. Aufl.). München: Beck.
Sammer, G. (1994). Nichtlineare Dynamik im EEG: Ein weiterführender Ansatz zur Psychophysiologischen Untersuchung individueller Unterschiede? In D. Bartussek & M. Amelang (Hrsg.),
Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 131-145).
Göttingen: Hogrefe.
Sarges, W. (1994). Eignungsdiagnostische Überlegungen für den Management-Bereich. In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen
Diagnostik (S. 415-434). Göttingen: Hogrefe.
Saß, H., Wittchen, H.-U. & Zaudig, M. (1996). Diagnostisches und statistisches Manual psychischer
Störungen (DSM-IV). Göttingen: Hogrefe.
Saß, H., Wittchen, H. U., Zaudig, M. & Houben, I. (1998). Diagnostische Kriterien des Diagnostischen
und Statistischen Manuals Psychischer Störungen(DSM-IV). Göttingen: Hogrefe.
Saß, H., Wittchen, H.-U. & Zaudig, M. & Houben, I. (2003). Diagnostisches und statistisches Manual
psychischer Störungen – Textrevision – (DSM-IV.TR). Göttingen: Hogrefe.
Sartorius, N., Kaelber, C. T., Cooper, J. E., Roper, M. T., Rae, D. S., Gulbinat, W., Üstün, T. B. & Regier, D.
A. (1993). Progress toward achieving a common language in psychiatry. Results from the field
trial of the Clinical Guidelines accompanying the WHO classification of mental and behavioural disorders in ICD-10. Archives of General Psychiatry, 50, 115-124.
Saunders, D. R. (1956). Moderator variables in prediction. Educational and Psychological Measurement, 16, 209-222.
Sawyer, J. (1966). Measurement and prediction, clinical and statistical. Psychological Bulletin, 66, 178200.
Schaaf, A., Kessler, J., Grond, M. & Fink, G. R. (1992). Memo-Test. Weinheim: Beltz.
Schäfer, H. (1989). Constructing a cut-off point for a quantitative diagnostic test. Statistics in
Medicine, 8, 1381-1391.
Schallberger, U., Tewes, U. & Rossmann, P. (2001). Bemerkungen zur Rezension des HAWIK-III von
Renner und Fricke (2001) – eine Replik. Report Psychologie, 26, 478-481.
Schandry, R. (1998). Lehrbuch der Psychophysiologie. Studienausgabe. Körperliche Indikatoren
psychischen Geschehens (4. Aufl.). Weinheim: Psychologie Verlags Union.
Scheiblechner, H. (1972). Das Lernen und Lösen komplexer Denkaufgaben. Zeitschrift für experimentelle und angewandte Psychologie, 19, 476-506.
Scheiblechner, H. (1996). Item-Response-Theorie: Prozeßmodelle. In E. Erdfelder, R. Mausfeld,
Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 459-466). Weinheim:
Psychologie Verlags Union.
Scheier, M. F. & Carver, C. S. (1985). Optimism, coping, and health: Assessment and implications of
generalized outcome expectancies. Health Psychology, 4, 219-247.
Schellig, D. & Schächtele, B. (2001). Visueller und Verbaler Merkfähigkeitstest (VVM). Göttingen:
Hogrefe.
Schindler, L., Hohenberger-Sieber, E. & Halweg, K. (1990). Stundenbeurteilungsbogen für Klienten
und Therapeuten (SB-K, SB-T). In G. Hank, K. Hahlweg & N. Klann (Hrsg.), Diagnostische Verfahren für Berater. Materialien zur Diagnostik und Therapie in Ehe, Familien- und Lebensberatung (S. 331-339). Göttingen: Beltz-Test.
Schlippe, A. v. & Schweitzer, J. (2004). Lehrbuch der systemischen Therapie und Beratung
(11. Aufl.). Göttingen: Vandenhoeck &. Ruprecht.
Schmale, H. & Schmidtke, H. (1984). Berufseignungstest BET (2. Aufl., 1. Aufl. 1967). Göttingen:
Hogrefe.
Schmalt, H. D. (1976). Das LM-Gitter. Ein objektives Verfahren zur Messung des Leistungsmotivs
bei Kindern. Göttingen: Hogrefe.
Schmidt, F. L. & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology. Psychological Bulletin, 124, 262-274.
Schmidt, J. U. & König, F. (1986). Untersuchungen zur Validität der revidierten Form des Freiburger
Persönlichkeitsinventars (FPI-R). Diagnostica, 3, 197-208.
Schmidt, K. H. & Metzler, P. (1992). Wortschatztest (WST). Weinheim: Beltz.
Schmidt, L. R. (1975). Objektive Persönlichkeitsmessung in Diagnostischer und Klinischer Psychologie. Weinheim: Beltz.
Schmidt, L. R. (1995). Psychodiagnostisches Gutachten. In R. S. Jäger & F. Petermann (Hrsg.),
Psychologische Diagnostik (3., korr. Aufl., S. 468-478). Weinheim: Beltz & Psychologie Verlags
Union.
Schmidt, L. R., Häcker, H. & Schwenkmezger, P. (1985). Differentialdiagnostische Untersuchungen
mit objektiven Persönlichkeitstests und Fragebogen im psychiatrischen Bereich. Diagnostica,
31, 22-37.
Schmidt-Atzert, L. (2001). Rezension des »Leistungsmotivationsinventar (LMI)« von H. Schuler und
M. Prochaska. Zeitschrift für Arbeits- und Organisationspsychologie, 45, 142-145.
Schmidt-Atzert, L. (2002). Intelligenz-Struktur-Test 2000-R (Rezension). Zeitschrift für Personalpsychologie, 1, 50-56.
Schmidt-Atzert, L. (2004). Objektiver Leistungsmotivations Test OLMT (unter Mitarbeit von Markus
Sommer, Markus Bühner und Astrid Jurecka). Mödling: Schuhfried.
Schmidt-Atzert, L. (2004). Test d2: Aufmerksamkeits-Belastungs-Test. In G. Büttner & L. Schmidt
Atzert (Hrsg.), Diagnostik von Aufmerksamkeit und Konzentration (S. 87-101). Göttingen:
Hogrefe.
Schmidt-Atzert, L. (2005). Ergebnisse einschlägiger Evaluationsstudien. In: K. Westhoff, L. Hellfritsch, L.F. Hornke, K. Kubinger, F. Lang, H. Moosbrugger, A. Püschel & G. Reimann (Hrsg.),
Grundwissen für die berufsbezogene Eignungsbeurteilung nach DIN. 33430 (2., überarb.
Aufl., S. 225-230). Lengerich: Pabst.
Schmidt-Atzert, L. (2005). Prädiktion von Studienerfolg bei Psychologiestudenten. Psychologische
Rundschau, 56, 131-133.
Schmidt-Atzert, L. & Bühner, M. (1998). Fehlertypen im Aufmerksamkeits-Belastungs-Test d2.
Diagnostica, 44(3), 142-152.
Schmidt-Atzert, L., Bühner, M. & Enders, P. (2006). Messen Konzentrationstests Konzentration? Eine
Analyse von Konzentrationstestleistungen. Diagnostica, im Druck.
Schmidt-Atzert, L., Bühner, M., Rischen, S. & Warkentin, V. (2004). Erkennen von Simulation und
Dissimulation im Test d2. Diagnostica, 50, 124-133.
Schmidt-Atzert, L., Büttner, G. & Bühner, M. (2004). Theoretische Aspekte von Aufmerksamkeits-/
Konzentrationsdiagnostik. In G. Büttner & L. Schmidt-Atzert (Hrsg.), Diagnostik von Aufmerksamkeit und Konzentration (S. 3-22). Göttingen: Hogrefe.
Schmidt-Atzert, L., & Deter, B. (1993). Intelligenz und Ausbildungserfolg: Eine Untersuchung zur
prognostischen Validität des I-S-T 70. Zeitschrift für Arbeits- und Organisationspsychologie,
37, 52-63.
Schmidt-Atzert, L., Hommers, W. & Heß, M. (1995). Der IST 70: Eine Analyse und Neubewertung.
Diagnostica, 41, 108-130.
Schmidt-Rathjens, C., Amelang, M. & Czemmal, J. (1997). Persönlichkeit, Krebs und koronare Herzerkrankungen: Weitere empirische Evidenzen aus dem Heidelberg-Projekt. Zeitschrift für Gesundheitspsychologie, 5, 1-16.
Literaturverzeichnis
597
598
Literaturverzeichnis
Schmidt-Rathjens, C., Benz, D., van Damme, D., Feldt, K. & Amelang, M. (1997). Über zwiespältige
Erfahrungen mit Fragebögen zum Kohärenzsinn sensu Antonovsky. Diagnostica, 43, 327-346.
Schmitt, M. (1992). Interindividuelle Konsistenzunterschiede als Herausforderung für die Differentielle Psychologie. Psychologische Rundschau, 43, 30-45.
Schmolck, P. (1983). Ein einfaches Verfahren zur Optimierung empirischer Skalenkonstruktion
durch Selektion von Suppressor-Items, demonstriert an MacAndrew’s Alkoholismus Skala.
Diagnostica, 29, 203-219.
Schneewind, K. A. (1987a). Die Familienklimaskalen (FKS). In M. Cierpka (Hrsg.), Familiendiagnostik (S. 232-255). Berlin: Springer.
Schneewind, K. A. (1987b). Das »Familiendiagnostische Testsystem« (FDTS): Ein Fragebogeninventar zur Erfassung familiärer Beziehungsaspekte auf unterschiedlichen Systemebenen. In M.
Cierpka (Hrsg.), Familiendiagnostik (S. 320-342). Berlin: Springer.
Schneewind, K. A. (1991). Familienpsychologie. Stuttgart: Kohlhammer.
Schneewind, K. A. & Graf J. (1998). Der 16-Persönlichkeits-Faktoren-Test Revidierte Fassung 16
PF-R. Testmanual. Bern: Huber.
Schneewind, K. A, Schröder, G. & Cattell, R. B. (1994). Der 16-Persönlichkeitsfaktoren-Test (16 PF)
(3. Aufl.). Bern: Huber.
Schneider, R. (1982). Das Therapieprogramm der Fachklinik Furth im Wald. In R. Schneider (Hrsg.),
Stationäre Behandlung von Alkoholkranken (S. 53-134). München: Röttger.
Schneider, S. (1996). Psychische Störungen des Kindes- und Jugendalters. In J. Margraf (Hrsg.),
Lehrbuch der Verhaltenstherapie (Bd. 2, S. 337-361). Berlin: Springer.
Schneider, S., In-Albon, T. & Margraf, J. (2006). DIPS: Diagnostisches Interview bei psychischen
Störungen (3. Auflage). Berlin: Springer.
Schneider, W., Basler, H.-D. & Beisenherz, B. (1989). Fragebogen zur Messung der Psychotherapiemotivation FMP. Weinheim: Beltz.
Schorr, A. (1995). Stand und Perspektiven diagnostischer Verfahren in der Praxis. Ergebnisse einer
repräsentativen Befragung westdeutscher Psychologen. Diagnostica, 41, 3-20.
Schramm, E. (Hrsg.). (1996). Interpersonelle Psychotherapie bei Depressionen und anderen
psychischen Störungen. Therapiemanual nach Klerman, Weissman, Rounsaville & Chevron.
Stuttgart: Schattauer.
Schramm, E., Hohagen, F., Graßhoff, U. & Berger, M. (1991). Strukturiertes Interview für Schlafstörungen nach DSM-III-R. Weinheim: Beltz.
Schuerger, J. M., Zarrella, K. L. & Hotz, A. S. (1989). Factors that influence the temporal stability of
personality by questionnaire. Journal of Personality and Social Psychology, 56, 777-783.
Schuhfried, G. (o. J.). Wiener Testsystem. Mödling: Schuhfried.
Schuler, H. (1987). Assessment Center als Auswahl- und Entwicklungsinstrument: Einleitung und
Überblick. In H. Schuler & W. Stehle (Hrsg.), Assessment Center als Methode der Personalentwicklung (S. 1-35). Stuttgart: Verlag für Angewandte Psychologie.
Schuler, H. (1992). Das Multimodale Einstellungsinterview. Diagnostica, 38, 281-300.
Schuler, H., Frier, D. & Kauffmann, M. (1993). Personalauswahl im Europäischen Vergleich. Göttingen: Verlag für Angewandte Psychologie.
Schuler, H. & Funke, U. (1989). Berufseignungsdiagnostik. In E. Roth (Hrsg.), Enzyklopädie der
Psychologie, Serie III: Wirtschafts-, Organisations- und Arbeitspsychologie, Bd. 3: Organisationspsychologie (S. 281-320). Göttingen: Hogrefe.
Schuler, H., Funke, U., Moser, K. & Donat, M. (1995). Personalauswahl in Forschung und Entwicklung. Göttingen: Hogrefe.
Schuler, H. & Moser, K. (1995). Die Validität des Multimodalen Interviews. Zeitschrift für Arbeitsund Organisatonspsychologie, 39 (1), 2-12.
Schuler, H. & Prochaska, M. (1992). Ermittlung personaler Merkmale: Leistungs- und Potentialbeurteilung von Mitarbeitern. In K. H. Sonntag (Hrsg.), Personalentwicklung in Organisationen
(S. 157-186). Göttingen: Hogrefe.
Schuler, H. & Prochaska, M. (2001). LMI Leistungsmotivationsinventar. Göttingen: Hogrefe.
Schuler, H. & Schmitt, N. (1987). Multimodale Messung in der Personalpsychologie. Diagnostica,
33, 259-271.
Schuler, H. & Stehle, W. (1983). Neuere Entwicklungen des Assessment-Center-Ansatzes unter dem
Aspekt der sozialen Validität. Psychologie und Praxis – Zeitschrift für Arbeits- und Organisationspsychologie, 27, 33-44.
Schulte, D. (1976). Diagnostik in der Verhaltenstherapie. München: Urban & Schwarzenberg.
Schulte, D. (1987). Standardized treatment vs. individualized treatment (Paper presented
at the 18th annual meeting of the Society for Psychotherapy Research, June 16-20).
Ulm.
Schulte, D. (1993). Wie soll Therapieerfolg gemessen werden? Zeitschrift für Klinische Psychologie,
22, 374-392.
Schulte, D. (1996). Therapieplanung. Göttingen: Hogrefe.
Schulte, D. & Wittchen, H.-U. (1988). Wert und Nutzen klassifikatorischer Entscheidungen. Diagnostica, 34, 85-98.
Schutte, N. S., Kenrick, D. T. & Sadalla, E. K. (1985). The search for predictable settings: situational
prototypes, constraint, and behavioral variation. Journal of Personality and Social Psychology,
49, 121-128.
Schwenkmezger, P. (1984). Kann durch das Prinzip der Aggregation von Daten die Konsistenzannahme von Eigenschaften beibehalten werden? Zeitschrift für Differentielle und Diagnostische Psychologie, 5, 251-272.
Schwenkmezger, P. (1997). 16-Persönlichkeits-Faktoren-Test (16PF) (Rezension). Zeitschrift für
Differentielle und Diagnostische Psychologie, 18, 113-115.
Schwenkmezger, P., Hodapp, V. & Spielberger, C. D. (1992). Das State-Trait-Ärgerausdrucks-Inventar (STAXI). Bern: Huber.
Schwenkmezger, P. & Laux, L. (1986). Trait anxiety, worry, and emotionality in athletic competition.
In C. D. Spielberger & R. Diaz-Guerrero (Eds.), Cross-cultural anxiety (Vol. 3, pp. 65-77).
Washington, DC: Hemisphere.
Segal, D. L., Hersen, M. & Van-Hasselt, V. B. (1994). Reliability of the Structured Clinical Interview
for DSM-III-R: An evaluative review. Comprehensive Psychiatry, 35, 316-327.
Seidenstücker, G. & Baumann, U. (1987). Multimodale Diagnostik als Standard in der Klinischen
Psychologie. Diagnostica, 33, 243-258.
Selg, H. (1965). Über den Zusammenhang zwischen Schultüchtigkeit und Beliebtheit in Schulklassen. Psychologische Forschung, 28, 587-597.
Semmer, N. & Pfäfflin, M. (1978). Interaktionstraining. Ein handlungstheoretischer Ansatz zum
Training sozialer Fertigkeiten. Weinheim: Beltz.
Shepard, R. N. & Metzler, J. (1971). Mental rotation of three-dimensional objects. Science, 171,
701-703.
Sherif, M., Harvey, O. J., White, B. J., Hood, W. R. & Sherif, C. W. (1961). Ingroup conflict and cooperation: The robber’s cave experiment. Norman, OK: University of Oklahoma.
Sherman, M. (1979). Personality. New York: Pergamon.
Shneidman, E. S. (1947). Make-A-Picture-Story-Test. New York: Psychological Corporation.
Sieveking, N. A. & Chappell, J. E. (1970). Reactions to the names »counseling center« and »psychological center«. Journal of Consulting and Clinical Psychology, 34, 124-127.
Simons, H. & Möbus, C. (1976). Untersuchungen zur Fairness von Intelligenztests. Zeitschrift für
Entwicklungspsychologie und Pädagogische Psychologie, 8, 1-12.
Slovic, P., Fishhoff, B. & Lichtenstein, S. (1977). Behavioral decision theory. Annual Review of
Psychology, 28, 1-39.
Snijders, J. T. & Snijders-Oomen, N. (1991). Nicht-verbale Intelligenztestreihe SON-R. Revidierte
Neufassung. Groningen: Wolters-Noordhoff.
Sommer, G. & Fydrich, T. (1989). Soziale Unterstützung, Diagnostik, Konzepte, Fragebogen
F-SOZU. Tübingen: Deutsche Gesellschaft für Verhaltenstherapie.
Sommer, G. & Fydrich, T. (1991). Entwicklung und Überprüfung eines Fragebogens zur sozialen
Unterstützung. Diagnostica, 37, 160-178.
Sonntag, K. (1992). Ermittlung tätigkeitsbezogener Merkmale: Qualitätsanforderungen und
Voraussetzungen menschlicher Aufgabenbewältigung. In K. Sonntag (Hrsg.), Personalentwicklung in Organisationen (S. 135-155). Göttingen: Hogrefe.
Sonntag, K. & Schaper, N. (1992). Förderung beruflicher Handlungskompetenzen. In K. Sonntag
(Hrsg.), Personalentwicklung in Organisationen (S. 187-210). Göttingen: Hogrefe.
Sorembe, V. & Westhoff, K. (1985). Skala zur Erfassung der Selbstakzeptierung SESA. Göttingen:
Hogrefe.
Spangler, W. D. (1992). Validity of questionnaire and TAT measures of need for achievement: Two
meta-analyses. Psychological Bulletin, 112, 140-154.
Literaturverzeichnis
599
600
Literaturverzeichnis
Spearman, C. (1904). »General intelligence«, objectively determined and measured. American
Journal of Psychology, 15, 201-293.
Spearman, C. (1910). Correlation calculated from faulty data. British Journal of Psychology, 3,
281ff.
Spielberger, C. D., Gorsuch, R. L. & Lushene, R. E. (1970). Manual for the State-Trait-Anxiety-Inventory. Palo Alto, CA: Consulting Psychologists Press.
Spinath, F. M. (1999). Validität von Fremdbeurteilungen: Einflussfaktoren auf die Konvergenz von
Selbst- und Fremdbeurteilungen in Persönlichkeitseinschätzungen. Lengerich: Pabst Science
Publisher.
Spinath, F. M. (2000). Validität von Fremdbeurteilungen: Einflussfaktoren auf die Konvergenz von
Selbst- und Fremdbeurteilungen in Persönlichkeitseinschätzungen. Lengerich: Pabst.
Spinath, F. M. & Angleitner, A. (1995). Convergence of verbal and nonverbal personality assessment techniques. A German study using the NPQ. Bielefeld: Unpublished manuscript.
Spitznagel, A. (1964). Die diagnostische Situation. Ein Beitrag zur Theorie und Psychologie der
Datengewinnung. Habilitationsschrift, Universität Freiburg (Unveröff.).
Spitznagel, A. (1968). Die Situation als Problem der Persönlichkeitspsychologie. In K. J. Groffmann
& K. H. Wewetzer (Hrsg.), Person als Prozeß (S. 183-212). Bern: Huber.
Spitznagel, A. (1982a). Die diagnostische Situation. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 1: Grundlagen psychologischer
Diagnostik (S. 248-294). Göttingen: Hogrefe.
Spitznagel, A. (1982b). Grundlagen, Ergebnisse und Probleme von Formdeuteverfahren. In K. J.
Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik. Bd. 3: Persönlichkeitsdiagnostik (S. 186-257). Göttingen: Hogrefe.
Spitznagel, A. & Vogel, H. (1964). Formdeuteverfahren. In R. Heiss, K. J. Groffmann & L. Michel
(Hrsg.), Handbuch der Psychologie, Bd. 6: Psychologische Diagnostik (S. 556-634). Göttingen:
Hogrefe.
Spreen, O. (1963). MMPI Saarbrücken. Handbuch. Bern: Huber.
Stäcker, K.-H. (1978). Projektive und thematische Verfahren. In L. R. Schmidt (Hrsg.), Lehrbuch
der Klinischen Psychologie (S. 256-275). Stuttgart: Enke.
Stagner, R. (1977). On the reality and relevance of traits. The Journal of General Psychology, 96,
185-207.
Stangier, U. & Fydrich T. (Hrsg). (2002). Soziale Phobie, soziale Angststörungen. Göttingen: Hogrefe.
Steck, P. (1993). Gutachten. In A. Schorr (Hrsg.), Handwörterbuch der Angewandten Psychologie
(S. 320-323). Bonn: Deutscher Psychologen Verlag GmbH.
Steck, P. (1996). Die Prüfung der Dauerkonzentration mit einer Apparateversion des Pauli-Tests.
Diagnostica, 42, 332-351.
Steck, P. (1997). Psychologische Testverfahren in der Praxis: Ergebnisse einer Umfrage unter Testanwendern. Diagnostica, 43, 267-284.
Stehle, W. (1982). Die Assessment Center Methode als Methode der Auswahl von Führungskräften.
In H. Schuler & W. Stehle (Hrsg.), Psychologie in Wirtschaft und Verwaltung (S. 49-66). Stuttgart: Poeschel.
Steinberg, L. (1994). Context and serial-order effects in personality measurement: Limits on the
generality of measuring changes the measure. Journal of Personality and Social Psychology,
66, 341-349.
Steinhausen, H. C. & Aster, M. (Hrsg.). (1993). Handbuch Verhaltenstherapie und Verhaltensmedizin
bei Kindern und Jugendlichen. Weinheim: Psychologie Verlags Union.
Steller, M. & Volbert, R. (1997). Glaubwürdigkeitsbegutachtung. In M. Steller & R. Volbert (Hrsg.),
Psychologie im Strafverfahren: Ein Handbuch (S. 12-39). Bern: Huber.
Stelzl, I. (1993). Testtheoretische Modelle. In L. Tent & I. Stelzl. Pädagogisch-Psychologische Diagnostik (S. 39-202). Göttingen: Hogrefe.
Stern, W. (1911). Intelligenzproblem und Schule. Leipzig: Teubner.
Steyer, R. & Eid, M. (1993). Messen und Testen. Berlin, Heidelberg, New York: Springer.
Steyer, R., Femming, D. & Schmitt, M. (1992). States and traits in psychological assessment. European Journal of Psychological Assessment, 8, 79-98.
Steyer, R., Macjen, A.-A., Schwenkmezger, P. & Buchner, A. (1989). A latent state-trait anxiety model and its application to determine consistency and specificity coefficients. Anxiety Research,
1, 281-299.
Stieglitz, R. D. (1988). Klinische Selbst- und Fremdbeurteilungsverfahren. Diagnostica, 34, 28-57.
Stieglitz, R. D. & Baumann, U. (Hrsg.). (1994). Psychodiagnostik psychischer Störungen. Stuttgart:
Enke.
Strauß, B., Köller, O. & Möller, J. (1996). Geschlechtsrollentypologien – eine empirische Prüfung des
additiven und des balancierten Modells. Zeitschrift für Differentielle und Diagnostische
Psychologie, 17, 67-83.
Strauß, B. & Schuhmacher, J. (Hrsg.). (2005). Klinische Interviews und Ratingskalen. Göttingen:
Hogrefe.
Strehl, U. & Birbaumer, N. (1996). Verhaltensmedizinische Intervention bei Morbus Parkinson.
Weinheim: Psychologie Verlags Union.
Strelau, J. (1983). Temperament-personality-activity. London: Academic Press.
Strelau, J. (1986). Zur biologischen Determination von Persönlichkeitsdimensionen. In V. Sarris
(Hrsg.), Die Zukunft der experimentellen Psychologie (S. 195-206). Weinheim: Beltz.
Strey, B. (1993). Elterliche Kausalattributionen von Erziehungsschwierigkeiten. Dissertation, Universität Heidelberg.
Stumpf, H., Angleitner, A., Wieck T., Jackson, D. N. & Beloch-Till, H. (1985). German Personality
Research Form (PRF). Göttingen: Hogrefe.
Stumpf, H. & Fay, E. (1987). Neuere Befunde zum Schlauchfiguren-Test. Diagnostica, 33, 156-163.
Stumpf, H. & Fay, E. (1991). Zur prognostischen Validität des Tests für Medizinische Studiengänge
TMS in den Studiengängen Tier- und Zahnmedizin. Diagnostica, 37, 213-225.
Stumpf, H. & Nauels, H. U. (1990). Zur prognostischen Validität des Tests für Medizinische Studiengänge TMS im Studiengang Humanmedizin. Diagnostica, 35, 16-32.
Sturm, W. (2000). Aufgaben und Stratgien neurposychologischer Diagnostik. In W. Sturm, M. Herrmann & C. W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 265-276). Lisse, NL: Swets & Zeitlinger.
Sturm, W. & Hartje, W. (1989). Aufgaben und Untersuchungsverfahren der neuropsychologischen
Diagnostik. In K. Poeck (Hrsg.), Klinische Neuropsychologie (2. Aufl., S. 71-88). Stuttgart:
Thieme.
Sturm, W., Herrmann, M. & Wallesch, C.-W. (Hrsg.). (2000). Lehrbuch der Klinischen Neuropsychologie. Grundlagen, Methoden, Diagnostik. Lisse, NL: Swets & Zeitlinger.
Sturm, W., Willmes, K. & Horn, W. (1993). Leistungsprüfsystem 50+ LPS 50+. Göttingen: Hogrefe.
Supprian, U. (1976). Eppendorfer Stimmungs-Antriebs-Skala ESTA. Pharmakopsychiatrie, 1, 8-25.
Süß, H. M. (2001). Prädiktive Validität der Intelligenz im schulischen und außerschulischen Bereich.
In E. Stern & J. Guthke (Hrsg.), Perspektiven der Intelligenzforschung. Ein Lehrbuch für Fortgeschrittene (S. 1-27). Lengerich: Pabst.
Tack, W. H. (1976). Diagnostik als Entscheidungshilfe. In K. Pawlik (Hrsg.), Diagnose der Diagnostik.
Beiträge zur Diskussion der Psychologischen Diagnostik in der Verhaltensmodifikation (S. 103130). Stuttgart: Klett.
Tack, W. H. (1986). Reliabilitäts- und Effektfunktionen – ein Ansatz zur Zuverlässigkeit von Meßwertänderungen. Diagnostica, 32, 48-63.
Taplin, P. S. & Reid, J. B. (1972). Effects of instructional set and experimenter influence on observer
reliability. Child Development, 44, 547-554.
Tarnai, C. & Rost, J. (1990). Identifying aberrant response patterns in the Rasch model. The Q Index.
Sozialwissenschaftliche Forschungsdokumentation. Münster: Institut für sozialwissenschaftliche Forschung e.V.
Taylor, H. C. & Russell, J. T. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection: Discussion and tables. Journal of Applied Psychology, 23, 565585.
Taylor, J. A. (1953). A personality scale of manifest anxiety. Journal of Abnormal and Social
Psychology, 48, 285-290.
Taylor, R. B., DeSoto, D. B. & Lieb, R. (1979). Sharing secrets: Disclosure and discretion in dyads and
tryads. Journal of Personality and Social Psychology, 37, 1196-1203.
Tent, L. (1969). Die Auslese von Schülern für weiterführende Schulen. Göttingen: Hogrefe.
Terman, L. M. (assisted by Butterwieser, P., Ferguson, L. W., Johnson, W. B. & Wilson, D. P.). (1938).
Psychological factors in marital happiness. New York: McGraw-Hill.
Terman, L. M. & Merrill, M. A. (1960). Stanford Binet intelligence scale: Manual for the third revision.
Form L-M. Boston: Houghton-Mifflin.
Literaturverzeichnis
601
602
Literaturverzeichnis
Testkuratorium der Föderation deutscher Psychologenverbände (1986). Beschreibung der einzelnen Kriterien für die Testbeurteilung. Diagnostica, 32, 358-360.
Tewes, U. (1985). Hamburg-Wechsler-Intelligenztest für Kinder Revision 1983 HAWIK-R (2. Aufl.,
1. Aufl. 1983). Bern: Huber.
Tewes, U., Rossmann, P. & Schallberger, U. (1999). HAWIK-III: Hamburg-Wechsler-Intelligenztest für
Kinder – dritte Auflage. Bern: Huber.
Thomä, H. & Kächele, H. (2006). Lehrbuch der psychoanalytischen Therapie (3. Aufl., Bd. 1 & 2).
Berlin Heidelberg New York: Springer.
Thorndike, R. L. (1971). Concepts of culture-fairness. Journal of Educational Measurement, 8,
63-70.
Thornton, G. C., Gaugler, B. B., Rosenthal, D. & Bentson, C. (1987). Die prädiktive Validität des
Assessment Centers – eine Metaanalyse (aus dem Englischen übersetzt). In H. Schuler &
W. Stehle (Hrsg.), Assessment Center als Methode der Personalentwicklung (S. 36-60). Stuttgart: Verlag für Angewandte Psychologie.
Thornton, G. C. & Gierasch, P. F. (1980). Fakability of an empirically derived selection instrument.
Journal of Personality Assessment, 44, 48-51.
Thurner, F. & Tewes, U. (1975). Der Kinder-Angst-Test KAT. Göttingen: Hogrefe.
Thurstone, L. L. & Thurstone, T. G. (1941). Factorial studies of intelligence. Chicago, IL: University of
Chicago Press.
Tiedemann, J. (1974). Die Problematik der Schuleingangsdiagnose unter entscheidungstheoretischem Aspekt. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 6,
124-132.
Todt, E. (1966). Untersuchungen zur Vorhersage von Schulnoten. Psychologische Forschung, 29,
32-51.
Todt, E. (1971). Differentieller Interessentest (DIT) (2. Aufl.). Bern: Huber.
Toggweiler, S., Jungo, D. & Stoll, F. (2004). Der Foto-Interessentest Serie FIT 2003. Zur Erfassung
von Berufsinteressen mittels fotografischer Stimuli. Zeitschrift für Personalpsychologie, 3,
34-42.
Tönnies, S. (1986). Inventar zur Selbstkommunikation für Erwachsene ISE (2. Aufl., 1. Aufl. 1982).
Weinheim: Beltz.
Triebe, J. K. & Ulich, E. (1977). Eignungsdiagnostische Zukunftsperspektiven: Möglichkeiten einer
Neuorientierung. In J. K. Triebe & E. Ulich (Hrsg.), Beiträge zur Eignungsdiagnostik (S. 241-273).
Bern: Huber.
Trost, E. (1985). Pädagogische Diagnostik beim Hochschulzugang, dargestellt am Beispiel der Zulassung zu den medizinischen Studiengängen. In K. Ingenkamp, R. Horn & R. S. Jäger (Hrsg.),
Tests und Trends 4 (S. 41-81). Weinheim: Beltz.
Trost, G., Bickel, H., Blum, F., Christian, H. & Steinhart, J. (1980). Modellversuch »Tests für den Studiengang Pharmazie«, 1. Arbeitsbericht. Bonn: Institut für Test- und Begabungsforschung.
Trost, G., Ebnet, U., Deter, B., Fay, E. & Stumpf, H. (1978). Modellversuch »Tests für Medizinische
Studiengänge«, 1. Zwischenbericht. Bonn: Kultusministerkonferenz.
Trost, G. & v. Hayn, S. (2001). Auswahlgespräche mit Studienbewerbern. Handreichung für die
Hochschulen. Bonn: ITB. Consulting.
Tucha, O. & Lange, K. W. (2004). Turm von London – Deutsche Version (TL-D). Göttingen: Hogrefe.
Tucker, L., Damarin, F. & Messick, S. (1966). A base-free measure of change. Psychometrika, 31,
457-473.
Turner, R. B. & Horn, J. M. (1977). Personality scale and item correlates of WAIS abilities. Intelligence,
1, 281-297.
Tuschen, B. (1996). Problemanalyse. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1,
S. 179-187). Berlin, Heidelberg, New York: Springer.
Tuschen, B. & Fiegenbaum, W. (1996). Kognitive Verfahren. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 387-399). Berlin, Heidelberg, New York: Springer.
Tuschen, B. & Fliegenbaum, W. (2000). Systemimmanente kognitive Therapie. In J. Margraf (Hrsg.),
Lehrbuch der Verhaltenstherapie (S. 499-508). Heidelberg: Springer.
Tuschen, B. & Florin, I. (2002). Teufelskreis Bulimie. Göttingen: Hogrefe.
Udris, J. & Alioth, A. (1980). Fragebogen zur »Subjektiven Arbeitsanalyse« (SAA). In E. Martin,
J. Udris, U. Ackermann & K. Oegerli (Hrsg.), Monotonie in der Industrie (S. 61-68). Bern:
Huber.
Ullrich, R. & Ullrich, R. (1976a). Das Assertivitäts-Trainingsprogramm ATP. München: Pfeiffer.
Ullrich, R. & Ullrich, R. (1976b). Das Emotionalitätsinventar EMI. München: Pfeiffer.
Ullrich, R. & Ullrich, R. (1976c). Die Situationsbewertungsskala SB. München: Pfeiffer.
Ullrich, R. & Ullrich, R. (1976d). Der Unsicherheitsfragebogen UF. München: Pfeiffer.
Ullrich-deMuynck, R. & Ullrich, R. (1976). Das Assertivitäts-Trainings-Programm ATP. Einübung von
Selbstvertrauen und sozialer Kompetenz (Teil 1). München: Pfeiffer.
Ullrich-deMuynck, R. & Ullrich, R. (1977). Der Unsicherheitsfragebogen (Testmanual U). München:
Pfeiffer.
Unnewehr, S., Schneider, S. & Margraf, J. (1994). Kinder-DIPS: Diagnostisches Interview bei psychischen Störungen im Kindes- und Jugendalter. Berlin: Springer.
Urban, K. K. (1986). Hörverstehenstest für 4. bis 7. Klassen. Weinheim: Beltz.
USES (1962). Guide to the use of the General Aptitude Test Battery: Section III. Development.
Washington: Government Printing Office.
Uzgiris, I. & Hunt, J. McV. (1975). Assessment in infancy: Ordinal scales of psychological development. Urbana: University of Illinois Press.
Vagt, G. (1974). Suppressor- und Moderator-Effekte verschiedener Testeinstellungs-Variablen bei
Tests zur sprachlichen Ausdrucksfähigkeit. Dissertation, Universität Hamburg.
Vernon, P. E. (1950). The structure of human abilities. London: Methuen.
Volbert, R. (2000). Standards der psychologischen Glaubhaftigkeitsdiagnostik. In H.-L. Kröber &
M. Steller (Hrsg.), Psychologische Begutachtung im Strafverfahren - Indikationen und Qualitätsstandards (S. 113-145). Darmstadt: Steinkopff.
Vormbrock, F. & Neuser, J. (1983). Konstruktion zweier spezifischer Trait-Fragebogen zur Erfassung
von Angst in sozialen Situationen. Diagnostica, 29, 165-182.
Vroom, V. H. & Yetton, P. (1973). Leadership and decision-making. Pittsburgh: University of Pittsburgh Press.
Waadt, S., Laessle, R. G. & Pirke, K.-M. (1992). Bulimie. Ursachen und Therapie. Berlin, Heidelberg,
New York: Springer.
Wagner, H. & Baumgärtel, G. (1978). Hamburger Persönlichkeitsfragebogen für Kinder (HAPEF-K).
Handanweisung. Göttingen: Hogrefe.
Wahl, D., Weinert, F. E. & Huber, G. L. (1984). Psychologie für die Schulpraxis. München: Kösel.
Wakenhut, R. (1974). Messung gesellschaftlich-politischer Einstellungen mit Hilfe der RaschSkalierung. Bern: Huber.
Wallasch, R. (1979). Hintergrund-Interferenz-Verfahren HIV. Weinheim: Beltz.
Wallesch, C.-W. & Herrmann, M. (2000). Klinische Neurologie. In W. Sturm, M. Herrmann & C.-W.
Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden,
Diagnostik, Therapie (S. 96-125). Lisse, NL: Swets & Zeitlinger.
Walsh, E. B. & Maxey, E. J. (1972). Validity of self report and personality. Journal of Counseling
Psychology, 19, 563-564.
Watson, D. (1988). Intraindividual and interindividual analyses of positive and negative affects:
Their relation to health complaints, perceived stress and daily activities. Journal of Personality
and Social Psychology, 54, 1020-1030.
Wechsler, D. (1939). The measurement of adult intelligence. Baltimore: Williams & Wilkins.
Wechsler, D. (1958). The measurement and appraisal for adult intelligence. Baltimore: Williams &
Wilkins.
Wechsler, D. (1981). Wechsler Adult Intelligence Scale-Revised. New York: Psychological Corporation.
Weidlich, S. (1972). Diagnosticum für Cerebralschäden (DCS). Bern: Huber.
Weidlich, S. & Lamberti, G. (1993). Diagnosticum für Cerebralschädigung DCS (3. Aufl., 1. Aufl.
1972). Bern: Huber.
Weiler, C. (2000). Bildgebende Verfahren – Aktivierungsstudien mit PET und FMRT. In W. Sturm,
M. Herrmann & C. W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 204-218). Lisse, NL: Swets & Zeitlinger.
Weinert, F. E., Helmke, A. & Schneider, W. (1989). Individual differences in learning performance
and school achievement. In H. Mandl, E. de Corte, N. Bennet & H. F. Friedrich (Eds.), Learning
and instruction (pp. 461-479). Oxford: Pergamon Press.
Weinert, F. E., Helmke, A. & Schrader, F. W. (1992). Research on the model teacher and the teaching
model. In F. K. Oser, A. Dick & J. L. Patry (Eds.), Effective and responsible teaching (pp. 249-260).
San Francisco: Jossey-Bass.
Literaturverzeichnis
603
604
Literaturverzeichnis
Weinert, F. E., Schrader, F. W. & Helmke, A. (1990). Educational expertise: Closing the gap between
educational research and classroom practise. School Psychology International, 11, 1633170.
Weinstein, M. C. & Fineberg, H. V. (1980). Clinical decision analysis. Philadelphia: Saunders.
Weise, G. (1994). Gütekriterien – speziell die Objektivität – von Tests in Abhängigkeit von der Art
der Auswertung: Manuelle vs. Computerauswertung. In D. Bartussek & M. Amelang (Hrsg.),
Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 307-317).
Göttingen: Hogrefe.
Weiß, R. H. (1991). Grundintelligenztest Skala 2 – CFT 20 mit Wortschatztest und Zahlenfolgetest
(3., verb. und erw. Aufl.). Braunschweig: Westermann.
Weiß, R. H. (1997). Replik zur Rezension des CFT 20. Zeitschrift für Differentielle und Diagnostische
Psychologie, 18, 56-61.
Weiß, R. H. (1998). Grundintelligenztest Skala 2 CFT 20 mit Wortschatztest (WS) und Zahlenfolgentest (ZF) (4., überarbeitete Auflage). Göttingen: Hogrefe.
Weiss, D. J. & Davison, M. L. (1981). Test theory and methods. Annual Review of Psychology, 32,
629-658.
Weiss, L., Katzmann, M. & Wolchik, S. (1989). Bulimie. Ein Behandlungsplan. Bern: Huber.
Wellek, A. (1955). Ganzheitspsychologie und Strukturpsychologie. Bern: Huber.
Wells, G. L. & Olsen, E. A. (2003). Eyewitness testimony. Annual Review of Psychology, 54, 277295.
Wernimont, P. F. & Campbell, J. P. (1968). Signs, samples and criteria. Journal of Applied Psychology, 52, 372-376.
Westhoff, K. (1985). Erste Prüfung einer Konzentrationstheorie. Diagnostica, 31, 310-319.
Westhoff, K. (1989). Übungsabhängigkeit von Leistungen in Konzentrationstests. Diagnostica, 35,
122-130.
Westhoff, K. (1995). Aufmerksamkeit und Konzentration. In M. Amelang (Hrsg.), Enzyklopädie der
Psychologie: Bd. C VIII 2, Verhaltens- und Leistungsunterschiede (S. 375-402). Göttingen:
Hogrefe.
Westhoff, K. & Hagemeister, C. (2005). Konzentrationsdiagnostik. Lengerich: Pabst.
Westhoff, K., Hellfritsch, L. J., Hornke, L. F., Kubinger, K., Lang, F., Moosbrugger, H., Püschel, A. &
Reimann, G. (Hrsg.). (2004). Grundwissen für die berufsbezogene Eignungsbeurteilung nach
DIN 33430. Lengerich: Pabst.
Westhoff, K., Hellfritsch, L. J., Hornke, L. F., Kubinger, K., Lang, F., Moosbrugger, H., Püschel, A.,
Reimann, G. (Hrsg.). (2005). Grundwissen für die berufsbezogene Eignungsbeurteilung nach
DIN 33430 (2., überarb. Aufl.). Lengerich: Pabst.
Westhoff, K. & Kluck, M. L. (1984). Ansätze einer Theorie konzentrativer Leistungen. Diagnostica,
29, 310-319.
Westhoff, K. & Kluck, M. L. (1991). Psychologische Gutachten schreiben und beurteilen. Berlin,
Heidelberg, New York: Springer.
Westhoff, K. & Kluck, M. L. (2003). Psychologische Gutachten schreiben und beurteilen (4., vollst.
überarb. und erw. Aufl.). Berlin: Springer.
Wicklund, R. A. (1977). Selbstzentrierte Aufmerksamkeit, Selbstkonsistenz und Moralität. In
L. Montada (Hrsg.), Brennpunkte der Entwicklungspsychologie (S. 399-407). Stuttgart: Kohlhammer.
Wicklund, R. A. (1982). Self-focused attention and the validity of self-reports. In M. P. Zanna,
E. T. Higgins & C. P. Herman (Eds.), Consistency in social behavior: The Ontario Symposion
(Vol. 2). Hillsdale: Erlbaum.
Wieczerkowski, W., Bastine, R., Fittkau, B., Nickel, H., Tausch, R. & Tewes, U. (1969). Verminderung
von Angst und Neurotizismus bei Schülern durch positive Bekräftigung von Lehrern im Schulunterricht. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 1, 3-12.
Wieczerkowski, W. & Oeveste, H. Z. (1982). Zuordnungs- und Entscheidungsstrategien. In K. J.
Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (Bd. 2, Studienausgabe, S. 919-951).
Düsseldorf, Schwann.
Wietersheim, J. v., Ennulat, A., Probst, B., Wilke, E. & Feiereis, H. (1989). Konstruktion und erste
Evaluation eines Fragebogens zur sozialen Integration. Diagnostica, 35, 359-363.
Wild, K.-P. (1993). Hochbegabtendiagnostik durch Lehrer. In: D. H. Rost (Hrsg.), Lebensumweltanalyse hochbegabter Kinder (S. 236-261). Göttingen: Hogrefe.
Willerman, L., Turner, R. B. & Peterson, M. (1976). A comparison of the predicitve validity of
typical and maximal personality measures. Journal of Research in Personality, 10, 482492.
Windheuser, J. & Niketta, R. (1972). Eine deutsche Form der »Reinforcement Survey Schedule«
von Kautela und Kastenbaum. In D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie
(S. 264-272). München: Urban & Schwarzenberg.
Winett, R. A. & Roach, A. M. (1973). The effects of reinforcing academic performance on social
behavior: A brief report. Psychological Record, 23, 391-396.
Wittchen, H.-U., Pfister, H. & Garczynski, E. (1997). Composite International Diagnostic Interview
(CIDI) nach ICD-10 und DSM-IV. Göttingen: Hogrefe.
Wittchen, H.-U., Schramm, E., Zaudig, M., Spengler, P., Rummler, R. & Mombour, W. (1990). Strukturiertes Klinisches Interview für DSM-III-R. Weinheim: Beltz.
Wittchen, H.-U. & Semler, G. (1991). Composite International Diagnostic Interview (CIDI) nach ICD10 und DSM-IV. Weinheim: Beltz.
Wittchen, H.-U., Semler, G., Schramm, E. & Spengler, P. (1988). Diagnostik psychischer Störungen
mit strukturierten und standardisierten Interviews: Konzepte und Vorgehensweisen.
Diagnostica, 34, 58-84.
Wittchen, H.-U., Wunderlich, U., Gruschwitz, S. & Zaudig, M. (1997). Strukturiertes Klinisches Interview für DSM-IV, Achse-I (SKID). Göttingen: Hogrefe.
Wittchen, H.-U., Zaudig, M. & Fydrich, T. (1997). SKID-I und SKID-II. Strukturiertes Klinisches Interview
für DSM-IV. Achse I: Psychische Störungen/Achse II: Persönlichkeitsstörungen. Göttingen:
Hogrefe.
Wittchen, H.-U., Zaudig, M., Spengler, P., Mombour, W., Hiller, W., Essau, C. A., Rummler, R.,
Spitzer, R. L. & Williams, J. (1991). Wie zuverlässig ist operationalisierte Diagnostik? - Die TestRetest-Reliabilität des Strukturierten Klinischen Interviews für DSM-III-R. Zeitschrift für Klinische Psychologie, 20, 136-153.
Wittkowski, J. & Seitz, W. (2004). Praxis der verkehrspsychologischen Eignungsbegutachtung:
Eine Bestandsaufnahme unter besonderer Berücksichtigung alkoholauffälliger Kraftfahrer.
Stuttgart: Kohlhammer.
Wittmann, W. (1987). Grundlagen erfolgreicher Forschung in der Psychologie: Multimodale
Diagnostik, Multiplismus, multivariate Reliabilitäts- und Validitätstheorie. Diagnostica, 33,
209-226.
Wolff, J. (2000). BIP. Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung. Wirtschaftspsychologie, 7, 74-83.
Wollenberg, A. L. van den (1988). Testing a latent trait model. In R. Langeheine & J. Rost (Eds.),
Latent trait and latent class models (pp. 31-50). New York: Plenum.
Wolpe, J. (1958). Psychotherapy by reciprocal inhibition. Stanford: Stanford University Press.
Wolpe, J. & Lang, P. J. (1964). A Fear Survey Schedule for use in behavior therapy. Behavior Research
and Therapy, 2, 27-30.
Woodworth, R. S. (1918). Personal data sheet. Chicago: Stoelting.
Wottawa, H. (1997). Ökonomische Dimensionen psychodiagnostischen Arbeitens. Bochum:
Persönliche Mitteilung.
Wottawa, H. & Amelang, M. (1980). Einige Probleme der »Testfairness« und ihre Implikationen für
Hochschulzulassungsverfahren. Diagnostica, 26, 199-221.
Wottawa, H. & Hossiep, R. (1987). Grundlagen psychologischer Diagnostik. Göttingen: Hogrefe.
Wright, B. D. & Masters, G. N. (1982). Rating scale analysis. Chicago: MESA Press.
Wrightsman, L. S. (1974). Assumptions about human nature: A social-psychological approach.
Monterey, CA: Brooks.
Zaworka, W., Hand, I., Jauernig, G. & Lünenschloß, K. (1983). Hamburger Zwangs-Inventar HZI.
Weinheim: Beltz.
Zedeck, S. (1971). Problems with the use of »moderator« variables. Psychological Bulletin, 76,
295-310.
Zerssen, D. v. (1976a). Befindlichkeits-Skala Bf-S. Weinheim: Beltz.
Zerssen, D. v. (1976b). Depressivitäts-Skala DS. Weinheim: Beltz.
Zerssen, D. v. (1976c). Die Beschwerden-Liste (B-L). In G. Hank, K. Hahlweg, N. Klann (Hrsg.), Diagnostische Verfahren für Berater (S. 319-321). Göttingen: Beltz-Test.
Zielke, M. (1979). Kieler Änderungssensitive Symptomliste KASSL. Weinheim: Beltz.
Literaturverzeichnis
605
606
Literaturverzeichnis
Zielke, M. & Kopf-Mehnert, C. (1978). Veränderungsfragebogen des Erlebens und Verhaltens VEV.
Weinheim: Beltz.
Zimmer, D. (1989). Fragebogen zu Sexualität und Partnerschaft FSP. Materialie 19. Tübingen:
DGVT.
Zimmer, D. & Echelmeyer, L. (1978). Fragebogen zur Lebensgeschichte. Tübingen: DGVT-Verlag.
Zimmer, R. & Volkamer, M. (1984). Motorik-Test für 4 bis 6jährige Kinder MOT 4-6. Weinheim:
Beltz.
Zimmermann, P. & Fimm, B. (1993). Testbatterie zur Aufmerksamkeitsprüfung (TAP). Würselen:
Vera Fimm Psychologische Testsysteme.
Zuckerman, M., Koestner, R., DeBoy, T., Garcia, T., Maresca, B. C. & Satoris, J. M. (1988). To predict
some of the people some of the time: A reexamination of the moderator variable approach in
personality theory. Journal of Personality and Social Psychology, 54, 1006-1019.
Zuschlag, B. (1992). Das Gutachten des Sachverständigen. Göttingen Stuttgart: Verlag für Angewandte Psychologie.