Document 2723126

by user

on 15 сентября 2016

Category: Documents

>> Downloads: 176

1291

views

Report

Comments

Description

Download Document 2723126

Transcript

Document 2723126

(S.15-16)
Diagnostische Strategien
(S.8-15)
Modellannahmen: Eigenschafts- und
Verhaltensdiagnostik
(S.7-8)
Arten von Diagnostik
(S.4-7)
Aufgabenbereiche und Fragestellungen
(S.2-4)
Definition
Einleitung
1
Kapitel 1 · Einleitung
Diagnostik zur
Beratung
Diagnostik
zur Behandlung
Zielgerichtetheit von
Psychodiagnostik
Psychologische
Diagnostik
2
Definition
bestimmte unerwünschte Zustände zu beheben bzw. erwünschte Gegebenheiten zu
erhalten gilt. Eine solche Struktur liegt vor, wenn etwa ein Proband mit einer Verhaltensstörung um Hilfe bittet. Deren Erscheinungsform, Verursachung und Auslösung
müssen zunächst eingehender ergründet werden, um auf den gewonnenen Erkenntnissen dann ein geeignetes Behandlungsprogramm aufzubauen, mit dessen Hilfe
schließlich »Normalität« angestrebt wird; ob und inwieweit dieser Zustand schließlich
erreicht wird, muss durch erneute Diagnostik ermittelt werden.
In einem anderen Fall fragt vielleicht eine Abiturientin in einer Beratungsstelle danach, welche Studienrichtung oder Berufstätigkeit im Hinblick auf ihr Begabungsprofil
»richtig« bzw. optimal sei. Auch hierbei muss zunächst der Ist-Zustand geprüft und zu
einem Soll-Zustand (etwa: Erfolg im Studium oder Beruf) in Beziehung gesetzt werden.
Dies macht den Rückgriff auf bestimmte Schlussfolgerungen notwendig (7 unten).
Die Beispiele lassen sich beliebig fortsetzen. Ihre Gemeinsamkeit besteht darin, dass
spezifische Aufgabenstellungen den Einsatz eines wissenschaftlichen Instrumentariums
Ad 1. Diagnostik wird nicht etwa um ihrer selbst willen betrieben, sondern weil es
An einer solchen Konzeptualisierung gefallen 2 Aspekte:
1. die Finalität, d. h. die Zielgerichtetheit von Psychodiagnostik,
2. das weite Spektrum der in Betracht gezogenen Merkmalsträger.
Als Merkmalsträger kommen in Betracht:
4 Einzelpersonen,
4 Personengruppen,
4 Institutionen,
4 Situationen und
4 Gegenstände.
Wie viele andere Begriffe in der Psychologie so haben auch diejenigen von Diagnose
und Diagnostik ihre Wurzeln im Griechischen, wo das Verb »diagignoskein« eine kognitive Funktion mit den Bedeutungen »gründlich kennen lernen«, »entscheiden« und
»beschließen« bezeichnet.
Sieht man sich in der wissenschaftlichen Literatur nach Definitionen um, so findet
man gewöhnlich Hinweise darauf, dass es sich bei Diagnostik um eine Methodenlehre
handele, die im Dienste der Praktischen Psychologie stehe (Wellek, 1955) und das Ziel
habe, Personen richtig zu beurteilen (Dieterich, 1973) oder zu erfahren, wie sich Menschen voneinander unterscheiden (Hörmann, 1964). Sehr viel präzisere Angaben macht
Leichner (1979), wenn er die Aufgabe der Psychodiagnostik in der Ermittlung interindividueller Differenzen im Erleben und Verhalten von Personen unter standardisierten
Bedingungen sieht.
Jäger und Petermann (1992, S. 11) fassen psychologische Diagnostik als System von
Regeln, Anleitungen und Algorithmen zur Bereitstellung von Instrumenten auf, mit
deren Hilfe sowohl
4 psychologisch relevante Charakteristika von Merkmalsträgern gewonnen als auch
4 die erhobenen Daten zu einem diagnostischen Urteil integriert werden sollen, und
zwar
4 mit dem Ziel einer Vorbereitung von Entscheidungen sowie Prognosen und deren
Evaluation.
1.1
Für gegenständliche oder abstrakte Merkmalsträger, deren Beschaffenheit u. a. dadurch
diagnostiziert wird, dass Personen Urteile über ihre Wahrnehmungen und Eindrücke
liefern, gilt diese Definition sinngemäß.
Psychodiagnostik ist eine Methodenlehre im Dienste der Angewandten Psychologie. Soweit Menschen die Merkmalsträger sind, besteht ihre Aufgabe darin, interindividuelle Unterschiede im Verhalten und Erleben sowie intraindividuelle Merkmale
und Veränderungen einschließlich ihrer jeweils relevanten Bedingungen so zu erfassen, hinlänglich präzise Vorhersagen künftigen Verhaltens und Erlebens sowie deren
evtl. Veränderungen in definierten Situationen möglich werden.
Definition
Spektrum diagnostischer Problemstellungen ganz erheblich.
Namentlich bei den Bemühungen um eine Evaluation immer weiterer Bereiche in Wirtschaft, Staat und Wissenschaft müssen Verwaltungs- und Produktionsabläufe, hergestellte
Güter und erbrachte Dienstleistungen sowie deren Akzeptanz durch potenzielle Abnehmer
im weitesten Sinne bewertet werden, des Weiteren wissenschaftliche Leistungen, die Qualität von Lehrveranstaltungen usw. (also entweder materielle oder abstrakte Gegebenheiten), darüber hinaus Ereignisse und Prozesse, und zwar häufig von einem hohen Komplexitätsgrad – all dies setzt eine fundierte Bestandsaufnahme oder Diagnose voraus.
Gleichwohl werden es meist Menschen sein, die den Gegenstand psychologischer
Diagnostik ausmachen. Im Hinblick darauf ist aber an der Begriffserläuterung von
Jäger und Petermann (1992) zu kritisieren, dass sie die eher »typischen« Merkmalsausprägungen, also die Charakteristika, in den Mittelpunkt rückt und veränderungsorientierte Ansätze nicht explizit herausstellt.
Unter Berücksichtigung dieses Gesichtspunktes definieren wir Psychodiagnostik
folgendermaßen:
Ad 2. Die Generalisierung auf andere Merkmalsträger als nur Personen erweitert das
geboten erscheinen lassen, um zu einer Diagnose zu gelangen. Daran anknüpfend werden Erwägungen angestellt, welche Maßnahmen indiziert sind, um einen antizipierten
Zustand zu erreichen. Nach der Anwendung der »Behandlung« (Therapie, Training,
Platzierung, Empfehlung o. Ä.) oder auch begleitend zu ihr werden neue Informationen
im Sinne von Diagnosen gesammelt, um festzustellen, ob sich die Differenz zwischen
Ist- und Soll-Zustand im intendierten Sinne verringert hat.
Aus der Medizin ist dieses Prozedere hinlänglich bekannt; dort kommt es bei Diagnose und Diagnostik vorrangig darauf an, Krankheiten zu erkennen und sie bestimmten Ursachen zuzuordnen. Lautet bei einer Schwellung des Mittelhandknochens beispielsweise die Diagnose »Entzündung«, so mag eine Behandlung in Form des Auflegens von Eisstücken verordnet werden. Am Rückgang der Schwellung ist die Richtigkeit
der Kombination von Diagnose und Therapie ablesbar. Wären dagegen keinerlei Besserungen zu beobachten, so mag dies Anlass zu einer Revidierung der Diagnose (z. B.
im Sinne von »bösartige Geschwulst«) mit dementsprechend anderer Intervention sein
(z. B. Applikation von Kortison).
Die Finalität impliziert, dass nicht nur festgestellt wird, welche Gegebenheiten im
Augenblick vorliegen (»Was ist?«) und ggf. welche Umstände dafür maßgeblich sind
(»Was war?« bzw. »Woher?« oder »Warum?«), sondern auch, was in Zukunft geschehen
soll (»Wohin?«).
1.1 · Definition
1
Definition der Psychodiagnostik
Bewertung von Gegebenheiten, Ereignissen
und Prozessen
Was ist? Warum?
Wohin?
Diagnostik auf dem
Weg vom Ist- zum Sollzustand
3
1
Kapitel 1 · Einleitung
ABO-Psychologie
Bereitstellung von
Entscheidungshilfen
. Abb. 1.1. Das diagnostische Dreieck. (Aus Hossiep &
Wottawa, 1993, S. 132)
4
Befragung
Ψ
Anwendungen
Ψ
Organisations- Forensische
Diagnostik
Pädag.
Ψ
Ψ
Ψ
Soziale
Rahmenbedingungen
Ψ
Klinische
Entwicklungs- Ψ
Sprach-
Kognitions-
Grundlagen
Ψ
Technische
Rahmenbedingungen
Aufgabenbereiche und Fragestellungen
Nach der obigen Definition werden die Aufgabenbereiche und Fragestellungen der
Diagnostik von ihren Anwendungsbereichen bestimmt. Diese lassen sich grob gliedern
nach den Bereichen Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie, Pädagogische Psychologie und Klinische Psychologie.
Fragestellungen aus der ABO-Psychologie sind die Unterstützung der Ausbildungsund Berufswahl, Auswahl und Weiterqualifizierung von Beschäftigten, Piloten oder Füh-
1.2
Hier wie dort besteht das Ziel der Erkenntnisbemühungen darin, bei konkreten
Fragestellungen wissenschaftlich fundierte Entscheidungshilfen für unterschiedliche
Handlungs- und/oder Behandlungsmöglichkeiten bereitzustellen. Die psychologische
Diagnostik konstruiert und verwendet hierzu spezielle Verfahren, die nicht nur im
Hinblick auf ihre praktische Brauchbarkeit, sondern auch in Bezug auf ihre theoretische
Fundierung fortwährend kritisch zu überprüfen sind. Die theoretische Begründung
bedeutet den Rekurs auf die wissenschaftlichen Ergebnisse der (Gesamt-)Psychologie,
deren Stand in den einzelnen Teildisziplinen dokumentiert wird. Methoden, Anwendungen und Grundlagen konstituieren somit die 3 Seiten einer Art »Spannungsfeld, in
dem psychologische Diagnostik entsteht und fruchtbar wird« (Hossiep & Wottawa,
1993, S. 132; . Abb. 1.1).
Kulturelle
Rahmenbedingungen
Ψ
Arbeits-
Verhaltensbeobachtung
Testverfahren
Psychologische
Ψ
Ψ
Motivations-
Sozial-
Exploration Differentielle
Interview
Fragebogen
Methoden
Wirtschaftliche
Rahmenbedingungen
rungskräften, des Weiteren auch die Diagnostik von Organisationen, Institutionen und
geschäftlichen Abläufen.
Im Rahmen der Pädagogischen Psychologie geht es um die Feststellung der Schulfähigkeit, die Eignung für weiterführende Schulen und Studiengänge, Überprüfung der
Sonderschulbedürftigkeit, Erfassung der Eignung für Förder- oder Umschulungsmaßnahmen und die Überprüfung von deren Erfolg sowie um Erziehungsprobleme in
Schule und Familie.
Die Klinische Psychologie versucht mit Hilfe diagnostischer Methoden, den Verursachungsbedingungen psychischer Störungen auf die Spur zu kommen und Ansatzpunkte für Interventionsmaßnahmen zu finden. Beispiele für Fragestellungen sind
Abhängigkeiten, Depressionen, Angststörungen, psychophysiologische Störungen
(z. B. Asthma, Bluthochdruck), Essstörungen, Partnerschaftsprobleme, Störungen des
Sexualverhaltens und der Stressverarbeitung, um nur einige zu nennen.
Daneben bestehen traditionell weitere Anwendungsfelder. So gehört es beispielsweise seit langem zu den Aufgaben der Forensischen Psychologie, fundierte Aussagen
über die strafrechtliche Verantwortlichkeit eines Täters oder – im Falle von Minderjährigen – dessen Deliktfähigkeit zu machen, des Weiteren über die Glaubwürdigkeit von
Zeugen, die Geschäftsfähigkeit bestimmter Personen oder die Bewährungsprognose
von Inhaftierten für den Fall ihrer Freilassung. In jedem Fall sind spezifische diagnostische Verfahren nötig.
In der Markt- und Werbepsychologie stehen hingegen häufiger Produkte im Mittelpunkt des Interesses. So soll z. B. die Anmutungsqualität eines neuen Artikels oder
einer Anzeige ermittelt werden, um die Aussichten auf positive Wirkungen bei den
potenziellen Kunden zu optimieren. Analoge Problemstrukturen liegen mitunter in der
Ökologischen Psychologie vor, wenn es darum geht, die subjektiven Eindrücke zu
diagnostizieren, die durch Wohn-, Arbeits- und Schulumwelten bei den jeweiligen
Bewohnern hervorgerufen werden.
Im Falle der Verkehrspsychologie besteht – neben der Erfassung der Fähigkeit zum
Führen von Fahrzeugen – eine häufig wiederkehrende Problemstellung darin, Ampeln
und Schilder so zu platzieren, dass sie gut wahrgenommen werden können, und Kreuzungen und Straßen so zu gestalten, dass die Risiken von Unfällen gemindert werden.
In der Pharmakopsychologie interessieren vor allem Präparate mit ihren Haupt- und
Nebenwirkungen. In der Gesundheitspsychologie schließlich, um die Reihe von Beispielen abzuschließen, mag die Wirksamkeit eines Programmes zur Einschätzung bestimmter Medikationen oder Diäten Gegenstand diagnostischer Untersuchungen
sein.
Wie die Auflistung möglicher Beispiele gezeigt hat, handelt es sich bei den Merkmalsträgern, über die diagnostische Informationen eingeholt werden sollen, entweder
(direkt) um Individuen bzw. Gruppen von Personen, oder die Merkmalsträger bestehen
aus materiellen Substraten, Objekten mit »Dingcharakter« sowie mitunter auch aus
Prozessen in Institutionen oder sozialen Gruppen. In diesem Fall manifestieren sich
deren Wirkungen erst in der Interaktion mit Menschen. Deshalb müssen deren körperliche und – was hier mehr interessiert – psychische Korrelate in Form von Kognitionen,
Einstellungen, Emotionen und Verhaltensweisen registriert werden.
Neben Fragestellungen der geschilderten Art, die durch die Suche nach der optimalen Treatmentwahl dem Idealbild von den Aufgaben der psychologischen Diagnostik
am nächsten kommen, existiert noch durch eine Reihe völlig anderer Vorgaben oder
Motive ein gewisser gesellschaftlicher Bedarf an Diagnostik (nach Wottawa & Hossiep,
1987):
1.2 · Aufgabenbereiche und Fragestellungen
1
Pharmakopsychologie
Gesundheitspsychologie
Verkehrspsychologie
Ökologische
Psychologie
Markt- und Werbepsychologie
Forensische
Psychologie
Klinische Psychologie
Pädagogische
Psychologie
5
1
Kapitel 1 · Einleitung
Diagnostik zu
Auswahlzwecken
Diskriminierung von
Gruppen
Frühe Versuche einer
Ausdrucksdiagnostik
Mitmenschen
erzeugen Unsicherheit
Probleme der Selbstdiagnostik
Wege der Selbstdiagnostik
6
Immer wieder kommt es vor, dass verfügbare Ressourcen nicht ausreichen, um die
Nachfrage zu befriedigen. Ein Beispiel dafür mögen Studien- und Arbeitsplätze bilden.
Verwaltung von Mangelzuständen
Mitunter liefern diagnostische Informationen über einzelne oder Gruppen von Personen wie Andersgläubige, Farbige, Behinderte oder Ausländer, denen gegenüber (aus
welchen Gründen auch immer) tiefsitzende Ressentiments erlebt werden mögen,
gleichsam die Rationalisierung für die bestehenden Vorurteile. Oft genug werden die
niedrigeren Punktwerte solcher Personen in verbalen Tests (wie etwa die durchschnittlichen Minderleistungen von Schwarzen gegenüber Weißen in allgemeinen IQ-Tests)
durch die Unfairness von Tests produziert, d. h. die Resultate stellen letztlich eine Konsequenz ideologisch motivierten Wunschdenkens dar. Ungeachtet einer solchen Genese erweisen sich entsprechende Rechtfertigungen als relativ verbreitet, weil sie einen
bequemen Weg darstellen, selektiv diskriminierend zu wirken, ohne kognitive Inkonsistenz erleben zu müssen.
Wunsch nach Rechtfertigung
Seit jeher erleben Mitmenschen u. a. auch Unsicherheit dahingehend, was von ihnen
ggf. zu erwarten oder zu befürchten sei. Eine rasche und richtige Diagnose des Gegenübers stellt in diesem Zusammenhang die Voraussetzung für ein angemessenes eigenes
Verhalten dar. Schon frühzeitig sind deshalb Zeichen propagiert worden, um aus der
äußeren Beschaffenheit auf den Charakter schließen zu können (z. B. »Fuchs-« oder
»Habichtgesicht«, »Ohren wie ein Esel«, »Behaarung wie ein Tier« u. Ä.). Auch die
wissenschaftliche Fortführung in Gestalt der Phrenologie, d. h. aus der Form des Schädels auf die Ausprägung von bestimmten Sinnen zu schließen, war nicht erfolgreich.
Demgegenüber hat die Analyse von Mimik und Gestik – d. h. der dynamischen Elemente der körperlichen Erscheinung – mit dem Ziel, aus deren Deutung die Persönlichkeit zu erkennen, nicht an Bedeutung verloren. Ein Teil dieser Ausdruckspsychologie ist im Übrigen auch die Graphologie. Trotz einer Reihe einschlägiger Lehrbücher
(z. B. Lersch, 1948; Gruhle, 1948) und außerordentlich instruktiver Darstellungen von
Detailproblemen (z. B. Rohracher, 1965) handelt es sich bei der individuellen Ausgestaltung der Ausdrucksdiagnostik (soweit es also nicht nur um das richtige Verständnis
von situativen Verhaltensvarianten wie Lachen oder Weinen geht) insgesamt wohl
heute noch mehr um Intuition und persönliche Kunst als um fundierte Wissenschaft.
Bedürfnis nach Unsicherheitsreduktion
Viele Menschen interessieren sich, besonders in Zeiten krisenhafter Umstellungen in
ihrem Leben, bei denen Fragen des Warum und Wohin eine größere Rolle spielen,
besonders nachhaltig für die eigene Person, ihren Charakter, ihre Potenziale und Verhaltensgewohnheiten. Der Blick in selbstverfasste Tagebücher mag dabei hilfreich sein;
objektiveren Aufschluss aber dürften i. Allg. Gespräche mit Außenstehenden über das
Selbst liefern. Großer Beliebtheit erfreuen sich in diesem Zusammenhang die mehr
oder weniger ausgearbeiteten Tests in Publikationen der verschiedensten Art. Ein nicht
geringes Problem besteht bei der Selbstdiagnostik darin, dass selbst unter Verwendung
brauchbarer Verfahren ein Verständnis für die psychologischen Fachtermini zur Bezeichnung einzelner Konstrukte nicht garantiert werden kann und es offen bleibt, welche Schlussfolgerungen die betreffende Person schließlich aus ihrer Diagnose für sich
zieht.
Streben nach Selbsterkenntnis
Arten von Diagnostik
Bedingungsselektion
(= Eignungsdiagnostik)
(= Konkurrenzauslese)
Selektionsdiagnostik
Institutionell
Personenselektion
häufig
ABO- und
Pädagogische
Psychologie
häufig
Klinische
Psychologie
Verhaltensmodifikation
Bedingungsmodifikation
Modifikationsdiagnostik
Individuell
Arten von Diagnostik
Die bereits auf den ersten Blick sehr differenzierenden Anwendungsfelder unterscheiden sich auch systematisch nach der Art der dort zum Einsatz kommenden Diagnostik.
Im Bereich der ABO- und pädagogischen Psychologie handelt es sich vorwiegend um
sog. institutionelle Diagnostik, die nach Cronbach und Gleser (1965) in Institutionen
mit häufig wiederkehrenden gleichbleibenden Fragestellungen praktiziert wird, während individuelle Diagnostik vor allem in der klinischen Psychologie betrieben wird,
wo sehr spezielle und häufig wechselnde Problemstellungen dominieren (. Abb. 1.2).
Institutionelle Diagnostik ist primär Selektionsdiagnostik. Als Personenselektion
(Pawlik, 1976) will sie geeignete Personen für bestimmte Anforderungen (Arbeitsplatz,
Schulart, Studienfach) ermitteln. Als Bedingungsselektion versucht sie, geeignete Bedingungen auszuwählen, unter denen eine Person mit bestimmten Eignungsmerk-
1.3
In diesen Fällen scheint es so zu sein, als ob die Verteilung der knappen Güter auf der
Basis von psychodiagnostischen Informationen von der öffentlichen Meinung eher
akzeptiert würde, weil als »gerechter« empfunden, als wenn nach Zufall, Anciennität
oder Vorleistungen entschieden wird. Für Hossiep und Wottawa (1993, S. 135) benötigen gerade demokratische Gesellschaften rationale, nach wissenschaftlichen Methoden
entwickelte Selektionsverfahren für verantwortungsvolle Positionen; mit Hinweis auf
Hersch (1974) sei leistungsbezogene Selektion daher »kein Gegensatz, sondern die
Grundlage einer funktionierenden Demokratie«. Oft läuft die Frage eines Einsatzes von
Tests in diesem Zusammenhang auf die Frage hinaus, ob der Nutzen (im Sinne einer
Verbesserung der Prognose) und der Gewinn an Prestige (durch das Einsetzen einer
auf rationalen Prinzipien aufbauenden Technik) die Kosten (in Einheiten von Geld,
Zeit, Mühen, Einschränkung von Gleichheitsidealen u. Ä.) aufwiegen.
1.3 · Arten von Diagnostik
1
. Abb. 1.2. Verschiedene
Arten psychologischer Diagnostik
Selektion von Personen oder Bedingungen
Diagnostik: Institutionell oder individuell
Kosten und Nutzen
7
1
Kapitel 1 · Einleitung
Eigenschaften werden
aus beobachtbarem
Verhalten erschlossen
Eigenschaften (»traits«)
stellen hypothetische
Konstrukte dar
Verhalten wird als veränderbar angesehen
Eigenschaften werden
als stabil angesehen
Modifikation von
Verhalten oder
Bedingungen
8
Modellannahmen: Eigenschafts- und Verhaltensdiagnostik
(alles konkrete Verhaltensweisen!), dann »denken« wir wahrscheinlich an die nicht
direkt beobachtbare Eigenschaft »Aggressivität«. Mit anderen Worten: Wir ordnen sehr
verschiedene Verhaltensweisen, die vom Ablauf und den beteiligten Körperteilen nur
wenig miteinander zu tun haben mögen, nach bestimmten Gesichtspunkten zu Kategorien oder Klassen, welche nach unserem Dafürhalten etwas gemeinsam haben. Des
Weiteren bezeichnen wir die so gebildeten Kategorien mit Eigenschaftsnamen und
nehmen innerhalb der Kategorien eine mehr oder weniger explizite Skalierung nach
Eine Selektionsdiagnostik, die Personen aufgrund von Eignungsmerkmalen akzeptiert oder ablehnt bzw. bestimmten Arbeitsplätzen zuweist, geht davon aus, dass sich
Personen hinsichtlich ihrer eignungsrelevanten Eigenschaften miteinander vergleichen
lassen. Die fraglichen Eigenschaften, deren Genese von eher sekundärem Interesse ist,
werden als über die Zeit hinweg relativ stabil und situationsinvariant angesehen, sodass
die Diagnose ihres Ausprägungsgrades in gewisser Weise die Fortschreibung eines IstZustandes erlaubt und somit Prognosen auf zukünftiges Verhalten zulässt. Der situationale Kontext spielt dabei eine untergeordnete Rolle.
Im Gegensatz hierzu geht eine Modifikationsdiagnostik davon aus, dass Verhalten
erlernt und damit prinzipiell veränderbar ist und in Abhängigkeit von seinem situationalen Kontext variiert. Dementsprechend richtet sich das Interesse stärker auf Situationen, die ein Verhalten bedingen und aufrechterhalten, des Weiteren auf intrapsychische
Veränderungen sowie auf Ansatzpunkte, um ein Problemverhalten zu modifizieren.
Diese verschiedenen, hier nur grob umrissenen diagnostischen Strategien und Zielsetzungen rekurrieren dabei auf 2 grundsätzlich verschiedene Modelle oder Prinzipien,
die mit Eigenschafts- bzw. Verhaltensdiagnostik bezeichnet werden.
Die grundlegende Annahme eigenschaftstheoretischer Konzepte besteht darin,
dass sich das Erleben und Verhalten von Menschen in Form von Eigenschaften (»traits«)
beschreiben lässt. Diese werden aufgefasst als »relativ breite und zeitlich stabile Dispositionen zu bestimmten Verhaltensweisen, die konsistent in verschiedenen Situationen
auftreten« (Amelang & Bartussek, 1990, S. 61 ff.). Eigenschaften sind nicht direkt beobachtbar. Sie stellen hypothetische, gedankliche, konstruierte Gebilde dar, somit Konstrukte, die aus direkt beobachtbaren Verhaltensäußerungen nur erschlossen werden.
Wenn wir beispielsweise beobachten, wie ein Kind
4 einem Huhn die Federn ausreißt,
4 sein Spielzeug zerstört,
4 einen Kameraden schlägt und
4 einer erwachsenen Person Schimpfworte nachruft
1.4
malen erfolgreich sein kann (Platzierung von Bewerbern auf geeignete Arbeitsplätze,
Berufsempfehlung).
Individuelle Diagnostik im Rahmen klinisch-psychologischer Fragestellungen ist
dagegen vornehmlich Modifikationsdiagnostik. Sie soll entweder ermitteln, welche
spezifischen Verhaltensweisen einer Person verändert werden müssen (Verhaltensmodifikation; z. B. Modifikation aggressiven Verhaltens bei Erziehungsschwierigkeiten)
oder welche externen Bedingungen zu ändern sind (Bedingungsmodifikation; z. B. im
Rahmen einer Familientherapie bei Erziehungsschwierigkeiten), um ein Problemverhalten abzubauen.
Häufigkeits- und Intensitätsgesichtspunkten vor: Wer viele der fraglichen Verhaltensweisen und/oder diese in stärkerer Penetranz zeigt, »hat« eine stärkere Ausprägung auf
der »dahinterstehenden«, von uns nur gedachten Eigenschaftsdimension.
Die Zusammenfassung der jeweiligen Verhaltensweisen in den besagten Kategorien
erfolgt aus Gründen der Ökonomie: Um jemanden zu charakterisieren, bedarf es nicht
mehr des Auflistens zahlreicher einzelner Verhaltensweisen, sondern es genügt die
Nennung des betreffenden Attributes.
Die Verhaltensweisen haben für die Eigenschaften die Funktion von Indikatoren,
d. h., sie stehen dazu in einem Verhältnis wie Zeichen zu Bezeichnetem. (Da aber das
Indizierte nur aus den Indikatoren erschlossen wird, wäre es unzulässig, das Erste als
ursächlich für das Zweite anzusehen, etwa nach dem Prinzip: Der Täter hat gestohlen,
weil er ein Dieb ist, oder ein Mitmensch raucht, weil er ein Raucher ist, usw. Ein derartiger Schluss wäre tautologisch, denn in einem solchen Fall würde dasjenige, was aus
Verhaltensweisen nur erschlossen wird, zur Ursache eben dessen gemacht, was die
Grundlage der Schlussfolgerung ist.)
Nach der eigenschaftstheoretischen Konzeption von Persönlichkeit besteht der
zweckmäßigste Weg zur Vorhersage des künftigen Verhaltens von Personen darin,
deren Eigenschaften im Zuge psychodiagnostischer Bemühungen genau zu erfassen.
Aus der zentralen Annahme der transsituativen Konsistenz des Verhaltens resultiert die
Vorhersage, dass sich eine Person gemäß ihrer Eigenschaftsausprägungen verhält, und
zwar relativ unbeeinflusst vom jeweiligen situativen Kontext. Ein relativ hoher Punktwert in einem Ängstlichkeitstest spräche dafür, dass der betreffende Proband die Eigenschaft aufweist, ängstlich zu sein. Aus diesem Ergebnis lässt sich prognostizieren, dass
er auch unter bestimmten anderen, im Test nicht notwendigerweise erfassten Umständen »ängstlich« reagieren wird, also z. B. vor einem wilden Tier weglaufen oder nicht
von einem 10-m-Turm ins Schwimmbecken springen wird (. Abb. 1.3).
Diesen Modellvorstellungen liegt somit eine Art Analogieschluss zugrunde, was die
Inferenz von den Indikatoren der Prädiktorvariablen auf das angeht, was als Kriterium
diagnostiziert und prognostiziert werden soll. Für diese Schlussfolgerung bedarf es
(zunächst) nicht der Voraussetzung, dass ein Zusammenhang zwischen Test und Kri-
1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik
1
. Abb. 1.3. Eigenschaftsdiagnostik ist z. B. dort relevant, wo nicht alle kritischen
Situationen simuliert werden können
Prinzip des Analogieschlusses
Schlussfolgerung aus
Eigenschaften auf
zukünftiges Verhalten
Verhaltensweisen
fungieren als Indikatoren für Eigenschaften
9
1
Kapitel 1 · Einleitung
Normorientierte
Messung als Bezugsrahmen: Vergleich mit
einer Population
Validierung von Tests
für verschiedene
Personengruppen
Indikatoren müssen
repräsentativ sein
Vorhersagen für
bedeutungsvolle
Situationen gewünscht
10
terium empirisch nachgewiesen ist (wenngleich sich die Zweckmäßigkeit des Schlusses
auf Dauer durch entsprechende Evidenzen erweisen sollte). In verschiedenen Bereichen
von Gesellschaft und Wirtschaft wurden denn auch seit alters her immer wieder Vorhersagen auf der Basis dieses Modells angestellt, obwohl entweder aus prinzipiellen
Gründen oder nur vorläufig und vorübergehend der unterstellte Zusammenhang empirisch (noch) nicht aufgezeigt werden konnte. Beispiele dafür mögen jene Fälle liefern,
in denen für kaum simulierbare Aufgaben (wie z. B. dem Verhalten von Kontrollpersonal bei unerwarteten Störungen eines Kernkraftwerkes) gleichwohl die vermutlich
bestgeeigneten Personen ausgewählt werden müssen und es sehr lange dauern kann,
bis später einmal – wenn überhaupt – irgendwelche »Bewährungsmaße« anfallen.
Das allgemeine Kennzeichen einer derartigen Konstellation besteht darin, Vorhersagen für bedeutungsvolle Situationen machen zu müssen, für die aber die im Alltag
anfallenden Beobachtungsgelegenheiten nur eine unzureichende Basis liefern (7 Abschn. 1.6). Solche Gelegenheiten bestanden etwa bei den Prüfungen für Anwärter auf
Staatsposten im alten China oder bei der Auswahl von Beamten in England für den
Dienst in den Kolonien. Auch die weithin gebräuchliche Verwendung von Biografien,
Schulnoten und Intelligenzpunktwerten als geradezu universellen Orientierungsgrößen für den »allgemeinen Berufserfolg« beruht primär auf diesem Analogieschluss.
Die zur Messung der jeweiligen Eigenschaft herangezogenen Aufgaben bzw. die in
ihnen thematisierten Verhaltenstrends (z. B. »Gehen Sie gern auf Parties?«, »Übernehmen Sie bei gemeinsamen Aktionen gern die Führung?« usw.) müssen repräsentativ
für die interessierende Eigenschaft sein. Inwieweit dieses Kriterium bei der Entwicklung von Tests dann auch erfolgreich eingehalten worden ist, erweist sich an der empirisch zu überprüfenden Validität eines Verfahrens (7 dazu unten): Hier wird – zwar
durchaus unterschiedlich im Fall einzelner Skalen, aber doch in einer prinzipiell stets
gleichen Vorgehensweise – festgestellt, inwieweit die eigenschaftstheoretischen Werte
der Testung mit Einschätzungen derselben Eigenschaft von anderer Seite (z. B. Lehrer,
Vorgesetzte, Kameraden usw.) oder mit gänzlich anderen Indikatoren für die Eigenschaftsausprägungen, etwa aus objektiven Verhaltensmanifestationen (wie Krankheiten, Unfälle, berufliche Position und dergleichen), übereinstimmen.
Diese Validierung mag dann entweder eine Verrechnungsvorschrift für die diagnostischen Indikatoren (z. B. Subtests einer Batterie von Skalen) ergeben, die – im Hinblick
auf einen maximalen korrelativen Zusammenhang mit dem Kriterium – für alle Personen gleich ist. In einem solchen Fall mögen zwar die einzeln erfassten Variablen in
multiplen Korrelationen unterschiedliche Gewichtungsfaktoren erhalten; diese Gewichtungsfaktoren gelten dann aber für alle Personen bzw. Personengruppen. Unterschiede in den verrechneten Testergebnissen für einzelne Personen beruhen dann allein
auf interindividuellen Unterschieden in der gemessenen Ausprägung der diagnostizierten Merkmale. Oder es müssen Subgruppen von Personen voneinander unterschieden
werden, für die verschiedene Verrechnungsvorschriften gelten (d. h. gemäß der Gruppenzugehörigkeit verschiedene Gewichtungsfaktoren für die einzelnen Variablen in
multiplen Korrelationen), weil aufgrund psychologischer Faktoren die Funktionalität
der einzelnen Eigenschaften variiert. Dies ist beispielsweise für die sog. »over-« und
»underachiever«, erfolgs- und misserfolgsorientierte Probanden, Personen mit unterschiedlichen Lebenserfahrungen und Temperamenten der Fall (7 dazu ausführlicher
Abschn. 7.2).
Ungeachtet solcher Konsequenzen eines empirischen Aufzeigens des korrelativen
Zusammenhanges zwischen Index und Indiziertem (Test und Kriterium) ist der Bezugsrahmen der eigenschaftstheoretischen Vorgehensweise die normorientierte Mes-
Einer solchen Begriffsumschreibung gemäß ist beim Versuch, die Persönlichkeit zu
beschreiben und ihr Verhalten vorherzusagen, weniger nach »signs« (Indikatoren, Anzeichen) für den Charakter als mehr nach einem repräsentativen »sample« (Stichproben, Beispiele) von Verhaltensweisen zu suchen (die Unterscheidung zwischen Zeichen- und Stichprobenfunktion von Items geht auf Goodenough, 1949, zurück). Im
Gegensatz zur herkömmlichen Messung von Eigenschaften bestehen die Tests der verhaltenstheoretischen Schule demnach aus Stichproben des vorherzusagenden (Kriteriums-)Verhaltens selbst (. Abb. 1.4).
! Die Persönlichkeit ist lediglich eine »intervenierende Variable, die definiert ist durch
die Wahrscheinlichkeit, mit der eine Person bestimmte Verhaltenstendenzen in einer
Reihe von Situationen ihres täglichen Lebens manifestiert« (Goldfried & Kent, 1976,
S. 9).
Nicht was eine Person an Eigenschaften im Sinne der Traitansätze »hat« oder von was
sie, etwa im Sinne der psychodynamischen Betrachtungsweise, »getrieben« wird, steht
im Vordergrund des Interesses verhaltenstheoretischer Analysen, sondern was diese
Person in verschiedenen Situationen »tut« (nach Mischel, 1968, S. 10).
! »The best predictor of future performance is past performance« (Wernimont & Campbell, 1968, S. 372).
sung: Zwischen den einzelnen Verhaltensweisen werden je nach Auftretenshäufigkeit
oder -intensität quantitative Abstufungen getroffen. Die individuellen Messwerte stehen so für die jeweilige Ausprägung in der betreffenden Dimension im Vergleich zur
Population.
Aus der Kenntnis und dem Verständnis der Eigenschaften (als den »grundlegenden
Strukturmerkmalen«) leitet somit der trait-orientierte Diagnostiker die Erwartung ab,
späteres Verhalten vorhersagen zu können.
Demgegenüber wählen Verhaltenstheoretiker einen sehr pragmatischen und direkteren Zugang, indem sie aus konkret beobachtetem Verhalten auch nur dieses vorhersagen wollen:
1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik
1
. Abb. 1.4. Aus Beobachtungen von Verhaltensweisen in »kritischen« Situationen kann man auf zukünftiges Verhalten in ähnlichen
Situationen schließen
Verhaltenstheoretischer Ansatz
11
1
Kapitel 1 · Einleitung
Inhaltsvalidität wichtig
Prinzip des Induktionsschlusses
12
realisiert werden, die repräsentativ für Angstinduktion sind. Entsprechend spielt das
Konzept der Inhaltsvalidität für verhaltenstheoretische Tests eine wichtige Rolle (zu den
Details s. Schulte, 1976; Pawlik, 1976).
Als besonders fruchtbar hat sich der verhaltenstheoretische Ansatz bei der Modifikation von Verhaltensweisen erwiesen. Die eigenschaftsorientierte Diagnostik verfolgt
als Hauptziel eine Klassifikation von Personen gemäß ihrer Messwerte in taxonomische
Anders gelagert sind die Verhältnisse bei der verhaltenstheoretisch beeinflussten Gewinnung von Informationen über den Einzelnen. Hier wird nach Möglichkeit eine »angemessene Repräsentation von Reizsituationen« (Goldfried & Kent, 1976) hergestellt.
Für die Messung von Angst bedeutet das z. B., dass solche Stimulationsbedingungen
mit Hilfe von
4 Filmen,
4 Dias oder
4 verbalen Beschreibungen
Bestimmte Deutungen im Rorschach-Test gelten als Indikatoren für Angst. Wenn ein
Proband im Thematischen Apperzeptionstest Geschichten liefert, in denen böse
Mitmenschen dem »Helden« Schaden zufügen, dieser vom Pech verfolgt ist, zaudert
oder starke Aggressionen zeigt, wird man auch dieses als Zeichen seiner habituellen
Ängstlichkeit werten. Der Rückschluss auf die Ausprägung in der Dimension »Ängstlichkeit« soll sodann über das Verständnis der Personen hinaus eine Vorhersage von
deren zukünftigem Verhalten gewährleisten. Eine solche Prognose ist u. a. belastet
durch die Unsicherheit der Beziehung zwischen Index und Indiziertem; denn dass
die Antwort »Blut« auf Angst hinweist, die Deutung einer weißen Fläche eine negativistische Haltung indiziert (s. Hörmann, 1964), muss noch durch gesonderte Validitätsstudien erwiesen werden.
Beispiel
Beispiele dafür sind z. B. Farbtüchtigkeitsbestimmungen (bei denen die Probanden
unterschiedliche Farben gleicher Helligkeit erkennen müssen) oder die Prüfung von
Kenntnissen der Straßenverkehrsgesetze (wo in den theoretischen Prüfungen zur Erlangung der Fahrerlaubnis die Kandidaten zu gezeichneten oder geschilderten Szenarien aus dem Verkehrsgeschehen Stellung nehmen sollen). Des Weiteren lässt man die
geforderte Tätigkeit auch direkt ausüben, wie z. B. in der praktischen Führerscheinprüfung ein Fahrzeug bewegen oder bei der Entscheidung über die Besetzung einer
Schreibkraftstelle die Bewerber während einer Zeit schreiben, um dabei Geschwindigkeit und Richtigkeit der Arbeitsleistung beobachten zu können.
Der Schluss ist dabei ein solcher der Induktion, d. h. es wird davon ausgegangen,
dass das hier und jetzt (= speziell) gezeigte Verhalten auch zu anderen Anlässen
(= allgemein) auftritt. Zwar ist dieser Schluss nicht logisch zwingend, doch wird man
in zahlreichen Fällen auf die Verlässlichkeit eines solchen Vorgehens bauen dürfen.
Da es mitunter unökonomisch und langwierig ist, Beobachtungen in natürlichen
Situationen anzustellen, werden diese gewöhnlich in der experimentellen Anordnung
des Rollenspiels »nachgestellt«. Gebräuchlich ist auch die Auswertung von verbalen
Äußerungen des Individuums über seine Reaktionsweisen in spezifischer Umgebung.
Ein Beispiel für den eigenschaftstheoretischen Ansatz soll das eben Ausgeführte
veranschaulichen:
Zur Untersuchung des individuellen »Belohnungsaufschubs« (»delay of gratification«)
muss sich der Proband zwischen einem weniger wertvollen Gegenstand, der sofort erhältlich ist, und einem wertvolleren, der aber erst nach Ablauf einer Zeit zur Verfügung
steht, entscheiden. Von den in der Testsituation mit ganz verschiedenen Objekten realisierten Entscheidungen (z. B. 5 DM jetzt gegenüber 10 DM in 2 Wochen) wird angenommen, dass sie in derselben Weise auch außerhalb der Untersuchungssituation erfolgen würden.
Sehr verbreitet ist die Technik des »behavior sampling«, und zwar vor allem in der
Klinischen Psychologie. Dort stellt häufig das Personal einer therapeutischen Institution
im Hinblick auf die Behandlung eingehende Verhaltensbeobachtungen an.
Einige Beispiele für verhaltenstheoretische Methoden
und anderen Quellen.
Der damit verfolgte Ansatz geht davon aus, »dass eine Beschreibung des problematischen Verhaltens, seiner kontrollierenden Bedingungen und der Mittel, durch die es
geändert werden kann, die angemessensten ›Erklärungen‹ für das Verhalten … sind«
(Kanfer & Saslow, 1976, S. 35).
Sofern das Verhalten selbst die Grundlage von Verhaltensvorhersagen ist, verfügen
verhaltenstheoretische (und damit behavioristische) Methoden über einige offenkundige Vorzüge: Absichtliche oder unabsichtliche Verfälschungen sind weniger wahrscheinlich, da es schwerer fallen dürfte, das Verhalten selbst und nicht nur einen Bericht
darüber zu verfälschen. Ferner ergibt sich in geringerem Maße als bei den eigenschaftsorientierten Messungen die Frage nach der Fairness von Tests (s. dazu Möbus, 1978;
Wottawa & Amelang, 1980; Bartussek, 1982). Schließlich ist auch der zunehmend kritisch beurteilte Gesichtspunkt einer Wahrung der persönlichen Intimität und individuellen »Privatheit« (Kruse, 1980) weniger akut, da nicht in die »Tiefen« einer Person
eingedrungen wird (s. Sherman, 1979, S. 238/39).
Die Informationen für die funktionale Verhaltensanalyse werden gewonnen aus
4 Interviews mit dem Probanden oder Patienten selbst sowie Bekannten der zu diagnostizierenden Person,
4 Testergebnissen und Verhaltensbeobachtungen,
4 einer Erkundung der Vorgeschichte des Klienten
Einheiten (wie z. B. »Schizophrenie«, »Paranoia« und dergleichen), woraus aber noch
keinerlei Handlungsanweisungen für eine Beeinflussung des Verhaltens resultieren.
Dagegen liefert der lerntheoretische Ansatz Informationen, die aufgrund ihrer höheren
Spezifität und Situationsbezogenheit wesentlich mehr Bedeutung für jegliche Intervention besitzen. Das zentrale Instrument zur Erfassung der situativen Faktoren, die das
Verhalten kontrollieren und hervorbringen, stellt dabei die funktionale Analyse (Kanfer
& Saslow, 1976, S. 34 ff.) dar. Inzwischen gehört diese Methode zum Standardrepertoire
jeder lerntheoretisch betriebenen Therapie. Sie beinhaltet eine Untersuchung
4 des Kontextes, in dem ein kritisches Verhalten (z. B. Bettnässen) auftritt,
4 der Qualität und Intensität des kritischen Verhaltens,
4 der Folgen des Verhaltens für den Betreffenden und seine Umwelt,
4 der Möglichkeiten der Person und ihrer Umwelt für eine Modifikation und schließlich
4 der möglichen Rückwirkungen einer Verhaltensänderung auf den Betreffenden und
seine Umwelt.
1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik
1
»Behavior sampling«
in der Klinischen
Psychologie
Vorzüge des verhaltenstheoretischen
Ansatzes
Funktionale Verhaltensanalyse
Lerntheoretischer
Ansatz
13
1
Kapitel 1 · Einleitung
Fragebogen
Rollenspiel
. Abb. 1.5. Auszug aus
dem »Fear Survey Schedule
FSS« und dem »Rathus Assertiveness Schedule RAS«
Beispiel für
Fragebogen
14
Verschiedene Hilfsmittel erleichtern dabei die Registrierung von Häufigkeit und
Dauer der interessierenden Verhaltenskategorien (z. B. Sitzen, Gehen, Lachen, Reden
usw.). In aller Regel werden die gebildeten Klassen möglichst »verrichtungsnah« definiert, um die externen Beobachter hinsichtlich der von ihnen geforderten Kategorisierungsleistungen nicht zu überfordern, oder um nicht mehr als unvermeidlich subjektive Momente einfließen zu lassen.
Eine weitere Variante zur Gewinnung von verhaltenstheoretisch relevanten Informationen stellt das Rollenspiel dar. Im Allgemeinen wird darauf zurückgegriffen, um
in kurzer Zeit Anhaltspunkte über Verhalten in Situationen zu gewinnen, für die selten
Gelegenheit zur Beobachtung besteht (z. B. Interaktionen zwischen Ehepartnern unter
bestimmten Stressbedingungen).
Was selbstbeobachtetes Verhalten angeht, so sind auch vor dem Hintergrund der
Verhaltenstheorien zahlreiche Fragebogen entstanden. Einige beschäftigen sich mit
dem Angstgehalt verschiedener Situationen. Eine besonders große Verbreitung im
klinischen Bereich hat das von Wolpe und Lang (1964) publizierte »Fear Survey Schedule (FSS)« erfahren (. Abb. 1.5).
Die Grundprinzipien der oben dargelegten Modellvorstellungen zusammenfassend,
stellt sich der Zusammenhang zwischen Prädiktoren und Kriterien (Indikatoren und
Indiziertem sensu Wottawa & Hossiep, 1987) wie in . Abb. 1.6 grafisch veranschaulicht
dar.
Fear Survey Schedule (FSS)
»Die Stichworte in diesem Fragebogen beziehen sich auf Dinge und Erfahrungen, die Angst
oder unangenehme Gefühle hervorrufen können. Machen Sie bitte für alle Stichworte jeweils
an der Stelle der Punkteskala ein Kreuz, die am besten den Grad Ihrer zurzeit bestehenden
Angst beschreibt.«
gar
ein
deutsehr
nicht
wenig
lich
stark
stark
Würmer
Tote Tiere
Leute mit Missbildungen
Eine Straße überqueren
Weite offene Räume
Laute Stimmen
Einem Kampf zusehen
Menschliches Blut
Bei einer Operation zusehen
(Aus Schulte, 1976, S. 256)
Rathus Assertiveness Schedule (RAS)
Geben Sie an, wie charakteristisch jede der nachfolgenden Fragestellungen für Sie ist.
+ 3 sehr charakteristisch, sehr zutreffen
⯗
– 3 sehr uncharakteristisch, sehr unzutreffend
»Die meisten Leute sind aggressiver und zeigen mehr Durchsetzungsvermögen als ich.«
»Wenn ich um etwas gebeten werde, bestehe ich darauf, zu erfahren, warum.«
»Über schlechten Service im Restaurant oder woanders beschwere ich mich.«
(Nach Rathus & Nenid, 1977, S. 137–139)
Beispiel
Diagnostische Strategien
Pawlik (1976, S. 23) hat die unterschiedlichen Dimensionen und Zielsetzungen, die mit
den genannten Modellannahmen verbunden sind, in einer Übersicht zusammengefasst
(. Tab. 1.1).
Nach seiner Analyse lassen sich selektionsorientierte Eigenschaftsdiagnostik und
verhaltensbezogene Modifikationsdiagnostik relativ gut voneinander abheben und
halbwegs eindeutig unterschiedlichen psychologischen Arbeitsfeldern zuordnen.
! Modifikationsdiagnostik ist folglich kriteriumsorientierte Prozessdiagnostik.
Modifikationsdiagnostik muss nach ihrem Selbstverständnis dagegen Prozessdiagnostik sein und Veränderungen des Verhaltens durch wiederholte Untersuchungen zu erfassen suchen. Die Annahme einer situativen Abhängigkeit des Verhaltens verbietet die
Beschränkung des diagnostischen Prozesses auf eine begrenzte Verhaltensstichprobe. Sie
erfordert statt dessen eine systematische Inventarisierung des gesamten für die Fragestellung relevanten Verhaltensrepertoires zur Erfassung situationsbedingter Variationen.
Aber nicht Differenzen zu einer Vergleichsnorm, sondern die Distanz zu einem definierten Kriterium bestimmen Beginn und Ende von Interventionsmaßnahmen.
! Selektionsdiagnostik ist somit normorientierte Statusdiagnostik zur Schätzung des
Ausprägungsgrades von Eigenschaften.
Aus den im vorangegangenen Kapitel dargelegten unterschiedlichen Modellannahmen von Eigenschafts- und Verhaltensdiagnostik resultieren nach Pawlik (1976) auch
unterschiedliche diagnostische Strategien: Selektionsdiagnostik kann sich als Statusdiagnostik auf die einmalige Feststellung eines Ist-Zustandes beschränken, da zeitstabile Eigenschaften Prognosen bereits nach einmaliger Messung ermöglichen. Die Testuntersuchung liefert anhand einer Stichprobe von Testitems einen Schätzwert der
selektionsrelevanten Eigenschaft. Ihr Ausprägungsgrad soll in Relation zu einer Vergleichsnorm Handhabe für geeignete Entscheidungen liefern.
1.5
1
Prozessdiagnostik:
Wiederholte Untersuchungen erfassen
Verhaltensänderungen
Statusdiagnostik:
Einmalige Feststellung
eines Ist-Zustandes
. Abb. 1.6. Grundprinzipien diagnostischer Modelle
zum Zusammenhang zwischen Index und Indiziertem
15
1
Kapitel 1 · Einleitung
Grundlagenfach:
Diffentielle Psychologie und Persönlichkeitsforschung
Überschneidung diagnostischer Aufgaben
in den Anwendungsfeldern
16
Individuelle Position relativ zu einem Verhaltenskriterium
Verhaltensstichprobe → Eigenschaftswert
3. Testen
(Inter-)individuelle Unterschiede
2. Normorientierte Diagnostik
Kriterienorientierte Diagnostik
Veränderungsmessung
Ist-Zustand (diagnostisch oder prognostisch)
1. Statusdiagnostik
Prozessdiagnostik
Diagnostische Zielsetzung
Dimension
. Tabelle 1.1. Unterschiede zwischen Eigenschafts- und Verhaltensdiagnostik. (Nach Pawlik,
1976, S. 236)
⇔
⇔
Meilensteine in der Geschichte der psychologischen
Diagnostik
Wie eingangs dargelegt wurde, handelt es sich bei der psychologischen Diagnostik um
eine primär anwendungsorientierte Disziplin. Das »dazugehörige« Grundlagenfach ist
die Differentielle Psychologie und Persönlichkeitsforschung. Beide Fächer sind sehr eng
miteinander verflochten (s. Bartussek & Amelang, 1992): Hier wie dort kommt es darauf an, Unterschiede zwischen und innerhalb von Personen zu beschreiben mit dem
Ziel, das augenblickliche Verhalten erklären und zukünftiges prognostizieren zu
1.6
Eigenschaftsdiagnostik findet man überwiegend dort, wo eignungsdiagnostische
Entscheidungen getroffen werden, Modifikationsdiagnostik vor allem im Bereich der
Klinischen Psychologie.
Aber bereits in der Pädagogischen Psychologie überschneiden sich die diagnostischen Aufgaben. Selektionsdiagnostik findet vor allem in Fragen der Schullaufbahndiagnostik Anwendung, während Modifikationsdiagnostik bei der Untersuchung gestörter Lernprozesse sowie zur Planung und Evaluation pädagogischer Behandlungsmaßnahmen erforderlich wird. Selbst in der betrieblichen Eignungsdiagnostik sind die
Fronten nicht mehr ganz klar. So fordern Triebe und Ulich (1977) zur Optimierung
eignungsdiagnostischer Selektionen eine Prozessdiagnostik mit zwischengeschalteter
Lernphase. Andererseits werden auch in der Klinischen Psychologie Selektionen dort
vorgenommen, wo die Zuteilung von Behandlungsalternativen an das Vorliegen bestimmter Voraussetzungen gebunden ist.
Insgesamt gesehen ist das Schema von Pawlik hilfreich für eine Klassifikation der
sehr großen Zahl psychologischer Verfahren mit ganz unterschiedlicher Basis rationaler und theoriebezogener Konstruktionsgesichtspunkte und der unterschiedlichen
Zielsetzungen ihres Einsatzes.
Entscheidungs- und Behandlungsoptimierung
Schätzung eines Eigenschaftswertes
Diagnostik als Information für und über
Behandlung
Verhaltensrepertoire (-hierarchie)
Inventarisieren
4. Diagnostik als Messung
⇔
⇔
1.5 · Diagnostische Strategien
⇔
⇔
⇔
⇔
(S.135-178)
Gütekriterien psychometrischer Tests
und ihre Bestimmung
(S.26-32)
Voraussetzungen und theoretische Basis
psychometrischer Tests
Grundlagen diagnostischer
Verfahren
2
Realisierung meist
nur einer Stimuluskonfiguration
2.1.3
2.1.2
2.1.1
Die klassische Testtheorie (KTT) – 33
2.1.1.1 Zentrale Definitionen – 33
2.1.1.2 Der Standardmessfehler – 36
2.1.1.3 Minderungskorrekturen und Reliabilitätsindex – 39
2.1.1.4 Reliabilität und Testlänge – 44
2.1.1.5 Implikationen für die psychodiagnostische Praxis – 48
2.1.1.6 Kritik an der KTT – 60
Item-Response-Theorie (IRT) – 64
2.1.2.1 Grundüberlegungen der Item-Response-Theorie – 65
2.1.2.2 Dichotome Latent-Trait-Modelle – 68
2.1.2.3 Weitere Modelle der IRT – 82
Grundlagen kriteriumsorientierter Tests – 89
2.1.3.1 Die Generierung inhaltsvalider Itemmengen – 89
2.1.3.2 Die Setzung sachgerechter Normen – 89
2.1.3.3 Die Ermittlung zufallskritischer Trennwerte – 90
2.1.3.4 Weitere Probleme kriteriumsorientierter Tests – 92
Voraussetzungen und theoretische Basis
psychometrischer Tests
Alle diagnostischen Verfahren gehen davon aus, dass Unterschiede bestehen und diese
gemessen werden können. Im Sinne der eingangs dargelegten Aufgabenfelder der Psychologischen Diagnostik betreffen diese Unterschiede solche zwischen Personen, Objekten, Behandlungen, Institutionen usw. Weil die interindividuelle Perspektive, wie
historische Analysen zeigen, den Beginn ernsthafter Bemühungen um die psychodiagnostische Erfassung von Merkmalsausprägungen bestimmt hat und auch heute noch
im Vordergrund der beruflichen Routinetätigkeit vieler Psychologen steht, folgt die
nachfolgende Darstellung hauptsächlich diesem Gesichtspunkt. Die einzelnen thematisierten Überlegungen, Prinzipien und Probleme gelten in den Grundzügen jedoch
auch für andere diagnostische Problembereiche.
Wie immer die zu leistende Differenzierung inhaltlich auch beschaffen sein mag,
weisen die dafür denkbaren Ansätze doch eine Reihe von wesentlichen Gemeinsamkeiten auf: Ein bedeutsamer Gesichtspunkt besteht darin, dass genau definierte situative
Bedingungen hergestellt werden, die in Verbindung mit der gegebenen Instruktion
und den interessierenden Persönlichkeitsmerkmalen als Auslöser oder Determinanten
des beobachtbaren, diagnostisch relevanten Verhaltens gelten. In der Unterscheidung
zwischen der unabhängigen Variablen (meist eine experimentell manipulierte Stimulusdimension) und der abhängigen Variablen (gewöhnlich die Beobachtungsgröße,
also ein morphologisches oder Verhaltensmerkmal) wird diese Betrachtungsweise
deutlich. Wenn etwa bei 10 min Zeitvorgabe doppelt so viele Aufgaben richtig beantwortet werden wie bei 5 min, so liegt es nahe, die unterschiedliche Zeit der Bearbeitung
als Erklärung für die unter beiden Bedingungen verschiedenen Lösungshäufigkeiten
heranzuziehen.
In aller Regel verzichtet die Psychodiagnostik jedoch auf die Variation der Situationsfaktoren, wie sie für die Experimentelle (Allgemeine) Psychologie kennzeichnend
ist, und greift lediglich eine bestimmte Stimuluskonfiguration aus dem Universum
möglicher Faktorenkombinationen heraus. Die unter einer solchen Bedingung, in nur
2.1
Kapitel 2 · Grundlagen diagnostischer Verfahren
Herstellung genau
definierter situativer
Bedingungen
26
Zur Bedingungskonstanz in der psychologischen Diagnostik
In der einschlägigen Literatur wird regelmäßig darauf hingewiesen, dass die Konstanz der Durchführungsbedingungen einerseits zwar unabdingbar sei, andererseits
aber doch nie so recht gegeben sei. Um der daraus resultierenden misslichen Lage zu
begegnen, haben Sader und Keil (1966) die vorliegenden Untersuchungen gesichtet
und daran ansetzend konkrete Ratschläge für den diagnostischen Praktiker abgeleitet. Ihrer Übersicht zufolge gibt es teils empirische, teils experimentelle Belege dafür,
dass u. a. die Ich-Beteiligung der Probanden, deren Erfolg und Misserfolg sowie Testangst, Lob und Tadel von Seiten des Testleiters, des Weiteren allgemeine Eigenschaften und konkrete Verhaltensweisen des Diagnostikers, wahrgenommener Zeitdruck,
Messintention und Testmotivation sowie unterschiedliche Vorübung und absichtliche Verfälschung die Ergebnisse beeinflussen und damit die strikte Standardisierung
in Frage stellen. Allerdings sind in vielen der geschilderten Fälle die beobachteten
Effekte durch extreme Manipulationen zustande gekommen, mit deren Hilfe die
potenzielle Wirksamkeit des jeweiligen Faktors nachgewiesen werden sollte. Bei
sachgemäßer Testvorgabe wäre deren Auftreten ganz unwahrscheinlich.
Auch muss zwischen der statistischen Signifikanz eines Effektes und dessen
praktischer inhaltlicher Relevanz unterschieden werden. Eine der Schlussfolgerungen der Autoren lautet daher, dass ungeachtet der referierten Effekte von einer für
praktische Belange durchaus hinreichenden Bedingungskonstanz ausgegangen
werden könne. »Stabilitäts- und Validitätsdaten der Größenordnung, wie sie in der
Tat vorliegen, wären nicht möglich, wenn nicht Versuchsbedingungen im diagnosti6
Exkurs
einem Feld eines imaginären Versuchs- oder Erhebungsplanes mit unendlicher Zahl an
Faktoren und Abstufungen (z. B. Typen und Schwierigkeiten von Aufgaben, Zeitbemessung, Instruktion usw.), zwischen den Individuen noch auftretenden Verhaltensunterschiede liefern den Gegenstand bzw. Ansatzpunkt der personenzentrierten Psychodiagnostik.
Miteinander vergleichbar und damit sinnvoll sind die ermittelten Punktwerte als
quantitative Äquivalente für das beobachtete Verhalten (in Einheiten richtig gelöster
Aufgaben, mit »Ja« beantworteter Fragen zu bestimmten Persönlichkeitsausprägungen
usw.) verschiedener Personen nur dann, wenn die Bedingungen, unter denen eben
dieses Verhalten provoziert wurde, bei allen Individuen identisch oder doch weitgehend ähnlich sind. Wenn beispielsweise der eine Bewerber während 15 min 20 komplexe Denkprobleme löst, wo der andere innerhalb von 20 min 23 richtige Antworten
liefert, kann die unterschiedliche Trefferrate nicht im Sinne einer unterschiedlichen
Fertigkeit der beiden Probanden verstanden werden. Analog dazu sind niedrige Punktwerte in einem Leistungstest nicht im Sinne unzureichender Konzentration zu werten,
wenn der Testperson während der Bearbeitung der Bleistift abgebrochen ist und sie
deshalb die richtigen Lösungen nicht kennzeichnen konnte oder wenn sie durch störende Geräusche, einen unruhigen Nachbarn, unzureichende Lichtverhältnisse oder
das Beschlagen der Brille bei der Bearbeitung der Aufgaben behindert war, während
andere Probanden durch keinen dieser Faktoren beeinträchtigt wurden. Die Konstanz
bzw. Identität der Bedingungen oder Standardisierung ist somit eine Grundvoraussetzung für die Ermittlung und sinnvolle Interpretation jeglicher interindividueller Unterschiede.
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
Konstanz der Bedingungen notwendig
27
2
2
Differenzierung am
größten bei Aufgaben
mittlerer Schwierigkeit
Idealfall: Robustheit
gegen andere (störende) Faktoren
Diese nur auf den ersten Blick überraschende Tatsache hat Lienert (1989) außerordentlich instruktiv in einem Szenario veranschaulicht, in dem jeder der »Verlierer« jedem
Wenn eine bestimmte Aufgabe von 50 Probanden aus einer Stichprobe von N = 100
Personen gelöst wird, so differenziert diese Aufgabe nicht nur zwischen den 50 Probanden mit der richtigen und den restlichen 50 Probanden mit der falschen oder
gar keiner Antwort, sondern zwischen jedem der 50 Probanden, die das Item richtig
beantworten und jedem der 50 Probanden, bei denen das nicht der Fall ist. Eine solche Aufgabe hat somit insgesamt 50 × 50 = 2500 Unterscheidungen getroffen.
Beispiel
Bei herkömmlichen Tests, die eine spezifische Variante von Bedingungen zur Provokation von Stichproben des Verhaltens darstellen, ist der Forderung nach Standardisierung durch Gleichheit des Materials, Identität der Instruktionen, genauen Anleitungen
zur Durchführung und Auswertung usw. Rechnung getragen. Dennoch ist evident, dass
nicht alle denkbaren Einzelfaktoren oder Störgrößen strikt kontrolliert werden können.
In dem Maße, in dem sich Bedingungen der Kontrolle des Untersuchungsleiters entziehen, wird die Objektivität eines diagnostischen Verfahrens beeinträchtigt, d. h. dessen
Unabhängigkeit von der Person des Testleiters und den damit möglicherweise verbundenen Besonderheiten in ihren verschiedenen Aspekten der Durchführung, Auswertung und Interpretation. Dies muss letztlich auch Minderungen der Reliabilität und
Validität zur Folge haben (7 Abschn. 2.3.3). Im Idealfall erweist sich die gewählte Methode der Datengewinnung als hoch sensitiv gegenüber den Phänomenen oder Variablen, an denen man aus theoretischen Gründen interessiert ist, aber als robust und unempfindlich gegenüber allen anderen Faktoren (Pervin, 1970, S. 73).
Die mit Hilfe von Tests realisierten Bedingungen werden i. Allg. so festgesetzt, dass
die Variabilität des Verhaltens als Ansatzpunkt der personenzentrierten Psychodiagnostik
maximal ist. Diese Differenzierung, die ebenfalls eine Grundvoraussetzung jeder Gewinnung von sinnvollen Informationen darstellt, ist dann am größten, wenn Tests oder ihre
Bestandteile (einzelne Aufgaben, Untertests usw.) eine mittlere Lösungswahrscheinlichkeit aufweisen für jene Fähigkeits- oder Merkmalsausprägungen, in denen eine Diskriminierung vorgesehen ist. Dies kann mit einem Beispiel verdeutlicht werden:
schen Experiment in einem gewissen und nicht unbeträchtlichen Maße konstant
gehalten werden könnten« (Sader & Keil, 1966, S. 299). Die Vorschläge für die praktische Umsetzung reichen von der Rezipierung der relevanten Literatur über eine
sachgerechte Befragung im Anschluss an durchgeführte Untersuchungen bis zu
einer sorgfältigen Ausnutzung der Möglichkeiten zur allgemeinen Gestaltung der
Gesamtsituation. Diese kann in einer Einleitungsansprache, Zwischenerläuterungen
oder sogar in der Vorschaltung von Anwärmtests bestehen, wo dies geboten erscheint. Auch die nachträgliche Korrektur von Testergebnissen ist in solchen Fällen
möglich, wo sich Fehler sachwidrig ausgewirkt haben mögen.
Im konkreten Einzelfall werden solche Ratschläge nur bedingt weiterhelfen, weshalb sich der Diagnostiker dann zwangsläufig auf allgemeine wissenschaftliche
Standards und wohl auch auf »den gesunden Menschenverstand (verlassen muss),
wenn dieses der Sachlage nach geboten erscheint.« (Sader & Keil, 1966, S. 301).
Kapitel 2 · Grundlagen diagnostischer Verfahren
Idealfall: Sensitivität
gegenüber interessierenden Faktoren
28
der »Gewinner« (Personen ohne bzw. mit richtigen Lösungen) zu dessen »Erfolg« durch
Händedruck oder Schulterklopfen gratuliert hat. Im Falle des obigen Beispiels wäre das
gleichbedeutend mit 2500 einzelnen Handreichungen. Wenn andererseits ein Item in
einem Kenntnis-, Persönlichkeits- oder Interessentest nur von 20 der 100 Probanden
in einer bestimmten Richtung beantwortet wird, so unterscheidet es zwischen 20 × 80
= 1600 Probandenpaaren. Noch schwierigere (oder auch leichtere) Aufgaben in Leistungstests bzw. solche mit sehr seltenen (oder auch häufigen) Beantwortungen sind
trotz ihrer damit gegebenen verminderten Differenzierungskraft in der Gesamtpopulation in fast allen Verfahren enthalten, weil mit ihrer Hilfe auch in den Teilpopulationen »sehr guter« bzw. »sehr schlechter« Probanden (mit Ausprägungen in den Extrembereichen der jeweiligen Dimension) zwischen den Merkmalsträgern unterschieden
werden kann, d. h. auch in den Extrembereichen ist eine mittlere Lösungswahrscheinlichkeit, bezogen auf die dortige Merkmalsausprägung, optimal.
Ohne jeden Nutzen für eine Differenzierung sind solche Items, die überhaupt nicht
streuen, d. h. nur einen invarianten Testpunktwert (meist 0 oder 1, »ja« oder »nein«
usw.) liefern. Diese bedeuten lediglich das Hinzufügen (oder Weglassen) eines für alle
Merkmalsträger konstanten Betrages auf der jeweiligen Dimension. Sofern ihnen nicht
eine besondere Funktion zukommt, z. B. als »Eisbrecher« (»Möchten Sie, dass Ihr Leben
schön ist?«) oder zur Überprüfung einer angemessenen Handhabung der Bearbeitungsmodalitäten und des Antwortblattes (»Haben Sie die Instruktion verstanden?«)
oder zur Verschleierung der Messintention der anderen Items, wird auf sie deshalb aus
Ökonomiegründen gewöhnlich verzichtet.
Aus diesen Erwägungen geht auch hervor, dass in jenen Fällen, wo Aufgaben bei der
Ermittlung des Gesamtpunktwertes gleich gewichtet werden (etwa 1 Punkt im Sinne
des Merkmals bei jeder logisch richtigen Lösung oder einer symptomatisch relevanten
Antwort verrechnet wird), gleichwohl eine implizite Gewichtung stattfindet, und zwar
nach dem Beitrag, den das Item an der Variation des Gesamtpunktwertes leistet, also
seiner Differenzierungskraft.
In der Gewichtigkeit noch vorgeordnet ist die Forderung nach Objektivität der
psychodiagnostisch relevanten Information, egal ob es sich dabei um das Ausdrucksverhalten von Personen, deren Berichte über Träume, Gefühle und Erlebnisse, um
Testdaten oder Registrierungen physiologischer Reaktionen handelt. Nur dasjenige
kann Gegenstand einer empirischen Wissenschaft und konkret einer diagnostischen
Methode sein, was die Voraussetzung erfüllt, ein sog. »öffentlicher Sachverhalt« (Herrmann, 1976) und damit prinzipiell anderen Personen zugänglich zu sein. Außerdem
muss es der Bedingung entsprechen, objektiv zu sein, d. h. es muss von mehreren Beobachtern in hinreichender Weise als gleich wahrgenommen oder eingeschätzt werden
und damit möglichst weitgehend unabhängig von der Person des Beobachters sein. Im
Falle einer Feststellung der Zahl richtiger Lösungen in einem Kenntnistest werden 2
Auswerter, von Flüchtigkeitsfehlern vielleicht abgesehen, vollständige wechselseitige
Übereinstimmung aufweisen. Dies wird besonders dann der Fall sein, wenn die richtigen Antworten unter den angebotenen Mehrfachwahlen nur angekreuzt zu werden
brauchen und für die Auswertung eine Schablone zur Verfügung steht. Viel schwerer
dürfte aber Konkordanz zu erzielen sein, wenn beispielsweise aufgrund des Ausdrucksverhaltens beurteilt werden soll, ob ein Proband als »gehemmt« oder aber als »beherrscht« anzusehen ist, weil hier bei der Einordnung der Beobachtungsdaten sehr viel
stärker auch interpretative Elemente mit einfließen (. Abb. 2.1). (Auf die unterschiedlichen Aspekte von Objektivität und ihrer numerischen Bestimmung wird unter 7 Abschn. 2.3 detaillierter eingegangen.)
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
Objektivität = Unabhängigkeit vom Testleiter
Gewichtung von Items
gemäß ihrer Differenzierung
Funktion nichtdifferenzierender Items
29
2
Abhängigkeit des
diagnostischen Ansatzes von der theoretischen Einbettung
Stabilität
Reliabilität = Messgenauigkeit als »rein«
technisches Kriterium
Sollen die sich in den Messwerten niederschlagenden Merkmalsausprägungen als
charakteristisch für die betreffenden Personen, Objekte, Sachverhalte usw. gelten, müssen sie reliabel sein, d. h. richtig im Sinne formaler Exaktheit, wobei davon abgesehen
wird, ob die vorgenommene Messung auch dasjenige Merkmal getroffen hat, das Ziel
der Messung war. Das heißt, es sollten – in Analogie zum Anspruch der theoretischen
Reproduzierbarkeit von Resultaten aus der experimentellen Psychologie – bei einer
erneuten Realisierung der betreffenden Bedingungskonstellationen bei den erfassten
Merkmalsträgern in etwa dieselben Verhaltensäußerungen auftreten. Verschiedene
Gründe (darunter Einflüsse durch Übung und Gedächtnis) stehen einer derartigen
direkten Wiederholung aber oftmals entgegen. Es sind deshalb mehrere methodische
Alternativen zur Bestimmung der Reliabilität entwickelt worden (7 dazu mehr
im Abschn. 2.3.1.2). Im Fall der gleichwohl mitunter besonders aussagekräftigen Wiederholungsuntersuchungen läuft die Forderung nach Reliabilität auf eine möglichst
hohe Korrelation zwischen den aus verschiedenen Beobachtungszeitpunkten rührenden Messwerten ein und derselben Stichprobe von Merkmalsträgern hinaus; hier
spricht man dann von Stabilität (als einem besonderen Aspekt der Reliabilität).
Einen Sinn erhalten die in den Miniatursituationen von Tests oder im größeren
Rahmen von »natural settings« gewonnenen Messwerte meist erst durch den Bezug auf
eine Theorie. Schon der Inhalt theoretischer Konzeptionen bestimmt in gewissem
Ausmaß die Technik der Informationsgewinnung und die Art der zu erhebenden Messwerte. Unmittelbar augenfällig wird das bei einem Vergleich zwischen der bereits erwähnten sog. Verhaltens- und Eigenschaftsdiagnostik: Im ersten Fall stellen die Beobachtungsgrößen nur eine nach Möglichkeit repräsentative Stichprobe aus der viel größeren Population gleichartiger Verhaltensweisen dar, im zweiten stehen sie stellvertretend für die Ausprägung von bestimmten Eigenschaften, indizieren also etwas
qualitativ völlig Andersartiges (Unterscheidung zwischen »sample« und »sign«). Da es
sich bei den (»Dispositions-«)Eigenschaften um hypothetische Konstrukte, also erdachte Gebilde handelt, hängt es weitgehend vom Inhalt der jeweiligen Theorie ab,
welche Indikatoren als angemessen gelten können. Wenn beispielsweise davon ausgegangen wird, dass die davon Betroffenen selbst über die Intensität erlebter Konflikte
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.1. Bei projektiven
Verfahren wie z. B. dem TAT
ist sowohl die Durchführung
als auch die Auswertung
nicht unabhängig von der
Person des Testleiters
30
berichten können, erscheinen direkte Fragen danach zweckmäßig. Hingegen liegen
völlig andere Zugänge nahe, z. B. solche über projektive Verfahren mit dementsprechend fundamental anderen diagnostischen »Anzeichen«, wenn der Theorie zufolge
die Konflikte unbewusst ablaufen und damit per definitionem ein davon Betroffener
selbst nichts weiß und daher auch keine Auskünfte erteilen kann.
Die Brauchbarkeit der vorgenommenen Messoperationen sowie diejenige der damit
erhaltenen Resultate muss sich sodann im Kontext weiterer Informationen erweisen,
d. h., die Empirie wirkt zurück auf die Theorie und kontrolliert gleichsam die aus ihr
abgeleiteten Aussagen. Theorie und Empirie bedingen einander gegenseitig und stehen
so in einem Verhältnis wechselseitiger Abhängigkeit. Übertragen auf psychodiagnostische Verfahren läuft dies i. Allg. auf die Forderung nach dem Nachweis der Validität
oder Gültigkeit hinaus. Das heißt, durch gezielte zusätzliche Untersuchungen müssen
Hinweise dahingehend erbracht werden, dass der Test tatsächlich dasjenige misst, das
er messen soll oder die Konstrukteure zu messen vorgeben (. Abb. 2.2; Validierung).
Beispielsweise wird man bei einem neuen Intelligenztest auch prüfen, ob seine Ergebnisse mit denjenigen bereits bewährter Verfahren in groben Zügen übereinstimmen
(nicht hingegen perfekt damit korrespondieren, da das neu entwickelte Verfahren ja
bestimmte Unzulänglichkeiten der schon eingeführten Tests überwinden soll) und ob
Korrelationen mit Maßen für Schul- und Berufserfolg sowie Schätzungen von Bekannten oder Freunden bestehen.
Auf eine solche Validierung kann, worauf bereits an dieser Stelle hingewiesen werden soll, dann verzichtet werden, wenn ein Test nach der sog. externalen Methode
entwickelt wurde. Wenn es z. B. darauf ankommt, die Gruppe der potenziell unfallgefährdeten Personen in einer Fabrik zu identifizieren (um sie gesondert zu schulen oder
an Arbeitsplätze mit einem situativ geringeren Risiko zu versetzen), mag die Strategie
der Skalenkonstruktion darin bestehen, eine möglichst umfangreiche und inhaltlich
breit gefächerte Liste von Items zunächst 2 Gruppen von Probanden vorzugeben, von
denen die eine mit Unfällen belastet ist und die andere nicht.
2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests
2
. Abb. 2.2. Praktische
Fahrprüfungen haben
logischerweise eine hohe
Validität zur Messung des
Fahrverhaltens im Straßenverkehr
31
2
! Die wichtigsten Grundvoraussetzungen sind Standardisierung, Differenzierung,
Objektivität, Reliabilität und Validität.
Die Standardisierung bezeichnet die Konstanz bzw. Identität der Untersuchungsbedingungen. Eine Standardisierung kann erreicht werden, wenn etwa gleiches Material, identische Instruktionen und genaue Anleitungen zur Durchführung der
Untersuchung verwendet werden.
Des Weiteren muss ein Verfahren die Fähigkeit zur Differenzierung besitzen. Die
mit Hilfe des Test realisierten Untersuchungsbedingungen sollten so festgesetzt
werden, dass die Variabilität des Verhaltens als Ansatzpunkt der personenzentrierten Psychodiagnostik maximal ist. Um in ausreichendem Maße zu differenzieren,
sollte die gewählte Methode zur Datengewinnung (im Idealfall) also hoch sensitiv
gegenüber den interessierenden Merkmalen, aber robust gegenüber allen anderen
Faktoren sein. Damit etwa ein Leistungstest (oder einzelne Untertests, Aufgaben
etc.) hinreichend differenziert, verwendet man Aufgaben, die eine mittlere Lö-
? Benennen und cha-
rakterisieren Sie die
wichtigsten Grundvoraussetzungen für
die Ermittlung und
Interpretation von
individuellen Unterschieden.
duell miteinander vergleichen zu können, müssen die Durchführungsbedingungen strikt konstant gehalten werden (Standardisierung).
4 Zweckmäßigerweise sollten der Test und die Durchführungsbedingungen so
gestaltet werden, dass sie im diagnostisch interessierenden Verhalten die Merkmalsträger maximal voneinander unterscheiden (Differenzierung).
4 Die zwischen den Merkmalsträgern auftretende Variation ist nur dann diagnostisch brauchbar, wenn die beobachteten Unterschiede objektiv und messgenau
(oder exakt) zu registrieren sind (Objektivität und Reliabilität). Ein Aspekt der
Reliabilität ist die Stabilität über der Zeit.
4 Da viele Tests hypothetische Konstrukte erfassen sollen, ist es unverzichtbar,
weitere, von der Testung selbst unabhängige Informationen über dasjenige einzuholen, was der Test zu messen vorgibt (Validierung).
4 Um die Messwerte aus psychodiagnostischen Verfahren intra- und interindivi-
Fazit
Jene Items eignen sich dabei zur Erkennung von »Unfällern«, die zwischen den
beiden Stichproben überzufällig differenzieren, bei denen also das Beantwortungsverhalten der Probanden mit und ohne Unfälle signifikant verschieden voneinander ist.
Diese Unterschiede müssen auch in einer sog. Kreuzvalidierung mit 2 neuen Stichproben von Probanden erhalten bleiben. Die beiden Kategorien von Unfällern bzw. Nichtunfällern sind gleichsam soziale, betriebliche und ökonomische Realitäten, denen der
Diagnostiker aus verschiedenen Gründen gerecht werden muss. Bei dem Versuch,
dieses zu tun, mag er sich auf psychologische Theorien zur Genese von Unfällen und
zum »Wesen« und der »Natur« von Unfällen stützen (wonach etwa geringe Konzentration und hohe Ablenkbarkeit sowie Impulsivität eine Rolle spielen). Er kann darauf
aber auch verzichten und »blind-analytisch« einen Itempool zusammenstellen, in der
Hoffnung, darin auch potenziell differenzierungskräftige Fragen oder Aufgaben eingeschlossen zu haben. Inwieweit diese Erwartung gerechtfertigt ist, erweist sich dann
anhand der Beantwortungen beider Gruppen. Falls Unterschiede auftreten (und den
Kreuzvalidierungen standhalten), ist die Validität gleichsam konstitutives Element der
Skalenkonstruktion, ohne dass in derartigen Fällen in nennenswerter Weise auf inhaltliche Theorien rekurriert werden müsste.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Übungsfrage
32
2.3.3
2.3.2
2.3.1
Hauptgütekriterien – 138
2.3.1.1 Objektivität – 138
2.3.1.2 Reliabilität oder Zuverlässigkeit – 141
2.3.1.3 Validität oder Gültigkeit – 149
Nebengütekriterien – 161
2.3.2.1 Normierung – 162
2.3.2.2 Testfairness – 167
Wechselbeziehungen zwischen Gütekriterien – 174
Gütekriterien psychometrischer Tests und ihre Bestimmung
In ihrer spezifischen Bündelung oder Kombination konstituieren die einzelnen Items
bestimmte Skalen oder Tests. Um deren psychometrische Eigenschaften beschreiben
zu können, sind verschiedene Kriterien entwickelt worden. Prinzipiell lassen sich diese
Beurteilungsmaßstäbe zwar auch auf jedes der Items selbst anwenden, doch dient gerade die Zusammenfassung von Items zu Skalen dem Ziel, eben dadurch die möglichen
Unzulänglichkeiten einer punktuell-singulären Messung auf Itemebene zu überwinden
und für den Itemverband als Ganzes ein qualitativ höheres Niveau zu erreichen, als es
für jedes Einzelelement gegeben ist. Beispielsweise ist für die Reliabilität bereits gezeigt
worden (7 Abschn. 2.1.1.4), dass bei der Addition mehrerer Itembeantwortungen ein
stärkeres Anwachsen der Varianzkomponenten zugunsten der wahren Merkmalsunterschiede relativ zu den Fehleranteilen zu erwarten ist und dadurch das Ganze in gewisser
Weise mehr darstellt als die Summe seiner Teile.
Der Katalog einschlägiger Kriterien ist nicht verbindlich definiert. Ein vergleichsweise breites Spektrum von Bewertungsmaßstäben haben Amelang et al. für das Testkuratorium der Föderation Deutscher Psychologenverbände (1986) erarbeitet (7 unten). Die darin thematisierten Anforderungen an die Qualität psychologischer Tests
sind vielfältig und können deshalb kaum jemals von einem einzigen Verfahren in gleichem Ausmaß erfüllt werden, zumal sie nicht alle miteinander vereinbar sind.
Bei der umfassenden Beurteilung einer diagnostischen Methode kommt es deshalb in gewissen Grenzen auf die jeweils vorliegenden Umstände, Bedingungen und
Zielsetzungen an, mit der Folge einer fallweise etwas unterschiedlichen Gewichtung der
einzelnen Kriterien. Die Berücksichtigung von Fragestellung und Kontextbedingungen
erweitert aber den Kriterienkatalog derart wesentlich, dass letztlich der gesamte diagnostische Prozess bestimmten Anforderungen genügen muss. Diese sind in den Standards für pädagogisches und psychologisches Testen (Häcker, Leutner & Amelang,
1998) festgehalten; ausführlich werden darin unter anderem auch die Standards für eine
fachlich kompetente Testanwendung und für spezifische Vorgehensweisen definiert.
Speziell für die Bewerberauslese mittels Leistungstestungen sind die einzelnen Schritte
der Eignungsfeststellung inzwischen durch eine Normierung nach DIN-Prinzipien
geregelt worden. Einer der dafür maßgeblichen Gedanken bestand darin, mit einer
DIN-Norm einen Beitrag zum »Verbraucherschutz« im weitesten Sinne zu leisten, also
im Falle psychologisch-diagnostischer Dienstleistungen den Interessenten oder Auftraggeber vor unseriösen Angeboten zu schützen.
Mit dem Einbezug von Kontextbedingungen wird eine gewisse Flexibilität in der
Handhabung der Bewertungsmaßstäbe eingeräumt; dieses gilt aber für die einzelnen
Kriterien in unterschiedlicher Weise: Denn von zentraler Bedeutung für die Qualität
2.3
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
Gewichtung der
Gütekriterien bei der
Beurteilung
Kriterienkatalog zur
Testbeurteilung
135
2
2
Kriterien zur Durchführung eines Tests
Kriterien zu den Grundlagen eines Tests
Im Folgenden werden einige Gesichtspunkte angegeben, die bei der Beurteilung
eines Testverfahrens von Bedeutung sind. Teilweise handelt es sich bei den genannten Aspekten um widersprüchliche Forderungen, denen kaum jemals von
einem Testverfahren gleichermaßen Rechnung getragen werden kann. Bei der
Beurteilung einer diagnostischen Methode kommt es auf die jeweils besonderen
Umstände, Bedingungen und Zielsetzungen an, die aber deutlich zu erkennen
und nachvollziehbar sein müssen; vor diesem Hintergrund werden die genannten
Kriterien im Einzelfall zu gewichten sein.
Grundlage für die Testbewertung ist prinzipiell das Testmanual; dieses muss
so beschaffen sein, dass die wichtigsten Aussagen zu den für die Beurteilung relevanten Punkten daraus erarbeitet werden können.
1. Testgrundlage
1.1. Diagnostische Zielsetzung. Die Angaben zu diesem Punkt sollen es dem Benutzer ermöglichen, den Beitrag des Verfahrens zu einer diagnostischen Entscheidungsfindung zu erkennen. Dies betrifft sowohl den prinzipiellen diagnostischen
Ansatz (etwa Zustandsdiagnostik, Veränderungsmessungen) als auch den vom Testautor intendierten Beitrag im Rahmen einer umfassenderen diagnostischen Informationssammlung. Wenn das Verfahren von seiner Zielsetzung oder vom aktuellen
Entwicklungsstand her nicht für eine Einzelfalldiagnostik geeignet, sondern nur für
Forschungszwecke vorgesehen ist, sollte dies explizit angegeben werden.
1.2. Theoretische Grundlagen. Hier ist deutlich zu machen, in welcher Weise das
Verfahren auf den Ergebnissen der wissenschaftlichen Psychologie aufbaut. Die relevante Grundkonzeption muss ohne zusätzliche Sekundärliteratur erkennbar sein.
Modifikationen etablierter theoretischer Vorstellungen durch den Testautor sind
besonders deutlich zu machen.
1.3. Nachvollziehbarkeit der Testkonstruktion. Der Benutzer muss durch die
Angaben zu diesem Punkt in angemessener, ausführlicher und verständlicher
Weise in die Lage versetzt werden, die einzelnen Arbeitsschritte bei der Erstellung
der Testmaterialien kritisch zu bewerten. Hierzu gehören insbesondere Angaben
über die Veränderung bzw. Selektion von ursprünglich aus theoretischen Überlegungen heraus zusammengestellten Indikatorenmengen.
2. Testdurchführung
2.1. Durchführungsobjektivität. Das Ausmaß, in dem die Unabhängigkeit des
Tests von der Person des Untersuchungsleiters durch die Vorschriften der Testinstruktion und aller übrigen Durchführungsbedingungen gesichert ist.
2.2. Transparenz. Das Ausmaß, in dem aus der Beschaffenheit eines Verfahrens
die Spezifität und dessen Messfunktion und Auswertung ersichtlich sind.
2.3. Zumutbarkeit. Das Ausmaß, in dem ein Test (absolut und relativ zu dem aus
der Anwendung des Verfahrens resultierenden Nutzen) die getestete Person in
zeitlicher, psychischer (insbesondere »energetisch«-motivational und emotional)
sowie körperlicher Hinsicht beansprucht.
2.4. Verfälschbarkeit. Das Ausmaß, in dem ein Test die individuelle Kontrolle
über Art und Inhalt der verlangten bzw. gelieferten Informationen ermöglicht.
6
Präambel
Testkuratorium der Föderation Deutscher Psychologenverbände
Beschreibung der einzelnen Kriterien für die Testbeurteilung
Kapitel 2 · Grundlagen diagnostischer Verfahren
Grundsätze der
Beurteilung nach
diesen Kriterien
136
2.5. Störanfälligkeit. Das Ausmaß, in dem ein Test zur Erfassung habitueller
Merkmalsunterschiede unempfindlich gegenüber aktuellen Zuständen der Person und situativen Faktoren der Umgebung ist.
3. Testverwertung
3.1. Auswertungsobjektivität. Das Ausmaß, in dem die Auswertung des Tests
unabhängig von personenbedingten oder apparativen Störquellen ist.
3.2. Zuverlässigkeit. Messgenauigkeit oder Grad der Erklärbarkeit der beobachteten interindividuellen Unterschiede der Testergebnisse durch tatsächliche psychische Merkmalsunterschiede, untersucht etwa als Stabilität, Äquivalenz oder
interne Konsistenz. Für die Bewertung ist die Angabe der verwendeten Berechnungsverfahren erforderlich.
3.3. Gültigkeit. Das Ausmaß der Treffsicherheit oder diagnostischen Valenz, mit
dem der Test Rückschlüsse auf Verhalten außerhalb der Testsituation oder auf den
Ausprägungsgrad des dem Testverhalten zugrundeliegenden Konstruktes ermöglicht. Bei der Testbeurteilung ist besonderes Schwergewicht auf die Ergebnisse
zum Bereich der Kriteriumsvalidität zu legen.
3.4. Normierung. Ausmaß und Qualität der populationsspezifischen Bezugsgrößen zur Interpretation von Personenparametern, insbesondere zur Bestimmung der relativen Position einer Testperson in bezug auf (u. a. verschiedene)
Populationsverteilungen von Testwerten.
3.5. Bandbreite. Ausmaß der Enge oder Vielfalt des Verfahrens gegenüber
unterschiedlichen Fragestellungen, Gruppen- oder Prognosezeiträumen.
3.6. Informationsausschöpfung. Menge und Qualität der Indikatoren, die bezogen auf verschiedene Ziele, Anlässe oder Probandengruppen begründet aus
den Testantworten abgeleitet werden.
3.7. Änderungssensitivität. Möglichkeiten und Grade der Veränderungsmessung
durch dieses Verfahren, insbesondere im Rahmen von Zeitreihenvergleichen.
4. Testevaluation
4.1. Ökonomie. Das Ausmaß, in dem ein Test bei der Durchführung, Auswertung und Anschaffung als kostengünstig zu bewerten ist.
4.2. Fairness. Ausmaß einer eventuell bestehenden systematischen Diskriminierung bestimmter Testpersonen, z. B. aufgrund ihrer ethnischen, soziokulturellen
oder geschlechtsspezifischen Gruppenzugehörigkeit, bei der Abschätzung von
Kriteriumswerten.
4.3. Akzeptanz. Ausmaß, in dem subjektive Meinungen, Bewertungen oder gesellschaftspolistische Überzeugungen gegen einen Test angeführt werden.
4.4. Vergleichbarkeit. Ausmaß der partiellen Übereinstimmung mit anderen
Untersuchungsverfahren sowie die abweichenden Aspekte, Schwerpunkte oder
Inhalte. Eine vermutete Sonderstellung bzw. Novität des Verfahrens ist besonders
herauszustellen.
4.5. Bewährung. Systematische Aufarbeitung und Bewertung der mit dem Test
gesammelten Erfahrungen, z. B. bezogen auf bestimmte Personengruppen oder
diagnostische Ziele.
5. Äußere Testgestaltung
Die Verständlichkeit des Testmanuals, die probandenfreundliche Gestaltung der übrigen Testmaterialien sowie die Übereinstimmung von Titel und werblicher Darstellung mit dem tatsächlichen Testinhalt werden bei der Beurteilung herangezogen.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Kriterien zur äußeren
Gestaltung eines Tests
Kriterien zur Evaluation eines Tests
Kriterien zur Verwertung eines Tests
137
2
Quantitative
Bestimmung der
Durchführungsobjektivität
Objektivität
2.3.1.1
2. Auswertungsobjektivität. Dieser Aspekt der Objektivität gibt das Ausmaß an, in dem
»das Verhalten als empirisches Relativ in Item- und Test-Scores als numerischem Relativ
eindeutig quantifiziert wird« (Fisseni, 1990, S. 54). Gleiches Verhalten der Testpersonen wird in einem objektiven Test nach stets exakt denselben Regeln abgebildet.
zufällige Variationen im Verhalten des Testleiters und der von ihm hergestellten Durchführungsbedingungen zu Variationen im Verhalten der Testpersonen führen. Um eine
höchstmögliche Invarianz des Testleiterverhaltens zu gewährleisten, wird eine maximale Standardisierung der Testsituation angestrebt. Dazu gehören, was eigentlich keiner weiteren Erwähnung bedarf, nicht nur identische Testmaterialien und Zeitvorgaben,
sondern auch die Abfassung der Instruktion in schriftlicher Form und die Ausarbeitung
von Regeln, wie ggf. auf Nachfragen oder Störungen zu reagieren ist, usw.
In der Konsequenz läuft die strikte Standardisierung der Durchführung auf eine
Minimalisierung der sozialen Interaktion zwischen dem Testleiter und den Testpersonen hinaus, was aber bei projektiven Tests meist nicht möglich ist.
Die quantitative Bestimmung der Durchführungsobjektivität stößt auf erhebliche
Schwierigkeiten. In der Literatur findet sich vielfach die Anregung, die Testergebnisse
ein und derselben Probanden in ein und demselben Test aus Untersuchungen mit verschiedenen Testleitern zu interkorrelieren und den Mittelwert aus den resultierenden
Koeffizienten als beste Schätzung für die Durchführungsobjektivität zu nehmen. In
derartigen Ergebnissen würden sich jedoch auch die Einflüsse von seiten einer unzureichenden Reliabilität niederschlagen (weshalb es durchaus als angemessen erscheint,
Objektivität als einen Teilaspekt der Reliabilität aufzufassen). Abgesehen davon wäre
ein Prozedere kaum zu akzeptieren, bei dem immer neue Testleiter von denselben
Testteilnehmern immer dasselbe verlangen.
Aus diesen Gründen fehlen gewöhnlich quantitative Angaben zur Durchführungsobjektivität. Sie darf als hoch angesehen werden, wenn alle Bedingungen festgelegt sind,
die sich plausiblerweise auf das Testverhalten auswirken können, und wenn darüber
hinaus angenommen wird, dass Wetterlage, Jahreszeit, Wochentag, Tageszeit und ökologischer Mikroraum nur unerhebliche Einflüsse aufweisen.
1. Durchführungsobjektivität. Sie bezeichnet den Grad, in dem mehr oder weniger
Je nach der Phase, in der sich ein möglicher Einfluss des Testleiters auswirken kann,
werden verschiedene Aspekte der Objektivität unterschieden.
Objektivität steht für das Ausmaß, in dem die Ergebnisse eines Tests unabhängig
von der Person des Untersuchungsleiters sind.
Definition
Hauptgütekriterien
2.3.1
von Tests sind i. Allg. die sog. Hauptgütekriterien, nämlich Objektivität, Reliabilität
und Validität, auf die fast ohne Einschränkung ein strenger Maßstab anzulegen ist.
Diese Kriterien betreffen zudem schwerpunktmäßig technische Eigenschaften, welche
die Instrumente mehr oder weniger unabhängig von den Rahmenbedingungen eines
Einsatzes und von den anstehenden diagnostischen Entscheidungen kennzeichnen.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Durchführungsobjektivität durch
Standardisierung der
Testsituation
138
2
sA
.
2
sx
Die Summe der restlichen Varianzkomponenten bildet die sog. Auswertungsfehlervarianz sF2 = sB2 + sC2 + se2, deren Quadratwurzel den Standardauswertungsfehler.
Für die Ermittlung der mittleren Quadrate und Freiheitsgrade gelten die folgenden Terme (. Tab. 2.13):
Anhand der herangezogenen Stichproben von Testprotokollen und Beurteilern
resultierten die folgenden Koeffizienten (. Tab. 2.14):
3
Nach Maßgabe des Standardauswertungsfehlers √ sF2 ergeben sich daraus die
folgenden Konfidenzintervalle für die Rohpunkte (5%) (. Tab. 2.15):
Der »wahre« Rohpunkt eines Probanden kann also allein infolge der mangelnden Auswertungsobjektivität nur mit den angegebenen Unsicherheitsintervallen
bestimmt werden. Weil eine analoge Untersuchung von Michel (1967) für den Subtest Gemeinsamkeiten des Intelligenz-Strukturtests (IST) von Amthauer mit r = .96
ebenfalls nur einen unbefriedigenden Grad an Auswertungsobjektivität ergeben
6
r=
Die Auswertungsobjektivität wird als Intraklassenkorrelation ermittelt, und zwar
hier als Anteil der Varianz zwischen den Testprotokollen an der Gesamtvarianz:
Ansetzend an Ableitungen von Iseler (1967) haben Michel und Mai (1969) die Auswertungsobjektivität für die 3 Untertests Allgemeines Verständnis (AV), Gemeinsamkeiten Finden (GF) und Wortschatztest (WT) der Hamburg-Wechsler-Intelligenztests
für Erwachsene und Kinder (HAWIE bzw. HAWIK) bestimmt (7 Abschn. 3.1.2 und
7 Abschn. 3.1.4). Als allgemeine Strukturgleichung gilt:
sx2 = sA2 + sB2 + sC2 + se2.
sx2 = Varianz aller Testpunktwerte,
sA2 = Varianz zwischen Protokollen,
sB2 = Varianz zwischen den Beurteilern,
sC2 = Wechselwirkung Beurteiler × Protokolle,
se2 = Situationsfehler.
Beispiel
Sofern in Leistungstests oder Persönlichkeitsfragebogen die richtigen Lösungen
bzw. die Antworten im Sinne des Merkmals anhand eines Lösungsschlüssels festgelegt
sind, kann absolute Objektivität unterstellt werden. Allerdings empfiehlt sich den Beobachtungen von Weise (1994) zufolge ein maschinelles Lesen der Antwortbogen, da bei
dem üblichen Auflegen von entsprechenden Schablonen doch erstaunlich viele Ableseund Additionsfehler auftreten.
Etwas geringer ist die Auswertungsobjektivität i. Allg. bei Leistungs- und Persönlichkeitstests, in denen die Antworten in ungebundener Weise erfolgen. In solchen
Fällen werden nicht nur die allgemeinen Anforderungen an vollkommen richtige Lösungen in detaillierter Weise erläutert, sondern auch die häufiger vorkommenden Lösungen als Beispiele für absolut richtige und teilweise korrekte Antworten aufgeführt,
um die Auswertung eindeutiger handhaben zu können. Immer wieder treten jedoch
Fälle auf, für die es kein Vorbild im Katalog der Beispiellösungen gibt und wo auch eine
Rubrizierung aufgrund der allgemeinen Anweisungen nicht ohne Ambivalenzen möglich ist.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Beispiel zur varianzanalytischen Bestimmung der Auswertungsobjektivität
Eher geringe Auswertungsobjektivität
bei ungebundenen
Antwortformaten
Auswertungsobjektivität durch eindeutige
Quantifizierung des
Verhaltens
139
2
MQTP
MQAW
MQTA
Bezeichnung
k-1
n-1
(k-1)(n-1)
Freiheitsgrade
n · σA2 + σC2 + σe2
k · σB2 + σC2 + σe2
σC2 + σe2
Erwartungswert
0.84
0.88
0.96
0.96
GF
0.97
0.96
WT
±2,63
±3,06
AV
±2,04
±1,62
GF
±5,98
±4,49
WT
Am niedrigsten liegt die Auswertungsobjektivität meist bei (Kurz-) Aufsätzen und
insbesondere bei projektiven Tests wie dem Rorschach- oder dem Thematischen
Apperzeptionstest.
Zur quantitativen Bestimmung der Auswertungsobjektivität müssen die Testprotokolle einer Stichprobe von Probanden mindestens 2 verschiedenen Auswertern
vorgegeben werden, die unabhängig voneinander jeweils die Punktwerte ermitteln
oder – im Falle der projektiven Verfahren – die Signierungen vornehmen. Die Korrelation zwischen den beiden Auswertern (bzw. bei mehreren Beurteilern: Die mittlere
Korrelation zwischen ihnen) über die Protokolle gibt das Ausmaß der wechselseitigen Übereinstimmung an. Systematische Unterschiede hinsichtlich der relativen
Strenge des Bewertungsmaßstabes schlagen sich in diesen Korrelationen allerdings
nicht nieder; zur Erfassung derartiger Variationsquellen bedarf es varianzanalytischer
Pläne.
hatte, wurde dieser für die Revision zum IST 70 mit Mehrfachwahlantworten versehen, womit seitdem vollständige Objektivität gegeben ist (7 Abschn. 3.1.2).
HAWIE
HAWIK
. Tabelle 2.15. Konfidenzintervalle aufgrund nicht absoluter Auswertungsobjektivität für 3
Subtests des HAWIE bzw. des HAWIK
HAWIE
HAWIK
AV
. Tabelle 2.14. Auswertungsobjektivität (Intraklassenkorrelation) für 3 Subtests des HAWIE
bzw. des HAWIK
sTP2 = σA2 = (MQTP – MQTA)/n,
sAW2 = σB2 = (MQAW – MQTA)/k,
sTA2 = sC2 + σe2 = MQTA,
sF2 = sAW2 + sTA2 = [MQAW + (k-1)MQTA]/k,
sX2 = sTP2 + sF2,
raa = sTP2/sX2.
Zwischen den Testprotokollen
Zwischen den Auswertern
Wechselwirkung und Situationsfehler
Quelle
. Tabelle 2.13. Varianzanalytische Terme zur Bestimmung der Auswertungsobjektivität
Kapitel 2 · Grundlagen diagnostischer Verfahren
Quantitative Bestimmung der Auswertungsobjektivität
140
Reliabilität oder Zuverlässigkeit
Insofern bleiben Aspekte der inhaltlichen Treffsicherheit (also der Validität) außer
Betracht; nur die Präzision der Messung an sich interessiert hierbei. Ein Test ist dann
vollständig reliabel, wenn mit seiner Hilfe die Lokalisierung der Probanden auf der
jeweiligen Merkmalsdimension absolut fehlerfrei geschieht. In einem solchen Fall ist
der Reliabilitätskoeffizient als Korrelation zwischen verschiedenen Messwerten, erhoben an denselben Probanden, rtt = 1,0. Wie unter 7 Abschn. 2.1.1.1, (2.12) bereits erläutert wurde, ist das gleichbedeutend mit dem Umstand, dass die beobachtete Testwertevarianz zur Gänze durch wahre Messwertunterschiede erklärt wird: Reliabilität als
Quotient der wahren zur Gesamtvarianz.
Weil es verschiedene Zugangsweisen zur Bestimmung der Reliabilität gibt, kann
nicht von »der« Zuverlässigkeit eines Tests gesprochen werden. Aus diesem Grunde
muss bei der Nennung eines Reliabilitätskoeffizienten jeweils auch die Methode er-
Die Reliabilität beschreibt die Genauigkeit, mit der ein Test eine Merkmalsdimension
erfasst, und zwar unter der Vernachlässigung des Umstandes, ob es sich dabei auch
um die Merkmalsdimension handelt, deren Erfassung intendiert ist.
Definition
2.3.1.2
3. Interpretationsobjektivität. Damit bezeichnet man den Grad, in dem die aus den
numerischen Testergebnissen gezogenen Schlüsse unabhängig von der Person desjenigen sind, der diese Interpretationen vornimmt, oder mit anderen Worten: Das Ausmaß,
in dem aus gleichen Scores verschiedener Probanden identische Schlüsse gezogen werden (von einem oder von mehreren Auswertern).
Vollständige Interpretationsobjektivität ist dann gegeben, wenn es lediglich darauf
ankommt, aus den Punktwerten eines Leistungstests oder Persönlichkeitsfragebogens
die individuelle Position auf der jeweiligen Merkmalsdimension zu ermitteln. Bei den
gebräuchlichen Tests bedarf es dazu nur eines Blickes in die entsprechenden Normentabellen, in denen für die einzelnen Rohwerte die dazugehörigen Standardwerte oder
Prozentränge aufgeführt sind. Darüber hinaus liegt absolute Interpretationsobjektivität
auch dann vor, wenn beispielsweise unter Heranziehung von Validitätskoeffizienten
und der Regressionsrechnung auf die Position in einer Kriteriumsdimension geschlossen und damit das relative Ausmaß an Eignung oder Bewährung bestimmt wird. Generell fallen hierunter die einzelnen Schritte der sog. »statistischen« (im Unterschied
zur »klinischen«) Vorgehensweise bei der Kombination von Testresultaten nach vorher
festgelegten oder analytisch ermittelten Regeln, so dass nach Eingabe der individuellen
Testscores kein Einfluss des Testinterpreten mehr möglich ist.
Sehr viel niedriger ist die Objektivität der Interpretation bei den projektiven Tests,
da diese nicht nur den Probanden eine große Bandbreite dahingehend eröffnen, wie
diese die Testmaterialien »interpretieren« können (etwa welche Teile von Klecksbildern
sie deuten und in welcher Weise dies geschieht), sondern häufig genug auch der Intuition und Erfahrung des Testleiters einen größeren Ermessensspielraum offen halten,
welche Schlüsse daraus zu ziehen sind. Allgemein ist die Interpretationsobjektivität
beim »klinischen« Vorgehen geringer, da dort das subjektive Ermessen (als Folge von
Erfahrung und Hypothesengenerierung) bei der Ableitung von Schlussfolgerungen
darüber, was die Testwerte letztlich bedeuten (können), eine sehr viel größere Rolle
spielt.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
»Die« Reliabilität eines
Tests gibt es nicht
Präzision der Messung
an sich
»Klinische«
Vorgehensweise
»Statistische«
Vorgehensweise
Interpretationsobjektivität durch identische
Schlüsse aus gleichen
Scores
141
2
Kriterien der Parallelität von Tests
Reliabilität als
Korrelation paralleler
Testformen
Bedeutung von
Störfaktoren
Teststabilität
2. Paralleltestreliabilität. Die Vorgabe paralleler Versionen eines Tests an ein und dieselbe Gruppe von Personen gilt weithin als »Königsweg« der Reliabilitätsbestimmung.
Zweckmäßigerweise wählt man für die Bearbeitung der parallelen Formen ein relativ
kurzes Intervall von einigen Tagen und die Vorgabemodalitäten so, dass die eine Hälfte der Probanden die Tests in der Sukzession A vor B, die andere Hälfte B vor A bearbeitet.
Parallel sind Tests dann, wenn die auf der Basis gleicher, aber nicht identischer
Itemstichproben beobachteten Mittelwerte und Standardabweichungen identisch
sowie die Korrelationen zwischen den beobachteten Werten hoch (zwischen den
wahren Werten per definitionem: 1.0) sind.
Die ermittelten Koeffizienten liegen häufig noch unter denjenigen für Retestuntersuchungen. Sie sind jedoch deshalb besonders praxisgerecht, weil sich hier die Reliabilität auf eine insgesamt größere Stichprobe von Items und damit ein breiteres Spektrum
von Aufgabeninhalten bezieht.
Essentielle Voraussetzung für diesen Ansatz ist selbstverständlich das Vorhandensein geeigneter »paralleler« Versionen, die für sich bei Gruppenuntersuchungen
1. Testwiederholung (Retest). Ein und derselbe Test wird ein und derselben Stichprobe
von Probanden wiederholt dargeboten, im Regelfall insgesamt 2mal. Die Korrelation
zwischen der ersten und zweiten Vorgabe gibt das Ausmaß der Retest- oder Testwiederholungsreliabilität an.
Bei der Festlegung des optimalen Zeitintervalls für die Wiederholung besteht regelmäßig ein Dilemma: Einerseits gilt es, Erinnerungs- und Übungseffekte zu vermeiden,
wie sie namentlich bei Leistungstests stets zu beobachten sind. Das macht eher lange
Zeitabstände in der Größenordnung von mehreren Wochen oder gar Monaten erforderlich. Andererseits sollen die Testdurchführungen nicht soweit auseinander liegen, dass
zwischenzeitlich auch reale Schwankungen des erfassten Merkmals auftreten und dadurch die messtechnisch-instrumentelle Qualität auf niedrigerem Niveau erscheinen lassen, als es tatsächlich der Fall ist. Insofern ist die Wiederholungsreliabilität auch immer
von der Stabilität des erfassten Merkmals abhängig und wird deshalb auch als »Teststabilität« bezeichnet. Idealiter handelt es sich dabei um die Retestreliabilität, bereinigt um
die mögliche Fluktuation des zugrundeliegenden Merkmals. Das aber setzt voraus, dass
diese über anderweitige Ansätze erfasst werden kann, was nur höchst selten möglich ist.
Sicher sind für Korrelationskoeffizienten systematische Mittelwertszunahmen von
etwa der Hälfte einer Standardabweichung bei der wiederholten Vorgabe von Intelligenztests im Abstand von ca. einem Monat (s. z. B. Amthauer 1957; Catron 1978) völlig
irrelevant. Derartige Übungsgewinne fallen erfahrungsgemäß nach Leistungsstand,
Lernfähigkeit und Gedächtnis interindividuell recht verschieden aus, so dass Retestkoeffizienten eher konservative Schätzungen der Reliabilität liefern.
Angemessen ist die Bestimmung der Reliabilität mittels Wiederholung bei reinen
Speedtests und – mehr noch – bei Persönlichkeitsfragebogen. Hingegen fallen die erwähnten Störfaktoren um so mehr bei Tests aus dem Intelligenzbereich ins Gewicht, je
weniger Items die Skalen enthalten, je eigentümlicher und inhaltlich esoterischer die
Aufgaben sind und je kürzer das Retestintervall ist. In dem Maße, in dem dadurch die
Erinnerung an die zuvor bewerkstelligten richtigen Lösungen begünstigt wird, verändert sich der Charakter eines Verfahrens in Richtung eines Gedächtnistests.
wähnt werden, mit der die Zuverlässigkeit bestimmt wurde. Dafür stehen folgende
Ansätze zur Verfügung.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Reliabilität als Korrelation wiederholter Testdurchführungen
142
Möglichkeit, eine Testung zu wiederholen oder sie mit parallelen Instrumenten durchzuführen (z. B. weil kein hinreichend langes Zeitintervall abgewartet werden kann, die
Probanden nicht mehr erreichbar sind oder wegen des eigentümlichen Charakters der
Aufgaben von der ersten zur zweiten Messung eine grundlegende Veränderung der
Validität zu befürchten ist oder einfach deshalb, weil Parallelversionen nicht vorliegen).
In solchen Fällen bietet es sich an, die eine Form des Tests in 2 äquivalente Hälften
aufzuteilen und die aus der einmaligen Bearbeitung dieser Teile pro Testperson vorliegenden Messwerte miteinander zu korrelieren. Die Höhe der Korrelation gibt einen
Aspekt der Reliabilität an. Gewöhnlich werden die Koeffizienten nach den Prinzipien
der Spearman-Brown »prophecy formula« auf doppelte Länge der Skala aufgewertet:
Korreliert werden miteinander ja nur Hälften, doch interessiert die Reliabilität der 2mal
so langen Gesamtskala.
Bei diesem Ansatz können Schwankungen der Motivation, der Stimmung und Aufmerksamkeit bzw. Fluktuationen des untersuchten Merkmals praktisch ausgeschlossen
werden. Alle diese Faktoren wirken sich nur in jenem Grade aus, in dem sie über die
Items der Testskala hinweg oszillieren. Von daher kommt die Halbierungstechnik dem
Konzept einer Beschreibung der primär instrumentellen Messgenauigkeit am nächsten.
Voraussetzung ist freilich, dass die Homogenität und Anzahl der Items eine Aufteilung
in 2 Hälften erlauben. Bei zahlreichen projektiven Tests ist diese notwendige Bedingung
nicht gegeben.
Für die Halbierung kommen mehrere Techniken in Betracht:
4 Aufteilung nach geradzahliger und ungeradzahliger Numerierung der Items: Für
jede Versuchsperson wird individuell die Rohwertsumme aus den geradzahligen
Items (also durch Addition der Antworten zu den Items Nr. 2, 4, 6 usw.) und gesondert den ungeradzahligen Aufgaben (also diejenige mit den Nummern 1, 3, 5, 7
usw.) gebildet.
4 Halbierung nach der laufenden Nummer der Items in dem Sinne, dass die Items 1
bis 20 von insgesamt 40 Aufgaben die eine Teilskala, die Items 21 bis 40 die zweite
Teilskala bilden.
4 Aufteilung der Items nach Zufall in jede der beiden Halbformen.
4 Die Halbierung auf der Basis der Analysedaten stellt das anspruchsvollste Konzept
dar. Hierbei werden für alle Items zunächst Schwierigkeit und Trennschärfe ermittelt und unter simultaner Berücksichtigung beider Kennwerte Paarlinge gebildet,
die einander sehr ähnlich sind. Die Zuweisung der einzelnen Items aus solchen
Paarlingen in die Halbskalen erfolgt sodann nach Zufall.
3. Testhalbierung. Oftmals besteht aus den verschiedensten Gründen heraus keine
von hohem Wert sind, weil benachbart sitzende Probanden dann unterschiedliche
Formen bearbeiten können. Ihre Herstellung wird allerdings erschwert, wenn es sich
um die Erfassung sehr eng begrenzter Eigenschaften handelt und entsprechend das
Universum denkbarer Items nur klein ist. Ein weiterer Hinderungsgrund liegt dann vor,
wenn die Fragen von gleichsam einmaliger Art sind und deshalb eine Parallelisierung
kaum möglich erscheint, ohne einem Transfer der Lösungsprinzipien und erheblichen
Übungsgewinnen Vorschub zu leisten.
Bei Speedtests, in denen die (gewöhnlich zahlreichen) Items eine hohe wechselseitige
Ähnlichkeit aufweisen, ist demzufolge die Entwicklung von Parallelformen entbehrlich,
da es für die zweite Vorgabe keinen Unterschied bedeutet, ob dieselben oder leicht abgewandelte Items bearbeitet werden müssen. Damit liegt hier eine Art Sonderfall vor, bei
dem die Retest- und Paralleltestmethode gleichsam ineinander übergehen.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Halbierung über
Schwierigkeit und
Trennschärfe
»Odd-even-Methode«
Reliabilität durch Testhalbierung kommt
instrumenteller
Messgenauigkeit am
nächsten
Reliabilität als
Korrelation äquivalenter Testhälften
Praktisch Gleichheit
von Paralleltest- und
Retestmethode bei
Speedtests
Erschwerte Herstellung
paralleler Testformen
143
2
144
evena
3,25
4,25
4,00
4,25
3,75
3,50
4,50
4,00
3,00
2,00
odda
3,50
3,50
3,50
3,25
3,25
2,75
3,25
4,00
3,00
2,00
2,75
4,00
3,50
4,25
3,50
2,75
4,50
3,25
3,25
2,50
3,00
3,75
4,25
4,25
3,50
3,00
4,25
3,00
3,75
2,50
4,00
3,75
4,00
3,25
3,50
3,50
3,25
4,75
2,75
1,50
3,50
3,50
3,75
3,25
3,25
3,00
3,75
4,00
3,75
2,00
Pac
2
5
5
5
4
3
5
2
4
3
6
3,25
4,25
3,75
4,25
3,75
3,25
4,00
4,00
2,25
2,00
Pbc
4
1
5
5
3
3
4
3
4
3
7
2
4
4
5
5
4
4
4
4
8
Bei der Parallelisierung wurden folgende Paare gebildet:
Items 1 und 5, Items 2 und 7, Items 3 und 8, Items 4 und 6.
Diese Paare wurden nun per Zufall auf 2 Gruppen verteilt, so dass folgendes Resultat
entstand:
A: 3, 4, 5, 7. B: 1, 2, 6, 8.
Korrelationen:
4 odd-even: .747,
4 erste-zweite Hälfte: .137,
4 Zufallshalbierung: .217,
4 Parallelisierung nach Trennschärfe und Schwierigkeit: .546.
6
c
b
3,75
4,00
3,25
3,25
3,50
3,25
3,50
5,00
2,25
1,50
Z2b
2
5
2
2
3
2
4
3
4
2
4
3
4
2
3
4
4
5
4
1
Z1b
5
4
5-8
4
5
4
4
4
3
3
5
3
2
3
5
2
5
4
3
5
5
1
2
1-4
3
2
odd/even: Mittelwerte für ungeradzahlige/geradzahlige Itemnummern.
Z1/Z2: Zufallsaufteilung.
Pa/Pb: Parallelisierung (nähere Details 7 unten).
4
3
3
2
3
3
2
5
1
1
1
2
3
4
5
6
7
8
9
10
a
1
Pbn
Items
. Tabelle 2.16. Antworten von 10 Probanden zu den 8 Optimismusitems. In den unteren
Spalten sind pro Proband die Mittelwerte für Teilmengen der Items aufgeführt, die den Berechnungen der Korrelationen im Sinne der im Text erläuterten Methoden zugrunde gelegt wurden
Beispiel
Im folgenden Beispiel (. Tab. 2.16) ist an den 8 Items einer Skala zum Optimismus und
einer Stichprobe von 10 Versuchspersonen jede der vorgenannten Methoden exemplarisch angewendet worden.
Kapitel 2 · Grundlagen diagnostischer Verfahren
4 ⋅ (s12 - s1 ⋅ s(1-2) ⋅ r1(1-2) )
4 ⋅ s12 + s(1-2)2 -4 ⋅ s1 ⋅ s(1-2) ⋅ r1(1-2)
Angewendet auf die bereits oben erwähnte Stichprobe von 1226 Probanden resultiert
für die 8 Items umfassende Optimismusskala ein Koeffizient von rtt(α) = 0.54.
s12 = Varianz der Rohwerte aus der ersten Testhälfte,
s(1–2)2 = Varianz der Rohwertdifferenzen,
r1(1–2) = Korrelation der Rohwerte aus der ersten Testhälfte mit den Rohwertdifferenzen.
rtt(α ) =
Üblicherweise werden lediglich die Rohwerte aus den beiden Testhälften interkorreliert
und der erhaltene Koeffizient auf die doppelte Länge der (Gesamt-)Skala aufgewertet.
Allerdings setzt die Spearman-Brown-Formel die Identität von sxt und von sxu [7 (2.26)]
bzw. s1 und s2 voraus. Mit Hilfe verschiedener Formeladaptationen versucht man, ggf. auftretenden Abweichungen gerecht zu werden. Deshalb hat Cronbachs Koeffizient α eine
besondere Akzeptanz gefunden. Für ihn wird die Differenz der individuellen Rohwertpaare (X1 – X2) gebildet und die Korrelation der Rohwerte aus der ersten Hälfte mit diesen
Differenzen ermittelt [r1(1–2)]. Die allgemeine Form lautet nach Lienert (1989, S. 222):
Jede der vorgenannten Techniken verbietet sich bei Schnelligkeitstests, weil dort – von
Flüchtigkeitsfehlern abgesehen – die individuellen Halbtestwerte fast immer ziemlich
genau der Hälfte der Gesamtrohwerte entsprechen: Wenn jemand beispielsweise 80
Aufgaben insgesamt in Angriff genommen und bewältigt hat, bedeutet das mit großer
Wahrscheinlichkeit 40 Items aus der einen und eine gleich große Zahl aus der anderen
Hälfte. Damit aber wird die Reliabilität krass überschätzt.
Deshalb bietet sich bei Speedtests eine andere Technik an:
4 Halbierung nach der Testzeit. Die gesamte Bearbeitungszeit wird in 2 Teile getrennt.
Nach Ablauf der ersten Halbzeit müssen die Probanden auf Anweisung des Testleiters die Stelle im Antwortblatt markieren, an der sie momentan arbeiten, so dass für
die erste und zweite Halbzeit erhebungstechnisch unabhängige Rohwertteilleistungen bestimmbar sind.
Wegen der geringen Zahl von Messwertträgern in dem Beispieldatensatz sind von
vornherein große Schwankungen zwischen den verschiedenen Berechnungsmodalitäten zu erwarten, und in der Tat führen die odd-even-Aufteilung und die Parallelisierung zu sehr viel höheren Halbierungsreliabilitäten als die beiden anderen Aufteilungen. Anhand der größeren Stichprobe von 1226 Probanden spielen Zufallsschwankungen infolge der Messwertträger keine Rolle mehr. Die geringe Zahl von Items
leistet allerdings der Möglichkeit Vorschub, dass zufällig besonders ähnliche bzw. unähnliche Items in den Gruppen zusammengefasst wurden. Da die Koeffizienten aber
bei allen Aufteilungsprinzipien recht nah beieinander liegen, kann mit Bestimmtheit
festgehalten werden, dass die Skala nur eine mäßige Reliabilität aufweist.
Kennwerte für alle (1226) Versuchspersonen:
4 odd-even: .273,
4 erste-zweite Hälfte: .281,
4 Zufallshalbierung: .303,
4 Parallelisierung nach Trennschärfe und Schwierigkeit: .327.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Formel für den Spezialfall zweier Testhälften
Für Speedtests: Halbierung nach der Testzeit
Testhalbierung führt
bei Speedtests zur
Überschätzung der
Reliabilität
145
2
Cronbachs
Koeffizient α
K-R-Formula 20
K-R-Formula 8
Bestimmung über
Trennschärfe und
Schwierigkeitskoeffizienten
= Varianz der Testrohwerte,
= Schwierigkeit P/100,
= 1-p,
= Trennschärfe.
s x 2 -∑pq
∑rit 2 ⋅ pq + ⎛ s x 2 -∑pq ⎞
+
⎜ 2s 2 ⎟
2
2 ⋅ sx
sx2
x
⎝
⎠
2
(2.76)
(2.77)
(2.78)
r = Zahl paralleler Messungen,
si2 = Stichprobenvarianz des i-ten Paralleltests, berechnet an der Stichprobe von N
Versuchspersonen mit N-1 im Nenner,
sij = Kovarianz zwischen i und j.
r
⎛
∑si 2 ⎞⎟
r ⎜
i =1
α=
⋅ ⎜1 - r
⎟
r
r-1 ⎜ ∑si 2 + ∑sij ⎟
i =1 ⎠
⎝ i =1
In beiden K-R-Formeln spielt der Ausdruck pq, also die Itemvarianz (7 Abschn. 2.2.7.1
zu Schwierigkeit) eine wichtige Rolle. Wenn bei einem Vergleich der Summe der Itemvarianzen oder deren Mittelwert mit der Varianz des Skalensummenwertes (sx2),
wie er in der einen oder anderen Weise in den Formeln angestellt wird, weitgehende
Übereinstimmung resultiert, so muss dafür das Fehlen von Itemkovarianzen verantwortlich sein. Denn die Varianz des Skalensummenwertes setzt sich zusammen aus
der Summe aller (einzelnen) Itemvarianzen und aller Interitemkovarianzen. Das
Fehlen von Itemkovarianzen aber bedeutet, dass jedes Item etwas anderes misst, die
Skala also nicht reliabel im Sinne der Konsistenz ist. Am meisten verbreitet ist Cronbachs α:
rtt =
n ⎛ s x 2 - n ⋅ pq ⎞
⋅
⎟
n-1 ⎜⎝ s x 2
⎠
n ⎛ s x 2 -∑pq ⎞
=
⋅⎜
n-1 ⎝ s x 2 ⎟⎠
Sofern aus irgendwelchen Gründen keine Interkorrelationen berechnet wurden oder
dies wegen einer unvollständigen Aufgabenanalyse nicht möglich ist, kann K–R-Formula 20 Anwendung finden:
sx2
p
q
rit
rtt =
4. Konsistenzanalysen. Die Verallgemeinerung der Halbierungsmethode besteht darin,
eine Testskala nicht nur in 2 Hälften zu zerlegen, sondern in so viele Teile, wie Items
vorhanden sind. Entsprechend müssten die betreffenden Korrelationen ermittelt und
die erhaltenen Werte auf die jeweilige Länge der Skala aufgewertet oder »hochgerechnet« werden.
Am bekanntesten sind dafür die Formeln von Kuder und Richardson (1937) geworden. Die sog. K-R-Formula 8 stützt sich auf die Schwierigkeits- und Trennschärfekoeffizienten:
Kapitel 2 · Grundlagen diagnostischer Verfahren
Reliabilität als Konsistenz aller Testitems
146
sinn 2
s zwi Prb2
(da se2 = sinn2)
(2.80)
(2.79)
rtt = 1 -
srest 2
s zwi Prb2
Auf diese Weise gilt schließlich
srest2 = sinn2 - szwi Items2,
srest2 = se2.
(2.81)
Nun erzeugen selbst die einzelnen Items aufgrund ihrer selbst bei hoher Konsistenz
immer etwas variierenden spezifischen Anforderungen eine Varianz. Diese Varianz
zwischen den Items stellt insofern keine Fehlerkomponente dar und muss von der Varianz innerhalb der Personen abgezogen werden, um einen »bereinigten« Term für eine
»Restvarianz« zu erhalten:
rtt = 1 −
s ∞ 2 = s zwi Prb2 - s e 2 ,
s ∞ 2 = s zwi Prb2 - sinn 2
s∞2
,
rtt = 2
s∞ + se2
s zwi Prb2 - sinn 2
rtt =
,
s zwi Prb2 - sinn 2 + sinn 2
Durch Umstellen und Einsetzen erhält man:
s zwi Prb2 = s ∞ 2 + s e 2
Die Varianz zwischen den Probanden setzt sich zusammen aus Komponenten zu Lasten
der wahren Merkmalsunterschiede und zu Lasten von Fehlereinflüssen:
sinn2 = se2 .
In der letzteren Formel ist besonders augenfällig, dass die Varianz des Skalensummenwertes (im Nenner) verglichen wird mit der Summe der Itemvarianzen. Sofern die
beiden Werte auseinanderklaffen, muss dieses eine hohe Homogenität bedeuten, weil
in diesem Fall zur Summe der Itemvarianzen noch substantielle Itemkovarianzen hinzugekommen sind und die Differenz bewirkt haben.
Ein anderer Ansatz besteht darin, die Konsistenz varianzanalytisch zu bestimmen,
und zwar nach einem Schema, dessen Faktoren zum einen die Items, zum anderen die
Probanden darstellen. Die dafür maßgeblichen Überlegungen sind einfach: Bei vollständiger Konsistenz eines Tests bzw. seiner Beantwortung durch Probanden müsste
für jede Person pro Item dieselbe Antwort auftreten. Abweichungen davon, also jegliche
Varianz innerhalb jedes einzelnen der Probanden, können in einer ersten Näherung
als Fehler aufgefasst werden:
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
Varianzanalytische
Konsistenzformel
Varianzanalytische
Bestimmung
147
2
2
6
QSzw =
34
( ∑X)2
33489
= 733 = 63.22,
N⋅k
50
k
N⋅k
5
50
∑P2 - ( ∑X)2 = 3471 - 33489 = 24.42,
QStot = ∑X2 -
∑I2:
∑P2:
37
4
4
3
4
2
3
4
4
5
4
1
3
4
5
4
4
4
3
3
5
3
2
38
39
8
4
4
5
5
4
4
4
4
3
2
6
2
5
5
5
4
3
5
2
4
3
totale Quadratsumme,
Quadratsumme innerhalb der Probanden,
Quadratsumme zwischen Probanden,
Quadratsumme zwischen Items,
Rest-Quadratsumme,
Zahl der Probanden,
Zahl der Items,
quadrierte Gesamtsumme der Testwerte, im Beispiel: 1832 = 33489,
Summe der quadrierten Itemwerte, im Beispiel:
32 + 42 + 42 + … + 12 + 32 + 22 = 733.
Summe der quadrierten Testwerte, im Beispiel:
172 + 222 + 202 + … + 102 = 3471,
Summe der quadrierten Werte pro Item, im Beispiel:
352 + … + 392 = 6 715.
35
I
QStot:
QSinn:
QSzw:
QSzI:
QSr:
N:
k:
(∑X)2:
∑X2:
3
5
2
5
4
3
5
5
1
2
2
Items
1
2
3
4
5
6
7
8
9
10
Pbn
183
17
22
20
21
19
17
21
21
15
10
P
. Tabelle 2.17. Antworten von 10 Probanden zu 5 Items einer Skala (Auszug aus . Tab. 2.16).
In der letzten Spalte (P) die individuellen Summenwerte über die Items, in der letzten Zeile (I)
die Summenwerte über die Probanden. Die P- und I-Werte liegen der Bestimmung von szwi2
und szwi Items2 zugrunde
Beispiel
Eine wesentliche Voraussetzung für diese varianzanalytische Prüfung besteht allerdings
darin, dass die Itembeantwortung auf kontinuierlich-quantitativ abgestuften Skalen erfolgt. Das trifft häufiger bei Persönlichkeits- und Einstellungstests zu, ist aber auch bei
Leistungstests der Fall, wenn dort je nach Zeitbedarf oder Richtigkeit der Lösung abgestufte Punkte vergeben werden. In . Tab. 2.17 findet sich ein Rechenbeispiel für eine Auswahl
von 5 Items der Optimismusskala (vgl. . Tab. 2.7 und 2.10; die Items Nr. 1, 5 und 7 wurden
wegen zu geringer Interkorrelationen eliminiert).
Kapitel 2 · Grundlagen diagnostischer Verfahren
Beispiel zur varianzanalytischen Konsistenzbestimmung
148
k
2
5
N⋅k
10
50
2
Validität oder Gültigkeit
srest
= 0.620 korrigiert
2
s zwi
Repräsentationsschluss vom Testverhalten auf dasjenige außerhalb der Testsituation
1. Inhaltliche Validität. Sofern die Aufgaben eines Tests Stichproben aus dem zu erfassenden Zielmerkmal darstellen, kann aus dem Verhalten in der Testsituation auf dasjenige außerhalb im Sinne eines Repräsentationsschlusses geschlossen werden (7 Abschn. 1.6) Der Grad der Genauigkeit, in dem dieses möglich ist, bezeichnet die inhaltliche Validität.
Sie ist hoch, wenn die Aufgaben völlig identisch sind, etwa mit Anforderungen, die
in bestimmten Bereichen gestellt werden: Als Beispiel dafür stehen Prüfungen für
Farbtüchtigkeit, Schulleistungstests oder die Fragen beim Ablegen der Führerscheinprüfung, des Weiteren Arbeitsproben wie orthographische Richtigkeit beim Diktat
2
Bedeutung hoher
Validität
149
Bei hoher Validität erlauben die Ergebnisse eines Tests die Generalisierung aus dem
numerischen Relativ der Testskalen auf das empirische Relativ des interessierenden
Zielmerkmals oder einen Schluss aus dem (beobachteten) Verhalten in der Testsituation auf (ebenfalls beobachtbares) Verhalten außerhalb der Testsituation (Michel &
Conrad, 1982, S. 55).
Insofern handelt es sich um das wichtigste Gütekriterium überhaupt. Selbst der
Objektivität und der Reliabilität kommt primär lediglich die Rolle zu, günstige Voraussetzungen für das Erreichen einer hohen Validität zu schaffen.
Auch bei der Validität lassen sich verschiedene Aspekte voneinander unterscheiden:
Unter Validität wird das Maß an Genauigkeit verstanden, mit dem der Test dasjenige
Persönlichkeits- oder Verhaltensmerkmal misst, das er messen soll oder zu erfassen
vorgibt.
Definition
2.3.1.3
rtt = 1 -
sinn
= 0.643 unkorrigiert
2
s zwi
2
QSr
37.08
=
= 1.0300,
(N- 1) (k- 1)
36
QSzw
38.8
=
= 0.9700,
N (k- 1) 4 0
rtt = 1 -
sr2 =
2
sinn
=
QSzw 24.42
s2zw =
=
= 2.7133,
N-1
9
QSr = QSinn - QSzI = 38.8 - 1.72 = 37.08,
k
∑I2 - ( ∑X)2 = 6715 - 33489 = 1.72,
QSzI =
2
∑P = 733 - 3471 = 38.8,
QSinn = ∑X -
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Ü-Koeffizient der Beurteilerübereinstimmung
(2.82)
bei der Anfertigung ihrer Gemälde zu vermitteln.
Um den Lehrenden und Studierenden konkrete Beispiele vor Augen zu führen,
wählt eine staatliche Sachverständigenkommission unter Beteiligung der Akademien eine Reihe von Bildern aus, bei denen nach ihrer Auffassung jedes der Ziele in
optimaler Weise erreicht ist. Bevor diese Bilder den Lehrplänen als Anschauungs6
Der Lehrplan für den Unterricht in Gestaltender Kunst an den Akademien der Bundesländer sieht vor, den Studierenden die Ziele
4 Originalität,
4 Innere Stimmigkeit,
4 Ausgleich von Form und Inhalt,
4 Intellektualität des Hintergrundes
Beispiel
Die Anwendung dieses Maßes wird anhand des folgenden Beispiels (. Tab. 2.18 und
. Tab. 2.19) demonstriert.
Ü
= Übereinstimmungskoeffizient,
QSinnh = Quadratsumme innerhalb der Personen,
QSmax = maximal mögliche Quadratsumme innerhalb der Personen.
= 1 - QSinnh
U
QSmax
und Tempo in Kurzschrift oder Maschinenschreiben, wenn es um die Eignung als
Sekretärin geht. Ferner gehören auch Untersuchungen an Fahr- und Flugsimulatoren
hierher.
In solchen Fällen ist die Übereinstimmung zwischen der Test- und Nicht-Testsituation unmittelbar augenfällig, weshalb darauf verzichtet werden kann, diese näher
zu bestimmen.
Es lassen sich aber leicht andere Beispiele anführen, wo die Entsprechungen weniger
evident sind und es zweckmäßig erscheint, numerische Werte für die inhaltliche Validität zu ermitteln. Meist wird dabei wie folgt verfahren: In einem ersten Schritt wird das
in Betracht gezogene Zielkonstrukt begrifflich und theoretisch expliziert. Sofern noch
keine Aufgaben oder Fragen vorliegen, die das Zielkonstrukt treffen sollen, werden
diese sodann nach Maßgabe operationaler Definitionen (s. Fricke, 1974) oder generativer Regeln (Klauer, 1987) erstellt. Die vorliegenden oder erhaltenen Items werden
von mehreren unabhängig voneinander arbeitenden Personen (meist Experten oder
zumindest in die Materie eingewiesene) daraufhin beurteilt, inwieweit sie dem Inhalt
des Konstruktes, ggf. auch den Vorgaben der generativen Regeln entsprechen. Mitunter
kommt es auch darauf an, die Einhaltung vorgegebener Quoten (z. B. Aufgaben mit
bestimmten Strukturmerkmalen) einzuschätzen. Das Maß der Beurteilerübereinstimmung liefert einen Koeffizienten für die Inhalts- oder Kontentvalidität. Herangezogen werden dafür die pro Item beobachtbaren Urteilsstreuungen zwischen den
Einschätzern. Für die Gesamtzahl der Items einer Skala bietet sich der Ü-Koeffizient
von Fricke (1974, S. 40–43) an:
Kapitel 2 · Grundlagen diagnostischer Verfahren
Quantitative Bestimmung der inhaltlichen
Validität
150
3
Rohwert
2
3
0
1
1
1
Bilder
4
Rohwert
n
n⋅ k
j=1
n
2
j=1
2
4 (k ∑x j - ∑x j )
.
2
0
1
0
1
2
3
3
1
1
0
1
3
3
1
1
0
1
4
4
1
1
1
1
4
3
1
1
1
0
5
2
0
1
1
0
5
2
0
0
1
1
6
2
0
0
1
1
6
3
1
1
0
1
3
5
4
5
Randsumme
4
4
4
5
Randsumme
= 1 - 4 (4 ⋅17- 53) = 1 - 60 = 0.375.
U
6 • 16
96
für das Kriterium »Innere Stimmigkeit« ein solcher von
= 1 - 4 (4 ⋅17- 49) = 1 - 76 = 0.208,
U
6 ⋅16
96
k = Anzahl der Beurteiler,
n = Anzahl der Bilder,
xj = Rohwert (d. h. Summe) von Bild j.
Für das Kriterium »Originalität« ergibt sich demnach ein Ü-Koeffizient von
= 1 U
Die Formel lautet:
1
1
1
1
1
1
2
3
4
Professoren
. Tabelle 2.19. Kriterium 2
1
0
1
1
1
Bilder
1
2
3
4
Professoren
. Tabelle 2.18. Kriterium 1
material beigefügt werden, beurteilen 4 Professoren für Kunst in einer Art Kreuzvalidierung, ob jedes der Kriterien aus ihrer Sichtweise erfüllt ist.
In . Tab. 2.18 und . Tab. 2.19 werden Urteile einer Gruppe von Personen aufgelistet, ob das Kriterium 1 bzw. Kriterium 2 (7 weiter oben) in jedem von 6 Bildern erfüllt ist (= 1) oder nicht erfüllt ist (= 0).
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
151
2
2
Korrelationsschluss
vom Testergebnis auf
das Kriterium
Ein überregional operierendes Taxiunternehmen führt eine Untersuchung zur psychologischen Erfassung der Eignung zum Führen eines Taxis durch. Die im Unternehmen beschäftigten Fahrer werden von ihren Gruppenleitern hinsichtlich ihres
beruflichen Erfolges, also der Eignung, eingeschätzt (= Kriterium). Dafür bieten sich
u. a. die folgenden Gesichtspunkte an: Die Zahl beförderter Passagiere in einem festgelegten Zeitraum, zurückgelegte Wegstrecken, die Zahl von Unfällen, Schäden am
Fahrzeug, Beschwerden von Fahrgästen, Fehlzeiten und Strafmandate (die letzten
Merkmale mit jeweils negativer Gewichtszahl).
Jede dieser Variablen indiziert nur einen bestimmten Aspekt des »Berufserfolges«. Es mag deshalb naheliegen, die einzelnen Punktwerte zu einem Globalwert
der Eignung zusammenzufassen. Je nach dem Dafürhalten der maßgeblichen Vorgesetzten oder der Unternehmensleitung erfahren einzelne Subdimensionen eine
besondere Gewichtung. So könnte die Organisation bestrebt sein, nach außen ein
nobles Erscheinungsbild abzugeben und aus diesem Grunde saubere Kleidung und
verbindliche Umgangsformen als besonders wichtig erachten. (Das macht deutlich,
dass Kriterien sich keineswegs immer auf selbstverständliche Weise ergeben, sondern häufig von Festlegungen verschiedenster Art wie Zielvorstellungen, Verfügbarkeit, Akzeptanz, Kosten u. Ä. abhängen.)
Mit jeder der Einzelvariablen und/oder deren optimaler Kombination als Kriterien für die Fahrereignung werden die Ergebnisse solcher Leistungstests korreliert,
die als einschlägig erachtet und deshalb den Beschäftigten vorgegeben werden:
Dazu zählen vielleicht allgemeines Wissen, verbales Verständnis und Wortschatz (um
6
Beispiel
2. Kriteriumsbezogene Validität. Immer dann, wenn es nicht möglich ist, das Zielmerkmal als Ganzes oder wenigstens Stichproben daraus in einem Test zusammenzustellen, sondern die ausgewählten Verhaltensweisen oder Aufgaben nur bestimmte
Merkmale indizieren (also für etwas anderes stehen und nicht nur für sich selbst), bedarf es eines Korrelationsschlusses, um von den Ergebnissen des Tests auf das interessierende Zielmerkmal oder Kriterium schließen zu können. Eine solche Korrelation
muss empirisch ermittelt werden. Zu diesem Zweck bearbeitet eine Stichprobe von
Probanden den Test, und es wird geprüft, ob die Ergebnisse mit dem Kriterium übereinstimmen, d. h. mit Punktwerten. Diese indizieren ihrerseits interindividuelle Unterschiede in der Zieldimension und müssen unabhängig von der Testung ermittelt worden sein. Um diese Unabhängigkeit der Erhebungsmodalitäten deutlich zu machen, hat
man den Begriff »Außenkriterium« für Messwertreihen gewählt (im Unterschied zu
sog. »Binnenkriterien« wie dem Skalenscore als Kriterium für die Bestimmung der
Trennschärfe). Der Validitätskoeffizient wird mit rtc bezeichnet, der Korrelation des
Tests mit einem Kriterium (engl.: criterion).
Denkbar ist auch eine Bestimmung der Inhaltsvalidität auf experimentellem Wege:
Mindestens 2 Gruppen von Personen werden die Explikationen eines Konstruktes sowie die Regeln vorgegeben, nach denen Items zu generieren sind. Die auf diese Weise
unabhängig voneinander entstandenen Tests werden dann von einer größeren Stichprobe von Probanden bearbeitet. Die zwischen den Ergebnissen auftretende Korrelation ist gleichfalls ein Maß für die inhaltliche Validität beider Verfahren (s. Fricke, 1974,
S. 45).
Kapitel 2 · Grundlagen diagnostischer Verfahren
Experimentelle
Bestimmung der
inhaltlichen Validität
152
Lienert (1989, S. 17) spricht in Bezug auf den letzten Faktor von »Zulänglichkeit« als
der Kommunalität, die nach Absehung von der Reliabilität des Tests und derjenigen
des Kriteriums besteht. Die numerische Bestimmung der Zulänglichkeit müsste deshalb mittels der doppelten Minderungskorrektur erfolgen (7 Abschn. 2.1.1.3). Dabei
wird jedoch primär der technisch-instrumentellen Unzulänglichkeit Rechnung getragen, nicht so sehr dagegen der Zentralität oder der inhaltlichen Validität des Kriteriums
für das in Frage stehende Konstrukt. Unter sonst gleichen Voraussetzungen wird ein
Kriterium valide (und der Test eher zulänglich) sein, wenn es sich um eine Indizierung
derselben Merkmalsdimension handelt, d. h. semantisch und theoretisch eine hohe
Ähnlichkeit besteht. Eine Qualifizierung als Kriterium erlangen entsprechende Variablen erst dann, wenn sie darüber hinaus einen höheren Status aufweisen, letztlich also
verlässlicher und entscheidungsrelevanter sind.
Als informelle Regel bei der Beurteilung des Status empfiehlt Burisch (1984), sich das
Dilemma zu vergegenwärtigen, auf der Basis inkonsistenter Informationen diagnostische Entscheidungen von erheblicher praktischer Bedeutung vornehmen zu müssen.
So müssten die Fragen beantwortet werden, ob ein Patient wegen seiner Depression
hospitalisiert werden müsse oder nicht, ob ein mehrfach rückfälliger Straftäter nach
Verbüßung einer längeren Haftstrafe bedingt entlassen werden dürfe oder nicht, ob sich
ein Bewerber für eine risikoreiche Expedition aufgrund seiner emotionalen Stabilität
eigne oder nicht. Zwei Informationsquellen (z. B. die Einschätzung von Ärzten, Anstaltsleitung oder Bekannten bzw. die Punktwerte vorgegebener Tests) lieferten wechselseitig
inkompatible Hinweise, die Variable X1 in der einen, X2 in der anderen Richtung. Diejenige Quelle, die den Ausschlag gäbe, qualifiziere sich als »echtes« Kriterium.
Davon zu unterscheiden sind solche Kriterien, für die zwar die Bedingung der semantischen und theoretischen Äquivalenz, nicht aber diejenige des höherwertigen
(Diese Voraussetzungen sind geradezu trivial, denn wenn eine Variable nicht mit sich
selbst korreliert, kann sie schon gar nicht mit anderen Variablen kovariieren.)
4 vom Grad dessen, was Test und Kriterium an konzeptueller Gemeinsamkeit enthalten.
Da häufig mehrere Kriterien vorliegen oder denkbar sind und vorab nicht entschieden
werden kann, welches davon das optimale ist, hat ein Test so viele Validitäten, wie es
vernünftige Kriterien für dasjenige gibt, was der Test messen soll.
Wie unmittelbar einzusehen ist, hängt die kriteriumsbezogene Validität u. a. von
den folgenden Faktoren ab:
4 der Reliabilität des Tests,
4 der Reliabilität des Kriteriums,
die Voraussetzungen für Kommunikation mit den Fahrgästen und im Unternehmen
zu prüfen), rechnerisches Denken, Merkfähigkeit, technisches Verständnis, motorische Fertigkeiten, des Weiteren Fragebogen zur Extraversion, Aggressivität und
Frustrationstoleranz.
Die korrelative Übereinstimmung zwischen der Kombination der Testwerte einerseits und derjenigen der Kriteriumsvariablen andererseits zeigt die Validität der
Testbatterie gegenüber »dem« Kriterium an, d. h. das Ausmaß, in dem die Unterschiede im Außenkriterium durch Unterschiede in den Testleistungen erfassbar sind.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
»Echte Kriterien«
Auswahl einer geeigneten Kriteriumsvariablen
Kommunalität als Grad
der konzeptuellen
Gemeinsamkeit von
Test und Kriterium
Einflussfaktoren der
kriteriumsbezogenen
Validität
153
2
Konkurrente und
prädiktive Gültigkeit
Berücksichtigung von
Grund- und Selektionsquoten
»Effektivität« von
Skalen
Target-Variablen
Ranges gilt. Solche Variablen verdienen nur eine Bezeichnung als »Quasikriterien«, da
sie ihrerseits einer Validierung an echten Kriterien bedürfen. Das trifft etwa auf jene
Fälle zu, in denen eine neu entwickelte Skala an einem Test »validiert« wird, der dasselbe Merkmal erfassen soll. So sind zahlreiche Intelligenztests mit dem Binet-Staffeltest
verglichen worden, weil dieser selbst am Altersverlauf der Lösungswahrscheinlichkeiten und am Lehrerurteil entwickelt wurde. Bei der dabei verwendeten externalen Konstruktionsstrategie war die Validität der Items gleichsam Voraussetzung und deshalb
gewährleistet.
Von »echten« und »Quasikriterien« zu unterscheiden sind die sog. Target-Variablen. Dabei handelt es sich um eine spezifische Klasse von Kriterien, die aufgrund bestehender Sachzwänge vorhergesagt werden müssen, und zwar auf der Basis irgendwelcher
Informationen. Beispiele dafür sind das Suizidrisiko bei psychiatrischen Patienten, die
Zufriedenheit oder Unfallneigung von Beschäftigten in einem Betrieb oder das Alkoholismusrisiko bei Funktionsträgern in Überwachungsbereichen. In solchen Fällen kommt
es lediglich auf das prognostische Ziel einer Maximierung der Trefferquoten an. Jede
Testskala ist hierbei willkommen, die in signifikanter Weise zur Aufklärung der TargetVarianz beiträgt, gleich ob die Konfiguration der Testbatterie unter inhaltlich-psychologischer Perspektive einen (theoretischen) Sinn macht oder nicht. Die Korrelation von
Skalen mit solchen Target-Variablen sollte zweckmäßigerweise als Effektivität bezeichnet werden. Die Höhe dieses Koeffizienten sagt nur wenig über den verwendeten Test
als solchen aus, sondern nur etwas über die Angemessenheit seines Einsatzes: Ein Hammer beispielsweise zum Sägen oder Schrauben verwendet, würde nur eine geringe Effektivität aufweisen, und zwar nur deshalb, weil er dysfunktional eingesetzt wäre. Weil
Target-Variablen meist in alternativ abgestufter Form vorliegen (hospitalisiert ja/nein;
gefährdet/nicht gefährdet usw.) stellt sich hier das Problem des umgekehrt u-förmigen Zusammenhanges zwischen Grundquote und Höhe der Korrelation (das bereits
unter der Trennschärfe angesprochen wurde; 7 Abschn. 2.2.7.2, S. 121, Implikationen:
. Abb. 2.29) erneut, diesmal im Hinblick auf die Validität. Die Untersuchungen von
Hollmann (1993) haben nachdrücklich vor Augen geführt, dass – abgesehen von der Art
des verwendeten Korrelations-Koeffizienten – bei der Beurteilung »der« Validität unbedingt die Grund- und mehr noch die Selektionsquoten berücksichtigt werden müssen; letztere können z. B. je nach den wirtschaftlichen Gegebenheiten und dem Verhältnis zwischen Zahl der Bewerber und freien Stellen starken Schwankungen unterliegen.
Burisch (1984) hat die vorgenannten 3 Arten von Validierungen anhand der nachfolgenden Graphiken veranschaulicht (. Abb. 2.31).
Als Unterformen der kriteriumsbezogenen Validität lassen sich wiederum die konkurrente (gleichzeitige) und die prädiktive Gültigkeit voneinander unterscheiden. Die
erste ist dann gegeben, wenn Test- und Kriteriumswerte nahezu gleichzeitig erhoben
werden, die zweite liegt dann vor, wenn zu einem Zeitpunkt t1 die Testscores und zu
einem späteren Zeitpunkt t2 die Punktwerte im Kriterium erhoben werden. Bestehen
signifikante Korrelationen, so sprechen wir bei konkurrenter oder auch Übereinstimmungsvalidität davon, dass sich die Varianz des Kriteriums (als deskriptives Konstrukt)
auf die Varianz der Testwerte zurückführen oder durch sie (als explikatives Konstrukt)
auf- bzw. erklären lässt.
Häufig hängt es allerdings nur von der Perspektive des Betrachters ab, in welcher
Rolle jedes der beiden miteinander verglichenen Konstrukte gehandhabt wird, denn
ebensogut wie man den schulischen Erfolg auf Intelligenz zurückführen kann, ist
es möglich, Intelligenz mit der schulischen Leistung zu erklären usw. (»Henne-EiProblem«).
Kapitel 2 · Grundlagen diagnostischer Verfahren
»Quasikriterien«
154
Deshalb kommt der prädiktiven Validität ein höherer Stellenwert zu: Nach den
Regeln unserer Logik kann nur zeitlich Früheres ursächlich verantwortlich sein für
zeitlich Späteres und damit dieses erklären (sofern der Einfluss von Drittvariablen ausgeschlossen ist). Es spricht deshalb besonders nachhaltig für die Brauchbarkeit eines
Tests, wenn etwa dessen heute ermittelten Punktwerte den Ausbildungs- oder Berufserfolg in 10 Jahren präzise vorherzusagen erlauben, das Instrument somit eine hohe
prädiktive Validität aufweist. Wegen der im Vorhersageintervall auf die Probanden
einwirkenden sehr verschiedenen und schwerlich kontrollierbaren Bedingungen liegen
die Koeffizienten für die prädiktive Validität in aller Regel deutlich unter denen der
konkurrenten Validität.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Stellenwert der prädiktiven Gültigkeit aufgrund der Brauchbarkeit von Vorhersagen
. Abb. 2.31. Verschiedene
Arten von Validierungen.
(Aus Burisch, 1984)
155
2
156
rtc ⋅ Sx
sx
2
2
rtc ⋅ Sx
2
1-rtc +
2
sx
(2.83)
Rtc = auf die größere (repräsentative) Streuung von Sx aufgewerteter Validitätskoeffizient,
rtc = beobachteter Validitätskoeffizient,
sx = beobachtete Messwertestreuung,
Sx = angenommene Messwertestreuung.
R tc =
Validität bei eingeschränkter Variabilität
Für Auslese- und Platzierungsentscheidungen auf der Basis von psychodiagnostischen Informationen bedarf es vorheriger längsschnittlicher Erhebungen. Damit
wird der Fehlermöglichkeit vorgebeugt, wonach beispielsweise das Ausüben einer
beruflichen Tätigkeit auch Auswirkungen auf das Lösen von Testaufgaben hat, etwa
weil dabei Fertigkeiten vermittelt oder geübt werden, die bei der Bearbeitung des
Tests dienlich sind. Dadurch aber würden die Testleistungen einseitig erhöht, ohne
dass damit eine äquivalente Mehrleistung im Kriterium einherginge. Dies hätte die
Folge, dass der Testwert für die Trennung voraussichtlich erfolgreicher und erfolgloser Bewerber falsch festgelegt wird. Diese Fehlerquellen werden vermieden, wenn
zunächst die Prädiktorenscores erhoben, dann die (unter optimalen Bedingungen:
alle getesteten) Probanden zum jeweiligen »treatment« (Behandlung, Schulung,
Berufstätigkeit usw.) zugelassen und schließlich deren Erfolgsraten registriert werden. Der Rekurs auf die dabei gewonnenen Erkenntnisse (die Höhe des Validitätskoeffizienten, Quoten von Erfolg und Misserfolg usw.) bei zukünftig anstehenden Entscheidungen setzt somit die Konstanz aller Rahmenbedingungen voraus. Das
heißt, es muss unterstellt werden, dass die sich später meldenden Bewerber auch
repräsentativ sind für die seinerzeitige Forschungs- oder Begleituntersuchung und
alle zwischen Testung und Erhebung der Kriteriumswerte auftretenden sozialen,
ökonomischen und ökologischen Faktoren auch später dieselben sein werden –
sicher weithin eine Fiktion.
Da es aus verschiedenen Gründen nur selten möglich ist, alle Bewerber einzustellen, muss eine Selektion erfolgen. Für diese wird mitunter bereits auf den Test
zurückgegriffen, dessen längsschnittliche Validität erst erprobt werden soll, etwa
deshalb, weil man auf dessen Validität bereits vertraut, und zwar in der Art und
Weise, dass die Leistungsschwächsten nicht zugelassen werden. In der Prädiktordimension (und weniger stark auch in der Kriteriumsvariablen) kommt es dadurch
zu einer Einengung der Variabilität, d. h. für die Validitätsprüfung steht nicht mehr
die gesamte Streubreite der Messwerte zur Verfügung, mit der Folge einer Minderung des Validitätskoeffizienten (. Abb. 2.32).
Es sind deshalb Formeln entwickelt worden, um den bei restringierter Streuung
im Prädiktor empirisch ermittelten Validitätskoeffizienten auf repräsentative Breite
aufzuwerten:
Exkurs
Kapitel 2 · Grundlagen diagnostischer Verfahren
Als Voraussetzung gilt die Annahme, dass die Standardschätzfehler und die Steigung
der Regressionsgeraden gleich sind.
Analoge Formeln liegen auch für jene Fälle vor, in denen nur die Kriteriumsvarianz
eingeschränkt ist (wenn etwa die ungeeigneten Personen durch Entlassung oder Umsetzung für die Validitätsprüfung nicht mehr zur Verfügung stehen) oder sofern die
Selektion und die damit einhergehende Varianzeinschränkung anhand eines bereits
validitätserprobten Tests stattfanden, mit dem das neuentwickelte Verfahren der ausgelesenen Stichprobe korreliert (s. dazu Lienert, 1989, S. 304–309).
Noch komplizierter sind diejenigen Fälle, in denen die »eigentliche« Validität für
einen neuen Test ermittelt werden soll, der mit bewährten Skalen korreliert, anhand
derer eine Selektion, gestaffelt nach der Höhe der Prädiktionsscores, vorgenommen
R tc =
.50 ⋅10
5
.502 ⋅102
1− .502 +
52
1
1
1
= .76.
=
=
=
25
1.75 1.32
.75 +
25
Ein neuentwickelter Test hätte in der Normierungsstichprobe eine Streuung von Sx
= 10 aufgewiesen. In der Validierungsgruppe habe sich nur ein Wert von sx = 5 gezeigt; die Validität sei mit rtc = .50 errechnet worden.
Wie hoch wäre die Validität ausgefallen, wenn die gesamte Prädiktor-Streuung
vorgelegen hätte?
Beispiel
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Weitere mögliche
Varianzeinschränkungen
. Abb. 2.32. Korrelationshöhe in Abhängigkeit von
der Homogenität der Probandenstichprobe. Selegiert
man nur die im Test höher
als der Durchschnitt scorenden Personen, wird die Korrelationsellipse der dann
homogeneren Stichprobe
runder als sie in der unausgelesenen Stichprobe ist.
Wegen der hier angenommenen recht hohen Korrelation zwischen Test und Kriterium bedeutet die Selektion
nach dem Prädiktor zugleich
auch eine solche im Kriterium. (Aus Amelang &
Bartussek, 1990, S. 103)
157
2
Kennwerte zur
Konstruktvalidität
existieren nicht
Validierung als Prozess
Die Theorie zur Introversions-Extraversions-Dimension von Eysenck (1957) beinhaltet im wesentlichen die Vorstellung, dass alle zentralnervösen Prozesse durch ein
genetisches, interindividuell unterschiedliches Verhältnis von nervösen Erregungszu Hemmungsprozessen gekennzeichnet sind. Extravertierte sind nach Eysenck
dadurch gekennzeichnet, dass sie zur Ausbildung nur schwacher exzitatorischer
Potentiale, aber schnell aufgebauter, intensiver und langsam abklingender inhibitorischer Prozesse neigen. Introvertierte sollen umgekehrt starke exzitatorische Potentiale, aber nur langsam einsetzende, schwache Inhibitionsprozesse aufweisen. Als
neurophysiologisches Korrelat der »excitation-inhibition-balance« wird die Erregungsschwelle des aufsteigenden retikulären Aktivierungssystems (ARAS) gesehen,
und zwar mit einer bei Introvertierten leichteren, bei Extravertierten erschwerten
Affizierbarkeit.
Für eine Skala, die auf das besagte Erregungs-Hemmungs-Gleichgewicht abhebt,
resultieren daraus u. a. die folgenden Vorhersagen:
4 Bei Applikation von sedierenden Psychopharmaka müssten Extravertierte eher
Leistungseinbußen erkennen lassen als Introvertierte; umgekehrt sollten stimu6
Beispiel
3. Konstruktvalidität. Gleichsam eine Synthese aus inhaltlicher und kriteriumsbezogener Validität stellt die Konstruktvalidität dar. Darüber hinausgehend wird unter diesem
Begriff die Einbettung des mit einem Test erfassten Konstruktes in das nomologische
Netzwerk anderer, und zwar teils inhaltlich ähnlicher und teils völlig »artfremder«
Konstrukte verstanden. Auf diese Weise fällt die Perspektive zumindest vom Anspruch
her sehr viel breiter aus als bei den üblichen Validitätsuntersuchungen. Ferner gehört
zu dem Bedeutungsgehalt des Begriffes die Vorstellung von einem andauernden Prozess: Weniger die Validität als ein gewissermaßen fertiges »Produkt«, sondern mehr die
Validierung als Vorgang, dessen Abschluss offen steht, ist damit gemeint.
Wie die erwähnte Einbettung im Einzelnen zu erfolgen hat, dafür existieren keine
Handlungsanweisungen. Im Allgemeinen wird der postulierte Validierungsprozess
darauf hinauslaufen, aus dem gewählten Konstrukt eine möglichst große Zahl verschiedener Hypothesen zum Verhalten von Personen mit unterschiedlichen Testscores
auf der fraglichen Dimension abzuleiten. In mehreren gesonderten Schritten kommt
es sodann darauf an, diese Hypothesen empirisch und/oder experimentell zu überprüfen. Dabei ist es wünschenswert, ein möglichst breites Spektrum von Verhaltensbereichen abzudecken und tunlichst verschiedene Analysemethoden anzuwenden, wie
Mittelwertsprüfungen, Cluster- und Faktorenanalysen usw. Die Gesamtheit der erhaltenen Resultate steht dann für die Konstruktvalidität des Tests. Kennwerte, die
dieses facettenreiche Bild in einem quantitativen Ausdruck zusammenfassen, existieren nicht.
wurde. Diese Konstellation lag vor bei der Erprobung des Tests für Medizinische Studiengänge (TMS). Die Zulassung erfolgte nach Maßgabe der Schulnoten, und zwar
derart, dass die Zulassungschance von Note zu Note multiplikativ anstieg. Demgemäß
ist die Stichprobe der Zugelassenen in Form und Breite der Prädiktionswerteverteilung
»verschoben«. Bartussek et al. (1986) haben die notwendigen Entzerrungen modellhaft
vorgenommen und eine prädiktive Validität des TMS für die Examenszwischennote
von rtc=.45 errechnet.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Einbettung des
Konstrukts in andere
Konstrukte
158
Der geschilderte Variantenreichtum von Ansätzen, Methoden und Analysen einerseits,
die Beliebigkeit der Vorgehensweise und die Kombination von Elementen andererseits,
hat die Konstruktvalidität dem Vorwurf ausgesetzt, es fehle ihr an methodischer Stringenz, und auch zur präzisen Elaboration der Konstrukte (Pervin, 1981, S. 147) leiste
sie keinen eigenständigen Beitrag. In der Tat trifft zu, dass die Konstruktvalidierung
nicht über ein spezifisches Arsenal an Methoden oder Analysetechniken verfügt, sondern als Ober- und Sammelbegriff die bekannten Validitätsarten nur konstruktzentriert
bündelt.
Als ein besonderes Instrument der Zusammenführung von Validitätsklassen kann
hier allerdings die sog. Multitrait-Multimethod-Analyse (Campbell & Fiske, 1959)
rubriziert werden, bei der es sich um ein vergleichsweise sophistiziertes Validierungskonzept handelt. Ihr Grundgedanke besteht darin, dass die Ergebnisse allen wissenschaftlichen Messens auch von der gewählten Methode abhängen. Jedes Konstrukt ist
nicht »an sich« beobachtbar oder aufzeigbar, sondern zumindest teilweise eine Resultante der vorgenommenen Operationalisierungen zu deren Erfassung. Von daher besteht ein wichtiges Anliegen darin, den spezifischen Anteil, den die jeweilige Operationalisierung oder Methode an der beobachtbaren Variation erzeugt, aus der Konfundierung Konstrukt plus Methode herauszulösen und »sichtbar« zu machen. Dazu sind
mindestens die Kombinationen von 2 Konstrukten mit 2 Methoden (z. B. ein Test und
dazugehörige Fremdeinschätzungen) erforderlich. Die angestrebte Trennung gelingt
dann am besten, wenn Konstrukte und Methoden voneinander stark divergieren. Das
Zu all diesen und vielen weiteren theoriegeleiteten Hypothesen liegen bestätigende Befunde vor. Ungeachtet einiger Inkonsistenzen (s. Amelang & Bartussek, 1990,
S. 321–331) ist dadurch die Konstruktvalidität der E-I-Skala in einer außerordentlich
umfassenden Weise abgeklärt. Daneben werden ständig weitere Arbeiten durchgeführt, als deren Folge sich u. a. auch Differenzierungen und Modifikationen der zugrundeliegenden theoretischen Vorstellungen ergeben.
4
4
4
4
lierende Substanzen bei Extravertierten größere Leitungszuwächse produzieren
als bei Introvertierten.
In fortlaufenden einfachen motorischen Handlungen mit Wiederholungscharakter sind eher Anzeichen von »Ermüdung« (Hemmung) bei den Extravertierten als
bei den Introvertierten zu erwarten.
Die Schmerzresistenz ist bei Extravertierten höher als bei Introvertierten. Zu
prognostizieren ist bei Extravertierten auch ein stärkerer Reminiszenzeffekt, ein
höherer α-Anteil im Ruhe-EEG und ein geringeres Langzeitgedächtnis.
Im Sozialverhalten sind auf seiten der Extravertierten höhere Kriminalitäts- und
Scheidungsraten zu erwarten, des Weiteren eine Neigung zu Drogen im weitesten Sinne (Alkohol, Nikotin), Einstellungen mehr im Sinne von »tough-mindedness« und weniger in Richtung von »tender-mindedness«.
Eine Erregung des limbischen Systems, das als neurophysiologische Grundlage
von Neurotizismus angenommen wird, führt vorliegenden Anhaltspunkten zufolge zu retikulärem Arousal, also einer nervösen »Feuerung« (aber umgekehrt
führt retikuläres Arousal nicht zu limbischer Aktivation). Aus diesem Grunde ist
eine geringe Korrelation der Neurotizismus- mit Introversionsscores wahrscheinlich.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
Multitrait-Multimethod-Analyse
159
2
2
160
.02
.05
Gesellig
Ängstlich
6
.24ss
Vertrauensvoll
Methode 2
.00
–.25ss
N
.57ss
HN
E
.84
.57ss
IT27
SRT
Methode 1
IT27
–.04
.26
.42ss
–.16
.28s
.41ss
.70
SRT
Methode 1
.11
.00
.22ss
–.02
.17
.73
HN
–.18
.34ss
.04
–.15
.83
E
.41ss
–.03
.18
.85
N
.10
.40ss
.69ss
Vertrauensvoll
–.12
.67ss
Gesellig
Methode 2
.42ss
Ängstlich
. Tabelle 2.20. Multitrait-Multimethod-Matrix mit den Methoden 1 (Fragebogen) und 2 (gemittelte Fremdeinschätzung) sowie den Konstrukten Vertrauen (erfasst mit den Skalen IT27, SRT
und HN) sowie Extraversion und Neurotizismus. (Nach Amelang et al., 1984, S. 210)
Bei der Erprobung einer neuen Skala für zwischenmenschliches Vertrauen bearbeiteten 101 Erwachsene beiderlei Geschlechts u. a. 3 Fragebogentests zum Konstrukt
Vertrauen, und zwar eine deutschsprachige Adaptation der auf Rotter zurückgehenden Interpersonal Trust Scale sowie die Skalen Self Reported Trust (SRT) von Constantinople (1970) und Trust aus den Philosophies of Human Nature (HN) von
Wrightsman (1974). Als diskriminante Konstrukte dienten Extraversion und Neurotizismus, erfasst mit Hilfe des Eysenck-Personality-Inventory. Als alternativer methodischer Zugang zu diesen Fragebogen standen Fremdeinschätzungen von jeweils 2
Bekannten oder Freunden auf konstruktadäquaten Eigenschaftsdimensionen zur
Verfügung. Die Resultate sind ausschnitthaft in . Tab. 2.20 zusammengestellt.
Beispiel
zentrale Prinzip besteht darin, die 4 Messwertreihen an einer Stichprobe von Personen
zu erheben und Korrelationen zu analysieren. Die verschiedenen Methoden zu einem
Konstrukt sollten miteinander hoch, die mit ein und derselben Methode erfassten Konstrukte jedoch niedrig miteinander interkorrelieren (konvergente bzw. diskriminante
Validität), d. h. auch bei identischer Methode sollten sich unähnliche Konstrukte als
relativ unabhängig erweisen. Nachfolgend wird ein empirisches Beispiel dazu gegeben.
Eingehender sind die Prinzipien der Multitrait-Multimethod-Analyse von Ostendorf et al. (1986) dargestellt und anhand von Erhebungen an N = 641 Probanden mit
der deutschsprachigen Form der Personality Research Form exemplifiziert worden.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Nebengütekriterien
Über die relative Wichtigkeit der Nebengütekriterien zueinander (und auch zu den
Hauptgütekriterien) mögen die Meinungen auseinandergehen. Es gibt keine Anhaltspunkte für eine unter allen Gesichtspunkten objektive Entscheidung. Für die
nachfolgende Darstellung sollen 2 Kriterien herausgegriffen werden, von denen
das eine relativ »testnah« ist, insofern es die Einordnung der ermittelten Testscores
in das Verhalten anderer Testteilnehmer betrifft, das andere mehr »entscheidungsnah«, weil die aus den Testdaten abzuleitenden Konsequenzen im Vordergrund
stehen.
2.3.2
Insgesamt können damit die Forderungen von Campbell und Fiske (1959) für die
Validierung der Vertrauensskala als erfüllt gelten.
Von spezifischer Bedeutung für die hier anstehende Analyse sind andere Werte:
4 Die Koeffizienten für die Kombination von Test mit »zugehörigen« RatingDimensionen finden sich im linken unteren Drittel und sind durch Schattierung
besonders hervorgehoben. Alle Werte sind mindestens auf dem 5%-Niveau
signifikant. Das arithmetische Mittel beträgt r-tc = .35. Mit dem Nachweis dieser
signifikanten (konvergenten) Validitäten ist die erste Forderung erfüllt.
4 Eine zweite Forderung geht dahin, dass die eben dargestellten Kombinationen
höhere Koeffizienten aufweisen als die »nichthomologen« Paarungen von Testund Fremdeinschätzungsskalen. In der Tat beträgt deren arithmetisches Mittel
nur r- = .10 (ohne Berücksichtigung des Vorzeichens), was die diskriminante Validität belegt.
4 Die dritte Forderung bezieht sich auf das Multitrait-Monomethod-Dreieck und
läuft auf höhere Korrelation innerhalb ein und desselben Traits (bei Konstanz der
Methode) als zwischen den Traits hinaus. Das betrifft im vorliegenden Material
nur die linke obere Matrix. Das Mittel der eingerandeten Koeffizienten beträgt
r- = .51, dasjenige der restlichen Werte außerhalb der Reliabilitätsdiagnonalen
nur r- = .15. Auch hier findet sich also ein wesentlicher Unterschied zwischen
konvergenter und diskriminanter Validität.
4 Eine vierte Forderung verlangt schließlich identische Zusammenhänge zwischen
den Traits unabhängig von der Messmethode (Äquivalenz der divergenten
Validitäten). Während sich für die Fragebogen ein Zusammenhang zwischen
den 3 Vertrauensskalen und Extraversion von durchschnittlich r- = .15 errechnet,
beträgt der eine Koeffizient für die Kombination der Fremdeinschätzungen
vertrauensvoll/gesellig r = .40; das stellt keine gute Übereinstimmung dar.
Wesentlich günstiger sieht es aber für Neurotizismus aus, wo die entsprechenden Koeffizienten r- = –.14 und r = .10 lauten. Schließlich ist auch der Zusammenhang zwischen E und N mit r = –.15 bzw. r = –.12 durchaus wechselseitig konkordant.
In der Matrix gebührt den Diagonalen vorrangige Aufmerksamkeit:
4 In der Hauptdiagonalen stehen die Reliabilitäten der Skalen. Diese Werte sind
am höchsten, was als eine Grundtatsache zu erwarten ist.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
161
2
2
Äquivalentnormen:
Zuordnung der Scores
zum Alter oder zu
Reifeabschnitten
Bei den Staffeltests, die auf Binet zurückgehen, sind die Aufgaben bekanntlich danach ausgewählt worden, dass sie – darin den Entwicklungstests sehr ähnlich – einen besonders steilen Anstieg der Lösungswahrscheinlichkeiten auf bestimmten
Altersstufen aufwiesen. Aufgaben qualifizierten sich dann für die Testendform, wenn
sie etwa von einer Altersgruppe in besonderer Häufung, von der darunter liegenden
Altersgruppe gar nicht gelöst werden konnten. Die Stelle auf dem Alterskontinuum,
an der diese Gegebenheiten vorlagen, entschied über die Zuordnung von Aufgaben
zu Altersgruppen. Pro Altersstufe gab es 5 Aufgaben, die zusammen 1 Jahr oder 12
Monate Intelligenzalter (IA) definierten. Pro richtig gelöstem Item entsprach das
mithin 12/5 IA oder 2,4 Monatsäquivalenten.
Wenn ein Proband im Lebensalter (LA) von 8 Jahren (= 96 Monaten) die für seine
Altersgruppe vorgesehenen Aufgaben (und auch diejenigen für die darunterliegenden Altersgruppen) richtig beantwortete, entsprach das einem individuellen IA von
96 Monaten oder 8 Jahren. Jede weitere richtige Lösung, gleich auf welcher Altersstufe, würde ein Mehr in Einheiten von 2,4 Monatsäquivalenten bedeuten. Hätte der
Proband hingegen nur Aufgaben für die 6jährigen (= 72 Monate) plus 2 weitere aus
dem Pool der 7jährigen geschafft, wäre das gleichbedeutend mit einem IA = 72 +
(2 × 2,4) = 76,8 gewesen.
Aus dem Vergleich des individuellen IA mit dem LA geht hervor, ob die Intelligenz »altersgemäß« ausgeprägt ist oder nicht.
Beispiel
Bei der Bildung von Äquivalentnormen erfolgt eine Zuordnung der jeweiligen Rohwerte oder Skalenscores zu bestimmten Zeitabschnitten, für die die betreffende Leistung besonders typisch ist, und zwar deshalb, weil sie von einer Referenzgruppe in
besonderer Häufung gezeigt wurde. Die Zeitstufe, auf die Bezug genommen wird, stellt
bei Intelligenz das Alter, bei Entwicklung der Reifestatus dar (Intelligenz- bzw. Entwicklungsalter).
! Bei diesem Transformationen unterscheidet man
5 Äquivalentnormen,
5 Variabilitäts- oder Abweichungsnormen,
5 Prozentrangnormen.
2.3.2.1 Normierung
Die Normierung eines Tests liefert das Bezugssystem, um die individuellen Testscores
im Vergleich zu denen einer größeren und meist »repräsentativen« Stichprobe von
Testteilnehmern einordnen zu können.
Auch wenn eine Skala hochgradig objektiv, reliabel und auch valide sein mag, so interpretieren sich die damit erhaltenen Scores doch nicht »aus sich selbst heraus«. Beispielsweise bedeuten 15 richtige Lösungen etwas Verschiedenes, wenn die Zahl angebotener
Aufgaben auch 15 oder aber 30 beträgt, und sie bedeuten etwas völlig Verschiedenes, wenn
alle anderen Probanden auch 15 geschafft haben oder aber keiner. Noch in einem anderen
Sinne bedeuten die 15 Richtigen etwas anderes, je nachdem, ob von ihnen die Leistung des
Probanden oder aber die Schwierigkeit des Tests charakterisiert werden soll.
Die Normierung stellt den diesbezüglich erforderlichen Bezugsrahmen zur Verfügung und sagt uns, was die Rohpunktwerte »bedeuten«. Zu diesem Zweck werden die
Rohwerte in transformierte Werte überführt, deren Bedeutung durch Rekurs auf bestimmte Operationalisierungen bekannt ist.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Normierung als
Bezugssystem zur
Interpretation von
Testscores
162
Jedenfalls handelt es sich bei dieser Auflistung um ein Gefüge theoretischer Annahmen
von hoher Plausibilität oder um ein Modell, das z. B. in Gestalt des sog. Galton-Brettes
das Entstehen von Normalverteilungen bei der zufälligen Kombination vieler Bedingungen (Kugeln, die auf Reihen von Nägeln fallen und unten in Schächten aufgefangen
werden) sehr eindrucksvoll vor Augen führt (. Abb. 2.34).
Normalverteilungen weisen die Eigenschaften auf, dass
4 der Abstand vom Mittelwert M der Verteilung zu deren Wendepunkt identisch ist
mit einer Einheit der Standardabweichung s und
4 die relative Häufigkeit von Messwerten unter den einzelnen Abschnitten der Verteilung, sofern diese in Einheiten der Standardabweichung ausgedrückt werden, stets
gleich ist, oder mit anderen Worten: Die Häufigkeit von Maßzahlen steht in direkter
Beziehung zu s. Das heißt, immer dann, wenn M und s bekannt sind und feststeht,
dass eine »normale« Verteilung vorliegt, kann die gesamte Verteilung aller Messwerthäufigkeiten angegeben werden. So liegen in der Standardnormalverteilung
zwischen M und 1s ca. 34% der Maßzahlen, zwischen M und 2s ca. 48% usw.
Die Einheit »Intelligenzalter« (oder bei anderen Tests: »Entwicklungsalter«) bildet somit
ein Äquivalent für die Zahl richtiger Lösungen, nämlich jener, die von den Angehörigen
einer Altersgruppe mehrheitlich gemeistert werden. Wegen der Plausibilität dieses Konzeptes haben derartige Äquivalentnormen verbreitete Akzeptanz gefunden.
Weil gleiche numerische Differenzen (IA–LA) etwas ganz Unterschiedliches bedeuten,
je nachdem, auf welcher LA-Stufe sie auftreten (z. B. ein Minus von 2 IA-Einheiten bei einem 12jährigen keineswegs als dramatisch erscheint, bei einem 4jährigen dagegen Schwachsinn anzeigen kann), hat Stern (1911) (. Abb. 2.33) vorgeschlagen, IA und LA in einem
Quotienten aufeinander zu beziehen, dem Intelligenzquotienten, und den Bruch zur
Gewährleistung ganzer Zahlen mit dem Faktor 100 zu multiplizieren: IQ = (IA/LA) · 100.
Damit sollte eine Vergleichbarkeit von Leistungsvorsprüngen bzw. -rückständen über verschiedene Altersstufen erreicht werden [so besteht für einen Probanden, der als 4jähriger
ein IA von 3 aufweist (IQ = 3/4 · 100 = 75), als 8jähriger ein IA von 6 erzielt (IQ = 6/8 ·
100 = 75) usw. damit eine Konstanz des IQ in seiner Bedeutung als Vergleichsmaßstab zu
Altersgleichen]. Gebunden ist dies an die Voraussetzung, dass mit zunehmendem Alter die
Streuung der IA-Einheiten proportional zunimmt, was weithin zutraf. Ungeachtet der
Gleichheit der Zahlen bedeuten aber psychologisch die beiden IQs etwas ganz Verschiedenes, und zwar deshalb, weil unterschiedliche absolute Leistungen in IA-Einheiten eingehen.
Darüber hinaus ist die Bildung eines derartigen Quotienten nur legitim bei strikt linearem
Anstieg der Leistungen über das Alter hinweg. Die meisten der vorliegenden Untersuchungen haben demgegenüber einen negativ beschleunigten Entwicklungsverlauf gefunden, mit
einem Kulminationspunkt im frühen Erwachsenenalter. Gerade wegen des Abflachens der
Leistungszuwächse mit zunehmendem Alter in der Jugendzeit war es unmöglich, das Konzept der Äquivalentnormen auch auf spätere Altersgruppen anzuwenden.
Variabilitäts- oder Abweichungsnormen kennen die zuletzt genannten Probleme
nicht, setzen dafür aber ein gewisses Verständnis für die Beschreibung von Häufigkeitsverteilungen voraus, in denen die Messwerte entweder im Sinne der Gaußschen Glockenkurve normal oder auch nicht normal verteilt sind.
Normalverteilungen kommen dann zustande, wenn an der Hervorbringung einer
Merkmalsausprägung
4 eine Vielzahl verschiedener Wirkfaktoren beteiligt ist,
4 diese Faktoren unabhängig voneinander ihren Einfluß entfalten und
4 sich die verschiedenen Wirkungen zu der Merkmalsausprägung addieren.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Eigenschaften von
Normalverteilungen
Kennzeichen von
Normalverteilungen
Variabilitäts- oder
Abweichungsnormen:
Bezug zu Häufigkeitsverteilungen
Der Intelligenzquotient
als Äquivalentnorm
. Abb. 2.33. William Stern
führte 1911 das Konzept des
Intelligenzquotienten ein
163
2
Konstante Multiplikatoren und Polungen
bei Standardskalen
Transformation in
z-Werte
Standardnormalverteilung: M = 0 und s =1
(2.84)
Durch diesen Rekurs auf die Standardnormalverteilung sind die Rohwerte in sog. Standardnormen transformiert worden. Jeder z-Wert ist eindeutig dadurch definiert, wie
weit der zugehörige Rohwert vom Mittelwert der originalen Maßzahlen entfernt ist
(. Abb. 2.35).
Zur Vermeidung von negativen Vorzeichen und gebrochenen Zahlen ist es üblich,
die z-Werte mit einem Faktor zu multiplizieren und eine additive Konstante hinzuzufügen. Am weitesten verbreitet ist die Konstante 100. Was den Multiplikator angeht, so
sind dafür ganz unterschiedliche Größen gewählt worden. Wechsler entschied sich bei
der Vorstellung seines »Abweichungs-Intelligenz-Quotienten« für den Faktor 15, und
zwar deshalb, weil die Standardabweichung der IQs als Bruch von IA und LA empirisch
einen Wert von ca. 15 ergeben hatte und zwischenzeitlich eine allgemeine Vertrautheit
damit eingetreten war.
Andere Autoren gaben sehr viel kleineren Werten den Vorzug. Beispielsweise beträgt der Multiplikator im Leistungsprüfsystem (LPS) von Horn (1983) nur 2. Maßgeblich dafür war u. a. die Überlegung, dass höhere Multiplikatoren die Gefahr beinhalten könnten, eine Differenzierung vorzuspiegeln, die mit Blick auf die nicht absolute Reliabilität keine Rechtfertigung findet.
X-M
=z
sx
Die sog. Standardnormalverteilung ist durch M = 0 und s = 1 erschöpfend beschrieben. Die Verteilungen von Merkmalen, wie Körpergröße oder Körpergewicht, politischen Einstellungen auf einem globalen Links-Rechts-Kontinuum usw., mögen je nach
Art des gegebenen Abszissenmaßstabes verschieden breit bzw. schmal erscheinen. Man
erhält jedoch häufig ein und dasselbe charakteristische Aussehen, d. h. denselben Verlauf der Häufigkeiten, wenn als Abszissenmaßstab die empirisch ermittelte Standardabweichung der jeweiligen Verteilung gewählt wird. Das geschieht, indem die Abweichung jedes einzelnen Messwertes X vom Mittelwert M der Verteilung in Einheiten der
jeweiligen Streuung sx, also in Standardwerten (z-Werte) ausgedrückt wird:
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.34. Nagelbrett
zur Veranschaulichung einer
Normalverteilung (Aus
Bortz, 1997)
164
0
100
100
50
5
5
5,5
z- Werte
IQ
Z-Werte
T-Werte
Centile
Stanine
Stene
1
15
10
10
2
2
2
Standardabweichung
–2 bis +2
70-130
80-120
30-70
1-9
1-9c
1-10
Bereich
HAWIE/HAWIK
IST-Amthauer
MMPIa
PSBb
FPId
16PFf
Beispiel
b
MMPI Minnesota Multiphasic Personality Inventory (7 Abschn. 3.2.3).
PSB Prüfsystem für Schul- und Bildungsberatung (Horn, 1969).
c
Dieser Bereich definiert die Skala als »standard-nine«; im Unterschied zu den anderen Normskalen sind hier keine noch extremeren Werte möglich.
d
Freiburger Persönlichkeits-Inventar.
e
Von Standart-ten.
f
16 PF 16 Personality Factors (7 Abschn. 3.2.3).
a
Mittelwert
Skala
. Tabelle 2.21. Einige gebräuchliche Normenmaßstäbe. (Unter »Bereich« ist die Spanne von
±2 Standardabweichungen angegeben.)
Beispiel
Üblicherweise erfolgt die Polung in der Richtung, dass höheren Normwerten auch
höhere Leistungen entsprechen. Diese Regel aber fand keine Anwendung im Begabungstestsystem (BTS) von Horn (1972), das in Analogie zu den Schulnoten auf
M = 3,0 und s = 1,0, aber mit negativen Vorzeichen normiert wurde, hohe Testleistungen also zu niedrigen Normwerten führen und umgekehrt. Einige gebräuchliche Normenmaßstäbe werden in . Tab. 2.21 aufgeführt.
Da sich alle Standardskalen leicht ineinander überführen lassen, darf zu Recht die
Frage gestellt werden, ob nicht einem der Normierungsmaßstäbe eine allgemeine Leitfunktion beigemessen werden sollte.
Immer dann, wenn die Messwerte nicht normalverteilt sind, verbietet sich die
Transformation in Standardnormen, und zwar deshalb, weil die dafür notwendigen
Voraussetzungen nicht erfüllt sind. Statt dessen werden derartige Verteilungen nach
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
. Abb. 2.35. Relative
Häufigkeiten von z- sowie
IQ-Werten unter den einzelnen Abschnitten der Normalverteilung
165
2
Repräsentativität der
Normierungs- oder
Eichstichprobe
Gleiche Abstände
haben u. U. verschiedene Bedeutungen
Prozentränge
benötigen keine
Voraussetzungen
Prozentrangnormen:
Relative Position auf
der Rangreihe der
Bezugsgruppe
cumf
⋅100
N
13
4
84
14
1
85
(2.85)
Der große Vorzug von Prozenträngen besteht in ihrer Voraussetzungslosigkeit, was die
Verteilungsform der Messwerte angeht, und in ihrer leichten Verständlichkeit: Jedermann kann sich ganz unschwer vorstellen, dass einem PR von beispielsweise 90 die
Tatsache entspricht, dass nur 10% der vergleichbaren Probanden einen noch höheren
Messwert erreichen.
Andererseits muss bei Prozenträngen in Rechnung gestellt werden, dass numerisch
gleiche Differenzen in der PR-Skala in Abhängigkeit vom Abschnitt der Messwerteverteilung ganz unterschiedlichen Differenzen in Standardwertnormen entsprechen. Der
Abstand beispielsweise zwischen PR 5 und 15 ist numerisch identisch mit demjenigen
zwischen 50 und 60. Dies bedeutet in der Verteilung mit M = 9,76 und s = 1,63 (7 Beispiel) im ersten Fall jedoch eine Z-Werte-Differenz von 5 (nämlich von Z = 85 bis
Z = 90), im zweiten von 2,5 (nämlich von Z = 100 bis Z = 102,5) Punkten.
Was die empirischen Daten angeht, die für jede Normierung unerlässlich sind, so
ist eine repräsentative Zusammenstellung der Normierungs- oder Eichstichprobe un-
Der Prozentrang für die Maßzahl 8 beträgt: PR = cumf/N · 100
= 17/85 · 100
= 20
X = M = 9,76,
s = 1,63.
In einem Experiment hätten sich folgende Häufigkeiten ergeben:
Maßzahl
5
6
7
8
9
10
11
12
f
1
0
6
10
19
24
14
6
cumf
1
1
7
17
36
60
74
80
Beispiel
PR = Prozentrang,
f
= Häufigkeit von Messwerten innerhalb einer Klasse,
cumf = kumulierte Häufigkeit der Messwerte bis zur Klassengrenze,
N
= Gesamtzahl aller Probanden.
PR =
Maßgabe der relativen Maßzahlhäufigkeiten (= »Fläche«) in einzelne Abschnitte aufgeteilt und diesen Segmenten oder Transformationen Standardnormäquivalente zugeordnet.
Ob eine Normalverteilung der Messwerte vorliegt oder nicht: Weder in dem einen
noch dem anderen Fall kann daraus auf die Verteilungsform des Konstruktes »an sich«
geschlossen werden, da sich in den Maßzahlen auch stets die spezifischen Operationalisierungen zur Erfassung der Merkmalsdimension niederschlagen und insofern der
Untersuchungsgegenstand stets auch von der Methode abhängt, die zu seiner Beschreibung herangezogen wird.
Bei Prozenträngen (PR) handelt es sich um eine weitere Normierung, bei der die
Transformation darin besteht, dass den Maßzahlen die relative Position auf der nach
Größe ranggereihten Messwerteskala der Bezugsgruppe zugeordnet wird:
Kapitel 2 · Grundlagen diagnostischer Verfahren
Alternative: Zuordnung von Standardnormäquivalenten
166
Testfairness
Die gesellschaftspolitischen Bewegungen und gesetzgeberischen Initiativen, wie sie in
dem soeben angeführten Zitat exemplarisch geschildert werden, haben auch in der
testpsychologischen Fachliteratur zu einer intensiven Diskussion über »Testfairness«,
»Testbias« und »Fairness der Auslese« Anlass gegeben (. Abb. 2.36). Als Ergebnis dieser
Kontroverse liegen seit Ende der 60er Jahre ganz unterschiedliche Vorstellungen darüber vor, was im Einzelnen unter einer fairen Selektionsstrategie zu verstehen ist. Ein
Vergleich der verschiedenen Definitionen von Fairness lässt jedoch erkennen, dass
diese nicht primär fachwissenschaftliche, sondern spezifisch politische Wertvorstellungen implizieren. Je nachdem, welche gesellschaftspolitischen Ziele im Einzelfall handlungsbestimmend sind, bedeutet das eine Entscheidung zugunsten ganz bestimmter
und zu Lasten anderer Fairnessmodelle. Weil sich die zugrundeliegenden Wertvorstellungen wechselseitig ausschließen, handelt es sich bei Fairness nicht um eine technische
Qualität, die einem Instrument zu eigen ist oder nicht. Es gibt nicht den fairen Test oder
das faire Selektionsverfahren, sondern nur Fairness im Hinblick auf Handlungs- und
Entscheidungsaspekte (die expliziert werden müssen). In dem Maße, in dem sich die
angestrebten Ziele voneinander unterscheiden, kann ein und dasselbe Testinstrumentarium als mehr oder weniger fair angesehen werden.
»Murphy Archibald, 30, ein Vietnam-Heimkehrer aus Alabama, hatte sich, wie er meinte, durch gute akademische Leistungen die Aufnahme in ein Stipendium an der Vilanova-Universität verdient. Doch als er an der Universität auftauchte, befand sich seine
Akte unter »Minoritäten-Bewerber« mit einem b wie »black« darauf. Als die Sachbearbeiter erkannten, dass der Mann aus Alabama nicht schwarz, sondern weiß war, wurde
ihm das Stipendium entzogen. Ex-Stipendiat Archibald verdankt sein Scheitern der
guten Absicht der Bürgerrechtsbewegung des Präsidenten Johnson: Der Civil-RightsAct von 1964 verbietet in Absatz 7 jedwede Benachteiligung amerikanischer Bürger
aufgrund von Rasse, Geschlecht, Hautfarbe, Religion oder nationaler Herkunft.« (Der
Spiegel, 1975, Nr. 7, S. 93)
2.3.2.2
erlässlich; nur dann macht es Sinn, einzelne Messwertträger mit ihrem Punktwert auf
den durch die Population definierten Hintergrund zu beziehen. Sinnvoll und aussagekräftig sind neben einer Aufgliederung in Altersgruppen bei Leistungstests auch gesonderte Normen für verschiedene Schultypen. Ein Z-Wert von 110 bedeutet zwar für die
Gesamtheit aller Probanden ein leicht überdurchschnittliches Niveau (= Prozentrang
84), doch in Bezug auf Oberschüler nur eine durchschnittliche Leistung und im Vergleich zu den erfolgreichen Examinanden eines Studienganges vermutlich weniger als
den Durchschnitt. In Persönlichkeitstests finden sich häufiger auch geschlechterspezifische Normen. Wenn beispielsweise bekannt ist, dass Frauen im Mittel ängstlicher sind
als Männer, könnte es leicht zu falschen Schlüssen führen, den Ängstlichkeitsscore einer
weiblichen Probandin am Durchschnitt aller Merkmalsträger zu relativieren.
Eine weitere Forderung geht dahin, dass die Normdaten aktueller Herkunft sein
sollen. Die Literatur ist voller Beispiele über markante Leistungszuwächse im Laufe der
Zeit, teils als Folge allgemein verbesserter Anregungs- und Schulungsbedingungen,
teils als Folge spezifischer Ereignisse in Technik, Sport oder Wissenschaft. Diese führen
dazu, dass ein und derselbe individuelle Punktwert immer leichter zu erzielen ist. Vor
diesem sich änderndem Hintergrund müßten die Verfahren laufend »nachnormiert«
werden, doch hapert es an der Einlösung dieser Notwendigkeit ebensooft wie an der
Bereitstellung hinreichend repräsentativer Eichstichproben.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Gesellschaftspolitischer Einfluss auf die
Definition von Fairness
Normdaten sollen
aktuell sein
167
2
Schwachstelle:
Effizienz des Verfahrens unbeachtet
Proportionale
Repräsentativität der
Stichprobe
»nur unter einer Annahme sinnvoll zu sein, die von den Vertretern dieses Modells offenbar implizit gemacht wird, nämlich unter der Annahme, daß die … Gruppen ›in
Wirklichkeit‹ gleich leistungsfähig sind (sowohl im Kriterium wie in den durch den Test
zu erfassenden Merkmalen) und daß der Test durch fehlerhafte Konstruktion Unterschiede zwischen den Gruppen nur vortäuscht.« (Bartussek, 1982, S. 3)
Einer gängigen Position zufolge gilt eine Selektionsmaßnahme dann als fair, wenn sie
gewährleistet, dass in der Stichprobe der ausgewählten Bewerber die Proportion der
miteinander verglichenen Gruppen dieselbe ist wie in der Bewerberpopulation (= proportionale Repräsentation). Gewöhnlich läuft das auf die Forderung nach Übereinstimmung der Mittelwerte und Standardabweichungen (sowie weiterer Verteilungskennwerte) für Populationssubgruppen hinaus, die als relevant erscheinen (z. B. Geschlechter,
soziale Schichten, regionale Herkunft usw.).
Die Schwachstellen einer solchen Definition sind sowohl konzeptioneller als auch
empirischer Art. Weil nur die Gegebenheiten auf seiten des Vorhersageinstrumentes in
die Definition eingehen, bleiben Aussagen über die Effizienz des Verfahrens im Hinblick auf den Erfolg der ausgewählten Bewerber gleichsam ausgeblendet. Unterstellt
man andererseits, dass Diagnosen keinen Selbstzweck erfüllen, sondern die Basis für
Prognosen wie etwa dem Erfolg in einem Kriterium liefern, scheinen die Forderungen
des Modells
Das Modell der proportionalen Repräsentation(Quotenmodell, Identitätskonzept)
Die nachfolgende Darstellung gilt nur den wichtigsten Fairnessmodellen. Weitere
Konzepte und insbesondere eine vertiefende Auseinandersetzung damit finden sich in
den Sammeldarstellungen von Jensen (1980), Weiss und Davison (1981) sowie Bartussek (1982).
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.36. Im Hinblick
auf inter-ethnische Unterschiede stellt sich das Problem der Fairness von Begutachtung und Entscheidung
168
Der Definition von Cleary (1968) zufolge ist ein Selektionsverfahren dann fair, wenn
bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht.
Diese Forderung ist dann erfüllt, wenn die zur Vorhersage des Kriteriums verwendeten gruppenspezifischen Regressionsgeraden miteinander identisch sind, d. h. gleiche Steigungen aufweisen und an derselben Stelle die Ordinate schneiden (Konstante a
in der Regressionsgleichung, 7 Abschn. 2.1.1.5, Vorhersage auf der Basis von Testwerten). Für die Prädiktion des Kriteriums Y aus den Testwerten X kann deshalb in einem
solchen Fall für alle Messwertträger (ohne Berücksichtigung ihrer Gruppenzugehörigkeit) eine gemeinsame Regressionsgerade angenommen werden, ohne dass dadurch
einzelne Probanden je nach ihrer Gruppenzugehörigkeit systematisch bevorzugt oder
benachteiligt würden.
Das Regressionsmodell (Modell einer fairen Vorhersage)
Eben diese Annahme trifft nach den vorliegenden Ergebnissen für gut konstruierte
Tests definitiv nicht zu (s. Jensen, 1980, S. 465–515; Weiss & Davison, 1981, S. 697 ff.).
Wenngleich hin und wieder Resultate berichtet werden, die näherungsweise in Einklang damit zu stehen scheinen (z. B. Michel, 1977; Trost et al., 1978, 1980), weist die
Befundliteratur doch überwiegend eine deutliche Abhängigkeit der Mittelwerte von
Leistungs- und Persönlichkeitstests von Gruppierungsgesichtspunkten der genannten
Art aus. Die Erfüllung einer radikalen Fassung eines solchen Konzeptes muss somit aus
methodischer Sicht fragwürdig erscheinen, weil sie nur zu Lasten der Validität geleistet
werden könnte.
Die mit systematischen Gruppenunterschieden verbundenen Probleme sind innerhalb der psychologischen Diagnostik für bestimmte Teilgruppen schon frühzeitig berücksichtigt worden; allerdings erfolgt die Beschäftigung damit unter dem Stichwort
einer »Normierung« der Testwerte. Namentlich im Leistungsbereich werden i. Allg.
individuelle Punktwerte an denjenigen von alters- und/oder geschlechtsgleichen Personen relativiert (vgl. Abweichungsnormen). Dahinter verbirgt sich die Überzeugung,
dass es alters- oder geschlechtsabhängige Unterschiede nicht geben »darf« bzw. es unbillig wäre, etwa ältere Personen hinsichtlich ihrer Leistungsfähigkeit mit jüngeren zu
vergleichen. Bemerkenswert dabei ist, dass von einer Normierung für die verschiedenen sozioökonomischen Schichten in den allermeisten Fällen abgesehen wird, obwohl
gerade im Hinblick darauf die Mittelwertsunterschiede gravierend sind.
Ungeachtet solcher Erwägungen kann Fairness kaum hergestellt werden durch Verwendung detaillierter, alle denkbaren Unterscheidungsmerkmale berücksichtigender
Normtabellen: So wäre es gewiss unsinnig, beispielsweise einen 50jährigen Alkoholkranken mit einer anspruchs- und verantwortungsvollen Überwachungsaufgabe nur
deshalb zu betrauen, weil er innerhalb der Subgruppe altersgleicher Alkoholkranker
über hervorragende Leistungen in den einschlägigen Tests verfügt. Vielmehr muss die
Entscheidung darüber von dem Umstand abhängig gemacht werden, welches Ausmaß
an faktischer Bewährung bei einem gegebenen Testpunktwert zu erwarten ist. Der ausschlaggebende Aspekt liegt somit nicht in der Frage, ob es Unterschiede der Testmittelwerte an sich gibt, sondern ob bestimmte Verfahren zu subgruppenspezifischen Fehleinschätzungen der Kriteriumswerte führen oder nicht (s. Wottawa & Amelang, 1980).
Das Identitätskonzept wird deshalb in der psychologischen Literatur nicht ernsthaft
vertreten. Vielmehr stehen dort solche Modelle im Mittelpunkt, bei denen der Erfolg
im Kriterium eine vorrangige Rolle spielt, wobei dieser in unterschiedlicher Weise auf
jenen im Prädiktor bezogen wird.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Fairness bei identischen Regressionsgraden
Subgruppenspezifische Fehleinschätzungen der Kriteriumswerte
Umgang mit systematischen Gruppenunterschieden
169
2
Auswahl der im
Kriterium voraussichtlich Besten
Beispiel für Testfairness
nach dem Regressionsmodell
. Abbildung 2.37 veranschaulicht diese Gegebenheiten am Beispiel von 2 Gruppen
und macht zugleich deutlich, dass bei diesem Modell sehr wohl bedeutsame Mittelwertsunterschiede im Prädiktor auftreten mögen, mit denen aber richtungsgleiche Differenzen eines bestimmten Ausmaßes im Kriterium einhergehen müssen.
Solche Verhältnisse liegen beispielsweise in dem Untersuchungsmaterial von Simons
und Möbus (1976) vor, wo aus einer Stichprobe von N = 310 Schülern des ersten Grundschuljahres N = 58 Arbeiter- und N = 63 Akademikerkinder ausgewählt worden waren.
Die Prädiktoren bestanden aus 6 Untertests der Testbatterie Primary Mental Abilities in
der deutschsprachigen Adaptation von Kemmler (1967), die Kriterien aus den Schulleistungen in Deutsch und Rechtschreiben. Alle Variablen waren für die Gesamtstichprobe
T-normiert (7 Abschn. 2.3.2.1), also auf den Mittelwert 50 und eine Streuung von 10
standardisiert. Im Mittel der Testskalen erzielten die Arbeiterkinder einen Wert von
M = 44,9, die Akademikerkinder einen solchen von M = 54,6; im Kriterium lauteten die
Mittelwerte M = 48,1 und 54,4. Bei einem Vergleich der Regressionskoeffizienten aus
beiden Substichproben wichen die Schätzungen durch die gemeinsamen und die getrennten Regressionen nicht signifikant voneinander ab – womit die Testbatterie für das
anstehende Vorhersageproblem gemäß der übernommenen Definition fair war.
Eine der vorrangigen Implikationen des regressionsanalytischen Fairnessmodells
besteht darin, dass nur die im Kriterium voraussichtlich Besten ausgewählt werden,
d. h. der durch den Test vorhergesagte Kriteriumswert bestimmt die Auswahl. Fair ist
dieses Vorgehen für jeden einzelnen Probanden deshalb, weil jeder voraussichtlich im
Kriterium bessere Bewerber jedem voraussichtlich weniger leistungsfähigen Bewerber
vorgezogen wird (Position des »qualified individualism« sensu Hunter & Schmidt,
1976).
Ein allgemeines Merkmal dieses Modells besteht darin, dass es wegen der Auswahl
am Kriterium die voraussichtliche Erfolgsrate darin maximiert.
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.37. Das regressionsanalytische Fairnesskonzept von Cleary (1968),
veranschaulicht am Beispiel
von 2 Gruppen A und B: Die
Regressionsgrade gyx zur
Vorhersage des Kriteriums Y
aus den Testwerten X ist in
den beiden Gruppen A und
B identisch. Sie geht durch
– –
–
die Punkte (XA, YA) und (XB,
–
YB), also die jeweiligen
Schnittpunkte des Prädiktormit dem Kriteriumsmittelwert in beiden Stichproben
170
Thorndike (1971) verlangt von fairen Verfahren, dass das Verhältnis zwischen der Zahl
der durch die Testung ausgewählten Bewerber und der Zahl im Kriterium potentiell
(d. h. ohne Auswahl!) Erfolgreicher in den miteinander verglichenen Gruppen gleich
oder konstant ist.
Gemäß der schematischen Darstellung in . Abb. 2.38 bedeutet das die Forderung
nach Identität der Proportionen: (RP + FP) : (RP + FN).
Beispielsweise wären von 300 erfolgreichen Teilnehmern an einem Ausbildungsprogramm 200 aus der Unterschicht und 100 aus der Oberschicht. Könnten infolge einer
bedeutsamen Erweiterung des Trainingsinstituts 600 Bewerber für den nächsten Kurs
zugelassen werden, so würden gemäß dieser Konzeption die im Test besten 400 Unterund besten 200 Oberschichtangehörigen akzeptiert.
Soll derartigen Anforderungen Genüge geleistet werden, ohne für die Gruppen unterschiedliche Testtrennwerte einzuführen, so bedeutet das in regressionsanalytischer
Formulierung eine Parallelverschiebung der Regressionsgeraden, wie es in . Abb. 2.39
veranschaulicht ist.
Das Modell ist fair gegenüber den Gruppen A und B, weil der Anteil auszuwählender Bewerber an dem Anteil potentiell Erfolgreicher in jeder Gruppe definiert wird
(Position einer Quotendefinition von Fairness). Aus der Abbildung geht hervor, dass
–
– unter der Annahme, ein Überschreiten von YA bedeute Erfolg – bei Festsetzung des
–
–
Testtrennwertes für Auswahl bzw. Zurückweisung entweder bei XA oder XB, das Verhältnis der selegierten zu den potenziell Erfolgreichen in beiden Gruppen jeweils gleich
ist, und zwar im gewählten Beispiel 1,0.
Das Cleary-Modell würde eine derartige Konstanz der Quoten nicht gewährleisten,
wie ein Blick auf . Abb. 2.37 erkennen lässt: Dort ist zwar das Verhältnis der Ausgewählten zu den Erfolgreichen in den beiden Gruppen gleich 1 (und zwar 50%), doch
Das Modell konstanter Verhältnisse (»constant ratio model«)
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Parallelverschiebung
der Regressionsgeraden
. Abb. 2.38. Die 4 Ergebnisse eines Selektionsverfahrens. RP richtige Positive
(Anzahl Ausgewählter, die
erfolgreich sind), FP falsche
Positive (Anzahl Ausgewählter, die nicht erfolgreich
sind), RN richtige Negative
(Anzahl Zurückgewiesener,
die tatsächlich auch nicht
erfolgreich sind), FN falsche
Negative (Anzahl Zurückgewiesener, die erfolgreich
wären). x+ »cut-off« im Zulassungstest, y+ »cut-off« im
Kriterium (schlechtester
Kriteriumswert, der noch als
Erfolg gilt)
171
2
Fair gegen Selegierte,
unfair gegenüber
Abgelehnten
Nach Cole (1973) ist ein Test fair, wenn der Quotient RP:(RP + FN) in den miteinander
verglichenen Gruppen gleich ist (»conditional probability model«).
In regressionsanalytischen Terms bedeutet das im Vergleich zum Thorndike-Modell eine noch größere Distanz zwischen den parallelen Regressionsgeraden, wenn ohne
gruppenspezifische Testtrennwerte oder Bonus-Malus-System ausgekommen werden
soll. (Letzteres findet bekanntlich bei der Verteilung der Studienplätze durch die Zentrale Vergabestelle Anwendung, wo die Bewerber je nach dem Abiturnotendurchschnitt
ihres Heimatbundeslandes eine Gut- oder Lastschrift auf ihre individuellen Noten erhalten.) Linn (1973) definiert Fairness durch die Konstanz des Bruches RP : (RP + FP)
Weitere Fairnesskonzepte
stehen in B den wenigen Testbesten viel mehr potenziell Erfolgreiche im Kriterium
gegenüber.
Ein Nachteil des Thorndike-Modells besteht darin, dass es im Vergleich zur Konzeption von Cleary die Kriteriumsleistungen insgesamt gegenüber dem erreichbaren
Maximum reduziert. Das wird deutlich an Grenzfällen: Wenn beispielsweise jemand
–
aus Gruppe A den kritischen Trennwert XA knapp verfehlt, so wird er gemäß der getroffenen Vorabfestlegungen zurückgewiesen, und zwar im Unterschied zu einem Bewerber aus B, der denselben »cut-off« knapp überwunden hat, obwohl der erste Proband
nach Maßgabe der Regressionsgeraden gyxa einen höheren Erfolg aufgewiesen hätte als
B auf der Basis von gyxb. Ein konzeptuelles Problem aller Quotendefinitionen besteht
darin, dass die Definition von Fairness, orientiert an Selegierten und potenziell Erfolgreichen, in aller Regel unvereinbar ist mit einer solchen, die auf die Abgewiesenen und
potentiell Erfolglosen abhebt, oder mit anderen Worten: Ein Test, der fair ist mit Blick
auf die Selegierten, ist unfair gegenüber den Abgelehnten (= logische Inkonsistenz der
kriteriumsbezogenen Quotendefinitionen nach Novick & Peterson, 1976).
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.39. Das Fairnessmodell konstanter Verhältnisse von Thorndike (1971)
in regressionsanalytischer
Veranschaulichung: Das Verhältnis der selegierten zu
den potenziell erfolgreichen
Bewerbern ist in beiden
Gruppen A und B konstant
(hier bei dem gewählten
–
Testtrennwert XA und dem
Erreichen von Erfolg im Kriterium durch Überschreiten
–
von YA jeweils 1)
172
Misserfolg
Kriterium
18
31%
77%
77%
77%
60%
Selektionsrate
Proportion korrekter Entscheidungen
Anteil der validen Positiven an allen Selektierten (Modell gleicher Wahrscheinlichkeiten; Linn)
Anteil der Selektierten an allen potenziell Erfolgreichen (Modell konstanter Verhältnisse; Thorndike)
Anteil der validen Positiven an allen potenziell Erfolgreichen (Modell bedingter Wahrscheinlichkeiten; Cole)
6
40%
5
17
Basisrate
60
angenommen
(22)
7
24
angenommen
(31)
West
Misserfolg
Kriterium
abgelehnt (78)
Test
53
16
abgelehnt (69)
Test
3. Vergleich
Erfolg
Kriterium
2. Ost (von je 100)
Erfolg
Kriterium
1. West (von je 100)
49%
63%
77%
77%
22%
35%
Ost
65
35
Grundquote/
Basisrate
60
40
Grundquote/
Basisrate
. Tabelle 2.22. Häufigkeiten von Vorhersagequoten und -fehlern bei identischer Kriteriumsvalidität der in Ost- und Westdeutschland eingesetzten Testverfahren. (Nach Kersting, 1995,
S. 37)
Anhand der zwischen Ost- und Westdeutschen auftretenden Unterschiede in Leistungstests ist Kersting (1995) der Frage nachgegangen, welche Probleme im Hinblick auf die Fairness selbst dann bestehen mögen, wenn für beide Gruppen von
einer identischen Validität der Prädiktoren ausgegangen wird. Grundlage waren
die zwischen 1991 und 1992 erhobenen eignungspsychologischen Testdaten von
N = 1377 Bewerbern beiderlei Geschlechts um eine Ausbildung zum gehobenen
nichttechnischen Verwaltungsdienst. Die Probanden aus den alten Bundesländern
wiesen im Vergleich zu jenen aus den neuen durchschnittlich 2,6 Standardwerte
höhere Leistungen auf. Unter verschiedenen Rahmenannahmen (u. a. Testkriteriumsvalidität in beiden Gruppen rtc = .54, Anwendung desselben Testtrennwertes)
führten die Modellrechnungen zu den in . Tab. 2.22 wiedergegebenen Resultaten.
Beispiel
(»equal probability model«), d. h. für die Zugelassenen aus den relevanten Gruppen soll
die Wahrscheinlichkeit eines Erfolges im Kriterium gleich sein. Die Inkompatibilität
dieses Modells mit jenem von Cleary ist am geringsten.
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
173
2
2
Überlegungen zur
Validitätssteigerung
Wechselbeziehungen zwischen Gütekriterien
Innerhalb der Hauptgütekriterien kommt der Validität die höchste Bedeutung zu: Die
präzise Bestimmung inter- oder intraindividueller Unterschiede stellt kein Ziel für sich
selbst dar, sondern bildet nur die notwendige Voraussetzung für die Möglichkeit von
Generalisierungen, d. h. Rückschlüsse aus dem Verhalten in der Testsituation auf Merkmalsunterschiede außerhalb davon anstellen zu können. Insofern sind Objektivität und
Reliabilität der Validität gleichsam vorgeordnet: Ohne ein Mindestmaß an Objektivität
ist keine Reliabilität denkbar, ohne befriedigende Reliabilität keine hinlängliche Validität. Lienert (1989, S. 20) hat die Beziehungen der Hauptgütekriterien zueinander, wie
in . Abb. 2.40 zu sehen, veranschaulicht.
Ist eine hohe Validität erwiesen, entbindet dieses vom Nachweis der Objektivität und
Reliabilität, da in einem solchen Fall diese Gütekriterien (ebenfalls) erfüllt sein müssen.
Meist wird es jedoch darauf ankommen, durch geeignete Maßnahmen die Validität zu
2.3.3
Bei Jensen (1980, S. 405) findet sich eine vergleichende Übersicht über die vorgenannten Fairnesskonzepte, in der die Identität der Regressionsgeraden im Sinne von Cleary
angenommen wird. Um dabei den Anforderungen der einzelnen Definitionen entsprechen zu können, bedarf es gruppenspezifischer Trennwerte, die je nach Modell verschieden weit auseinander liegen.
Im konkreten Entscheidungsfall mögen politische oder ökonomische Vorgaben den
Ausschlag zugunsten des einen oder anderen Quotenmodells geben (man denke nur
an die Diskussion um die »Quotenfrauen«). Mit der Maximierung des Erfolges im
Kriterium und der Akzentuierung der Test-Kriteriums-Validitäten gebührt aber unter
methodischen Erwägungen dem Regressionsmodell von Cleary (1968) eine gewisse
Vorzugsstellung. Simons und Möbus (1976) haben zudem wahrscheinlich gemacht,
dass in bestimmten Fällen durch die Hinzunahme weiterer Prädiktoren in die Vorhersagebatterie und die dadurch erreichte Verbesserung der Validität auch subgruppenspezifischen Benachteiligungen entgegengewirkt werden kann, oder mit anderen Worten: Je höher die Validität, um so geringer ist das Risiko eines Testbias gegenüber einer
relevanten Untergruppe von Merkmalsträgern.
Abschließende Bemerkungen
Wie ersichtlich, sind die Proportionen korrekter Entscheidungen und der Anteil
der richtigen Positiven an allen Selegierten mit 77% jeweils gleich. Dieses wird erreicht, indem der ungünstigeren Basisrate im Osten (35% gegenüber 40%) durch
eine strengere Selektionsrate entgegengewirkt wird. Daraus resultieren aber unterschiedliche Quoten nach dem Thorndike- und Cole-Modell. Für das letztere, das
Modell der bedingten Wahrscheinlichkeiten, bedeuten die angegebenen Prozentzahlen für Westdeutsche eine im Vergleich zu den Ostdeutschen höhere Wahrscheinlichkeit, überschätzt zu werden: Mehr potenziell erfolgreiche Ostbewerber werden
zurückgewiesen als angenommen oder in anderer Wendung: Im Westen werden 40%
von 40%, also 16% von potentiell erfolgreichen Bewerbern nicht richtig erkannt; im
Osten lauten die Zahlen 51% von 35%, also 18% (siehe die jeweils durch Fettdruck
hervorgehobenen Quoten) – ein Beispiel dafür, wie bei einer an den Selektierten ausgerichteten Fairness gleichzeitig Unfairness bei den Abgelehnten bestehen kann.
Kapitel 2 · Grundlagen diagnostischer Verfahren
Validität als wichtigstes Gütekriterium
174
der Interpretation
Validität
(kriterienbezogen)
innere Konsistenz
Parallel- und Retest
Reliabilität
der Auswertung
der Durchführung
Objektivität
Zulänglichkeit
Konstanz des Persönlichkeitsmerkmals
Eine zentrale Bedeutung innerhalb solcher Überlegungen kommt der Variabilität der
Schwierigkeitskoeffizienten zu: Weil extreme Schwierigkeiten im Vergleich zu mittleren
die Iteminterkorrelationen, die Trennschärfeindizes und (als Folge davon) die Homogenität der gesamten Skala mindern, bietet die Variation der Itemschwierigkeiten eine
relativ einfache Handhabe für die Verbesserung der Validitätserwartungen (zu Lasten
der Reliabilität).
Batterien von Tests werden den in gewissen Grenzen unvereinbaren Anforderungen auf optimale Weise gerecht: In Form der homogenen Einzelskalen dem Aspekt
der Messgenauigkeit, in Gestalt des Gesamttestwertes dem Gesichtspunkt der Validität.
steigern, weil deren Höhe noch nicht ausreichend ist. Folgende Punkte sind in diesem
Zusammenhang zu erwägen:
4 Retestreliabilität und Paralleltestreliabilität können nicht größer sein als Objektivität
und Konsistenz. Eine Verbesserung der letztgenannten Kriterien schafft deshalb
bessere Voraussetzungen für die Reliabilität.
4 Da die Reliabilität durch Verlängerung des Tests relativ leicht angehoben werden
kann, wird darin oft ein probates Mittel zur Erzielung einer höheren Validität gesehen. Das kann i. Allg. durchaus zu praktischen Erfolgen führen. In theoretischer
Hinsicht sind Reliabilität und Validität aber partiell miteinander inkompatibel: Wie
aus der Erörterung der einfachen und doppelten Minderungskorrektur erinnerlich
ist, stehen in der betreffenden Formel zur Aufwertung der Validität (7 Abschn. 2.1.1.3)
sowohl die Reliabilität des Tests als auch diejenige des Kriteriums im Nenner. Jede
Vergrößerung dieser Kennwerte muss deshalb zu einer Verminderung des Bruches
führen, d. h. der (theoretisch interessierende) Zuwachs der Korrelation zwischen
den wahren Test- und wahren Kriteriumswerten sinkt mit steigender Reliabilität
(Attenuations- oder Verdünnungsparadox).
4 In der diagnostischen Praxis geht damit die Erfahrung einher, dass jene Verfahren,
die eine besonders hohe Reliabilität aufweisen, nämlich sehr homogene Tests, häufig nur wenig valide sind gegenüber komplexeren Außenkriterien. Die Veränderung
der Tests in Richtung auf eine größere inhaltliche Heterogenität – also unter Einbußen der Reliabilität – stellt dabei eine realistische Option zur Verbesserung der
Validität dar.
III
II
I
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Testbatterien als
Lösung der partiellen
Unvereinbarkeit der
Gütekriterien
. Abb. 2.40. Wechselbeziehungen zwischen den
Hauptgütekriterien (Aus
Lienert, 1989, S. 20)
175
2
»Aktuelle« Kriterien
erfassen »eigentliche«
Kriterien oft unzureichend
In der Praxis häufig
Verwendung leicht
verfügbarer Kriterien
Eine gesonderte Problematik ergibt sich aus dem Umstand, dass zwischen »eigentlichen« (ultimate) und »aktuellen« Kriterien unterschieden werden muss. Bei Berufserfolg handelt es sich beispielsweise um ein komplexes Kriterium, dessen individuelle
Bestimmung erst dann mit »letzter« Sicherheit erfolgen kann, wenn eine Person altersbedingt aus dem Berufsleben ausgeschieden ist und damit alle Fakten zur Beurteilung
vorliegen (wie z. B. höchste erreichte Position, Dauer der Partizipation am Arbeitsprozess, Produktivität oder Effizienz, Stetigkeit vs. Wechsel der Arbeitsverhältnisse, Kontinuität vs. Variation des Einkommens und der Beschäftigungszeiten usw.).
In aller Regel stehen weder die zeitlichen noch sachlichen Ressourcen zur Verfügung, um derartige Entwicklungen abzuwarten; vielmehr müssen sich die Konstrukteure und Anwender von Tests meist mit leichter verfügbaren aktuellen Kriterien begnügen. Für das Beispiel des (lebenslangen) Berufserfolges würde das naheliegenderweise der bisherige oder aktuelle berufliche Erfolg sein, der operationalisiert werden
könnte durch quantitative Einheiten für die momentan eingenommene Stellung oder
das monatliche Einkommen, bei bestimmten Tätigkeitsfeldern durch die Zahl abgerechneter Krankenscheine, angemeldeter Patente, publizierter Forschungsarbeiten oder
die fremdeingeschätzte Fachreputation. Häufig stehen gar nur Indikatoren wie gefertigte Stückzahlen, produzierter Ausschuss oder Fehlzeiten zur Verfügung.
All diese Indikatoren stehen nur für Teilaspekte der aktuellen Kriterien und decken
im ungünstigen Fall kaum noch relevante Seiten des »eigentlich« interessierenden Kriteriums ab. Sie sind durch Vorläufigkeit gekennzeichnet. Eine Erkrankung gerade durch
die Ausübung einer beruflichen Tätigkeit kann den weiteren Verbleib im bisherigen
Verantwortungsbereich erschweren oder verbieten, ein schwerer Sturz vom Gerät den
strahlenden Weltmeister vieler Jahre für den Rest seines Lebens in den Rollstuhl zwingen (. Abb. 2.41), die Approbation und Niederlassung eines zusätzlichen Arztes am Ort
die Zahl der Krankenscheine beim bislang ansässigen Doktor rapide reduzieren usw.
Für ultimative Kriterien wie den individuellen Erfolg in Ausbildung oder Therapie,
den institutionellen Erfolg einer Selektion, Platzierung oder Klassifikation (7 Kap. 6)
ließen sich unschwer analoge Beispiele in großer Zahl auflisten. Je nach dem Zeitpunkt,
an dem das Kriterium erhoben wird, müssen daraus ganz unterschiedliche individuelle Kennwerte resultieren. Das beeinflusst die Validität, und zwar ungeachtet der konzeptuellen Unzulänglichkeiten solcher aktueller Kriterien. Beschrieben wird diese Konfiguration mit den Begriffen
Die Obergrenze der Validität wird durch die Wurzel aus der Zuverlässigkeit definiert: rtc = rtt .
4 Zwischen verschiedenen (weiteren) Kombinationen von Gütekriterien bestehen
(ebenfalls) partielle Unvereinbarkeiten, und sei es nur unter ganz bestimmten Rahmenbedingungen oder Messintentionen: Änderungssensitivität und Retestreliabilität sind beispielsweise bei einem Verfahren zur Erfassung der aktuellen Befindlichkeit nicht gut auf einen gemeinsamen Nenner zu bringen. Auch kann es die Transparenz eines Fragebogens den Probanden leicht machen, ihre Antworten gezielt zu
verstellen. Das kann je nach den Gegebenheiten in vermutet positiver oder negativer
Richtung geschehen, ohne dass dies anhand der Punktwerte etwaiger »Lügenskalen« zu erkennen wäre (s. z. B. Kroger & Turnbull, 1975). Aus der Verfälschbarkeit
resultieren Validitätsminderungen. Deshalb ist generell vom Einsatz von Persönlichkeitstest in solchen Kontextbedingungen abzuraten, wo gezielte Verstellungen
besonders wahrscheinlich sind, nämlich allen Selektionsprozeduren (s. Hampel &
Klinkhammer, 1978; Thornton & Gierasch, 1980).
4
Kapitel 2 · Grundlagen diagnostischer Verfahren
»Eigentliche« vs.
»aktuelle« Kriterien
176
Beziehungen zwischen
»aktuellem« und »eigentlichem« Kriterium
Unzureichende
Operationalisierung
der Prädiktionskonstrukte
Die Problematik einer möglicherweise nur unzureichenden Operationalisierung des
(Kriterium-) Konstruktes in Form bestimmter Indikatoren besteht auch für die Prädiktorenseite. Auch da treffen die jeweiligen Fragen oder Aufgaben die aus theoretischen
Gründen als relevant erachteten Prädiktionskonstrukte im Regelfall nicht in ihrer umfassenden Bedeutung (man denke etwa an die Itemsammlungen zur Erfassung des Konstruktes »Studierfähigkeit« bei der Vorhersage des Erfolges von Medizinstudenten der
ersten Semester an der Universität, in denen die Bereiche der sozialen Kompetenz und
des Selfmanagement völlig fehlen). Daraus können im Extremfall die beiden folgenden
Konstellationen resultieren (nach Wottawa & Hossiep, 1987):
Der Prädiktionsmesswert korreliert hoch mit den Punktwerten für das aktuelle Kriterium, weist aber keinerlei Relevanz für das »eigentliche« Kriterium auf (. Abb. 2.42).
c
2
. Abb. 2.41a–c. Das Ausmaß an beruflichem Erfolg
und die Kriterien dafür mögen während verschiedener
Lebensabschnitte sehr unterschiedlich sein
177
Kriteriumskontamination (= Eigenständigkeit des aktuellen Kriteriums gegenüber
dem eigentlichen Kriterium),
4 Kriteriumsrelevanz (= Kommunalität oder wechselseitige Überlappung zwischen
aktuellem und eigentlichem Kriterium),
4 Kriteriumsdefizienz (= nicht erfasste Aspekte des eigentlichen Kriteriums durch das
aktuelle Kriterium).
4
b
a
2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung
2
Empirische Validität
bedeutet nicht zwingend auch bedeutsame Korrelation der
Konstrukte
. Abb. 2.43. Schematische
Veranschaulichung einer
Konstellation, bei der die
Punktwerte eines Prädiktors
zwar nicht mit dem aktuellen, aber mit dem eigentlichen Kriterium korrelieren
Der Prädiktionsmesswert korreliert zwar nicht mit den Indikatoren für das aktuelle
Kriterium, weist aber eine hohe Aussagekraft für das »eigentliche« Kriterium auf
(. Abb. 2.43).
Zwischen den beiden Konstellationen sind »Mischformen« denkbar, bei denen man
nicht ohne Weiteres erkennt, welche Gegebenheiten im Einzelnen vorliegen. Wichtig
ist, dass auch im Falle einer empirisch belegten und numerisch hohen Validität gegenüber einem Kriterium unter Umständen nur wenig über die Korrelation zwischen einem theoretisch bedeutsamen Prädiktorkonstrukt und einem gleichermaßen wichtigen
»eigentlich« interessierenden Kriterium ausgesagt ist.
Kapitel 2 · Grundlagen diagnostischer Verfahren
. Abb. 2.42. Schematische
Veranschaulichung für eine
Konstellation, bei der die
Punktwerte eines Prädiktors
hoch mit dem aktuellen,
aber zu Null mit dem eigentlichen Kriterium korrelieren
178
(S.344-348, 355-358, 362-365)
Gruppendiagnostik (Interaktionsdiagnostik)
(S.327-336)
Diagnostisches Interview
(S.321-326)
Verhaltensbeobachtung
(S.313-317)
Projektive Verfahren
(S.302-312)
Nichtsprachliche und Objektive Persönlichkeitstests
(S.240-258, 269-274, 278-283, 286-290, 292-298)
Persönlichkeitsfragebogen
(S.184-188, 190-197, 200-205, 207-220, 222-226, 232-240)
Leistungstests
Diagnostische Verfahren
3
Unterscheidung
von Aufmerksamkeit
und Konzentration
Aufmerksamkeits- und Konzentrationstests
Die Konstrukte Aufmerksamkeit und Konzentration sind bislang nicht gut definiert;
zumindest sind keine konsensfähigen Definitionen erkennbar. Viele Autoren vermeiden
deshalb eine begriffliche Festlegung und nennen Aufmerksamkeits- und Konzentrationstests in einem Atemzug. In einem einflussreichen Beitrag hatte Bartenwerfer (1964)
vorgeschlagen, diese Tests als »Allgemeine Leistungstests« zu bezeichnen. Mit dem Begriff wollte er zum Ausdruck bringen, dass die Tests allgemeine Voraussetzungen für
das Erbringen von kognitiven Leistungen erfassen. Eine konzeptuelle Klärung sah er als
überflüssig an, wie das folgende Zitat belegt: »Jedoch weiß der unbefangene und fachkundige Leser ungefähr was gemeint ist, wenn von einem Test für Konzentrationsfähigkeit, Aufmerksamkeit, Willenskraft usw. gesprochen wird. Glücklicherweise ist eine
eindeutige sprachlich-definitorische Klarheit über die genannten Bezeichnungen nicht
erforderlich, wenn es darum geht, menschliches Verhalten vorherzusagen« (Bartenwerfer, 1964, S. 387). Der Begriff »Allgemeine Leistungstests« dient auch heute noch als
Überbegriff, beispielsweise in dem weit verbreiteten Brickenkamp Handbuch psychologischer und pädagogischer Tests (Brähler, Holling, Leutner & Petermann, 2002).
Allerdings wird auch die Auffassung vertreten, dass Aufmerksamkeit und Konzentration nicht gleichzusetzen sind. Schmidt-Atzert, Büttner und Bühner (2004) plädieren dafür, Aufmerksamkeit alleine mit der Wahrnehmung in Verbindung zu bringen
und darunter das selektive Beachten relevanter Reize oder Informationen zu verstehen; demgegenüber soll sich der Begriff Konzentration dagegen auf alle Stufen der
Verarbeitung von Informationen beziehen, von der selektiven Wahrnehmung (= Aufmerksamkeit) über die Kombination, Speicherung etc. bis zur Handlungsplanung.
. Abbildung 3.1 veranschaulicht diese Trennung und zugleich den Überlappungsbereich von Aufmerksamkeit und Konzentration.
Unter günstigen Arbeitsbedingungen, also ohne Zeitdruck, bei nur kurzer Beanspruchung, beim Fehlen von Störungen etc. hängt die Leistung eines Menschen alleine
von Fähigkeiten und Fertigkeiten ab, die für die spezielle Aufgabe benötigt werden. Je
nach Aufgabe sind dies beispielsweise die Rechenfertigkeit, die Kombinationsfähigkeit,
die Merkfähigkeit oder die Psychomotorik. Konzentration ist erst am Zustandekommen von Leistungen beteiligt, wenn erschwerende Arbeitsbedingungen wie Zeitdruck,
lange Arbeitszeit oder Störungen hinzukommen. Diese Überlegungen finden in folgendem Definitionsvorschlag für Konzentration ihren Niederschlag: Konzentration ist die
3.1.1
Gemessen an den (positiven) Konsequenzen von Psychodiagnostik, stehen dazu die
Kosten der verwendeten Instrumente in einem angemessenen Verhältnis?
Absolut, wir helfen unseren Kunden nicht nur effizienter zu sein in ihrer Prozessgestaltung, sondern auch überlegen in ihrer Mitarbeiterqualität und damit produktiver in
ihren Märkten. Das ist einer der Gründe, warum wir im Recruiting nicht für konkurrierende Unternehmen arbeiten. Man kann immer nur einem helfen, Marktführer zu
werden oder zu bleiben. <
Kunden, die wir seit deren Gründung betreuen, oder die uns fast seit unserer Gründung
treu sind und das spricht einfach für sich, finde ich.
Darüber hinaus versuchen wir, wann immer möglich, unsere Verfahren auch im
Feldeinsatz zu evaluieren. Diese Ergebnisse sind natürlich bedeutsamer als spontane
Zufriedenheitsäußerungen und Schulterklopfen.
Kapitel 3 · Diagnostische Verfahren
Allgemeine Leistungsvoraussetzung
184
Konzentration
Weiterverarbeitung
Aufmerksamkeit
Wahrnehmung
Reaktion
»Fähigkeit, unter Bedingungen schnell und genau zu arbeiten, die das Erbringen einer
kognitiven Leistung normalerweise erschweren« (Schmidt-Atzert et al., 2004, S. 9).
Konzentration kann demnach nur beim Arbeiten auftreten; konzentriertes Arbeiten
wird als anstrengend erlebt (vgl. Westhoff & Hagemeister, 2005). Westhoff und Hagemeister (2005, S. 39 f.) stellen für Konzentrationstests folgende Anforderungen auf: Sie
müssen einfache Reize verwenden, die klar und eindeutig wahrzunehmen sind; einfach
zu erinnernde Regeln sollen angewendet werden; absichtsvolle Teilhandlungen sind
aufzuführen; und sie müssen Leistung in Geschwindigkeit und Fehlern abbilden.
Diese Definitionsvorschläge sind pragmatisch und bewusst atheoretisch. Sie implizieren also keine Annahmen über einen »Mechanismus«, der Aufmerksamkeits- und
Konzentrationsleistungen erklären könnte. Betrachtet man jedoch die jeweiligen Konstruktionsprinzipien von Aufmerksamkeits- bzw. Konzentrationstests, so lassen diese
sich leicht unterscheiden. Aufmerksamkeitstests haben ein gemeinsames Merkmal: Sie
erfassen, wie schnell und genau Probanden kritische Reize entdecken. Verschiedene
Aufmerksamkeitstests unterscheiden sich vor allem darin, welche kritischen Reize verwendet und unter welchen Bedingungen diese dargeboten werden. Die Bedingungen
sind ausschlaggebend dafür, welche »Form« der Aufmerksamkeit gemessen wird. In
. Tab. 3.1 sind einige häufig anzutreffende Aufmerksamkeitstypen aufgeführt.
Das Konzept Alertness spielt v. a. in der Neuropsychologie eine Rolle. Darunter
wird eine basale Wachheit oder Ansprechbarkeit auf Reize jeder Art verstanden. Eine
extreme Verminderung der Alertness ist bei komatösen Patienten zu beobachten. Alertness bezeichnet im Grunde nicht eine bestimmte Form der Aufmerksamkeit, sondern
vielmehr eine Voraussetzung für jede Form von Aufmerksamkeit (im Sinne von Reizselektion). Ein verbreiteter Test zur Alertness ist der Subtest Alertness der Testbatterie
zur Aufmerksamkeitsprüfung (TAP). Die Probanden sind aufgefordert, beim Erscheinen eines Kreuzes auf dem Bildschirm sofort eine Antworttaste zu drücken. Es gibt
keine anderen Reize, die zu ignorieren wären. Prinzipiell besteht kein Unterschied zu
Tests zur Messung der Reaktionsschnelligkeit. So wird beim Reaktionstest (Schuhfried,
ohne Jahr) in der Serie 1 ein gelbes Lichtsignal als einziger Reiz verwendet, der immer
so schnell wie möglich zu beantworten ist. Der einzige Unterschied zum TAP-Test
Alertness besteht darin, dass in der TAP zusätzlich zwischen tonischer und phasischer
Alertness unterschieden wird. In der Bedingung phasische Alertness geht dem visuellen
Reiz (Kreuz), anders als bei der tonischen Alertness, ein akustischer Warnreiz voraus,
der die Alertness anheben soll. In einer Untersuchung von Bühner, Schmidt-Atzert,
Grieshaber und Lux (2001) mit hirngeschädigten Patienten wiesen die Tests Alertness
tonisch, Alertness phasisch und zwei klassische Reaktionszeittests (Reaktion auf Licht-
. Abb. 3.1. Aufmerksamkeit und Konzentration als unabhängige Konstrukte. Die Aufmerksamkeit
hat ausschließlich einen Einfluss auf die Wahrnehmung, die Konzentration wirkt primär auf die Weiterverarbeitung der selegierten Reize, kann aber auch die Wahrnehmung betreffen (»konzentrierte
Aufmerksamkeit«) und den mentalen Anteil einer Reaktion (Handlungsplanung, Psychomotorik). Aus
Schmidt-Atzert et al. (2004, S. 11).
Reiz
3.1 · Leistungstests
3
Reaktionsschnelligkeit
TAP
Ansprechbarkeit auf
Reize
Kritische Reize
entdecken
Anforderungen
an Konzentrationstests
185
3
Keine theoretischen
Modelle
TAP Go/Nogo
Einzeldarbietung von ähnlichen
Mustern, zwei Muster davon
sind kritische Reize
Beachtung eines bestimmten
Reizes bzw. einiger weniger
Reize innerhalb einer Reizklasse
Beachtung von mindestens je
einem Reiz aus zwei deutlich
verschiedenen Reizklassen
Fokussierte oder geteilte Aufmerksamkeit über längere
Zeit
Beachtung seltener Reize über
längere Zeit
Fokussierte oder selektive Aufmerksamkeit
Geteilte Aufmerksamkeit
Daueraufmerksamkeit
Vigilanz
reiz, auf akustischen Reiz) sehr hohe Ladungen auf einem gemeinsamen Faktor auf. Der
theoretisch interessante Differenzwert zwischen tonischer und phasischer Alertness,
der eigentlich das Profitieren von einer Anhebung der Alertness ausdrücken sollte,
erwies sich als nicht interpretierbar.
Auch Such- oder Durchstreichtests, die hier unter »Konzentrationstests« abgehandelt werden, erfassen die Aufmerksamkeit. Bei diesen Tests müssen die Probanden relevante Reize unter irrelevanten suchen (Selektion) und markieren. Sie werden zu Recht
auch als Konzentrationstests bezeichnet, weil sehr viele Aufgaben bewältigt werden
müssen und diese zudem unter Zeitdruck zu bearbeiten sind, also erschwerende Bedingungen vorliegen.
Konzentrationstests lassen sich, anders als etwa Intelligenztests, nicht nach theoretischen Modellen unterscheiden, die ihnen zugrunde liegen. Solche Modelle wurden
bisher nicht ausgearbeitet. Für Anwender ist vor allem relevant, welche Art von Aufgaben verwendet und für welche Zielgruppe ein Test gesucht wird. Zwei Arten von Test-
Anmerkung. TAP = Testbatterie zur Aufmerksamkeitsprüfung (Zimmermann & Fimm, 1992).
DAUF und VIGIL aus dem Wiener Testsystem (Fa. Schuhfried, Katalog 2004/2005).
a
Kritische Reize sind mit Tastendruck zu beantworten.
b
Zu Alertness 7 Erläuterungen im Text.
VIGIL
Hell aufleuchtender Punkt
springt auf einer Kreisbahn
(ähnlich Uhr) um einen Schritt
– Doppelsprung
(Dauer: 30, 35 oder 70 min)
DAUF
Reihe von 5 bzw. 7 ständig wechselnden Dreiecken mit Spitze
nach oben oder unten – vorher
definierte Anzahl von Dreiecken mit Spitze nach unten
(Dauer: 20 bzw. 35 min)
TAP Geteilte Aufmerksamkeit
Visuell: Wechselnde Kreuze in
einer 4 x 4 Matrix – Quadrat?
Akustisch: Abwechselnd hoher
und tiefer Ton – Unregelmäßigkeit?
TAP Alertness
Kreuz auf dem Bildschirm
Einfache Reize schnell und
zuverlässig beantworten
Alertnessb
Testbeispiel und Kurzbeschreibunga
Testbedingung (Prinzip)
Aufmerksamkeitsbegriff
. Tabelle 3.1. Aufmerksamkeitsformen und -tests
Kapitel 3 · Diagnostische Verfahren
Konzentrationstests mit
Selektionsaufgaben
186
Aufmerksamkeits-Belastungs-Test d2 (Brickenkamp, 2002)
Revisionstest
(Marschner, 1972)
Konzentrations-Verlaufs-Test KVT (Abels,
1974)
Zahlen-Symbol-Test des
Berliner Intelligenzstruktur-Test: BIS-Form
4. (Jäger, Süß & Beauducel, 1997)
Suchen, verbunden mit Reizdiskrimination
Rechnen
Sortieren
Transformieren
Transformation von Zahlen (1 bis 9) in Symbole
anhand einer Umwandlungstabelle. Vorgegeben sind Zahlen, unter die jeweils das passende
Symbol (z. B. = bei der Zahl 9) einzutragen ist.
60 Kärtchen mit jeweils 36 zweistelligen Zahlen
auf vier Stapel sortieren: Die Zahl 43, die Zahlen
43 und 63, die Zahl 63 dabei, andere Zahl.
Einfache Additionen auf Richtigkeit prüfen.
Drei untereinander stehende einstellige Zahlen, deren letzte (Summe der oberen Zahlen?)
durch einen Strich abgetrennt ist (z. B. 4 5 / 8).
Alle d mit zwei Strichen durchstreichen. Die
Zielobjekte verbergen sich unter d mit einer
»falschen« Strichzahl und p mit unterschiedlich
vielen Strichen.
Erläuterung zur Aufgabe
aufgaben haben bereits eine lange Tradition: Buchstaben-Durchstreichtests und Konzentrations-Rechentests. Die ersten Verfahren dieser Art wurden bereits in den Jahren
1885 bzw. 1888 entwickelt (Bartenwerfer, 1964).
Die Art der Testaufgaben ist wichtig, weil häufig nicht »die« Konzentrationsfähigkeit
(als allgemeine und breite Fähigkeit) gefragt ist, sondern die Fähigkeit, sich unter näher
bestimmbaren Bedingungen zu konzentrieren. Beispielsweise kann sich die Fragestellung auf die Konzentration beim Erledigen von Schulaufgaben oder beim Autofahren
beziehen. Die Tests können nach den Aufgaben unterteilt werden, unter denen konzentriertes Arbeiten verlangt wird. . Tabelle 3.2 zeigt die wichtigsten Aufgabentypen.
Da bei den Suchaufgaben meist die Zielobjekte durchzustreichen sind, werden diese Tests oft auch als »Durchstreichtests« bezeichnet. Mit dieser Bezeichnung wird aber
ein unerheblicher Aspekt der Testbearbeitung hervorgehoben, nämlich die Art der
Itembeantwortung. Die eigentliche mentale Operation bei der Testbearbeitung ist das
Suchen von Reizen nach vorgegebenen Merkmalen. Weil dabei verschiedene Reize
unterschieden werden müssen, könnte man auch die Diskrimination ähnlicher Reize
bei den Anforderungen betonen. Auch die Bezeichnungen »Aufmerksamkeitstests«
oder Tests zur selektiven Aufmerksamkeit treffen zu, weil dargebotene (wahrgenommene) Reize selektiv zu beachten sind. Moosbrugger und Oehlschlägel (1996) haben
sich beim Frankfurter Aufmerksamkeits-Inventar (FAIR) mit Absicht vom Durchstreichen als Antwortmodus distanziert und dafür ein »vollständiges Markierungsprinzip«
eingeführt: Der Proband fährt mit dem Stift unter den zeilenweise angeordneten Items
entlang und zieht, wenn er ein Zielobjekt entdeckt, den Stift nach oben, sodass ein
Zacken entsteht. Bei der Computerversion des bekanntesten »Durchstreichtests«, dem
Test d2-C (7 unten), gibt der Proband die Nummer der Zielobjekte ein.
Das Inventar komplexer Aufmerksamkeit (INKA) von Heyde (1995; s. auch Heyde,
2004) kombiniert zwei Aufgabentypen. Vorgegeben sind lange Reihen von Konsonanten (z. B. RFLBPHZM…). Für jede Zeile müssen bestimmte Konsonanten anhand einer
Testbeispiel
Aufgabe
. Tabelle 3.2. Einteilung der Konzentrationstests nach Aufgabentypen
3.1 · Leistungstests
INKA
FAIR
Durchstreichtests
Aufgabentypen
187
3
3
Eine Konzentrationsfähigkeit?
Schulnahe Aufgaben
TPK
Störreize ignorieren
Umwandlungstabelle in andere transformiert werden (aus B wird beispielsweise Z).
Dann beginnt eine Suchaufgabe. Die transformierten Konsonanten (also beispielsweise Z) sind in der Zeile zu suchen. Sie werden jedoch nicht markiert, sondern der davor
stehende Konsonant (im Beispiel H) ist am Rand zu notieren (RFLBPHZM… Antwort:
H). Die Aufgabe ist also tatsächlich komplex, wie schon der Testname vermuten lässt.
Allerdings stellt der Test auch erhebliche Anforderungen an die Merkfähigkeit der
Probanden.
Es existieren zumindest zwei weitere Tests, die nicht in das Schema von . Tab. 3.2
passen. Beim Farbe-Wort-Interferenztest (FWIT) nach J.R. Stroop (Bäumler, 1985)
werden in der so genannten Interferenzbedingung Farbwörter (rot, grün, …) vorgegeben, die farbig gedruckt sind. Die Probanden werden aufgefordert, die Druckfarbe zu
benennen. Wenn also das Wort »grün« in gelber Farbe gedruckt ist, lautet die richtige
Antwort »gelb«. Die Bedeutung des Wortes (im Beispiel »grün«) wirkt dabei störend
und führt zu einer Verlängerung der Benennungszeit gegenüber der Bedingung, unter
der die Farbe mit der Bedeutung des Wortes übereinstimmt. Dieses Phänomen wird
Interferenz genannt und die individuelle Ausprägung der Interferenz ist die Interferenzneigung. Die Zeit, die jemand für das Benennen von Farben benötigt, wird in einer
zusätzlichen Testbedingung (Benennen von Farbstrichen) ermittelt und aus der Benennungszeit in der Interferenzbedingung herausgerechnet. Der Autor bietet zahlreiche
Möglichkeiten für eine konzeptuelle Einordnung der individuellen Interferenzneigung
an, darunter auch »konzentrativer Widerstand gegenüber dominierenden Reaktionstendenzen« (Bäumler, 1985, S. 7). Das Interferenzphänomen, das in diesem Test zum
Messgegenstand erhoben wird, weist auf ein implizites Merkmal vieler Konzentrationstests hin, nämlich das Vorhandensein von Störreizen. Tests mit Suchaufgaben enthalten
neben den »richtigen« Items (den Zielreizen) immer auch Distraktoren. Diese sind so
beschaffen, dass sie den Zielreizen oft zum Verwechseln ähnlich sind. Beim Test d2 etwa
ist das »p« dem gesuchten »d« in seiner Gestalt sehr ähnlich. Widerstand gegen störende Reize ist möglicherweise auch bei anderen Konzentrationstests an der Testleistung
beteiligt.
Der zweite Test, der das Schema sprengt, ist die Testreihe zur Prüfung der Konzentrationsfähigkeit (TPK) von Kurth und Büttner (1999; s. auch Kurth & Büttner, 2004).
Der Test wurde für Schulkinder der zweiten bis sechsten Klasse konzipiert und enthält
drei Aufgabetypen, die typische Anforderungen im Schulunterricht aufgreifen: Lesen,
Rechnen und Reproduzieren. Einfache Rechenaufgaben wie 7 + 8 – 3 = ? kommen den
Items anderer Rechen-Konzentrationstests sehr nahe. Ungewöhnlich für Konzentrationstests sind die Aufgaben »Abschreibtest« (Abschreiben eines Textes) und »Tiergeschichte« (Wiedergabe von Tiernamen aus einer vorgelesenen Tiergeschichte). Westhoff und Hagemeister (2005, S. 40) stellen fest, dass der Subtest »Tiergeschichte« nicht
ihrer Definition von Konzentrationstests entspricht, da die Zahl richtig reproduzierter
Tiernamen kein Tempo- und kein Fehlermaß liefert und die Testleistung vermutlich
stark von der Merkfähigkeit der Probanden abhängt.
Angesichts der offensichtlichen Unterschiedlichkeit der Tests ergeben sich mindestens drei wichtige Fragen an die Forschung: Erstens ist zu klären, ob die Konzentrationstests so viel gemeinsame Varianz aufweisen, dass man annehmen darf, dass sie eine
Fähigkeit messen. Eine alternative Hypothese dafür ist, dass sich mehrere Formen der
Konzentration unterscheiden lassen. Zweitens ist von Interesse, welche Tests als die
typischsten Vertreter ihrer Gattung gelten können. Es sollten die Tests sein, die viel
Konzentrationsvarianz und wenig andere Testvarianz aufweisen. Drittens werden insbesondere Testanwender wissen wollen, von welchen anderen Fähigkeiten und Fertig-
Kapitel 3 · Diagnostische Verfahren
Interferenztest
188
3
Gründe für
Verwechslungsfehler
Gründe für
Auslassungsfehler
Zwei Fehlertypen
Leichte Aufgaben
Arbeitstempo selbst
wählen
Bearbeitungszeit
Kennwerte. Aufmerksamkeitstests und Konzentrationstests liefern Kennwerte für die
Schnelligkeit und die Genauigkeit der Reaktionen. Bei computergestützten Tests, die
immer Einzelreize oder Reizkombinationen vorgeben, stellt die Reaktionszeit auf die
Reize die zentrale Prüfgröße dar. Berechnet wird der Mittelwert der Reaktionszeiten auf
die Reize einer Testserie (oder der Median) sowie zusätzlich meist die intraindividuelle
Streuung dieser Reaktionszeiten. Papier-und-Bleistift Tests dagegen erfassen, wie viele
Zeichen ein Proband in der zur Verfügung stehenden Zeit bearbeitet oder richtig bearbeitet hat. Daraus lässt sich bei Bedarf berechnen, wie lange der Proband durchschnittlich für die Bearbeitung eines einzelnen Reizes benötigt hat. Reaktions- und Bearbeitungszeit liefern dennoch unterschiedliche Informationen. Bei der Einzeldarbietung
von Reizen auf dem Bildschirm besteht eine starke Aufforderung, jetzt so schnell wie
möglich zu reagieren. Bis zur Darbietung des nächsten Reizes ist meist eine kleine »Erholungspause« eingeplant. Wenn der Proband in einem Papier-und-Bleistift Test Reize
sukzessive bearbeitet, bestimmt er selbst das Arbeitstempo. Das Arbeitstempo hängt
also nicht nur davon ab, wie lange er für die Bearbeitung eines Reizes braucht, sondern
auch von der Länge der selbst gewählten Pausen zwischen zwei Reizen. Westhoff (1995)
sieht in dem selbst gewählten Arbeitstempo (»self-paced«) ein wesentliches Merkmal
von Konzentrationstests.
Bei der Bearbeitung eines Testitems sind Fehler grundsätzlich möglich, auch wenn
– wie bereits dargelegt – die Aufgaben in Aufmerksamkeits- und Konzentrationstests
in der Regel so leicht sind, dass sie von fast allen Probanden fehlerfrei gelöst würden,
wenn sie sich genügend Zeit zur Bearbeitung nehmen würden. Bei Tests, die ein Reagieren auf kritische Reize und ein Nichtreagieren auf Distraktoren verlangen (insbesondere Suchaufgaben, Durchstreichtests, Aufmerksamkeitstests mit Einzeldarbietung von
Reizen) können zwei Fehlerarten unterschieden werden: Auslassungsfehler und Fehlreaktionen auf Distraktoren. Von einem Auslassungsfehler spricht man, wenn ein
kritischer Reiz vorliegt und der Proband nicht, wie zu erwarten wäre, darauf reagiert.
Die Gründe für diese Art von Fehlreaktion können unterschiedlich sein. Erstens kann
der Proband den Reiz falsch beurteilt haben; er hat entschieden, dass dieser Reiz nicht
zu denen gehört, auf die er laut Instruktion zu reagieren hätte. In diesem Fall könnte
man auch von einer Fehlreaktion auf einen kritischen Reiz sprechen. Zweitens, und das
gilt nur für die Darbietung von Einzelreizen, kann die Reaktion des Probanden zu spät
erfolgt sein (die Reaktion muss immer in einem bestimmten Zeitfenster erfolgen, wenn
sie gültig sein soll). Die dritte und vierte Erklärung gelten nur für Papier-und-Bleistift
Tests: Der Proband hat den Reiz übersehen beziehungsweise nicht bemerkt oder er hat
ihn absichtlich nicht bearbeitet. Das absichtliche Nichtbearbeiten von Reizen kann
vorkommen, wenn sich der Proband bei der Einzeldarbietung von Reizen eine »Verschnaufpause« gönnt oder bei vielen vorgegebenen Items in einem Papier-und-Bleistift
Test absichtlich Zeichen überspringt, um seine Mengenleistung zu steigern. In diesem
Fall könnte man auch von strategischen Fehlern sprechen. Ein Verwechslungsfehler
liegt dagegen vor, wenn auf einen Disktraktor so reagiert wird, als wäre es ein Zielreiz.
Der nahe liegende Grund ist, dass der Proband den Distraktor mit einem Zielreiz verwechselt hat. Auslassungs- und Verwechslungsfehler können auch auftreten, wenn ein
Proband die Instruktion nicht richtig verstanden hat oder wenn er seine Antworten
nach dem Zufallsprinzip gibt. In diesen Fällen werden aber so viele Fehler auftreten,
dass dies einem Testauswerter auffallen und er einen entsprechenden Verdacht schöpfen wird.
Kapitel 3 · Diagnostische Verfahren
Reaktionszeit
190
Arbeitstempo (wenn Tempo »self-paced«: Anzahl bearbeiteter Aufgaben)
mittlere Reaktionszeit (wenn Darbietung von Einzelreizen)
Auslassungsfehler (Zielreiz nicht beantwortet)
Verwechslungsfehler (Fehlreaktion auf Distraktor)
Brickenkamp, R. (9., überarbeitete und neu normierte Aufl. 2002). Göttingen: Hogrefe.
Befragungen von Psychologen in der Berufspraxis zeigen, dass unter den »allgemeinen Leistungstests« ein Test bevorzugt eingesetzt wird: Der Test d2. Der Umfrage von
Steck (1997) zufolge ist der Test d2 der am häufigsten verwendete Leistungstest überhaupt. Insgesamt 32% der Befragten gaben an, den Test zu verwenden. Bei Schorr
(1995) nimmt der Test d2 in der Liste der 20 am häufigsten verwendeten Testverfahren
(Leistungstests, Fragebogen, projektive Verfahren) Platz 3 ein. In dieser Rangliste taucht
außer dem Test d2 kein weiterer Aufmerksamkeits- oder Konzentrationstest auf. Bölte
et al. (2000), die speziell Testanwender in der Kinder- und Jugendpsychiatrie befragt
hatten, ermittelten für den Test d2 eine Anwendungshäufigkeit von 89%, in weitem
Abstand gefolgt von KVT, KLT und FWIT mit 32, 26 und 18% aller Nennungen.
Der Test wurde auch in viele andere Sprachen übersetzt. Besonders zu erwähnen ist
eine amerikanische Ausgabe (Brickenkamp & Zillmer, 1998). Auch eine Computerversion wurde vorgestellt (Brickenkamp, Merten & Hänsgen, 1996), die jedoch nicht als
äquivalent zur Papier-und-Bleistift Version gelten kann (7 unten).
Die Verkehrspsychologie ist noch immer ein Einsatzgebiet für den Test. Inzwischen
wird der Test unter anderem aber auch in der Klinischen Psychologie, der Neuropsychologie, der Arbeits- und Organisationspsychologie (zur beruflichen Eignungsdiagnostik), der Pädagogischen Psychologie und der Sportpsychologie eingesetzt.
Der Test d2 erschien erstmals 1962. Das Testmaterial wurde seitdem nicht verändert. Ursprünglich sollte der Test vor allem zur Feststellung der Kraftfahreignung dienen. Der Testautor hatte sich für das bewährte Prinzip der Durchstreichtests entschieden, aber versucht, gewisse Unzulänglichkeiten der damals verfügbaren Durchstreichtests zu überwinden. Alleine die Diskrimination von zwei Buchstaben zu verlangen,
erschien angesichts der komplexen Anforderungen an Kraftfahrer als zu einfach. Gegen
die Verwendung unbekannter Zeichen sprachen die notwendige Einübungsphase und
interindividuelle Unterschiede in der Lernfähigkeit. Ziel war ein Test mit einer einfachen und verständlichen Instruktion und einer Aufgabe, die von den Probanden ohne
lange Einübung ausgeführt werden kann.
Welches Merkmal wird mit dem Test d2 erfasst? Da der Test eine Reizselektion
verlangt (bestimmte Zeichen sind unter visuell ähnlichen Zeichen herauszusuchen),
erfasst er Aufmerksamkeit. Diese kann aufgrund der genauen Aufgabenstellung näher
als selektive oder fokussierte Aufmerksamkeit bestimmt werden (vgl. . Tab. 3.2). Diese
Aufmerksamkeitsleistung muss kontinuierlich und dabei schnell und richtig erbracht
werden. Deshalb ordnet Brickenkamp (2002) den Test zutreffend auch in die Kategorie
der Konzentrationstests ein. Der Zusatz »Belastungstest« wird durch die Tatsache gerechtfertigt, dass die Testleistung unter Zeitdruck zu erbringen ist. Der Proband soll so
schnell und so genau wie möglich arbeiten. Dabei wird er vom Testleiter zu schnellem
Arbeiten angetrieben, indem er alle 20 s dazu auffordert, die Bearbeitung der aktuellen
Zeile abzubrechen und mit der nächsten anzufangen. Der Test liefert hauptsächlich
Test d2: Aufmerksamkeits-Belastungstest
4
4
4
4
Wichtige Kennwerte von Aufmerksamkeits- und Konzentrationstests
3.1 · Leistungstests
Was misst der Test?
Zielsetzung bei der
Testentwicklung
Computerversion
Verbreiteter Test
191
3
3
Ü-Syndrom
Diagnoseschema
Kennwerte
Bearbeitete Zeichen
und Fehler zählen
Nach 20 s nächste Zeile
»Schnell und genau
arbeiten«
Unterschiedliche
Zeichen
Tempo und
Genauigkeit
Auswertung. Mit Schablonen werden die Zahl der bearbeiteten Zeichen, der markierten Zielobjekte und der Auslassungs- und Verwechslungsfehler auf dem Testbogen
zeilenweise ermittelt. Als Summe über alle Zeilen werden die Gesamtzahl der bearbeiteten Zeichen (GZ), die Gesamtzahl der markierten Zielobjekte (für Konzentrationsleistung KL) sowie die absolute Fehlerzahl ermittelt. Diese Kennwerte werden auf ein
Auswertungsblatt übertragen. Die fehlerkorrigierte Tempoleistung (GZ-F) wird durch
Subtraktion der Fehler (F) von der Gesamtzahl der bearbeiteten Zeichen (GZ) festgestellt. Der Kennwert Fehlerprozent (F%) wird aus der Fehlerzahl (x 100), dividiert durch
GZ berechnet. Er gibt an, wie viel Prozent der bearbeiteten Zeichen falsch bearbeitet
worden sind. Diese Rohwerte werden an Hand der Normtabelle in Standardwerte und
zusätzlich in Prozentränge transformiert.
Besonders instruktiv ist das Diagnoseschema auf dem Auswertungsblatt. Die Testleistung des Probanden wird hier als ein Punkt in einem zweidimensionalen Raster mit
den Achsen Tempo (GZ) und Sorgfalt (F%) dargestellt. Dazu werden die Normwerte
verwendet. Man sieht auf einen Blick, wie sich Tempo und Sorgfalt zueinander verhalten.
Beispielsweise kann ein Proband sehr schnell und zugleich sehr sorgfältig gearbeitet
haben oder etwa relativ langsam und dabei sehr genau. Ein grau unterlegter Bereich, der
durch eine sehr hohe Fehlerrate und ein hohes oder sehr hohes Tempo gekennzeichnet
ist, trägt die Bezeichnung Ü-Syndrom. Damit trägt der Autor der von Oehlschlägel und
Moosbrugger (1991) geäußerten Kritik an der Verfälschbarkeit der Testleistungen durch
Durchführung. Die Instruktion erfolgt durch Vorlesen eines Standardtextes. Für Kinder ist sie etwas ausführlicher und es wird empfohlen, die Aufgabe an einer Wandtafel
zu veranschaulichen. Auf dem Testbogen ist zunächst eine Übungszeile ohne Zeitdruck
zu bearbeiten, an Hand derer auch das Instruktionsverständnis überprüft werden kann.
Wichtig ist die Anweisung am Ende: »Arbeiten Sie so schnell wie möglich – aber natürlich auch ohne Fehler!« Zur Bearbeitung des Tests ist der Testbogen umzudrehen. Der
Testleiter fordert mit »Achtung! – Los!« auf, mit der ersten Zeile zu beginnen. Nach 20 s
kommt der Befehl »Halt! Nächste Zeile«. Die Stoppuhr läuft dabei durch und der Testleiter wiederholt den Befehl zum Zeilenwechsel alle 20 s. Die Testdurchführung dauert
damit ohne Instruktion genau 4 min und 40 s.
Der Test kann einzeln und in Gruppen durchgeführt werden. Eine Parallelform
existiert nicht.
Testaufbau und Gliederung. Der Test besteht insgesamt aus 658 visuellen Reizen, die
sich nur in zwei Merkmalen voneinander unterscheiden, nämlich in dem Buchstaben
(d oder p) und in der Anzahl von kurzen Strichen unter und/oder über dem Buchstaben
(. Abb. 3.2). Zielobjekte sind alle d’s mit zwei Strichen, wovon es drei Varianten gibt:
Ein Strich über und ein Stich unter dem d, zwei Striche über dem d und zwei Striche
unter dem d. In jeder der 14 Zeilen des Tests stehen insgesamt 47 Zielobjekte und Distraktoren.
zwei Informationen über das Arbeitsverhalten des Probanden: Das Tempo (die Anzahl
der bearbeiteten Zeichen in der Testzeit) und die Qualität (Genauigkeit, operationalisiert über die Fehlerquote).
Kapitel 3 · Diagnostische Verfahren
. Abb. 3.2. Übungszeile
aus dem Test d2 von
Brickenkamp (1962)
192
instruktionswidriges Überspringen von Items («Konzentrationsleistungen ohne Konzentration«) Rechnung. Wenn ein Proband ein hohes Arbeitstempo (GZ) durch Überspringen von Zeichenketten erreicht hat, wird er im Diagnoseschema auffallen. Das
Diagnoseschema kann weiterhin dazu verwendet werden, das Arbeitsverhalten als »pedantisch« (sehr langsam und genau), »hochkonzentriert« (sehr schnell und genau) oder
»konzentrationsgestört« (sehr langsam und ungenau) zu klassifizieren.
Eigentlich würde es genügen, das Arbeitsverhalten im Test und damit auch die
Konzentrationsfähigkeit des Probanden durch zwei Werte zu charakterisieren: das
Tempo (GZ) und die Sorgfalt (F%). Die Berechnung von fehlerkorrigierten Tempowerten (GZ-F, auch KL) ist als Versuch zu werten, die Konzentrationsfähigkeit durch einen
einzigen Wert zu beschreiben. Dass es jemandem gelingen kann, seine Tempoleistung
durch nicht sorgfältiges Bearbeiten der Zeichen zu steigern, ist unstrittig. Allerdings
kann weder der Wert GZ-F noch der KL-Wert angeben, wie viele Zeichen ein Proband
bei einer durchschnittlichen Sorgfalt bearbeitet hätte. Wie Schmidt-Atzert (2004) anhand eines konkreten Beispiels errechnet hat, werden Tempo und Fehler bei GZ-F im
Verhältnis 21:1 und bei KL 9:1 gewichtet. Fest steht, dass damit der KL-Wert stärker von
der Sorgfalt des Probanden bei der Testbearbeitung abhängt als der Kennwert GZ-F.
»Richtiger« oder »besser« ist er damit nicht.
Brickenkamp (2002) schlägt vor, die Schwankungsbreite (SB) als Differenz zwischen
der maximalen und der minimalen Anzahl bearbeiteter Zeichen pro Zeile zu berechnen. Dieser Kennwert ist jedoch nicht normiert und damit kaum zu interpretieren. Das
Gleiche gilt für die Verteilung der Verwechslungsfehler auf die erste und die zweite
Testhälfte. Allerdings erscheint eine andere Art der Fehleranalyse sinnvoll, um das
Vortäuschen einer niedrigen Konzentrationsfähigkeit zu entdecken. Es ist schon lange
bekannt, dass Verwechslungsfehler (Proband markiert einen Distraktor) wesentlich
seltener vorkommen als Auslassungsfehler. Schmidt-Atzert und Bühner (1998) haben
die Verwechslungsfehler weiter danach unterteilt, ob das fälschlicherweise durchgestrichene Zeichen den falschen Buchstaben, die falsche Strichzahl oder beide Merkmale
trägt. Sie stellten fest, dass »Doppelfehler« (beide Merkmale falsch) selbst hirnorganisch
gestörten Patienten extrem selten unterlaufen. Treten solche Fehler auf, könnte dies ein
Hinweis auf Simulation sein. Schmidt-Atzert, Bühner, Rischen und Warkentin (2004)
untersuchten diese Hypothese in einer experimentellen Untersuchung, in der Studierende zum Verfälschen ihrer Testleistungen aufgefordert wurden. Sie sollten dabei aber
so geschickt vorgehen, dass es ein »Testexperte« nicht merkt. Dabei zeigt sich, dass
viele »Simulanten« nicht die eher plumpen Doppelfehler machten. Als der beste Indikator für Simulation erwiesen sich die Fehler, bei denen die Probanden ein p mit zwei
Strichen markierten. Obwohl im gesamten Test 187 dieser Zeichen vorkommen (eine
durchschnittlich schnell arbeitende Person hatte 119 Mal die Gelegenheit für solche
Fehler), erwiesen sich bereits zwei solcher Fehler als kritisch. Mit diesem Fehlerkriterium konnten 63% der Simulanten erkannt werden, während in der Kontrollbedingung
niemand falsch bezichtigt würde. Allerdings ergab die Reanalyse von Testdaten neurologischer Patienten, dass 8% fälschlicherweise als Simulanten eingestuft würden. Setzt
man die kritische Fehlerzahl auf 10, werden immer noch 47% der »Simulanten« entdeckt und eine ungerechtfertigte Bezichtigung als Simulant wird ganz vermieden. Ein
weiteres Ergebnis dieser Untersuchung war, dass es den Versuchspersonen nicht gelang,
ihre Testleistung nach oben zu verfälschen. Nur zwei der 31 Versuchspersonen in der
Bedingung »Verfälschung nach oben« gaben an, Zeichen übersprungen zu haben. Sie
machten davon aber so sparsam Gebrauch, dass ihnen kein Ü-Syndrom bescheinigt
worden wäre.
3.1 · Leistungstests
3
Verfälschung nach
oben gelingt nicht
Simulation erkennbar
Untersuchung zur
Verfälschbarkeit
Verschiedene
Verwechslungsfehler
Schwankungsbreite
Unterschiedliche
Gewichtung von
Tempo und Fehler
Gesamtleistungswerte
193
3
Weitere Validitätsbelege
Korrelation mit
Intelligenztests
Korrelation mit
Konzentrationstests
Auch mittelfristige
Konzentration erfasst
Validität. Aufgrund des Aufgabenformates und der Vorgabebedingungen kann der Test
gleichsam »vorab« inhaltliche und Augenschein-(Face-)Validität beanspruchen, und
zwar primär für kurzfristige Konzentrationsleistungen unter Geschwindigkeits- und
Qualitätsaspekt. Allerdings sprechen Ergebnisse einer Untersuchung von Steck (1996)
dafür, dass mit dem Test d2 nicht nur kurz-, sondern auch mittelfristige Konzentration
gemessen wird. Steck (1996) ließ von seinen Probanden nacheinander eine Version des
Pauli-Tests von 5, 10 und 20 min Dauer sowie den Test d2 bearbeiten. Der Pauli-Test
verlangt das fortwährende Addieren einstelliger Zahlen. Der Test d2 korrelierte .52 mit
der Kurzversion (5 min) und .48 mit der Langversion (20 min) des Pauli-Tests. Eine
weitere Probandengruppe bearbeitete eine 30-minütige Version des Pauli-Tests. Die
Korrelation mit dem Test d2 betrug .45 min.
Die Konstruktvalidität des Test d2 kann durch zahlreiche Untersuchungen als belegt
gelten, in denen der Test mit anderen Konzentrationstests sowie (als konstruktdivergentem Kriterium) mit Intelligenztests korreliert wurde. Die Koeffizienten variieren
erheblich, was sich mit den zum Teil kleinen Stichproben erklären lässt. Für den GZWert ergaben sich überwiegend Korrelationen im Bereich von .60 mit den Tempowerten von Konzentrationstests. Für das Fehlerprozent (F%) liegen die Korrelation mit den
Fehlerwerten anderer Konzentrationstests überwiegend im Bereich von .40 bis .50
(Brickenkamp, 2002, S. 35). Mit Intelligenztestleistungen fanden sich überwiegend
niedrige Korrelationen, abgesehen vom Zahlensymbol-Test des HAWIE (um .60). An
zwei großen Stichproben wurde die Korrelation zum IST-2000 bzw. dessen Vorgänger
IST-70 ermittelt. Der Gesamtwert für schlussfolgerndes Denken des IST-2000 korrelierte .21 mit GZ und .37 mit KL (N = 484; Brickenkamp, 2002, S. 39). Zwischen dem
Gesamtwert des IST-70 und GZ bestand in einer Stichprobe von Auszubildenden
(N = 1560) bei allerdings eingeschränkter Intelligenztestvarianz ein Zusammenhang
von .14. Damit wird unterstrichen, dass die Konzentrationsfähigkeit im Test d2 klar von
Intelligenz abzugrenzen ist. Dass die Korrelationen nicht bei Null liegen, kann mehrere
Ursachen haben. Eine Erklärung ist, dass die Intelligenztestleistung (nicht die Intelligenz!) auch von der Konzentration der Probanden abhängt (Oswald & Hagen, 1996).
Darüber hinaus liegen außerordentlich zahlreiche Belege zur empirischen Validität
vor, z. B. in verkehrspsychologischen Bewährungskontrollen, bei eignungsdiagnostischen und sportlichen Problemstellungen. Mit der Eignung zum Führen von Kraftfahrzeugen korreliert der d2 zu .54, mit der Kontrolle von Fernsehapparaten im Herstellungsprozess zu .59 bis .75. Darüber hinaus diskriminiert der d2 erfolgreich zwischen
Gesunden und psychiatrisch auffälligen Gruppen, im Weiteren zwischen Hauptschülern, die auf Grund des Lehrerurteils durch einen starken bzw. schwachen Antrieb gekennzeichnet sind (signifikante Differenzen in GZ, GZ-F und KL). Einige Befunde
sprechen dafür, dass die d2-Leistungen unabhängig von der Tageszeit sind, aber sensitiv
für verschiedene Psychopharmaka.
Reliabilität. Die innere Konsistenz (Cronbachs α mit den Zeilen als Items) der wichtigsten Kennwerte, also der (fehlerkorrigierten) Tempoleistung GZ und KL, liegen für
die Erwachsenen der Eichstichprobe zwischen .95 und .97. Selbst für die jüngste Altersgruppe (9–10 Jahre) beträgt die innere Konsistenz noch .91 (GZ) bzw. .93 (KL). Auch
das Fehlerprozent (F%) weist bei den Erwachsenen (hier die Split-Half Korrelation) mit
.92 bzw. .94 sehr hohe Werte auf. Der niedrigste Wert fand sich mit .82 wieder für die
Gruppe der jüngsten Kinder. Die Retestkoeffizienten für die Gesamtmenge (GZ) liegen
je nach Intervall bei Erwachsenen zwischen .71 und .94. In etwa derselben Größenordnung bewegen sich die Stabilitäten für GZ-F und KL.
Kapitel 3 · Diagnostische Verfahren
Hohe Reliabilität
194
Spezialformen. Die Zeichen auf dem Testformular sind relativ klein und können besonders älteren Probanden, deren Sehfähigkeit eingeschränkt ist, Schwierigkeiten bereiten. Deshalb wird in der Praxis das Testformular gelegentlich durch Kopieren auf das
Format DIN A3 vergrößert. Bühner und Schmidt-Atzert (2004) haben an einer Stichprobe von Senioren (60 bis 92 Jahre) geprüft, ob diese Variante dem Original äquivalent
ist. Die Vergrößerung hatte keinen Effekt auf die Anzahl der bearbeiteten Zeichen (GZ),
wohl aber auf den Fehleranteil (F%) und den KL-Wert, der von der Fehlerzahl beeinflusst wird. Bei Verwendung der A3-Version machten die Probanden durchschnittlich
nur 5.6% Fehler im Vergleich zu 7.7% bei der Origianl-A4-Version. Beide Versionen
in diversen Buchbeiträgen vor, die sich meist auf ältere Auflagen beziehen (7 den Eintrag zum AUFMERKSAMKEITS-BELASTUNGS-TEST d2 in der Datenbank PSYNDEXplus). Eine
relativ neue Bewertung von 2001 stammt von der Diagnostikkommission des Schweizerischen Verbandes für Berufsberatung SVB , die sich jedoch noch auf die 8. Aufl.
bezieht (7 http://www.testraum.ch/Serie%204/d2.htm). Dort ist zu lesen: »Das Verfahren ist einfach durchzuführen und weit verbreitet, obwohl einige Testpersonen es als
langweilig oder anstrengend empfinden. Auch eine gewisse Unabhängigkeit von verbalen oder numerischen Fertigkeiten hat zu diesem Erfolg beigetragen. In kurzer Zeit
(ca. 5 Min. konzentrierte Arbeit und insgesamt 15 Min. Testdurchführung) wird eine
reliable und valide Information gewonnen, die für ganz viele Lern- oder Arbeitssituationen von Bedeutung ist.« Es werden Zweifel geäußert, ob der Test hinreichend valide
ist, wenn nicht eine relativ kurze Konzentration, sondern mehr eine konzentrierte Ausdauer als Konstrukt von Interesse ist. Die Testinstruktion sei für »normale bis aufgeweckte Testpersonen« zu lang. Berechtigte Kritik wird an dem Kennwert Schwankungsbreite (SB) geübt, der nicht nur von Leistungsschwankungen abhängt, sondern auch
davon, dass die Zeilen des Tests unterschiedlich schwere Items enthalten. Schließlich
werden die Interpretationsvorschläge der Handanweisung, in denen z. B. von »defizitärem Antrieb«, von »pedantisch«, von »reflexiv«, oder »impulsiv« die Rede ist, als nicht
hinreichend abgesichert und damit zu weitgehend eingestuft.
Mit dem Vorwurf von Oehlschlägel und Moosbrugger (1991), dass es bei hohen
Fehlerzahlen (Überspringen von Zeichen) zu einer Überschätzung der Konzentrationsfähigkeit kommen kann, hat sich Brickenkamp im Manual wie zuvor schon in Publikationen gründlich auseinandergesetzt. Bei einer simultanen Beurteilung von Tempo und
Sorgfalt im Diagramm des Auswertungsblattes sollte – wie bereits erwähnt – eine nicht
instruktionsgemäße Bearbeitung des Tests auffallen. Noch fehlt eine durch Validitätsuntersuchungen begründete Aussage, welcher der beiden fehlerkorrigierten Tempowerte GZ-F und KL bei welcher Fragestellung zu bevorzugen ist.
Insgesamt stellt der Test d2 ein gut bewährtes und in der Praxis leicht zu handhabendes Verfahren dar. Seine Kennwerte sind hoch reliabel und zur Validität liegen
viele positive Befunde vor. Der Test wird deshalb auch gerne zur Validierung anderer
Konzentrationstests herangezogen.
Bewertung. Zum Test d2 liegen zahlreiche Rezensionen und wertende Darstellungen
Normierung. Der Test d2 wurde von November 1999 bis Mai 2000 in vier Bundesländern an Schulen, in Betrieben, Universitätsinstituten und anderen öffentlichen Einrichtungen neu normiert. Die Gesamtstichprobe umfasst 3176 gültige Fälle. Es liegen Normen für Altersgruppen von 9–10 Jahren bis 40–60 Jahren vor, wobei die Altersgruppen
der Kinder und Jugendlichen immer zwei Jahre umfassen. Die Altersgruppen bestehen
aus 293 bis 731 gültigen Fällen.
3.1 · Leistungstests
Vergrößerung für
Senioren
Bewährtes Verfahren
GZ-F oder KL?
Schwankungsbreite
problematisch
Große Informationsausbeute
Einfache und schnelle
Durchführung
Aktuelle Normen
195
3
3
Würfel vergleichen
Kindertest
Weitere Unterschiede
Andere Zeichen
Computerversion nicht
äquivalent
Konzentrationstests mit Suchaufgaben stellen die größte Untergruppe der Konzentrationstests dar. Nach dem Prinzip, kritische Reize unter ähnlichen Reizen zu suchen,
wurden weitere Tests konstruiert. Sie unterscheiden sich vom Test d2 vor allem darin,
welche Art von Zeichen vorgegeben werden: Figuren unterschiedlicher Art (AKT, DLKE, DL-KG, FAKT, FAIR, KT 3-4) und bestimmte Buchstaben, die mit Strichen versehen sind (neben dem Test d2 auch der BKT; s. Brähler et al., 2002). Unterschiede können auch hinsichtlich der Zielgruppe (z. B. ältere Probanden), dem Markierungsprinzip, den berechneten Kennwerten und der Testdauer bestehen. Als Besonderheit ist die
computerbasierte Testdurchführung und Auswertung zu erwähnen. Die Unterschiedlichkeit der Test soll anhand von drei Beispielen erläutert werden.
Der Konzentrationstest für 3. und 4. Klassen (Revision) (KT 3-4 R) von Bretz, Nell
und Sniehotta (2004) wurde, wie in der Testbezeichnung schon erkennbar ist, für Kinder entwickelt und zudem nur für einen engen Altersbereich. Die Items beinhalten
Würfel, die zeichnerisch so dargestellt sind, dass man immer drei Flächen mit jeweils 1
bis 6 Punkten sehen kann. Jedes Item ist mit den vier Musterwürfeln zu vergleichen.
Zunächst muss unter den Würfel als Zeichen dafür, dass dieser nun zur Bearbeitung
ansteht, ein kleiner Punkt gemacht werden. Damit soll sichergestellt werden, dass alle
Items nacheinander bearbeitet werden. Wenn der Würfel mit einem der vier Muster
identisch ist, wird er durchgestrichen. Die reine Bearbeitungszeit beträgt 20 min.
Der Testleiter fordert die Probanden alle 5 min auf, einen Strich als Zeitmarke unter
den gerade bearbeiteten Würfel zu setzten. Die Musterwürfel ändern sich auf jeder
Testseite, um den Einfluss der Merkfähigkeit auf die Testleistung zu minimieren.
Das Frankfurter Aufmerksamkeits-Inventar FAIR von Moosbrugger und Oehlschlägel (1996) verwendet als Testitems vier Zeichen (Itemarten) in je zwei Versionen
(. Abb. 3.3).
Andere Konzentrationstests mit Suchaufgaben
unterschieden sich nicht in der Reliabilität, den Streuungen der Testwerte und der Validität (drei Untertests der Testbatterie zur Aufmerksamkeitsprüfung TAP). Die Autoren raten, bei Sehschwierigkeiten die vergrößerte Version zu verwenden, weil damit ein
Mangel ausgeglichen wird, der nichts mit der Konzentrationsfähigkeit zu tun hat und
vermutlich zu einer Minderung der Testleistungen führen würde.
Vom Test d2 existiert eine Computerversion (Brickenkamp et al., 1996), die sich
bereits nach Augenschein vom Original unterscheidet. Auf dem Bildschirm ist immer
nur eine Zeile zu sehen, die zudem nur aus 9 Zeichen besteht, die weiterhin einen relativ großen Abstand voneinander aufweisen. Die Buchstaben d und p sind mit Punkten
statt mit Strichen angereichert. Unter jedem Zeichen steht eine Ziffer, und der Proband
benutzt Zifferntasten von 1 bis 9, um anzugeben, bei welchen Zeichen es sich um ein
Zielobjekt handelt. Dass bei diesem Antwortmodus längere Bearbeitungszeiten resultieren, darf nicht überraschen. Die Fehlerrate fällt im Vergleich zur Originalversion
deutlich höher aus (F% = 3.3 versus 1.9). Gravierend für mögliche Anwendungen ist,
dass die Leistungen, die mit der Computerversion erzielt werden, relativ niedrig mit
den Leistungen in der Originalversion korrelieren. Für GZ werden Korrelationen von
.63 und .62 aus zwei Stichproben berichtet und für F% .42 und .31. Würden beide Versionen das gleiche Merkmal messen, sollten sie in Höhe der kurzfristigen Retestreliabilität miteinander korrelieren. Diese beträgt für GZ .92 und für F% .61 (Stabilität nach
5 h, N = 172). Damit muss die Validität der Computerversion als fraglich gelten; zumindest können die Befunde zur Papier-und-Bleistift Version nicht als äquivalent angesehen werden.
Kapitel 3 · Diagnostische Verfahren
Bei Sehschwierigkeiten
DIN A3 Version
196
Punkte Anzahl
2
3
Kreis
Quadrat
Gestalt
Rechentests setzen stillschweigend voraus, dass die Teilnehmer einen etwa gleich hohen
Automatisierungsgrad hinsichtlich der erforderlichen Rechenfertigkeiten erreicht haben und sich nur bezüglich ihrer Konzentrationsfähigkeit unterscheiden, eine Annahme, die angesichts sehr unterschiedlicher schulischer Biografien als problematisch an-
Konzentrationstests mit Rechenaufgaben
Zwei der vier Itemarten fungieren als Zielitems (in Testform A »Kreis mit 3 Punkten« sowie »Quadrat mit 2 Punkten«; in Testform B sind Ziel- und Nicht-Zielitems
vertauscht), die beiden anderen Itemarten bilden die Nicht-Zielitems. Der Test besteht
aus zwei Testbogen mit je 16 Zeilen à 20 Testitems, deren Reihenfolge hinsichtlich der
Itemart zufallsverteilt ist. Auch beim FAIR lautet die Anweisung, möglichst ohne Fehler,
aber so schnell wie möglich zu arbeiten. Im Sinne des »vollständigen Markierungsprinzips« geben die Testpersonen ihre Urteile Zeile für Zeile von links nach rechts in Gestalt
einer durchgehenden Linie ab: Bei den Nicht-Zielitems ist die Linie unter den Zeichen
nur entlang zu führen, bei den Zielitems hingegen ist die Linie zackenförmig hochzuziehen. Die reine Testdauer beträgt 6 min. Eine Besonderheit stellt das FAIR-Testauswerteprogramm (Moosbrugger & Goldhammer, 2005) dar. Es erlaubt nach Eingabe der
protokollierten Gesamt- und Fehleranzahlen die automatische Erstellung eines Auswertungsbogens inklusive der Prozentrang- und Standard-Nine-Normwerte.
Die Items des FAIR finden auch in dem computerbasierten adaptiven Frankfurter
Adaptiver Konzentrationsleistungs-Test FAKT-II (Moosbrugger & Goldhammer,
2005) Verwendung. Der FAKT-II dient der adaptiven Ermittlung der individuellen
Konzentrationsfähigkeit; er erfasst dazu die Aspekte Konzentrations-Leistung (KL),
Konzentrations-Genauigkeit (KG) und Konzentrations-Homogenität (KH). Unter Benutzung eines computerbasierten Algorithmus wird das Schwierigkeitsniveau der Items
»maßgeschneidert« an das individuelle Konzentrationsvermögen des Einzelnen dadurch angepasst, dass die Vorgabe der Items umso rascher erfolgt, je höher die Konzentrationsleistung liegt. Intendiert wird damit eine in etwa gleiche Beanspruchung auf
den interindividuell unterschiedlichen Leistungsstufen. Zur Beurteilung des Leistungsverlaufes kann die Testlänge in 6-Minuten-Schritten auf 30 min ausgedehnt werden.
Zur Beurteilung des individuellen Leistungsverlaufs werden bei Testdauern von 12, 18,
24 oder 30 min Konzentrationsergebnisse für jeden 6-Minuten-Abschnitt berechnet.
Die drei kurz vorgestellten Tests zeichnen sich wie der Test d2 durch eine hohe
Reliabilität der meisten Kennwerte aus. Als Validitätsbelege werden unter anderem
überwiegend moderate Korrelationen mit anderen Konzentrationstests und niedrige
Korrelationen mit Intelligenztests vorgelegt. Die hoch interessante Frage, welcher Test
die höchste Validität aufweist, lässt sich damit nicht beantworten.
. Abb. 3.3. Die Zellen zeigen die vier Itemarten des FAIR, welche durch die Variation der zwei Reizdimensionen Gestalt und Punkte-Anzahl erzeugt werden. Jede Itemart kommt in zwei Varianten vor,
welche sich hinsichtlich der dritten, vom Probanden auszublendenden Dimension Anordnung der
Punkte unterscheiden. (Moosbrugger & Oelschlägel, 1996)
3.1 · Leistungstests
Annahme:
Rechenfertigkeit voll
vorhanden
Leistungsverlauf
bestimmen
Adaptiver Test
Testauswerteprogramm
Vollständiges
Markierungsprinzip
197
3
3
Umfragen zum Praxiseinsatz
Viele Intelligenztests
Enge Beziehung
Intelligenz – Erfolg
im Leben
Sehr erfolgreiche
Verfahren
Enge Beziehung
zu Rechenfertigkeit
Intelligenztests
3.1.2.1 Systematik der Intelligenztests
Im Testkompendium Brickenkamp (Brähler, Holling, Leutner & Petermann, 2002) sind
insgesamt 57 Intelligenztests aufgeführt. Ein Ordnungsmerkmal ist die Beliebtheit der
einzelnen Tests in der Praxis. Die dort tätigen Psychologen setzten bestimmte Verfahren
bevorzugt ein, wie Umfragen unter praktisch tätigen Psychologen zeigen (. Tab. 3.4).
Die Nennungshäufigkeiten sind nicht gleichzusetzen mit der Anzahl der Anwendungen. Sie besagen, wie viele Psychologen einen Test überhaupt verwenden. Die Wechsler
Tests (HAWIE und HAWIK) sind nur in Einzelsitzungen durchzuführen, der IST bzw.
Intelligenztests sind vermutlich die erfolgreichsten Verfahren in der psychologischen
Diagnostik. Sie sind erfolgreich, weil sie in wichtigen Lebensbereichen erstaunlich gute
Vorhersagen erlauben und zudem relativ zeitstabile Kennwerte liefern. Die Korrelationen mit Schul-, Ausbildungs- und Berufserfolg liegen im Bereich von .50 (Neisser et al.,
1996; Schmidt & Hunter, 1998). In den Jahren 1921 und 1922 wurden in der monumentalen Terman-Studie rund 1.400 Kinder nach ihren Ergebnissen in dem Stanford-BinetStaffeltest ausgewählt. Ihr IQ musste mindestens 135 betragen. Damit gehörten sie zu
dem oberen Prozent in der Intelligenzverteilung. Bei der genauen Verfolgung Ihres
Lebensweges über viele Jahre hinweg zeigte sich, dass sie in fast jeder Hinsicht erfolgreicher und zufriedener waren als die Durchschnittsbevölkerung (obwohl eine Kontrollgruppe von Personen mit durchschnittlichem IQ nicht zur Verfügung stand). Beispielsweise gehörten im Jahre 1960 von den männlichen Teilnehmern 47% in die obere
von fünf Berufsgruppen; dazu zählten Rechtsanwälte und Richter (10% der 738 hochbegabten Männer mit Beschäftigung), Ingenieure (8%), Universitätsmitglieder (7%),
Naturwissenschaftler (6%) und Ärzte (5%) (Oden 1968). Erstaunlich ist nicht nur, dass
die Intelligenz ein derart starker Prädiktor für Erfolg ist, sondern auch, dass es möglich
ist, mit einem Intelligenztest, dessen Bearbeitung weniger als 2 h erfordert, so weit in
die Zukunft eines Menschen zu schauen.
3.1.2
aktuellen Normen und die größere Informationsausbeute (insbesondere Angaben zum
Leistungsverlauf) zu nennen. Im Vergleich zu den meisten anderen Konzentrationstests
ist die Testaufgabe relativ komplex. So verlangt der Revisionstest »nur«, zu überprüfen,
ob zwei einstellige Zahlen richtig addiert worden sind. Die oben beschriebene Untersuchung von Schmidt-Atzert et al. (im Druck) ergab, dass der KLT-R 6-13 nicht die
gleiche Konzentrationsfähigkeit erfasst wie die meisten anderen Konzentrationstests.
Ferner zeigte sich eine deutliche Abhängigkeit von der Rechenfertigkeit und der Merkfähigkeit. Die Angaben zur Validität des KLT-R (7 oben) weisen ebenfalls auf eine
relativ enge Beziehung zur Rechenfertigkeit hin. Die Korrelationen mit einem Rechentest (divergente Validität) liegen in der gleichen Größenordnung wie die mit dem konstruktnahen Test d2. Dabei ist zu beachten, dass die Korrelationen mit dem Rechentest
auf altershomogenen Probandengruppen basieren (was sich korrelationsmindernd
auswirkt), während die Korrelationen mit dem Test d2 für einen breiteren Altersbereich
ermittelt wurden. Die Normen stützen sich nur auf bayrische Schulen, was angesichts
der Abhängigkeit der KLT-Leistung von der Rechenfertigkeit und Unterschieden im
Schulsystem zwischen einzelnen Bundesländern problematisch ist. Auf die Testrezension von Nell (2003), aus der einige der genannten Kritikpunkte stammen, sei gesondert
verwiesen.
Kapitel 3 · Diagnostische Verfahren
Komplexe Testaufgabe
200
HAWIK/HAWIK-R
HAWIE/HAWIE-R
SPM/RAVEN
IST/IST-70
CFT (1, 2, 3, 20)
LPS/LPS-R
1/1
2/2
3/3
4/4
5/5
6/7
9%
14%
16%
18%
28%
28%
5%
7%
9%
12%
18%
22%
Nennungshäufigkeita
G+Komponenten, auch für Kinder
Komponente, kulturfair, auch als
Powertest, z. T. auch für Kinder
G+Intelligenzstruktur
G, kulturfair, Powertest, auch für Kinder
Einzeltest, g+Komponenten
für Kinder, Einzeltest, g+Komponenten
Anmerkungen zum Test
Messintention. Nicht allen Tests liegt explizit ein bestimmtes Intelligenzmodell zugrunde. Dieser Nachteil lässt sich jedoch durch die Forschung zur Konstruktvalidität
beheben. Für viele Fragestellungen ist es nützlich, ein Maß für die allgemeine Intelligenz
zu erheben. Die meisten Tests sind dazu auch geeignet. Allerdings fassen die jeweiligen
Testautoren das Konzept der allgemeinen Intelligenz nicht vollkommen gleich auf.
Grundsätzlich sind hier zwei Ansätze zu erkennen. Die einen versuchen, den »Kernbereich« der Intelligenz, das schlussfolgernde Denken (Reasoning) zu erfassen. Diese
Konzeption liegt beispielsweise den Standard Progressive Matrices SPM zugrunde.
Andere bemühen sich um eine »breite« Messung mit Aufgabengruppen zu verschiedenen Bereichen (Komponenten) der Intelligenz mit anschließender Durchschnittsbildung. Die »Breite« kann dabei unterschiedlich gefüllt werden, d. h. die Auswahl der
Intelligenzkomponenten variiert von Test zu Test.
IST-70 wird dagegen meist in Gruppensitzungen durchgeführt. Alleine deshalb unterschätzt die Befragung seine Anwendungshäufigkeit im Vergleich zu der von HAWIE
und HAWIK. In einer Befragung von Psychologen in ambulanten und stationären
kinder- und jugendpsychiatrischen Einrichtungen (Bölte, Adam-Schwebe, Englert,
Schmeck & Poustka, 2000) zeigte sich, dass Intelligenztests die Liste der dort eingesetzten Testverfahren anführen. Insgesamt 74% der Befragten gaben an, Intelligenztests
»immer« einzusetzen, die restlichen 26% antworteten »oft«. Im Einzelnen tauchen in
den Befragungsergebnissen alle in . Tab. 3.1 aufgeführten Tests auf. Den Antworten
zufolge gelangt am häufigsten in diesem Praxisbereich der HAWIK-R zur Anwendung;
in 97% der Einrichtungen kommt der Test zum Einsatz, gefolgt von der Kaufman Assessment Battery for Children (K-ABC) mit immerhin 85% aller Nennungen. Dieser
Test taucht in den Umfragen von Steck (1997) und Schorr (1995) zumindest an prominenter Stelle nicht auf.
Intelligenztests unterscheiden sich in vielen weiteren Aspekten voneinander. Zusammenfassend sind die Kriterien in . Tab. 3.5 aufgeführt. Sie werden im Folgenden
kurz erläutert.
Anmerkung. Die sechs in Umfragen von Steck (1997) und Schorr (1995) am häufigsten genannten Intelligenztests. Befragt wurden 250 bzw. 613 praktisch tätige Psychologen. G = allgemeine
Intelligenz.
a
nach Steck/Schorr.
Test (Kurzbezeichnung)
Ranga
. Tabelle 3.4. Intelligenztests in der Praxis
3.1 · Leistungstests
3
Unterschiedliche
»Breite«
Allgemeine Intelligenz
201
3
Einzel- oder Gruppentest
Bildungseinflüsse
Intelligenzkomponenten
tung zu bevorzugen. Die dafür geeigneten Tests lassen sich selbstverständlich auch an
einzelne Probanden vergeben. Die Wechsler-Tests (7 unten) wurden mit Absicht für
Einzeluntersuchungen konzipiert. Die Durchführung verläuft als weitgehend standardisierter Dialog; der Testleiter fragt etwas und der Proband gibt eine Antwort darauf.
Dieses Vorgehen kann aus motivationalen Gründen nötig sein, insbesondere bei Kindern und bei Erwachsenen mit einer psychischen Störung oder Behinderung. Es hat
den weiteren Vorteil, dass der Testleiter Einblick in das Arbeitsverhalten bekommt und
das Testergebnis vor dem Hintergrund der beobachteten Anstrengung und der eingesetzten Lösungsstrategien interpretieren kann. Ein IQ von 80, der mit höchster An-
Durchführungsbedingungen. Aus ökonomischen Gründen ist oft eine Gruppentes-
Die »breiten« Tests liefern zusätzlich Informationen über mehrere Intelligenzkomponenten (beispielsweise sprachliches, rechnerisches und räumliches Denken). Sie firmieren als Strukturtests, wenn viele Intelligenzkomponenten erfasst und Unterschiede
zwischen den Untertests interpretiert werden können; gewöhnlich findet in diesen
Fällen eine Darstellung der Untertestleistungen in Form eines Profils statt.
Einige Tests sollen nur eine bestimmte Komponente der Intelligenz messen. Die in
. Tabelle 3.4 genannten CFT-Tests sollen die fluide Intelligenz erfassen, also das von
Bildungseinflüssen relativ freie schlussfolgernde Denken. Andere Tests sind so konzipiert, dass sie etwa nur den Wortschatz (als Indikator für erworbenes Wissen oder
kristallisierte Intelligenz) prüfen. Der CFT 3 enthält einen solchen Zusatztest. Im CFT
wird ein weiterer wichtiger Aspekt der Intelligenzmessung realisiert: Die Messung frei
oder absichtlich nicht frei von Bildungseinflüssen. Manchmal macht es keinen Sinn,
einen Test einzusetzen, dessen Ergebnis von der (Schul-) Bildung oder der Beherrschung der deutschen Sprache abhängt. Wenn der Proband die deutsche Sprache nicht
hinreichend beherrscht oder aus einer anderen Kultur kommt, wäre es unfair, seine
Intelligenz mit einem Test zu messen, in dem z. B. nach dem Namen des deutschen
Bundespräsidenten oder nach der Bedeutung des Wortes »Katakombe« gefragt wird. In
vielen Fällen ist es diagnostisch aufschlussreich, gesonderte Informationen über die
fluide und die kristallisierte Intelligenz zu haben.
Zielgruppe:
– bestimmter Altersbereich
– bestimmter Intelligenzbereich
– Gesamtbevölkerung oder spezielle Personengruppe
Durchführungsbedingungen:
– Einzel- oder Gruppentestung
– Speed- oder Powertest
– Papier-und-Bleistift oder Computertest
– Dauer der Testdurchführung
Messintention:
– allgemeine Intelligenz (g) oder eine bestimmte Intelligenzkomponente
– ein Globalmaß oder (auch) Intelligenzstruktur bzw. mehrere Komponenten
– Intelligenz sprachfrei/kulturfair oder bildungsabhängig messen
Testmerkmal
. Tabelle 3.5. Wichtige Merkmale zur Einordnung von Intelligenztests
Kapitel 3 · Diagnostische Verfahren
Strukturtests
202
6
Dem stehen kaum Nachteile gegenüber. Unter bestimmten Umständen kann die
computerunterstützte Diagnostik zu Mehrkosten gegenüber der Papier-und-Bleistift
Version führen. Dies ist der Fall, wenn Tests so selten eingesetzt werden, dass sich
die Anschaffung eines Computers und der Testsoftware nicht lohnt.
Früher wurde die Frage, ob die Computerversion der Papier-und-Bleistift Version
äquivalent ist, eher kritisch diskutiert. Ältere Untersuchung zur Äquivalenz (vgl.
Mead & Drasgow, 1993) hatten noch deutliche Unterschiede zwischen beiden Testversionen aufgedeckt, wenn es sich um tempobetonte Leistungstests handelte. Inzwischen sind die Benutzeroberfläche und die Bildschirme deutlich verbessert wor-
Im Zuge der fortschreitenden technischen Möglichkeiten sind heute viele ursprünglich als Papier-und-Bleistift Verfahren entwickelte Tests auch als Computerversion
erhältlich. Mittlerweile werden zahlreiche Tests von Anfang an als computerbasierte
Verfahren entwickelt. Die Gründe dafür sind unterschiedlich. Beispielsweise sollen
Reaktionszeiten gemessen, sich verändernde Reize dargeboten, komplexes Problemlöseverhalten durch die Darbietung computersimulierter Szenarien erfasst
(s. dazu Kersting, 1999a), adaptives Testen ermöglicht oder die Akzeptanz bei den
Anwendern erhöht werden. Viele Vorteile computergestützter Diagnostik liegen auf
der Hand:
4 Durchführung hoch standardisiert
4 Entlastung für den Testleiter (kann während der Testdurchführung andere Aufgaben erledigen)
4 Auswertung völlig standardisiert und nicht fehleranfällig
4 Auswertung sehr ökonomisch (keine Arbeitszeit erforderlich)
4 Ergebnisse sofort verfügbar
4 Bei Bedarf exakte Erfassung von Einzelreaktionen inklusive der zugehörigen Zeit
4 Bei Bedarf Darbietung von sich bewegenden Reizen oder von Videosequenzen
4 Adaptives Testen möglich
4 Verwendung von komplexen Problemlöseszenarien möglich
Computerbasierte Tests
Exkurs
strengung erkämpft wurde, ist anders zu werten als der gleiche IQ, der mit geringer
Motivation oder einem unkonzentrierten Arbeitsstil »entstanden« ist.
Bei den meisten Intelligenztests ist die Bearbeitungszeit knapp bemessen; es kommt
also bei der Bearbeitung auch auf Schnelligkeit an. Für manche Probanden stellt Zeitdruck eine ungerechtfertigte Benachteiligung dar. Beispielsweise können manche Testteilnehmer aufgrund von Seh- oder Sprachschwierigkeiten nur verlangsamt lesen; andere können motorisch beeinträchtigt sein, was beim Ankreuzen von Items oder bei
der Betätigung von Tasten bei einer computerbasierten Testung zusätzliche Zeit beansprucht. Auch eine Verlangsamung von Denkprozessen durch bestimmte Erkrankungen (insbesondere Depression) oder bestimmte Medikamente ist möglich. Schließlich
kann in manchen Fällen Zeitdruck in Kombination mit einer starken Testangst zu einer
Leistungsbeeinträchtigung führen. In diesen Fällen ist der Einsatz von Tests ohne (starke) Zeitbegrenzung (Powertests) sinnvoll. Dabei steigt die Schwierigkeit von Item zu
Item derart, dass die letzten Aufgaben selbst von sehr fähigen Probanden kaum noch
zu lösen sind.
3.1 · Leistungstests
3
Frage der Äquivalenz
Vorteile
Speed- und Powertests
203
3
Unterschiede in der
Normierung
Gründliche Messung
oder Screening
. Abb. 3.4. Touch Panel für
das Hogrefe Testsystem
(Quelle: http://www.apparatezentrum.de/)
Verfügung stehen. Ein Blick in die Normtabellen der Tests offenbart, dass sich die Tests
diesbezüglich unterscheiden. Die Vergleichsgruppe muss hinreichend groß und oft
auch repräsentativ für die Gesamtbevölkerung sein. Bei einigen Tests liegen für bestimmte Altersgruppen, meist sind es die unteren und oberen Ränder der Altersverteilung, nur sehr kleine Eichstichproben vor. Besonders im Schulbereich sind zusätzliche Normen für einzelne Schultypen hilfreich, sodass man beispielsweise feststellen
kann, wie begabt ein Proband im Vergleich zu altersgleichen Gymnasiasten ist. Viele
Zielgruppe. Für viele Fragestellungen ist es unerlässlich, dass geeignete Normen zur
Die Durchführungszeit stellt in der Praxis ein wichtiges Kriterium für die Testauswahl
dar. Gerade wenn für eine umfangreiche diagnostische Untersuchung verschiedene
Verfahren notwendig sind, kann das Zeitargument in den Vordergrund treten. In der
Regel müssen eine höhere Reliabilität und eine größere »Breite« des Tests bei der Messung der allgemeinen Intelligenz mit mehr Items und Subtests und damit mit mehr Zeit
»bezahlt« werden. Deshalb ist zu bedenken, welchen Zwecken der Einsatz des Intelligenztests dienen soll. Wird nur ein Screeningverfahren gesucht oder kommt dem Testergebnis eine große Bedeutung zu? Insbesondere adaptive Testverfahren können helfen,
die Durchführungszeit zu verkürzen.
den, und die Probanden sind meist im Umgang mit dem Computer geübter. Klinck
(2002) hat in einer großen und sorgfältig geplanten Studie im psychologischen
Dienst der Arbeitsämter zeigen können, dass die beiden verwendeten Versionen zu
den gleichen Ergebnissen führen, die computerbasierte Testung zu keinen Akzeptanzproblemen führt und eine Benachteiligung bestimmter Personengruppen nicht
zu befürchten ist.
Als Eingabemedium findet heute nicht nur die Computertastatur Verwendung.
Für viele Tests können auch spezielle Probandentastaturen mit einigen wenigen
Antworttasten, Lichtgriffel oder auch ein Touchscreen (. Abb. 3.4) eingesetzt
werden.
Kapitel 3 · Diagnostische Verfahren
Eingabemedien
204
Die Wechsler Intelligenztests HAWIE und HAWIK bzw. ihre revidierten Nachfolger nehmen in den Befragungen von Steck (1997) und Schorr (1995) die ersten Plätze
bei den Leistungstests ein (. Tab. 3.4). Die ersten vier Buchstaben des Testnamens
stehen für Hamburg (den Ort, an dem die erste Eindeutschung erfolgte) Wechsler
(den Autor) Intelligenztest; der letzte Buchstabe bezeichnet die Erwachsenen- bzw. die
Kinderversion. Zusätze wie -R oder -III kennzeichnen die Version des Tests. Die
Wechsler-Tests liefern ein Maß für die allgemeine Intelligenz sowie weitere Angaben
zu einzelnen Fähigkeiten oder Bündeln von Fähigkeiten. Sie werden mit der Testperson in einer Einzelsitzung in Form eines weitgehend standardisierten Dialogs durchgeführt.
Die Wechsler-Tests stellen eine ganze Familie von Tests dar, die für Erwachsene,
Kinder und Vorschulkinder entwickelt und inzwischen mehrfach überarbeitet worden
sind (. Abb. 3.5).
Die heutigen Tests gehen auf die Wechsler-Bellevue Intelligence Scales von 1939
zurück. David Wechsler (. Abb. 3.6; für eine Kurzbiografie s. http://www.indiana.edu/
~intell/wechsler.shtml) hatte den Test am Bellevue Hospital in New York erstellt. Er
wollte keinen völlig neuen Test entwickeln, sondern suchte nur ganz pragmatisch in den
vorhandenen Tests nach brauchbaren Aufgaben. Als Vorbilder dienten insbesondere
der Test von Binet und die Army-Alpha und -Beta Tests. Aus diesen beiden ArmeeTests hat er Dutzende von Items »übernommen«. Viele dieser Items finden sich heute
noch in den aktuellen Versionen der Wechsler Tests (Gregory, 1992, S. 177).
Der Erwachsenentest erfuhr mehrfache Revisionen. Später kamen Tests für Schulkinder und dann auch für Vorschulkinder hinzu, die ebenfalls Revisionen unterworfen
wurden. Das Geheimnis des großen Erfolgs der Wechsler-Tests lautet Konstanz. Der
Erfolg ist nicht nur daran abzulesen, dass die Tests in viele Sprachen übersetzt und
adaptiert worden sind, so auch ins Deutsche (. Abb. 3.5), sondern auch am Preis. Heute kostet beispielsweise der WISC-IV ohne Koffer und Software zur Auswertung bei
Harcourt 825.– Dollar. Zu den Kinder- und Erwachsenentests WAIS bzw. WISC lassen
sich heute jeweils über 5.000 Publikationen nachweisen (Literaturrecherche mit PsycINFO, Stand: Mai 2005).
Die Wechsler-Tests
3.1.2.2
Ausgewählte Intelligenztests
Bei der Auswahl der nachfolgend ausführlicher dargestellten Tests spielte die Bedeutsamkeit in der Praxis (. Tab. 3.1) eine Rolle, aber auch die Unterschiedlichkeit der Tests.
Mit der Beschränkung auf nur drei Tests ist es unmöglich, etwa das ganze Spektrum der
Intelligentests abzudecken. Das Ziel besteht darin, die Verschiedenheit deutlich zu machen. Im Anschluss an die Beschreibung eines Tests kommen deshalb auch Alternativen
zu dem vorgestellten Verfahren kurz zur Sprache.
Tests sind aufgrund der Zusammensetzung der Normierungsstichprobe für den unteren oder oberen Intelligenzbereich nicht oder wenig geeignet. Beispielsweise empfehlen
die Autoren des HAWIK III im Manual, den Test auch zur Feststellung von Hochbegabung einzusetzen – aber nur im Sinne eines Screenings, weil der Test im oberen Bereich
nicht gut differenziert.
Für Forschungszwecke oder in der Personalauswahl sind Normen nicht unbedingt
erforderlich. Hier spielt die Akzeptanz oft eine erhebliche Rolle. Eine für die Zielgruppe angemessene Aufgabenschwierigkeit sowie Iteminhalte, die möglichst aus dem Lebensbereich der Probanden stammen, sind dafür entscheidend.
3.1 · Leistungstests
3
Erfolg durch Konstanz
Pragmatische
Testkonstruktion
Familie von Tests
Standardisierter Dialog
Sehr verbreitet
Akzeptanz beachten
Differenzierung im
unteren oder oberen
Bereich
205
Durchführung. Die einzelnen Subtests (. Tab. 3.6) werden in fester Reihenfolge in Form
eines standardisierten Dialogs vorgegeben. Subtests aus dem Handlungs- und Verbalteil
wechseln einander dabei ab. In Abhängigkeit vom Alter des Kindes wird teilweise gleich
mit einer etwas schwierigeren Aufgabe innerhalb eines Untertests begonnen; die Punkte für die davor liegenden Items werden dem Probanden gutgeschrieben, wenn er die
schwierigere Aufgabe gelöst hat. Der Testleiter muss bei einigen Untertests (z. B. Allgemeines Wissen) die Antworten gleich bewerten, weil nach einer bestimmten Anzahl von
Handlungsteil und den Verbalteil verteilen. In . Tab. 3.6 sind die Subtests mit kurzen
Erläuterungen aufgeführt.
HAWIK-III: Hamburg-Wechsler-Intelligenztest für Kinder – 3. Aufl.
Testaufbau und Gliederung. Der HAWIK-III enthält 13 Subtests, die sich auf den
prinzipiell noch von dem Wissen profitieren, das sie einmal im Studium erworben
haben.
Bei den Revisionen achteten die Konstrukteure auf Konstanz, soweit dies möglich
war. Einzelne Items wurden ausgetauscht, wenn sie nicht mehr zeitgemäß waren
(. Abb. 3.7). Der Aufbau und die Auswertung der Wechsler Tests sollen am Beispiel des
HAWIK-III (Tewes, Rossmann, & Schallberger, 1999) erläutert werden.
3.1 · Leistungstests
3
. Abb. 3.7. Item aus dem
HAWIK-R (Subtest Bilderergänzen). Auf dem Bild
fehlt das Kabel am Mikrofon.
Seit sich schnurlose Mikrofone durchgesetzt haben, ist
dieses Item nicht mehr zeitgemäß, und es fehlt in der
Nachfolgeversion HAWIK-III
Antworten gleich
bewerten
Einstiegsaufgaben
teils altersabhängig
Nicht mehr zeitgemäße
Items ersetzt
. Abb. 3.6. David Wechsler. Courtesy of the National
Library of Medicine
207
3
Teils Bearbeitungszeit
messen
Linie vom Zentrum zum Ausgang eines Labyrinths
ziehen
Labyrinthtest b
LA
falschen oder fehlenden Antworten der Untertests vorzeitig beendet wird. Beim Wortschatz-Test sehen die Bewertungsrichtlinien für die gültigen Antworten je nach ihrer
Qualität einen oder zwei Punkte vor. Bei anderen Untertests misst der Testleiter mit einer
Stoppuhr die Zeit, weil je nach Lösungszeit unterschiedlich viele Punkte gegeben werden
(z. B. beim Mosaik-Test) oder weil eine feste Bearbeitungszeit vorgeschrieben ist (beim
Zahlen-Symbol Test). Der Test stellt also erhebliche Anforderungen an den Testleiter.
Eine gründliche Einarbeitung und Übung sind vor dem ersten »richtigen« Einsatz erforderlich. Die Durchführung der zehn Standardtests dauert etwa 50 bis 70 min, für die
optionalen Zusatztests sind etwa 10 bis 15 min zu veranschlagen.
Anmerkung.
a Items mit Antwortbeispielen und deren Bewertung (0 oder 1 Punkt möglich, manchmal 2).
b Subtest kann wahlweise durchgeführt werden.
Zerschnittene Figuren („Puzzle“) zusammen fügen
Zwei Gruppen von Symbolen vorgegeben, ankreuzen, ob
ein Symbol in beiden Gruppen enthalten ist
Symbolsuche b
zweifarbiges Muster mit 2, 4 bzw. 8 Klötzchen nachlegen
(Flächen rot, weiß und rot/weiß)
Bilder sind in die richtige Reihenfolge zu bringen
Figurenlegen
Mosaik-Test
MO
SS
Bilderordnen
BO
Umwandlungstabelle mit Zahlen und Symbolen (z. B. +)
Symbole in Felder unter Zahlen eintragen
FL
Zahlen-Symbol-Test
Bilder ergänzen
ZS
BE
Was fehlt auf dem Bild? Fehlendes Detail benennen oder
zeigen
3-4-1-7 (nachsprechen)
Zahlen nachsprechenb
ZN
Handlungsteil
Warum haben Autos Sicherheitsgurte? Das ist eine Vorschrift (1 Punkt)
Allgemeines
Verständnis
Was ist ein Brot?Mag ich nicht (0 Punkte)
Franz liest 3 Seiten in 5 min. Wie viele Minuten braucht er
für 24 Seiten? (max. 75 s Zeit)
Wortschatz-Test
Rechnerisches Denken
RD
Was ist das Gemeinsame an Hemd und Schuh?
Kleidungsstücke (1 Punkt)
AV
Gemeinsamkeiten finden
GF
In welcher Himmelsrichtung geht die Sonne
unter?Westen
(1 Punkt)
Aufgabenbeschreibung bzw. Itembeispiela
WT
Allgemeines Wissen
Subtest
AW
Verbalteil
Abkürz.
. Tabelle 3.6. Aufbau des HAWIK-III
Kapitel 3 · Diagnostische Verfahren
Bei Wortschatz-Test 1
oder 2 Punkte
208
Auswertung. Nachdem jede Aufgabe bewertet worden ist, werden die Rohpunkte addiert. Auf dem Protokollbogen stehen dann für jeden Subtest Punkte. Diese können
anhand von Tabellen in Wertpunkte umgewandelt werden. Ein Auswertungsprogramm
steht zur Verfügung, das alle Transformationen einschließlich der IQ-Bestimmung
vornimmt. Man muss lediglich für jeden Subtest die Punktzahl eingeben. Die Ergebnisse lassen sich auch grafisch als Profil darstellen (. Abb. 3.8). Die grau unterlegte Fläche
gibt den Bereich durchschnittlicher Leistungen an (Mittelwert +/– eine SD). Auf der
linken Seite sieht man die Ergebnisse in den einzelnen Untertests (zur Bedeutung der
Abkürzungen . Tab. 3.3) in Wertpunkten (M = 10, SD = 3). Rechts daneben finden sich
die Angaben zum Verbal-IQ (VIQ), Handlungs-IQ (HIQ) und Gesamt-IQ (IQ). Die
Höhe der IQ-Werte kann rechts am Rand abgelesen werden. Rechts sind bestimmte
Untertestkombinationen aufgeführt. Das Sprachliche Verständnis (SV) wird über die
Untertests AW, GF, WT und AV bestimmt. Der Wert für die Wahrnehmungsorganisation (WO) errechnet sich aus den Untertests BE, BO, MT und FL. Die Summen aus den
Untertests RD und ZN bzw. ZS und SS liefern Punkwerte für Unablenkbarkeit (UA)
bzw. Arbeitsgeschwindigkeit (AG).
Bei der Interpretation liefern die Verhaltensbeobachtungen ergänzende Informationen. Im Manual finden sich differenzierte Hinweise auf Faktoren, die bei jedem
Untertest die Leistung beeinflussen können. Beispielsweise kommen für schlechte Ergebnisse im Rechnerischen Denken mangelnde Rechenfähigkeit, Konzentrationsstörungen und ein schlechtes Gedächtnis in Frage. Da die Einflussfaktoren mit den Untertests variieren, bietet sich die Kombination von mehreren Untertests zu einem Kennwert an (7 oben). Insgesamt ist die Informationsausschöpfung im HAWIK-III groß.
Der Test liefert neben der Information über die allgemeine Intelligenz des Probanden
auch Angaben zu den Teilbereichen Handlungs- und Verbalintelligenz und zu den
Leistungen in den einzelnen Untertests. Letztere können, einzelfallstatistisch abgesi-
3.1 · Leistungstests
3
. Abb. 3.8. Teil der Ergebnisdarstellung bei Verwendung des Auswertungsprogramms zum HAWIK-III
(Hogrefe).
Interpretationshinweise für niedrige
Subtestergebnisse
Verhaltensbeobachtung wichtig
Kombination von
Subtests
Rohpunkte in Wertpunkte transformieren
209
3
Große Informationsausbeute
Nützliches Verfahren
Normen für 6;0 bis
16;11 Jahre
Im Manual wenige
Angaben zur Validität
Subtests weniger
reliabel
Gesamtwert hoch
reliabel
Bewertung. Einen Test, der in jeder Hinsicht perfekt ist, wird es wohl nie geben. Der
HAWIK-III stellt trotz einiger kleiner Unzulänglichkeiten, auf die oben bereits hingewiesen wurde, ein brauchbares und nützliches Intelligenztestverfahren für Kinder und
Jugendliche dar. Die Informationsausbeute ist groß. Der Test liefert neben dem IQ
viele Informationen über Stärken und Schwächen des Probanden. Ein großer Vorteil
des Verfahrens liegt darin, dass es national wie international intensiv beforscht wird und
damit laufend neue Erkenntnisse anfallen, die auch für die Interpretation der Tester-
men. Der Test wurde an insgesamt 1570 deutschen, österreichischen und schweizerischen Kindern und Jugendlichen im Alter von 6;0 bis 16;11 Jahren normiert. Die Unterteilung in die Altersgruppen ist relativ fein; die Gruppen unterscheiden sich im Alter
jeweils um vier Monate. Die Stichprobenumfänge variieren zwischen 35 und 60 Personen. Dass in einigen Altersgruppen der Anteil an Sonderschülern nicht perfekt ausbalanciert ist (Renner & Fricke, 2001) muss als kleine Unzulänglichkeit gewertet werden.
Über die Frage, welcher Anteil an Gymnasiasten jeweils angemessen ist, lässt sich diskutieren (Schallberger et al., 2001).
Normen. Ein Test für Kinder und Jugendliche verlangt nach fein gestuften Altersnor-
Validität. Die Angaben zur Validität im Manual sind nur spärlich. Insbesondere fehlen
Angaben zur Korrelation mit anderen Intelligenztests. Es ist nicht zu bezweifeln, dass
mit dem HAWIK-III Intelligenz gemessen wird – aber die Frage, wie sich die mit dem
HAWIK-III gemessene Intelligenz zu der Intelligenz verhält, die mit Tests ermittelt
wird, die auf anderen Intelligenzmodellen basieren, verlangt nach einer Antwort. Die
Autoren belegen, dass die Testleistungen in Abhängigkeit von Schultyp in die erwartete Richtung variieren. Sonderschüler weisen beispielsweise deutlich niedrigere IQ-Werte auf als gleichaltrige Grundschüler (M = 75 versus 103). Die Angaben zur faktoriellen
Struktur des Tests decken sich nicht völlig mit der Verrechung der Subskalen; der Untertest Unablenkbarkeit ist »kaum zu identifizieren« (Renner & Fricke, 2001, S. 466). Es
ist richtig, dass die Wechsler-Tests nicht faktorenanalytisch konstruiert wurden (Schallberger, Tewes & Rossmann, 2001) – wenn jedoch Subtests zu einem Skalenwert verrechnet werden, so sollten die Faktorenladungen dieser Subtests die gemeinsame Verrechnung stützen.
Reliabilität. Das Manual weist für den Gesamt-IQ mit .96 (split-half) einen hohen Wert
aus. Die durchschnittliche Reliabilität des Verbal-IQs liegt mit .95 im gleichen Bereich,
die des Handlungs-IQs mit .91 darunter. Bei den einzelnen Subtests schwanken die
Reliabilitäten erheblich. Im Mittel beträgt die Reliabilität zwischen .68 (Figurenlegen)
und .88 (Wortschatztest, Mosaiktest). Bemängelt wurde, dass sich im Manual keine
Angaben zur Retestreliabilität finden (Renner & Fricke, 2001).
rungsrichtlinien komplex sind und der Testleiter sich dem Kind gegenüber von Fall zu
Fall nicht immer gleich verhalten kann und auch nicht soll. Zur Auswertungsobjektivität wurde angemerkt, dass die Richtlinien zu den Untertests Wortschatz und Allgemeines Wissen einige Unklarheiten aufweisen (Renner & Fricke, 2001).
Objektivität. Die Durchführungsobjektivität wird nicht perfekt sein, da die Durchfüh-
chert, Hinweise auf spezifische Störungen liefern. Dem Manual zu Folge können zudem
durch Kombination von Subtestergebnissen bis zu 22 Kennwerte berechnet werden, die
jedoch zum Teil nicht gut empirisch abgesichert sind.
Kapitel 3 · Diagnostische Verfahren
Objektivität nicht
perfekt
210
Kaufman, Kaufman, Melchers & Preuß, 2001) stellt ein eigenständiges, nicht an die
Wechsler-Tests angelehntes Verfahren dar. Die K-ABC umfasst 16 Untertests, von denen
jedoch in Abhängigkeit vom Alter des Probanden nur maximal 13 eingesetzt werden.
Die wesentlichen Unterschiede zum HAWIK-III werden im Folgenden dargelegt:
4 Beim K-ABC wird strikt zwischen Intelligenz im Sinne einer kognitiven Leistungsfähigkeit (als Potenzial zu verstehen) und erworbenen Fertigkeiten unterschieden.
K-ABC. Die K-ABC (Kaufman-Assessment Battery for Children, deutsche Version von
AID 2. Das Adaptive Intelligenz Diagnostikum 2 (AID 2) von Kubinger und Wurst
(2000) ist konzeptuell eng an die Wechsler-Tests angelehnt. Die Aufgabentypen des
HAWIK finden auch im AID 2 Verwendung; die Subtests tragen aber andere Namen.
So entspricht Subtest Realitätssicherheit des AID 2 dem Bilderergänzen des HAWIK.
Einige der 11 obligatorischen und drei fakultativen Subtests stellen jedoch eine Erweiterung gegenüber dem HAWIK dar.
Das Verfahren hebt sich vom HAWIK (und in den beiden ersten Punkten auch von
vielen anderen Intelligenztests) vor allem durch drei Besonderheiten ab:
4 Die Messung erfolgt bei den meisten Subtests »adaptiv«, also orientiert an dem
jeweiligen Fähigkeitsniveau eines Probanden. D. h., die Auswahl der Aufgaben
(-gruppen), die einer Testperson vorzugeben sind, richtet sich nach den Leistungen
dieser Person in vorangegangenen Aufgaben. Der Vorteil eines derartigen »branched-testing« besteht darin, dass durch die Auswahl jener Aufgaben, die für eine
Testperson ungefähr den Schwierigkeitsgrad p = .50 aufweisen, der größte Zuwachs
an Information über das jeweilige Fähigkeitsniveau ermöglicht wird und damit potentiell eine besondere Messgenauigkeit erzielbar ist. Weil auf viele (individuell) zu
leichte bzw. zu schwere Items verzichtet wird, ergibt sich zudem eine besondere Ökonomie, die je nach Ziel der Testvorgabe in eine verkürzte Testzeit oder eine besondere Messgenauigkeit umgesetzt werden kann. Das adaptive Vorgehen erfordert die
sofortige Bewertung der gelieferten Antworten als »richtig« oder »falsch«; bei einigen
Subtests sind zudem Grenzwerte für die Bearbeitungszeit für die einzelnen Aufgaben
zu beachten. Das Prinzip der Testvorgabe ist in . Abb. 3.9 veranschaulicht.
4 Die Items wurden nach ihrer Verträglichkeit mit dem Rasch-Modell ausgewählt; die
Skalen sind somit eindimensional.
4 Die Autoren lehnen die Berechnung eines Intelligenzquotienten als Maß der allgemeinen kognitiven Leistungsfähigkeit ab und betonen stattdessen den Nutzen des
Leistungsprofils für eine förderungsorientierte Diagnostik. Vorrangiges Ziel ist die
Erfassung von Teilleistungsstörungen oder -schwächen.
Mit der deutschen Version der Kaufman Assessment Battery for Children (K-ABC;
Kaufman, Kaufman, Melchers & Preuß, 2001) und dem Adaptiven Intelligenz Diagnosticum 2 (AID 2; Kubinger und Wurst, 2001) liegen zwei ähnlich konzipierte Testverfahren vor. Auch sie werden in Einzelsitzungen durchgeführt und bestehen aus zahlreichen
unterschiedlichen kindgerechten Untertests. Für eine vergleichende Bewertung der Tests
sei auf Preusche und Leiss (2003) verwiesen. Die Rezensentinnen stellen keine allgemeine Überlegenheit einer der drei Tests fest, sondern arbeiten die Unterschiede heraus, die
bei einer konkreten Fragestellung hilfreich für die Testauswahl sein können.
Alternativen zum HAWIK-III
gebnisse nützlich sind. Es ist zu hoffen, dass der Forschungsstand bei einer Revision des
Testmanuals besser dokumentiert wird.
3.1 · Leistungstests
3
Fähigkeit-Fertigkeiten
Eigenständige Entwicklung
Kein IQ
Rasch-skaliert
»Branched testing«
Ähnlichkeiten mit
HAWIK
211
3
Ab 2;5 Jahre
So werden etwa ein Untertest zum Wortschatz und ein weiterer zum Rechnen nicht
zur Intelligenzmessung herangezogen, sondern nur für die Skala »Fertigkeiten«
verrechnet.
4 Das Intelligenzkonzept unterscheidet sich von dem sehr pragmatischen Ansatz
Wechslers. Die Autoren knüpfen an Grundlagen der Neuropsychologie und der
kognitiven Psychologie an und betonen die Vorgehensweise bei der Informationsverarbeitung als wesentliches Merkmal der Intelligenz. Intelligenz wird definiert als
»die Art und Weise, in der ein Individuum Probleme löst und Informationen verarbeitet« (Kaufman et al., S. 7). Sie unterscheiden dabei zwei Qualitäten des Denkens,
die sie als »einzelheitlich« und »ganzheitlich« bezeichnen. Die Aufgaben zur Erfassung des einzelheitlichen Denkens verlangen die Lösung von Problemen durch
folgerichtiges oder serielles Denken (Beispiel: Zahlenreihen nachsprechen). Ganzheitliches Denken wird mit Aufgaben erfasst, die eine gleichzeitige Integration von
Reizen verlangen, beispielsweise beim Erkennen von Gestalten anhand von unvollständigen Informationen. So soll beim Subtest »Zauberfenster« ein Objekt erkannt
und benannt werden, das nur partiell zu sehen ist. Dazu wird ein Bild in einer Drehbewegung so hinter einem Schlitz gezeigt, dass immer nur ein Teil zu sehen ist. Die
sieben Untertests zum ganzheitlichen und die drei zum einzelheitlichen Denken
werden zu einer Fähigkeitsskala (Intelligenz) zusammengefasst.
4 Die K-ABC kann bereits im Vorschulalter eingesetzt werden; der Altersbereich
reicht von 2;5 bis 12;5 Jahren.
4 Für Kinder, die aufgrund einer Hörbehinderung oder wegen Zuwanderung in den
deutschen Sprachraum geringe Sprachkenntnisse haben, stehen vier Untertests zur
. Abb. 3.9. Prinzip des »branched-testing« bei AID. Beim Untertest 8 erhalten alle Probanden unabhängig von ihrem Alter zuerst die Aufgabengruppe 1 (bei anderen Untertests hängt die Einstiegsaufgabe zum Teil vom Alter ab). Erzielt der Proband 0–3 Punkte, folgt die Aufgabengruppe 2; bei 4–6
Punkten dagegen die Aufgabengruppe 5. Welche Aufgabengruppe nun folgt, richtet sich wieder
nach den erreichten Punkten (die Lösungszeit wird dabei berücksichtigt). Beispielsweise gibt der
Testleiter bei 0–1 Punkten in Aufgabengruppe 5 die (leichtere) Aufgabegruppe 3 vor. Aus Kubinger
& Wurst (2000, S. 42).
Kapitel 3 · Diagnostische Verfahren
»Einzelheitliches«
und »ganzheitliches«
Denken
212
Theoretischer Hintergrund und Gliederung. Mit den beiden Tests IST-2000 und IST2000-R wollen die Autoren nicht nur die Schwachstelle überalterter Normen beheben,
sondern vor allem das Testkonzept erweitern und den im Zuge der modernen Intelligenzforschung aufgetretenen Konvergenzen inhaltlicher und struktureller Art Rechnung tragen. Der Test liegt in zwei Formen vor; Form B ist als Paralleltest zu Form A
exakt gleich aufgebaut und misst die gleichen Fähigkeiten.
Was das Inhaltliche angeht, so sollen mit dem Test fünf der sieben Primärfaktoren
von Thurstone getroffen werden, nämlich verbale, numerische und figurale Intelligenz,
dazu Merkfähigkeit und – mit etwas höherer Generalität und als Summenscore der drei
erstgenannten Faktoren – Reasoning (schlussfolgerndes Denken). Zur Erfassung des
verbalen, numerischen und figuralen Bereichs dienen jeweils drei verschiedene Untertests, die zu »Skalen« zusammengefügt werden. Zur Messung der Merkfähigkeit stehen
Vorbemerkung. Der IST-2000-R basiert auf einem Test, der in der Vergangenheit eine
herausragende Bedeutung hatte. Er stellt eine Weiterentwicklung des in Deutschland
bisher mit Abstand am häufigsten angewandten Intelligenztests, dem IST-70, dar. Die
erste Ausgabe des Intelligenz-Struktur-Tests erschien 1953, eine geringfügig überarbeitete Fassung 1970. In diesen beiden Versionen zählte der IST zu den am meisten
eingesetzten Leistungstests (. Tab. 3.4). Bereits im Manual von 1970 ist die Rede von
bis dahin nicht weniger als 1,5 Mio. Anwendungen. Die Normen waren seit der Auflage von 1970 nicht mehr aktualisiert worden. Die vom Autor vehement propagierte
Profilauswertung erwies sich empirisch als ungeeignet zur Prognose von Ausbildungserfolg (Schmidt-Atzert & Deter, 1993). Bei einigen Subtests wurden psychometrische
Mängel aufgedeckt und der Test galt als revisionsbedürftig (Schmidt-Atzert, Hommers
& Hess, 1995). Obwohl sich der Autor bei der Testentwicklung offenbar an Thurstones
Intelligenzmodell angelehnt hatte, war die verbale Fähigkeit mit insgesamt vier von
neun Untertests stark überrepräsentiert. In dem 1999 erschienenen IST-2000 wurden
sechs der neun »alten« Untertests nach mehr oder weniger starken Modifikationen
(bei zwei Subtests wurde nur die Itemabfolge verändert) übernommen. Zwei weitere
Untertests (Rechenaufgaben und verbale Merkfähigkeit) wurden mit neuen Items
ausgestattet und ein alter Untertest entfiel ganz. Dafür ergänzten die Autoren das
»Grundmodul« (7 unten) um zwei neue Aufgabengruppen und erweiterten die
bislang nur verbalen Aufgaben des Untertests Merkfähigkeit um figurale Aufgaben. Völlig neu war auch ein Erweiterungsmodul, das Wissen prüft. Der IST-2000-R
unterscheidet sich im Wesentlichen vom IST-2000 nur hinsichtlich der nun sehr viel
größeren Normierungsstichprobe sowie einiger Verbesserungen eher technischer
Art. Der Wissenstest im IST-2000-R wurde gegenüber der Vorgängerversion stark
überarbeitet.
Amthauer, R.; Brocke, B.; Liepmann, D. & Beauducel, A. (2001). Göttingen: Hogrefe
Intelligenz-Struktur-Test 2000-R (IST-2000-R)
Verfügung, die sprachfrei durchgeführt und beantwortet werden können. Die vier
Untertests werden zu einer Skala verrechnet, die es erlaubt, die Intelligenz dieser
Kinder zu beurteilen.
4 Die Normen der K-ABC sind inzwischen veraltet. Die Normierung für die erste
Aufl. 1991 fand zwischen 1986 und 1989 statt. In einer Kritik zur 5. Aufl., die 2001
erschien, bemängelt Horn (2003), dass trotz einiger (meist kleiner) Änderungen an
den Items keine Neunormierung vorgenommen wurde.
3.1 · Leistungstests
3
5 der 7 Primärfaktoren
von Thurstone
Zusätzlich Wissenstests
2 neue Subtests
Teile des IST-70 übernommen
Vorgänger IST-70
Alte Normen
213
3
. Abb. 3.10. Die mit dem
IST-2000-R erfasste Fähigkeitsstruktur. (Nach Amthauer et al., 2001, S. 13)
Auspartialisierung
»fremder« Anteile
Hierarchisches Modell
zwei Aufgabengruppen zur Verfügung (mit verbalem bzw. figuralem Material). Diese
Batterie bildet das sog. »Grundmodul«.
Demgegenüber berücksichtigt das sog. »Erweiterungsmodul« die strukturellen Aspekte insofern, als hier zwei Generalfaktoren vorgesehen sind, und zwar fluide und
kristallisierte Intelligenz im Sinne von Horn und Cattell (1966). Diesen Autoren zufolge spiegelt fluide Intelligenz mehr die Fähigkeit wider, neuen Problemen oder Situationen gerecht zu werden, ohne dass es dazu im wesentlichen Ausmaß früherer Lernerfahrungen bedarf; hingegen vereinigt kristallisierte Intelligenz solche kognitiven Fertigkeiten, in denen sich die kumulierten Effekte vorangegangenen Lernens verfestigt
haben. Im IST-2000-R errechnet sich der individuelle Punktwert für die fluide Komponente als die Summe von verbaler, numerischer und figuraler Intelligenz, derjenige für
kristallisierte Intelligenz als die Summe von insgesamt 84 Wissensfragen verbaler, numerischer und figuraler Art aus den Gebieten Geographie/Geschichte, Kunst/Kultur,
Naturwissenschaften und Mathematik.
. Abbildung 3.10 gibt in schematischer Form die skizzierte Gesamtstruktur wieder.
Daraus ist der hierarchische Aufbau von den basalen Aufgaben über Primär- zu
Sekundärfaktoren erkennbar. Die durchgezogenen Linien stehen jeweils für einen positiven Zusammenhang, die gestrichelten Linien für die statistische Auspartialisierung
von Fähigkeitskomponenten. Amthauer et al. (2001, S. 12–13) vertreten die Auffassung,
dass die Auspartialisierung der Wissensvarianz aus dem Maß für schlussfolgerndes
Denken zu einem optimalen Indikator für fluide Intelligenz und die Auspartialisierung
von schlussfolgerndem Denken aus dem Wissen zu einem optimalen Indikator für
kristallisierte Intelligenz führt. Die jeweils »bereinigten« Komponenten erhalten die
Notationen gf bzw. gc. Die Anordnung der beiden Sekundärfaktoren mit und ohne
Kapitel 3 · Diagnostische Verfahren
Fluide und
kristallisierte Intelligenz
214
VW Verbales Wissen
NW Numerisches Wissen
FW Figurales Wissen
W
W
W
28
28
28
40
.84
.82
.83
.93
6
Satzergänzung: Unvollständige Sätze sollen durch eine von 5 vorgegebenen Lösungsmöglichkeiten ergänzt werden.
Beispielaufgaben aus dem IST-2000-R
Beispiel
Auspartialisierung auf dem Kontinuum der Akkulturation soll auch das Ausmaß veranschaulichen, in dem die wechselseitige »Bereinigung« wirksam wird. . Tabelle 3.7
zeigt, welche Untertests jeweils miteinander verrechnet werden und macht weitere
Angaben zu Umfang und Reliabilität von Subtests und Modulen. Beispielaufgaben für
die Module 7 Beispiel.
Anmerkung. Bearbeitungszeiten ohne Instruktionen und Übungsbeispiele; bei der Merkfähigkeit sind die Zeiten für Einprägen und Reproduktion aufgeführt. Im Erweiterungsmodul sind
die verbalen, numerischen und figuralen Aufgaben gemischt, und die Bearbeitungszeit gilt für
alle Aufgaben zusammen. Reliabilitätsschätzungen für Form A, Cronbachs α. Aus SchmidtAtzert (im Druck).
a V = verbale, N = numerische, F = figurale Intelligenz, M = Merkfähigkeit, W = Wissen.
VW
NW
FW
Erweiterungsmodul Wissen
1+2
1+3
.95
10
13
.94
.90
M
M
M
M
Merkfähigkeit verbal
Merkfähigkeit figural
Merkfähigkeit (v, f)
7
9
10
.87
20
20
20
.77
.80
.71
F
F
F
FA
WÜ
MA
Figurenauswahl
Würfelaufgaben
Matrizen
Figurale Intelligenz: FA, WÜ, MA
10
10
10
.84
.91
.86
20
20
20
RE
ZR
RZ
Rechenaufgaben
Zahlenreihen
Rechenzeichen
.95
Numerische Intelligenz: RE, ZR, FA
N
N
N
.69
.74
.76
Satzergänzen
Analogien
Gemeinsamkeiten
SE
AN
GE
Reliabilität
.88
6
7
8
Zeit
Verbale Intelligenz: SE, AN, GE
20
20
20
Items
.96
V
V
V
Bereich
a
Schlussfolgerndes Denken: SE bis MA
Grundmodul
Untertest
. Tabelle 3.7. Übersicht über den IST-2000-R
3.1 · Leistungstests
215
3
3
6
Matrizen: Es werden Anordnungen von Figuren vorgegeben, die nach einer bestimmten Regel aufgebaut sind. Aus vorgegebenen Auswahlfiguren soll jeweils die
regelkonforme herausgefunden werden (. Abb. 3.13).
Würfelaufgaben (. Abb. 3.12):
Figurenauswahl (7 Abb. 3.11):
Rechenzeichen: Die Aufgaben bestehen aus Gleichungen im Bereich der rationalen
Zahlen, bei denen die Verknüpfungen weggelassen sind. Das Lösen erfordert das
Einsetzen von Rechenzeichen der vier Grundrechenarten.
Beispiel: 6 ? 2 ? 3 = 5
Zahlenreihen: Nach einer bestimmten Regel aufgebaute Zahlenreihen sollen um
eine weitere Zahl fortgesetzt werden.
Beispiel: 9 7 10 8 11 9 12 ?
Rechenaufgaben: Die Aufgaben verlangen Rechenoperationen im Bereich der reellen Zahlen. Um den sprachlichen Anteil beim Lösen zurückzudrängen, werden sie
nicht verbal (»eingekleidet«) vorgegeben.
Beispiel: 60 – 10 = ?
Gemeinsamkeiten: Aus 6 vorgegebenen Wörtern sollen die beiden mit einem gemeinsamen Oberbegriff gewählt werden.
Beispiel: a) Messer b) Butter c) Zeitung d) Brot e) Zigarre f ) Armband
Analogien: Bei 3 Wörtern besteht zwischen den ersten beiden eine Beziehung. Aus
5 Wörtern ist dasjenige Wort zu finden, das zu dem 3. Wort in ähnlicher Beziehung
steht wie das zweite zum ersten.
Beispiel: Wald : Bäume=Wiese : ?
a) Gräser b) Heu c) Futter d) Grün e) Weide
Beispiel: Ein Kaninchen hat am meisten Ähnlichkeit mit einem (einer) …?
a) Katze b) Eichhörnchen c) Hasen d) Fuchs e) Igel
Kapitel 3 · Diagnostische Verfahren
. Abb. 3.11. Zerschnittene
Figuren sind 5 unzerschnittenen geometrischen Figuren zuzuordnen
216
15 Jahren) und Erwachsene, die auch als Einzeltests vorgegeben werden können. Es
liegen zwei Parallelformen A und B vor, die jedoch identische Aufgaben enthalten, allerdings in veränderter Reihung und ggf. anderer Anordnung der Distraktoren; wegen
der identischen Aufgabensubstanz ist von einer kurzfristig wiederholten Testanwendung dieser beiden »unechten« Parallelformen abzuraten. Die Antworten werden in
separate Lösungsblätter übertragen. Übungsaufgaben führen in die Aufgabenart wie in
die Übertragung der Aufgabenlösungen ein. Die Testzeit beträgt für das Grundmodul
ca. 2 h (darin enthalten: 10 min Pause und 12 min für die Bearbeitung der Merkaufgaben). Für das Erweiterungsmodul mit den Wissenstests sind zusätzlich knapp 40 min
erforderlich.
Durchführung. IST-2000 und IST-2000-R sind Gruppentests für Jugendliche (ab etwa
Wissenstest: Es werden Fragen zu verschiedenen Wissensgebieten vorgelegt. Die
richtige Lösung muss aus 5 angebotenen Antworten gefunden werden.
Beispiel: Zu welcher Völkergruppe gehörten die Wotumanen ?
a) Wikinger b) Germanen c) Ostgoten d) Asiaten f ) Markomannen
Merkfähigkeit (figural): Während der Lernphase werden Figurenpaare eingeprägt.
Die Prüfung erfolgt durch Vorgabe eines der Elemente und der Frage, welches andere von 5 angebotenen Elementen damit gemeinsam vorgegeben war.
Merkfähigkeit (verbal): Während der Lernphase müssen vorgegebene Wörter zu
Oberbegriffen eingeprägt werden. Die Prüfung erfolgt durch Vorgabe eines Anfangsbuchstabens und der Frage, zu welchem Oberbegriff das betreffende Wort gehört.
3.1 · Leistungstests
3
Testdauer: 2 h für
Grundmodul, 40 min
für Wissenstests
Zwei Parallelformen
. Abb. 3.13. Aufgabentyp
»Matrizen« aus dem IST2000. (Nach Amthauer et al.,
Grundmodul, 1999, S. 19)
. Abb. 3.12. Der Proband
soll erkennen, welchem von
5 Auswahlwürfeln ein vorgegebener Würfel gleicht. Der
Würfel kann gekippt, gedreht oder gekippt und gedreht sein
217
3
Korrelation mit
Ausbildungserfolg
Korrelationen mit
Schulnoten
Korrelation mit CFT 20
Drei Faktoren
Von Profilinterpretation abzuraten
Validität. Faktorenanalysen auf der Basis der Aufgabengruppen (unter Fortlassung der
Subskalen zur Erfassung der Merkfähigkeit, die insofern theoretisch etwas isoliert sind)
bestätigten die Dreifaktorenstruktur (verbal, numerisch und figural). Zur Binnenstruktur des Erweiterungsmoduls wurden multidimensionale Ähnlichkeitsskalierungen
durchgeführt. In konfirmatorischen Faktorenanalysen befand sich die facetten-theoretische Struktur von fluider und kristallisierter Intelligenz in besserer Übereinstimmung
mit den Daten als ein hierarchisches Modell (Beauducel, Brocke & Liepmann, 2001).
Darüber hinaus werden Korrelationen mit anderen Tests berichtet. Demzufolge korreliert beispielsweise Reasoning (Gesamtwert) zu .63 mit dem CFT 20 Matrizen-Test von
Weiß (1997). Die Faktorwerte für fluide und kristallisierte Intelligenz korrelieren mit den
CFT 20 Matrizen zu .58 bzw. .24, mit einem Wortschatztest zu .16 bzw. .54, was insofern
ein erwartungskonformes Muster widerspiegelt. Es finden sich auch Angaben zu Korrelationen mit Schulnoten. Reasoning korreliert mit den Schulnoten in Deutsch zu –.14,
in Mathematik zu –.45 (dies stellt den höchsten Zusammenhang dar) und in Physik zu
–.38. Bislang liegt lediglich eine Untersuchung zu anderen Außenkriterien vor (Steinmayer & Amelang, 2005). In dieser Studie bearbeitete eine Stichprobe von insgesamt
N = 219 Personen beiderlei Geschlechts im Alter von durchschnittlich 34 Jahren das
Grund- und Erweiterungsmodul (GM bzw. EM) des IST-2000-R (IST, Amthauer et
al., 2001). Auf siebenfach abgestuften Skalen beurteilten jeweils drei Bekannte, Freunde
oder Verwandte jede der an der Untersuchung teilnehmenden Personen hinsichtlich ihres
Allgemeinen Wissens sowie ihrer verbalen, numerischen und figuralen Fähigkeiten als
Facetten der Allgemeinen Intelligenz; als weitere externe Kriterien lagen Maße für das
Ausbildungsniveau und die ausgeübte Berufstätigkeit vor. Die höchsten Korrelationen des
IST bestanden mit Koeffizienten um r = .60 gegenüber dem Kriterium »Ausbildungserfolg«; in ähnlicher Größenordnung korrelierte der IST mit der fremdeingeschätzten Allgemeinen Intelligenz. Mit »Sozialer Status« der ausgeübten Berufstätigkeit bestanden
Korrelationen um .50. In hierarchischen Regressionen erwies sich die numerische Skala
des EM als der beste Einzel-Prädiktor. Die Faktorwerte für fluide und kristallisierte Intelligenz korrelieren zu .48, die Skalen für schlussfolgerndes Denken und Wissen zu .70.
beträgt .96 (Cronbachs α). Der Wissenstest weist eine Reliabilität von .93 auf. Die Koeffizienten für die jeweiligen Aufgabengruppen innerhalb der Skalen verbal, numerisch
und figural liegen zum Teil deutlich darunter (. Tab. 3.7). Deshalb und aus zwei weiteren Gründen ist von einer Profilinterpretation für einzelne Aufgabengruppen im diagnostischen Anwendungsfall abzuraten: (1) Nur die Skalen (nicht aber die Aufgabengruppen) sind theoretisch begründet; (2) die Interkorrelationen zwischen den Aufgabengruppen liegt in einer Größenordnung von etwa .40. Wegen der spezifischen Gegebenheiten bei der Erfassung der Merkfähigkeit ist hier die Konsistenz mit Werten um
.95 besonders hoch. Für die Faktorwerte von fluider und kristallisierter Intelligenz
betragen die minderungskorrigierten Spearman-Brown-Koeffizienten für eine Stichprobe von 661 Probanden .96 bzw. .91. Zur Reteststabilität liegen zunächst keine Daten
vor. Ausgehend von den Erfahrungen mit den Vorläuferversionen darf davon ausgegangen werden, dass diese eine befriedigende Höhe erreicht.
Reliabilität. Die innere Konsistenz des Grundmodul-Gesamtwertes im IST-2000-R
Auswertung. Die mit Schablone ermittelten Rohpunktsummen für die einzelnen Untertests werden in Standardwerte (M = 100, SD = 10) umgewandelt und daraus unter
Rückgriff auf Beta-Gewichte getrennte Faktorwerte für fluide und kristallisierte Intelligenz ermittelt.
Kapitel 3 · Diagnostische Verfahren
Hohe interne Konsistenz der Gesamtwerte
218
Fazit. Beim IST-2000 bzw. IST-2000-R handelt es sich um ein sehr sorgfältig konstruiertes
Instrument, das sich zur reliablen Erfassung von fünf Primärfaktoren der Intelligenz sowie der beiden Sekundärfaktoren fluide und kristallisierte Intelligenz eignet. Mit der
Hinwendung zu diesen beiden Faktoren erfolgte nicht nur eine notwendige theoretische
Neuorientierung, sondern durch die konsequente Aggregation über verbale, numerische
und figurale Materialien gelang auch deren inhaltsunabhängige Erfassung. Das dem Test
zugrunde gelegte »hierarchische Rahmen- bzw. Protomodell der Intelligenzstrukturforschung« sollte jedoch theoretisch besser begründet werden. Die Relevanz von fluider und
kristallisierter Intelligenz für schulische Kontexte ist erwiesen; die Validität gegenüber
nichtschulischen Anforderungen muss noch empirisch unter Beweis gestellt werden. Das
gilt auch für die Notwendigkeit einer Verbreiterung der Normierungsbasis. Sobald diese
Arbeiten geleistet sind, kann dem Verfahren wegen seines ansprechenden Testkonzeptes,
seiner Überschaubarkeit und Anwendungsfreundlichkeit ein ähnlicher Erfolg am Markt
vorhergesagt werden wie seinen unmittelbaren Vorläuferversionen.
Normierung. Die Normen (Standard- und IQ-Werte sowie Prozentränge) stützen sich auf
die Vorgabe des Grundmoduls an eine Stichprobe von insgesamt N = 3.484 Probanden
im Alter zwischen 15 und über 51 Jahren. Davon besuchten nicht weniger als ca. 54% das
Gymnasium bzw. haben einen Gymnasialabschluss. Über die Verteilung der Geschlechter
und ggf. bestehende Mittelwerts- oder Streuungsunterschiede wird nichts mitgeteilt. Da
die Rohwerte altersabhängig sind, werden bei den Normen der Gymnasiasten acht Altersgruppen unterschieden (15–16, 17–18, 19–20, 21–25, 26–30, 31–40, 41–50 und >50). Die
Nichtgymnasiasten werden nur in fünf Gruppen unterteilt. Um die hinsichtlich der Bildung bestehende Repräsentativitätsverletzung zu korrigieren, wurde für die Ermittlung
des Gesamt-(Grundmodul-)Punktwertes durch Zufallseliminierung einiger Probanden
eine Verteilung von 40% Gymnasiasten zu 60% Nichtgymnasiasten (für die ersten beiden
Altersgruppen) bzw. 30 zu 70% (für die drei weiteren) hergestellt.
Für das Erweiterungsmodul (= Wissenstest) dienten N = 661 Probanden im Alter
zwischen 15 und 60 Jahren nicht nur als Konstruktions-, sondern auch als Normierungsstichprobe. (Wegen potentieller Reihungs- und Übungseffekte bei solchen Items,
die im Zuge der Entwicklungsarbeiten letztlich ausgeschieden werden, kann diese aus
Ökonomie-Erwägungen mitunter gewählte Lösung nicht voll zufrieden stellen.) Während die beiden Geschlechter darin in etwa gleich häufig vertreten waren, wiesen hier
gar 72% der Probanden Hoch- oder Fachhochschulreife auf.
Für die Ermittlung der Normen war deshalb die Gewichtung von Teilstichproben unumgänglich. Das führte letztlich für den Wissenstest zu Normen für drei Altersgruppen
(15–25, 26–35, 36–60), für Nichtgymnasiasten und Gymnasiasten sowie für die Gesamtgruppe. Für dieselben Gruppen liegen auch Normen vor für die »bereinigten« Faktoren
fluider und kristallisierter Intelligenz (gf und gc). Der Umstand, dass für Grund- und Erweiterungsmodul unterschiedliche Stichproben herangezogen wurden und außerdem
zwar das Grundmodul, nicht aber das Erweiterungsmodul bei IST-2000 und IST-2000-R
identisch sind, führt das Prozessuale moderner Testentwicklungen deutlich vor Augen.
Obwohl gegenüber dem IST-2000 ein deutlicher Fortschritt zu vermerken ist, kann
auch beim IST-2000-R die Zusammensetzung der Normierungsstichprobe hinsichtlich
Alter und Bildung noch immer nicht befriedigen; damit ist ausgerechnet eine der mit
der Neuentwicklung verbundenen Zielvorgaben verfehlt worden. Es ist allerdings damit zu rechnen, dass dieses Defizit in absehbarer Zukunft behoben und ein Instrument
vorgelegt wird, das den Status einer »Werkausgabe«, wie er momentan insbesondere für
das Erweiterungsmodul gilt, deutlich übertrifft.
3.1 · Leistungstests
3
Theoretisches Modell
besser begründen
Sorgfältig konstruieren
Zusammensetzung der
Normierungsstichprobe noch nicht optimal
Unterschiedliche Normierungsstichproben
für Grundmodul und
Wissenstests
219
3
Gründlich revidiert
und neu normiert für
Schüler
Kurzform des LPS
Variante für ältere
Personen
Einige Subtests bedürfen der Erläuterung, da sie in anderen hier vorgestellten Intelligenztests (zumindest in dieser Form) nicht vorkommen. Im Subtest Allgemeinwissen
ist in Wörtern aus verschiedenen Wissensbereichen (z. B. KRAIDE) jeweils ein falscher
1. Allgemeinwissen
– PSB-R 4-6: (a) Natur/Mensch, (b) Erdkunde, (c) Kultur/Kunst/Musik, (d) Sprache/Medien.
– PSB-R 6-13: (a) Biologie/Medizin/Psychologie, (b) Mathematik/Chemie/Physik,
(c) Geographie/Astronomie, (d) Musik/Kultur/Kunst, (e) Sprache/Medien/Kommunikation/Dichtung
2. Zahlreihen (Reasoning 1)
3. Buchstabenreihen (Reasoning 2)
4. Figurale Reihen (Reasoning 3)
5. Wortflüssigkeit
6. Gliederungsfähigkeit (nur im PSB 4-6)
7. Raumvorstellung
8. Gemeinsamkeiten finden
9. Zahlenaddition (Konzentration 1)
10. Zahlenvergleich (Wahrnehmungstempo bzw. Konzentration 2)
Die Untertests der revidierten PSB-Versionen:
PSB-R 4-6 und PSB-R 6-13. Beim Prüfsystem für Schul- und Bildungsberatung PSB von
Horn (1969) handelt es sich um einen Klassiker unter den Intelligenztests. Das PSB ist
eine gekürzte Fassung des Leistungsprüfsystems LPS (Horn, 1962), die jene 10 von 15
Untertests vereinigt, die sich am besten zur Trennung von Schülern nach den drei
Schularten (Haupt-, Realsschule, Gymnasium) eignen. Nun liegen mit dem PSB-R 4-6
(Horn, Lukesch, Kormann & Mayrhofer, 2002) und PSB-R 6-13 (Horn, Lukesch, Mayrhofer & Kormann, 2003) zwei gründlich revidierte und neu normierte Nachfolgeverfahren für die 4. bis 6. und 6. bis 13. Klasse vor. Beide Tests liegen in Parallelformen (A
und B) mit jeweils separaten Normen vor, da sich A und B nicht als völlig äquivalent
erwiesen hatten.
bzw. dessen zweite, erweiterte und verbesserte Aufl. von 1983 bei den Testanwendern
einer gewissen Beliebtheit (. Tab. 3.4). Die 15 Untertests sollen die Thurstone-Faktoren
verbal comprehension (Tests 1, 2, 5, 6, 12), reasoning (3, 4), word fluency (5, 6), closure
(10, 11), space (8, 9, 10), perceptual speed (13, 14) und number (Arbeitskurve) erfassen.
Das Verfahren dürfte aber bald nur noch historisch bedeutsam sein, wenn keine Aktualisierung und Neunormierung erfolgt. Eine Neubearbeitung wurde 1993 unter der
Bezeichnung LPS 50+ für Probanden im Alter von 50 bis 90 Jahren vorgelegt (Sturm,
Willmes & Horn, 1993). Die Items wurden unverändert übernommen, jedoch auf die
doppelte Größe gebracht und sorgfältig nach dem Schwierigkeitsgrad gruppiert. Auf
den Untertest 8 und die Arbeitskurve des LPS wurde verzichtet.
Andere »breite« Intelligenztests
LPS. In der Vergangenheit erfreute sich das Leistungsprüfsystem LPS von Horn (1962)
Eine ausführliche Rezension haben Kersting (1999b) und Schmidt-Atzert (2002)
vorgenommen.
Kapitel 3 · Diagnostische Verfahren
Am Thurstone-Modell
orientiert
220
3
»Operationen« und
»Inhalte«
cel (1997) liegt mit dem »Berliner Intelligenzstrukturmodell« (. Abb. 3.14) ein Strukturmodell zugrunde, das sich deutlich von dem anderer Tests unterscheidet.
Die Autoren gehen davon aus, dass an jeder Intelligenzleistung alle intellektuellen
Komponenten oder Faktoren beteiligt sind, allerdings mit unterschiedlichen Gewichtungen und Mischungsverhältnissen. An der Spitze der Fähigkeitshierarchie ist als Integral aller Fähigkeiten die »Allgemeine Intelligenz« (AI als BIS-spezifische Operationalisierung von »g«) zu sehen. Das Rautenmodell dient als Rahmen zur Einordnung
von Intelligenzaufgaben oder Subtests. Die Autoren unterscheiden vier Arten von
»Operationen«, die jeweils mit drei unterschiedlichen »Inhalten« kombinierbar sind.
So kann etwa die Merkfähigkeit mit numerischen, verbalen und mit figuralen Aufgaben
gemessen werden. Die Anordnung der Operationen im Modell soll übrigens keine
Hierarchie ausdrücken. Die rautenförmige Anordnung symbolisiert, dass die Operationen und Inhalte nicht orthogonal zueinander stehen, sondern Gemeinsamkeiten
aufweisen. Deshalb wird bei der Auswertung über Inhalte und über Operationen aggregiert. Beispielsweise ergibt sich die Bearbeitungsgeschwindigkeit einer Person als
BIS-4. Dem Berliner Intelligenzstruktur-Test (Form 4; BIS-4) von Jäger, Süß & Beaudu-
Anmerkung. 1) gegenüber dem »alten« WIT kaum verändert; 2) gegenüber dem »alten« WIT
deutlich modifiziert; 3) vollständige Neuentwicklung; 4) als separates Modul: 35 Min., als Ergänzung (nur Zahlenreihen) zu den sprachlich und rechnerischen Aufgaben: 14 Min. zusätzlich;
5)
zwischen Einprägen und Wiedergabe wird eine andere Testaufgabe im Umfang von 18 min
bearbeitet (Quelle: Kersting, persönliche Mitteilung, Juli 2005).
17 Min.
ca. 150 Min.
Gesamttestzeit (falls alle Module eingesetzt werden sollen)
5 Min.
5 Min.
Nach ca. 90 min Testung erfolgt eine Pause im Umfang von ca.
20
Wissen Informationstechnologie3
Wissen Informationstechnologie
19 Min.
20 Min.
20
9 Min.5
14 Min. oder
35 Min. 4
22 Min.
27 Min.
12 Min.
Zeitbedarf
(Instruktion
& Laufzeit)
Die allgemeine Instruktion / Testeinführung dauert ca.
42
21
Merkfähigkeit3
Merkfähigkeit
E-Mails
60
(1) Analogien2,
(2) Abwicklungen1,
(3) Zahlenreihen1
Schlussfolgerndes Denken
Wissen Wirtschaft3
40
(1) Abwicklungen1,
(2) Spiegelbilder1
räumliches Denken
Arbeitseffizienz
40
(1) Grundrechnen2,
(2) Eingekleidete Rechenaufg.2
rechnerisches Denken
Wissen Wirtschaft
40
(1) Analogien2,
(2) Gleiche Wortbedeutungen2
sprachliches Denken
bearbeiten3
Itemzahl
Testaufgaben
Dimension (jede Dimension
kann separat erfasst werden)
. Tabelle 3.8. Aufbau des WIT-2
Kapitel 3 · Diagnostische Verfahren
Hierarchisches Modell
mit »g« an der Spitze
222
Beim CFT 20 (von »Culture Fair Test«) handelt es sich um ein Mitglied einer ganzen
»Testfamilie« zur sprachfreien Messung der fluiden Intelligenz nach Cattell (. Tab. 3.9).
Cattell stellte den ersten Test dieser Art bereits 1940 vor. Der ursprüngliche Anspruch,
die Intelligenz »kulturfrei«, also unabhängig von Einflüssen des sozio-kulturellen, schulischen und erziehungsspezifischen Erfahrungshintergrunds zu messen, erwies sich als
Grundintelligenztest Skala 2 (CFT 20) mit Wortschatztest (WS)
und Zahlenfolgentest (ZF) Weiß (1998). 4., überarbeitete Aufl.
Mittelwert ihrer Testleistungen in allen figuralen, verbalen und numerischen Aufgaben
zur Bearbeitungsgeschwindigkeit. Und die numerischen Fähigkeiten können als Aggregat aller Testleistungen mit numerischen Aufgaben aus den Bereichen Bearbeitungsgeschwindigkeit, Merkfähigkeit, Einfallsreichtum und Verarbeitungskapazität bestimmt
werden. Folglich liefert der Test für jeden Probanden neben einem Maß der allgemeinen Intelligenz sieben Kennwerte: Figurale, verbale, numerische Fähigkeiten, Verarbeitungskapazität, Einfallsreichtum, Merkfähigkeit und Bearbeitungsgeschwindigkeit.
Jeder der 45 Subtests kann in einer der 12 Zellen verortet werden. So gehört der Subtest
Buchstaben-Durchstreichen in die Zelle links oben (Bearbeitungsgeschwindigkeit,
figural). Anzumerken bleibt, dass die Aufgaben zur Verarbeitungskapazität weitgehend
denen anderer Intelligenztests zum schlussfolgernden Denken entsprechen.
Das Instrument dient der differenzierten Diagnostik der Intelligenz, und zwar (vorerst) derjenigen von Jugendlichen und jüngeren Erwachsenen, weil primär an diesen
Personengruppen die Entwicklungsarbeiten durchgeführt wurden und nur dafür auch
Normen vorliegen.
3.1 · Leistungstests
3
Sprachfreie Messung
der fluiden Intelligenz
Allgemeine Intelligenz
plus sieben Teilfähigkeiten
. Abb. 3.14. Berliner Intelligenzstrukturmodell. (Nach
Jäger et al., 1997, S. 5)
223
3
Zwei zusätzliche Tests
zur kristallisierten
Intelligenz
Kurz- und Langform
Vier Subtests
Testbezeichnung
CFT 20
x
x
– Matrizen
CFT 3
Substitutionen
Labyrinthe
Ähnlichkeiten
1997 (5. Aufl.)
1976 (6078) und
1995 (1200)
Adaptation des
amerikanischen
CFT 1
– Sonstige
Erscheinungsjahr, Aufl.
Normen: Erhebungsjahr und (N)
Anmerkungen
Erschwerte Version des CFT 2
1963 bis 1971
(3476)
setzt, Figuren klassifiziert, Figurenmatrizen vervollständigt und topologische Schlussfolgerungen gezogen werden sollen (7 Beispiele in . Abb. 3.15). Die insgesamt 92 Items
sind innerhalb der Subtests nach Schwierigkeit angeordnet. Der Test gliedert sich ferner
in zwei gleichartig aufgebaute Teile mit je 46 Items. Teil 1 kann als Kurzform verwendet
werden, die Langform setzt sich aus Teil 1 und 2 zusammen. Bei Probanden, die testunerfahren sind und/oder Schwierigkeiten im Instruktionsverständnis haben, kann
Teil 1 als eine Art Lerntestprozedur angesehen und Teil 2 zur eigentlichen Intelligenzmessung verwendet werden.
Dieser kulturfaire Teil wird um zwei fakultative Tests zur kristallisierten Intelligenz
ergänzt, für die ein separates Manual vorliegt. Beim Wortschatztest ist bei jeder der 30
Aufgaben zu einem vorgegebenen Wort (z. B. Acker) unter mehreren Auswahlwörtern
Gliederung. Das Verfahren besteht aus vier Subtests, bei denen Figurenreihen fortge-
überhöht, und die ursprüngliche Testbezeichung »culture free« (Cattell, 1940) wurde
später zu »culture fair« abgeschwächt. Um dem Anspruch der kulturfairen Messung
wenigstens konzeptuell gerecht zu werden, sind die Items sprachfrei, d. h. sie enthalten
nicht jenes Element, das spezifisch für Kulturen ist, nämlich die jeweilige Sprache. Die
1998 erschienene 4., überarbeitete Aufl. enthält die gleichen Testmaterialien wie zuvor;
die Überarbeitung betrifft lediglich das Testmanual. Inzwischen ist auch eine Computerversion im Rahmen des Hogrefe Testsystems (HTS) erhältlich.
Anmerkung. Der CFT 2 wurde seit 1977 nicht mehr verändert.
a
Diese Tests sind unabhängig vom CFT 20 und liefern ergänzende Informationen; Normen für
den Altersbereich 8;7 bis 15;6.
Nachfolger des
CFT 2
1977 (5730)
1998 (4. Aufl.)
1971 (3. Aufl.)
Teil 1 auch als
Powerversion
Wortschatza,
Zahlenfolgena
x
x
x
x
x
14-19
– Topologische Schlussfolgerungen
x
x
x
8;7 bis 60
– Klassifikationen
5;3 bis 9;5
CFT 1
– Reihen fortsetzen
Aufbau (Subtests)
Altersbereich (Jahre)
Testmerkmal
. Tabelle 3.9. Die »Culture Fair Tests«
Kapitel 3 · Diagnostische Verfahren
»Kulturfair«
224
Reliabilität. Die Halbierungszuverlässigkeit der beiden Testteile beträgt .90 bzw. .91,
für den Gesamttest sogar .95. Diese Werte resultieren allerdings aus einer Untersuchung mit Probanden aller Altersgruppen. In altershomogenen Gruppen würden sie
zwangsläufig niedriger ausfallen. In einer Wiederholungsuntersuchung an 13–15jährigen Schülern mit einem Intervall von zwei Wochen ergab sich ein Stabilitätskoeffizient von rtt = .77.
worten auf dem Antwortbogen, die zu einem Gesamtwert addiert und in T-, IQ- und
Prozentrangwerte transformiert werden.
Auswertung. Schablonen ermöglichen eine rasche und objektive Auswertung der Ant-
baren Verfahrens liegt zwischen 8;7 und 60 Jahren. Übungsaufgaben führen in die Eigenart jedes Subtests sowie in die Technik der Übertragung der Antworten in ein Antwortblatt ein. Die Bearbeitung der beiden Testhälften dauert bei Gruppenuntersuchungen etwa 60 min einschließlich Instruktion und Übungsaufgaben. Bei Verwendung der
Kurzform (Teil 1) verkürzt sich die Zeit auf ca. 37 min. Für die fakultativen Wortschatzund Zahlenfolgentests sind weitere 45 min zu veranschlagen.
Durchführung. Der Einsatzbereich des als Individual- wie als Gruppentest durchführ-
(z. B. (a) Pferd, (b) Traktor, (c) Landwirt, (d) Feld, (e) Kartoffel) das ähnlichste herauszufinden. Der Zahlenfolgentest besteht aus 21 Zahlenreihen, die fortzusetzen sind (z. B.
2 1 3 2 4 3 ? ).
Sämtliche Tests liegen in den Parallelformen A und B vor, die sich jedoch nur in der
Lokalisation der Auswahlantworten unterscheiden. Damit kann bei Gruppenuntersuchungen Abschreiben entgegengewirkt werden.
d
c
b
a
3.1 · Leistungstests
3
Hohe Konsistenz und
Stabilität
Für Altersbereich 8;7
bis 60 Jahre
Zwei Parallelformen
. Abb. 3.15a–d. a Es ist
die Figur zu suchen, die die
Reihe richtig fortsetzt (a).
b Es ist die Figur zu finden,
die nicht in die Reihe passt
(d). c Gesucht ist die das
Muster richtig ergänzende
Figur (c). d Zu finden ist die
Figur, in der der Punkt ähnlich wie im Beispiel (im Kreis,
aber außerhalb des Quadrats) gesetzt werden kann
(c)
225
3
CPM: aktuelle Normen
Mehrere Varianten
Intellektuelles
Potenzial messen
Alte Normen
Ravens Progressive Matrizen. Unter dem Überbegriff Ravens Progressive Matrizen
lassen sich drei Tests zusammenführen, die dem gleichen Konstruktionsprinzip folgen,
sich aber in ihrer Schwierigkeit und ihrem Einsatzbereich unterscheiden: Die Standard
Progressive Matrices (SPM) sind deutlich leichter als die Advanced Progressive Matrices (APM), im Gegensatz zu diesen beiden Versionen decken die Coloured Progressive
Matrices (CPM) den Altersbereich von 3;9 bis 11;8 Jahren ab. Letztere stellen gleichzeitig die Variante mit den aktuellsten deutschen Normen dar (Raven, Bulheller & Häcker,
Wenn ein Kind im Altersbereich von 5;3 bis 9;5 Jahren untersucht werden soll, bietet
sich aus der gleichen Testfamilie der CFT 1 an (. Tab. 3.9). Den Anspruch, die Intelligenz weitgehend sprachfrei und bildungsunabhängig messen zu können, erheben aber
auch andere Testverfahren. Wenn bei einem Kind eine Einzeltestung vorgesehen ist,
kommen z. B. auch sprachfreie Untertests der K-ABC (7 oben) in Frage. Darüber hinaus stehen im deutschen Sprachraum zwei weitere Verfahren – nicht nur zum Einsatz
an Kindern – zur Verfügung, die nun kurz mit dem CFT 20 kontrastiert werden.
Alternativen zum CFT 20
tuelle Leistungsfähigkeit im Sinne der fluiden Intelligenz relativ unabhängig von kulturbzw. schichtspezifischen Einflüssen und Schulkenntnissen prüfen zu können. Dadurch
ist es weniger ein Instrument zur Prognose von Schulleistungen, sondern eher zur
Untersuchung der Intelligenz von sprachretardierten und Ausländerkindern. Die Ergebnisse im CFT 20 können im Einzelfall helfen, das intellektuelle Potenzial von Probanden mit niedrigen Testwerten in bildungsabhängigen Intelligenztests und/oder
schlechten Schulleistungen einzuschätzen. Ob die beiden Zusatztests (Wortschatz- und
Zahlenfolgentest) eine sinnvolle Ergänzung zur Erfassung der kristallisierten Intelligenz darstellen, kann bezweifelt werden. Die Stärke des CFT 20 liegt darin, dass vier
unterschiedliche Aufgabentypen eingesetzt werden, um eine Fähigkeit zu messen. Den
Zusatztests liegt dieses Prinzip nicht zugrunde. Die verbale und numerische Intelligenz
werden mit jeweils nur einem einzigen Test abgedeckt. Eine Testrezension, die sich
noch auf die 3. Aufl. des CFT 20 bezieht, hat Heller (1997) verfasst. Lesenswert ist auch
die Replik darauf von Weiß (1997).
Bewertung. Der eigentliche Wert des Verfahrens liegt darin, die grundlegende intellek-
die im Jahre ihrer Erstellung (1977) von hinreichender Repräsentativität gewesen sein
dürften. Für die Kurzform (1. Teil) liegen auch Normen für 20-70jährige vor (N = 1.330).
Die Normierung des Wortschatz- und des Zahlenfolgentests erfolgte 1985 und 1986 an
ca. 2.700 Schülern vom 3. bis 9. Schuljahr.
Normierung. An insgesamt 4400 Schülern wurden Alters- und Schulnormen ermittelt,
Validität. Die Korrelationen zur Mathematiknote, also einem Indikator für nichtsprachliche Leistungen, liegen bei .50, (die zur Deutschnote nur bei .29), was den Erwartungen
insofern entspricht, als im Deutschunterricht per definitionem stark die Sprache als ein
spezifisches Kulturelement im Vordergrund steht, diese im Test aber keine vordergründige Rolle spielt. Insgesamt sind die Beziehungen zu konstruktnahen Variablen (z. B.
Raven-Test) höher als diejenigen zu konstruktfernen (wie z. B. Rechtschreib- und
Wortschatztests). Wortschatz- und Zahlenfolgetest interkorrelieren zu r = .35; ihr Zusammenhang mit dem sprachfreien Teil des CFT 20 beträgt .48 bzw. .57. Der Wortschatztest korreliert durchschnittlich zu .50 mit der Deutschnote und der Zahlenfolgentest zu .60 mit der Mathematiknote.
Kapitel 3 · Diagnostische Verfahren
Korrelationen mit
Mathematik- und
Deutschnote
226
3
Entwicklungsstand
geistig retardierter Erwachsener bestimmbar
Intelligenztests auch
zur Entwicklungsdiagnostik verwendbar
Entwicklungsretardierungen erkennen
Beurteilung der Motorik in verschiedenen
Anwendungsbereichen
nützlich
Entwicklungstests
Entwicklungstests sind Verfahren, die den Leistungsstand eines Kindes in Relation zu
seinem Lebensalter erfassen wollen. Ihr Ziel ist es, durch Vergleich der individuellen
Ergebnisse mit den Normwerten Gleichaltriger rechtzeitig Hinweise auf behandlungsbedürftige Entwicklungsretardierungen zu erhalten.
Diese Anwendung setzt voraus, dass die eingesetzten Verfahren nicht nur für ein
bestimmtes Lebensalter normiert sind, sondern auch Normwerte für längere Entwicklungsperioden bereitstellen. Allgemeine Entwicklungstests versuchen dabei die ganze
Breite des kindlichen Entwicklungsstandes zu erfassen, spezielle Entwicklungstests dagegen nur einen Ausschnitt. Intelligenztests für Kinder, die bereits in 7 Abschn. 3.1.2.2
behandelt wurden, können grundsätzlich auch zur Entwicklungsdiagnostik eingesetzt
werden, wenn die allgemeine kognitive Entwicklung oder die Entwicklung von intellektuellen Teilfähigkeiten zu beurteilen ist.
Selbst der Entwicklungsstand von geistig retardierten Erwachsenen, älteren Kindern und Jugendlichen kann mit Tests eingeschätzt werden, die nur für (jüngere) Kinder entwickelt und normiert sind. Davon sollte nur Gebrauch gemacht werden, wenn
3.1.4
Motorik. Neben dem Bereich der kognitiven Fähigkeiten, der mit Carrolls Modell aufgespannt wird, steht der Bereich der (Psycho-) Motorik. Für bestimmte diagnostische
Fragestellungen ist eine Beurteilung von motorischen Fähigkeiten und Fertigkeiten
wichtig. Beispielsweise stellt sich in der Förderdiagnostik manchmal die Frage, wie
gravierend sich eine körperliche Behinderung auf die motorische Leistungsfähigkeit
auswirkt. In der Neuropsychologie soll manchmal die motorische Beeinträchtigung
quantifiziert werden, die ein Patient etwa durch eine Schädel-Hirn-Verletzung erlitten
hat. In der beruflichen Eignungsdiagnostik und in der Sportpsychologie können Anforderungsanalysen auf die Notwendigkeit hinweisen, bestimmte fein- und grobmotorische Fähigkeiten zu prüfen. Für solche Zwecke stehen zahlreiche Testverfahren zur
Verfügung, die so unterschiedliche Aspekte der Motorik wie Tremor, Zweihandkoordination oder Körperkoordination messen. Aus Platzgründen ist es nicht möglich, hier
eine Übersicht über diese Verfahren zu geben oder einzelne Tests vorzustellen. Stattdessen wird auf das von Bös (2001) herausgegebene, umfangreiche Handbuch verwiesen.
Bewertung. Beim LGT 3 handelt es sich um ein Verfahren, das Lernleistungen und
mittelfristige Gedächtnisleistungen hinreichend reliabel zu erfassen erlaubt. Mit sechs
verbalen und figuralen Aufgaben erfolgt die Messung relativ breit.
Normierung. Der Test wurde an 1.150 Gymnasiasten, Inspektorenanwärtern und Studenten standardisiert.
Validität. Faktorenanalysen stützen die Berechnung eines Gesamtindexes wie die eines
Verbal- und eines Figuralfaktors. Die Korrelationen mit Schulnoten und mit Intelligenz
sind moderat.
Reliabilität. Die Split-half-Reliabilitäten der einzelnen Untertests liegen zwischen .57
und .78, ihre Paralleltestkoeffizienten zwischen .51 und .69. Die Retestreliabilität für
einen Zeitraum von 1–2 Wochen variiert zwischen .72 und .85, für 3–4 Wochen zwischen .47 und .71, und für den Gesamtwert beträgt sie .89 bzw. .71.
Kapitel 3 · Diagnostische Verfahren
Breite Messung
232
6
Nachfolgend werden Aufgabenbeispiele zu Griffiths Entwicklungstest aufgeführt (in
Klammern die normale Variationsbreite des Alters, definiert als Bereich zwischen
dem 5. und 95. Perzentil, sowie der Median). Die Aufgabennummer informiert über
die Position des Items in der Skala. Aufgaben mit zwei Nummern (z. B. A 31/32) werden mit 2 Punkten bewertet.
Beispiel
Gliederung. Die insgesamt 208 Aufgaben erlauben die Untersuchung der Bereiche
Motorik, sozialer Kontakt, Hören und Sprechen, Auge-Hand-Koordination und kognitive Entwicklung (7 Beispiel). Jede der fünf Skalen misst einen eigenen Entwicklungsbereich und kann auch alleine durchgeführt werden.
Brandt, I. & Sticker, E.J. (2001). Göttingen: Beltz Test
Die GES stellen den einzigen Entwicklungstest für die ersten beiden Lebensjahre
dar, der an deutschen Kindern standardisiert ist (Brandt & Sticker, 2001). Die Skalen
gehen auf Griffiths Mental Development Scale zurück, erstmalig 1954 unter dem Titel
»The Ability of Babies« veröffentlicht (Griffiths, 1954). Diese Version kam in Deutschland zwischen 1967 und 1979 im Rahmen einer Längsschnittstudie zur Entwicklung
von Frühgeborenen und Reifgeborenen zum Einsatz. Neben den 257 Items der Originalversion wurden 102 Zusatzaufgaben erprobt. Die Ergebnisse dieser Studie lagen der
1983 erschienenen ersten deutschen Version zugrunde. Dabei fanden auch die Kürzungen Berücksichtigung, die Griffiths in einer 1970 erschienen Überarbeitung des Tests
vorgenommen hatte. Die Autorinnen der deutschen Fassung bemühten sich um eine
möglichst enge Anlehnung an die englische Originalfassung und nahmen nur unbedingt erforderliche Änderungen vor.
GES: Griffiths Entwicklungsskalen zur Beurteilung der Entwicklung in den ersten
beiden Lebensjahren, deutsche Bearbeitug (2., überarbeitete und erweiterte
Aufl.).
Einige Entwicklungstests dienen als Breitbanddiagnostikum und erfassen mit ihren
Subtests mehrere Entwicklungsbereiche.
Allgemeine Entwicklungstests
Ein 17jähriger erreicht in einem Intelligenztest für Kinder 65 Punkte. Der Diagnostiker sucht die Normtabelle, in der ein IQ von 100 bei 65 Punkten zuerkannt wird. Er
stellt fest, dass dies in der Altersgruppe 9;0 bis 10;0 Jahre der Fall ist. Die Schlussfolgerung lautet, dass der Proband in diesem Test den Leistungsstand eines durchschnittlichen 9jährigen erreicht hat. Sein »Intelligenzalter« beträgt somit 9 Jahre.
Beispiel
keine altersgerechten Verfahren zur Verfügung stehen. Dazu wird in den Normtabellen
nachgesehen, in welcher Altersgruppe der ermittelte Testrohwert des Probanden zu
einem genau durchschnittlichen Normwert (bei IQ-Werten also 100) führen würde.
Das Alter der Normgruppe, in welcher der Testrohwert exakt einer durchschnittlichen
Testleistung entspricht, kennzeichnet den aktuellen Entwicklungsstand des Probanden.
3.1 · Leistungstests
Fünf Skalen
Enge Anlehnung an
englisches Original
Für die ersten beiden
Lebensjahre
Entwicklungsstand
bestimmen
233
3
3
Lediglich Entwicklungsprofile behinderter
Kinder
Entwicklungsquotient
Entwicklungsalter
feststellen
Überspringen von
Aufgaben zulässig
zwischen 1967 und 1979 an 102 Kindern statt, die zunächst in Monatsintervallen, später in größeren Abständen wiederholt untersucht wurden. Normen in dem Sinne, dass
Normierung. Die deutsche Normierung fand im Rahmen einer Längsschnittstudie
Validität. Im Manual wird lediglich auf die Entwicklungsprofile verschiedener behinderter Kinder verwiesen, die den Erwartungen entsprechen.
Reliabilität. Die Reteststabilität des Gesamtentwicklungsquotienten variiert bei einer
Testwiederholung nach drei Monaten zwischen .49 (Alter bei der ersten Messung 3
Monate) und .81 (Alter 15 Monate). Im Durchschnitt liegen die Koeffizienten im zweiten Lebensjahr mit .80 höher als im ersten (.62).
Auswertung. Eine Aufgabe gilt als gelöst, wenn die Bewertungskriterien erfüllt sind.
Für einige Aufgaben werden zwei Punkte vergeben. Die Skalen sind so aufgebaut, dass
für jeden Lebensmonat zwei Aufgaben bzw. eine mit zwei Punkten bewertete Aufgabe
vorliegen. Das Entwicklungsalter eines Kindes lässt sich daher relativ einfach feststellen,
indem die erreichte Punktzahl durch 2 dividiert wird. Für den Gesamttest (fünf Bereiche) ist die Summe der gelösten Aufgaben durch 10 zu dividieren. Erreicht ein Kind
beispielsweise insgesamt 125 Punkte, hat es ein Entwicklungsalter von 12,5 Monaten.
Das Entwicklungsalter ist in Relation zum Lebensalter (z. B. 18 Monate) zu sehen. Ein
Entwicklungsquotient kann berechnet werden, indem das Entwicklungsalter durch das
Lebensalter dividiert und das Ergebnis mit 100 multipliziert wird. Im Beispiel: (12,5/18)
× 100 = 69.
Durchführung. Das Verfahren ist ein Individualtest für die ersten beiden Lebensjahre
und soll in Gegenwart einer vertrauten Person durchgeführt werden, die notfalls den
Testleiter unterstützen kann. Für die Durchführung wird standardisiertes Testmaterial
(z. B. ein kleiner, rotlackierter runder Holzstab, eine Schachtel mit 12 Spielsachen) benötigt. Die Untersuchung beginnt bei nicht retardierten Kindern mit Aufgaben, die
etwa zwei Monate unter dem Lebensalter des Kindes liegen und wird beendet, wenn
mehr als zwei aufeinander folgende Aufgaben in jedem Untertest nicht mehr gelöst
werden. Wenn aus der Beobachtung des Kindes bekannt ist, dass es eine bestimmte
Aufgabe lösen kann, braucht diese nicht durchgeführt werden. Bei den Aufgaben mit
Testmaterial finden sich genaue Anweisungen zum Vorgehen. Die reine Durchführungszeit ist bei gesunden Kindern im ersten Lebensjahr mit 20-30 min zu veranschlagen, bei älteren Kindern mit etwa 45 min.
Motorik: A 14 Sitzt frei, mindestens 1 Minute (6–10 Monate; Md = 7,3); A 31/32 Kann
rückwärts gehen (14–19 Monate; Md = 15,4).
Persönlich-Sozial: B 3 Lächelt (1–3 Monate; Md = 2,0); B 14 Unterscheidet Fremde
von Bekannten (5–9 Monate; Md = 7,0).
Hören und Sprechen: C 12 Reagiert, wenn es gerufen wird (4-8 Monate; Md = 6,0);
C 17/18 Sagt Mama oder Papa klar bzw. ein anderes Wort (7–15 Monate; Md = 9,0).
Auge und Hand: D 7 Nimmt den Ring, den man ihm reicht (2–5 Monate; Md = 3,5);
D19 Vollständiger Pinzettengriff (9–12 Monate; Md = 10,1).
Leistungen: E 6 Hält den runden Holzstab für einige Sekunden (1–5 Monate; Md =
3,2); E21 Findet das versteckte Spielzeug unter der Tasse (7–13 Monate; Md = 9,7).
Kapitel 3 · Diagnostische Verfahren
Standardisiertes
Testmaterial
234
Objektivität und Reliabilität. Bei den meisten Subtests ist die richtige Lösung anhand
des Manuals eindeutig feststellbar. Die verbalen Subtests und das Nachzeichnen lassen
Auswertung. Nach den Auswertungsrichtlinien des Manuals wird jedes richtig gelöste
Item mit einem Punkt bewertet; lediglich beim Subtest Wörter sind auch zwei Punkte
für eine Antwort möglich. Anhand von altersspezifischen Normtabellen transformiert
der Auswerter für jeden Subtest die Summe der Punkte in einen C-Wert. In ein Profilblatt eingetragen ergeben die C-Werte das so genannte Entwicklungsprofil. Fakultativ
kann ein Gesamtwert (»Gesamtentwicklungsscore«) berechnet werden, indem der Mittelwert aller C-Werte ohne den Elternfragebogen bestimmt und anhand einer Tabelle
in einen Standardwert transformiert wird.
Durchführung. Der WET wird in einer Einzelsitzung durchgeführt. Die Durchführung
nimmt bei Kindern bis 3;6 Jahren etwa 90 min in Anspruch, bei älteren Kindern etwa
75 min. Dabei kommen standardisierte Testmaterialien, wie etwa ein Lernbär oder ein
Schatzkästchen zur Anwendung.
Gliederung. Zu jedem der fünf Entwicklungsbereiche liegen zwei bis vier Subtests vor
(. Tab. 3.10). Eine Sonderstellung nimmt der Elternfragebogen ein, der keinen Leistungstestcharakter hat.
Wiener Entwicklungstest WET von Kastner-Koller und Deimann (1998). Göttingen:
Hogrefe
Der Test soll bei Vorschulkindern (Alter von 3;0 bis 5;11 Jahre) den Entwicklungsstand
in sechs Funktionsbereichen (Motorik, visuelle Wahrnehmung/Visumotorik, Lernen
und Gedächtnis, kognitive Entwicklung, Sprache sowie sozial-emotionale Entwicklung) überprüfen. Bei der Entwicklung und Auswahl der Subtests legten die Autorinnen
besonderen Wert auf eine Verankerung der Aufgabeninhalte im konkreten Lebensraum
3–6jähriger Kinder und eine spielerische Gestaltung der Testsituation. Die verwendeten
Aufgabentypen hatten sich bereits in vorliegenden Entwicklungstests bewährt; zum Teil
handelt es sich auch um Neuentwicklungen. Die Entwicklung der Skalen erfolgte auf
Grundlage der probabilistischen Testtheorie.
Der WET liegt nun in einer überarbeiteten, 2002 erschienenen Form vor. Verlagsangaben zufolge wurden die Durchführungs- und Auswertungsanweisungen präzisiert. Modifikationen bei den Testmaterialien betreffen Layout und Materialgestaltung
ohne Einfluss auf die Iteminhalte.
Sorgfältig konstruiert
Bewertung. Bei den GES handelt es sich um ein sehr sorgfältig konstruiertes Verfahren.
Bedauerlich ist, dass im Manual das Thema Validität sehr stiefmütterlich behandelt wird,
zumal internationale Forschungsergebnisse zu dem inzwischen in mehreren Sprachen
vorliegenden Test vorliegen. Die Autorinnen berichten über Studien, denen zufolge sich
die Testleistungen, anders als bei der Intelligenz, nicht im Laufe der Jahre verändert haben. Dennoch erscheint eine umfangreichere deutsche Nacheichung sowie die Ermittlung eigener Werte zur Abklärung der Validität der deutschen Version geboten.
Entwicklungsprofil
und Gesamtwert
Standardisiertes
Testmaterial
Kindgerechte
Aufgaben
Für Altersbereich
3–6 Jahre
Nacheichung
wünschenswert
Validitätshinweise
fehlen im Manual
Keine Transformation
in Normwerte
235
Testrohwerte in Standardwerte transformiert werden, existieren nicht. Die Erhebung
diente dazu, für jede Aufgabe das Alter zu ermitteln, indem 50% der Kinder sie lösten.
Mit der oben beschriebenen Auswertungsprozedur wird die individuelle Testleistung
mit den Leistungen der Normgruppe verglichen.
3.1 · Leistungstests
3
3
236
22
9
13
10
11
15
10
10
10
24
10
4
10
Itemzahl
»Mein Kind zieht sich ohne Hilfe aus.«
Foto einer Person; Gefühl
(»Freude«) benennen.
Der Hund beißt den Vater, der
das Mädchen festhält« mit Spielmaterial darstellen
Das Wort »zeichnen« ist zu
erklären.
»Warum sollte man nicht so viele Süßigkeiten essen wie man gerne
möchte?«
Der Satz »Der Würfel ist eckig, der Ball ist…« ist (mit dem Wort
»rund«) zu ergänzen.
Matrizenaufgaben: Aus jeweils fünf vorgegebenen Lösungsmöglichkeiten soll das Element bestimmt werden, das eine 3–3-Matrix sinnvoll ergänzt.
Nach Vorlagen Muster mit Mosaiksteinen nachlegen.
vorgesprochene Zahlenfolgen (2 bis maximal 6 Zahlen) sollen
unmittelbar nachgesprochen werden.
Nach max. 10 Lerndurchgängen unmittelbar danach und 20 min
später 6 verschiedene, in Schubladen versteckte Spielgegenstände
wieder finden.
Einzelne Kärtchen auf einer Bildtafel mit sechs Feldern zum Thema
Meer ordnen.
Ein Kreuz von einer Vorlage abzeichnen.
Am Teddybär mit einer Kordel
(als Halsband) einen Knoten binden.
Einbeiniges, freihändiges Stehen mit geschlossenen Augen für mindestens 3 s.
Items bzw. Itembeispiel
Anmerkung.
a Funktionsbereiche: M = Motorik, V = Visuelle Wahrnehmung/Visumotorik, LG = Lernen und Gedächtnis,
K = Kognitive Entwicklung, S = Sprache, SE = Sozial-emotionale Entwicklung.
Selbstständigkeitsentwicklung des Kindes
Verständnis mimischer
Gefühlsausdrücke
SE: Fotoalbum
SE: ElternFragebogen
Verständnis grammatischer Strukturformen
S: Puppenspiel
Sprachliche Begriffsbildung
Analoges Denken
K: Gegensätze
S: Wörter Erklären
Induktives Denken
(Kreuzklassifikationen)
K: Bunte Formen
Orientierung in der
Lebenswelt
Räumliches Denken
(2-D)
K: Muster Legen
K: Quiz
Phonologische Speicherkapazität
Visuell-räumliche Speicherkapazität
Differenzierte RaumLage-Wahrnehmung
LG: Zahlen
Merken
LG: Schatzkästchen
V: Bilderlotto
Visumotorische
Koordination (Graphomotorik)
Feinmotorische Fähigkeiten
M: Lernbär
V: Nachzeichnen
Grobmotorische
Fähigkeiten
Messgegenstand
M: Turnen
Funktionsbereicha und
Subtest
. Tabelle 3.10. Subtests des Wiener Entwicklungstests
Kapitel 3 · Diagnostische Verfahren
Bei der Erfassung eines mehr oder weniger eng umschriebenen Entwicklungsbereichs
kommen sog. spezielle Entwicklungstests zum Einsatz. Unter diesen nehmen Tests zur
Untersuchung des kognitiven Entwicklungsstandes quantitativ eine dominante Rolle
ein. Im Abschnitt Intelligenztests wurden bereits einige Tests vorgestellt, die für das
Vorschul- und Schulalter geeignet sind. Wenn speziell die Kreativität diagnostisch relevant ist, kann der Kreativitätstest für Vorschul- und Schulkinder für die psychologische Anwendungspraxis (KVS-P) von Krampen (1996) eingesetzt werden. Als Beispiel
für einen Test zur Untersuchung des motorischen Entwicklungsstandes sei exemplarisch die Lincoln-Oseretzky-Skala LOS KF 18 von Eggert (1974) genannt. Dieser Test
enthält Aufgaben wie z. B. mit geschlossenen Augen die Nasenspitze berühren, mit
offenen Augen 10 s auf einem Bein stehen und Streichhölzer mit einer Hand sortieren.
Über weitere Motoriktests informiert das Handbuch von Bös (2001).
Spezielle Entwicklungstests
Test zur motorischen
Entwicklung
Validitätsbelege fehlen
Einziges Breitbandverfahren im deutschen
Sprachraum
stände in mehreren Bereichen liefern kann. Kein anderes im deutschen Sprachraum
verfügbares Verfahren kann diesen Anspruch erheben. Das Testmaterial und die Aufgaben selbst sind sehr kindgerecht. Von einem mehrdimensionalen Verfahren ist zu
verlangen, dass zu jeder separat ausgewerteten Skala Validitätsbelege vorliegen. Davon
ist der WET noch weit entfernt. Deshalb ist anzuraten, den Test als Screeninginstrument einzusetzen und bei auffällig niedrigen Skalenwerten mit anderen Verfahren
diesen Bereich näher zu untersuchen.
Bewertung. Der WET ist ein Breitbandverfahren, das Hinweise auf Entwicklungsrück-
3
Repräsentative Normstichprobe
Faktorielle Struktur
deckt sich nicht mit
Funktionsbereichen
237
Normierung. Der ersten Aufl. liegt noch eine Normierungsstichprobe von 274 Kindern
zugrunde, die nach verschiedenen Kriterien für Österreich repräsentativ ist. Nach Angaben des Verlags liegen mit der neuen Aufl. nun repräsentative Normen für deutsche
und österreichische Kinder (N > 1.200) vor.
Validität. Die Autorinnen werten die Zunahme der Subtestleistungen mit dem Alter als
Validitätsbeleg. Faktorenanalysen sprechen dafür, dass der Test verschiedene Aspekte
der Entwicklung erfasst. Die Faktoren passen allerdings nicht bei allen Subtests zu den
a priori angenommenen Funktionsbereichen. Beispielsweise bilden die beiden Motoriktests keinen gemeinsamen Faktor; sie korrelieren auch nur zu .22 miteinander. Wohl
aus diesem Grund erfolgt auch keine Zusammenfassung von Subtestergebnissen zu
Entwicklungsbereichen.
einen gewissen Spielraum bei der Bewertung. Im Manual der 1. Aufl. (S. 20) findet sich
der etwas vage Hinweis, dass »die Interrater-Übereinstimmung über .80 liegt«. Zur
Reliabilität liegen Ergebnisse von Konsistenzanalysen sowie zum Subtest Zahlen Merken Retestergebnisse vor (rtt = .67). Cronbachs α variiert zwischen .66 (Lernbär) und
.90 (Bilderlotto, Quiz und Elternfragebogen). Zumindest in der 1. Aufl. findet sich
kein Hinweis auf Umfang und Zusammensetzung der Stichprobe. Für den Fall, dass
sich die Reliabilitätsangaben im Manual auf die Gesamtstichprobe beziehen, wird die
Reliabilität des Tests in der Altersgruppe, auf die sich die einzelne Anwendung notwendigerweise bezieht, weit überschätzt.
3.1 · Leistungstests
3
Validität wegen
hoher Grundrate nicht
ausreichend
Hohe Reliabilität
Aufgabentypen
Schultests
Die sicherste Methode zur Schuleingangsdiagnose ist die Einschulung aller Schüler
mit der Möglichkeit, sich im Kriterium bewähren zu können. Als Frühindikatoren für
potentielle Schulprobleme, auf die die Schule rechtzeitig mit gezielten Fördermaßnahmen zu reagieren hätte, sind Schuleingangstests aber durchaus nützlich.
Fazit
Reliabilitätskoeffizienten um .90 belegen die hohe Zuverlässigkeit der Verfahren, Korrelationen um .60 zwischen Testergebnis und dem Schulerfolg nach einem Jahr eine befriedigende Validität. Nur das Kieler Einschulungsverfahren KEV (Fröse et al., 1986) und der
Weilburger Test für Schulanfänger (Hetzer & Tent, 1971) können mit r = .71 bzw. .70 eine
überdurchschnittliche Validität vorweisen. Vor dem Hintergrund einer Schulerfolgsrate
von 90% bei Einschulung aller Schüler können aber auch derart valide Verfahren nach
Berechnungen von Tiedemann (1974) die Trefferquote der Grundrate nicht übertreffen.
3.1.5.1 Schuleingangstests
Sie sind auch als Schulreifetests bekannt und haben die Aufgabe zu prüfen, ob ein
schulpflichtiges Kind den Anforderungen der Schule gewachsen ist. Durch ihren Einsatz bereits vor Schuleintritt soll verhindert werden, dass noch nicht schulfähige Kinder
überfordert und dadurch psychisch geschädigt werden. Ihre Schwierigkeit besteht darin, dass ein Verhalten vorhergesagt werden soll, das zu praktizieren Kinder bisher
kaum Gelegenheit hatten. Sie versuchen dies, indem sie in einfacher und kindgemäßer
Form jene Grundfertigkeiten stichprobenmäßig erfassen, die Kinder im ersten Schuljahr erlernen und rudimentär bereits besitzen sollen. Die Fähigkeit zur Formerfassung
wird dabei als Voraussetzung zum Erlernen der grafischen Symbole, die Auffassung von
Mengen bis 5 als Basis für erfolgreiche Teilnahme am Mathematikunterricht angesehen.
Grafomotorische Aufgaben sollen grundlegende schreibmotorische Fertigkeiten diagnostizieren. Viele Schulreifetests verlangen das Nachzeichnen von Formen und Zeichnen eines Menschen. Der Schwerpunkt der Aufgaben liegt eindeutig im kognitiven
Bereich. Nach Langfeldt und Tent (1999, S. 140) finden folgende Aufgabentypen in 9
analysierten Schulreifetests am häufigsten Verwendung (in Klammern die Anzahl der
Tests mit diesem Aufgabentyp):
4 Nachmalen von Formen (Figuren, Ziffern, Buchstaben und Kombinationen (8)
4 Mann-Zeichnungen (5)
4 Abstrakte Figuren (Zaun, Muster) wiederholt zeichnen (5)
4 Malen bzw. Legen vorgegebener oder kurz exponierter Mengen (4)
4 Identische Figuren aus ähnlichen heraussuchen und markieren (4)
4 Markieren von Bildern nach Sprachverständnis für Einzelsituationen (4)
Schultests unterscheiden sich nicht grundsätzlich von Entwicklungstests, die häufig an
Schulleistungen validiert werden, sondern vor allem hinsichtlich der Spezifität ihrer
Anforderungen. Während Entwicklungstests eher allgemeinere Fähigkeiten zu erfassen
trachten, wollen Schultests speziellere Fähigkeiten und Fertigkeiten ermitteln. Folgende
Gruppen lassen sich unterscheiden:
4 Schuleingangstests,
4 Übertrittstests,
4 Schulleistungstests.
3.1.5
Kapitel 3 · Diagnostische Verfahren
Schulreife feststellen
238
3.1.5.3
Schulleistungstests
Bei ihnen handelt es sich um Verfahren, die zur Objektivierung der schulischen Leistungsbeurteilung konstruiert werden, da Lehrer Schülerleistungen häufig nur innerhalb
der Klassenrangordnung hinreichend objektiv einzustufen vermögen. Der Vergleich mit
überörtlichen Standards gelingt meist nur dann, wenn vergleichende Aufgabensammlungen vorliegen. Solche stehen aber nur selten zur Verfügung. Diese Lücke wollen
Schulleistungstests schließen. Es gibt sie vor allem für die Fächer Deutsch und Mathematik der ersten 6 Schuljahre. Beispielsweise liegt eine Serie von Diagnostischen Rechtschreibtests vor, die für die 1. bis 5. Klasse konzipiert sind (DRT 1, DRT 2, DRT 3, DRT
4 und DRT 5). Einige mit dem Attribut »diagnostisch« versehene Verfahren wollen nicht
nur eine summarische Leistungsbeurteilung zur Objektivierung der Notengebung ermöglichen, sondern darüber hinaus auch Hinweise auf spezifische Lernprobleme und
Teilleistungsschwächen (Legasthenie, Dyskalkulie oder Rechenschwäche) geben.
Diese Funktion erfüllen besonders Lese-, Rechtschreib- und Rechentests. Die derzeit veröffentlichten Schulleistungstests können durchweg als sehr reliabel und im Verhältnis zu Entwicklungstests als überdurchschnittlich valide eingestuft werden. Das
verwundert nicht, sind sie doch auf die curricularen Anforderungen überregionaler
Lehrpläne zugeschnitten und somit logisch valide. Schulleistungen eines Schülers oder
einer ganzen Klasse werden auf diese Weise mit überregionalen Standards vergleichbar.
Hierin liegt aber auch ihre Schwäche. Überregionale Gültigkeit ist häufig nur durch
Vernachlässigung regionaler oder örtlicher Spezifika zu erreichen. Dadurch finden
Lehrer u. U. die Kriterien ihrer besonderen Curricula nicht hinreichend repräsentiert.
Das mag neben der Kostenfrage ein Grund dafür sein, dass Schultests in Schulen relativ
selten eingesetzt werden. Sie sind deswegen nicht überflüssig, geben sie doch Psychologen in Beratungsstellen die Möglichkeit, die Angemessenheit schulischer Leistungsbeurteilungen wenigstens ungefähr überprüfen zu können. Bei größeren Diskrepanzen
ist eine angemessene Lernerfolgsmessung nur in Kenntnis der konkreten Anforderun-
Insgesamt gesehen ist die prognostische Validität der Übertrittstests zu gering, um
individuelle Entscheidungen allein von ihren Ergebnissen abhängig zu machen. Die
Erkenntnis, dass künftige Schulleistungen am besten durch den bisherigen Leistungstand prognostizierbar sind, erfordert die Einbeziehung von Schulleistungstests in die Übertrittsdiagnostik.
Fazit
3.1.5.2
Übertrittstests
Dies sind Verfahren, die das Misserfolgsrisiko für den Übertritt auf weiterführende
Schulen, besonders des Gymnasiums, abschätzen helfen sollen. Bei ihnen handelt es
sich um Gruppentests, die sich von den bereits angesprochenen Entwicklungstests vor
allem durch ihre Beschränkung auf diese spezielle Aufgabe und den Einsatz in der 4.–5.
Schulklasse unterscheiden. Zu ihnen gehören der Test Aufgaben zum Nachdenken
AZN (Hylla & Kraak, 1976) und der Bildungsberatungstest für 4. bis 6. Klassen BBT
4-6 (Ingenkamp et al., 1977). Die prognostische Validität dieser speziellen Verfahren
liegt bei bis zu 40% aufgeklärter Varianz im kurz- und mittelfristigen Bereich (Rüdiger
et al., 1985) zwar etwas höher als bei den vorgestellten Entwicklungstests, langfristige
Prognosen sind aber nach Heller et al. (1978) bei Korrelationen von .24 zur Deutschnote und .32 zur Mathematikzensur auch mit den AZN gewagt und mit dem BBT 4-6
überhaupt noch nicht erprobt.
3.1 · Leistungstests
3
Hilfe in Beratungsfällen
Reliabel und vergleichsweise valide
Tests sollen Benotung
objektivieren
Probleme bei langfristigen Prognosen
239
3
3.2.1
3.2.2
3.2.3
3.2.4
3.2.5
3.2.6
3.2.7
Persönlichkeit und Temperament
Persönlichkeit und Temperament – 240
Allgemeines zu Fragebogen – 241
Persönlichkeitstestsysteme – 250
Verfahren zur Erfassung aktueller Zustände – 288
Verfahren zur Erfassung von Interessen – 294
Verfahren zur Erfassung der Motivation – 297
Handlungskontrolle (Volition) – 300
Persönlichkeitsfragebogen
Autoren wie Eysenck (1953) und Guilford (1964) definieren Persönlichkeit in einem
umfassenden Sinne, der außer den Charakter- und Temperamentsunterschieden auch
Traits für Bedürfnisse sowie Interessen und sogar morphologische und physische Wesenszüge einschließt. Der Leistungsbereich wurde im vorangegangenen Abschnitt behandelt. Die Verfahren, die im vorliegenden Kapitel erörtert werden sollen, verstehen
sich als solche zur Erfassung von Persönlichkeitsmerkmalen »im engeren Sinne«. Darunter fallen gewöhnlich Faktoren des emotionalen, motivationalen und sozialen Verhaltens. Von Bedeutung ist nicht, wie gut jemand etwas tut, sondern die Richtung sowie
die Art und Weise, in der dieses geschieht. Ängstlichkeit und Neurotizismus, Extraver-
3.2.1
3.2
Weiterführende Literatur
Über Entwicklungstests im Vorschulalter informieren ausführlich Rennen-Allhoff und
Allhoff (1987), »Entwicklungstests für das Säuglings-, Kleinkind- und Vorschulalter«.
Informationen und Besprechungen zu Entwicklungs- und Schultests bietet die Jahrbuchreihe von Ingenkamp u. a. (1981 ff.) Tests und Trends. Die Serie wird seit 2000 von
Hasselhorn, Schneider und Marx weitergeführt. Bisher sind Themenbände zur Diagnostik von Lese-Rechtschreibschwierigkeiten, Motivation und Selbstkonzept, Konzentration und Aufmerksamkeit sowie von Mathematikleistungen erschienen. Einen breiten und fundierten Überblick über angewandte Fragen der pädagogisch-psychologische Diagnostik geben Langfeldt und Tent (1999). Aktuelle Auskünfte über lehrzielorientierte Tests sind bei Schulbuchverlagen zu erhalten, die für ihre Lehrwerke
entsprechende Verfahren bereitstellen.
Schulleistungstests sind in der Regel sehr valide normorientierte Indikatoren der
Schulleistungen und erlauben Vergleiche der Individualleistung mit überregionalen
Normen. Bei größeren Diskrepanzen zwischen örtlichen und überregionalen Standards ist der Einsatz lehrzielorientierter Tests erforderlich.
Fazit
gen zu leisten. An die Stelle der genannten normorientierten Schulleistungstests müssen lehrzielorientierte Tests treten (7 Abschn. 2.1.3), die sich eng an den jeweiligen
Curricula orientieren.
Kapitel 3 · Diagnostische Verfahren
Erfassung von emotionalem, motivationalem
und sozialem Verhalten
240
Allgemeines zu Fragebogen
Eine Voraussetzung dieser Technik besteht allerdings darin, dass die Betreffenden sich
selbst überhaupt kennen und zu beobachten imstande sind. Von besonderen Umständen, wie psychiatrischen Erkrankungen oder geistiger Behinderung einmal abgesehen,
darf das im Regelfall unterstellt werden. Einige Testautoren raten explizit vom Einsatz
ihres Persönlichkeitsfragebogens ab, wenn der Proband nicht über ein näher spezifi-
Selbsteinsicht
In vielen Verhaltensbereichen besteht der naheliegende Zugang, etwas über eine Person
zu erfahren, darin, diese zu beobachten, und zwar möglichst lange und in verschiedenem Kontext. Abgesehen davon, dass die Anwesenheit eines Beobachters dem Beobachteten nicht immer verborgen gehalten werden kann und dadurch der Akteur in
seinem Auftreten, dem Aktionsradius und den spezifischen Handlungen beeinflusst
werden mag, stößt ein solcher Ansatz sehr rasch an die oft engen Grenzen zeitlicher,
sachlicher und personeller Ressourcen. Eine auf das beobachtbare Verhalten gerichtete
Befragung stellt hier eine äußerst ökonomische Variante dar. Wenn sie nicht in einem
mehr oder weniger freien Gespräch oder Interview durchgeführt wird, sondern sich
vorformulierter Fragen oder Feststellungen und gebundener Antworten bedient, gewährleistet sie zudem hohe Objektivität in der Durchführung und schafft die Voraussetzung für eine objekitve Auswertung und Interpretation. Eine solche Befragung ist
darüber hinaus in Bezug auf Einstellungen, innere Zustände, Erlebnisweisen und Kognitionen oftmals die einzige in Betracht kommende Methode, etwa weil die interessierenden Phänomene entweder gar nicht »von außen« oder nur mit äußersten Schwierigkeiten und Fehlerquellen zu beobachten wären.
Daher ist weder die Notwendigkeit noch die Zweckmäßigkeit des Ansatzes bestreitbar, durch direkte Befragung etwas über die Empfindungen und Emotionen, Erlebnisse, Präferenzen und Motive von Personen in Erfahrung zu bringen.
3.2.2
sion-Introversion, Dominanz-Submission und Aggressivität sind geläufige Dimensionen für Eigenschaften einer derartigen Provenienz. Davon abgehoben werden mehr und
mehr Unterschiede des Temperaments als einer Ebene, die der Persönlichkeit zugrunde
liegt und stärker genetisch determiniert ist. Temperament bezieht sich auf »formale,
relativ stabile Verhaltenseigenschaften, die sich in der energetischen Ebene des Verhaltens und in Zeitcharakteristika von Reaktionen niederschlagen« (Strelau, 1986, S. 201).
Überdauernde Veränderungen durch Umwelteinflüsse sind allenfalls bei langdauernder und massiver Einwirkung zu gewärtigen. Beispiele für Temperamentseigenschaften sind Aktivität (Intensität oder Häufigkeit, mit der Personen Handlungen ausführen oder Aufgaben in Angriff nehmen) und Reaktivität (Intensität und Häufigkeit
der individuellen charakteristischen Reaktionen) mit den Polen von extremer Beständigkeit (als Äquivalent der »Stärke des Nervensystems«) und extremer Sensibilität.
Aus der Vielzahl der in Frage kommenden Verfahren zur Erfassung verschiedener Persönlichkeitsbereiche und Eigenschaftsdimensionen werden nachfolgend angesprochen:
4 Persönlichkeitstestsysteme (»breite« Erfassung der Persönlichkeit),
4 Fragebogen zur Erfassung der Motivation,
4 Fragebogen zur Erfassung von Interessen,
4 Fragebogen zur Erfassung aktueller Zustände.
3.2 · Persönlichkeitsfragebogen
Selbstbeobachtung
der Probanden als
Voraussetzung
Vorteile von Fragebogen
Temperament als
zugrunde liegende
Ebene
241
3
3
Fragebogen sind
»subjektive Verfahren«
Relativierung an
Mitmenschen
Erinnerungen an
eigene Verhaltensstichproben
ziertes Mindestmaß an Intelligenz verfügt. Damit wird zugleich auch sichergestellt, dass
die Probanden den Sinn der Fragen verstehen. Freilich sollten die Schwierigkeiten,
diese Selbstbeobachtung vorzunehmen, nicht unterschätzt werden, und – mehr noch
– ein Urteil darüber abzugeben, wie oft bzw. intensiv die erfragten Sachverhalte auftreten oder in der Vergangenheit (wie weit soll diese zurückreichen?) aufgetreten sind. Die
besagten Urteile sind hinsichtlich ihrer Komplexität sicher höchst verschieden: Der
einfachste Fall beinhaltet lediglich ein mehr oder weniger intensives Nachdenken darüber, ob ein bestimmtes Phänomen oder Ereignis bereits vorkam oder nicht (z. B. »Haben Sie schon einmal Sachen an sich genommen, die Ihnen nicht gehörten?«). Hingegen setzt bereits eine Antwort auf die Frage: »Morgens nach dem Aufwachen bin ich
häufig noch eine ganze Weile müde und kaputt« einen vielschichtigen Entscheidungsprozess voraus, bei dem u. a. berücksichtigt werden muss, welche Prozesse zu Müdigkeit zählen und was unter »häufig« zu verstehen ist. Gezielten Untersuchungen zufolge
verstehen verschiedene Personen nämlich durchaus Unterschiedliches unter Begriffen
wie »gewöhnlich«, »häufig«, oder »selten«, und selbst »nie« bedeutet keineswegs durchgängig die Auftretenswahrscheinlichkeit Null. Zudem hängt dieses Verständnis von der
Art des Ereignisses (»häufiger Kinobesuch« ist etwas anderes als »häufiger Kopfschmerz«) ab. Noch schwieriger dürfte es sein, etwa auf das Item: »Übernehmen Sie bei
gemeinsamen Aktionen gern die Führung?« eine angemessene Antwort zu geben. Dabei muss zunächst an alle Unternehmungen gedacht werden, die in die fragliche Kategorie fallen und die ganz verschiedene Implikationen für die Befragung haben können
(je nachdem nämlich, ob es für die Erfüllung des Tatbestandes »gemeinsam« ausreicht,
wenn eine weitere Person, etwa die Partnerin, mit von der Partie ist oder ob an größere
Gruppen gedacht ist, die Aktion eine solche aus eigenen Stücken oder durch externe
Zwänge bestimmt ist, sich auf soziale, sportliche, ökonomische oder ökologische Ziele
richtet, in die berufliche Tätigkeit oder die Freizeit fällt usw.). Den höchsten Komplexitätsgrad erreichen schließlich Beurteilungen, die unmittelbar eine Einstufung auf der
entsprechenden Eigenschaftsdimension erfordern (z. B. »Im großen und ganzen bin ich
ein ehrlicher Mensch«). Hier müssen aus dem Gedächtnisspeicher ganze Serien von
situativen und temporären Verhaltensstichproben abgerufen und ein integraler Wert
gebildet werden, der nicht nur die Häufigkeit und Schwere ggf. unaufrichtigen Verhaltens beinhaltet, sondern auch noch Inferenzen über die durchschnittliche Ehrlichkeit
anderer. Die Stärke eigener Merkmalsausprägungen erfährt nämlich in Ermangelung
von absoluten Anhaltspunkten eine Relativierung durch die bei den Mitmenschen
wahrgenommene (oder nur vermutete) Eigenschaftsausprägung (zu den Prozessen bei
der Abgabe von Eigenschaftsurteilen s. Amelang, 1994).
Die Standardisierung von Fragebogen durch die Invarianz der einmal gewählten Itemformulierung und das weitestgehende Ausblenden von Interaktionen mit
dem Testleiter gewährleisten eine fast vollständige Objektivität. Doch es bleibt den
Probanden selbst überlassen, an welche Ereignisse und Zustände sie im einzelnen bei
der Konfrontation mit dem sprachlichen Stimulus des jeweiligen Items denken und wie
sie dies intern kategorisieren oder »verrechnen«. Unter dieser Perspektive handelt es
sich bei Fragebogen gewiss um »subjektive« Verfahren (s. a. Mittenecker, 1971, S. 461),
die aber wegen ihrer psychometrischen Objektivität eine Sonderstellung innehaben.
Diese Subjektivität stellt vermutlich einen der Gründe dafür dar, dass Persönlichkeitsfragebogen in der Validität meist hinter den einhellig als »objektiv« angesehenen
Leistungstests zurückbleiben. Weitere Unterscheidungsmerkmale zwischen Tests aus
dem Persönlichkeits- und Fähigkeitsbereich haben Fiske und Butler (1963) herausgestellt (. Tab. 3.11).
Kapitel 3 · Diagnostische Verfahren
Komplexe Urteilsprozesse nötig
242
Gewöhnlich eindeutig.
Richtig und Falsch im logisch eindeutigen Sinn.
Die Probanden wissen, was von
ihnen erwartet wird.
Gewöhnlich hoch.
Der Untersuchungsleiter verlangt
maximale Leistung der Probanden.
Aufgaben
Antworten
Einstellung
Motivation der
Probanden
Ziele
Der Untersuchungsleiter ist gewöhnlich interessiert am modalen oder
typischen Verhalten der Probanden.
Große Unterschiede, je nach Untersuchungsbereich, Probanden, Situation
und dergleichen.
Die Probanden kennen häufig nicht
die Erwartungen des Untersuchungsleiters
Kein Richtig oder Falsch im logisch
eindeutigen Sinn; nur subjektive Stimmigkeit.
Zwischen mehr- und eindeutig.
Die Probanden werden gebeten, aufrichtig zu sein.
Persönlichkeitsbereich
Mit einem Persönlichkeitsfragebogen wird zunächst einmal erfasst, wie jemand sich
selbst sieht oder beurteilt. Es stellt sich die Frage, was diese standardisierte Selbstbeschreibung mit der »Wirklichkeit« zu tun hat. Vor allem aber ist wiederholt beklagt
worden, dass die Validität nur selten die Barriere von rtc = .30 übersteige, die Mischel
(1968) als typisch für »personality coefficients« bezeichnet hat. Dieser Wert sei zwar
signifikant bei ausreichend großen Stichproben, aber unbrauchbar für die individuelle
Prognose bei Problemen von praktischem Belang. Die Frage nach der Kriteriumsvalidität von Persönlichkeitsfragebogen führt zu dem Kriterium Berufserfolg. Jedenfalls
liegen dazu so viele Untersuchungen vor, dass inzwischen zahlreiche Metaanalysen
über diese Studien durchgeführt wurden. Barrick, Mount und Judge (2001) haben
diese Metaanalysen wiederum ausgewertet. Die Ergebnisse sind in . Tab. 3.12 aufgeführt. Die angegebenen korrigierten Korrelationen stellen Hochrechnungen dar, wobei
Validität
Hand in Hand mit diesen konzeptuellen Unterschieden geht eine gewisse Defizienz der
Persönlichkeitsfragebogen im Vergleich zu den Leistungstests: Die internen Konsistenzen liegen oftmals nur zwischen .60 und .80 (was freilich durch Hinzufügen homogener
Items oder Einengen des Konstruktbereiches leicht behoben werden kann), die Stabilitäten erreichen oft nur Werte zwischen .50 und .70. Schuerger, Zarrella und Hotz (1989)
ermittelten in einer Metaanalyse über 89 unabhängige Stichproben für Neurotizismusskalen eine mittlere Stabilität von .70 nach einem Jahr und von .57 nach 1–5 Jahren. Für
Extraversion fallen die Stabilitätskoeffizienten mit .80 bzw. .63 höher aus. Nach Janke
(1973, S. 44 ff.) bleibt es unbekannt, ob diese Stabilitätskoeffizienten für konstantes
Urteilsverhalten, für Gedächtniseffekte oder tatsächliche Konstanz der erfassten Merkmale stehen.
Reliabilität
Den Probanden wird aufgetragen,
ihr Bestes zu geben.
Instruktionen
Fähigkeitsbereich
. Tabelle 3.11. Unterschiede zwischen Fähigkeits- und Persönlichkeitstests. (Aus Amelang &
Bartussek, 1990, S. 540)
3.2 · Persönlichkeitsfragebogen
Metaanalysen mit
Berufserfolg als
Kriterium
»Barriere« bei r = .30
Problematik der
Validierung an
verwandten Skalen
Integritätstests haben
höhere Validitäten
38.817
39.432
36.210
48.100
23.225
N
224
222
206
239
143
K
.12
.12
.10
.23
.05
rkorr.
rkorr.max.
.20
.23
.27
.26
.24
Teamarbeit
Ausbildungserfolg
Ausbildungserfolg
Vorgesetztenurteil
Ausbildungserfolg
Kriterium
eine messfehlerfreie Abbildung des Kriteriums Berufserfolg angenommen wird. Barrick et al. (2001) haben die Untersuchungen zusätzlich nach verschiedenen Kriterien
für Berufserfolg unterteilt (Vorgesetztenbeurteilung, objektive Leistungsmaße, Ausbildungserfolg und Teamarbeit). Die höchsten Korrelationen sind in der Tabelle rechts
aufgeführt. Mit Hilfe der großen fünf Persönlichkeitsmerkmale, gemessen mit Fragebogen, kann man offensichtlich Berufserfolg nur zu einem sehr kleinen Teil erklären.
Zumindest Gewissenhaftigkeit und Extraversion haben einen Bezug zum Arbeitsverhalten, Extraversion über die Aktivitätskomponente. Die große Zahl der Untersuchungen spiegelt vermutlich auch die Erwartung wider, einen Zusammenhang zwischen
Persönlichkeit und Berufserfolg zu finden. Die Resultate sind sehr ernüchternd und
bestätigen die Existenz der magischen Grenze von .30 für einen wichtigen Anwendungsbereich.
Gegen diese Studien lässt sich einwenden, dass globale Persönlichkeitsskalen zu
»grobe« Prädiktoren für Berufserfolg sind. Möglicherweise führt die Aufspaltung der
großen Dimensionen in Einzelfacetten zu valideren Prädiktoren. Immerhin sind die
Validitätsbefunde zu »Integrität« sehr ermutigend. Zwischen Integritätstests und Ausbildungs- und Berufserfolg bestehen (korrigierte) Korrelationen von .38 bzw. .41
(Schmidt & Hunter, 1998).
Zur Ermittlung der Konstruktvalidität werden die Skalen eines Persönlichkeitsfragebogens oft mit den Skalen anderer Inventare korreliert. Wenn dann eine Neurotizismusskala hoch mit einer anderen korreliert, wird das als Beleg für die Konstruktvalidität der Skala gewertet. Dieses Vorgehen kann problematisch sein, wenn die Items der
Skala lediglich nach dem Prinzip zusammengetragen wurden, »was sich bewährt hat,
wird schon gut sein«. Testautoren benutzen andere Fragebogen manchmal als »Steinbruch«, aus dem sie geeignete Items übernehmen und eventuell noch leicht modifizieren. Auch wenn sie einige eigene Items erfinden und hinzufügen, wird die Ähnlichkeit
zu den übernommenen groß sein, weil unähnliche Items nach einer Itemanalyse eliminiert werden. Dieses Vorgehen führt dazu, dass nicht wirklich neue Skalen entstehen.
Die Korrelation mit anderen Skalen zeigt, was man ohnehin schon weiß, nämlich dass
die Skalen einander ähnlich sind. In der unten angeführten Übersicht wird diese Problematik anhand eines fiktiven Beispiels (»Der Steinbruch-Test zur Aggressivität«)
veranschaulicht. Die Items stammen aus unterschiedlichen Fragebogen – und passen
dennoch inhaltlich gut zusammen.
Anmerkung. Zusammengefasste Ergebnisse aus mehreren Metaanalysen, gemittelt über alle
Kriterien (Barrick et al., 2001). N = Anzahl der Probanden, K = Anzahl unabhängiger Untersuchungen (keine Überlappung), rkorr. = geschätzte wahre Korrelation auf Skalenebene,
rkorr.max. = höchste Korrelation mit einem spezifischen Kriterium.
Emotionale Stabilität
Extraversion
Verträglichkeit
Gewissenhaftigkeit
Offenheit
Skala
. Tabelle 3.12. Persönlichkeitsskalen und Berufserfolg
Kapitel 3 · Diagnostische Verfahren
Stabilität von
Neurotizismus und
Extraversion
3
244
Korrelationen unter
r = .30
3
Reliabilität niedriger
als bei Leistungstests
243
nein
ja
6
Wichtige Entscheidungen des alltäglichen oder beruflichen Lebens basieren auf der
Einschätzung von Persönlichkeitsmerkmalen bei uns selbst oder anderen: Ob wir
uns bestimmte Leistungen zutrauen oder eine Tätigkeit unseren Neigungen entspricht, mit welchen Personen wir gern zusammen sind, bei wem wir Rat suchen
und wem wir vertrauen, wer als neuer Mitarbeiter ausgewählt wird und wen wir für
eine berufliche Position als geeignet erachten – all diese Fragen und viele andere
mehr beinhalten Urteile über die Ausprägung von Persönlichkeitsmerkmalen bei
der eigenen Person, bei Bekannten oder Fremden. Sinnvoll ist ein Bezug auf die besagten Einschätzungen und die darauf aufbauenden Entscheidungen allerdings nur
dann, wenn diese wenigstens ein Mindestmaß an Gültigkeit aufweisen, also valide
sind. Von daher kommt dem Problem der Validität von Persönlichkeitseinschätzungen eine überragende Bedeutung zu.
Selbstberichte über Emotionen und Ziele, Verhaltensweisen und Eigenschaften
bilden fraglos einen sehr differenzierten und gleichsam besonders intimen diagnostischen Zugang zur Persönlichkeit: Nur die eigene Person ist in den unterschiedlichen Abschnitten und vielfältigen Situationen des Lebens die Konstante, während
mit den unterschiedlichen Kontextbedingungen (z. B. Familie, Beruf, Freizeit usw.)
die Personen unseres sozialen Umfeldes jeweils andere sein mögen. Von daher dürften die Informationen, die einem über die eigene Person zur Verfügung stehen, be-
Zur diagnostischen Brauchbarkeit von Selbst- und Fremdeinschätzungen
Exkurs
Angemessene Kriterien zur Konstruktvalidierung sind Fremdeinschätzungen von
Bekannten, Verwandten oder Freunden auf »homologen«, also dem Testkonstrukt
verwandten Dimensionen. Diese Informationen weisen dazu einen »Status« auf
(7 Abschn. 2.3.1.3), der sie als echtes Kriterium qualifiziert. Wird darüber hinaus – und
das betrifft die konstruktorisch-technische Seite – Sorge dafür getragen, dass auf die
psychometrischen Güteeigenschaften dieser Kriterien ebensoviel Sorgfalt verwendet
wird wie für den Test (dazu Wittman & Schmidt, 1983), so sind Validitäten erzielbar,
die durchaus an diejenigen von Leistungstests heranreichen (was im Einzelnen zu belegen sein wird).
Anmerkung. Je zwei Items aus folgenden Skalen: Aggressivität der PRF Form KA,
Durchsetzungsstärke des BIP, Aggressivität des FPI-R.
1. Ich werde leichter ärgerlich als die meisten anderen Leute
2. Ich streite mich oft mit anderen Leuten
3. Es macht mir wenig aus, mich bei anderen unbeliebt zu machen,
um etwas Neues durchzusetzen
4. Ich lasse mir nichts gefallen
5. Wenn jemand meinem Freund etwas Böses tut, bin ich dabei,
wenn es heimgezahlt wird
6. Wenn mich jemand anschreit, schreie ich zurück
Der Steinbruch-Test zur Aggressivität
3.2 · Persönlichkeitsfragebogen
3
Konstanz der Persönlichkeit
Urteile über die Persönlichkeit in Beruf
und Alltag wichtig
Fremdbeurteilungen
als bevorzugte Kriterien
245
3
Übereinstimmung
bedeutet nicht Richtigkeit der Urteile
Übereinstimmung
zwischen Selbst- und
Fremdurteilen variiert
Selbstberichte sind anfällig für Verfälschung
6
sonders zahlreich und repräsentativ sein; ihre Reliabilität und zeitliche Stabilität ist
zahlreichen Untersuchungen zufolge gewährleistet (z. B. Amelang & Borkenau,
1982).
Demgegenüber können unsere Partner, Verwandten und Bekannten nur einen
mehr oder weniger großen Ausschnitt unseres Erlebnis- oder Verhaltensrepertoires
kennen lernen und dann einschätzen. Diese nur partielle wechselseitige Überlappung von Verhaltensbereichen und den daraus bezogenen Informationen ist dafür
verantwortlich, dass Selbstberichte nicht vollständig mit den Einschätzungen von
Bekannten übereinstimmen können. Als Problem der Selbstberichte kommt hinzu,
dass sich in der Wahrnehmung der eigenen Person vielleicht Täuschungen niederschlagen oder die Angaben über die erlebten Begebenheiten, die ablaufenden Prozesse oder die Merkmalsausprägungen mehr oder weniger absichtlich verfälscht
werden. Wegen dieser inhaltlichen und methodischen Fehlerquellen vertreten
Autoren wie Hofstee (1994) die Auffassung, dass die beste Schätzung der Persönlichkeitsausprägung in den gemittelten Urteilen einer Gruppe von guten Bekannten
über eine Person besteht.
Derartigen Überlegungen folgend werden die gemittelten Einschätzungen von
Verwandten, Freunden und Bekannten oft als Kriterien zur Validierung der Selbstberichte herangezogen, wie die Darstellung verschiedener diagnostischer Verfahren
im nächsten Abschnitt zeigen wird. Als wichtiger Hinweis auf die Angemessenheit
oder Akkuratheit der Fremdeinschätzungen gilt dabei gewöhnlich die Übereinstimmung zwischen den Urteilen der Einschätzer (= »Konsens« im Sinne von Funder &
West, 1993). Beispielsweise ermittelte Becker (2003) bei der Validierung des TIPI
(7 Abschn. 3.2.3) Koeffizienten für die Interrater-Reliabilität zwischen r = .31 und .78,
und die Übereinstimmung zwischen den Selbst- und Bekannteneinschätzungen
(= Validität) war eine direkte Funktion dieser Beurteiler-Übereinstimmung. Auch in
anderen Untersuchungen kovariierten Konsens und Selbst-Andere-Übereinstimmungen; mehr oder weniger sind es dieselben Eigenschaftsbereiche, für die sich die
höchsten Übereinstimmungen für Konsens und auch den Vergleich Selbst-Andere
fanden (Funder & Colvin, 1988; Funder & Dobroth, 1987).
Für sich genommen liefern Konsens oder die Beurteiler-Übereinstimmung freilich noch keinen zwingenden Beweis für die Richtigkeit der Urteile, da sich die Beurteiler etwa in gleicher Weise von Stereotypien leiten lassen oder anderweitigen Beobachtungs- und Urteilsfehlern unterliegen mögen. Verschiedene Zusatzbefunde im
Zusammenhang mit der Beurteilerübereinstimmung vermitteln jedoch eine Reihe
von Evidenzen, die das Vertrauen in die Verlässlichkeit von Fremdeinschätzungen als
Kriteriumsvariable rechtfertigen: So ist vielfach festgestellt worden, dass die Beurteilerübereinstimmung eine Funktion der Dauer der Bekanntschaft ist (z. B. Norman &
Goldberg, 1966; Paunonen, 1989). Dieser in Erhebungen ermittelte Befund konnte
von Spinath (1999) als lineare Funktion auch in experimentellen Analysen gesichert
werden. Darüber hinaus hängt die Beurteiler-Übereinstimmung auch von der Beobachtbarkeit der einzuschätzenden Merkmale ab (Kenrick & Stringfield, 1980); diese
ist für Komponenten des sozialen Verhaltens und der Extraversion größer als für solche der emotionalen Stabilität (Funder & Dobroth, 1987). Ferner sprechen einige
Hinweise dafür, dass die Beurteiler-Übereinstimmung vom Ausmaß der selbsteingeschätzten transsituativen Stabilität im Sinne von Bem und Allen (1974) abhängt; in
Kapitel 3 · Diagnostische Verfahren
Fremdbeurteilungen
können nur einen
Teil der Persönlichkeit
erfassen
246
Unter dem Begriff Antwortstil versteht man die Tendenz, Items aus einem Fragebogen
nicht (nur) nach dem Wahrheits-, sondern nach einem anderen Prinzip zu beantworten, das nicht der Intention der Testautoren entspricht.
Unsystematische Beantwortung von Fragen kann aus unterschiedlichen Gründen
vorkommen. Beispielsweise will ein Proband durch wahlloses Ankreuzen verhindern,
dass er etwas über sich selbst preisgibt. Oder er versteht die Fragen nicht richtig und
versucht, durch Raten die »richtige« Antwort zu finden. Deshalb ist es wichtig, ein
solches Verhalten zu erkennen. Jedes Item hat eine bestimmte Schwierigkeit, und extrem »schwere« Items werden per Definition nur von wenigen Probanden angekreuzt.
Bei einem wahllosen Ankreuzen sollten also auch ungewöhnlich viele seltene Antworten gegeben werden (Ankreuzen von »schweren« Items). Bei einigen Fragebogen, beispielsweise dem MMPI-2 oder dem 16-PF-R gibt es eine Skala für seltene Antworten.
Hohe Skalenwerte sind nicht zwingend Ausdruck von unsystematischem Antworten.
Sie können auch auf andere Ursachen hinweisen, etwa das Vortäuschen einer Störung
oder das Vorliegen bestimmter psychischer Störungen, insbesondere Schizophrenie.
Ein anderer Antwortstil, der in der Vergangenheit umfangreiche Forschung angeregt hatte, ist die Ja-Sage-Tendenz (Akquieszenz). Hinter der Tendenz, im Zweifelsfall
zuzustimmen, wurde ein stabiles Persönlichkeitsmerkmal vermutet (s. Messick, 1991).
Am Besten wird bereits bei der Fragebogenkonstruktion Vorbeuge getroffen, dass die
Ergebnisse nicht durch eine Ja-Sage-Tendenz verzerrt werden. Ein Teil der Items sollte
so formuliert sein, dass eine Ablehnung als Indikator für das Merkmal zählt (also statt
»ich gehe gerne aus« etwa »ich bleibe am liebsten zu Hause«). Allerdings verändert sich
bei einer nachträglichen Invertierung leicht die Bedeutung einer Aussage und die Items
fallen nach einer Itemanalyse heraus.
Antwortstile
einer Erhebung an N = 173 Probanden am Heidelberger Institut betrug die Beurteiler-Übereinstimmung zwischen je drei Bekannten .61 für jene Zielpersonen, die sich
als relativ transsituativ stabil bezeichnet hatten, im Unterschied zu .50 (Differenz signifikant) bei den transsituativ eher variablen Personen (Amelang, 1988). Gleichsinnige Beobachtungen stammen von Malloy, Agatstein, Yarlas und Albright (1997). All
diese Befunde sprechen dafür, dass es sinnvoll ist, sich bei der Validierung von
Selbstberichten am Kriterium von gemittelten Fremdeinschätzungen zu orientieren.
Allerdings ist, wie Colvin und Funder (1991) dargelegt haben, die Beziehung zwischen einerseits Übereinstimmungsmaßen im Sinne von Konsens oder Selbst-Anderen-Vergleichen und andererseits der Akkuratheit unidirektional, d. h. die Übereinstimmungen stellen nur eine notwendige, nicht aber eine hinreichende Bedingung
für Akkuratheit dar. Um diese Akkuratheit von Selbsturteilen (und auch diejenige
von Bekannten-Einschätzungen!) letztlich zweifelsfrei bestimmen zu können, bedarf
es »real existierender Merkmale der eingeschätzten Person« (Funder & West, 1993),
also Variablen, die den wahren Ausprägungsgrad des einzuschätzenden Merkmals
widerspiegeln. Diese liegen kaum jemals vor; auch die Heranziehung von Verhaltensmaßen (z. B. Funder, Block & Block, 1983) stellt keinen befriedigenden Ersatz dar.
Insofern ist der Rückgriff auf gemittelte Fremdeinschätzungen nur eine Approximation der eigentlich angestrebten Informationen, doch ist diese Näherung auf der
Basis der oben dargelegten Anhaltspunkte – die sich zu einem sinnvollen Netzwerk
fügen – empirisch gerechtfertigt.
3.2 · Persönlichkeitsfragebogen
Vorbeugen durch
invertierte Items
Wahlloses Ankreuzen
erkennbar
Reale Merkmale der
Person als Kriterien
kaum verfügbar
Gemittelte Fremdeinschätzungen als
geeignetes Kriterium
247
3
3
Gegenmaßnahmen:
geeignete Instruktionen und forced choice
Antwortformat
Zwei Komponenten
der sozialen
Erwünschtheit
Problem: Veränderung
der Konstruktvalidität
Die Items der meisten Persönlichkeitsfragebogen sind durchschaubar in dem Sinne,
dass ein durchschnittlich intelligenter Mensch erkennen kann, ob eine zustimmende
oder ablehnende Antwort für ihn vorteilhaft ist. Damit besteht bei vielen Untersuchungsanlässen die Gefahr, dass der Proband absichtlich versucht, einen schlechten
oder einen guten Eindruck zu erwecken. Eine Übertreibung von Symptomen kann im
Interesse eines Klienten liegen, der sich eine Therapie wünscht und zuvor im Auftrag
der Krankenkasse begutachtet wird. Eine typische Situation, die zu einer positiven
Selbstdarstellung verführt, ist eine eignungsdiagnostische Untersuchung im Rahmen
der Personalauswahl. Aber auch beim Einsatz eines Fragebogens zu Beratungszwecken
kann es zu einer beschönigenden Selbstdarstellung kommen. Probanden können einen
Persönlichkeitsfragebogen komplett sozial erwünscht beantworten. Dadurch ändert
sich die Konstruktvalidität; Skalen, die normalerweise kaum Gemeinsamkeiten aufweisen, korrelieren nun moderat bis hoch miteinander (Pauls & Crost, 2005). Sie können
aber auch gezielt auf spezifische Anforderungen reagieren und ihr Persönlichkeitsprofil so darstellen, dass sie z. B. als Krankenschwester oder als Manager geeignet erscheinen (Pauls & Crost, 2005).
Paulhus (1984) hat zwei Komponenten von sozial erwünschtem Antworten unterschieden, nämlich: vor anderen einen guten Eindruck machen (impression management) und vor sich selbst gut dastehen wollen (self-deception). Verständlicherweise
gestehen sich viele Menschen ihre Schwächen nicht gerne ein. Es stellt sich die Frage,
wie man beim Einsatz von Persönlichkeitsfragebogen am besten mit dem Problem der
Verfälschbarkeit umgeht. Drei Lösungswege sind vorgeschlagen worden: Verhindern,
kontrollieren oder ignorieren.
Zur Verhinderung einer sozial erwünschten Selbstdarstellung stehen zwei praktikable Maßnahmen zur Verfügung. In der Instruktion wird darauf hingewiesen, dass
man ehrlich antworten möge. Es gebe keine richtigen und falschen Antworten, sondern
jeder solle sich so beschreiben, wie er wirklich ist. Auch der Hinweis, unehrliche Antworten würden erkannt, kann hilfreich sein. Selbstverständlich sind solche Anweisungen nur zulässig, wenn sie zur Standardinstruktion gehören. Ansonsten würde die
Durchführungsobjektivität verletzt. Die zweite Alternative ist ein forced choice Antwortformat. Die Probanden wählen nicht zwischen ja und nein oder geben den Grad
ihre Zustimmung an, sondern entscheiden sich zwischen ähnlich sozial erwünschten
Antwortalternativen. Martin, Bowen und Hunt (2002) haben den Ocupational Personality Questionnaire OPQ in einer forced choice und Rating-Version eingesetzt.
Versuchspersonen bearbeiteten die beiden Fragebogen unter einer Standard- (ehrlich)
oder einer faking good Bedingung (versuchen, einen guten Eindruck zu machen). Für
die Auswertung berechneten die Autoren, wie weit die Antworten von »Idealantworten« für den Job abwichen, die sie zusätzlich erhoben hatten. Bei Verwendung des
Rating-Formats lagen die Antworten der Versuchspersonen unter der faking good
Verfälschung
Der Begriff »Antwortstil« wurde hier auf formale Merkmale des Antwortverhaltens
begrenzt. In der älteren englischsprachigen Fachliteratur spielte die Differenzierung
von response sets und response styles lange Zeit eine Rolle, wobei die Begriffe nicht
immer einheitlich verwendet wurden (vgl. Messick, 1991). Hier wurde der Begriff Stil
verwendet, um ein formal, unabhängig vom Iteminhalt, definiertes Antwortverhalten
zu bezeichnen. Das im nächsten Abschnitt behandelte Antwortverhalten wird in der
Literatur meist auch unter dem Begriff response style behandelt. Es setzt aber immer
eine Auseinandersetzung mit dem Iteminhalt voraus.
Kapitel 3 · Diagnostische Verfahren
Vorteile durch positivere und negativere
Selbstdarstellung
248
Bedingung deutlich dichter an den Idealantworten als unter der Standardbedingung.
Beim forced choice Format trat dagegen kein signifikanter Unterschied zwischen diesen beiden Versuchsbedingungen auf. Durch das forced choice Format konnte also
eine Verfälschung erfolgreich verhindert werden. Wenig Erfolg versprechend ist eine
Begrenzung der Antwortzeit. Eine Verkürzung der zur Verfügung stehenden Antwortzeiten bei computergestützter Testdurchführung erwies sich als ineffektiv zur Verhinderung von Verfälschung. Vor allem trat ein äußerst unerwünschter Nebeneffekt auf.
Die Validität der Skalen (Korrelation mit Beurteilung durch Bekannte) verringerte sich
in der Standardbedingung (ehrlich antworten) zum Teil erheblich (Holden, Wood &
Tomashewski, 2001). Schon die implizite Annahme, dass Verfälschung längeres Nachdenken erfordert als ehrliches Antworten, ist problematisch. Mehrere Untersuchungen
galten den Antwortzeiten auf Items unter einer Verfälschungsbedingung im Vergleich
zu einer Standardbedingung. Die Befunde sind widersprüchlich; sowohl kürzere als
auch längere Antwortzeiten wurden beobachtet (s. Holden et al., 2001).
Zur Kontrolle von verfälschenden Angaben stehen eine Reihe von Kontrollskalen
zur Verfügung, die in unterschiedlichem Maße Selbsttäuschung und impression management erfassen (Paulhus, 1991). Gibt man solche Skalen mit der Anweisung vor,
beim Ausfüllen einen guten Eindruck zu machen (faking good), fallen die Testwerte
deutlich höher aus als unter einer Standardbedingung. Pauls und Crost (2004) fanden
für eine bekannte impression managment Skala einen Anstieg der Testwerte, der
26 Standardwert-Punkten entspricht. Dies ist ein deutlicher Validitätsbeleg für diese
Skala. Allerdings stiegen auch bei einer Skala zur Selbsttäuschung die Werte um umgerechnet 20 Standardwert-Punkte an. Dies spricht dafür, dass diese Skala nicht nur
Selbsttäuschung, sondern auch impression managment erfasst. Eine sehr bekannte
Kontrollskala ist die Marlowe-Crowne Skala zur sozialen Erwünschtheit, die auch als
deutsche Version verfügbar ist (Lück & Timaeus, 1969). Die 23 Items (Beispiel: »Ich bin
immer höflich, auch zu unangenehmen Leuten«) sind durch Ankreuzen mit »richtig«
oder »falsch« zu beantworten. Einige Fragebogen (z. B. MMPI-2 und FPI-R) enthalten
Kontrollskalen, die der Marlowe-Crowne Skala ähnlich sind. Ein erhöhter Wert auf
einer Kontrollskala kann als Warnhinweis verstanden werden; wer hier hohe Werte
aufweist, hat möglicherweise den ganzen Fragebogen nicht ehrlich ausgefüllt. Dabei ist
zu beachten, dass es auch andere Gründe für erhöhte Werte auf einer Erwünschtheitsskala geben kann. Menschen, die sich stark an moralischen Standards orientieren, verhalten sich vielleicht wirklich so, wie sie es im Fragebogen angeben. Sie nutzen keine
Gelegenheit aus, um umsonst mit der Straßenbahn zu fahren, halten sich streng an
Verabredungen, fluchen nicht etc. Bei ihnen versagt das Messprinzip der Erwünschtheitsskalen. Sie werden zu Unrecht als Lügner oder Uneinsichtige verdächtigt. Deshalb
sollten erhöhte Werte auf einer solchen Skala als Warnhinweis und nicht als Beweis
verstanden werden.
Der Vorschlag, das Problem der Verfälschbarkeit von Persönlichkeitsfragebogen zu
ignorieren, basiert auf empirischen Befunden zur Kriteriumsvalidität von Skalen zur
Sozialen Erwünschtheit, die in der Tat verblüffend sind. Ones, Viswesvaran und Reiss
(1996) haben in einer Metaanalyse folgende Fakten zusammengetragen: Erstens korreliert soziale Erwünschtheit mit emotionaler Stabilität und mit Gewissenhaftigkeit minderungskorrigiert zu .37 und .20. Auch wenn die beiden Persönlichkeitsmerkmale
durch Bekannte beurteilt werden, korrelieren sie mit sozialer Erwünschtheit (rkorr. = .18
und .13). Zweitens korreliert soziale Erwünschtheit positiv mit Ausbildungserfolg
(rkorr.=.22). Das heißt, je sozial erwünschter sich jemand im Fragebogen darstellt, desto
erfolgreicher wird er seine Ausbildung abschließen. Drittens ändert sich die Korrelation
3.2 · Persönlichkeitsfragebogen
3
Kriteriumsvalidität
kann trotz Verfälschungen gegeben
sein
Gefahr der Fehlinterpretation
Kontrollskalen für
sozial erwünschtes
Antworten
Verlängerte Antwortzeiten als Indikator für
Verfälschung?
249
3
Beispiele
Aus der großen Zahl verfügbarer Testbatterien werden hier exemplarisch nur bestimmte Inventare herausgegriffen. Bei dem Minnesota Multiphasic Personality Inventory
MMPI handelt es sich um das weltweit gebräuchlichste überhaupt. So erscheinen pro
Jahr allein ca. 1000 Forschungsuntersuchungen, die sich mit Einsatzmöglichkeiten und
Erfahrungen beschäftigen, und zwar insbesondere an klinisch auffälligen Gruppen. Das
MMPI ist zudem der einzige Persönlichkeitstest von Rang, der nach externalen Prinzipien konzipiert wurde. Das zweite Verfahren, das Freiburger Persönlichkeitsinventar
FPI, stellt das im deutschen Sprachraum am häufigsten verwendete Verfahren dar. Das
dritte, der 16-Persönlichkeits-Faktoren-Test 16 PF, basiert auf einer umfassenderen Persönlichkeitstheorie. Das gilt auch für die Deutsche Personality Research Form D-PRF,
die darüber hinaus einen anderen Gültigkeitsbereich aufweist und mit einer Reihe von
ambitionierten Besonderheiten bei der Konstruktion aufwartet. In einem weiteren, dem
Neo-Fünf-Faktoren-Inventar NEO-FFI, konvergieren – stärker als in den zuvor genannten Testsystemen – mehrere aktuelle internationale Forschungsaktivitäten. Das NEOPersönlichkeitsinventar nach Costa und McCrae, revidierte Fassung (NEOPI-R), steht in der Tradition des NEO-FFI und wird dieses vermutlich in weiten Berei-
3.2.3 Persönlichkeitstestsysteme
Persönlichkeitsfragebogen erfassen nicht irgendwelche »wirklichen« Persönlichkeitseigenschaften, sondern die von einer Person bevorzugte Wahrnehmung und
Darstellung ihrer selbst: Fragebogen als »eigentlich besterprobte subjektive Messmittel der Persönlichkeit aus der Sicht des Individuums selbst« (Mummendey, 1987,
S. 20). Deshalb sind Persönlichkeitstestwerte vor dem Hintergrund der Messmethode zu interpretieren, und Verzerrungen bei der Selbstbeobachtung und -beurteilung, der Beantwortung der Items und der absichtsvollen Selbstdarstellung sollten
in Erwägung gezogen werden. Die überwiegend niedrigen Kriteriumsvaliditäten
zeigen die Grenzen der Fragebogenmethode auf.
Fazit
zwischen den großen fünf Persönlichkeitsmerkmalen und Berufserfolg (Vorgesetztenbeurteilung) nicht, wenn man die soziale Erwünschtheit auspartialisiert. Der beste
Prädiktor ist die Gewissenhaftigkeit (rkorr. = .23); nach Auspartialisierung der sozialen
Erwünschtheit bleibt der Zusammenhang exakt gleich (rkorr. = .23). Diese Befunde können dahingehend interpretiert werden, dass Skalen zur sozialen Erwünschtheit Aspekte der Persönlichkeit miterfassen, die für den beruflichen Erfolg nützlich sind (emotionale Stabilität und Gewissenhaftigkeit). Nimmt man die soziale Erwünschtheit durch
Auspartialisierung aus der Vorhersage heraus, um die wahren Ausprägungen der Persönlichkeitsmerkmale als Prädiktor zu verwenden, entfernt man zugleich nützliche
Varianzanteile. Dennoch bleibt ein tiefes Unbehagen, wenn Bewerber einen Persönlichkeitsfragebogen bearbeiten und der Diagnostiker im Einzelfall nicht wissen kann, ob
beispielsweise der hohe Gewissenhaftigkeitswert Ausdruck einer hohen Gewissenhaftigkeit ist oder einer geschickten Selbstdarstellung. Handelt es sich um einen unzuverlässigen, unordentlichen Bewerber, der erkannt hat, dass es auf Gewissenhaftigkeit
ankommt und sich entsprechend darstellt? Oder hat der Bewerber, ohne zu übertreiben,
einen hohen Wert für Gewissenhaftigkeit erreicht? Für eine vertiefende Diskussion
dieses Themas sei auf Markus (2003) und Kanning (2003) verwiesen.
Kapitel 3 · Diagnostische Verfahren
Bedeutung positiver
Selbstbeschreibungen
unklar
250
ner Liste von 1000 Items, die sich auf allgemeine Gesundheit, familiäre und eheliche
Beziehungen, sexuelle und religiöse Einstellungen sowie emotionale Zustände bezogen
und letztlich psychopathologische Symptome erfassen sollten. Später kamen Items zu
Geschlechtsrollencharakteristika und abwehrender Selbstdarstellung dazu. Gruppen
von klinisch auffälligen Personen, die von Psychiatern als Schizophrene, Hysteriker,
Hypochonder usw. diagnostiziert worden waren, bearbeiteten die Items ebenso wie
»unauffällig-normale« Kontrollpersonen (Einwohner von Minnesota, Bewerber um
einen Studienplatz, Besucher des Krankenhauses). Jene 566 Items wurden schließlich
in Skalen zusammengestellt, die die Patienten von den Kontrollpersonen signifikant
diskriminierten. Von daher eignet sich das Verfahren vorrangig zur Entscheidungsfindung über die Zuordnung von Probanden zu entweder psychiatrischen Kategorien oder
zur unauffälligen »Normal«-Population.
Weil zahlreiche Fragen zugleich mehrere der Patientengruppen von den »Normalen« unterschieden, sind diese dementsprechend Bestandteil auch mehrerer Skalen.
Das heißt die einmalige Antwort zu einem Item, wie »Ich schlafe unruhig und werde
oft wach« (Ja/Nein) wird mehrfach verrechnet (in diesem Fall unter den Skalen Hypochondrie, Depression und Hysterie; zu den Skalen 7 unten). Ein solcher Item-Overlap
treibt die Interkorrelationen zwischen den Skalen in die Höhe. Damit aber werden gerade die Voraussetzungen für jene Ziele gemindert, die mit dem MMPI besonders
häufig verfolgt werden, nämlich ein individuelles Testprofil mit demjenigen psychopathologisch auffälliger Personen zu vergleichen, weil Profilinterpretationen an hohe
Reliabilitäten und niedrige Interkorrelationen gebunden sind. Bei der Revision zum
MMPI-2 erfolgten Änderungen an den Items. Einige »alte« Items (z. B. zu sexuellen
Gewohnheiten, religiösen Einstellungen) waren unangemessen, andere nicht mehr
zeitgemäß (bestimmte Freizeitbeschäftigungen nicht mehr aktuell). Einige Items mussten sprachlich revidiert werden (z. B. waren Redewendung nicht mehr gebräuchlich).
Die Forschungsversion enthielt zusätzlich 154 neue Items, die auch neue Inhaltsbereiche wie Essstörungen, Arbeitsstörungen und den familiären Bereich abdecken. Bei der
Revision sollte sowohl die Kontinuität gewahrt bleiben, als auch eine Modernisierung
erreicht werden. Die 567 Items der revidierten Form setzen sich aus 459 »alten« und
108 neuen Items zusammen. Bei der deutschen Fassung des MMPI-2 handelt es sich
um eine Übersetzung des amerikanischen Originals, wobei sich die Autoren bei den
»alten« Items an die alte deutsche Testversion von Spreen (1963) hielten.
Konstruktionsansatz. Am Anfang aller Entwicklungsarbeiten stand die Anlegung ei-
Hathaway, S. R., McKinley, J. C., Engel, R. R. (2000). MMPI-2. Bern: Huber
Minnesota-Multiphasic-Personality-Inventory-MMPI-2
chen der diagnostischen Praxis einmal ablösen. Das Trierer Integrierte Persönlichkeitsinventar TIPI lehnt sich mit seinen Superfaktoren zu Neurotizismus und Extraversionen
an, schließt aber darüber hinaus auch die Erfassung mehrerer Facetten seelischer Gesundheit ein. Der Stressverarbeitungsfragebogen SVF schließlich konzentriert sich auf
spezifische Reaktionsweisen in genauer umrissenen Situationen und hebt damit z. T. auf
aktuelle Zustände ab, die im nächsten Abschnitt dann gesondert zur Sprache kommen.
Abgesehen vom MMPI und ungeachtet wesentlicher Besonderheiten im einzelnen
ist allen diesen Tests die induktiv-faktorenanalytische Skalenkonstruktion gemeinsam
sowie der Umstand, dass mit den jeweiligen Subskalen ein insgesamt sehr weites Spektrum von Erlebnis- und Verhaltensweisen im Bereich des Unauffällig-Normalen abgedeckt wird.
3.2 · Persönlichkeitsfragebogen
3
MMPI-2 mit vielen
neuen Items
»Item-Overlap«
Trennung zwischen
Patienten und
Gesunden
Erfassung psychopathologischer Symptome
Inventare meist für
den »Normalbereich«
entwickelt
251
3
Zahlreiche Interpretationshinweise zu den
Validitätsskalen
Auch Items mit
geringer Augenscheinvalidität
Die ausgewählten Items sind typisch für die zu messenden Merkmale. Bei anderen Items ist dagegen kaum nachzuvollziehen, warum sie das Merkmal indizieren. Beispielsweise spricht die Verneinung des Items »Ich lese gern Zeitungsartikel
über Gerichts- und Kriminalfälle« für Hysterie, und wer bei »Mein Sexualleben ist
zufrieden stellend« Falsch ankreuzt, bekommt dafür einen Punkt auf der Psychopathieskala.
Hohe Punktwerte in einer der Validitätsskalen, erst recht in mehreren oder allen
davon, gebieten, wie es in schöner Regelmäßigkeit in den Handanweisungen heißt,
Zurückhaltung oder Vorsicht bei der Interpretation der Inhaltsskalen, was immer auch
dies bedeuten mag. Im Manual zum MMPI-2 (Hathaway, McKinley & Engel, 2000)
finden sich zu den Validitätsskalen zahlreiche Interpretationshinweise (. Tab. 3.13 zur
Weiß nicht-Skala (Anzahl nicht oder ungültig beantworteter Items)
Lügenskala (15 Items)
»Manchmal möchte ich am liebsten fluchen« (Richtig)
Seltenheitsskala (60 Items)
»Ich leide unter Anfällen von Übelkeit und Erbrechen« (Richtig)
Korrekturskala (30 Items)
»Zuweilen möchte ich am liebsten etwas kaputtschlagen« (Richtig)
Hypochondrie (32 Items)
»Ich leide unter Anfällen von Übelkeit und Erbrechen« (Richtig)
Depression (57 Items)
»Ich habe einen guten Appetit« (Falsch)
Hysterie, Konversionsstörung (60)
»Ich habe häufig das Gefühl, als ob ich einen Kloß im Halse hätte« (Richtig)
Psychopathie, Soziopathie, antisoziale Persönlichkeitsstörung (50 Items)
»Manchmal habe ich sehr gewünscht, von zu Hause fortzugehen« (Richtig)
Maskulinität/Femininität (56 Items)
»Ich lese gern Liebesgeschichten« (Richtig=feminine Interessen)
Paranoia (40 Items)
»Niemand scheint mich zu verstehen« (Richtig)
Psychasthenie (48 Items)
»Ich habe sicherlich zu wenig Selbstvertrauen« (Richtig)
Schizophrenie (78 Items)
»Ich habe Angst, den Verstand zu verlieren« (Richtig)
Hypomanie (46 Items)
»Manchmal habe ich Lach- oder Weinanfälle, die ich nicht beherrschen kann«
(Richtig)
Si – Social Introversion
»Ich gehe gern zu Parties und anderen Gelegenheiten, bei denen es laut und
lustig zugeht« (Falsch)
–
–
–
F –
–
K –
–
Hd –
–
D –
–
Hy –
–
Pp –
–
Mf –
–
Pa –
–
Pt –
–
Sc –
–
Ma –
–
?
L
Skalen des MMPI-2 mit Beispielitems
Gliederung. Das MMPI wie auch die revidierte Form MMPI-2 umfasst vier Validitätsskalen (?, L, F, K) und 13 Basisskalen. Darüber hinaus können aus den Items zahlreiche
Zusatzskalen gebildet werden (z. B. Soziale Verantwortlichkeit, Posttraumatische Belastungsstörung, Suchtgefährdung).
Kapitel 3 · Diagnostische Verfahren
4 Validitätsskalen
252
Wahrscheinlich
ungültig
Gültigkeit fraglich
Wahrscheinlich
gültig
Gültig
Möglicherweise
Simulation
Sehr hoch
(über 79)
Hoch (70–79)
Erhöht (60–69)
Mittel (50–59)
Niedrig
(unter 50)
Zustimmungstendenz
Aufmerksamkeitserheischung
Typische, normale Einstellung gegenüber dem
Test
Abwehrende Untersuchungshaltung
Zufällige Beantwortung
Leugnen von Fehlern
Dissimulation
Mögliche Ursachen
Überbetonung von
Krankheitssymptomen
Selbstbewusst und unabhängig
Zynisch, sarkastisch
Keine Probleme mit dem
eigenen Selbstbild
Konventionell und konformistisch
Absolut tugendhaft
Verwirrtheit
Mangelnde Einsicht
Verdrängung
Widerstand gegen den
Test oder Naivität
Mögliche
Interpretation
Interpretation. Zuerst wird anhand der Validitätsskalen geprüft, ob das Protokoll gültig
ist. Die Basisskalen können einzeln interpretiert werden. Dazu stehen im Manual Interpretationshinweise nach dem in . Tabelle 3.13 gezeigten Schema zur Verfügung.
duellen Rohwerte werden direkt in ein Profilblatt für Frauen oder Männer eingetragen.
Darin sind die Rohwerte bei jeder Skala grafisch so angeordnet, dass praktisch eine
Transformation in T-Werte erfolgt. Bei einigen Skalen sind zuvor die Rohwerte um eine
bestimmte Punktzahl zu erhöhen. Bei dieser so genannten K-Korrektur wird der Rohwert einer Basisskala für mangelnde Offenheit des Probanden, die sich aus der K-Skala
ablesen lässt, nach oben korrigiert. Dazu wird der Punktwert der K-Skala mit dem
angegebenen Faktor, z. B. 0.4, multipliziert. Der resultierende Korrekturwert wird zum
Rohwert der Basisskala addiert. Die mühsame manuelle Auswertung lässt sich bei Nutzung des kostenpflichtigen Fax-Services umgehen. Das Antwortblatt wird an die angegebene Adresse gefaxt und nach wenigen Minuten kommt die komplette Auswertung
zurück. Als nicht wirklich attraktive Alternative bietet sich ein Auswertungsprogramm
an, bei dem die Items eingegeben werden müssen. Sehr komfortabel ist dagegen die
Computerversion des MMPI-2, bei der die Auswertung per Mausklick zu haben ist.
Auswertung. Die Rohwerte werden skalenweise mit Schablonen ermittelt. Die indivi-
den. Die Bearbeitung dauert gut 1 h, bei Patienten etwas länger. Der Proband kreuzt auf
einem separaten Auswertungsblatt für jedes Item Richtig oder Falsch an.
Durchführung. Das MMPI-2 kann in Einzel- und Gruppensituation durchgeführt wer-
L-Skala). Die Festlegung der jeweiligen Grenzwerte (z. B. 50–59, 60–69) erfolgte vermutlich nach dem Dafürhalten der Autoren.
Gültigkeit
des Profils
T-Wert-Niveau
. Tabelle 3.13. L-(Lügen-)Skala: Interpretation der Skalenwerte. (Aus Hathaway, 2000,
S. 24-26)
3.2 · Persönlichkeitsfragebogen
Interpretation der
Basisskalen
Auswertung per
Fax-Service möglich
K-Korrektur
253
3
3
Bezug zu ICD-10 und
DSM-IV fehlt
4 Faktoren
Repräsentative
Normstichprobe;
18–70 Jahre
(7., überarbeitete und neu normierte Aufl. 2001). Fahrenberg, J. et al., 2001). Göttingen:
Hogrefe
Zu unterscheiden ist in den letzten Aufl. zwischen den Formen FPI-A1 als neu
normierte und sprachlich z. T. modifizierte Fortführung der ursprünglichen Version
sowie der revidierten Fassung FPI-R, die z. T. andere Dimensionen aufweist. Da das
FPI-R die vorangegangenen Versionen ablösen soll, wird hier aus Platz- und Übersichtsgründen nur darauf eingegangen.
Freiburger Persönlichkeitsinventar FPI, Revidierte Fassung FPI-R
Bewertung. Es ist sehr zu begrüßen, dass ein so bewährtes und gut erforschtes Verfahren wie das MMPI nun auch in der aktualisierten Form (MMPI-2) in deutscher Sprache
vorliegt. Positiv zu werten ist die extrem große Informationsausbeute durch die vielen
klinischen Skalen, Validitätsskalen und Zusatzskalen. Zur fehleranfälligen und zeitraubenden Auswertung mit Schablonen stehen attraktive Alternativen zur Verfügung. Am
Manual ist zu bemängeln, dass Angaben zur Profilreliabiltät fehlen und die zur Validität dürftig sind. Ein grundsätzliches Problem des MMPI ist, dass das Verfahren auf
veralteten diagnostischen Kriterien basiert und eine klinische Diagnostik nach ICD-10
oder DSM-IV nicht unterstützt.
Wegen der Itemüberlappung sind die Ergebnisse der Faktorenanalysen mit Vorsicht zu
bewerten.
Validität. Im Testmanual werden lediglich Faktorenanalysen der Skalen berichtet. Es
fanden sich ähnliche Strukturen für Männer und Frauen sowie gute Übereinstimmung
mit US-Ergebnissen. Die vier Faktoren sind:
4 F1: Psychotische Gedankeninhalte (Sc, Pp, Pa, F)
4 F2: Neurotische Verhaltensweisen (Hy, L, K)
4 F3: Introversion (Si, D)
4 F4: Geschlechtsrollenidentifikation (Mf)
Reliabilität. Die Retestreliabilität nach 10 Tagen der Skalen wird im Manual mit .66
(Ma) bis .90 (D) bei Männern (N = 49) und .71 (Ma) bis .92 (Sc) bei Frauen (N = 56)
angegeben.
Normierung. Die Eichstichprobe (N = 958) zur Normierung des deutschen MMPI-2
ist bezüglich Alter, Geschlecht und geographischer Herkunft repräsentativ für die 18–
70jährige deutsche Bevölkerung. Bei der Erbhebung entstand ein gewisser Schwund
dadurch, dass immerhin 192 Personen die Bearbeitung des MMPI ablehnten und Protokolle wegen extrem hoher F-Werte oder zu vielen unbeantworteten Items eliminiert
werden mussten.
Beispielsweise sollen sehr hohe Werte (T > 75) auf der Paranoia-Skala für Denkstörung,
irrige Ansichten, Beziehungsideen, Rachsüchtigkeit und Grübeln und/oder Handeln
infolge von Wahnvorstellungen sprechen. Bei Bedarf können bestimmte Zusatzskalen
ausgewertet und interpretiert werden. Die »Krönung« stellt die Profilauswertung dar.
Dazu werden die Nummern der drei Skalen mit den höchsten T-Werten notiert. In
entsprechenden Handbüchern finden sich Erläuterungen und Fallbeispiele für die jeweiligen Punktcodes.
Kapitel 3 · Diagnostische Verfahren
Profilauswertung
254
Gliederung. Der Test besteht aus 138 Feststellungen in der Form »Ich (bin, fühle, würde usw.)…«, die mit »stimmt« oder »stimmt nicht« zu beantworten sind. Das erste Item
»Ich habe die Anleitung gelesen und bin bereit, jeden Satz offen zu beantworten« gehört
zu keiner Skala. Der Rest verteilt sich auf 10 aus je 12 Items bestehenden Standardskalen
sowie 2 Zusatzskalen (Extraversion und Emotionalität im Sinne von Eysenck) mit je 14
Aufgeführt sind jeweils die pro Skala trennschärfsten Statements unter Angabe des
Koeffizienten rit.
1. Lebenszufriedenheit:
»Alles in allem bin ich ausgesprochen zufrieden mit meinem bisherigen Leben.«
(.70)
2. Soziale Orientierung:
»Da der Staat schon für Sozialhilfe sorgt, brauche ich im Einzelnen nicht zu helfen.« (–.57)
3. Leistungsorientierung:
»Ich habe gern mit Aufgaben zu tun, die schnelles Handeln verlangen.« (.61)
4. Gehemmtheit:
»Ich werde ziemlich leicht verlegen.« (.58)
5. Erregbarkeit:
»Oft rege ich mich zu rasch über jemanden auf.« (.57)
6. Aggressivität:
»Wenn ich Zuflucht zu körperlicher Gewalt nehmen muss, um meine Rechte zu
verteidigen, so tue ich es.« (.54)
7. Beanspruchung:
»Ich habe häufig das Gefühl, im Stress zu sein.« (.73)
8. Körperliche Beschwerden:
»Ich habe manchmal ein Gefühl erstickender Enge in der Brust.« (.61)
9. Gesundheitssorgen:
»Ich vermeide Zugluft, weil man sich zu leicht erkälten kann.« (.61)
10. Offenheit:
»Ich bin hin und wieder ein wenig schadenfroh.« (.59)
E. Extraversion:
»Ich kann in eine ziemlich langweilige Gesellschaft schnell Leben bringen.« (.68)
N. Emotionalität:
»Ich bin oft nervös, weil zu viel auf mich einströmt.« (.62)
Dimensionen und Beispielitems aus dem FPI-R
Konstruktionsprinzipien. Die Entwicklung des Verfahrens orientierte sich nicht
an einer spezifischen Persönlichkeitstheorie, sondern den Interessen der Autoren
an bestimmten Dimensionen des Verhaltens, und zwar teils im Hinblick auf die
theoretischen Grundlagen (insbesondere Extraversion und Neurotizismus), teils
im Hinblick auf deren Implikationen für das soziale Zusammenleben (z. B. Aggressivität) und das subjektive Wohlbefinden oder Zurechtkommen mit Anforderungen (z. B. Lebenszufriedenheit, Beanspruchung). Die Skalenkonstruktion bzw.
die Auswahl der Items geschah teils nach faktorenanalytischen, teils nach Trennschärfeprinzipien; daneben spielten inhaltliche und praktische Erwägungen eine
Rolle.
3.2 · Persönlichkeitsfragebogen
3
10 Skalen; 2 Zusatzskalen
Keine theoriegeleitete
Testkonstruktion
255
3
Stabilität zufriedenstellend
Validität. Unter »Validitätshinweise« finden sich im Manual (6. Aufl.) zahlreiche Zusammenhänge zwischen den Skalen des FPI-R und weiteren Daten, die von der Normstichprobe geliefert wurden. So korreliert beispielsweise die Skala FPI-8 (»körperliche Beschwerden«) mit »schlechtem Gesundheitszustand« zu r = .51 oder FPI-R1 (»Lebenszu-
Reliabilität. Die im Manual (der 6. Aufl.) aufgeführten Konsistenzkoeffizienten variieren für die einzelnen Skalen zwischen .71 und .84 (Mdn = .77). Sie werden von den
Autoren im Hinblick auf die Breite der psychologischen Konstrukte und die relative
Kürze der Skalen als »befriedigend« bezeichnet. Zum Vergleich wurden 10 Zufallsskalen von je 12 Items gebildet; die mittlere Konsistenz dieser 10 Random-Skalen betrug
α = .26. Darin schlägt sich nach Auffassung der Autoren nicht der Effekt eines zugrunde liegenden Generalfaktors, sondern unspezifische Methodenvarianz in der Größenordnung von 26% der Gesamtvarianz nieder, da der Itempool »zehn relativ unabhängige Konstrukte (repräsentiere)«. Mit dem Argument der Unabhängigkeit nicht ganz
verträglich ist der Umstand, dass allein die Primärskalen untereinander im Mittel von
ungefähr .20 interkorrelieren. (Dies ermöglichte auch die Ableitung von 3 Sekundärskalen »Gestörtes Allgemeinbefinden«, »Aggressive Erregbarkeit« und »Selbstsichere
Aktivität«, doch erachten die Autoren die Sekundäranalysen selbst als fragwürdig.)
Analysen nach logistischen Prinzipien (7 Abschn. 2.1.2) ergaben Miniskalen, die im
Vergleich zu den Standardskalen niedrigere Konsistenzen aufwiesen. In einer Bewertung dieser Ergebnisse gelangen die Autoren zu dem »Eindruck, dass das logistische
Grundmodell hier auch als Heuristik unergiebig und für die facettenreichen Konstrukte der Eigenschaftstheorie tatsächlich inadäquat ist« (Fahrenberg et al., 1994, S. 34).
Stabilitätskoeffizienten liegen inzwischen für eine Gruppe von Kreislaufpatienten
vor. Die Testungen erfolgten zu Beginn und am Ende einer ca. 4wöchigen Kur. Trotz
der Homogenität dieser Stichprobe und des Treatments im Retestintervall fielen die
Koeffizienten mit Werten zwischen rtt = .69 (soziale Orientierung) und .85 (Gehemmtheit) sehr zufriedenstellend aus (im Mittel .73).
Befriedigende Reliabilitäten
Unabhängige Konstrukte?
Normierung. Zur 7. Aufl. wurde 1999 eine bevölkerungsrepräsentative Stichprobe von
3740 Einwohnern der alten und der neuen Bundesländer erhoben. Die Skalen des FPIR und das Testformular blieben unverändert. Die Rohwerte werden getrennt für die
beiden Geschlechter und jeweils 7 Altersgruppen in Stanine-Werte transformiert.
Repräsentative
Stichprobe; 7 Altersgruppen
Auswertung. Mittels Schablone. Aus ihr wird deutlich, dass die allermeisten Items
positiv (im Sinne des Merkmals ist »stimmt« die richtige Antwort) gescort sind (Einfluss von Akquieszenz?).
Durchführung. Die Instruktion findet sich schriftlich und in leicht verständlicher Weise auf dem Fragebogen. Ein Teil der Anweisungen richtet sich darauf, nicht lange bei
jedem Item nachzudenken, sondern die Antwort zu geben, die unmittelbar in den Sinn
kommt. Ob das zweckmäßig ist, muss offen bleiben. Wegen der Kürze der Instruktion
und der selbständigen Bearbeitung durch den Probanden spielen Testleitereffekte nur
eine minimale Rolle. In der Handanweisung werden zusätzliche Empfehlungen gegeben, wie den häufigsten Rückfragen und Einwänden von Seiten der Probanden zu begegnen ist. Die Dauer der Bearbeitung beträgt zwischen 10 und 30 min.
Items (von denen insgesamt 11 auch für die Standardskalen Verwendung finden; Bezeichnung der Skalen und Beispielitems 7 Beispiel).
Kapitel 3 · Diagnostische Verfahren
Kurze Instruktion
und selbständige
Bearbeitung durch
den Probanden
256
Anmerkung.
a
Ladungen ≥.60 sind fett gedruckt
Neurotizismus
Extraversion
Offenheit für Erfahrung
Verträglichkeit
Gewissenhaftigkeit
NEO-Fünf-Faktoren-Inventar
Extraversion
Neurotizismus
Eysenck Persönlichkeitsinventar
Lebenszufriedenheit
Soziale Orientierung
Leistungsorientierung
Gehemmtheit
Erregbarkeit
Aggressivität
Beanspruchung
Körperliche Beschwerden
Geundheitssorgen
Freiburger Persönlichkeitsinventar
Leistungsdaten
Geselligkeit
Aggressivität
Dominanzstreben
Ausdauer
Bedürfnis nach Beachtung
Risikomeidung
Impulsivität
Hilfsbereitschaft
Ordnungsstreben
Spielerische Grundhaltung
Soziales Anerkennungsbedürfnis
Anlehnungsbedürfnis
Allgemeine Interessiertheit
Personality Research Form
Skala
.79
–.05
.16
.01
–.17
.02
.89
–.61
.28
–.15
.39
.70
.24
.69
.72
.25
.08
.01
.30
–.19
–.24
.00
.25
.26
.25
–.05
–.01
.38
.56
.00
I
Faktorena
–.10
.80
.02
–.09
–.02
.86
–.07
.23
.11
.40
–.59
.18
.31
.03
–.11
–.17
.06
.72
.40
.52
–.13
.76
–.46
.41
.29
–.03
.72
.39
.24
–.03
II
.08
–.08
.74
–.21
–.35
.03
.04
–.27
.33
.06
–.19
–.12
.00
.04
–.04
–.38
.23
–.25
.06
.16
.12
.19
–.44
.30
.00
–.45
–.03
–.47
–.25
.75
III
.07
.12
–.07
.75
.09
–.18
.01
.13
.66
–.18
.11
–.16
–.66
.03
.04
–.09
.12
.33
–.68
–.44
.08
–.5
.24
–.11
.65
.10
–.13
.10
.28
.03
IV
–.27
.10
–.07
–.06
.75
–.11
–.16
.27
.13
.63
–.24
–.11
–.03
.18
–.03
.27
.77
.05
–.07
.42
.74
–.01
.10
–.57
.27
.62
–.37
.17
–.33
.19
V
. Tabelle 3.14. Rotierte Ladungsmatrix einer Simultanfaktorisierung von PRF, FPI, EPI und
NEO-FFI. (Aus Borkenau & Ostendorf, 1993, S. 19)
friedenheit«) mit »Zufriedenheit mit familiärer Situation« zu r = .46. Da es sich aber jeweils um Daten aus ein und derselben Quelle (Selbstberichte) handelt, sind solche
Beziehungen nur von geringer Beweiskraft. In abgeschwächtem Maße gilt dies auch für
die Simultanfaktorisierung mehrerer Testsysteme (. Tab. 3.14). Daraus wird ersichtlich,
dass nicht weniger als 4 FPI-Skalen (Lebenszufriedenheit, Erregbarkeit, Beanspruchung
und körperliche Beschwerden) gemeinsam auf einem Neurotizismusfaktor laden, Ge-
3.2 · Persönlichkeitsfragebogen
257
3
3
Soziale Erwünschtheit
hat geringen Einfluss
In der Handanweisung kommen die diagnostische Zielsetzung, die theoretischen
Grundlagen und – in Verbindung damit – auch die Vergleichbarkeit mit anderen Verfahren etwas zu kurz (in diesem Sinne Hollmann, 1988, S. 284). Trotzdem handelt es
sich beim FPI-R um ein Verfahren, dessen Konstrukte teils erwiesenermaßen (z. B.
Extraversion und Emotionalität, Erregbarkeit, Aggressivität), teils nach Dafürhalten
und Berichten in der Literatur (z. B. soziale Orientierung, Gesundheitssorgen, Leistungsorientierung) von erheblicher Bedeutung, auf jeden Fall von aktuellem Interesse für die Beschreibung interindividueller Unterschiede sind. Die große Verbreitung
– in der Umfrage von Schorr (1995) rangiert das FPI unangefochten auf Platz 1 der
Liste »Die zwanzig am häufigsten verwendeten Testverfahren« – spricht dafür, dass
das FPI für die Praxis eine nützliche Auswahl von Skalen bietet.
Die Messgenauigkeit reicht für gruppenstatistische Untersuchungen aus. Die
Validität gegenüber Fremdeinschätzungen reicht in einigen Skalen an die hier üblicherweise beobachteten oberen Grenzen heran. Bei kaum einem anderen Verfahren
im deutschsprachigen Raum wird die »Pflege« (Aktualisierung und Nachnormierung) derart intensiv betrieben (nicht weniger als ca. 500 Einzelpublikationen zu
den Eigenschaften des Verfahrens), sodass der Benutzer zuversichtlich sein kann, ein
dem »Stand der Kunst« entsprechendes Instrument anwenden zu können.
Fazit
hemmtheit (mit negativem Vorzeichen) relativ hoch mit Extraversion korreliert und die
soziale Orientierung sowie Aggressivität (negativ) mit Verträglichkeit in Beziehung stehen. Solche Resultate sprechen für eine eher mittlere Bandbreite des FPI-R.
Härtere Evidenzen vermitteln die Übereinstimmungen in einer Größenordnung
von .45, die in früheren Untersuchungen zwischen Skalen des FPI und Fremdeinschätzungen auf konstruktnahen Dimensionen gefunden wurden (Amelang & Borkenau,
1982; Burisch, 1984). Für die Skalen des FPI-R berichten Schmidt und König (1986)
eine mittlere Selbst-Fremd-Einschätzungskorrelation von rtc = .38 (rtc = .45 bei relativ
hohem, .30 bei relativ niedrigem Bekanntheitsgrad). Für die in das FPI-R neu aufgenommenen Skalen betragen die Validitäten .52 (Lebenszufriedenheit), .39 (soziale
Orientierung), .40 (Leistungsorientierung), .42 (Beanspruchung) und .31 (Gesundheitssorgen; Koeffizienten jeweils für die Gruppe mit relativ hoher Bekanntheit zwischen Beurteiler und Beurteiltem).
Ausgehend von Eysencks (1967) Persönlichkeitstheorie war als Teil der Konstruktvalidierung von »emotionaler Labilität« eine Korrelation dieser Skala zu psychophysischen Aktivierungsprozessen und/oder relativ überdauernden psychophysischen Reaktivitätsunterschieden zu erwarten. Die Anwendungsversuche in dieser Hinsicht
müssen aber insgesamt als empirisch falsifiziert gelten. Das spricht in diesem Falle nicht
gegen die Skala, sondern eher gegen die behauptete Verankerung des Merkmals »Neurotizismus« in psychophysiologischen Strukturen. Der Versuch, durch Anwendung der
Factor Deletion Technique die Varianzkomponenten im Sinne sozialer Erwünschtheit
(SE) zu eliminieren und dadurch die Validität gegenüber Fremdeinschätzungen zu erhöhen, verminderte sowohl die externe Validität als auch die Inhaltssättigung der FPIFragebogenfaktoren (Borkenau & Amelang, 1986). Das kann als Hinweis darauf gewertet werden, dass SE-Einflüsse bei der Bearbeitung in Forschungssituationen nur eine
vergleichsweise geringe Rolle spielen. Allerdings handelt es sich auch nach Meinung der
Autoren bei der potentiellen Verfälschungsmöglichkeit um eines der schwerwiegendsten Methodenprobleme bei Fragebogen.
Kapitel 3 · Diagnostische Verfahren
Übereinstimmung
zwischen Selbst- und
Fremdeinschätzung
hoch
258
Durchführung. Die Bearbeitung der insgesamt 60 Items erfolgt in einem vierseitigen
Aufgabenheft, dem die leicht verständliche Instruktion vorangestellt ist. Für die Ant-
Typs: »Ich (bin, habe, fühle u.ä.)…« konstituieren die faktorenanalytisch ermittelten
Skalen Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit (zur Erläuterung der Skalen und Beispielitems 7 Beispiel). Mit diesen
Dimensionen hoffen die Autoren, ein Breitbandverfahren kreiert zu haben, das »einen
groben aber vollständigen Überblick über die Ausprägung der Probanden auf den wichtigsten Dimensionen individueller Persönlichkeitsunterschiede (eröffnet)« (Borkenau
& Ostendorf, 1993, S. 8), nämlich jenen Faktoren, die in Selbst- und Bekanntenbeurteilungen von den Probanden (noch) unterscheidbar sind.
Gliederung. Je 12 Items (man beachte die Übereinstimmung mit FPI und 16 PF!) des
Borkenau, P. & Ostendorf, F. (1993). Göttingen: Hogrefe
Bei dem Test handelt es sich um eine deutschsprachige Übersetzung und Adaptation des »NEO Five-Factor Inventory NEO-FFI« von Costa und McCrae (1992). In
ihm konvergieren gleichsam all jene internationalen und in der jüngeren Vergangenheit besonders intensiv betriebenen Forschungen, die sich mit dem Problem beschäftigen, welches denn die »richtige« Zahl von Faktoren zur Beschreibung der Persönlichkeit sei. Sie gelangen zu dem Ergebnis, dass fünf die angemessene Mischung zwischen Varianzmächtigkeit und Ökonomie auf der einen sowie Differenzierungsgrad
auf der anderen Seite sei.
Neo-Fünf-Faktoren-Inventar NEO-FFI
Die D-PRF ist ein in mehrfacher Hinsicht beachtenswertes Instrument: Zum Einen
begründet die Theorie einen Gültigkeitsbereich, der nur eine teilweise Überlappung
mit anderen verfügbaren Fragebogensystemen aufweist. Zum Anderen kann die
Kombination von rationalen und empirischen Elementen bei der Konstruktion des
Tests als absolut vorbildlich gelten. Daraus mag sich die Beliebtheit des Tests namentlich in Forschungsuntersuchungen erklären. Für die Individualdiagnostik wäre
aber ein Mehr an Reliabilität wünschbar. Auch bleibt die Höhe der Validitäten gegenüber externen Kriterien etwas hinter den Erwartungen zurück, zumal ein Ziel der
Autoren gerade darin bestand, alltägliche Verhaltensweisen (und damit solche, die
Beurteiler kennen und deshalb treffsicher einschätzen können) diagnostizieren zu
wollen. Vor allem aber wäre eine Aktualisierung der Normen und auch einiger Itemformulierungen wünschenswert.
Fazit
Koeffizienten deutlich höher als die letzteren (um .60 bzw. um .40). Vergleichsweise
niedrig ist offenkundig die Validität gegenüber Fremdeinschätzungen von Risikomeidung, Impulsivität und Hilfsbereitschaft, vergleichsweise hoch diejenige von Dominanz, Ordnungsstreben und spielerischer Grundhaltung. Im Mittel von 9 Skalen betrugen die Validitäten rtc = .56 gegenüber den Fremdeinschätzungen von jeweils 2 Bekannten in der Erhebung von Amelang, Schäfer und Yousfi (2001; mehr zu dieser Studie
7 Abschn. 3.3.2). Riemann und Schumann (1996) berichten für einige Skalen der DPRF Validitäten größer als .20 bei der Vorhersage des Verkaufserfolges von 86 Außendienstmitarbeitern einer großen Versicherungsgesellschaft; erwartungswidrig stellten
sich jedoch keine Moderatoreffekte der Infrequenzskala ein.
3.2 · Persönlichkeitsfragebogen
Breitbandverfahren
5 Skalen
»Big Five« Modell
Korrelation mit
Selbst- und Fremdeinschätzungen
269
3
3
Keine Normen
Auswertung und Normierung. Die individuellen Punktwerte werden mit Hilfe einer
Schablone ermittelt. Die erhaltenen Rohwerte können mit den Mittelwerten und Standardabweichungen verglichen werden, die sich für eine Gesamtstichprobe von N = 2112
Probanden und getrennt für die beiden Geschlechter im Manual finden. Daraus lassen
sich auch Z-Werte oder Prozentränge ermitteln. Explizit wollten die Autoren darauf
verzichten, Normen zu veröffentlichen, weil es bis dato nicht möglich war, den Test
einer hinreichend repräsentativen Bevölkerungsstichprobe vorzugeben. Bei den bislang
vorliegenden Erhebungen kann aber die Bereitschaft zur Teilnahme mit den erfassten
Merkmalen, insbesondere »Offenheit für Erfahrung« korreliert sein, sodass die Normen keinen korrekten Maßstab bilden müssen.
Skalen des NEO-FFI, beschrieben mit Formulierungen aus dem Manual und Beispielitems, ausgewählt nach der Höhe von Ladungszahlen
Neurotizismus:
Tendenz, nervös, ängstlich, traurig, unsicher und verlegen zu sein, sich Sorgen um
die Gesundheit zu machen, unrealistische Ideen zu verfolgen. Unfähigkeit, die Bedürfnisse zu kontrollieren und auf Stressreaktionen angemessen zu reagieren.
4 »Ich fühle mich oft angespannt und nervös« (.67),
4 »Ich fühle mich oft hilflos und wünsche mir eine Person, die meine Probleme
löst« (.67).
Extraversion:
Probanden mit hohen Werten sind gesellig, aktiv, gesprächig, sozial, herzlich, optimistisch; sie suchen Anregungen und Aufregungen.
4 »Ich habe gern viele Leute um mich herum« (.69),
4 »Ich bin ein fröhlicher, gut gelaunter Mensch« (.67).
Offenheit für Erfahrung:
Wertschätzungen für neue Erfahrungen, Bevorzugung von Abwechslung; Probanden mit hohen Werten sind wissbegierig, kreativ, phantasievoll und unabhängig in
ihrem Urteil. (In der einschlägigen Literatur wird dieser Faktor auch als »Intellekt«
oder »culture« bezeichnet.)
4 »Ich finde philosophische Diskussionen langweilig« (–.60),
4 »Poesie beeindruckt mich wenig oder gar nicht » (–.61).
Verträglichkeit:
Neigung, altruistisch, mitfühlend, verständnisvoll und wohlwollend zu sein,
zwischenmenschliches Vertrauen, Kooperativität und Nachgiebigkeit zu zeigen;
Harmoniebedürfnis.
4 »Manche Leute halten mich für selbstsüchtig und selbstgefällig« (–.62),
4 »Manche Leute halten mich für kalt und berechnend« (–.65).
Gewissenhaftigkeit:
Die Skala unterscheidet ordentliche, zuverlässige, disziplinierte, ehrgeizige, pünktliche, penible, hart arbeitende Personen von nachlässigen und gleichgültigen.
4 »Ich bin eine tüchtige Person, die ihre Arbeit immer erledigt« (.70),
4 »Ich arbeite hart, um meine Ziele zu erreichen« (.67).
Beispiel
worten steht eine 5fach abgestufte Skala von »starke Ablehnung« über »Ablehnung«,
»neutral« und »Zustimmung« bis »starke Zustimmung« zur Verfügung. Die Durchführungszeit beträgt etwa 10 min.
Kapitel 3 · Diagnostische Verfahren
Schnell durchzuführen
270
Durchführung und Auswertung. Die 240 Items sind auf einer fünfstufigen Skala, die
identisch ist mit der des NEO-FFI (7 oben) zu beantworten. Es liegen zwei unterschiedliche Testhefte vor, die entweder ein Ankreuzen im Testheft oder auf einem
Gliederung. Jede der fünf globalen Persönlichkeitsdimensionen wird durch sechs Teilskalen mit je acht Items näher beschrieben. Das NEO-PI-R besteht damit aus 30 Subskalen (Facetten) und fünf Hauptskalen mit insgesamt 240 Items.
Ostendorf & Angleitner (2004)
Inzwischen liegt mit dem NEO-PI-R ein Verfahren vor, das weiterhin dem
Big-Five Ansatz verpflichtet ist, aber zusätzlich Neurotizismus, Extraversion, Offenheit
für Erfahrung, Verträglichkeit und Gewissenhaftigkeit in Facetten unterteilt. Das Verfahren ist eng an das amerikanische Original angelehnt. Die Autoren legten dabei Wert
auf eine sinngemäße und nicht wörtliche Übersetzung der Items. Das Verfahren liegt
als Selbstbeurteilungs- und Fremdbeurteilungsversion (Form S und F) vor.
NEO-Persönlichkeitsinventar nach Costa und McCrae, revidierte Fassung (NEO-PI-R)
Das NEO-FFI spiegelt den aktuellen Stand der faktorenanalytischen Grundlagenforschung in der differentiellen Psychologie wider. Auf sehr ökonomische Weise werden 5 relativ varianzstarke Persönlichkeitsfaktoren erfasst, und zwar mit einer Reliabilität und Gültigkeit, die im Vergleich mit anderen Instrumenten als sehr ordentlich
bezeichnet werden können.
Fazit
struktur; Extraversion und Neurotizismus interkorrelieren erwartungsgemäß negativ
(um –.35), desgleichen Neurotizismus und Gewissenhaftigkeit (um –.30).
In einer gemeinsamem Faktorenanalyse von Personality Research Form PRF
(Stumpf et al., 1985), dem FPI, dem Eysenck Personality Inventory EPI und dem NEOFFI ergab sich die in . Tab. 3.14 wiedergegebene Ladungsmatrix. Daraus wird die engere Affinität von Neurotizismus und Extraversion zu den »klassischen« Skalen
Eysencks ebenso deutlich wie der Umstand, dass Verträglichkeit kein Aspekt von Extraversion darstellt und »Offenheit für Erfahrung« ein recht eigenständiger Faktor ist,
der in anderen Inventaren kaum eine Entsprechung findet.
Gegenüber Fremdeinschätzungen bestanden für die 5 Skalen Korrelationen von .27,
.43, .23, .30 und .45. Die Autoren vermuten, dass die Koeffizienten etwas zu niedrig
ausgefallen sind, und zwar deshalb, weil die Testpersonen nicht immer ihre nächsten
Bekannten und Verwandten in die Universität mitbringen konnten. Dort wurden die
Untersuchungen in Anwesenheit und unter Kontrolle der Versuchsleiter durchgeführt.
In anderen Erhebungen (postalische Befragung, leicht geändertes Itemformat) lagen die
Validitäten mit Ausnahme von Verträglichkeit um .60.
Validität. Die Skalen bzw. Itemladungen fügen sich in die angenommene Fünffaktoren-
Reliabilität. Die α-Koeffizienten für Neurotizismus, Extraversion und Gewissenhaftigkeit liegen bei über .80, diejenigen für die beiden anderen Skalen um .70 und damit auf vergleichbarem Niveau wie das FPI und über den mittleren Konsistenzen des
16 PF. An einer Teilstichprobe von N = 146 Probanden konnten im Abstand von etwa
2 Jahren Wiederholungserhebungen durchgeführt werden. Dabei lagen die Stabilitäten
um .80; lediglich für Verträglichkeit ergab sich ein niedrigerer Koeffizient (rtt = .65).
3.2 · Persönlichkeitsfragebogen
3
5 Globalskalen mit
je 6 Teilskalen
Eng an amerikanisches
Original angelehnt
Niedrige bis moderate
Korrelationen mit
Fremdeinschätzungen
Faktorenstruktur
bestätigt
Hohe Reteststabilität
271
3
Computerauswertung
empfohlen
separaten Antwortbogen vorsehen. Die Durchführung dauert etwa 30 bis 40 min. Die
Fremdbeurteilungsversion gleicht der Selbstbeurteilungsversion weitgehend. Die Items
unterscheiden sich nur darin, dass sich die Aussage auf eine andere Person bezieht (z. B.
statt »Ich bin leicht zu erschrecken« »Er/Sie ist leicht zu erschrecken«). Bei den Fragebogenformen mit integriertem Antwortmodus empfehlen die Autoren, die Itembeantwortungen in einen PC einzugeben und durch ein Computerprogramm auszuwerten
(im Anhang befindet sich eine Anweisung für die Auswertung mit SPSS). Bei Verwendung der Testvariante mit separatem Antwortblatt mit Durchschreibform sind die Antworten mit einem Zahlenwert für die angekreuzte Antwortalternative zu gewichten und
aufzusummieren. Die Transformation in Normwerte geschieht, indem auf einem zum
4 Neurotizismus
– Ängstlichkeit
– Reizbarkeit
– Depression
– Soziale Befangenheit
– Impulsivität
– Verletzlichkeit
4 Extraversion
– Herzlichkeit
– Geselligkeit
– Durchsetzungsfähigkeit
– Aktivität
– Erlebnishunger
– Frohsinn
4 Offenheit für Erfahrungen
– Offenheit für Phantasie
– Offenheit für Ästhetik
– Offenheit für Gefühle
– Offenheit für Handlungen
– Offenheit für Ideen
– Offenheit des Normen- und Wertesystems
4 Verträglichkeit
– Vertrauen
– Freimütigkeit
– Altruismus
– Entgegenkommen
– Bescheidenheit
– Gutherzigkeit
4 Gewissenhaftigkeit
– Kompetenz
– Ordnungsliebe
– Pflichtbewusstsein
– Leistungsstreben
– Selbstdisziplin
– Besonnenheit
Hauptskalen und Facetten des NEO-PI-R
Kapitel 3 · Diagnostische Verfahren
Selbst- und Fremdbeurteilungsversion
272
umfasst 11.724 Probanden, die an einer der zahlreichen Studien in den Jahren 1999 und
2000 teilgenommen hatten. Daraus wurde zusätzlich nach den Angaben im Statistischen Jahrbuch für das Jahr 2001 eine sekundäre Quotenstichprobe (n = 871) gezogen,
die hinsichtlich Alter, Geschlecht und Bildungsstand als repräsentativ für Deutschland
gelten kann. Für folgende Gruppen liegen Normen sowie separate Profilblätter vor:
Gesamtstichprobe, repräsentative Gesamtstichprobe, jeweils für Männer und Frauen
von 16–20, von 21–24, von 25–29, von 30–49 und von über 49 Jahren, repräsentative
Stichprobe von Männern und Frauen. Für den Bereich Offenheit stehen zusätzlich
Normtabellen für Männer und Frauen zweier Altersgruppen und hohem versus niedrigem Bildungsstand zur Verfügung. Die Normierung der Fremdbeurteilungsversion
Normierung. Die Normierungsstichprobe für die Selbstbeurteilungsversion (Form S)
Validität. Die Ausführungen im Manual zur Konstruktvalidität umfassen 37 Seiten
und weitere sieben Seiten zur Faktorenstruktur. Von den zahlreichen Befunden kann
hier nur über einige besonders erwähnenswerte berichtet werden. Die Faktorenstrukturen der 30 Skalen korrespondieren sehr gut zwischen der Selbst- und Fremdbeurteilungsform sowie zwischen Männern und Frauen und auch zwischen verschiedenen
Altersgruppen. Die Zuordnung der Facetten zu den Hauptskalen wird durch Faktorenanalysen der Skalen überwiegend gut bestätigt. In einigen wenigen Fällen scheint
jedoch Nachbesserungsbedarf bei der Zusammensetzung der Facettenskalen zu bestehen. So läd die Impulsivitätsskala höher auf dem Extraversionsfaktor als auf dem
Neurotizismusfaktor. Einige wenige Skalen (insbesondere Durchsetzungsfähigkeit)
weisen beträchtliche Nebenladungen auf anderen Faktoren auf. Selbst- und Fremdberichte (gemittelte Beurteilung durch zwei Bekannte) korrelieren im Durchschnitt
.54 (Globalskalen) bzw. .47 (Facetten). Gemeinsame Faktorenanalysen der Globalskalen mit den Skalen anderer deutscher Persönlichkeitsinventare (u. a. Gießen-Test,
FPI-R, BIP) sprechen für die richtige Einordnung dieser Skalen in das Modell der
Big-Five.
Reliabilität. Die internen Konsistenzen der Facetten-Skalen liegen im Durchschnitt nur
bei α = .73 (.53 für Offenheit für Werte bis .85 für Depression). Die Items können jedoch auch über die Facetten hinweg zu den fünf Globalskalen verrechnet werden. Die
großen Itemzahlen führen dazu, dass die internen Konsistenzen der Globalskalen sehr
hoch ausfallen (α =.87 bis .92). Die Retestreliabilitäten der Hauptskalen liegen bei kurzen Zeitabständen (1–2 Monate) zwischen .82 und .91 (Median = .90) und bei längeren
(5 Jahre) zwischen .74 und .78 (Median = .75). Für die Facetten fallen die Koeffizienten
erwartungsgemäß etwas niedriger aus (Median = .82 bzw. .68).
Alter und Geschlecht des Probanden passenden Profilblatt lediglich die Rohwerte markiert werden. Die Rohwerte sind skalenweise so angeordnet, dass die Höhe des Wertes
auf dem Profilblatt direkt dem Normwert entspricht. Die am Rand des Profilblattes
stehenden T-, Stanine- und Prozentrangwerte erlauben bei Bedarf eine Transformation
in einen der Normwerte. Zur Interpretation der Skalenwerte steht ein Beiheft mit dem
Namen »Persönlichkeitsbild« zur Verfügung. Darin finden sich in verständlicher Sprache Erläuterungen zu den Hauptskalen und den Facetten. Beispielsweise ist zur Skala
Vertrauen zu lesen: »Personen mit hohen Punktwerten neigen dazu, andere Menschen
generell für ehrlich zu halten und ihnen gute Absichten zu unterstellen. Personen mit
niedrigen Punktwerten beschreiben sich als eher skeptisch und misstrauisch anderen
Menschen gegenüber. Sie unterstellen anderen schneller unredliche Absichten«.
3.2 · Persönlichkeitsfragebogen
3
Alters- und
Geschlechtsnormen
Große, repräsentative
Normstichprobe
Einordnung in Big-Five
Modell bestätigt
Faktorielle Struktur
überwiegend bestätigt
Hohe interne
Konsistenzen der
Globalskalen
Umfangreiche
Interpretationshilfen
Profilblatt
273
3
»Big Four plus X«
Modell
Erfassung der »normalen« und der gestörten
Persönlichkeit
Sehr sorgfältige
Konstruktion und
Normierung
International verbreitet
Differenzierte, theoriegeleitete Messung der
Persönlichkeit
Becker, P. (2003). Göttingen: Hogrefe
Das TIPI stellt den vorläufigen Endpunkt von langjährigen Konstruktions- und
Entwicklungsarbeiten dar, in deren Rahmen Becker sich um die Bereitstellung von
Persönlichkeitstests bemüht hat, die dem jeweils aktuellen Erkenntnisstand entsprechen und zentrale Bereiche der Persönlichkeit erfassen sollen. Bei dem TIPI handele es
sich um das »erste nach dem eindimensionalen ordinalen Rasch-Modell konstruierte
Inventar (…), das eine facettenreiche Erfassung von Eigenschaften und Dimensionen
sowohl der ›normalen‹ als auch der ›gestörten‹ Persönlichkeit« gewährleiste (Becker,
2003, S. 3; alle weiteren Zitate ebenfalls aus dem Manual).
Die für das TIPI ins Auge gefassten Einsatzgebiete sind äußerst vielfältig und decken
die klassischen Felder in Forschung und Anwendung weitestgehend ab. So spricht der
Autor u.a. von einer besonders guten Eignung des TIPI für klinische und verhaltensmedizinische Fragestellungen oder solche aus der forensischen und ABO-Psychologie.
Theoretischer Hintergrund des TIPI ist eine hierarchische Struktur der Persönlichkeit von Verhaltensweisen über Persönlichkeitseigenschaften (= Skalen oder Facetten)
zu Persönlichkeitsdimensionen (= Faktoren erster Ordnung). Zur letzteren, also der
höchsten Ebene, gehören die international intensiv beforschten »Big Five«. Weil Becker
(2003) davon den Faktor »Offenheit für Erfahrung« nicht in hinreichender Weise als
repliziert ansieht, geht er stattdessen von seinem Modell »Big Four plus X« (4PX) aus;
dessen Kern entsprechen die vier Globalskalen des TIPI, denen einzelne Facetten als
Eigenschaften zugeordnet werden.
Im Bestreben, eine umfassendere Beschreibung der Persönlichkeit zu ermöglichen
als dieses mit den Vorläuferversionen in Gestalt des »Trierer Persönlichkeitsfragebogens« und des »Trierer Inventars zur Verhaltenskontrolle« der Fall war, defi-
Trierer Integriertes Persönlichkeitsinventar TIPI
Bewertung. Das NEO-PI-R weist gegenüber dem NEO-FFI mehrere Vorteile auf. Erstens erlaubt es, die großen fünf Persönlichkeitsdimensionen wesentlich zuverlässiger
zu messen. Zweitens erlauben die Subskalen eine wesentlich differenziertere Beschreibung der Persönlichkeit als dies mit den fünf globalen Skalen möglich ist. Es besteht
zudem die Hoffnung, für die Teilfacetten höhere Kriteriumsvaliditäten zu finden als für
die »groben« Globalskalen. Drittens steht auch eine Fremdbeurteilungsversion zur Verfügung, die alleine oder in Kombination mit der Selbstbeurteilungsversion eingesetzt
werden kann und viele neue Anwendungsmöglichkeiten erschließt (z. B. Vergleich von
Selbst- und Fremdbeurteilung). Viertens ist das NEO-PI-R besser normiert (aktuellere
und repräsentative Normen). Das NEO-FFI kann lediglich einen Vorteil verbuchen: Es
ist kürzer und damit ökonomischer. Das NEO-PI-R ist international weit verbreitet; die
amerikanische Originalversion wurde bislang in über 30 Sprachen übersetzt (Ostendorf
& Angleitner, 2004). Damit eröffnet sich die Chance, Forschungsarbeiten mit der deutschen Version international zu publizieren, was wiederum Forscher anregen wird, mit
diesem Verfahren zu arbeiten. Zugleich profitieren deutsche Anwender von den nationalen und internationalen Forschungsarbeiten. Insgesamt ist das NEO-PI-R als ein
theoretisch sehr gut fundiertes Verfahren zu bewerten. Zwischen der Übersetzung der
Items und der Publikation des Verfahrens liegen 13 Jahre. Die Autoren haben die Zeit
für eine sorgfältige Konstruktion, Evaluierung und Normierung genutzt. Dieses umsichtige Vorgehen hat Vorbildcharakter!
(Form F) erfolgte an 1.547 Personen. Hier wird zwischen vier Teilgruppen unterschieden, die nach Geschlecht und Alter (16–29 sowie 30 und älter) gebildet wurden.
Kapitel 3 · Diagnostische Verfahren
Normen auch für
Fremdbeurteilungsversion
274
3
Messintentionen und Konstruktionshintergrund. Mit dem BIP soll jenen Fragebogen,
die häufig genug einen klinisch-psychologischen Hintergrund aufweisen, »eine anforderungsnähere und vor dem Hintergrund der sozialen Validität tragfähige Alternative«
hinzugefügt werden (Hossiep & Paschen, 1998, S. 4; alle weiteren Zitate, soweit nur
durch Seitenangaben kenntlich gemacht, ebenfalls aus dem Manual). Im Unterschied
zu den meisten anderen Testsystemen, die gewöhnlich auf einer mehr oder weniger
differenzierten Persönlichkeitstheorie beruhen, stand hier am Ausgangspunkt der Entwicklung ein intensiver »Austausch mit in der Personalarbeit tätigen Psychologen und
weiteren Experten, um deren Auffassungen bezüglich erfolgsrelevanter psychologischer Verhaltensdispositionen in Erfahrung zu bringen« (S. 10). Hinzu kam selbstverständlich eine eingehende Literaturrecherche, um einen Überblick zu gewinnen, »welche psychologischen Dimensionen sich im Rahmen bisheriger Validitätsbefunde als
besonders vorhersagefähig für beruflichen Erfolg erwiesen haben« (S. 10). Ziel war es
somit, ein für Eignungs- und Platzierungsentscheidungen brauchbares Instrument zu
entwickeln; konkret sollte damit »die standardisierte Erfassung des Selbstbildes eines
Testkandidaten im Hinblick auf relevante Beschreibungsdimensionen aus dem Berufsleben« (S. 12) geleistet werden, im Weiteren auch »dasjenige Selbstbild, welches der
Testteilnehmer gegenüber der testenden Institution vermitteln möchte« (S. 11). Wenngleich bei einer derartigen Genese bzw. Zielbestimmung auch Erkenntnisse der differentiellen Psychologie und solche der Motivationsforschung integriert werden mögen,
interessierte doch mehr pragmatisch die Funktionalität für berufsdiagnostische Fragestellungen; aus diesem Grunde liegt dem BIP »keine alle Dimensionen umfassende
theoretische Ausgangsposition zugrunde« (S. 10). Die Anwendungsschwerpunkte des
BIP liegen nach Auffassung seiner Autoren in Situationen, die der Einschätzung einer
Person im Hinblick auf bestimmte berufliche Anforderungen dienen sollen; dazu »ge-
Hossiep, R. & Paschen, M. (1998). Göttingen: Hogrefe
Das Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung BIP
Mit dem TIPI liegt ein mehrdimensionaler Persönlichkeitstest vor, der im Hinblick
auf Reliabilität und Validität gute (aber keine überragenden) Gütemerkmale aufweist. Die hohe Korrelation zwischen Skalenscores und Personenparametern wirft
die Frage auf, welchen Gewinn die serielle Konstruktion nach probabilistischer und
klassischer Testtheorie jenseits theoretischer Erwägungen für die praktische Anwendung bedeutet. Die Globalfaktoren, wenngleich hier mehrheitlich mit Doppelnamen belegt und im Fall von »Unverträglichkeit« gegenüber der gewohnten
Übung gespiegelt, orientieren sich partiell an der internationalen Literatur. Hingegen erklärt sich die Genese von vielen der Primärfaktoren, die eine differenziertere
Beschreibung der Persönlichkeit gewährleisten sollen, eher idiosynkratisch aus den
Vorläuferversionen und den Auffassungen oder Interessen des Testautors. Das TIPI
leistet offensichtlich weitgehend Ähnliches wie vorliegende Verfahren mit gleichem
Gültigkeitsanspruch; sieht man von der Zahl und dem Inhalt der Facetten ab, ist
aber bislang nicht überzeugend belegt, was das TIPI besser kann, worin dessen spezifischer Nutzen und die eigenständige Validität liegt. Das ist angesichts des Umstandes, dass der Test noch sehr jung ist, zu verstehen; man darf deshalb zuversichtlich sein, dass zu diesen Fragen die zukünftige Forschung aufschlussreiche Beiträge
liefern wird.
Fazit
Kapitel 3 · Diagnostische Verfahren
Anwendungsschwerpunkte: Platzierungsentscheidungen,
Training, Coaching
und Beratung
278
Persönliche
Eignungsvoraussetzungen
Gliederung. Die Auswahl der mit dem BIP zu erfassenden Konstrukte richtete sich
nach vorliegenden Validitätshinweisen zu Persönlichkeitskonstrukten und den »Anforderungen der diagnostischen Praxis« (S. 18) – was immer darunter auch verstanden
werden mag. Darüber hinaus lieferten Personalexperten Hinweise auf die Relevanz von
Persönlichkeitsattributen, »vorrangig bezogen auf Fach- und Führungskräfte in der
Wirtschaft« (S. 19). Letztlich resultierten daraus 14 Dimensionen, die sich auf die vier
Bereiche Berufliche Orientierung, Arbeitsverhalten, Persönliche Kompetenzen und
Psychische Konstitution verteilen, wie in . Abb. 3.20 veranschaulicht. Diese Bereiche
spielen allerdings weder bei der Auswertung noch der Interpretation eine Rolle.
Jede der Skalen, denen eine Mischstrategie aus rationalen und induktiven Entwicklungsschritten zugrunde liegt, umfasst zwischen 12 und 16 Items in Form von Selbstbeschreibungen (. Tab. 3.16). Insgesamt enthält der Fragebogen 210 Items, die in
sechsfach abgestufter Form von »trifft voll zu« bis »trifft überhaupt nicht zu« zu beantworten sind. Hinzu kommen noch vier »Zusatzindices« zu Kontrollerleben,
Wettbewerbsorientierung, Mobilität und Freizeitorientierung, die vorerst nur die Ausgangsbasis für weitergehende Untersuchungen bilden sollen und für die keine Normen
vorliegen.
Die Dimensionen des BIP sind zusammen mit Erläuterungen und Itembeispielen
sowie den Reliabilitäten in . Tab. 3.16 zusammengestellt.
hören neben Platzierungsentscheidungen auch Training, Coaching und Beratung«
(S. 41). An anderer Stelle raten die Autoren jedoch nachhaltig davon ab, das BIP als
Vorauswahlinstrument oder als alleiniges Platzierungs- und Entscheidungsinstrument
einzusetzen. Als Fragebogeninstrument könne es insbesondere eine Grundlage für eine
hypothesengeleitete, tiefere Exploration liefern. Die große Akzeptanz des Verfahrens
am Markt belegt, dass seriöse Verfahren mit einem derartigen Verwendungszweck einem dringenden Bedarf gerecht werden.
3.2 · Persönlichkeitsfragebogen
3
. Abb. 3.20. Die Dimensionen des BIP. (Nach Hossiep &
Paschen, 1998, S. 19)
4 »Zusatzindices«
Mischung aus rationalen und induktiven
Konstruktionsprinzipien
14 Dimensionen
Große Akzeptanz
am Markt
279
3
280
Itembeispiel mit Trennschärfekoeffizient
Ich bin mit mir erst dann zufrieden,
wenn ich außergewöhnliche Leistungen vollbringe.
Cronbach-α-Koeffizient
Leistungsmotivation
.90
.80
.71
Ich brauche eine Weile, bis ich Bekanntschaften schließe.
Kontaktfähigkeit
Ausgeprägte Fähigkeit und Präferenz des Zugehens auf bekannte und
unbekannte Menschen und des Aufbaus sowie der Pflege von Beziehungen; aktiver Aufbau und Pflege von beruflichen wie privaten Netzwerken
.85
Ich bemerke mit großer Sicherheit,
wie sich mein Gegenüber fühlt.
.71
Ich kann mich auf die unterschiedlichsten Menschen sehr gut einstellen.
Sensitivität
Gutes Gespür auch für schwache Signale in sozialen Situationen; großes Einfühlungsvermögen, sichere Interpretation und Zuordnung der
Verhaltensweisen anderer
.75
.86
Wenn ich viele Aufgaben zu erledigen
habe, weiß ich manchmal gar nicht,
womit ich anfangen soll.
Handlungsorientierung
Fähigkeit und Wille zur raschen Umsetzung einer Entscheidung in zielgerichtete Aktivität sowie zur Abschirmung einer gewählten Handlungsalternative gegenüber weiteren Entwürfen
.73
.87
Wenn ich vor völlig unerwarteten Situationen stehe, fühle ich mich richtig in
meinem Element.
Flexibilität
Hohe Bereitschaft und Fähigkeit, sich auf neue oder unvorhergesehene Situationen einzustellen und Ungewissheit zu tolerieren; Offenheit
für neue Perspektiven und Methoden; hohe Veränderungsbereitschaft
.72
.83
Ich nehme die Dinge ganz genau.
Gewissenhaftigkeit
Sorgfältiger Arbeitsstil; hohe Zuverlässigkeit; detailorientierte Arbeitsweise; hohe Wertschätzung konzeptionellen Arbeitens; Hang zum
Perfektionismus
.73
.88
Eine Spezialistentätigkeit ist mir lieber
als eine Führungsaufgabe.
Führungsmotivation
Ausgeprägtes Motiv zur sozialen Einflussnahme; Präferierung von
Führungs- und Steuerungsaufgaben; Selbsteinschätzung als Autorität
und Orientierungsmaßstab für andere Personen
.64
.75
Für einige bin ich ein unbequemer
Querdenker.
Gestaltungsmotivation
Ausgeprägtes Motiv, subjektiv erlebte Missstände zu verändern und
Prozesse und Strukturen nach eigenen Vorstellungen gestalten zu
wollen; ausgeprägte Bereitschaft zur Einflussnahme und zur Verfolgung eigener Auffassungen
.69
.81
Bereitschaft zur Auseinandersetzung mit einem hohen Gütemaßstab;
Motiv, hohe Anforderungen an die eigene Leistung zu stellen; große
Anstrengungsbereitschaft, Motiv zur fortwährenden Steigerung der
eigenen Leistungen
Konzeptualisierung
Dimension und Reliabilität
. Tabelle 3.16. Die mit dem BIP erfassten Konstrukte (Bezeichnung der Dimensionen, Bedeutung hoher Skalenausprägung
und trennschärfstes Item mit Trennschärfekoeffizient). (Nach Hossiep & Paschen, 1998, S. 20-21 und 214-227)
Kapitel 3 · Diagnostische Verfahren
(Emotionale) Unabhängigkeit von den Urteilen anderer; hohe Selbstwirksamkeitsüberzeugung; großes Selbstvertrauen bezüglich der eigenen Fähigkeiten und Leistungsvoraussetzungen
Selbsteinschätzung als (physisch) hoch widerstandsfähig und robust;
starke Bereitschaft, sich auch außergewöhnlichen Belastungen auszusetzen und diesen nicht auszuweichen
Ausgeglichene und wenig sprunghafte emotionale Reaktionen; rasche Überwindung von Rückschlägen und Misserfolgen; ausgeprägte
Fähigkeit zur Kontrolle eigener emotionaler Reaktionen
Tendenz zur Dominanz in sozialen Situationen; Bestreben, die eigenen
Ziele auch gegen Widerstände nachhaltig zu verfolgen; hohe Konfliktbereitschaft
Hohe Wertschätzung von Teamarbeit und Kooperation; Bereitschaft
zur aktiven Unterstützung von Teamprozessen; bereitwillige Zurücknahme eigener Profilierungsmöglichkeiten zugunsten der Arbeitsgruppe
Ausgeprägte Präferenz für Sozialverhalten, welches von Freundlichkeit und Rücksichtnahme geprägt ist; Großzügigkeit in Bezug auf
Schwächen der Interaktionspartner; ausgeprägter Wunsch nach einem harmonischen Miteinander
281
.71
Fremdeinschätzungsbogen
Vor Begegnungen mit wichtigen Personen werde ich nervös.
.79
Bei gleichzeitigen Anforderungen von
mehreren Seiten werde ich nervös.
.73
Mich wirft so leicht nichts aus der
Bahn.
.70
Bei Auseinandersetzungen gewinne
ich andere leicht für meine Position.
.84
Ich ziehe es vor, allein zu arbeiten.
.84
Ich ziehe es vor, allein zu arbeiten.
Itembeispiel mit Trennschärfekoeffizient
Konzeptualisierung
Komplettiert wird das Instrumentarium durch 42 Items eines Fremdeinschätzungsbogens, und zwar je drei für jede der 14 Dimensionen. Diese enthalten Aussagen nach
dem Muster »Die von mir einzuschätzende Person... ist motiviert, die eigene Arbeit
kontinuierlich zu verbessern« oder »… ist bestrebt, Missstände zu beseitigen«. Hierbei
muss der »Ausprägungsgrad des Verhaltens« in 9facher Abstufung von »deutlich unterdurchschnittlich« über »durchschnittlich« bis zu »deutlich überdurchschnittlich«
beurteilt werden. Bei dem Fremdeinschätzungsbogen handelt es sich zunächst um ein
heuristisches Hilfsmittel, dessen Einsatz in der diagnostischen Praxis »nur mit einer
gewissen Vorsicht erfolgen« (S. 85) sollte. Gedacht ist primär an einen Einsatz in Assessment Centern, in Teamtrainings, als Stütze bei der Vermittlung von systematischem
Feedback von Mitarbeitern an ihre Vorgesetzten und in Forschungsarbeiten.
.85
Selbstbewusstsein
.92
Belastbarkeit
.89
Emotionale
Stabilität
.85
Durchsetzungsstärke
.89
Teamorientierung
.75
Soziabilität
Cronbach-α-Koeffizient
Dimension und Reliabilität
. Tabelle 3.16 (Fortsetzung)
3.2 · Persönlichkeitsfragebogen
3
3
Verlässlichkeit der
Normen fraglich
Leichte Verfälschbarkeit im Sinne sozialer
Erwünschtheit
Gesonderte Normen
für verschiedene
Geschlechts-, Altersund Berufsgruppen
Unbefriedigende
Korrelationen zwischen
Selbst- und Fremdeinschätzung
Keine Untersuchungen
zur Konstruktvalidität
Kriteriumsvalidität
weitgehend gering
Inkrementelle Validität
nicht belegt
4-Faktoren-Struktur:
»Motivation«, »Stabilität/Belastbarkeit«,
»Soziabilität«,
»Gewissenhaftigkeit«
Gute interne
Konsistenzen und
Reteststabilitäten
nicht alle Vorzüge oder Problembereiche hier behandelt werden; diesbezüglich sei beispielsweise auf die ausführlichen Rezensionen von Heilmann (1999) und Wolff (2000)
verwiesen. Die eingangs gegebene Beschreibung von Konstruktionsprinzipien und Anwendungsschwerpunkten hat aber wohl anklingen lassen, dass selbst die Autoren im
Spannungsfeld zwischen ihrem Anspruch bzw. den Erwartungen einerseits und den
faktischen Gegebenheiten andererseits etwas »taktieren«. Letztlich wollte man ein im
Personalbereich valides Instrument, doch steht dem die prinzipiell leichte Verfälschbarkeit von allen Persönlichkeitsfragebogen im Sinne sozialer Erwünschtheit entgegen, die
immer ins Spiel kommt, wenn es um Situationen mit mehr oder weniger Ernstcharakter geht. In welchem Ausmaß diese empirisch belegt gerade beim BIP auch eine Rolle
spielt, lässt sich nur schwer ermessen. Im Zusammenhang damit stellt sich auch die
Frage der Verlässlichkeit der Normen, die weithin in Forschungssituationen ermittelt
wurden. Das Manual »tut des Guten zuviel« und ist überfrachtet mit zu vielen Informationen, die der Anwender nicht benötigt.
Das BIP stellt ein für den Personalbereich konzipiertes Instrumentarium dar, mit
dessen Hilfe sich die Testpersonen hinsichtlich berufsrelevanter Dimensionen selbst
Bewertung. Aus konzeptuellen Gründen und wegen des beschränkten Platzes können
beiderlei Geschlechts und eines weiten Alters- und Berufsbereiches und sind getrennt
für wesentlich erachtete Gruppen (z. B. Absolventen verschiedener Schultypen, Angehörige bestimmter Berufsgruppen) im Manual ausgewiesen.
Normen. Die Normen (Sten und Stanine) stützen sich auf insgesamt N = 5354 Personen
Schablonen sind Durchführungs- und Auswertungsobjektivität gegeben. Die Skalen
sind intern konsistent (7 die Cronbach-α -Koeffizienten in . Tab. 3.16) in einer Größenordnung um .85. Auf demselben Niveau liegen die Reteststabilitäten. Die Skalen
interkorrelieren im Mittel um ca. .40; eine vom Verfasser durchgeführte Faktorenanalyse der im Manual mitgeteilten Interkorrelationen zeigte eine recht klare 4-FaktorenStruktur (»Motivation«, »Stabilität/Belastbarkeit«, »Soziabilität« und »Gewissenhaftigkeit«).
Was die Validität angeht, so verweisen die Autoren im Manual eingangs darauf, dass
Persönlichkeitstests relativ zu Leistungstests ein Validitätsinkrement aufweisen, also in
einer Batterie von Prädiktoren eigenständige Beiträge zur Aufklärung der Kriteriumsvarianz einbringen könnten. Genau danach sucht man im Manual allerdings vergebens;
dort werden im Wesentlichen nur numerisch völlig unbedeutende multiple Regressionskoeffizienten für die Aufklärung von Abiturnoten oder Kriterien für die Leistung
im ersten Studienabschnitt an Hochschulen und Ähnlichem mitgeteilt. Mit dem beruflichen Entgelt korrelieren die Skalen zu R = .40 (adjustiertes R2 = .15). Ähnlich sind die
Koeffizienten mit anderen Kriterien, wobei einzelne Skalen mitunter um .30 mit den
Außenkriterien korrelieren. Insgesamt sind somit die Überlappungen mit relevant erscheinenden Kriteriumsinformationen relativ gering, wobei allerdings die herangezogenen Stichproben aus naheliegenden Gründen nicht »bevölkerungsrepräsentativ« sein
konnten (und es auch nicht sein sollten). Untersuchungen zur Konstruktvalidität der
einzelnen Skalen fehlen. An zwei größeren Stichproben korrelierten Selbst- und
Fremdeinschätzungsbogen im Mittel der Skalen zu .33 und .40, wenn die Fremdeinschätzer die Zielpersonen aus dem beruflichen bzw. aus dem privaten Bereich her kannten. Weder die Höhe des ersteren Koeffizienten noch die Richtung des Unterschiedes
zum letzteren können angesichts des Anspruchs des Verfahrens befriedigen.
Psychometrische Gütekriterien. Bei Fragebogen mit ausführlicher Instruktion und
Kapitel 3 · Diagnostische Verfahren
Durchführungsund Auswertungsobjektivität gegeben
282
Gliederung. In der Version des SVF 120 sind 20 Subtests mit je 6 Feststellungen der Art
enthalten, für die in . Tab. 3.17 jeweils ein Beispiel mit der höchsten Trennschärfe zur
Janke, W. & Erdmann, G. & Boucsein, W. (Erstaufl. des SVF, 1985, Revision zum SVF
120 1997, 3., erweiterte Aufl. 2002 von W. Janke, G. Erdmann und K. W. Kallus). Göttingen: Hogrefe
Mit dem SVF liegt ein Instrument vor, das einem spezifischen Erlebnis der Gegenwart von nachgerade endemischem Charakter Rechnung trägt: Dem von »jedermann«
beklagten Stress, genauer: Der Art und Weise, wie darauf reagiert und damit fertig zu
werden versucht wird (»coping«), und zwar mit Hilfe psychischer Prozesse, die beim
Auftreten von Belastungssituationen mehr oder weniger gezielt und mehr oder weniger bewusst in Gang gesetzt werden, um diesen Zustand zu reduzieren. Unter Stress
verstehen die Autoren einen psychischen und somatischen Zustand, »der als eine
längerdauernde und/oder stärkere Abweichung von dem zu einem bestimmten Zeitpunkt (oder Zeitabschnitt) normalerweise gegebenen Erregungsniveau zu kennzeichnen ist« (Janke et al., 1985, S. 7). Die Abweichungen in somatischen Parametern zeigen
sich in Veränderungen des Vegetativums und Endokrinums und in psychischen Veränderungen emotionaler und kognitiver Art, wie etwa Gefühlen erhöhter Erregtheit
und Angespanntheit, und manifestieren sich auf der Verhaltensebene in einer veränderten Handlungs- und Aktivitätsbereitschaft.
Bei der Entwicklung des Verfahrens standen u. a. die theoretischen Annahmen Pate,
dass die individuell verwendeten Stressverarbeitungsmaßnahmen als eine Art habitueller Persönlichkeitsmerkmale aufgefasst werden können (»Zeitkonstanz«), die ein
Individuum relativ unabhängig von der Art der Belastungssituation (»Situationskonstanz«), sowie der Art der Belastungsreaktion (»Reaktionskonstanz«) kennzeichnen.
Gewiss ist insbesondere die Annahme der Situationskonstanz diskussionswürdig;
die Autoren halten sie aber zumindest für verbal berichtete Verarbeitungsmaßnahmen
in vorgestellten (nicht aber tatsächlichen) Belastungssituationen für vertretbar. Gemeint ist damit die relative und nicht die absolute Situationskonstanz, die von den
Autoren auch nur für verbal berichtete Verarbeitungsmaßnahmen in vorgestellten
(nicht aber in tatsächlichen) Belastungssituationen postuliert wird und dafür empirisch
(anhand korrelativer Befunde mit situationsbezogener Erfragung von Bewältigungspositionen) belegt wird. Von daher schien ihnen auch die Ausklammerung des situativen
Aspektes bei der Formulierung der Items gerechtfertigt zu sein. Deren Vorspann lautet
demgemäß invariant:
»Wenn ich durch irgend etwas oder irgendjemanden beeinträchtigt, innerlich erregt
oder aus dem Gleichgewicht gebracht worden bin…«.
Die Itemgenerierung erfolgte teils theorie-, teils empiriebezogen; bei der Zusammenstellung zu Subskalen kamen konsistenz- und faktorenanalytische Prinzipien zur
Anwendung.
Stressverarbeitungsfragebogen SVF 120
beschreiben. Die Items bilden intern konsistente und über die Zeit hinreichend stabile
Skalen, deren Punktwerte in mittlerer Höhe miteinander und auch mit den zugeordneten Fremdeinschätzungen korrelieren. Die Validität gegenüber externen Kriterien
übersteigt auf Skalenniveau kaum die .30er-Grenze und erreicht bei Vornahme der
notwendigen Korrekturen auch bei Linearkombinationen numerisch nur bescheidene
Werte. Insgesamt stellt das Verfahren eine gute Grundlage für Exploration und Beratungs- sowie Rückmeldegespräche dar.
3.2 · Persönlichkeitsfragebogen
3
20 Subtests mit je
6 Feststellungen
Itemgenerierung
Annahme der
Situationskonstanz
diskussionswürdig
Theoretische
Annahmen: Zeit-,
Situations- und
Reaktionskonstanz
Definition und
Ausdruck von Stress
Coping = Verarbeitung
SVF 120
283
3
Traits und States
Kurzform SVF 78 mit
13 Skalen
Normierungsstichprobe nicht sehr
umfangreich
Geringe Beziehungen
zu physiologischen
Maßen
Gute »differentielle«
Validität«
Verfahren zur Erfassung aktueller Zustände
Die bisher vorgestellten Instrumente dienten der Erfassung von individuellen Unterschieden in habituellen Eigenschaften, also relativ breiten und zeitlich stabilen Dispositionen zu bestimmten Verhaltensweisen, die konsistent in verschiedenen Situationen
auftreten (s. Graumann, 1960, S. 146). Von diesen Traits sind bekanntlich die zeitlich
viel stärker fluktuierenden States oder Zustände zu unterscheiden. States entsprechen
3.2.4
Anmerkung. Janke und Erdmann haben 2002 eine SVF 78 genannte Kurzform des SVF
120 veröffentlicht. Sie enthält nur 13 der 20 Subtests des SVF 120 (weggelassen: Selbstbestätigung, Entspannung, Soziale Abkapselung, Selbstbemitleidung, Aggression und
Pharmakaeinnahme). Die Anzahl der Items pro Subtest blieb unverändert. Ziel der
Autoren war es, für bestimmte Anwendungszwecke eine ökonomischere Version zur
Verfügung zu stellen, ohne grundlegende Merkmale des SVF 120 wie die faktorielle
Struktur, die Differenzierung von positiven und negativen Stressverarbeitungsstrategien und die Kennwerte der Skalen zu verändern.
Fazit
Mit 20 Dimensionen liefert der SVF 120 ein sehr differenziertes Beschreibungssystem zu habituellen Reaktionsformen bei auftretendem Stress. In der Mehrzahl sind
die Subskalen reliabel und auch zeitstabil. In empirischen und experimentellen
Untersuchungen haben sie eine inkrementelle Validität gegenüber Maßen der emotionalen Labilität gezeigt, was ihre Nützlichkeit nachhaltig belegt.
den beiderlei Geschlechts im Alter zwischen 20 und 64 Jahren sowie einer Zusatzgruppe von 96 Personen im Alter von 65 bis 79 Jahren, für die jeweils gesondert (Roh-)
Mittelwerte und Standardabweichungen mitgeteilt werden. Diese »Normen« sind zwar
aktuell, doch wäre auf lange Sicht eine zahlenmäßig breitere Basis wünschenswert.
Normierung. Die Standardisierungsstichprobe für den SVF 120 besteht aus 288 Proban-
Validität. In Bezug darauf enthalten die Manuale in absolut vorbildlicher Weise die
Ergebnisse sehr vieler und verschiedener Untersuchungsansätze, von denen hier nur
ein unzureichender Ausschnitt referiert werden kann. Die Positiv-Strategien sind untereinander in mittlerer Höhe interkorreliert, aber orthogonal zu den Negativ-Strategien; diese wiederum korrelieren mit dem Syndrom von Emotionaler Labilität. Einzelne Skalen trennten erfolgreich kranke von gesunden Personen und auch verschiedene
Krankheitsgruppen voneinander (»differentielle« Validität). Im Zuge experimenteller
Validierungen sprachen die Resultate dafür, dass die positiven Strategien um –.20, die
negativen um +.50 mit subjektiven Stressreaktionen, erfasst durch Befindensmaße,
korrelierten; diese Korrelationen sinken zwar bei Herauspartialisierung von emotionaler Labilität, bleiben aber namentlich im Falle der Negativ-Strategien auf signifikantem
Niveau. (Aufschlussreich wäre eine Prüfung der Frage, ob sich ähnliche Effekte auch bei
einer Herauspartialisierung von aktuellen Befindlichkeitsunterschieden sensu EWL
einstellen, zu denen gleichfalls Korrelationen bestehen.) Umgekehrt zeigte sich auch bei
einer Kombination von emotionaler Labilität und den Negativ-Strategien ein eigenständiger Prädiktionsbeitrag der SVF-Variablen. Sehr viel niedriger liegen die Beziehungen
zu objektiven physiologischen Maßen.
Kapitel 3 · Diagnostische Verfahren
Große Zahl
an Validitätsansätzen
286
in grober Annäherung dem umgangssprachlichen Stimmungsbegriff. Es handelt sich
hierbei um temporäre Zustände von Aktivation, Entspannung, guter Stimmung usw.
Gleichsam aus der Summation von Stateeinheiten resultieren die Traits, weshalb die
Übergänge zwischen aktuellen und habituellen Zuständen fließend sind und die Grenzziehung in gewisser Weise willkürlich ist (Allen & Potkay, 1981). Deutlich wird diese
auch, wenn man von Traits als den relativ stabilen und überdauernden, von States hingegen als den relativ temporären Charakteristika spricht. Die notwendigen Unterscheidungen auf dem unterstellten Kontinuum geraten noch problematischer, wenn auch
änderungssensitive Traits konzediert werden oder – wie es Janke und Hüppe (1991)
explizit tun – zwischen Stimmungen als zeitlich ausgedehnten Gefühlen und den langfristigen Merkmalen der Emotionalität »mittelfristige Zustände« vorgesehen werden
(wie z. B. depressive Verstimmungen). Von dort ist es nur noch ein kleiner Schritt zu
der Auffassung, dass jedes psychologische Attribut sowohl State- als auch Traitkomponenten aufweist. Steyer et al. (1992) vertreten diese Position und haben Rechenmodelle
zur Analyse der besagten Anteile vorgestellt. Für die Erfassung von States, die intraindividuell als die situations- oder zeitbedingten Unterschiede im Erleben oder Verhalten
einer Person definiert werden, sind verschiedene Instrumente entwickelt worden, die
spezifische Charakteristika aufweisen. Gewöhnlich handelt es sich dabei um Listen von
Eigenschaftswörtern oder kurzen Erlebnisbeschreibungen (»Ich bin …«, »Ich fühle
mich …«), zu denen Stellung genommen werden muss, ob und ggf. inwieweit sie den
momentanen Zustand treffend kennzeichnen.
Die Messintention von States zu erfassen, würde verlangen, dass solche Variablen
einen gemeinsamen Faktor oder eine Skala konstituieren, die über Messzeitpunkte oder
Situationen hinweg miteinander korrelieren. Diese Faktoren würden dann nur für die
betreffende Person bzw. – sofern die Daten vorher über Probanden aggregiert wurden
– für eine fiktive Durchschnittsperson gelten. Reliabilität müsste als ein Maß dafür
aufgefasst werden, inwieweit intraindividuelle Unterschiede bei erneuter Realisation
der Situation reproduzierbar sind (Köhler, 1979). Dabei stellt sich u. a. das Problem,
nach welchen Gesichtspunkten die Stichprobe der Situationen gezogen werden soll,
weil eine entsprechende Situation/ Population kaum zu definieren ist. Solche Vorgaben
erfordern generell Längsschnittstudien oder Untersuchungen in verschiedenen Situationen, mit daran ansetzenden P-Analysen (= Korrelation zwischen Variablen einer
Person über Situationen; z. B. die Registrierung von Puls und Atemfrequenz bei der
Vorgabe verschieden stark angstauslösender Bilder).
Von ganz wenigen Ausnahmen abgesehen basieren die allermeisten Statetests aber
auf Querschnittsanalysen und auf nur einmaliger Vorgabe der Items mit nachgeschalteten R-Analysen, also der Korrelation zwischen Variablen über Probanden. Dies ist ein
Ansatz, der Faktoren nach der Kovariation der Variablen über die Personen bestimmt.
Damit werden die stabilen interindividuellen Unterschiede zu Lasten intraindividueller
Veränderungen kontraproduktiv maximiert.
Obwohl diese Prinzipien allgemein bekannt sind, wurden sie doch nur selten umgesetzt. Im deutschen Sprachraum hat Gräser (1979) die 96 Items des Eight State Questionnaire von Curran und Cattell (1970) übersetzt und es von 7 Probanden an 28 aufeinanderfolgenden Tagen bearbeiten lassen. Becker (1988) gab 10 Probanden die Eigenschaftswörterliste (EWL) von Janke und Debus (1978) mit der Instruktion vor, an
etwa 100 aufeinanderfolgenden Tagen die aktuelle Befindlichkeit einzuschätzen (s. auch
Becker et al.,1989). Mit Hilfe von P-Analysen wurden 28 Items identifiziert, die sich zu
den 3 Faktoren »Aktiviertheit«, »gedrückte vs. gehobene Stimmung« und »Gereiztheit«
gruppieren. Die später zu besprechenden Verfahren, das State-Trait-Angst-Inventar
3.2 · Persönlichkeitsfragebogen
3
Beispiele für
Längsschnittstudien
Selten Umsetzung der
Prinzipien
Tests basieren auf
Querschnittsanalysen
Vorgaben erfordern
Längsschnittstudien
Listen zur Zustandsbeschreibung
Hat jedes Attribut
State- und Traitkomponenten?
Mittelfristige Zustände
Fließende Übergänge
aufgrund des willkürlichen Charakters einer
Grenzziehung
287
3
2 Skalen mit je
20 Items
STAI
Befindensmaße
werden nicht normiert
Abgrenzung zu
Situations-ResponseFragebogen
matierung »Ich bin ruhig« oder »Mir ist zum Weinen zumute«, auf die in 4fach abgestufter Weise mit »überhaupt nicht/ein wenig/ziemlich/sehr« (State) bzw. »fast nie/
Gliederung. Das STAI enthält 2 Skalen mit je 20 (teilweise identischen) Items der For-
Laux, L. et al. (1981). Weinheim: Beltz
Das Verfahren stellt die deutschsprachige Adaptation des von Spielberger et al.
(1970) entwickelten »State-Trait-Anxiety Inventory« dar. Für die Stateskala der amerikanischen Originalversion hatten sich solche Items qualifiziert, die neben einer zufriedenstellenden Trennschärfe höhere Mittelwerte in einer vorgestellten Prüfungssituation als unter einer neutralen Situation aufwiesen.
Das State-Trait-Angst-Inventar-STAI
Wenn mehrfach bei Statetests von einem stärkeren Einfluss situativer Bedingungen
gesprochen wurde, so bleibt das Attribut »situationsspezifisch« doch zur Kennzeichnung jener ganz anderen Kategorie von Verfahren reserviert, in denen Instruktion
und/oder Itemtext einen direkten Bezug auf Situationen nehmen, wie das in den sog.
Situations-Response-(S-R-)Fragebogen üblich ist (z. B. »Stellen Sie sich vor, Sie gehen
allein durch einen dunklen Wald …«).
Weil das momentane Befinden immer von der Situation abhängt, in der sich die
Person gerade befindet, und es keine einheitliche »Standardsituation« gibt, werden
Befindensmaße nicht normiert. Eine Normierung wäre nur für spezifische Situationen sinnvoll, die sowohl relativ invariant sind als auch hinreichend viele Menschen
betreffen.
STAI von Laux et al. (1981) und die Eigenschaftswörterliste EWL von Janke und Debus
(1978), die im Unterschied zu den vorgenannten Verfahrensentwicklungen eine sehr
verbreitete Anwendung gefunden haben, fußen hingegen auf Querschnittplänen – mit
allen daraus resultierenden prinzipiell bedingten Defiziten (auf die dann nicht noch
einmal gesondert eingegangen zu werden braucht).
Ob die im interindividuellen Vergleich ermittelten Resultate denen aus intraindividuellen Analysen entsprechen, ist in methodisch befriedigender Weise nicht leicht
zu beantworten. Watson (1988) ließ 80 Probanden während 6–8 Wochen täglich ihre
negativen und positiven Gefühle einstufen. Beschwerden sowie Stress korrelierten
nur mit negativer, soziale Aktivitäten und körperliche Bewegung nur mit positiver Stimmung. Ein ähnliches Muster ergab sich auch für die intraindividuellen Veränderungen.
Muss man mit den Beschränkungen von querschnittlichen Erhebungen auskommen, richtet sich das Augenmerk i. Allg. darauf, ob (wenigstens) die folgenden Anforderungen erfüllt sind:
1. Im Hinblick auf die bei Statetests gewünschte Änderungssensitivität wird erwartet,
dass sie gegenüber einer Variation des situativen Kontextes (z. B. Instruktionsvarianten; Vorstellen verschieden bedrohlicher Situationen) mit unterschiedlichen
Mittelwerten reagieren. Das heißt, solche Tests lassen die relative Invarianz der
Mittelwerte, wie sie von Traittests verlangt wird, gerade nicht erkennen.
2. Des Weiteren darf oder soll sogar die Retestreliabilität niedriger liegen als bei Traittests. Allerdings muss die interne Konsistenz hoch sein, weil anderenfalls die niedrige Stabilität als Ausdruck von Fehlervarianz gelten könnte.
3. Die Korrelationen zwischen Traittests zu ein und demselben Konstrukt sowie zwischen Statetests mit gleichem Gültigkeitsanspruch müssen höher sein als diejenigen
zwischen State- und Traittests zum gleichen Bereich.
Kapitel 3 · Diagnostische Verfahren
Anforderungen an
Statetests
288
Validität. Die mitgeteilten Hinweise auf die Gültigkeit sind mannigfaltig, was für die
große Umsicht bei der Überprüfung des Verfahrens spricht. Sowohl in der State- als
auch der Traitskala weisen Frauen etwas höhere Mittelwerte auf als Männer, ein Trend,
der sich mit zunehmendem Alter verstärkt. Klinische Gruppen (Neurotiker, Alkoholiker und Schizophrene) zeigten durchschnittlich höhere Trait-Angst-Werte als »unauffällig-normale« Kontrollpersonen. Besonders hohe Mittelwerte finden sich, was ebenfalls den Erwartungen entspricht, bei Patienten mit spezifischen Phobien und solchen
mit generalisierten Ängsten. Darüber hinaus variierten die Mittelwerte der Traitskala
zwischen neutralen und Klausursituationen nur unbedeutend, während die Stateskala
erhebliche Schwankungen erkennen ließ.
State- und Traitskala korrelieren miteinander um .60. Trait-Angst steht mit Skalen
eines ähnlichen Gültigkeitsanspruches in Beziehung (z. B. EPI-Neurotizismus r = .77,
FPI-Nervosität r = .74, FPI-Depressivität r = .72, FPI-Gelassenheit r = –.77, FPI-Gehemmtheit r = .67, FPI-emotionale Labilität r = .70). Bei einer Bearbeitung des STAI
und der Eigenschaftswörterliste EWL von Janke und Debus (1978; 7 unten) durch eine
Stichprobe von N = 136 Probanden lagen die Korrelationen der Statescores mit den
Skalen der EWL, von einer Ausnahme abgesehen, jeweils über denen der Traitwerte.
Erwartungsgemäß bestanden die engsten Beziehungen zu den EWL-Skalen Ängstlichkeit (.62), Depressivität (.68), Ärger (.66), Erregtheit (.69) und Selbstsicherheit (–.65).
Reliabilität. Sowohl für die State- als auch die Traitskala liegen die Konsistenzen bei .90
und leicht darüber (in der Gesamtstichprobe und allen Normierungssubgruppen; eine
Ausnahme bilden lediglich die 15- bis 29jährigen Männer mit rtt= .89). An 2 unterschiedlichen Stichproben von Studierenden lagen in wiederholten Retestungen zu allen
Messzeitpunkten (längstes Intervall 73 Tage) die Stabilitäten für die Stateskala jeweils
deutlich niedriger als diejenigen der Traitskala (arithmetische Mittel rtt = .43 bzw. .86).
Das Niveau und die Gesamtkonfiguration dieser Werte können damit als gut bezeichnet werden.
Normierung. Da Alters- und Geschlechtseffekte bestehen, sind getrennte Normen
(T-Werte; M = 50, s = 10) für je 3 Altersgruppen von Männern und Frauen vorgesehen.
Die Normierungsstichprobe bestand aus insgesamt N = 2385 repräsentativ ausgewählten Personen. Für die Stateskala liegen keine Normen vor.
Durchführung und Auswertung. Bei gemeinsamer Anwendung der Skalen soll die
State- stets vor der Traitvariante bearbeitet werden. Die Instruktion für den Stateteil
verlangt von den Probanden, so zu antworten, »wie Sie sich jetzt, d. h. in diesem Moment fühlen … (und) diejenige Antwort auszuwählen, die Ihren augenblicklichen Gefühlszustand am besten beschreibt.« Die entsprechenden Passagen in der Traitinstruktion lauten, so anzukreuzen, »wie Sie sich im allgemeinen fühlen«.
Die Bearbeitung und auch die mit einer Schablone vorgenommene Auswertung
dauern nur wenige Minuten.
manchmal/oft/fast immer« (Trait) geantwortet werden muss. Ein Teil der Items ist in
Richtung Angst, ein anderer in Richtung auf Angstfreiheit formuliert.
Innerhalb der Traitskala weisen die Items »Ich bin ausgelassen« (.61; Männer) und
»Ich neige dazu, alles schwer zu nehmen« (.68; Frauen) die höchsten Trennschärfen auf;
in der Stateskala sind dies »Ich fühle mich wohl« (.66; Männer) und »Ich bin nervös«
(.68; Frauen, jeweils Eichstichprobe).
3.2 · Persönlichkeitsfragebogen
3
Validierung der
Trait-Angst-Skala
Höhere Trait-AngstWerte für klinische
Gruppen
Höhere Mittelwerte
für Frauen
Insgesamt gute
Reliabilität
3 Altersgruppen,
getrennte Normen für
Männer und Frauen
Auswertung mittels
Schablone
Bearbeitungsreihenfolge erst State, dann
Trait
289
3
15 Befindlichkeitsbereiche
Normal- und
Kurzversion
161 Items, eine kürzere (EWL-K) mit einer Teilmenge der Attribute aus der längeren
Form beinhaltet 123 Adjektive. Sie ist hauptsächlich für den Einsatz bei Patienten vorgesehen.
Nachfolgend wird nur die EWL-N vorgestellt. Sie zielt auf die Erfassung von 15
Befindlichkeitsbereichen, von denen jeder durch eine gesonderte Skala abgedeckt ist.
Gliederung. Die EWL liegt in 2 Formen vor: Die »Normalversion« (EWL-N) enthält
Janke, W. & Debus, G. (1978). Göttingen: Hogrefe
Bei der EWL handelt es sich um ein mehrdimensionales Verfahren zur quantitativen
Beschreibung des aktuellen Befindens.
Die Eigenschaftswörterliste EWL
Fazit
Ob an einem gesonderten Test für habituelle Ängstlichkeit angesichts der gerade
dazu zahlreich vorhandenen Skalen ein besonderer Bedarf besteht, muss hier nicht
beurteilt werden. Fraglos aber herrscht ein gewisser Mangel an Verfahren zur Abschätzung aktueller Zustände. Die beiden Skalen des STAI entstammen einer international sehr anerkannten Angst- und Ängstlichkeitstheorie, und sie sind von
bemerkenswerter Ökonomie sowie Messgenauigkeit. Das Angstkonzept von Spielberger et al. (1970) darf nicht mit der umgangssprachlichen Bedeutung von Angst
gleichgesetzt werden. Nicht nur Laien ist schwer zu vermitteln, dass Angst auch
durch das Fehlen von positiven Gefühlen gemessen werden soll (dass trennschärfste Item für Männer lautet »Ich fühle mich wohl« – die Abwesenheit von positiven
Gefühle ist auch für andere negative Zustände wie Ärger, Ekel oder Scham charakteristisch). Die Items der Ängstlichkeitsskala (trennschärfste Items: »Ich neige dazu,
alles schwer zu nehmen«, »Unwichtige Gedanken gehen mir durch den Kopf und
bedrücken mich«) könnten ebenso in einem Depressions- oder Neurotizismusfragebogen stehen. Entsprechend hoch fallen die Korrelationen mit solchen Fragebogen
aus (7 oben).
Vor dem Hintergrund des prinzipiell suboptimalen Ansatzes bei der Konstruktion
der Stateskala kann die nachgewiesene Änderungssensitivität gegenüber unterschiedlich angsteinflößenden Situationen durchaus als respektabel angesehen werden. Ob die interindividuellen Unterschiede im Ausmaß aktueller Ängste in jeder
der Situationen allerdings valide prognostiziert werden, bleibt vorerst offen.
In einigen Untersuchungen erwies sich die Trait- (aber nicht die State-)angst als
wirksamer Prädiktor (Krohne & Hindel, 1988; Schwenkmezger & Laux, 1986) für differentielle Reaktionen in bewertenden Situationen. Andererseits haben Steyer et al.
(1989) eine klare Trennung von State- und Traitvariablen gefunden, wobei die Statevariablen hohe Spezifitäts- und Konsistenzkoeffizienten zeigten, wohingegen die
Traitvariablen nur hohe Konsistenzen, aber sehr niedrige Spezifitäten aufwiesen. Glanzmann (1985, S. 171) äußert die Vermutung, dass die retrospektiv erfasste Zustandsangst
»weniger als Indikator eines abstrakten Angstniveaus zu interpretieren ist, sondern eher
als Ausdruck unterschiedlicher Verarbeitungsreaktionen Hoch- und Niedrigängstlicher
anzusehen ist.« Vertiefende Bemerkungen zur Theorie und Messung von Ängstlichkeit
finden sich bei Laux und Glanzmann (1996).
Studien zu Fremdeinschätzungen und solchen unter Einbezug physiologischer Indikatoren fehlen im Manual.
Kapitel 3 · Diagnostische Verfahren
Klare Trennung
von State- und Traitvariablen
290
3
292
O Verträumtheit
N Deprimiertheit
M Ängstlichkeit
L Ärger
K Empfindlichkeit
J Erregtheit
I Gehobene Stimmung
H Selbstsicherheit
G Introvertiertheit
F Extravertiertheit
E Benommenheit
D Müdigkeit
C Desaktiviertheit
beklommen
schreckhaft
traurig
sorgenvoll
tiefsinnig
gedankenverloren
aufgeregt
kribbelig
erregbar
verletzbar
ungehalten
gereizt
unbekümmert
sorgenfrei
heiter
gesprächig
offen
ungesellig
wortkarg
10
20
7
7
4
15
16
8
8
.81
.93
.77
.78
.75
.88
.94
.81
.86
.81
.76
9
9
.87
.91
7
16
.78
6
energielos
lahm
schläfrig
erschöpft
dösig
schlaftrunken
.93
19
energischa
tatkräftig
aufmerksam
wachsam
Reliabilitätb
Itemzahl
Beispielwörter
Verfahren zur Erfassung von Interessen
Interessentests dienen vor allem der Beratung bei der Berufswahl. Früher in der Praxis
gerne verwendete und sorgfältig konstruierte Fragebogen wie der Differentielle Interessentest DIT (Todt, 1971) oder der Berufsinteressentest BIT-II (Irle & Allehoff, 1984)
sind heute wegen ihrer zum Teil nicht mehr ganz zeitgemäßen Items und der alten
Normen für Beratungszwecke kaum noch brauchbar. Diese Fragebogen funktionieren
nach zwei Prinzipien: Die Probanden stufen ein, wie gerne sie bestimmte Tätigkeiten
ausüben (z. B. die Entstehung von Meeresströmungen erforschen – ein Item zur Inte-
3.2.5
Anmerkung: a Zu den Beispielwörtern zählt stets auch die Adjektivform der Skalenbezeichnung, bei Aktiviertheit also aktiv usw., doch sind diese Wörter zur Vermeidung von Redundanzen hier nicht aufgeführt. b Aus der Analysenstichprobe II: N = 937 unausgelesene männliche
und weibliche Personen aller Bildungsstufen im Alter von 18-65 Jahren.
Angst
Emotionale Gereiztheit
Allgemeines Wohlbefinden
Extraversion/Introversion
Allgemeine Desaktivität
A Aktiviertheit
Leistungsbezogene Aktivität
B Konzentriertheit
Subskala
Bereich
. Tabelle 3.18. Merkmalsbereiche und Skalenbezeichnungen der EWL
Kapitel 3 · Diagnostische Verfahren
Realistisch, handwerklichtechnisch
Intellektuell, untersuchendforschend
Kreativ, künstlerisch,
sprachlich, gestalterisch
Sozial, erziehend-pflegend
Unternehmerisch, führendorganisierend-verkaufend
Konventionell, ordnendverwaltend
R (Realistic)
I (Investigative)
A (Artistic)
S (Social)
E (Enterprising)
C (Conventional)
Anmerkung. Nach Jörin et al. (2004, S. 12 f.).
Charakterisierung
Typ
Anpassung, gesellschaftliche Normen
Finanzieller Erfolg,
Verantwortung
Helfen, Beziehungen
Künstlerischer Ausdruck, Kultur
Wissen/Lernen
Gesunder Menschenverstand
Werte, Ziele
. Tabelle 3.19. Die RIASEC-Typen der Berufwahltheorie von Holland
Kaufmännischer Angestellter, Kassierer
Verkäufer, Politiker
Lehrer, Psychotherapeut
Musiker, Schauspieler
Physiker, Forscher
Zimmermann,
Landwirt
Berufsbeispiele
Deutschsprachige Adaptation und Weiterentwicklung des Self-Directed Search
(SDS) nach John Holland. S. Jörin, F. Stoll, C. Bergmann und F. Eder (2004). Bern:
Huber.
EXPLORIX wurde zur Unterstützung bei der Berufswahl und der Laufbahnplanung
entwickelt. Eine Besonderheit ist, dass der Fragebogen auch online zur Selbsttestung
mit anschließendem Ergebnisbericht angeboten wird. Theoretischer Hintergrund ist
die Berufswahltheorie von John Holland, die erstmals 1959 vorgestellt und seitdem bis
zur letzten Fassung von 1997 weiterentwickelt worden ist. Die Testautoren geben an,
dass international über 500 Studien zu dieser Theorie vorliegen. Holland postuliert,
dass sich sechs Interessen- bzw. Persönlichkeitstypen unterscheiden lassen und analog
dazu sechs Typen von Arbeitsumgebungen existieren, weil die Umwelten von den Menschen geprägt werden, die in ihnen tätig sind. In . Tab. 3.19 werden die sechs Typen
kurz charakterisiert.
EXPLORIX – das Werkzeug zur Berufswahl und Laufbahnplanung
ressenrichtung Technik und Naturwissenschaften aus dem DIT) oder bestimmte Bücher oder Zeitschriften lesen würden. Im BIT-II kommen zusätzlich Items mit dem
Forced-Choice Antwortformat zum Einsatz; die Probanden haben immer bei vier zur
Auswahl stehenden Tätigkeiten zu entscheiden, welche ihnen am besten (+) und welche am wenigsten (–) gefällt. Anstelle von verbalen Items können auch Bilder zur
Messung von Interessen verwendet werden. Bei der Foto-Interessentest – Serie FIT
(Toggweiler, Jungo & Stoll, 2003) sortieren die Probanden Fotos, die Menschen bei
einer beruflichen Tätigkeit zeigen, in drei Kategorien: Tätigkeit interessiert mich –
stößt mich eher ab – ist mir gleichgültig. Im Folgenden wird ein Interessentest neueren
Datums vorgestellt, der durch eine gute theoretische Fundierung und einen breiten
Messansatz besticht.
3.2 · Persönlichkeitsfragebogen
3
6 Interessenstypen
Hintergrund:
Berufswahltheorie von
Holland
Verbale
Beschreibungen oder
Bilder
Ratings oder ForcedChoice Items
293
3
Typen-Skalen
relativ unabhängig
voneinander
Hohe Reliabilitäten
Hinweis auf passende
Berufe
»Holland-Code«
Test kann selbstständig durchgeführt und
ausgewertet werden
Validität. Die sechs Typen-Skalen sind relativ unabhängig voneinander (höchste Korrelation: rS–A = .48). Faktorenanalysen mit schiefwinkliger Rotation der 24 Subskalen
(Tätigkeiten, Berufe, Selbsteinschätzung und Fähigkeiten für R, I, A, S, E und C) ergeben sechs schwach korrelierte Faktoren, die den sechs Typen entsprechen. Erwar-
im Durchschnitt bei .89; den niedrigsten Wert erreicht Typ C mit .86, die höchsten
mit .90 die Typen S und E. Für eine Kurzform bestehend aus den Skalen Tätigkeiten
und Fähigkeiten beträgt die Retestreliabilität bei einem Zeitintervall von 15 bis 18
Monaten im Durchschnitt .80 (von .63 für C bis .87 für A). Für die vier Subtests
werden durchschnittliche Konsistenzen von .77 (Tätigkeiten) bis .80 (Berufe) berichtet.
Reliabilität. Die Internen Konsistenzen (Cronbachs α) für die sechs Typen liegen
Durchführung und Auswertung. EXPLORIX kann selbstständig durchgeführt werden. Auch eine Gruppenuntersuchung ist möglich. Der Proband wertet den Test im
Regelfall selbst aus. Für jeden Interessenstyp zählt er die zustimmenden Antworten aus.
Dabei ist die blockweise Anordnung der Items hilfreich. Bei den Selbsteinschätzungen
überträgt er lediglich die Skalenwerte auf das Auswertungsblatt. Schließlich bildet er
für jeden Interessenstyp die Summe über alle Subtests. Der höchste, zweithöchste und
dritthöchste Wert ergibt den Holland-Code (Beispiel: R = 40, I = 35, A = 20, S = 25,
E = 30, C = 20 = RIE). In einem länderspezifischen Berufsregister, das für Deutschland 1086 Berufe und Funktionen umfasst, sind für alle Holland-Codes passende
Berufe mit Angabe des notwendigen Bildungsweges aufgeführt (für RIE ca. 40 Berufe
von Biolandwirt/in bis Werkstoffingenieur/in). Die Autoren raten, für alle sechs Permutationen des Dreiercodes (im Beispiel also auch REI, IER, IRE, EIR, ERI) die Berufe nachzuschlagen. Wenn bereits ein Berufswunsch geäußert wurde, kann der Holland-Code für diesen Beruf mit dem Code des Probanden verglichen werden. Die
Beantwortung der 218 Items und die anschließende Auswertung nehmen jeweils ca.
20 min in Anspruch.
4 Tätigkeiten (11 Items pro Typ). Wie gern würde der Proband Tätigkeiten wie
»aus Holz ein Büchergestell zimmern« (R) oder »kunstvolle Fotos machen« (A)
ausführen?
4 Fähigkeiten (11 Items pro Typ). Welche Tätigkeiten wie »gut vor Leuten sprechen« (E) oder »mit großer Ausdauer sorgfältig arbeiten« (C) kann der Proband
gut oder kompetent ausführen?
4 Berufe (14 Items pro Typ). Welche Berufe wie »Wissenschaftsjournalist/in« (I)
oder »Gerichtsbeamter/-beamtin« (C) interessieren den Probanden oder sprechen ihn an?
4 Selbsteinschätzung (2 Items pro Typ). Wie schätzt der Proband seine Fähigkeiten wie »Verkaufsgeschick« (E) oder »Einfühlungsvermögen« (S) ein.
Gliederung. Im Anschluss an einige Fragen mit freier Beantwortung, darunter eine
Auflistung von Berufen, die der Proband schon in Betracht gezogen hat (»Berufsträume, Wünsche und Ideen«), folgen vier Untertests, in denen die Items blockweise nach
den Holland-Typen aufgeführt sind (in Klammern die Zuordnung zum Typ; Erläuterung der Abkürzungen in . Tab. 3.19):
Kapitel 3 · Diagnostische Verfahren
4 Untertests
294
Verfahren zur Erfassung der Motivation
Von den zahlreichen Motiven, die postuliert wurden, hat das Leistungsmotiv in
der Forschung und bei der Entwicklung von Messinstrumenten mit Abstand die
größte Aufmerksamkeit gefunden. Zur Leistungsmotivation liegen im deutschen
Sprachraum drei normierte Fragebogen vor: Der Leistungs Motivations Test LMT
von Hermans, Petermann und Zielinski (1978) mit vier Skalen (Leistungsstreben,
Ausdauer und Fleiß, Leistungsfördernde Prüfungsangst und Leistungshemmende
Prüfungsangst), der Leistungsmotivationstest für Jugendliche LMT-J von Hermans (1976) mit ebenfalls vier Skalen (Leistungs- und Erfolgsstreben, Positive Erfolgsbesorgtheit, Negative Erfolgsbesorgtheit sowie Soziale Erwünschtheit) und das
Leistungsmotivationsinventar LMI (Schuler & Prochaska, 2001). Das LMI soll als
das neuste und auch differenzierteste Verfahren ausführlich vorgestellt werden
(7 unten).
3.2.6
und viel versprechende Innovation dar. Das Verfahren ist theoretisch gut fundiert und
empirisch bereits relativ gut untersucht. Die Skalen messen mit hoher Zuverlässigkeit
sechs gut unterscheidbare Interessenstypen. Das Testheft mit den Interpretationshilfen
und Tipps zum weiteren Vorgehen bei der Berufswahl ist sehr benutzerfreundlich.
Befunde zur Kriteriumsvalidität fehlen jedoch noch; die von den Autoren berichteten
Korrelationen mit einem anderen Interessentest und dem NEO-FFI gehören lediglich
zur Konstruktvalidität. Wünschenswert ist der Nachweis, dass eine Beratung unter
Zuhilfenahme von EXPLORIX zu einer größeren späteren Berufszufriedenheit führt
als eine Beratung ohne dieses Instrument. Ferner sollten zufriedene Stelleninhaber
häufiger den zu ihrem Beruf passenden Holland-Code aufweisen als unzufriedene. Die
empirische Grundlage für den Verzicht auf Normen überzeugt nicht; von gleichen
Mittelwerten und Streuungen der sechs Skalen ist, wie bereits erwähnt, nicht auszugehen. Bei einer Revision des Verfahrens könnten die Skalen durch eine veränderte Itemauswahl und/oder Ergänzung um weitere Items auf gleiche Mittelwerte und Streuungen
eingestellt werden.
Bewertung. EXPLORIX stellt auf dem deutschsprachigen Testmarkt eine interessante
3 Leistungsmotivationsfragebogen
Verzicht auf Normen
problematisch
Kriteriumsvalidität?
Auswertung mit
Schablonen mühsam
17 Skalen plus
Kurzform
17 Dimensionen
»Zwiebelmodell«
Benutzerfreundlich
3
Durchführung und Auswertung. Das LMI kann einzeln oder in Gruppensitzungen
durchgeführt werden. Die Bearbeitung der 170 Items, die auf einer Skala von 1 (trifft
gar nicht zu) bis 7 (trifft vollständig zu) zu beantworten sind, nimmt etwa 30 – 40 min
in Anspruch; für die Kurzform genügen etwa 10 min. Die Auswertung der Langform
mit Schablonen ist außerordentlich mühsam, weil zehn Seiten des Testhefts durchzusehen, bei einigen Items Invertierungen vorzunehmen, die 170 Zahlenwerte auf einem
Auswertungsbogen einzutragen und zu addieren sind.
Gliederung. Das LMI umfasst 17 Skalen mit je zehn Items (. Tab. 3.20). Die Items
können jedoch auch zu einem Gesamtwert verrechnet werden. Anwender, die nicht an
einem differenzierten Persönlichkeitsbild ihrer Probanden interessiert sind, sondern
nur »die« Leistungsmotivation messen wollen, können die Kurzskala mit 30 Items einsetzen. Die Items wurden nach ihren Trennschärfen für den Gesamtwert aus der Langform herausgefiltert.
Schuler, H. & Prochaska, M (2001). Göttingen: Hogrefe
Die Autoren verfolgten bei der Entwicklung des LMI das Ziel, ein Verfahren zur
»breiten« Messung der berufsbezogenen Leistungsmotivation bereit zu stellen. Sie kamen bei ihren Vorarbeiten zu der Erkenntnis, dass es sich bei der Leistungsmotivation
um ein breites Konzept ohne scharfe Grenzen zu handeln scheint. Diesen Zustand
charakterisieren sie durch ihr »Zwiebelmodell«: Einige Merkmale sind zentral für die
Leistungsmotivation und bilden die »Kernfacette«. Dazu gehören etwa Beharrlichkeit
und Erfolgshoffnung. Andere wie z. B. Selbstständigkeit und Statusorientierung liegen
weiter in der Peripherie (»Randfacetten«). Noch weiter in der Peripherie liegen Merkmale wie etwa Selbstvertrauen und Kontrollüberzeugung, die der Leistungsmotivation
zumindest theoretisch verbunden sind. Im äußeren Randbereich schließlich sind Merkmale wie Gewissenhaftigkeit und Neurotizismus angesiedelt, die als »Hintergrundmerkmale« einen Einfluss auf die Leistungsmotivation ausüben. Vor dem Hintergrund
dieser Konzeption ist es nicht verwunderlich, dass die Autoren insgesamt 728 Items in
die Vorauswahl nahmen. Diese Zahl reduzierte sich allerdings in mehreren Auswahlschritten. Die Autoren beschreiben ihr Vorgehen als »Wechsel von phänomenologischrationaler und empirischer Strategie« (S. 12). Am Ende sahen sie 17 Dimensionen als
angemessen zur Beschreibung der beruflichen Leistungsmotivation an.
Leistungsmotivationsinventar LMI
Auch einige der bereits vorgestellten Persönlichkeitsinventare (7 Abschn. 3.2.3) enthalten Skalen zur Leistungsmotivation. Im Bochumer Inventar zur berufsbezogenen
Persönlichkeitsbeschreibung BIP kommen neben einer Skala Leistungsmotivation
drei weitere Skalen vor, die einen Bezug zur Leistungsthematik aufweisen und mindestens zu .50 mit der Leistungsmotivationsskala des BIP korrelieren: Gestaltungsmotivation, Führungsmotivation und Belastbarkeit. Die deutsche Personality Research
Form PRF basiert auf Murrays Persönlichkeitstheorie und erfasst daher auch grundlegende Bedürfnisse (Motive). Neben der Skala Leistungsstreben hat auch die Skala
Ausdauer einen engen Bezug zur Leistungsthematik. Die PRF bietet sich auch zur
Messung anderer Motive an. Schließlich ist das Freiburger Persönlichkeitsinventar
FPI-R mit seiner Skala Leistungsorientierung zu nennen.
Über weitere Fragebogen zur Leistungsmotivation und zu verwandten Konzepten,
die in deutscher Übersetzung und Bearbeitung vorliegen, ohne normiert zu sein, informiert Rheinberg (2004).
Kapitel 3 · Diagnostische Verfahren
Leistungsmotivation
in Persönlichkeitsinventaren
296
Berufsbezogene
Leistungsmotivation
3
Theoretisch fundiert
Verzicht auf Normen
Normen. Die Interpretation basiert ausschließlich auf Rohwerten. Die Autoren argu-
mentieren, dass die sechs Typen-Skalen ungefähr gleich attraktiv seien; die Mittelwerte
lägen bei etwa 25 Punkten. Dem Anhang (S. 75) ist zu entnehmen, dass die Mittelwerte
tatsächlich aber zwischen 21.6 (R) und 28.1 (S) liegen und die Streuungen ebenfalls
uneinheitlich ausfallen (SD = 7.6 bis 10.8).
Korrelationen
mit Big Five Skalen
Geschlechtsunterschiede
295
tungsgemäß treten erhebliche Geschlechtsunterschiede auf; Realistic ist eine typische »Männerdimension«; Männer weisen hier höhere Werte auf als Frauen (M = 29
versus 18). Social und Artistic stellen dagegen »Frauendimensionen« dar (M = 29
und 30 versus 21). Mit den Skalen des NEO-FFI finden sich einige plausible Zusammenhänge. So korreliert Offenheit mit Artistic und Investigative zu .47 bzw. .37,
Extraversion mit Enterprising zu .44 und Gewissenhaftigkeit mit Enterprising und
Conventional zu .32 bzw. .27. Das subjektive Feedback der Probanden, die EXPLORIX bearbeitet haben, spricht für eine gute Akzeptanz und Zufriedenheit; 76% geben
an, den passenden Beruf und/oder eine Bestätigung für ihre bisherigen Pläne gefunden zu haben.
3.2 · Persönlichkeitsfragebogen
.53
.74
.59
Wettbewerbsorientierung
Zielsetzung
Reliabilität. Die interne Konsistenz (α) der Skalen liegt überwiegend im Bereich von
.80. Solche Werte sind für eng umschriebene Merkmale bei 10 Items pro Skala völlig
angemessen. Für die Kurzversion mit 30 Items beträgt α =. 94. Die Retestreliabität
nach einem Intervall von etwa drei Monaten wird mit .66 (Flow) bis .82 (Furchtlosigkeit und Statusorientierung) (Kurzform: .78) angegeben. Offenbar erfasst das LMI
stabile Merkmale.
Hohe interne
Konsistenz und
Retestreliabilität
Anmerkung. Items mit hohen Trennschärfen als Beispiele ausgewählt (– : Item wird invertiert).
a Ladungen ab .50 in der gemeinsamen Faktorisierung von NEO-PI-R und LMI (Ostendorf & Angleitner, 2004, S. 153). Faktorenbezeichnungen: N = Neurotizismus, E = Extraversion, O = Offenheit für Erfahrungen, V = Verträglichkeit, G = Gewissenhaftigkeit;
– bedeutet negative Ladungen der LMI-Skalen auf dem Faktor.
Im Allgemeinen bin ich stark auf die Zukunft ausgerichtet.
Der Wunsch, besser zu sein als andere, ist ein großer Ansporn für mich.
Es ist mir sehr wichtig, eine verantwortungsvolle Position zu erreichen.
Manchmal ist es mir lieber, anderen die Entscheidung zu überlassen (–).
.79
.87
Einen großen Teil meiner Zeit verbringe ich damit, Neues zu lernen.
Schwierige Probleme reizen mich mehr als einfache.
Statusorientierung
.60
Häufig verschiebe ich Dinge auf morgen, die ich besser heute erledigen
sollte (–).
.53
Für meine Selbstachtung ist es sehr wichtig, was ich geleistet habe.
Selbstkontrolle
Selbstständigkeit
Schwierigkeitspräferenz
Lernbereitschaft
.78
.60
.51
Wenn ich fürchte, Fehler zu machen, strenge ich mich besonders an.
Leistungsstolz
Wie weit man es beruflich bringt, ist zu einem guten Teil Glückssache (–).
Wenn ich vor anderen etwas vorführen soll, habe ich Angst, mich zu
blamieren.
Kompensatorische Anstrengung
.82
Internalität
Furchtlosigkeit
Es bereitet mir Freude, mich ganz in eine Aufgabe zu vertiefen.
Um etwas Neues auszuprobieren, gehe ich schon einmal ein Risiko ein.
.72
Flow
Flexibilität
Wenn ich mit anderen zusammenarbeite, übernehme ich gewöhnlich
die Initiative.
Es fällt mir schwer, mich lange zu konzentrieren, ohne müde zu werden.
Itembeispiel
Auch wenn ich vor schwierigen Aufgaben stehe, bin ich immer guten
Mutes.
.69
.56
G
Ich arbeite mehr als die meisten anderen Leute, die ich kenne.
.64
V-
.60
.76
O
Erfolgszuversicht
.50
Dominanz
E
297
Engagement
.57
N-
Ladung auf Faktora
Beharrlichkeit
Skala
. Tabelle 3.20. Skalen des Leistungsmotivationsinventars LMI
3.2 · Persönlichkeitsfragebogen
3
3
Volition vs. Motivation
Handlungskontrolle
HAKEMP 90
17 Dimensionen als
Chance und Problem
Heterogene Normierungsstichprobe
Befunde zur
Kriteriumvalidität
unübersichtlich
Theoretischer Hintergrund. Der HAKEMP 90 dient der Erfassung dreier unterschiedlicher Aspekte von Handlungskontrolle. Damit sind all jene Vorgänge gemeint, die zur
Umsetzung einer bereits gefassten Absicht beitragen (Initiierung, Aufrechterhaltung
trotz Störfaktoren, Beenden). Diese Prozesse werden unter dem Begriff der »Volition«
zusammengefasst, in Abgrenzung zur »Motivation«, die den Prozessen der Absichtsentstehung gilt.
Kuhl, V. J. (1990)
Der Fragebogen zur Erfassung von Handlungskontrolle nach Erfolg, Misserfolg und
prospektiv HAKEMP 90
3.2.7 Verfahren zur Erfassung von Handlungskontrolle (Volition)
Bewertung. Das LMI ist ein objektives und hinreichend reliables Verfahren zur Messung der Leistungsmotivation. Die Kriteriumsvalidität in den vorgesehenen Anwendungsbereichen Personalauswahl und -entwicklung, Schul-, Studien- und Berufsberatung sowie Sportpsychologie ist noch umfassender zu belegen. »Die starke
Differenzierung in 17 Dimensionen erweist sich zugleich als Chance und Problem«
(Schmidt-Atzert, 2001, S. 144). Die vielen Skalen eröffnen die Chance, in bestimmten
Anwendungsfeldern gute Einzelprädiktoren beispielsweise für berufliche Leistungen
zu finden. Für eine Profilauswertung ist die große Zahl von zum Teil erheblich korrelierten Skalen hinderlich.
(N = 259), Berufsschüler in kaufmännischen Ausbildungsberufen (N = 1008), Schüler
eines Wirtschaftsgymnasiums (N = 160), Berufstätige in Finanzdienstleistungsunternehmen (N = 166) und Hochleistungssportler (N = 78) vor. Daraus konstruieren die
Autoren zusätzlich eine nicht repräsentative »Gesamtnorm« (auch getrennt für Männer
und Frauen).
Normen. Es liegen (zum Teil geschlechtsspezifische) Normen für Wirtschaftsstudenten
Validität. Bei einem Persönlichkeitsfragebogen mit 17 Skalen stellt sich die Frage nach
der faktoriellen Struktur. Die Autoren berichten Korrelationen zu den fünf Skalen des
NEO-FFI. Inzwischen liegt eine Untersuchung an 121 Sportstudenten vor, in der die
Skalen des LMI zusammen mit denen des NEO-PI-R (7 Abschn. 3.2.3) faktorisiert wurden (Ostendorf & Angleitner, 2004). Die Ergebnisse sind in . Tab. 3.20 aufgeführt. Sie
belegen, dass sich die LMI-Skalen sehr gut in das »Big-Five«-Modell einordnen lassen,
also offenbar verschiedene Facetten von Neurotizismus, Extraversion etc. erfassen. Vor
diesem Hintergrund interessiert die Korrelation der Gesamtskala, die ein Konglomerat
der 17 Skalen darstellt, mit den großen Persönlichkeitsfaktoren. Schuler und Prochaska
(2001) berichten signifikante Korrelationen von .57 mit Gewissenhaftigkeit, –.40 mit
Neurotizismus und .23 mit Extraversion.
Die Befunde zur Kriteriumsvalidität sind relativ unübersichtlich, weil die Autoren
zahlreiche Korrelationen mit unterschiedlichen Leistungsindikatoren wie Abiturnoten, Note des Ausbildungsabschlusses und Jahresgehalt berichten. Viele Korrelationen sind insignifikant und nur wenige liegen über .30. Einzelne herausragend hohe
Korrelationen erscheinen nachträglich plausibel, so die zwischen Dominanz und Stellung in der Hierarchie (r = .43) oder die zwischen Lernbereitschaft und Bildungsniveau (r = .35).
Kapitel 3 · Diagnostische Verfahren
Einordnung in
»Big-Five« Modell
298
3
VCC zu Bewusstseinsinhalten und
Verhaltensweisen
Schwierigkeit
adäquater Fremdeinschätzungen
3.3.1
3.3.2
Nichtsprachliche Persönlichkeitstests – 305
Objektive Persönlichkeitstests – 308
Nichtsprachliche und Objektive Persönlichkeitstests
Die Messung von Persönlichkeitsmerkmalen mit Fragebogen ist mit diversen Problemen behaftet (vgl. 7 Abschn. 3.2.2). Wie ein Proband auf ein Item reagiert, hängt von
seiner sprachlichen Kompetenz ab, aber auch davon, wie er die Iteminhalte versteht und
interpretiert. In vielen Anwendungsbereichen ist damit zu rechnen, dass sich die Probanden so darstellen, wie es ihnen vorteilhaft erscheint und nicht wie sie sich selbst
wirklich sehen. Zur Lösung beider Probleme liegen Konzepte vor. Mit nichtsprachlichen Tests soll die Abhängigkeit vom Sprachverstehen reduziert werden, objektive Tests
sollen verfälschungssicher sein.
3.3
Weitere Entwicklungen. In Ergänzung des HAKEMP 90 haben Kuhl und Fuhrmann
(1995) eine »Volitional Components Checklist VCC« konzipiert, die mit 161 Items die
Erfassung von Bewusstseinsinhalten (Gedanken, Gefühle, Empfindungen) und Verhaltensweisen erlauben soll, wie sie in Alltagssituationen auftreten, die den Willen beanspruchen. Auch hier wurden drei volitionale Konstrukte separat erfasst, nämlich Selbstregulation als optimale Nutzung volitionaler Kompetenz, passive Zielfixierung und
lageorientierte Rigidisierung; daraus sind nicht weniger als 20 Dimensionen ableitbar.
In ersten Faktorenanalysen wiesen HAKEMP 90 und VCC-Skalen gemeinsam Ladungen auf den extrahierten Dimensionen auf.
Weitere Validierungsuntersuchungen sind im Gang; eine seriöse Beurteilung ist erst
zu einem späteren Zeitpunkt möglich.
Der HAKEMP 90 basiert auf einer differenzierten Theorie zur Handlungssteuerung;
diese theoretische Verankerung im Allgemeinen, dazu der angestrebte sehr spezifische
Gültigkeitsbereich im Besonderen sorgen für eine Sonderstellung des Verfahrens. Eine
befriedigende Reliabilität sowie verschiedene Validitätsbelege sprechen für die Eigenständigkeit der erfassten Konstrukte; die hohe Nützlichkeit der Skalen hat sich vorerst
in einer Vielzahl von Forschungsuntersuchungen erwiesen.
nungen, in denen teils Selbsteinschätzungen von Kognitionen und Emotionen, teils
die objektiven Leistungsunterschiede zwischen Handlungs- und Lageorientierten geprüft wurde. Nicht alle, aber doch beeindruckend viele der dabei zugrunde gelegten
Hypothesen erfuhren eine Bestätigung. In der Untersuchung von Dahme et al. (1992)
fanden sich zwar keine eindeutigen Belege dafür, dass Handlungsorientierte ihre Absichten zügiger in Handlungen umsetzten als Lageorientierte, doch widersprechen
derartige Befunde nicht der Theorie, da auf deren Basis keine Haupteffekte zu erwarten sind, sondern nur Interaktionen mit den situativen Bedingungen, z. B. keine vs.
aufgetretene Belastung, etwa durch unerledigte Absichten oder nicht verwirklichte
Ziele (Skala »Zögern«) bzw. selbstwertbedrohliche Ereignisse (Skala »Präokkupation«). Von daher dürften auch Fremdeinschätzer bei der Abgabe von entsprechenden
Urteilen größere Schwierigkeiten haben, ihre Bekannten oder Freunde adäquat einzuschätzen.
Kapitel 3 · Diagnostische Verfahren
Experimentelle
Validitätsbelege
302
Nichtsprachliche Persönlichkeitstests
a
b
Im Leistungsbereich haben nichtverbale Verfahren eine längere Tradition, etwa in Form
der Skalen Bilderordnen, Bilderergänzen, Mosaiktest und Figurenlegen des WechslerTests, im Weiteren der Guilford-Skalen zur Prüfung sozialer Intelligenz (s. O’Sullivan
et al., 1965) oder auch der Aufgaben zur Gestaltbildung im LPS (Horn, 1983). Hingegen
sind analoge Entwicklungen zur Erfassung von Persönlichkeitsmerkmalen eher neueren Datums.
Vorrangig sind hier Paunonen et al. (1990) zu nennen, die eine Bilderserie mit 136
Items vorgestellt haben, mit deren Hilfe 16 »need constructs« gemessen werden sollen,
die auch in der (verbalen) Personality Research Form (PRF, 7 Abschn. 3.2.3.) vorkommen. Zwei Beispiele für die Formatierung der Items sind in . Abb. 3.21 gegeben. A
gehört zur Skala Abenteuersuche, B zu Hilfsbereitschaft. Die Testperson soll bei diesem Nonverbal Personality Questionnaire (NPQ) auf einer 7-stufigen Antwortskala
die Wahrscheinlichkeit angeben, mit der sie das Verhalten der Person mit den schwarzen Haaren zeigen würde. Auf diese Weise beschreiben die Items das in ihnen jeweils
thematisierte Verhalten bildlich, also nichtverbal. Allerdings sind die Prozesse, aufgrund deren eine Testperson zu ihren Wahrscheinlichkeitsaussagen gelangt, noch
nicht im Einzelnen bekannt, und es mögen dabei verbale Transformationen oder
Vermittlungen eine Rolle spielen. (Da es auch bei dieser Technik für die Probanden
darauf ankommt, sich selbst einzuschätzen, gehört sie ebenfalls zu den «subjektiven«
Methoden, wird aber aus Gründen der inhaltlichen Argumentationsstringenz hier
dargestellt.)
Untersuchungen an nordamerikanischen, polnischen, finnischen und deutschen
Probanden (Paunonen et al., 1992; Spinath & Angleitner, 1995) haben trotz der geringen Zahl von nur 8 Items pro Skala mit Werten um α = .70 zufriedenstellende interne
Konsistenzen ergeben.
Die Korrelationen der nichtverbalen Skalen des NPQ mit den »homologen« Skalen
der PRF betragen im Durchschnitt etwa .50, d. h. die betreffenden Skalen von PRF auf
der einen und diejenigen des NPQ auf der anderen Seite können nicht als Paralleltests
zueinander gelten. Eben dieses zu erwarten wäre freilich unbillig, weil die Items des PRF
andere Verhaltensweisen zum Inhalt haben als diejenigen des NPQ; der Umstand, dass
keine direkten wechselseitigen Zuordnungen auf Itemebene möglich sind, wird schon
aus der unterschiedlichen Zahl der Items pro Skala deutlich (16 im PRF, nur 8 im NPQ).
Insofern wird der Anspruch, Gleiches zu messen, dafür aber unterschiedliche Präsentationsmodalitäten zu benutzen, nur auf Konstruktebene erhoben. Um diesem Problem
3.3.1
3.3 · Nichtsprachliche und Objektive Persönlichkeitstests
3
. Abb. 3.21a, b. Beispielitems aus dem nichtsprachlichen Persönlichkeitsfragebogen von Paunonen &
Jackson (1988)
Korellation der
NPQ- mit PRF-Skalen
um .50
Zufriedenstellende
interne Konsistenzen
16 »need constructs«
entsprechend PRF
303
3
6
1. Es handelt sich um die bislang einzige Studie, in der ein und dieselbe Stichprobe
von Personen nicht nur das nichtverbale Instrument (also den NPQ), sondern
auch das »dazugehörige« verbale Pendant (die PRF) bearbeitete, und zwar zweimal im Abstand von einer Woche. Hinsichtlich interner Konsistenz (.71 bzw. .70
für NPQ und PRF im Mittel aller vorgegebenen Skalen), Reteststabilität (durchschnittlich .73 bzw. .74) und auch der Validität gegenüber Fremdeinschätzungen
(.52 bzw. .56) bestanden zwischen den Tests keine gravierenden Unterschiede.
2. Der Einfluss von sozialer Erwünschtheit (SE) wurde in zweierlei Hinsicht untersucht, nämlich zum einen empirisch (in Form der Korrelationen der individuellen
Punktwerte in NPQ und PRF mit den Punktwerten in einer Skala zur Erfassung
der Antworttendenzen im Sinne sozialer Erwünschtheit, also einer sog. «Lügenskala), und zum anderen experimentell (im Vergleich zu einer Kontrollbedingung
sollten sich die Probanden eine Bewerbungssituation vorstellen und entsprechend ihre Antworten danach geben, sich also verstellen). In Bezug auf das bildliche Material bestand die Erwartung, dass hier die behaviorale Bedeutung der
Items – ähnlich zu projektiven Tests – mehr implizit als explizit ist, die Testperson
also den Bedeutungsgehalt erst erschließen muss und deshalb unsicherer ist,
was die soziale Erwünschtheit des Dargestellten angeht. Von daher war generell
bei den nichtverbalen Items ein geringerer Einfluss von sozialer Erwünschtheit
zu vermuten als bei den verbalen.
Design und Ergebnisse einer Untersuchung an N = 190 Personen beiderlei
Geschlechts zu den psychometrischen Merkmalen des Nonverbal Personality
Questionnaire. (Aus Amelang, Schäfer & Yousfi, 2001)
abzuhelfen, formulierte Brackmann (2000) zu jedem Item des NPQ eine die dargestellte Szene beschreibende verbale Form. Für die in . Abb. 3.21b wiedergegebene Szene
lautete die sprachliche Version »Ich gebe einem blinden Bettler eine großzügige Geldspende«. Erwartungsgemäß waren unter diesen Gegebenheiten die Korrelationen zwischen den nunmehr einander sehr viel mehr entsprechenden Skalen sehr viel höher und
lagen im Bereich von Paralleltests.
Die Validität gegenüber Fremdeinschätzungen belief sich in der Studie von Paunonen et al. (1990) beim höchsten Ausmaß an selbsteingeschätzter Bekanntschaft zwischen Beurteilern und Beurteilten auf Werte um rtc = .40, und zwar gleichermaßen für
die verbale und die nichtverbale Testversion. Dies kann angesichts der geringen Itemzahl pro Skala mehr als befriedigen. Bei einer Verdoppelung der Skalenlänge und unter
der Annahme einer Reliabilität von .70 für sowohl die Selbst- als auch die Fremdeinschätzung lässt sich eine Validität von rtc = .47 erwarten und damit ein Wert, der im
Persönlichkeitsbereich fast als eine Art Schallgrenze gilt. Eine über alle Skalen gemittelte Validität von rtc = .43 (höchster Wert rtc = .61 für Aggression) war auch in den
Untersuchungen von Spinath und Angleitner (1995) zu registrieren. Noch etwas höher,
nämlich um .52, liegen die Validitätskoeffizienten dann, wenn für Selbst- und Fremdeinschätzungen vollständig gleiche Formate benutzt werden, die Fremdeinschätzer also
den NPQ so ausfüllen müssen, wie das ihrer Auffassung nach die Zielpersonen für sich
tun (s. dazu Amelang, Schäfer & Yousfi, 2001).
Die letztgenannte Arbeit verdient noch aus mehreren anderen Gründen besonderes
Interesse (7 Übersicht).
Kapitel 3 · Diagnostische Verfahren
Befriedigende
Validität gegenüber
Fremdeinschätzungen
304
Die so weit dargelegten Resultate lassen erkennen, dass die nichtsprachliche Präsentation
von Verhaltensmerkmalen gewiss eine vielversprechende Alternative zu der üblichen Vorgabe von Items in sprachlicher Form darstellt. Damit wird zugleich eine ausgezeichnete
Option für interkulturelle Vergleiche oder Untersuchungen an Personen eröffnet, die des
Lesens nicht kundig sind. Die Dimensionalität des NPQ korrespondiert im Übrigen recht
gut mit dem Modell der Big Five (7 oben: NEO-FFI). Dies stellt einen weiteren Hinweis
darauf dar, dass die semantische Ähnlichkeitsinterpretation der Beantwortung von Persönlichkeitsitems nicht haltbar ist (s. dazu Paunonen et al., 1992) – und damit der schwerwiegendste Einwand gegen die Benutzung des verbalen Mediums gegenstandslos.
Mit dem nichtsprachlichen Persönlichkeitsfragebogen liegt ein Instrument vor, dessen nichtverbale Items einen fast universellen Einsatz gegenüber Gruppen unterschiedlicher kultureller Zugehörigkeit erlauben. Schon gleichsam im »ersten Zugriff« konnten
befriedigende psychometrische Eigenschaften erzielt werden. Die faktorielle Struktur
entspricht offenkundig derjenigen der »big five« aus sprachgebundenen Verfahren.
Allerdings beschränkt sich der Messbereich auf solche Erlebnisse und Empfindungen,
die zeichnerisch darstellbar sind.
Diese Hypothese der geringeren Verfälschbarkeit nichtverbaler im Vergleich zu
verbalen Skalen bestätigte sich jedoch nicht: Erneut waren die Unterschiede
zwischen NPQ und PRF nur gering: Im Mittel korrelierten die Skalen des NPQ mit
der «Lügenskala« zu .21, diejenigen der PRF damit zu .27. Die Veränderungen
durch die «Fake-good-Instruktion« betrugen .36 bzw. .37 Einheiten von Effektstärke (vgl. 7 Abschn. 10.6.1), wiesen also ebenfalls keine überzufälligen Abweichungen voneinander auf. Auch wenn aus den individuellen Skalenpunktwerten
(also den Self Reports) die Fremdeinschätzungen (als Indikator für die wahren
Merkmalsunterschiede) herauspartialisiert wurden, fielen die Korrelationen zwischen Selbsteinschätzung und Lügenskala mit .17 und .21 für NPQ bzw. PRF
etwa gleich aus, d. h. die Unterschiede im »Bias« zu Lasten sozialer Erwünschtheit liegen zwar in erwarteter Richtung (= nichtverbale Items sind weniger
»SE-lastig« als verbale), sind aber geringer, als ursprünglich vermutet.
3. Unter der »Fake-good-Instruktion« sank zwar im Vergleich zur Normalinstruktion
die Validität etwas ab, blieb aber mit Koeffizienten von .43 (NPQ) und .44 (PRF)
noch immer signifikant und numerisch in erstaunlicher Höhe. Durch die Instruktion zur positiven Selbstdarstellung ändern sich somit im Vergleich zur üblichen
Instruktion die Rangreihen der Messwertträger nicht in grundlegender Weise.
Oder mit anderen Worten: Selbst bei intendierter Verstellung sind die individuellen Testwerte noch valide!
4. Ein Nebenbefund, der generell für Persönlichkeitstests von Bedeutung ist: Die
Punktwerte in der Lügenskala korrelierten mit den Fremdeinschätzungen zu
r = .35, d. h. die individuelle Tendenz, Antworten im Sinne sozialer Erwünschtheit
zu geben, ist nicht nur ein Antwortstil bei der Bearbeitung von Persönlichkeitsfragebogen, sondern weist offensichtlich Verhaltenskorrelate auf! Das mag erklären, warum die naheliegende Hypothese, wonach Lügenskalen ein Moderator
(vgl. 7 Abschn. 7.2) für die Validität von Persönlichkeitstests sein müssten (in
dem Sinne, dass hohe Lügenwerte mit einer geringen Validität einhergehen,
niedrige mit einer hohen), in der Literatur nur vereinzelt positiv bestätigt werden
konnte (z. B. Amelang & Borkenau, 1981b).
3.3 · Nichtsprachliche und Objektive Persönlichkeitstests
3
NPQ geeignet für interkulturelle Vergleiche
oder Untersuchungen
an Analphabeten
305
3
50 Subtests,
21 Faktoren
OA-TB 75
Objektive Persönlichkeitstests
Darüber hinaus finden sich auch Faktoren, die bekanntere Dimensionen betreffen, wie
z. B. Extraversion/Introversion, Angst, Realismus, Impulsivität. Beispiele für einige
Items sind im Folgenden aufgeführt.
zusammengestellt. Ihre Auswahl erfolgte u. a. unter Ökonomie- und Kulturspezifitätsgesichtspunkten und teils danach, inwieweit sich ein Faktor in früheren Untersuchungen im anglo-amerikanischen Raum als replizierbar erwiesen hatte.
Die Tests sollen insgesamt 21 Faktoren treffen wie u. a.
4 »Stärke gegen mangelnde Selbstbehauptung«,
4 »Inhibition gegen Vertrauensseligkeit«,
4 »Lebhaftigkeit gegen Passivität«,
4 »Kulturelle Konformität gegen Objektivität«,
4 »Kortikale Wachheit gegen Gefühlsbetontheit«,
4 »Skeptische Zurückhaltung gegen Engagiertheit«,
4 »Negativistische Asthenie gegen rauhe Selbstsicherheit«,
4 »Ganzheitliches Verständnis gegen Willensschwäche«,
4 »Bestürztheit gegen zuversichtliches Gleichgewicht«.
Gliederung. 50 Subtests, die zum Teil Leistungscharakter aufweisen, sind im Testheft
Häcker, H. et al. (1975). Weinheim: Beltz
Die Autoren verstehen die von ihnen vorgelegten Versionen nicht als »Endprodukt
einer im herkömmlichen Sinne verstandenen Testkonstruktion (…), sondern als experimentelle Version, auf deren Basis eine standardisierte Testbatterie erstellt wird.«
(Häcker et al., 1975, S. 9).
OA-TB75. Objektive Testbatterie
Cattell (s. Hundelby et al., 1965; Cattell & Warburton, 1967) ist zwar nicht der einzige
oder erste, der sich solcher Techniken bedient, aber gewiss derjenige, der den Ansatz
am konsequentesten verfolgt hat (s. Fahrenberg, 1964 und insbesondere die Sammeldarstellung von Häcker, 1982). An seinen Arbeiten orientieren sich die deutschsprachigen Adaptationen von Häcker et al. (1975).
»Objektive Tests (T-Daten) zur Messung der Persönlichkeit und Motivation sind Verfahren, die unmittelbar das Verhalten eines Individuums in einer standardisierten
Situation erfassen, ohne dass dieses sich in der Regel selbst beurteilen muss. Die
Verfahren sollen für den Probanden keine mit der Messintention übereinstimmende
Augenscheinvalidität haben. Das kann durch die Aufgabenauswahl oder bestimmte
Auswertungsmethoden erreicht werden. Um als Test zu gelten, müssen auch die
Objektiven Verfahren den üblichen Gütekriterien psychologischer Tests genügen.«
Eine andere Variante, das verbale Element und die damit potentiell verbundenen Beeinträchtigungen zurückzudrängen, besteht in der Konzipierung solcher Leistungsprüfverfahren, die persönlichkeitsspezifisch ausgewertet werden. Oder aber es werden
Fragebogen entwickelt, deren Messintention den Probanden mit der Absicht verborgen
bleibt, dadurch Verfälschungstendenzen einen Riegel vorzuschieben. Die damit gegebenen sog. «Objektiven Tests« definiert Schmidt (1975, S. 19) wie folgt:
3.3.2
Kapitel 3 · Diagnostische Verfahren
Verborgene
Messintention
306
Kubinger, K. D. & Ebenhöh, J. (1996). Frankfurt/M.: Swets
Die Testautoren orientierten sich bei der Konstruktion der kurzen Testbatterie zur
Erfassung von Arbeitshaltungen eng an der Objektiven Testbatterie OA-TB75. Dazu
wurden 3 Skalen der OA-TB75 in modifizierter Form auf dem Computer implemen-
Arbeitshaltungen: Anspruchsniveau, Frustrationstoleranz, Leistungsmotivation,
Impulivität/Reflexivität
In einer Studie von Häcker et al. (1979) wurde der Verfälschbarkeit dadurch nachgegangen, dass teils die Instruktion variiert (Normalanweisung vs. Anweisung, im Sinne
sozialer Erwünschtheit zu reagieren), teils eine reale Auslese- mit einer Forschungssituation verglichen wurde. Den Ergebnissen zufolge ist die geforderte Undurchschaubarkeit der Messintention nur bei einem Teil der objektiven Persönlichkeitstests gegeben, und zwar vornehmlich solchen mit Leistungscharakter. Umgekehrt betrafen Verfälschungen vor allem solche Testvariablen, die sich von herkömmlichen Fragebogen
formal nur wenig unterscheiden und auf Faktorenebene die Dimensionen »kulturelle
Konformität vs. Objektivität« und »Angst« markieren.
Die OA-TB 75 findet in der diagnostischen Praxis keine Verwendung, da sie nicht
normiert ist und, sieht man von einer Studie von Schmidt et al. (1985) ab, keine Validitätsbelege vorliegen. Deshalb wird darauf verzichtet, Durchführung, Auswertung und
Gütekriterien zu beschreiben. Die OA-TB 75 hat aus heutiger Sicht Modellcharakter,
indem sie Anregungen dafür gibt, wie man Objektive Persönlichkeitstests entwickeln
kann. Mit dem Einzug von leistungsfähigen Computern in die Diagnostik haben sich
völlig neue Möglichkeiten für die Konstruktion von Objektiven Persönlichkeitstests
ergeben. Zwei Verfahren, die sich dieser Möglichkeiten bedienen, werden im Folgenden
vorgestellt.
T 43 Geschichten
Die Versuchspersonen müssen die 2 Sätze »Als der Fahrer die Herrschaft über das
Auto verlor…«,
»Es war Herbst, und die Blätter fielen von den Bäumen…«, zu möglichst langen Geschichten fortsetzen. Dafür steht jeweils 1 min zur Verfügung. Gemessen wird die
Zahl der geschriebenen Wörter.
T 45 Beurteilung der Längen von Linien
Jeweils 2 waagerechte oder etwas schräg nebeneinander stehende Linien werden
vorgegeben und zwar insgesamt 42. Die Versuchsperson muss ankreuzen, ob
a) die linke Linie länger ist als die rechte,
b) beide Linien gleich lang sind,
c) die rechte Linie länger als die linke ist.
Abhängige Variable ist die Zahl der in der verfügbaren Zeit bearbeiteten Aufgaben.
Beispielaufgaben aus der OA-TB75
T 197 Was würden Sie lieber machen?
a) Mit anderen Bekannten einen Wettlauf machen,
b) Alleine laufen.
Ausgewertet wird, ob Wettbewerbssituationen aufgesucht oder gemieden werden.
Beispiel
3.3 · Nichtsprachliche und Objektive Persönlichkeitstests
3
Orientierung an
OA-TB 75
Computertest
Kaum Validitätsbelege
Keine Normen
307
3
Ermittlung verschiedener Kennwerte
Bearbeitungsdauer
hängt von Testperson
ab
»Figuren
unterscheiden«
»Symbole kodieren«
»Figuren vergleichen«
Auswertung. Die Auswertung erfolgt automatisch. Es werden folgende Kennwerte ermittelt:
4 Figuren vergleichen
1. Exaktheit (Anteil richtiger Antworten)
2. Entschlussfreudigkeit (Anzahl der Antworten)
3. Impulsivität vs. Reflexivität (Fehler*10.000 – Richtig*100 + Weiß nicht*1)
4 Symbole kodieren
1. Frustrationstoleranz: (Differenz zwischen 5. und 2. Prognose)/(2. Prognose)
2. Anspruchsniveau: (1. Prognoseleistung im 2. Durchgang)/(Leistung im 2. Durchgang)
3. Leistungsniveau: Richtige Kodierungen im 2. Durchgang
4. Zeitpunkt der Leistungsspitze: Bester Durchgang
5. Zieldiskrepanz: Mittlere Abweichung zwischen Prognose und darauffolgender
Leistung.
4 Figuren unterscheiden
1. Leistungsmotivation: Anzahl der bearbeiteten Items.
Durchführung. Alle Instruktionen werden am Bildschirm präsentiert, sodass der Aufwand für den Testleiter minimal ist. Die Eingabe erfolgt grundsätzlich mit der Maus,
wobei entweder die fraglichen Figuren und Symbole oder beschriftete Buttons anzuklicken sind. Da die Bearbeitungsdauer beim letzten Untertest lediglich von der Ausdauer der Testperson abhängt, variiert die für die Durchführung benötigte Zeit zwischen 20 und 45 min.
Gliederung. Im Untertest »Figuren vergleichen« soll die Testperson (Tp) wiederholt beurteilen, welche von zwei unregelmäßig verlaufenden Linien eine größere Fläche umschließt. In 30 s werden dabei maximal 20 Items präsentiert. Beim Untertest
»Symbole kodieren« erfolgt in 5 Durchgängen à 50 s fortlaufend die Exposition von je
einer von vier abstrakten Schwarz-weiß-Figuren. Jede dieser Figuren ist einer anderen
ebenfalls abstrakten, aber farbigen Figur fest zugeordnet. Diese farbige Figur muss mit
der Maus angeklickt werden. Die Zuordnung von farbigen zu Schwarz-weiß-Figuren
ist dabei ständig in der oberen Hälfte des Bildschirms als Legende dargestellt. Nach
jedem Durchgang erhält die Tp Rückmeldung über ihre Leistung; anknüpfend daran
soll sie einschätzen, wie viele Symbole sie im nächsten Durchgang richtig bearbeiten
wird. Außer bei der ersten Rückmeldung wird der Tp zusätzlich mitgeteilt, dass andere Personen durchschnittlich um 10% besser sind. Beim Untertest »Figuren unterscheiden« gilt es, aus jeweils vier geometrischen Figuren die unpassende herauszufinden. Die Tp erhält wiederholt und in Abhängigkeit von Bearbeitungsfehlern Rückmeldung. Der Test dauert so lange an, bis die Person mit »Abbruch« eine Schaltfläche
aktiviert.
tiert. Aus der Bearbeitung dieser drei Skalen durch die Testpersonen leiten sich zahlreiche Kennwerte ab, die »Arbeitstugenden« in Form von kognitiven Stilen und motivationalen Konzepten erfassen sollen. Diese Kennwerte basieren auf einer Faktorisierung
der Daten von (nur) 60 Probanden, wo sie jeweils einen Faktor markierten. Für fünf der
Kennwerte wird zudem »Konstruktvalidität im Hinblick auf die mittlerweile berühmten »Big Five« (Kubinger & Ebenhöh, 1996, S. 16) beansprucht. Alle Tests haben Leistungscharakter, die berechneten Kennwerte sollen jedoch Persönlichkeitseigenschaften
erfassen.
Kapitel 3 · Diagnostische Verfahren
Leistungsaufgaben
308
6
Die »Arbeitshaltungen« sind ein gutes Beispiel dafür, wie die Erfüllung der herkömmlichen psychometrischen Gütekriterien doch deutlich hinter den ebenso
attraktiven wie faszinierenden Darbietungs- und Auswertungsmöglichkeiten computerbasierter Tests zurückbleibt. Vielleicht wäre es ratsamer gewesen, dem Zug der
Zeit zur mediumsgerechten Nutzung der Computer noch etwas zu widerstehen und
Sorge zu tragen dafür, dass die hohen Standards, denen sich die Testautoren explizit
Fazit
Validität. Die Testautoren beanspruchen für die erhobenen Kennwerte nicht nur Inhaltsvalidität bei der Erfassung von kognitiven Stilen und motivationalen Variablen,
sondern auch Konstruktvalidität hinsichtlich der »Big Five« (E = Impulsivität vs. Reflexivität, N = Anspruchsniveau, O = Zieldiskrepanz, V = Frustrationstoleranz, G = Leistungsmotivation; vgl. Abschn. NEO-FFI). Die Inhaltsvalidität der Skalen ist jedoch
fraglich, da sie nur lose mit Theorien zu kognitiven Stilen und der Leistungsmotivation
in Verbindung stehen und für die Berechnung der einzelnen Kennwerte theoretische
Begründungen fehlen; der Verweis auf explorative Faktorenanalysen mit sehr kleinen
Stichproben ist dafür kein Ersatz. Impulsivität vs. Reflexivität sowie die anderen Kennwerte aus dem Test »Figuren vergleichen« sind alle mit der räumlichen Wahrnehmungsfähigkeit konfundiert. Da sich die Testautoren explizit auf die Theorie von Atkinson beziehen, bleibt unklar, ob mit Leistungsmotivation der Wunsch nach Erfolg,
die Furcht vor Misserfolg oder die Differenzierung zwischen Erfolgs- und Misserfolgsmotivierten gemeint ist.
Angaben über die Korrelationen zwischen den einzelnen Kennwerten sowie mit den
»Big Five« fehlen. Was die Kriteriumsvalidität angeht, so verweisen die Testautoren auf
zwei eigene Studien, in denen erfolgreiche von nicht erfolgreichen Mitarbeitern signifikant diskriminiert wurden. Eine der Erhebungen stützte sich allerdings nur auf eine
Vorversion in Papier-Bleistift-Form. Zudem waren die Umfänge der erhobenen Gruppen recht klein und zum Teil mit Psychologie-Studenten überbesetzt. Nur für einige der
Kennwerte wurden Zusammenhänge mit dem Erfolgs-Kriterium gefunden, deren
Richtung je nach Validierungsstichprobe und -kriterium variierte, sodass post-hoc
Interpretationen notwendig wurden.
Keine Angaben zur
Konstruktvalidität
Fragliche Kriteriumsvalidität
Fragliche Inhaltsvalidität
Reliabilitätsbestimmung nicht möglich
Reliabilität. Die Testautoren führen für jeden der berechneten Kennwerte bestimmte
Gründe an, die einer empirischen Überprüfung der Reliabilität entgegenstehen (z. B.
verhindern Ein-Punkt-Messungen die Bestimmung der internen Konsistenz; massive
Übungs- und Gedächtniseffekte beeinträchtigen Reteststabilitäten; die relativen Differenzwerte zeigen die für Veränderungsmessungen generellen Reliabilitätsmängel usw.).
»Indem also die Bestimmung eines Standardmessfehlers für die Arbeitshaltungen (…)
nicht möglich bzw. sinnvoll ist, kann auch der Messfehler im Einzelfall nicht mittels
Konfidenzintervall abgeschätzt werden; eine Interpretation über eine Grobklassifizierung hinaus scheint daher aus Vorsichtsgründen nicht angebracht!« (Kubinger & Ebenhöh, 1996, S. 16). Dieses Eingeständnis beschreibt eine denkbar unbefriedigende Situation.
3
Vorläufige Normwerte
309
Normierung. Bislang liegen vorläufige Normwerte von N = 314 Personen vor. Die
Normdaten stammen aus mehreren Untersuchungen und wurden vor allem an Psychologiestudenten erhoben.
3.3 · Nichtsprachliche und Objektive Persönlichkeitstests
3
. Abb. 3.22. Aufgabe im
OLMT. Bereits zurückgelegte
Felder werden grau markiert. Der Proband muss hier
noch fünfmal die linke, rote
Taste drücken, dann die
rechte, grüne, etc. In jedem
Durchgang (10 s) können
maximal 100 Felder zurückgelegt werden
Forschungsergebnisse
zur Leistungsmotivation umgesetzt
Schnelligkeit und Ausdauer gefordert
30 Durchgänge
Schmidt-Atzert, L. (2004). Mödling: Schuhfried
Der Objektive Leistungsmotivations Test OLMT soll, wie der Subtest Figuren
Unterscheiden der Arbeitshaltungen (7 oben), die Leistungsmotivation über eine kognitiv wenig anspruchsvolle Aufgabe messen. Die Aufgabe der Probanden besteht darin,
durch Drücken von zwei Tasten eine »Straße« auf dem Bildschirm abzufahren
(. Abb. 3.22). Die 100 Felder lange Straße führt abwechselnd nach rechts und links.
Drückt der Proband die richtige Taste (rot für links und grün für rechts), legt er immer
ein weiteres Feld zurück. Betätigt er die falsche Taste, erfolgt eine optische und akustische Warnung, ohne dass ein Feld vorgerückt wird. Die Bearbeitungszeit ist im Gegensatz zum Figuren Unterscheiden fixiert; sie beträgt für jeden der insgesamt 30 Durchgänge genau 10 s. Erfasst wird die Schnelligkeit bzw. die Anzahl der zurückgelegten
Felder, die exakt der Schnelligkeit des Tastendrückens entspricht, wenn keine Fehler
gemacht werden. Die Ausdauer spielt insofern eine Rolle, als 30 mal die gleiche Aufgabe
zu bewältigen ist, was bei maximaler Testleistung (alle 100 Felder zurückgelegt) immerhin 3.000 Tastendrücken entspricht. Je mehr sich ein Proband anstrengt, desto mehr
Felder wird er zurücklegen.
Bei der Testkonstruktion fanden relevante Befunde der Leistungsmotivationsforschung Berücksichtigung. Leistungsmotiviertes Verhalten setzt voraus, dass der Proband eine klare Zielsetzung hat (wird durch die Aufgabenstellung realisiert, möglichst
viele Felder in 10 s zurückzulegen), alleine für das Ergebnis verantwortlich ist (wie
viele Felder er zurücklegt, liegt alleine an ihm) und Feedback über die erzielte Leistung
erhält. Feedback erfolgt sowohl kontinuierlich (zurückgelegte Felder färben sich grau)
als auch jeweils schriftlich am Ende eines Durchgangs (z.B. »Sie haben 67 Felder zurückgelegt«). Da die individuelle Leistungsmotivation durch Ziele, die man sich selbst
setzt, sowie durch Konkurrenz angeregt werden kann, wurden zwei Subtests konzipiert,
die erfassen sollen, wie stark ein Proband auf diese Anreizbedingungen anspricht.
Objektiver Leistungsmotivations Test OLMT
verpflichtet fühlen, auch im konkreten Fall eines neuen Tests eingehalten werden.
Bevor nicht sehr viel mehr an Erfahrungen zur Reliabilität und Validität vorliegen,
kann das Verfahren nicht ernsthaft zum Einsatz (für welche Fragestellungen eigentlich? Im Manual finden sich dazu keine Hinweise) empfohlen werden.
Kapitel 3 · Diagnostische Verfahren
Aufgabe: per
Tastendruck »Straße«
abfahren
310
eigenes Ziel
eigenes Ziel
Leistung des
Gegners
2 a) Motivation durch
Ziele
b) Anspruchsniveau
3) Motivation durch
Konkurrenz
Anzahl zurückgelegter Felder in
Subtest 3 im Vgl. zu Subtest 1
Anzahl zurückgelegter Felder in
Subtest 2 im Vgl. zu Subtest 1
Zielsetzung im Vgl. zur Anzahl
tatsächlich zurückgelegter Felder
in Subtest 2
Anzahl zurückgelegter Felder in
Subtest 1, Durchgang 8–10
Operationalisierung
.88–.92
.83–.94
.88–.92
.95–.96
α
Anmerkung. Jeder Subtest besteht aus 10 Durchgängen von je 10 s. Angaben zu α für die drei
Altersgruppen der Normierungsstichprobe (n = 170, 72 und 124).
Aufgabe selbst
Motivat. Anreiz
1) Aufgabenbezogene
Anstrengung
Nummer Subtest und
Kennwert
. Tabelle 3.21. Subtests und Hauptkennwerte des OLMT
Gliederung. Der OLMT besteht aus drei Subtests. Gemessen wird immer, wie viele
Felder der Proband zurücklegt. Der erste Subtest Aufgabenbezogene Anstrengung
erfasst die Leistung ohne andere Anreize als die Testaufgabe selbst. Allerdings wird nur
der achte bis zehnte Durchgang ausgewertet, weil die Leistung normalerweise, vermutlich durch Übung bedingt, in den ersten Durchgängen ansteigt.
Im Subtest Motivation durch Ziele wird eine extra Anreizbedingung eingeführt:
Der Proband soll vor jedem Durchgang angeben, wie viele Felder er nun schaffen will.
Auf dem Bildschirm erscheint die Angabe, wie viele Felder er zuletzt zurückgelegt hat.
Er soll über die Tastatur eingeben, wie viele Felder er jetzt erreichen will. Erfasst wird
hier nicht nur die Leistungsveränderung gegenüber Subtest 1, sondern auch das Anspruchsniveau, das aus der Abweichung der Ziele von den tatsächlichen Leistungen
errechnet wird. Mit diesem Subtest soll erfasst werden, wie stark der Proband dadurch
motiviert wird, dass er sich selbst Ziele für seine Arbeitsergebnisse setzt, und wie hoch
sein Anspruchsniveau ist.
Im dritten Subtest Motivation durch Konkurrenz »kämpft« der Proband gegen
einen Konkurrenten, der eine Straße parallel zu seiner eigenen durchläuft. Der Konkurrent wurde angeblich vom Computer passend zum Probanden ausgewählt. Tatsächlich
richtet sich dessen Leistung auch nach der des Probanden; allerdings ist er immer 10%
schneller als der Proband in den letzen drei Durchgängen. Damit soll gemessen werden,
wie stark der Proband dadurch motiviert wird, dass er seine Leistungen mit denen eines
Konkurrenten vergleicht. In . Tab. 3.21 sind die Subtests mit ihren Kennwerten sowie
Angaben zur Reliabilität aufgeführt.
Neben den Hauptkennwerten (. Tab. 3.21) werden für jeden Subtest Fehlerquoten
und die intraindividuelle Streuung (SD) der Leistungen berechnet und der Leistungsverlauf über die drei Subtests wird grafisch dargestellt. Die Hilfskennwerte dienen lediglich der Beurteilung der Hauptkennwerte. Beispielsweise kann eine große Leistungsschwankung auf Störungen oder Probleme während der Durchführung hinweisen. Eine
hohe Fehlerrate spricht für große Anstrengung (die Fehlerrate korreliert um .30 mit der
Anzahl zurückgelegter Felder.
3.3 · Nichtsprachliche und Objektive Persönlichkeitstests
3
Fehlerquoten und
intraindividuelle
Streuungen als Hilfskennwerte
Gegen einen
Konkurrent »kämpfen«
Eigene Ziele setzen
Testaufgabe als Anreiz
311
3
sich bei der Konstruktion
von Objektiven Persönlichkeitstests an?
ferenzen auf nichtverbale Art zu erfassen. Dafür bieten sich etwa nichtverbale «Persönlichkeitsfragebogen«, biografische Informationen oder
physiologische Indikatoren an. Eine weitere Möglichkeit besteht in der
Konstruktion eines objektiven Tests im Sinne von Cattell (T-Daten).
Dazu zählen Leistungsprüfverfahren, die persönlichkeitsspezifisch
! Ad 1. Objektive Persönlichkeitstests versuchen, interindividuelle Dif-
Bewertung. In einer Testrezension schreibt Brandstätter (2005): »Es handelt sich um
einen interessanten Versuch objektiver Messung der Leistungsmotivation, der eine
nützliche Ergänzung der bisherigen Zugänge über projektive Verfahren oder Fragebogen verspricht. … Die Möglichkeiten der Computerpräsentation werden voll genutzt
und machen die Testteilnahme interessant und anregend« (S. 136) »Der im Wiener
Testsystem verfügbare OLMT ist als interessanter und entwicklungsfähiger Versuch der
objektiven Messung von Leistungsmotivation zu werten, der allerdings noch weitere
Untersuchungen zur Konstruktvalidität ... einschließen sollte« (S. 137).
Normierung. Der OLMT wurde an einer nach Alter und Bildungsniveau repräsentativen Stichprobe normiert. Wegen der Altersabhängigkeit der Kennwerte wurden drei
Altersgruppen gebildet: 18–49;11 (N = 170), 50–64;11 (N = 72) und 65–80 Jahre
(N = 124); für die Seniorenstichprobe besteht kein Anspruch auf Repräsentativität.
? 1. Welche Varianten bieten
(zu Abschn. 3.3.2)
Übungsfragen
»Interessanter und
entwicklungsfähiger
Versuch«
Normen für
3 Altersgruppen
Verfälschung nach
oben gelingt nicht
Korrelationen
mit Fragebogen
Korrelationen mit
diversen Leistungsmaßen
Validität. Positive Zusammenhänge in der Größenordnung um r = .30 fanden sich in
mehreren Untersuchungen zwischen den Kennwerten des OLMT und Leistungen in
verschiedenen kognitiven Leistungstests und Abiturnoten. Korrelationen in dieser
Höhe bestehen nicht nur mit Speedtests, sondern auch mit einem Intelligenztest (SPM
plus), der ohne Zeitbegrenzung bearbeitet wird. Meist erwies sich die Aufgabenbezogene Anstrengung als der Kennwert mit der höchsten Validität. In einer prospektiven
Studie korrelierte dieser Kennwert zu –.24 mit der durchschnittlichen Vordiplomnote
von Psychologiestudenten und wies sogar eine inkrementelle Validität zur Abiturnote
auf (Schmidt-Atzert, 2005). Mit Leistungsmotivationsfragebogen (Bochumer Inventar
zur Berufsbezogenen Persönlichkeit BIP) konnte nur ein schwacher Zusammenhang
festgestellt werden (Anspruchsniveau und Skala Leistungsmotivation bzw. Wettbewerbsorientierung: r = .29 bzw. .21).
In einer experimentellen Untersuchung zur Verfälschbarkeit des Tests sollten die
Probanden ihr Testergebnis nach oben bzw. nach unten verfälschen (Ziegler, SchmidtAtzert & Bühner, eingereicht). Eine Verfälschung nach oben gelang nicht, wie der Vergleich mit einer neutralen Kontrollgruppe ergab. Die Probanden konnten eine niedrige
Leistung vortäuschen, indem sie langsamer arbeiteten. Allerdings waren die Ergebnisse meist so schlecht, dass eine Verfälschungen nach unten erkannt werden konnte.
Objektivität und Reliabilität. Die Durchführungsobjektivität ist durch die standardisierte Instruktion und Testvorgabe gegeben. Die Auswertungsobjektivität wird durch
die automatische Berechnung der Testergebnisse gewährleistet. Die Interpretationsobjektivität ist gegeben, weil es sich um ein normiertes Testverfahren handelt und das
Manual präzise Hinweise zur Interpretation der Kennwerte enthält. Die interne Konsistenz (. Tab. 3.21) liegt in einem Bereich, der eher für Leistungstests typisch ist.
Kapitel 3 · Diagnostische Verfahren
Hohe interne
Konsistenz
312
Projektive Verfahren
Da man dem Testverhalten selbst nicht ansehen kann, wie es zustande gekommen ist
und auf welcher Ebene es demzufolge interpretiert werden kann, bedarf es zusätzlicher
In seiner Wunschprobe verfolge Wilde (1950) die Absicht, die Soseins-Wünsche und
damit die Dimensionen der charakterologischen Dynamik zu erfassen. Dabei stelle
sich aber die Frage nach der Ebene des in der Wunschprobe erscheinenden Verhaltens: »Wenn jemand ein Tiger sein möchte, weil der so schön beißen kann – heißt
das, dass die Versuchsperson aggressiv ist und aggressiv sein will, oder dass sie nicht
aggressiv ist, aber aggressiv sein möchte, oder dass sie nicht aggressiv ist, auch bewusst nicht aggressiv sein möchte, ihre unbewussten Wünsche nach Aggressiv-Sein
aber hier projiziert, oder dass sie aggressiv ist, aber bewusst nicht aggressiv sein
möchte und deshalb hier ihr Aggressiv-Sein-Wollen projiziert? – dass der Stimulus
›Tiger‹ hier die Dimension Aggressivität anspricht und nicht etwa die Dimension
Ästhetik (so schön gefleckt) weist zwar darauf hin, dass Aggressivität für die Versuchsperson eine Rolle spielt – aber welche?« (Hörmann, 1971, S. 94).
Beispiel
313
3
Interpretation auf
welcher Ebene?
Klassifikation projektiver Verfahren
Begriff der Projektion
ausgewertet werden oder solche Fragebogen, in denen den Probanden
die Messintention verborgen bleibt, die also keine »Augenscheinvalidität« besitzen.
Ad 2. Sie variierten die Testinstruktion (Normal- vs. SE-Anweisung)
und verglichen eine reale Auslese- mit einer Forschungssituation. Den
Ergebnissen zufolge ist die geforderte Undurchschaubarkeit der Messintention nur bei einem Teil der Objektiven Persönlichkeitstests gegeben, vornehmlich bei solchen mit Leistungscharakter.
Zu den wohl umstrittensten diagnostischen Verfahren gehören die sog. projektiven Tests.
Der Begriff der Projektion geht auf Freud zurück und meint die Verlegung einer Eigenschaft, die das Ich bedroht und an der eigenen Person nicht wahrgenommen wird, auf
eine Person der Außenwelt. Diese Projektionen sollen durch mehrdeutige Reize provoziert werden und Auskunft über nichtbewusste Aspekte der Persönlichkeit geben.
Die projektiven Verfahren werden somit klassifiziert nach der Theorie, auf deren
Basis sie in ihrer diagnostischen Funktion interpretiert werden. Das stellt einen ganz
ungewöhnlichen Kategorisierungsgesichtspunkt dar, denn üblicherweise erfolgt die
Gruppierung nach dem Messbereich (z. B. Intelligenz, Konzentration, Persönlichkeit)
oder äußeren formalen Kriterien (z. B. Papier- und Bleistift-Test, Einzel- oder Gruppentest usw.). Die Bereichsbildung nach »der« (einen) Theorie ist jedoch problematisch, weil es sehr divergierende Darstellungen darüber gibt, was genau eine Projektion
sei und welche Variante im konkreten Fall vorliegt.
Damit hängt u. a. das Problem zusammen, wie das Verhältnis zwischen Index und
Indiziertem beschaffen ist, auf das Hörmann (1971, S. 93/94) in seiner glänzenden
Analyse mit einem sehr instruktiven Beispiel verweist.
3.4
2. Wie war die Vorgehensweise und welchen Schluss zogen Häcker et al. (1979) aus
ihrer Studie bezüglich der
Verfälschbarkeit von Objektiven Persönlichkeitstests?
3.4 · Projektive Verfahren
3
Bestimmung der
Reliabilität schwierig
Problematische
Objektivität
Auswertungsgesichtspunkte
Schwierige Signierung
Formdeutetest
Der Rorschach-Test (Rorschach, o.J. 11. Aufl. 1992) ist ein Formdeuteverfahren, bei
dem die Testpersonen nacheinander 10 Klecksbilder (. Abb. 3.23) mit der Aufforderung vorgelegt bekommen zu sagen, was das sein könnte. Die Tafeln dürfen gedreht
werden, die Zahl der Antworten ist beliebig. Jede Antwort wird protokolliert und anschließend nach bestimmten Kategorien mehrfach signiert. Die klassische Auswertungsmethode von Rorschach sieht vier Gesichtspunkte vor: Erfassungsmodus (Ganzoder Detaildeutung), Determinanten (Form, Farbe, Bewegung), Inhalt und Grad der
Originalität. Weitere Indikatoren für das »Psychogramm« sind die Antwortzahlen, die
Reaktionszeiten, die Sukzession der Erfassungsmodi, der Erfassungs- und Erlebnistyp
und verschiedene Prozentwerte (Menschen, Tier-, Anatomiedeutungen usw.). Ist schon
die Signierung der Antworten nicht einfach, so bedarf deren Interpretation eingehender Schulung und langjähriger Erfahrung, weil die Ergebniskategorien nur im Zusammenhang bewertet werden sollen.
Damit ergeben sich sowohl für die Durchführungs- als auch für die Auswertungsobjektivität erhebliche Probleme. So korrelieren einige Kategorien deutlich mit der
nicht festgelegten Antwortzahl, und die Übereinstimmung zwischen verschiedenen
Auswertern variiert bei unterschiedlichen Stichproben und Kategorien zwischen 52
und 98%. Auch die Reliabilitätsbestimmung ist problematisch. Ein Halbierungskoeffizient lässt sich kaum berechnen, weil die 10 Testtafeln sehr unterschiedlich sind. Die
Bestimmung einer Paralleltestreliabilität scheitert am Fehlen einer Parallelform. Aber
Der Rorschach-Test (RT)
Im ersteren Fall sind eher positive Validitäten zu gewärtigen. Funktioniert hingegen ein
Test bei verschiedenen Probanden auf unterschiedlichen Ebenen (was für projektive
Tests und die Unbestimmtheit ihrer Reizvorlagen sehr wahrscheinlich ist), dürften die
Validitätskoeffizienten kaum die obere Grenze von rtc ~ .25 überschreiten (und noch
niedriger liegen, wenn etwa bei der Wiederholung der Testung bei verschiedenen Probanden die Ebenen in unterschiedlicher Weise gewechselt werden).
Ungeachtet solcher und weiterer Schwierigkeiten üben seit jeher projektive Verfahren eine besondere Faszination aus, weil sie für die Probanden undurchschaubar sind
und dem Testleiter einen Zugang zu den nicht- oder vorbewussten Ebenen (»Tiefen«
der Persönlichkeit) versprechen. Jeder diagnostisch tätige Psychologe sollte jedoch sehr
kritisch prüfen, ob sich die benötigten diagnostischen Daten nicht (auch) durch andere als projektive Verfahren erheben lassen, deren psychometrische Gütekriterien in
besserem Maße erfüllt sind.
Zu den am häufigsten verwendeten projektiven Verfahren gehören der RorschachTest und der Thematische Apperzeptionstest TAT. Im Folgenden werden exemplarisch
vorgestellt:
4 Der Rorschach-Test RT,
4 der Thematische Apperzeptionstest TAT,
4 der Children’s Apperception Test CAT,
4 der Leistungsmotivations-TAT LM-TAT.
Informationen etwa der folgenden Art: Aufgrund empirischer Untersuchungen muss
in Erfahrung gebracht werden oder ist bereits bekannt, dass
4 ein bestimmter Test immer auf einer Ebene »funktioniert«,
4 ein bestimmter Proband immer auf einer Ebene »funktioniert«,
4 ein bestimmter Proband in dem bestimmten Test auf einer bestimmten Ebene
»funktioniert«.
Kapitel 3 · Diagnostische Verfahren
Faszination der projektiven Verfahren
314
auch die Ermittlung einer Retestreliabilität ist schwierig, da die gegebenen Antworten
leicht erinnert werden können und häufig zu Kontrastreaktionen bei der Testwiederholung führen. Um die mit der Erinnerung verbundenen Effekte zu minimieren, hat
bereits vor geraumer Zeit Griffith (1951) eine Wiederholungsuntersuchung mit Korsakoff-Patienten durchgeführt, die sich wegen ihrer Gedächtnisstörungen an die erste
Testung nicht erinnern konnten. Dabei wurden zwar recht positive Stabilitäten beobachtet, aber die Stichprobe der Testpersonen war nur sehr klein und gewiss weit entfernt von jeglicher »Repräsentativität«. Am umstrittensten ist jedoch die Frage der
Validität. Da Rorschach seinen Test ausdrücklich als Wahrnehmungstest konstruierte,
fehlt dem Verfahren eine theoretische Grundlage für seine derzeit vorherrschende Anwendung im klinischen Bereich. Die dem Verfahren nachträglich unterlegte psychoanalytische Fundierung erscheint nicht schlüssig und ist ungeeignet, die Beziehung
zwischen den Deutungen und dem indizierten Konstrukt plausibel zu machen. Dadurch ist eine Konstruktvalidierung des Verfahrens, die eine akzeptable Theorie voraussetzt, nur schwer zu leisten. Einen sehr originellen Ansatz in dieser Hinsicht beinhaltet beispielsweise die Studie von Horn und Bona (1969), in der gesunde Kinder mit
solchen verglichen wurden, die an angeborenen oder krankheitsbedingten Beeinträchtigungen des Bewegungsapparates (Lähmungen) litten. Den Erwartungen entsprechend zeigten die klinisch auffälligen Kinder zwar in der Tat signifikant weniger Bewegungsdeutungen, aber weder die Durchführung noch Auswertung erfolgte »blind«
gegenüber der Gruppenzugehörigkeit der Probanden – ein Fehler im übrigen, der sehr
häufig zu bemängeln ist. Versuche, über Gruppenvergleiche diskriminierende Testindizes ausfindig zu machen, waren zwar in Einzelfällen durchaus erfolgreich. Mit der
Zahl der Untersuchungen, deren Ergebnisse inzwischen ganze Nachschlagewerke füllen, stieg aber auch die Anzahl diskrepanter Befunde. Dafür ist sicher nicht nur die
fehlende theoretische Fundierung des Verfahrens und seiner Anwendung verantwortlich. Die mangelnde Vergleichbarkeit der Kriterien, die häufig von Klinik zu Klinik
3.4 · Projektive Verfahren
Originelle Studie
mit Mängeln
Umstrittene Validität
Zufriedenstellende
Stabilität bei psychiatrisch auffälligen
Probanden
. Abb. 3.23. Tafel aus
dem Rorschach-Test
315
3
3
. Abb. 3.24. Tafel aus
dem TAT
zweimal 1 h
20 mehrdeutige Bilder
Comprehensive System
mit Normen
Der TAT (Murray, 1936), der den Probanden als Phantasietest vorgestellt wird, soll es
dem geübten Diagnostiker ermöglichen, einige der vorherrschenden Triebe, Gefühle,
Gesinnungen, Komplexe und Konflikte auf Seiten des Probanden zu erkennen, und
zwar insbesondere solche verdrängter oder hintergründiger Art. Er besteht aus Bildtafeln, die grundlegende menschliche Problemsituationen ansprechen und zu denen
möglichst dramatische Geschichten erfunden werden sollen (. Abb. 3.24). Die Bilder
sind bewusst etwas unscharf gehalten, um die Geschichten nicht zu sehr zu determinieren; eine Tafel ist völlig weiß, also ohne jedes Bild. Der Testleiter hat die Antworten zu
protokollieren und bei Bedarf an die Instruktion zu erinnern. Der Test wird in 2 etwa
Der Thematische Apperzeptionstest (TAT)
Einen Beitrag zur Verbesserung dieser Situation liefern die Inkblot-Techniques (Holtzman et al., 1961), die durch ein größeres Tafelangebot bei Limitierung der Antwortzahl
und strengere Signierungsregeln eine objektivere Testdurchführung und -auswertung
gewährleisten. Diese Veränderungen schlagen sich in deutlich verbesserten Auswerterübereinstimmungen nieder. Ob sie an der Validitätsproblematik etwas zu ändern vermögen, ist derzeit nicht abzusehen (Spitznagel, 1982b).
In den USA steht mit dem Comprehensive System von John Exner (4. Aufl., 2003)
ein Handbuch für den Rorschachtest zur Verfügung, das detaillierte Anweisungen für
die Durchführung und Auswertung sowie Normen für Kinder und Erwachsene enthält.
Für eine kritische Auseinandersetzung mit dem Rorschachtest auf Basis des Comprehensive System sei auf den Beitrag von Lilienfeld, Wood und Garb (2000) verwiesen,
der allerdings noch nicht die neuste Auflage des Handbuchs berücksichtigen konnte.
Der Rorschach-Test kann nicht als objektives, reliables und/oder valides Testverfahren bezeichnet werden.
Fazit
stark differieren, im Zusammenhang damit das Fehlen von Normen im strengen Sinne,
darüber hinaus die starke Abhängigkeit der Ergebnisse von Erfahrung und Verhalten
des Testleiters tun ein Übriges, die Problematik dieses Verfahrens zu vergrößern.
Kapitel 3 · Diagnostische Verfahren
Alternative:
Inkblot-Techniques
316
Der Einwand, dass sich diagnostisch relevante Informationen durch direkte Befragungen einfacher erheben lassen als durch projektive Techniken, trifft sicher für die Grup-
Der TAT ist kein Verfahren, das – darin den meisten projektiven Verfahren gleich –
den klassischen Testgütekriterien genügt. Revers und Widauer (1985), die mit dem
Thematischen Gestaltungstest eine modifizierte Version des TAT mit moderneren
Bildern publiziert haben, wollen ihr Verfahren auch eher als Kommunikationsmedium zur Bearbeitung biografischer Grundsituationen, als explorative Technik zur
Erfassung von Kognitionen und Emotionen aufgefasst wissen denn als Test. Die
mangelnden Testeigenschaften wären zu verschmerzen, wenn sich auf diese Weise
Informationen gewinnen ließen, die sonst nicht zu erlangen sind. Da den Versuchspersonen aber offensichtlich die relevanten Inhalte bewusst sind, stellt sich die
Frage, ob diese nicht durch direkte Befragung einfacher zu erheben sind.
Fazit
einstündigen Sitzungen appliziert, in denen je 10 Tafeln vorgelegt werden, die je nach
Alter und Geschlecht der untersuchten Person auszuwählen sind. Die Auswertung der
Geschichten soll die angesprochenen Themen und Konflikte, deren Vorgeschichte sowie ihre weitere Entwicklung herausarbeiten (Revers & Taeuber, 1968). Für Murray
stand eine Satz-für-Satz-Auswertung im Mittelpunkt, die nach den Kräften und Aktivitäten fragte, die entweder von »Helden« der Geschichte ausgehen oder auf diesen
wirken (»needs« bzw. »presses«). Es gibt jedoch verschiedene Auswertungsmethoden,
deren Verwendung von der verfügbaren Zeit, dem Quantifizierungsanspruch des Testleiters, den unterlegten Persönlichkeitstheorien, Rahmenbedingungen und anderen
Faktoren abhängt.
Ist die Objektivität der Testdurchführung schon wegen der nicht eindeutigen Instruktion in Frage gestellt, so birgt die für die Testperson ungewohnte Aufgabenstellung
und die Enge des Kontakts die Gefahr, dass der Proband versucht, aus dem verbalen
und nonverbalen Verhalten des Testleiters Hinweise für seine Antworten zu erlangen.
Dadurch kann der Testleitereffekt verstärkt werden. Da darüber hinaus die Auswertungsvorschriften relativ vage sind, ist auch die Objektivität der Testauswertung erheblich eingeschränkt. Für die Berechnung der Reliabilität ergeben sich infolge der
Heterogenität der Tafeln und wegen des Fehlens einer Parallelserie ganz ähnliche Probleme wie beim Rorschach-Test. Das Gleiche gilt auch für die Erinnerungseinflüsse bei
einer Testwiederholung.
Die Validität der verbalisierten Themen und Konflikte scheint dagegen auf den
ersten Blick leichter überprüfbar als die der Deutungen abstrakter Klecksfiguren. Die
Frage, welchen Stellenwert die angesprochenen Themen haben, ist jedoch nach wie vor
ungeklärt. Belege dafür, dass es sich dabei um die Projektion unbewusster Probleme
handelt, sind naturgemäß schwer zu erbringen. Es gibt vielmehr Hinweise darauf, dass
sich die Befragten ihrer Äußerungen wohl bewusst sind und deren Preisgabe kontrollieren können. Nicht vorhersagbar ist auch, ob das verbalisierte Merkmal repräsentativ
für das offen gezeigte Verhalten einer Person ist, ob es nur in ihrer Vorstellung existiert
oder sich an Standards der sozialen Erwünschtheit orientiert. Nachbefragungen zu den
einzelnen Geschichten sollen hier Klarheit bringen. Der Erfolg dieser Befragung dürfte
aber ebenso von der Äußerungsbereitschaft der Testperson abhängen wie von dem
exploratorischen Geschick des Untersuchers, ganz abgesehen davon, dass derartige
Nachbefragungen die Ökonomie des Verfahrens weiter beeinträchtigen.
3.4 · Projektive Verfahren
Unklare Bedeutung
der Antworten
Schwer berechenbare
Reliabilität
Problematische
Objektivität
Satz-für-Satz-Auswertung; daneben
weitere Methoden
317
3
3.5.1
3.5.2
3.5.3
Arten systematischer Verhaltensbeobachtung – 323
Arten der Datenregistrierung – 324
Gütekriterien von Beobachtungsverfahren – 326
Verhaltensbeobachtung
Arten systematischer Verhaltensbeobachtung
Nach Mees (1977) lassen sich Unterscheidungen treffen nach dem Ort der Beobachtung, dem Grad der Teilnahme des Beobachters und dem Ausmaß der technischen
Vermittlung.
Nach dem Ort lässt sich Beobachtung im natürlichen Umfeld der beobachteten
Person von derjenigen unter Laborbedingungen abheben. Feldbeobachtungen haben
den Vorteil, dass sie das Verhalten im Kontext der natürlichen Bedingungen erfassen
können, haben aber nur eingeschränkte Kontrollmöglichkeiten. Laborbeobachtungen
erlauben dagegen zwar ein höheres Maß an Kontrolliertheit, müssen aber dafür eine
gewisse Künstlichkeit der Bedingungen in Kauf nehmen, die einer Generalisierbarkeit
der Ergebnisse Grenzen setzt.
Nach dem Grad der Teilnahme des Beobachters lassen sich aktive und passive
Teilnahme von Nichtteilnahme unterscheiden. Aktive Teilnahme ist immer dann erforderlich, wenn der Beobachter nur in dieser Rolle Zugang zu einer ansonsten nach
außen abgeschlossenen Gruppe erhält (. Abb. 3.27). Bei passiver Teilnahme hat der
Beobachter zwar die Möglichkeit zu sofortiger Protokollierung, kann aber durch seine
Anwesenheit das zu beobachtende Verhalten mit beeinflussen. Die Vorzüge beider
Beobachtungsformen vereinigt die nichtteilnehmende Beobachtung, bei der der Beobachter unsichtbar bleibt und somit die Situation nicht beeinflusst.
Während aktive und passive Teilnahme ohne technische Hilfsmittel auskommen,
ist nichtteilnehmende Beobachtung an das Vorhandensein von Einwegscheiben, Tonoder Videoaufzeichnungsanlagen gebunden. Durch sie bleibt der Beobachter unsichtbar und kann seine Beobachtungen ungestört registrieren. Allerdings bleiben technische Hilfsmittel den Beobachteten nicht immer verborgen, sodass Reaktionen darauf
nicht auszuschließen sind. Aller Erfahrung nach geht der Einfluss dieser Störungen
nach kurzer Gewöhnungszeit bald wieder zurück. Eine Übersicht über die Arten der
Beobachtung gibt . Abb. 3.28.
3.5.1
Die Verhaltensbeobachtung ist eine Methode zur Gewinnung diagnostisch relevanter
Daten, die sich immer dann einsetzen lässt, wenn Verhalten zwar wahrnehmbar ist,
spezielle formelle Verfahren aber nicht zur Verfügung stehen. Sie kann unsystematisch,
d. h. mehr oder minder zufällig, oder systematisch in Form eines gezielten, geplanten
und kontrollierten Handelns erfolgen. Als wissenschaftlich kann allerdings nur die
zweite Form bezeichnet werden. Auf sie sind daher die folgenden Ausführungen beschränkt.
3.5
3.5 · Verhaltensbeobachtung
3
Nichtteilnahme
Passive Teilnahme
Aktive Teilnahme
Unter natürlichen oder
Laborbedingungen
Einsatz beim Fehlen
formeller Verfahren
321
3
Isomorphe Deskription
. Abb. 3.28. Arten systematischer Verhaltensbeobachtung (aus Mees, 1977)
Arten der Datenregistrierung
Von der Wahrnehmung des beobachteten Verhaltens ist seine Registrierung zu trennen. Nach dem Vollständigkeitsgrad dieses Vorgangs unterscheidet Mees (1977) zwischen isomorpher und reduktiver Deskription.
Isomorphe Deskription verlangt die vollständige Erfassung des zu beobachtenden
Verhaltens. War diese Forderung früher nur durch eine aufwändige Verhaltensbe-
3.5.2
Kapitel 3 · Diagnostische Verfahren
. Abb. 3.27. Bei aktiver
Teilnahme versucht sich der
Beobachter gewöhnlich in
solchen Situationen einzubringen, die für die Beobachteten »normal« sind
322
Sie wollen den gesamten Verhaltensstrom erfassen. Da dies ohne technische Hilfen
nicht möglich ist, wird die Vielfalt der Verhaltensweisen auf eine begrenzte Zahl
von Kategorien reduziert. Wie viele Kategorien ein System enthält, hängt zum einen
vom Untersuchungszweck, zum anderen aber auch von der kognitiven Kapazität der
Beobachter und deren Geübtheit ab. Fieguth (1977) sieht die Obergrenze bei etwa
30 Kategorien erreicht. In der Praxis wird man meist mit weniger Kategorien arbeiten,
um die Beobachter nicht zu überfordern.
Unabdingbare Voraussetzung für ein Kategoriensystem ist die Überschneidungsfreiheit der einzelnen Klassen, damit die einzelne Beobachtung jeweils nur in eine Kategorie fällt. Welche das im Einzelnen ist, bestimmt der Untersuchungszweck. Um
eindeutige Zuordnungen treffen zu können, sollte jede Kategorie klar definiert sein.
Kategoriensysteme
Bei ihnen geht es darum, ausgewählte Verhaltensweisen zu registrieren. Dabei stellt
sich allerdings die Frage, wie groß die Beobachtungseinheiten gewählt werden sollen,
die als Zeichen zu interpretieren sind, ob beispielsweise eine einzelne Bewegung oder
besser eine vollständige Handlung die angemessenere Einheit ist. So unterscheidet
Faßnacht (1979) allein 19 verschiedene Klassen von Einheiten. Diese Frage kann jedoch nicht generell beantwortet werden. Welche Größe angemessen ist, lässt sich allein
aus dem Zweck der Untersuchung und den dahinter stehenden theoretischen Annahmen ableiten.
Das Auftreten eines definierten Zeichens kann in Form einfacher Strichlisten festgehalten werden. Aus der Häufigkeit der Eintragungen wird auf die Intensität des beobachteten Verhaltens rückgeschlossen. Wie lange das registrierte Verhalten andauerte,
ist der Strichliste aber nicht zu entnehmen. Wird der Beobachter angehalten, seine
Beobachtung in bestimmten Abständen wiederholt zu markieren, lässt sich auch eine
Abschätzung der Dauer des Verhaltens vornehmen, vorausgesetzt, die Zeitintervalle
sind kurz genug. In der Praxis werden häufig Zeitintervalle um 10 s verwendet. Mit
Hilfe eines akustischen Signals in einem Kopfhörer kann dem Beobachter das Zeichen
zur Registrierung unauffällig übermittelt werden. Sollen kurzfristiger wechselnde Verhaltensweisen erfasst werden, sind auch kürzere Intervalle möglich. Der Vorzug von
Zeichensystemen besteht darin, dass aus den registrierten Markierungen eindeutig auf
das beobachtete Verhalten zurückgeschlossen werden kann.
Zeichensysteme
schreibung zu erfüllen, die schnell an die physischen Grenzen der Beobachter stieß, so
ermöglichen heute Tonband- und Videoaufzeichnungen isomorphe Deskriptionen in
größerem Umfang. Sie bieten zusätzlich den Vorteil, den Beobachtungsvorgang zu
Auswertungszwecken beliebig oft wiederholen zu können.
Reduktive Deskription ist erforderlich, wenn die genannten technischen Hilfsmittel nicht zur Verfügung stehen. Sie soll die Menge der anfallenden Daten auf ein zu
bewältigendes Maß zurückführen. Eine Reduktion ist auf verschiedene Weise möglich.
Sie kann einmal dadurch erreicht werden, dass nur ein bestimmter, ausgewählter Teil
des Verhaltens erfasst wird. Dann spricht man von einem Zeichensystem. Zum Andern ist Datenreduktion durch Zuordnung aller wesentlichen Details des Verhaltensstromes zu einer begrenzten und damit überschaubaren Zahl von Oberbegriffen zu
erzielen. In diesem Fall wird von Kategoriensystemen gesprochen. Eine dritte Gruppe stellen die Ratingverfahren oder Einschätzungsverfahren dar, die weiter unten
beschrieben werden.
3.5 · Verhaltensbeobachtung
3
Kategorienzahl je nach
Zweck und kognitiver
Kapazität
Verhaltensstrom
erfassen
Eindeutiger Rückschluss auf beobachtetes Verhalten möglich
Zeitintervalle
Schluss von Häufigkeit
auf Intensität
Größe der Beobachtungseinheiten je nach
Zweck und theoretischem Hintergrund
Zeichen- und
Kategoriensysteme
Reduktive Deskription
323
3
Beobachterübereinstimmung bei Zeichensystemen am größten
Objektivität
problematisch
Verschiedene
Skalentypen
Geeignet für
komplexes Verhalten
Gütekriterien von Beobachtungsverfahren
Der Haupteinwand gegen Beobachtungsverfahren richtet sich gegen deren angeblich
zu geringe Objektivität. Unter Objektivität der Beobachtung ist die Unabhängigkeit des
Ergebnisses von der Person des Beobachters zu verstehen. Da bei jeder Beobachtung
nicht nur das Beobachtungssystem als Instrument, sondern auch die Person des Beobachters involviert ist, müssen sich dessen Unvollkommenheiten und Fehler auf das
Beobachtungsergebnis auswirken. Da mit anderen Beobachtern wieder neue Fehler
entstehen, haben Beobachtungssysteme ihre Objektivität bei jeder Untersuchung erneut zu belegen. Dies geschieht bei Zeichen- und Kategoriensystemen durch Ermittlung der Übereinstimmung der Registrierungen. Eine Konkordanz der Summenwerte
allein reicht jedoch nicht aus. Sie muss auch punktuell gegeben sein. 90%ige Übereinstimmung gilt als Grenzwert, dessen Unterschreitung eine Beobachterschulung erforderlich macht. Der höchste Grad an Übereinstimmung ist bei Zeichensystemen zu erzielen, bei denen eine eindeutige Beziehung zwischen dem Auftreten eines Verhaltens
und der dazugehörigen Markierung besteht. Bei Kategoriensystemen können die von
den Beobachtern zu treffenden Entscheidungen, in welche Kategorie ein bestimmtes
Verhalten gehört, zu unterschiedlichen Ergebnissen und damit zur Beeinträchtigung
3.5.3
Das höchste Maß an Datenreduktion wird mit sog. Ratingverfahren erreicht, bei denen
das interessierende Verhalten von den Beobachtern in seiner Auftretenshäufigkeit
nachträglich einzuschätzen ist. Da die lästige Registrierung während des Beobachtungsvorganges entfällt, eignet sich dieses Verfahren für Beobachtungen, bei denen eine
Protokollierung mit Schwierigkeiten verbunden wäre oder stören würde. Auch dort, wo
komplexes Verhalten, das schwer in seine Teilkomponenten zu zerlegen ist, beobachtet
werden soll, bietet sich das Ratingverfahren an. Der Beobachter hat dabei die Aufgabe,
seine Verhaltenseinschätzung auf einer Skala zu markieren, die mehrfach abgestuft ist.
Beliebt sind 5- bis 7stufige numerische Skalen, weil sie eine genügend große Differenzierung besitzen und eine direkte Quantifizierung erlauben. Bei grafischen Skalen muss
der Beurteiler einen ihm geeignet erscheinenden Punkt auf einer Geraden markieren,
dessen Wertigkeit erst durch einen entsprechenden Maßstab zu ermitteln ist.
Der Wert einer Skala steht und fällt mit der Eindeutigkeit der Definition der einzelnen Skalenpunkte. Aber erst eingehende Schulung kann sicherstellen, dass verschiedene Beurteiler zu einigermaßen übereinstimmenden Ergebnissen kommen. Je globaler
das einzuschätzende Verhaltensmerkmal ist, desto schwieriger wird es, zwischen verschiedenen Beurteilern Übereinstimmung zu erzielen. Das den Schätzurteilen zugrunde liegende konkrete Verhalten ist aus den Ergebnissen von Ratingskalen nicht mehr
rekonstruierbar.
Rating- oder Einschätzungsverfahren
Vorübungen anhand von Videofilmen und Feldbeobachtungen sind erforderlich, um
die Brauchbarkeit eines Beobachtungssystems zu überprüfen und die künftigen Beobachter zu schulen. Die einzelnen Schritte bei der Entwicklung eines Kategoriensystems
sind in dem Beitrag von Fieguth (1977) anschaulich dargestellt. Am Ende der Entwicklung steht ein Beobachtungsbogen, der die einzelnen Kategorien und Raum für den
Eintrag der Markierungen enthält. Wie bei Zeichensystemen kann das bloße Auftreten
eines Verhaltens registriert, oder durch Zeitintervallmarkierung auch dessen Dauer
festgehalten werden.
Kapitel 3 · Diagnostische Verfahren
Nachträgliche
Registrierung
324
der Objektivität führen. Ganz allgemein scheint die Beobachtungsgenauigkeit auch
vom Wissen, kontrolliert zu werden, beeinflusst zu werden (Taplin & Reid, 1972; Kent
et al., 1979).
Am problematischsten ist die Objektivität von Ratingverfahren. Da sowohl kategoriale Zuordnungen als auch Häufigkeitseinschätzungen durch die Person des Beurteilers zu leisten sind, ergeben sich mehr Fehlermöglichkeiten.
Am häufigsten genannt wird der sog. Haloeffekt, auch als Hofeffekt bezeichnet, der
sich in überdurchschnittlich hohen Korrelationen der Urteile eines Beobachters zwischen verschiedenen Merkmalen einer Person äußert. Er soll dadurch zustande kommen, dass das Urteil über ein herausragendes Merkmal die Beurteilungen anderer
Merkmale einer Person »überstrahlt«. Abschwächen lässt sich dieser Effekt, indem man
nicht alle Merkmale einer einzelnen Person beurteilen lässt, sondern zunächst nur den
Ausprägungsgrad eines einzelnen Merkmals bei allen einzuschätzenden Personen erhebt.
Ebenfalls durch abweichende Interkorrelationen fällt der sog. logische Fehler auf.
Bei ihm dominiert nicht ein vorherrschendes Merkmal die restlichen Urteile, sondern
die implizite Annahme über die logische Zusammengehörigkeit bestimmter Merkmale. Anstatt den Ausprägungsgrad einzelner Verhaltensweisen unabhängig einzuschätzen, wird er aufgrund impliziter Zusammenhangsannahmen erschlossen. Dadurch
kann es geschehen, dass Beurteilungen mehr die impliziten Persönlichkeitstheorien
der Urteiler widerspiegeln als Unterschiede zwischen den beobachteten Personen
(Hofer, 1969).
Ein Mildefehler wird darin sichtbar, dass ein Beobachter insgesamt bessere Urteile
abgibt und deshalb höhere Mittelwerte erzielt als andere Beobachter (. Abb. 3.29a).
Hier soll eine gewisse Furcht davor, negative Urteile abzugeben, eine Rolle spielen. Ein
Strengefehler ist dagegen an einer Tendenz zu unterdurchschnittlichen Urteilen im
Vergleich zu anderen Beobachtern erkennbar (. Abb. 3.29b). Beide Fehlerarten sollten
zur Nachschulung oder ggf. zum Ausschluss dieser Beobachter führen.
3.5 · Verhaltensbeobachtung
3
. Abb. 3.29a–d. Illustration einiger Beurteilungsfehler bei der Einschätzung von
Eigenschaftsausprägungen
oder Verhaltenstendenzen
Milde- und Strengefehler
Logische Fehler
Halo- oder Hofeffekt
Kontrolle beeinflusst
Genauigkeit
325
3
Validität: meist
inhaltlich
Reliabilität selten
bestimmt
Tendenz zu
Extremurteilen
Weiterführende Literatur
Eine gut lesbare Einführung ist die Arbeit von Mees und Selg (Hrsg.) (1977). Umfangreicher und systematischer ist das Taschenbuch von Faßnacht (1979) über systematische Verhaltensbeobachtung. Hasemann (1983) handelt das Thema als Handbuchbeitrag in der Enzyklopädie der Psychologie, Band 4: Verhaltensdiagnostik ab (hrsg. von
Groffmann & Michel, S. 434-488). Eine gute Übersicht zur systematischen Beobachtung
in Familie, Schule und Klinik bietet ein Kompendium von Manns et al. (1987). Eine
aktuelle und systematische Darstellung, die nicht nur für den eignungsdiagnostischen
Anwendungsbereich relevant ist, gibt das von mehreren Autoren verfasste Kapitel »Verhaltensbeobachtung und Verhaltensbeurteilung« in Westhoff et al. (2004).
Die Verhaltensbeobachtung ist eine Methode, diagnostisch relevante Informationen
auch dort zu erheben, wo keine formellen Testverfahren zur Verfügung stehen. Ihre
Objektivität ist um so größer, je konkreter die zu registrierenden Verhaltensweisen
sind und je geringer das Ausmaß der vom Beobachter zu leistenden Urteilsprozesse
ist. Danach sind Zeichensysteme mit eindeutig zu identifizierendem Verhalten, das
in kurzen Intervallen registriert wird, Kategoriensystemen vorzuziehen. Letztere haben ihre Berechtigung dort, wo statt einzelner Verhaltensweisen Verhaltenssequenzen erfasst werden sollen. Dieser Vorzug wird durch eine Unschärfe auf der Verhaltensebene und durch eingeschränkte Objektivität erkauft. Am problematischsten
sind Ratingverfahren. Ihre auf den ersten Blick leichte Handhabbarkeit wird durch
die bei ihnen leichter auftretenden Beurteilungsfehler und ihre damit zusammenhängende mangelnde Objektivität aufgewogen. Sie haben ihre Existenzberechtigung bei der Untersuchung komplexer Phänomene und dort, wo es sich, wie in Pilotstudien, um erste Annäherungen an eine noch nicht klar strukturierte Fragestellung handelt.
Fazit
Eine zentrale Tendenz, d. h. eine Bevorzugung mittlerer Skalenpositionen, lässt sich
statistisch durch eine gegenüber Vergleichsbeurteilern eingeschränkte Varianz der Urteile eines Beobachters nachweisen (. Abb. 3.29c). Durch Verwendung gradzahliger
Skalen ohne erkennbaren Mittelwert kann diese Tendenz etwas gemildert werden. Bei
einer Tendenz zu Extremurteilen ergibt sich dagegen eine erhöhte Varianz der Urteile
(. Abb. 3.29d).
Außer der Objektivität ließe sich im Prinzip auch die Reliabilität eines Beobachtungsverfahrens bestimmen. Allerdings existieren Parallelverfahren in der Regel nicht.
Auch Konsistenzanalysen werden kaum berichtet. Von Bedeutung sind Retestanalysen,
da sie Auskunft über die Stabilität des beobachteten Verhaltens geben können. Deren
Berechnung hat sich im Gegensatz zu Testverfahren jedoch nicht eingebürgert. Allenfalls grafische Darstellungen des beobachteten Ausprägungsgrades bestimmter Verhaltensweisen zur Demonstration von Baseline-Werten und Effekten in verhaltenstherapeutischen Experimenten thematisieren diesen Aspekt.
Validitätsangaben zu Verhaltensbeobachtungen werden dagegen häufiger mitgeteilt
(Hofer, 1981). Beziehen sich Beobachtungen auf konkretes Verhalten und beanspruchen sie nur für dieses Gültigkeit, so sind sie inhaltsvalide und bedürfen keiner statistischen Absicherung. Ihre Ergebnisse sind allerdings wegen der Personengebundenheit
der Beobachtungsverfahren und der Situationsabhängigkeit der Beobachtungen selbst
nur begrenzt generalisierbar.
Kapitel 3 · Diagnostische Verfahren
Zentrale Tendenz
326
3.6.2
3.6.3
3.6.1
327
3
Standardisierte Interviews – 331
3.6.1.1 Klinische Interviews – 331
3.6.1.2 Interviews zur Eignungsdiagnostik – 335
Interviews selbst konstruieren – 338
Techniken der Gesprächsführung – 341
Diagnostisches Interview
Interview als Oberbegriff
Erhebung von
Informationen mittels
Gespräch
tensweise; Kategoriensysteme: durch Zuordnung ähnlicher Verhaltensweisen in eine begrenzte Zahl von Klassen; Ratingverfahren: durch
Schätzung von Ausprägungsgrad und/oder Häufigkeit von Verhaltensweisen auf einer begrenzten Zahl von Ratingkategorien.
Ad 4. Halo- oder Hofeffekte und logische Fehler durch Interkorrelation von Beobachtungen; Milde- und Strengefehler durch Abweichungen vom Mittelwert der übrigen Beobachter; zentrale Tendenz und die
Neigung zu Extremurteilen durch Vergleich der Urteilsstreuungen.
Ad 3. Zeichensysteme: durch Selektion der zu beobachtenden Verhal-
ren.
Ad 2. a) Zeichensysteme, b) Kategoriensysteme und c) Ratingverfah-
Ausmaß der Teilnahme, d) nach dem Grad der Vermittlung.
! Ad 1. a) nach dem Grad der Systematik, b) nach dem Ort, c) nach dem
Interviews dienen generell der Erhebung von Informationen mittels Gespräch. Interviews werden beispielsweise von Journalisten eingesetzt, um politische Standpunkte in
Erfahrung zu bringen oder etwa von Marktforschern, um Einstellungen gegenüber
bestimmten Produkten zu erkunden. In anderen Kontexten nennt man Interviews beispielsweise Verhör oder Zeugenbefragung. Der Zusatz »diagnostisches« Interview
macht klar, dass es sich um ein Interview zu diagnostischen Zwecken handelt. Damit
wird ein ganz bestimmter Verwendungszweck impliziert.
Innerhalb der psychologischen Diagnostik sollte der Begriff »diagnostisches Interview« als Oberbegriff für alle Methoden zur Erhebung von diagnostisch relevanten
Informationen mittels Gespräch verstanden werden. Je nach Art der zu erhebenden
Informationen können diagnostische Interviews zusätzlich spezifiziert werden. Unter
einer Anamnese oder einer Anamneseerhebung wird in Anlehnung an den Sprachgebrauch der Medizin die gesprächsweise Erkundung der Vorgeschichte einer Erkrankung oder Störung verstanden. Der Begriff Exploration stammt ursprünglich aus der
Psychiatrie und bezeichnet die Erkundung des subjektiven Lebensraums eines Probanden (vgl. Trost, 1996). Anamnese und Exploration können daher Bestandteil, in
bestimmten Fällen auch alleiniger Bestandteil, eines diagnostischen Interviews sein.
3.6
4. Welche Arten von Beobachtungsfehlern können bei
Ratingverfahren auftreten
und woran sind sie zu erkennen?
sen sich Verhaltensbeobachtungen klassifizieren?
2. Welche Arten der Datenregistrierung können unterschieden werden?
3. Auf welche Weise reduzieren
die verschiedenen Registrierungsverfahren die Datenmenge?
? 1. Nach welchen Aspekten las-
(zu Abschn. 3.5)
Übungsfragen
3.6 · Diagnostisches Interview
3
Verwertung der
Antworten nach festen
Regeln
Standardisierte
Auswertung
»Strukturiert« =
systematischer Aufbau
Interviews sind in unterschiedlichem Ausmaß standardisiert. Völlig unstandardisiert
ist ein Interview, wenn nur dessen Zweck feststeht (etwa eine klinische Diagnose stellen) und sich die Fragen im Laufe des Gesprächs erst ergeben. Zwei unstandardisierte
Interviews könnten sich daher selbst bei identischer Fragestellung sehr stark voneinander unterscheiden. Völlig standardisiert ist ein Interview, wenn jede Frage vorher genau festgelegt und immer im gleichen Wortlaut vorzutragen ist. Dazwischen sind viele
Abstufungen denkbar. Mit dem Begriff halbstandardisiert wird meist zum Ausdruck
gebracht, dass eine Standardisierung angestrebt wird, eine Festlegung auf exakte Wortlaute und Abfolgen von Fragen aber nicht gewollt oder nicht möglich ist. Die Vorlage
für ein halbstandardisiertes Interview kann etwa aus einer Liste von Themen mit stichpunktartig charakterisierten Fragen bestehen.
In der Klinischen Psychologie ist weithin auch der Begriff strukturiertes Interview
üblich. Allerdings werden die Begriffe »standardisiert« und »strukturiert« nicht einheitlich verwendet. Ein Interview sollte als »strukturiert« bezeichnet werden, wenn es
systematisch aufgebaut ist, also vorab festgelegt wird, welche Fragen wann und unter
welchen Umständen (je nach den Antworten auf vorhergegangene Fragen) zu stellen
sind. Damit ist bereits eine wesentliche Forderung der Standardisierung erfüllt. Man
kann sich auch ein Interview vorstellen, das aus einer unsystematischen, unstrukturierten Ansammlung von Fragen besteht, die aber immerhin in ihrer Abfolge und im Wortlaut genau festgelegt sind. In diesem Fall wäre das Interview zwar standardisiert, aber
nicht strukturiert.
Die Auswertung eines Interviews kann ebenfalls unterschiedlich stark standardisiert
sein. So wie bei Tests die Durchführungsobjektivität und die Auswertungsobjektivität
separat beurteilt werden, ist auch beim Interview zwischen beiden Gütekriterien zu unterscheiden. Eine standardisierte Durchführung ist kein Garant für eine standardisierte
Auswertung. Ein völlig standardisiert durchgeführtes Interview kann unstandardisiert
ausgewertet werden. Dies wäre etwa der Fall, wenn am Ende eines Einstellungsgesprächs
mit festgelegten Fragen »aus dem Bauch heraus« entschieden würde, ob der Bewerber
nun geeignet ist oder nicht. Standardisierung der Auswertung bedeutet, dass die Antworten nach festen Regeln verwertet werden. Meist muss der Interviewer entscheiden, in
welche der vorgegebenen Kategorien die Antwort passt. Beispielsweise könnten zu der
Frage nach Übernahme von Führungsaufgaben während der Schulzeit die Antwortkategorien lauten: a) ja, belegt durch konkrete Funktionsbezeichnung (Schülersprecher, Lei-
Diagnostisches Interview ist der Überbegriff für Methoden zur Erhebung von
diagnostisch relevanten Informationen mittels Gespräch. Mit Begriffen wie
Anamnese, Exploration, Einstellungsgespräch oder Auswahlgespräch kann
der Verwendungszweck oder die Zielsetzung eines diagnostischen Interviews
näher bestimmt werden. Diagnostische Interviews unterscheiden sich durch den
Grad ihrer Standardisierung.
Definition
Diagnostische Interviews können aber auch Funktionen übernehmen, die nicht unter
die Begriffe Anamnese und Exploration fallen, etwa die Erhebung von Informationen zur Eignung eines Probanden für einen bestimmten Beruf oder für ein bestimmtes Studium. Nach dem primären Verwendungszweck kann das diagnostische Interview dann auch näher als Einstellungsgespräch oder Auswahlgespräch bezeichnet
werden.
Kapitel 3 · Diagnostische Verfahren
Unterschiedliche
Grade der Standardisierung
328
Standardisierte Interviews
3.6.1.1
Klinische Interviews
Klinisch tätige Psychologen werden häufig mit Fragestellungen konfrontiert, zu deren
Beantwortung eine Befragung der Patienten nötig ist. An erster Stelle ist die Frage nach
Standardisierte Interviews kommen vor allem im klinischen Bereich und in der Eignungsdiagnostik zum Einsatz. Verfahren aus diesen beiden Bereichen werden deshalb
ausführlich dargestellt. Generell ist der Einsatz von standardisierten Interviews immer
dann zu erwägen, wenn sich eine Fragestellung oft wiederholt, und wenn die Ergebnisse mit denen anderer Probanden verglichen werden sollen.
3.6.1
tung von Jugendgruppen im Verein etc.), b) ja, aber ohne formale Funktion (z. B. eine
Klassenfahrt organisiert) und c) nein, keine Führungsaufgabe benannt. Auch die Verrechnung kann vorher festgelegt sein. Meist werden für die Antworten auf eine Frage
Punkte vergeben und diese zur Ermittlung eines Gesamtwertes über alle Fragen addiert.
Dabei sind Gewichtungen der einzelnen Antwortalternativen möglich. Im Beispiel könnten etwa zwei Punkte für Antwort a und ein Punkt für Antwort b vorgesehen sein.
Der Prozess der Informationsgewinnung im Interview wird in . Abb. 3.30 veranschaulicht. Vom »wahren« Sachverhalt im Leben des Befragten bis zu dessen Verwertung im Interview finden Transformationen statt, die anfällig für Verzerrungen sind.
Durch ein standardisiertes Vorgehen beim Interview sollen die Verzerrungen seitens
des Interviewers minimiert werden.
3.6 · Diagnostisches Interview
3
. Abb. 3.30. Stationen der
Informationsverarbeitung
beim Interview (aus Keßler,
1988)
Haupteinsatzgebiete:
Klinischer Bereich und
Eignungsdiagnostik
Prozess der Informationsgewinnung
Punkte für »passende«
Antworten
329
3
Weitere Funktionen
klinischer Interviews
Weitere standardisierte
klinische Interviews
Verzweigungsregeln
verkürzen das
Interview
Beispiel SKID
Standardisiertes
Vorgehen wichtig
Klinische Diagnosen
stellen
der Art der Störung zu nennen. Viele diagnostische Kriterien im ICD-10 und DSM-IV
(7 Abschn. 10.2) sind ohne Mitwirkung der Patienten kaum feststellbar. Wie will man
anders als durch (schriftliche oder mündliche) Befragung feststellen, ob jemand ausgeprägte Ängste vor einer Gewichtszunahme hat, unter Schmerzen oder etwa unter
Mundtrockenheit leidet oder Halluzinationen hat. Andere klinische Symptome äußern
sich im Verhalten und sind damit grundsätzlich auch einer Verhaltensbeobachtung
zugänglich. Dennoch wird in den meisten Fällen eine Befragung wesentlich ökonomischer sein.
Ein diagnostisches Interview kann dazu dienen, klinische Diagnosen anhand von
vorliegenden Symptomen zu stellen. Beispielsweise lautet eines von mehreren Kriterien
für das Vorliegen einer Episode einer Major Depression im DSM-IV »Deutlich vermindertes Interesse oder Freude an allen oder fast allen Aktivitäten, an fast allen Tagen, für
die meiste Zeit des Tages (entweder nach subjektivem Ermessen oder von anderen
beobachtet)« (Saß, Wittchen, Zaudig & Houben, 1998, S. 150). Nun könnte man fragen:
»Haben Sie längere Zeit keine Lust gehabt, die Dinge zu tun, die Ihnen sonst Spaß machen?«. Ein anderer Kliniker würde vielleicht lieber fragen: »Hatten Sie die Freude an
Dingen verloren, die Sie früher gerne gemacht haben?«. Persönliche Präferenzen im
Sprachgebrauch und die Anpassung an das sprachliche Niveau der Patienten führen
dazu, dass die Formulierungen unterschiedlich ausfallen können. Damit wird jedoch
die Durchführungsobjektivität eines diagnostischen Interviews verletzt. Die offensichtlichste Konsequenz ist, dass die Antworten je nach Formulierung der entscheidenden
Fragen unterschiedlich ausfallen. Da von den Antworten letztlich die Diagnose abhängt, ist es nahe liegend, die Fragen zu standardisieren, also immer auf die gleiche
Weise zu stellen. Genau das leisten standardisierte klinische Interviews. Alle Diagnostiker, die das Strukturierte Klinische Interview für DSM-IV (SKID) von Wittchen,
Zaudig und Fydrich (1997) durchführen, stellen die Frage (A2) so: »Während der letzten 4 Wochen: Haben Sie das Interesse oder die Freude an fast allen Aktivitäten verloren, die Ihnen gewöhnlich Freude machen?«. Im SKID sind zudem bestimmte Nachfragen und Kategorien zur Bewertung der Antwort vorgegeben. Der Diagnostiker
kreuzt zum Beispiel anhand der Antwort an, dass ein erheblicher Verlust von Interesse
oder Freude an allen oder fast allen Aktivitäten fast jeden Tag »sicher vorhanden &
kriteriumsgemäß ausgeprägt« ist.
Im SKID sind die Fragen nach Störungen gruppiert. Bei dem einzelnen Patienten
müssen nicht alle Fragen gestellt werden. Verzweigungsregeln bestimmen, mit welchen
Fragen in Abhängigkeit von seinen Antworten zu einem Fragenkomplex weiter gemacht wird.
Neben dem SKID erfüllen einige wenige andere standardisierte klinische Interviews
die Aufgabe, das ganze Spektrum psychischer Störungen abzudecken. Hier ist besonders das Diagnostische Interview bei psychischen Störungen (DIPS) von Margraf,
Schneider und Ehlers (1991; Schneider, In-Albon & Margraf, 2006) zu nennen. Zu
diesem Interviewverfahren liegt mit dem MINI-DIPS auch eine Kurzform vor (Margraf, 1994) sowie von Unnewehr, Schneider und Margraf (1994) eine Version für Kinder
(Kinder-DIPS). Andere standardisierte Interviews haben dagegen nur bestimmte Bereiche von Störungen, beispielsweise Essstörungen, zum Gegenstand.
Standardisierte klinische Interviews können auch andere Funktionen haben als
Diagnosen zu stellen. Beispielsweise mögen sie dazu dienen, den Verlauf oder das Ergebnis einer Therapie zu evaluieren oder die Ätiologie einer Störung abzuklären. Informationen über ein breites Spektrum von klinischen Interviews findet man in dem
Kompendium von Strauß und Schuhmacher (2005).
Kapitel 3 · Diagnostische Verfahren
Mitwirkung der
Patienten erforderlich
330
Wie stark hängt das Ergebnis (die Diagnose) davon ab, wer das Interview führt und
wer die Antworten auswertet? Diese Frage richtet sich auf die Durchführungs- und
Auswertungsobjektivität von strukturierten klinischen Interviews. Segal, Hersen und
van Hasselt (1994) haben sich in einer Übersichtsarbeit mit der Auswertungsobjektivität (Übereinstimmung zwischen zwei oder mehr Auswertern) und zusätzlich auch mit
der Retestreliabilität des SKID (das sich damals noch auf das DSM-III-R bezog) befasst.
Die überwiegende Zahl der Studien galt der Übereinstimmung zwischen den Auswertern von Interviews, also der Auswertungsobjektivität. Der Prozentsatz an übereinstimmenden Urteilen ist wenig aussagekräftig. Die prozentuale Übereinstimmung wird bei
seltenen Diagnosen zwangsläufig hoch ausfallen, weil die Erkenntnis, dass diese Störung nicht vorliegt, bei dem anderen Urteiler häufig mit der gleichen Erkenntnis zusammentrifft. Deshalb wird meist der Kappa-Koeffizient (oder bei sehr kleinen Grundwahrscheinlichkeiten der Störung besser Yules Y-Koeffizient) berechnet, der die Wahrscheinlichkeit des zufälligen Aufeinandertreffens von gleichen Urteilen rechnerisch
kontrolliert. Als erstes fällt auf, dass die Urteilerübereinstimmung sehr stark von den
Diagnosen abhängt. Eine Auszählung ergibt, dass bei den Persönlichkeitsstörungen
(Achse II) jeweils etwa ein Drittel der Kappa-Koeffizienten in die Bereiche unter .70,
.70 bis .80 und über .80 fällt. Bei den Störungen auf Achse I sind Werte unter .70 eher
selten (17% der Werte) und der große Rest verteilt sich etwa gleich auf den mittleren
und oberen Bereich.
Direkte und gezielte Überprüfungen der Durchführungsobjektivität sind extrem
selten. Üblicherweise wird das Interview von einem anderen Interviewer nach wenigen
Tagen erneut durchgeführt. So gewinnt man Informationen über die Retestreliabilität.
Unterschiede in den Ergebnissen der beiden Interviewer können hierbei allerdings
darauf zurückzuführen sein, dass die Interviews unterschiedlich geführt und/oder unterschiedlich ausgewertet wurden. Zusätzlich kann sich die untersuchte Störung verändert haben, was bei kurzen Zeitintervallen aber relativ unwahrscheinlich ist. Darüber
hinaus mögen die Patienten den beiden Interviewern unterschiedliche Informationen
gegeben haben. Die Wiederholungsmethode mit zwei verschiedenen Interviewern bildet die klinische Praxis sehr gut ab. Normalerweise wird das Ergebnis davon abhängen,
wer das Interview führt (Merkmale wie Alter, Aussehen und Geschlecht des Interviewers wirken sich möglicherweise auf das Auskunftsverhalten des Patienten aus), wie der
Interviewer das Gespräch führt (Interviewerverhalten) und wie der Interviewer die
Antworten verwertet (Auswertungsobjektivität). Segal et al. (1994) stützten sich auf
eine große Retest-Untersuchung über ein breites Spektrum an Störungen (auf Achse I).
An einer Stichprobe von 390 Patienten resultierte über alle 21 Störungen ein mittleres
Kappa von .61 Die Retestreliabilität lag damit im Vergleich zu anderen Studien erwartungsgemäß niedriger als die Auswerterübersteinstimmung. Bei den ebenfalls untersuchten 202 Nichtpatienten kamen 16 verschiedene Diagnosen vor, wobei Kappa
durchschnittlich nur .37 betrug. Die Reliabilität variierte sehr stark in Abhängigkeit von
den Diagnosen. Sie reichte bei den Patienten immerhin von .40 bis .86. Für die in der
Patientengruppe häufiger vorkommenden Störungen (Basisrate über 10%) lagen die
Kappa-Werte im Bereich von .64 bis leicht über .84 (Major Depression: .64, bipolare
Störung: .84, Schizophrenie: .65, Drogenabhängigkeit oder -missbrauch: .84).
Die Ergebnisse zur Retestreliabilität besagen, dass die Diagnose, die ein Interviewer
aufgrund der Angaben des Patienten im Interview stellt, in erheblichem Ausmaß davon
abhängt, wer das Interview führt und auswertet. Es gibt keine allgemein anerkannten
Regeln dafür, wie ein Kappa-Koeffizient zu bewerten ist. Segal et al. (1994) vertreten die
Ansicht, dass Werte über .70 als Hinweis auf eine gute Übereinstimmung gelten kön-
3.6 · Diagnostisches Interview
Diagnose hängt mit
vom Interviewer ab
Retestreliabilität
variiert stark in
Abhängigkeit von
der Diagnose
Wiederholung des
Interviews durch
anderen Interviewer
Urteilerübereinstimmung hängt von den
Diagnosen ab
Durchführungs- und
Auswertungsobjektivität strukturierter
klinischer Interviews
331
3
3
Kaum externe
Validitätskriterien
vorhanden
Klarheit der diagnostischen Kriterien
beeinflusst Übereinstimmung
Diagnose »Angststörung«
Interviewer 2
Ja
87
22
Nein
07
85
Die im Beispiel vorgelegten Zahlen bedeuten, dass beide Interviewer bei 87 der 201
Patienten übereinstimmend die Diagnose »Angststörung« gestellt und bei 85 weiteren
Patienten übereinstimmend festegestellt haben, dass diese Patienten keine Angststörung aufweisen. Bei sieben Patienten war Interviewer 1 der Meinung, dass diese eine
Angststörung haben, während der andere Interviewer hier keine Angststörung festgestellt hat. Interviewer 2 diagnostizierte allerdings bei 22 anderen Patienten eine Angststörung, während hier Interviewer 1 nicht zu einer solchen Diagnose gelangte. Für
diese sieben plus 22 Patienten (immerhin 14% der Patientengruppe) bedeuten derartige
Nichtübereinstimmungen, dass die Diagnose »Angststörung« davon abhing, welcher
Interviewer sie befragt hat. Für die Praxis klinischer Arbeit impliziert dieses weitreichende Konsequenzen, etwa der Art, ob ein Patient die ihm zustehende Behandlung
erhält oder nicht und ob eine Person ohne klinische Störung oder mit einer ganz anderen Störung zunächst als Angstpatient behandelt wird. Angenommen, anstelle von
Angststörung würde hier Blinddarmentzündung stehen: Die Konsequenzen einer Behandlung (Operation) oder Nichtbehandlung (Gefahr, an einer unbehandelten Blinddarmentzündung zu sterben) wären ungleich größer!
Bei der Beurteilung von Übereinstimmungsmaßen bei klinischen Interviews ist
auch zu bedenken, dass die Auswertungsobjektivität nicht nur von der Person des Auswerters abhängt, sondern auch von der Klarheit der diagnostischen Kriterien im
DSM.
Die Validität strukturierter klinischer Interviews ist schwer zu beurteilen, und zwar
deshalb, weil die Interviews in der klinischen Praxis als die beste verfügbare Methode
zur Diagnosefindung gelten, sie also das erste in Betracht kommende Kriterium darstellen. Von daher stünden für Validitätsuntersuchungen nur weniger zulängliche Validitätskriterien zur Verfügung. Die Ergebnisse würden deshalb mehr über die Validität
der anderen Verfahren als über die des Interviews aussagen. Deshalb wird an dieser
Stelle auf die Darstellung von Ergebnissen verzichtet.
Anmerkung. Zahlen aus Margraf, Schneider und Ehlers (1994, S. 22). Es handelt sich
im vorliegenden Fall nur um Primärdiagnosen (also vorherrschende Störungen bei
einem Patienten) und um Oberklassendiagnosen (keine Differenzierung zwischen
verschiedenen Formen von Angststörungen).
Ja
Nein
Diagnose »Angststörung«
Interviewer 1
Zahlenbeispiel für die Retestreliabilität; DIPS-Diagnose »Angststörungen«,
Kappa = .71
Beispiel
nen. Diese Auffassung mag auch dafür stehen, dass sich die Untersucher bei klinischen
Diagnosen mit wenig zufrieden geben. Ein Beispiel soll zeigen, was sich hinter solchen
Zahlen verbirgt.
Kapitel 3 · Diagnostische Verfahren
Auch bei »guter«
Urteilerübereinstimmung relativ viele
»Fehldiagnosen«
332
6
1. Gesprächsbeginn. Kurze, informelle Unterhaltung, deren Hauptfunktion der
Aufbau einer Atmosphäre der Offenheit und Freundlichkeit ist. Skizzierung des
Verfahrensablaufs. Keine Beurteilung in diesem Teil.
2. Selbstvorstellung des Bewerbers. In freier Form berichtet der Bewerber/die
Bewerberin über seinen/ihren persönlichen und beruflichen Hintergrund. Der
Interviewer kann dabei auffordern, den Schwerpunkt entweder auf die vorangegangene berufliche Erfahrung oder auf die Ausbildung zu legen, hier wie dort
aber auch die Berufswahl und die berufsbezogenen Erwartungen zu thematisieren. Die Beurteilung erfolgt hinsichtlich dreier formaler (z. B. »Ausdruck«) und
dreier inhaltlicher (z. B. »Einstellung zur Arbeit«) Urteilsaspekte auf je dreistufigen Skalen.
Aufbau, Funktion und Auswertung des multimodalen Einstellungsinterviews
(nach Schuler, 1992, und Schuler & Moser, 1995)
3.6.1.2
Interviews zur Eignungsdiagnostik
In der Personalauswahl sind Vorstellungsgespräche bzw. Einstellungsinterviews nach
der Sichtung von Bewerbungsunterlagen die am weitesten verbreitete Methode (Schuler, Frier & Kauffmann, 1993). Dieses hat nicht zuletzt damit zu tun, dass sowohl Auswählende als auch Bewerber das Interview im Vergleich zu anderen Auswahlinstrumenten wie Arbeitsproben, Zeugnisnoten, psychologischen Eignungstests und Lebenslaufdaten am meisten schätzen (Fruhner, Schuler, Funke & Moser, 1991). Im Hinblick
darauf sind denn auch Auswahlgespräche als Teil des besonderen Auswahlverfahrens
bei der Vergabe von Studienplätzen im Hochschulrahmengesetz (Siebtes Gesetz zur
Änderung des HRG vom 28.8.2004) explizit vorgesehen. Allerdings sind die Ergebnisse zur prognostischen Validität von Auswahlgesprächen nicht sehr ermutigend. Bei der
Auswahl von Medizinstudenten zeigte sich, dass die per Interview ausgewählten Studierenden schlechtere Leistungen in der Zwischenprüfung aufwiesen als diejenigen, die
nach einem Test oder einer Kombination von Test und Abiturnote ausgewählt worden
waren (Nauels & Klieme, 1994). Bei einem breiten Einsatz von standardisierten Auswahlgesprächen ist zu bedenken, dass die Fragen schnell bekannt werden und damit
eine gezielte Vorbereitung auf das Interview ermöglichen. Eine für die diagnostische
Praxis von Auswahlgesprächen an Hochschulen äußerst wertvolle Handreichung haben Trost und van Hayn (2001) vorgelegt.
Um die häufig genug bestehende Kluft zwischen der Beliebtheit des Interviews
(resultierend aus dessen Augenschein-, »Face-« oder gar »Faith-Validität«) und
den mäßigen psychometrischen Güteeigenschaften zu schließen, lag es nahe, geeignete Formen von Interviews zu entwickeln, in denen die Vorzüge des standardisierten Vorgehens genutzt werden, ohne dessen Nachteile hinzunehmen. Schuler (1992)
hat diesbezüglich mit dem so genannten »Multimodalen Einstellungsinterview« einen wichtigen Beitrag geleistet. Darauf wird nachfolgend im Detail eingegangen, weil
damit zum Einen konkrete diagnostische Schritte verbunden sind, zum Anderen bereits reichhaltige und positive Erfahrungen zur Validität des gesamten Prozedere vorliegen.
Das Attribut »multimodal« soll darauf hinweisen, dass dem Interview unterschiedliche Methoden und Konstruktionsprinzipien zugrunde liegen. Im Einzelnen sieht der
Aufbau aus wie unten dargelegt.
3.6 · Diagnostisches Interview
3
Multimodales
Einstellungsinterview
Auswahlgespräche
bei der Hochschulzulassung problematisch
Einstellungsinterviews
in der Praxis beliebt
333
3
Metaanalysen zur
Validität
Beurteilerübereinstimmung bei strukturierten Interviews höher
Wie ersichtlich, finden sich als »Herzstücke« Verhaltensbeschreibungen ebenso wie die
situativen Fragen, erstere in den Schritten (2) und (5), letztere in (7). Die Autoren des
multimodalen Interviews stützten sich bei ihren Konstruktionsarbeiten unter anderem
auf eine detaillierte Anforderungsanalyse innerhalb eines bestimmten Arbeitsbereichs
(hier: des Bankenverbandes), die zu einer größeren Zahl »kritischer Ereignisse« führte.
Daraus wurden in mehreren Stufen die letztlich resultierenden Fragen abgeleitet. Die
Dimensionen der Arbeitsanalyse lagen auch der Auswahl bzw. Formulierung der biografischen Fragen zugrunde.
Das multimodale Interview stellt lediglich ein Konstruktionsprinzip dar, eine Leitlinie zum Aufbau eines Einstellungsgesprächs. Die inhaltliche Ausgestaltung variiert in
Abhängigkeit von der Stelle, die zu besetzen ist. Deshalb sind die folgenden Angaben
zur Objektivität, die Schuler (1992) berichtet, nur bedingt auf andere multimodale Interviews generalisierbar. Für zwei Untersuchungen an 305 bzw. 69 Probanden berichtet
Schuler (1992) für das Gesamtinterview Übereinstimmungen zwischen jeweils zwei
Beurteilern von .71 bzw. .83. McDaniel, Whetzel, Schmidt und Maurer (1994) haben in
einer Metaanalyse von insgesamt 187 Koeffizienten eine durchschnittliche Auswerterübereinstimmung für strukturierte Interviews zur Personalauswahl von .84 und von .68
für unstrukturierte Interviews gefunden.
Anders als im klinischen Bereich hat der verbreitete Einsatz von diagnostischen
Interviews im Bereich der Personalauswahl sehr viele Publikationen zur Validität angeregt, also zu dem Problem, wie die im Interview ermittelten Informationen mit Kriteriumsmaßen zusammenhängen. Diese sind in Metaanalysen zusammenfassend dargestellt worden. . Tab. 3.22 informiert über die wichtigsten Ergebnisse.
Die in Tabelle 3.22 aufgeführten Ergebnisse erlauben einige Schlussfolgerungen.
Erstens kann die Validität von Interviews nicht damit erklärt werden, dass die Validierung an subjektiven Kriterien (meist Vorgesetztenbeurteilungen) erfolgt. Der Zusam-
3. Berufsinteressen und Berufswahl. Es werden vier standardisierte Fragen zu
Berufswahl, Berufsinteressen, zur Organisations- bzw. Institutionsauswahl und
zur Bewerbung gestellt. Antwortbeurteilung auf dreistufigen verhaltensverankerten Skalen.
4. Freies Gespräch. Dient zur Auflockerung. Interviewer stellt offene Fragen in Anknüpfung an Selbstvorstellung und Bewerbungsunterlagen. Summarische Eindrucksbeurteilung.
5. Biografiebezogene Fragen. Biografische oder »Erfahrungsfragen« werden aus
Anforderungsanalysen abgeleitet oder anforderungsbezogen aus biografischen
Fragebogen übernommen. Je nach Komplexität der Fragen erfolgt die Bewertung auf drei- oder fünfstufigen, verhaltensverankerten Skalen.
6. Realistische Tätigkeitsinformation. Positive Seiten oder Erwartungen sowie
auch die Probleme der Institution und des Arbeitsalltags werden vermittelt.
Überleitung zu situativen Fragen.
7. Situative Fragen. Knappe Schilderung von mehreren erfolgskritischen Situationen (auf Critical-Incident-Basis entwickelt) und Frage nach dem Verhalten des
Kandidaten in dieser Situation. Bewertung auf fünfstufigen Skalen.
8. Gesprächsabschluss. Die Bewerber erhalten Gelegenheit, ihrerseits Fragen zu
stellen und verbliebene Unklarheiten zu erörtern. Zusammenfassung: Weitere
Vereinbarungen.
Kapitel 3 · Diagnostische Verfahren
Hoher Stellenwert von
Verhaltensbeschreibungen und von
situativen Fragen
334
31
23
12
160
106
39
75
26
30
90
54
32
22
Marchese und Muchinski
(1993)
McDaniel et al. (1994)
Huffcutt, Conway, Roth
und Klehe (2004)
Situative Interviews
Verhaltensbeschreibende Int.
.43
.51
.37
.44
.33
.36
.34
.36
.43
.32
Kriterium Berufserfolg
Strukturierte Interviews
Unstrukturierte Interviews
Kriterium Trainingserfolg
Strukturierte Interviews
Unstrukturierte Interviews
Berufserfolg, ein Interviewer
Berufserfolg, Interviewerteam
25.244
12.847
9.330
59.844
3.576
47.576
11.393
11.915
2.815
2.721
.38
.37
.39
Validitäta
Kriterium Berufserfolg
Subjektive Kriterien
Objektive Kriterien
Spezifikation
3.960
2.290
1.875
N
menhang mit objektiven Kriterien des Berufserfolgs ist mindestens genauso hoch wie
der mit subjektiven Kriterien. Zweitens sind strukturierte Interviews unstrukturierten
überlegen; beim Kriterium Trainingserfolg fand sich allerdings kein Unterschied. Drittens fallen die Validitäten niedriger aus, wenn mehrere Interviewer beteiligt waren. Die
Überlegenheit des Einzelinterviews ist übrigens bei strukturierten Interviews besonders ausgeprägt (McDaniel et al., 1994). Viertens erwiesen sich verhaltensbeschreibende Interviews den situativen als überlegen. Beide werden in der Regel anforderungsbezogen konstruiert. Beim situativen Interview werden Fragen zu hypothetischen Situationen gestellt. Der Bewerber soll angeben, wie er sich in den genannten Situationen
verhalten würde. In verhaltensbeschreibenden Interviews wird dagegen erfragt, wie
sich der Bewerber in zurückliegenden realen Situationen verhalten hat.
Neben den genannten Moderatorvariablen haben sicherlich weitere Faktoren einen
Einfluss auf die Validität von Interviews. Die Beurteilung, die ein Bewerber erfährt,
kann ferner durch verschiedene Störfaktoren beeinflusst werden. Eine Übersicht über
die Forschung zu Einfluss- oder Störfaktoren wie etwa die äußere Erscheinung des
Bewerbers geben Posthuma, Morgeson und Campion (2002).
Eine ganz andere Frage ist die nach der Konstruktvalidität von Einstellungsinterviews. Sie sagt etwas darüber aus, ob die Beurteilung im Interview beispielsweise mit
der Intelligenz oder bestimmten Persönlichkeitseigenschaften der Interviewten zusammenhängt. Salgado und Moscoso (2002) haben in einer Metaanalyse die vorliegenden
Untersuchungen danach eingeteilt, ob es sich eher um ein konventionelles Interview
handelte oder eher um ein verhaltensbezogenes. Beide Interviewtypen weisen Gemeinsamkeiten auf; die wesentlichen Unterschiede liegen darin, dass in den als »verhaltensbezogen« definierten Interviews überwiegend nach früheren Aktivitäten und Erfahrungen sowie nach konkretem Verhalten in früheren oder auch in fiktiven Situationen
gefragt wurde und weniger nach Selbstbeurteilungen. Für konventionelle Interviews
fanden die Autoren moderate Zusammenhänge (korrigierte Korrelationen) mit Intelligenz (r = .41), emotionaler Stabilität (r = .38) und sozialen Fertigkeiten (r = .46). Die
Anmerkung. k = Anzahl der Studien, N = Anzahl der Personen in den Studien insgesamt.
a Korrigierte Validität (Korrekturfaktoren zwischen den Metaanalysen leicht verschieden).
k
Metaanalyse
. Tabelle 3.22. Ergebnisse von Metaanalysen zur Validität eignungsdiagnostischer Interviews
3.6 · Diagnostisches Interview
3
Konventionelle Interviews: Zusammenhang
mit Intelligenz und
emotionaler Stabilität
Metaanalyse zur
Konstruktvalidität
Verhaltensbeschreibende Interviews sind
valider als situative
Strukturierte Interviews sind valider als
unstrukturierte
(Berufserfolg)
335
3
Anforderungsanalysen
nutzen
Fragen generieren
Unbedingt einen
Leitfaden erstellen
Inkrementelle Validität
von Interviews bei
Vorhersage von Berufserfolg
Soziale Fertigkeiten als
Anforderungsmerkmal
Interviews selbst konstruieren
Bei den meisten Fragestellungen können Diagnostiker nicht auf ausgearbeitete Interviews zurückgreifen. So wurden im Bereich der Berufseignungsdiagnostik zwar zahlreiche standardisierte Interviews entwickelt, diese sind jedoch meist für Anwender aus
anderen Betrieben nicht frei verfügbar. Wenn man sich nicht mit einem unstandardisierten Gespräch begnügen will, das bekanntlich viele Nachteile aufweist, muss man
selbst ein Interview konstruieren. Dabei gilt es, einige Empfehlungen zu beachten. Die
wichtigste und zugleich grundlegendste Empfehlung ist die, einen Leitfaden für das
Interview auszuarbeiten. Hinweise zum Aufbau finden sich etwa bei Kici und Westhoff
(2000) sowie ausführlicher bei Westhoff und Kluck (2003). Um einen guten Leitfaden
zu erstellen, sind drei Aufgaben zu erledigen: Fragen finden, Grobaufbau des Leitfadens
festlegen, Ausarbeitungen im Detail vornehmen (Feinaufbau des Leitfadens).
Welche Fragen zu stellen sind, richtet sich in erster Linie nach der Fragestellung.
Soll die Eignung für einen bestimmten Beruf oder ein bestimmtes Studium festgestellt,
das Vorliegen einer bestimmten Störung überprüft, die Kausalität für ein Schulversagen
eruiert werden oder interessiert eine Prognose etwa dahingehend, ob ein früherer
Trunkenheitsfahrer künftig nüchtern am Steuer sitzen wird? Um die richtigen Fragen
zu finden, ist Wissen über den Messgegenstand erforderlich. Wenn die Eignung für
einen Beruf oder ein Studium ermittelt werden soll, bedarf es eingehender Kenntnisse
über die Anforderungen des Berufs beziehungsweise des Studiums. Entweder ist dafür
3.6.2
Beurteilungen in verhaltensbezogenen Interviews korrelierten niedriger mit Intelligenz
(r = .28) und emotionaler Stabilität (r = .08), aber deutlich höher mit sozialen Fertigkeiten (r = .65) und einigen anderen Variablen (insbesondere mit Berufserfahrung:
r = .71).
Drei Schlussfolgerungen können aus dieser Metaanalyse gezogen werden. Erstens
unterscheiden sich die beiden Interviewtypen nicht nur in der Art der Fragen, die gestellt werden, sondern auch in dem, was sie (mit)erfassen. Zweitens hängt das Eignungsurteil auf der Basis des Interviews relativ eng mit den sozialen Fertigkeiten der
Interviewten zusammen. Je stärker diese Fähigkeiten ausgeprägt sind, desto positiver
werden sie beurteilt. Leider fehlen in der Publikation nähere Angaben dazu, wie soziale Fertigkeiten in den Untersuchungen operationalisiert wurden. Es lässt sich nicht
feststellen, ob das Interviewergebnis durch die sozialen Fertigkeiten der Bewerber beeinflusst oder gar verfälscht wird. In manchen Berufen (Verkäufer, Manager etc.) gehören soziale Fertigkeiten zum Anforderungsprofil, stellen also ein Eignungsmerkmal dar.
Die Funktion der sozialen Fertigkeiten und ihr Beitrag zur Vorhersage von Berufs- und
Ausbildungserfolg muss daher durch weitere Untersuchungen geklärt werden. Drittens
ist der Zusammenhang mit Intelligenz nicht hoch. Dieses Ergebnis ist für die Berufseignungsdiagnostik sehr erfreulich. Intelligenz ist ein sehr guter Prädiktor für Ausbildungs- und Berufserfolg. Damit besteht die Chance, dass Interviews eine inkrementelle
Validität über die Intelligenz hinaus haben. Würden die Interviewergebnisse hoch mit
Intelligenz korrelieren, könnte man die Interviews durch einen Intelligenztest ersetzen.
Schmidt und Hunter (1998) kommen in ihrer Metaanalyse zu folgenden Schätzungen
für die inkrementelle Validität: Beim Kriterium Berufserfolg steigt die Validität von .51
(nur Intelligenz) auf .63 (plus strukturiertes Interview). Bei der Vorhersage von Ausbildungserfolg hingegen steigt die Validität der Intelligenztests in Kombination mit einem
Interview nur geringfügig von .56 auf .59.
Kapitel 3 · Diagnostische Verfahren
Verhaltensbezogene
Interviews: enger
Zusammenhang mit
sozialen Fertigkeiten
336
3
3 diagnostische
Ansätze
Spezielle Tests
Verbindung zwischen
Diagnostik und Intervention
3.7.1
3.7.2
3.7.3
Paardiagnostik – 347
Familiendiagnostik – 357
Teamdiagnostik – 364
Gruppendiagnostik (Interaktionsdiagnostik)
Die eindeutige Zuordnung vorliegender Verfahren zu einer der genannten Kategorien
mag nicht immer leicht fallen, weil die Kategoriengrenzen nicht hinreichend scharf
konturiert sind. Immerhin bereitet die Unterscheidung zwischen subjektiven (= inter-
Bei den bislang besprochenen Verfahren handelt es sich ausnahmslos um solche, bei
denen das Erleben und Verhalten einzelner Personen diagnostiziert werden soll. Damit
wird zwar ein durchaus wichtiges, aber doch eben nur ein Element der komplexen
Person-Umwelt-Interaktion erfasst, und zu dieser Umwelt gehören nicht zuletzt auch
andere Personen, mit denen wir mehr oder weniger kontinuierlich in Kontakt stehen.
Daraus ergeben sich, weil davon jeweils mehrere Personen betroffen sind, soziale Konstellationen. Unter diesen nehmen Paare und Familien sowie Gruppen am Arbeitsplatz
(Teams) einen herausragenden Stellenwert ein. Angesichts der Bedeutung, die Partnerschaft und Familie sowie das soziale Umfeld am Arbeitsplatz nicht nur für Staat, Wirtschaft und Gesellschaft, sondern mehr noch für die seelische Gesundheit und Lebenszufriedenheit der darin agierenden Personen aufweist, sind Verfahren von eminenter
Wichtigkeit, die sich auf die soziale Interaktion in derartigen Gruppen bzw. die daraus
resultierenden spezifischen Phänomene richten. Hier ist die Verbindung zwischen
Diagnostik und Intervention besonders augenfällig, weil im Regelfall erst Störungen des
harmonischen Miteinander in Partnerschaft oder Familie für die Akteure den Anlass
für die Erstellung einer psychologischen Diagnose liefern; an dieser setzt eine geeignete Intervention in Form von Beratungsgesprächen oder einer formellen Psychotherapie
an, deren Erfolg wiederum durch eine erneute Diagnostik objektiviert werden muss.
Im wirtschaftlichen und administrativen Bereich mag sich die Frage auftun, wie das
Betriebsklima verbessert und die Effizienz der Arbeit gesteigert werden können, was
im Prinzip die gleichen Schritte erfordert wie bei den »klinischen« Fällen. Es ist evident,
dass es dazu gesonderter Tests mit eigenen Konstruktionsprinzipien und Gütekriterien
bedarf.
Grundsätzlich lassen sich innerhalb der Interaktionsdiagnostik die folgenden drei
diagnostischen Untersuchungs- bzw. Forschungsansätze unterscheiden (nach Fiedler,
2001):
1. Kognizierte interpersonelle Merkmale einer oder mehrerer Personen: Vorstellungen, Wahrnehmungen und Emotionen über Beziehungen zu anderen (tatsächlichen oder fiktiven) Personen, mithin interne Repräsentationen.
2. Interaktionelle Merkmale mehrerer Personen in einer sozialen Situation oder in
einer zwischenmenschlichen Handlungsepisode: Beobachtung und Analyse konkreter Interaktionen in natürlichen Interaktionen oder in experimentellen Settings
(etwa bei der gemeinsamen Lösung einer vorgegebenen Aufgabe).
3. Interpersonelle Eigenschaften einer Person: Persongebundene Interaktionsmerkmale, die von Persönlichkeitsmerkmalen (wie Extraversion oder Dominanz) über
Interaktionsstile (z. B. dependenter Interaktionsstil) bis zu konkreten Verhaltensmustern (wie z. B. querulatorisches Verhalten) reichen können.
3.7
Kapitel 3 · Diagnostische Verfahren
Bedeutung sozialer
Konstellationen
344
Paardiagnostik
soll auf die letzte verzichtet werden, und zwar aufgrund faktorenanalytischer Befunde
des Selbstbildes (!), da sich in verschiedenen Stichproben nur jeweils fünf »stabile« (also
replizierbare) Faktoren fanden (s. Brähler & Beckmann, 1981, S. 118). Die Reliabilitäten
(Cronbachs α) für die einzelnen Skalen liegen mit Werten um .60 für Selbst- und
Fremdbilder in etwa derselben Größenordnung. Etwas darüber (um .70) rangieren die
Test-Retest-Korrelationen, obwohl es sich dabei nicht um Stabilitätskoeffizienten im
klassischen Sinne handeln kann, weil zwischen Erst- und Zweiterhebung (von einer
Stichprobe abgesehen) jeweils Interventionen stattgefunden haben (Sterilisation der
Frau, Paarkurztherapie, Magenoperation). Das verweist zum Einen auf eine nur mäßige interne Konsistenz der Skalen und zum Anderen auf eine erstaunliche Stabilität trotz
In den Übereinstimmungen oder Differenzen zwischen den Beurteilungen liegt somit
das Informationsinkrement gegenüber den üblichen Verfahren zur Erfassung individueller (nichtinteraktiver) Merkmalsausprägungen. Von daher interessieren vor allem
Forschungsbefunde zu deren psychometrischen Güteeigenschaften.
Von den ursprünglich 6 Skalen
4 »Soziale Resonanz«(negativ sozial resonant – positiv sozial resonant),
4 »Dominanz« (dominant – gefügig),
4 »Kontrolle« (unkontrolliert – zwanghaft),
4 »Grundstimmung« (hypomanisch – depressiv),
4 »Durchlässigkeit« (durchlässig – retentiv) und
4 »Soziale Potenz« (Itembeispiele 7 Abschn. 10.3.5.2)
Brähler, E. und Brähler, Ch., (1993). Paardiagnostik mit dem Gießen-Test. Bern:
Huber
Bei dem GT handelt es sich um ein relativ gut eingeführtes Verfahren, das auch
unter 7 Abschn. 10.3.5.2 kurz vorgestellt wird. Hier sollen deshalb primär die für die
Paardiagnostik spezifischen Charakteristika im Vordergrund stehen.
Das betrifft in erster Linie das in der Paardiagnostik ganz allgemein häufig angewendete Prinzip, dass jede Testperson über sich eine Selbst- und über ihren Partner eine
Fremdbeschreibung liefert (auf insgesamt 40 Items mit 7facher Antwortstufung). Auf
diese Weise lassen sich Übereinstimmungen bzw. Differenzen zwischen den insgesamt
vier »Bildern« bestimmen, nämlich
4 Selbstbild des Mannes, mm;
4 Selbstbild der Frau, ww;
4 Urteil des Mannes über die Frau, mw;
4 Urteil der Frau über den Mann, wm.
Der Gießen-Test GT
3.7.1
nal repräsentierten) und objektiven (= extern beobachtbaren) Beziehungen keine Probleme. Zu den ersteren sind aus Gründen der Erfassungsökonomie die weitaus meisten
Beiträge geleistet worden, und zwar wiederum wegen der Praktikabilität in Form von
Fragebogen. Ausschließlich diesen gilt die nachfolgende Darstellung. Dabei geschieht
die Reihung nach aufsteigendem Komplexitätsgrad, der sich an der Zahl der Personen
in den Gruppen orientiert: Paare beinhalten definitionsgemäß immer nur zwei Personen, Familien mindestens drei und Arbeitsteams gewöhnlich 5 bis 15 Personen.
3.7 · Gruppendiagnostik (Interaktionsdiagnostik)
3
5 replizierbare
Faktoren
6 Skalen
Informationsinkrement
durch Übereinstimmungen und
Differenzen
Selbst- und Partnerbeschreibung
Spezifische Charakteristika für Paardiagnostik
345
3
16 Obertypen
Anwendung vorrangig
im klinischen Bereich
und in der Psychotherapie
zwischenzeitlicher Intervention – »andersherum« wäre es im Zweifelsfall günstiger
gewesen. Als »sehr erstaunlich« bezeichnen es selbst die Autoren, »dass die Test-RetestKorrelationen der Differenzen (zwischen Selbst- und Fremdbildern; d. Verf.) teilweise
höher sind als die der Einzelwerte, d. h. dass Veränderungen von beiden Partnern sehr
genau eingeschätzt werden können und auch sehr genau gemessen werden können«
(Brähler & Brähler, 1993, S. 23), nämlich in einer Größenordnung von ca. .70 (bei einem großen Variationsbereich der Koeffizienten). Um es zu explizieren: Beispielsweise
belaufen sich die Stabilitäten der Differenz von Selbstbild und Bild über den Partner
(mm-mw und ww-wm) in der Skala »Soziale Resonanz« auf .76 bzw. .74 (gemittelt für
zwei Stichproben).
Den angestellten Beobachtungen zufolge sind »normale Ehen« im Mittel weder
symmetrisch noch komplementär. So lagen die Korrelationen der Selbstbilder (Selbstbild des Mannes/Selbstbild der Frau, rmm/ww) ebenso um Null wie diejenigen der
Fremdbilder (rwm/mw). Lediglich für die Skala Dominanz ergab sich mit rwm/mw = –.18
ein signifikant negativer (Komplementarität anzeigender) Koeffizient. Um .30 liegen
für die Skala sozialer Resonanz und Kontrolle die Werte für »identifikatorische Projektion« (rmm/mw und rww/wm), sonst um 0. Ansonsten ist »Bestätigung der Position« die
Regel (rww/mw bzw. rmm/wm in allen Skalen um .35; alle Befunde aus Brähler & Brähler,
1993).
Für die Selbst- und Fremdbildwahrnehmungsdifferenzen geben die Autoren Mittelwerte und Streuungen an, und zwar für alle möglichen Vergleiche zwischen den
Einzelbildern (mm-ww, wm-mw, mm-wm, ww-mw, mm-mw und ww-wm), das Ganze basierend auf den Daten von 197 Ehepaaren einer repräsentativen Erhebung aus dem
Jahre 1975. Die numerisch geringsten Differenzen finden sich in der Skala »Durchlässigkeit«, die höchsten in »Grundstimmung«, und zwar jeweils mit einem Mittelwert von
–3,3 bei wm-mw, d. h. die Männer attribuieren bei den Frauen eine negativere Grundstimmung als die Frauen bzw. die Männer bei sich selbst.
Da die Skalen vorrangig für Untersuchungen im klinischen Bereich und der Psychotherapie vorgesehen sind, belegen die Autoren anhand individueller und gruppentypischer Profile bzw. den darin beobachtbaren Intrapaar-Differenzen, wie sich spezifische Störungen in den Testergebnissen manifestieren. In einer Metaanalyse von 2953
Paaren aus 53 Stichproben resultierten in einem gestuften Clusterungsprozess 16 Obertypen oder Typen 2. Ordnung, die wie folgt benannt wurden:
4 die aktive, verleugnende Harmoniebeziehung,
4 die misstrauisch-resignative Paarbeziehung,
4 die sadomasochistische Paarbeziehung,
4 das aggressive, leidende Paar,
4 Angstbewältigungskollusion,
4 Verantwortung der Frau,
4 die paranoide Gemeinschaft,
4 traditionelle Rollenteilung,
4 verdeckte Kampfbeziehung,
4 angestrengte Frauen und selbstunsichere Männer,
4 verzweifelt-aggressive Männer,
4 konflikthafte traditionelle Rollenteilung,
4 anale Beziehungsmodi,
4 misstrauisch-selbstunsichere Männer,
4 starke Frauen – selbstunsichere Männer,
4 Scheinmaskulinität.
Kapitel 3 · Diagnostische Verfahren
Wahrnehmungsdifferenzen in Selbstund Fremdbild
346
347
. Abb. 3.31. Obertypus »Verdeckte Kampfbeziehung«. (Nach Brähler & Brähler, 1993, S. 154). NR negativ sozial resonant, PR positiv sozial resonant, DO dominant, GE gefügig, UK unkontrolliert, ZW zwanghaft, HM hypomanisch,
DE depressiv, DU durchlässig, RE retentiv
Brähler und Brähler (1993, S. 154) beschreiben den Typ wie folgt (. Abb. 3.31):
Die Besonderheit dieses Paartypus liegt in den extremen Gegensätzen der Partner
in der Grundstimmung (Skala 4): Die Frauen sind besonders depressiv, die Männer
besonders hypomanisch. Die Beurteilungsgegensätze auf Skala 2 lassen Dominanzkonflikte erkennen. Beide Partner beschreiben sich ähnlich eigensinnig, doch die
Männer halten ihre Frauen für sehr viel dominanter als diese sich im Selbstbild darstellen und die Frauen nehmen den Durchsetzungswillen ihrer Männer nicht wahr.
Die angstfreien (Skala 4), unterkontrollierten (Skala 3) und eher etwas resignativen
(Skala 5) Männer scheinen mehr soziale Anerkennung zu genießen als die Frauen
(Skala 1), doch innerhalb der Beziehung werden sie von ihren Frauen dominiert
(Skala 2).
Mittelwerte von Paaren der Kategorie »Verdeckte Kampfbeziehung« in den fünf Skalen des GT (aus Brähler & Brähler, 1993, S. 154)
Dem Typ gehören fünf Typen erster Ordnung an, und zwar
4 Schwangere,
4 Eltern von Risikokindern,
4 Verdacht auf Mammakarzinom und Kontrollgruppe,
4 Paare mit Vasektomiewunsch des Mannes,
4 Paare mit Refertilisierungswunsch des Mannes.
Beispiel
Exemplarisch ist der Typ »verdeckte Kampfbeziehung« dargestellt (7 Beispiel).
3.7 · Gruppendiagnostik (Interaktionsdiagnostik)
3
3
Skalenzuordnung
einiger Items nachträglich geändert
3 Fragebogen zur Partnerschaftsdiagnostik
Änderungssensitivität
fraglich
Hahlweg, K. (1996). Fragebogen zur Partnerschaftsdiagnostik. Göttingen: Hogrefe
Als Instrumente für die Eheberatung und die psychotherapeutische Behandlung
von psychischen Störungen (wie Depressionen, Ängste, psychosomatische Störungen
u. a.) unter Hinzuziehung des Partners hat Hahlweg (1996) drei Fragebogen zur Partnerschaftsdiagnostik entwickelt:
Fragebogen zur Partnerschaftsdiagnostik
dessen Beliebtheit wahrscheinlich damit zusammenhängt, dass nicht nur eine Selbstbeschreibung im Hinblick auf psychoanalytisch fundierte Persönlichkeitsdimensionen
verlangt wird, sondern auch damit, dass die gleichen Items zur Beschreibung des jeweiligen Partners oder der jeweiligen Partnerin herangezogen werden. Damit drängte sich
die Möglichkeit, die Selbstwahrnehmung einer Person mit der Wahrnehmung durch
den Partner zu vergleichen, nachgerade auf. Solche Vergleiche entsprechen durchaus
einer in der Partnerschaftsforschung häufig verfolgten Untersuchungsstrategie. »Da
nur Aussagen über die Ähnlichkeit der jeweiligen Selbst- und Fremdwahrnehmungen
gemacht werden können, ist der GT allerdings kein Verfahren der Paar- bzw. Beziehungsdiagnostik im eigentlichen Sinne« (Heil, 1998). Oder mit anderen Worten: Die
Theorie, die dem Verfahren zugrunde liegt, wird – zumindest in der zentralen Publikation – mit keinem Wort umrissen; sie besteht offenbar nur in der Möglichkeit zu den
besagten Vergleichen.
Irreführend, wenn nicht ärgerlich, ist der Umstand, dass die gegenüber einer früheren Lösung aufgrund faktorenanalytischer Studien geänderte Zuordnung einiger Items
zu den Skalen (»alte« und »neue« Lösung bei Brähler & Beckmann, 1981, S. 118) später
kurzerhand als eine »Zuordnung für die Paardiagnostik« (Brähler & Brähler, 1993,
S. 10) bezeichnet wird, ohne dass dementsprechende Analysen vorgenommen worden
wären. Was die Bezeichnungen der Skalen in der Abbildung (. Abb. 3.31 bedeuten,
muss der Leser selbst erschließen.
Mit 40 Items, die je 4mal beantwortet werden müssen, ist der GT ein in Durchführung und Auswertung durchaus ökonomisches Paardiagnostikum, dessen Entwicklung
von Projekten zur Erfassung von Gegenübertragungsfaktoren bei psychoanalytischer
Diagnostik ausging. Als sehr positiv anzumerken sind die großen Fallzahlen der zumeist klinischen Untersuchungsstichproben. Die beträchtlichen Test-Retest-Korrelationen selbst bei Stichproben, die zwischenzeitlich therapiert wurden oder bei denen
eine anderweitige Intervention vorlag, deuten allerdings auf eine gewisse Insensibilität
gegenüber Änderungen hin (oder die Interventionen hatten keine Auswirkungen auf
die 5 Dimensionen des Tests). Jedenfalls fehlen Untersuchungen, in denen sich erwiesene Besserungen in Partnerschaften auch in den Skalen signifikant niedergeschlagen
hätten. Forschungsdefizite bestehen noch im Hinblick auf die Korrelate der IntrapaarÄhnlichkeiten mit Faktoren wie Stabilität der Partnerschaft, Glück und Zufriedenheit
sowie seelische und körperliche Gesundheit der Partner.
Fragwürdige Theorie
Ökonomisch
Kritik. Eigentlich handelt es sich beim GT um ein Instrument der Individualdiagnostik,
Berechnung der
Ähnlichkeit eines individuellen Paarprofils
Kapitel 3 · Diagnostische Verfahren
Leider fehlen zu den Gruppenmittelwerten der einzelnen Typen die dazugehörigen
Streuungen, sodass nicht abzuschätzen ist, wie groß die Variationsbreite innerhalb der
Typen ist (oder wie typisch die Mittelwerte sind). Aus diesem Grunde kann zwar mit
Hilfe der von Kubinger, Wagner und Alexandrowicz (1998) vorgeschlagenen Berechnungsmethode die Ähnlichkeit eines individuellen Paarprofils mit den oben erwähnten
16 Paartypen quantitativ bestimmt, aber nicht dessen inferenzstatistische Absicherung
geleistet werden.
348
Familiendiagnostik
Verlangt schon die Paar- im Vergleich zur Individualdiagnostik neue Theorien und
grundsätzlich andere Erfassungsmodi, so sollte dieses erst recht für Verfahren zur quantitativen Bestimmung von Merkmalen der gesamten Familie gelten, weil hier durch das
Hinzukommen weiterer Personen das Beziehungsgeflecht komplexer und die Perspektiven zahlreicher sind. Wie ein Blick in die einschlägige Literatur allerdings lehrt (s. dazu Cierpka, 1987, 1996), sind die einflussreichsten Autoren den sich stellenden Problemen meist mit der Anwendung herkömmlicher Prinzipien begegnet, sofern sie sich mit
der Erfassung von Kognitionen – gewöhnlich mit Fragebogen – begnügt haben. Nach-
3.7.2
Das TPI basiert auf konzisen Überlegungen zu den Handlungsorientierungen von
Partnern in interaktiven Beziehungen. Folgerichtig bilden konkrete Aktivitäten den
Erhebungsgegenstand, genauer gesagt, deren Kognitionen bei sich selbst und dem
Partner sowie die Vermutung, wie der Partner das Verhalten einschätzt. Die Einbettung der Verhaltensweisen in spezifische Kontexte trägt zudem den Erkenntnissen
zur Bereichsspezifität Rechnung. Die bislang vorliegenden Befunde sprechen für die
Validität des Verfahrens, das eine hervorragende Ausgangsbasis für die bei unzufriedenen Paaren einzuleitenden Interventionen bietet.
Fazit
sich dem Partner gegenüber positiver zu verhalten als dieser sich ihnen gegenüber
verhält. »Mit diesen Ergebnissen wird eine der zentralen Konstruktionsüberlegungen
des TPI untermauert: In beeinträchtigten Partnerschaften divergieren Wahrnehmungen und Deutungen des gleichen Verhaltens stärker als in unbeeinträchtigten«
(S. B6).
Weitere Untersuchungen (s. Heil, 1998) galten Paaren, die aus verschiedenen Gründen als »belastet« gelten können (z. B. durch Alkohol- oder Angstprobleme). Auch
dabei ergaben sich charakteristische Muster, was für die Validität des Verfahrens
spricht. Das gilt im Weiteren auch für die erwartungskonformen, numerisch eher niedrigen Korrelationen mit anderen Partnerschaftsinventaren. Nach Normen sucht man
allerdings vergebens im Manual.
Da die paarinternen Wahrnehmungs- und Deutungsgewohnheiten zentraler Erhebungsgegenstand sind, würde eine Normierung im eigentlichen Sinn den Konstruktionsüberlegungen des TPI zuwiderlaufen. Wichtigster Bezugspunkt für jeden TPIWert sind zunächst der das gleiche Verhalten betreffende Partnerwert und darüber
hinaus die Gesamtkonfiguration aller TPI-Werte eines Paares (S. 13).
Von daher erscheinen Normen in der Tat für die Diagnostik mit einzelnen Paaren
weitgehend als verzichtbar. Im Mittelpunkt der Verwendung des TPI im Rahmen von
Partnerschaftsberatung und -therapie steht die Besprechung der paarspezifischen TPIErgebnisse, die mit Hilfe eines komfortablen Computerprogramms ermittelt werden
können. Die Besprechung der Positivität einzelner Wahrnehmungen und eventueller
Diskrepanzen sollte dabei ergänzt werden durch den Austausch über konkrete Interaktionsepisoden und mögliche Verhaltensalternativen; dazu regen insbesondere die alltagssprachlich formulierten Items des TPI an. Vom Berater/Therapeuten erfordert dies
die Fähigkeit, einen bevormundungsfreien Austausch der Partner über ihre wechselseitigen Wahrnehmungen initiieren und anleiten zu können.
3.7 · Gruppendiagnostik (Interaktionsdiagnostik)
Komplexes
Beziehungsgeflecht
Anwendungsbereich:
Partnerschaftsberatung und -therapie
Validität bestätigt
355
3
3
Adaptation der
Originalskalen
6
(umzupolende Items sind mit einem Minuszeichen markiert)
Beziehungsskalen
Skala A: Zusammenhalt: Ausmaß, in dem die Familienmitglieder zusammenhalten, sich gegenseitig unterstützen und füreinander da sind (»Familiensolidarität«)
4 »In unserer Familie haben wir das Gefühl, dass wir zusammengehören und
füreinander da sind.«
4 »Wenn zu Hause etwas gemacht werden soll, versucht sich fast jeder zu
drücken.« (–)
4 »In unserer Familie hat jeder das Gefühl, dass man ihm zuhört und auf ihn
eingeht.«
Dimensionen der Familienklimaskalen, mit Itembeispielen für die ersten drei
Skalen (aus Schneewind, 1987a, 238-241)
Beispiel
Schneewind, K. A. (1987a) in Cierpka, M. (1987). Familiendiagnostik. Berlin:
Springer
Mitte der 70er Jahre hat Moos (1974a, b) damit begonnen, die verschiedenen Aspekte menschlicher Umwelten, darunter auch die Familie, mit Hilfe von Fragebogen zu
erfassen. Eine der im Zuge dieser Bemühungen entstandene Skala, die »Family Environment Scale (FES)«, ist von Schneewind (1987a) für den deutschen Sprachraum
adaptiert und in wesentlicher Weise weiterentwickelt worden.
Generell gelten die Iteminhalte bestimmten Attributen der konkreten Familie einer
Person, ohne dass einzelne Familienmitglieder besonders herausgehoben werden (was
aber prinzipiell möglich wäre). Damit soll gewährleistet werden, dass mit den Antworten der Befragungspersonen der Erhebungsgegenstand als Ganzes getroffen wird: Das
Interaktionsgeschehen in der gesamten Familie. Für dessen qualitative Aspekte stehen
verschiedene Dimensionen, für die quantitativen die interindividuell unterschiedlichen
Antworten zu den einzelnen Items jeder Dimension. Die Art des Familienverbundes
erfährt keine nähere Spezifikation; für die Bearbeitung des Fragebogens ist es unerheblich, ob ein Proband dabei an seine Interaktionen mit einem alleinerziehenden Elternteil denkt oder er in einer Großfamilie lebt, d. h. das Instrument macht eine dementsprechende Differenzierung nicht notwendig. Die erhaltenen Punktwerte können individuell oder auch als Aggregate (z. B. in Form der Mittelwerte der Eltern oder der
Kinder) betrachtet werden.
In Anlehnung an die Originalskalen erfolgten die Adaptationsarbeiten nach Prinzipien, in denen sich rationale mit empirischen Schritten abwechselten. Letztlich resultierten 10 Skalen mit jeweils 6 bis 15 Items. Infolge der etwas unterschiedlichen Itemkennwerte für die Väter, Mütter und Kinder der 570 »Familieneinheiten«, die den Kern
der Analysestichproben bildeten, mussten für diese drei Gruppen gesonderte Skalen
(mit gleichem Bedeutungsgehalt) zusammengestellt werden. Die Bezeichnungen der
Skalen sind mit Itembeispielen unten zusammengestellt.
Familienklimaskalen FKS
folgend werden aus diesem Bereich exemplarisch nur drei Instrumente vorgestellt;
weitere methodische Zugänge und laufende Entwicklungen finden sich anderswo
(s. a. Fiedler, 2001).
Kapitel 3 · Diagnostische Verfahren
Familiäres Interaktionsgeschehen
356
Die internen Konsistenzen der Skalen liegen um .70, mit einer Tendenz zu niedrigeren
Werten für die Kinderskalen. Bei Schülern lagen die Reteststabilitäten in einem 3-JahresZeitraum zwischen .40 und .60. Für die Originalskalen konnte auch eine beträchtliche
Stabilität des Profilverlaufes gezeigt werden. Eine Faktorisierung der Skalen führte zu drei
Sekundärfaktoren, die Schneewind (1987a) mit »Positiv-emotionales Klima« (bestimmt
durch die ersten drei Skalen sowie Organisation), »Anregendes Klima« (markiert durch
F und G) sowie »Normativ-autoritäres Klima« (E, H, I und J) benannt hat.
Die Handhabbarkeit und einzelfalldiagnostische Tauglichkeit der FKS demonstriert
Schneewind (1987a) an einigen Beispielen. Zur Validität allerdings fehlen empirische
Belege. Ausgehend von Erfahrungen mit anderen Instrumenten kann allerdings ange-
Systemerhaltungsdimensionen
Skala I: Organisation: Ordnung, Planung und die eindeutige Regelung von Verantwortlichkeiten
Skala J: Kontrolle: Verbindlichkeit von familieninternen Regeln; rigide und dogmatische Handhabung vs. Großzügigkeit und Toleranz
Persönlichkeitsreifungsskalen
Skala D: Selbständigkeit: Ausmaß, in dem sich die einzelnen Familienmitglieder bei
der Realisierung ihrer eigenen Wünsche frei fühlen dürfen und sich weder durch die
Verpflichtung zur Rücksichtnahme noch durch die antizipierten Verstimmungen der
anderen Familienmitglieder eingeengt finden
Skala E: Leistungsorientierung: Wettbewerbsdenken und Leistungsorientierung
Skala F: Kulturelle Orientierung: Aufgeschlossenheit für kulturelle und intellektuelle Inhalte
Skala G: Aktive Freizeitgestaltung: Aktive und vielseitige Nutzung der Freizeit
durch interessengeleitete Tätigkeiten und Sozialkontakte
Skala H: Religiöse Orientierung: Praktizierung der von der Kirche nahegelegten
öffentlichen Verhaltensnormen; verinnerlichte Form christlicher Gläubigkeit
Skala C: Konfliktneigung: Häufigkeit von Streit, Reibereien und Nörgeleien; ärgerliche Expression bis hin zur Destruktion von Sachen und körperlicher Aggression; Bemühen um eine sachliche Schlichtung von Meinungsverschiedenheiten
4 »In unserer Familie gibt es viel Streit.«
4 »Wenn wir uns streiten, kommt es schon mal vor, dass einem von uns die Hand
ausrutscht.«
4 »Streitigkeiten werden bei uns nicht mit Schimpfen und Schreien ausgetragen.«
Skala B: Offenheit: Ausmaß an Offenheit im Ausdruck von Gefühlen, Spontaneität
und Ausgelassenheit, Kommunikationsbereitschaft und unsanktionierte Äußerung
von Kritik
4 »In unserer Familie ist es eher so, dass man seine Gefühle nicht zeigt.« (-)
4 »Wenn wir mal gerade Lust zu einer Sache haben, überlegen wir nie lange, sondern fangen gleich damit an.«
4 »Wir sprechen miteinander über unsere persönlichen Probleme.«
4 »Wenn bei uns mal einer Dampf ablässt, regt sich bestimmt jemand darüber
auf.« (–)
3.7 · Gruppendiagnostik (Interaktionsdiagnostik)
3
Keine Validitätsbelege
3 Sekundärfaktoren
Befriedigende interne
Konsistenzen und
Reteststabilitäten
357
3
Modularer Aufbau
Selbsteinschätzungsbogen
Zweierbeziehungsbogen
Allgemeiner
Familienbogen
Systemischer Anspruch
Zahlreiche Anwendungs- und Forschungsmöglichkeiten
Mäßig bis sehr gute
Reliabilität, fehlende
Validitätsbelege
Verschiedene
Gruppennormen
Elterlicher
Erziehungsstil
Cierpka, M. und Frevert, G. (1994) Die Familienbogen. Ein Inventar zur Einschätzung
von Familienfunktionen. Göttingen: Hogrefe
Die »Familienbogen«greifen insofern Elemente der FKS und des FDTS auf, als sie
einerseits mit dem Allgemeinen Familienbogen (FB-A) die Familie als Ganzes zum
Gegenstand der Erhebung machen und andererseits mit dem Zweierbeziehungsbogen
(FB-Z) auf die Beziehungen zwischen bestimmten Dyaden innerhalb der Familie abheben (die im Einzelnen spezifiziert werden müssen); darüber hinaus aber wird im Selbsteinschätzungsbogen (FB-S) auch nach der Funktion des einzelnen Familienmitgliedes
in der Familie gefragt. Das Verfahren ist modular aufgebaut, sodass je nach Fragestellung die einzelnen Teile gesondert verwendet werden können.
Die Familienbogen FB
Schneewind, K.A. (1987b) in Cierpka, M. (1987). Berlin: Springer
Die oben besprochenen FKS wurden von Schneewind (1987b) in ein »Familiendiagnostisches Testsystem« integriert. Dabei handelt es sich um einen modular aufgebauten Satz von insgesamt 29 Einzeltests, mit deren Hilfe die dyadischen Beziehungen
in der Kernfamilie erfasst werden sollen, also die Konstellationen Mutter-Sohn, MutterTochter, Vater-Sohn, Vater-Tochter und Mutter-Vater.
Als ein wichtiger Beziehungsaspekt zwischen Eltern und Kindern wird im FDTS der
elterliche Erziehungsstil erfragt, und zwar mit den Komponenten Erziehungseinstellungen, -ziele und -praktiken. In jedem dieser Aspekte erfolgt die Erhebung sowohl in Gestalt
von Selbst- als auch Fremdperzeptionen. Für das Verhältnis, das die Eltern zueinander
haben, liefern die Urteile des männlichen und weiblichen Ehepartners die Grundlage.
Die abgegebenen Einschätzungen können individuell-personbezogen oder auch auf
unterschiedlich aggregiertem Niveau (Dyaden, gesamter Familienverband) verarbeitet
werden. Für die individuelle Ebene stehen Normen aus der 570 Familien umfassenden
Analysestichprobe zur Verfügung (an der auch die FKS entwickelt wurden), und zwar
in Form von Sten-Werten, getrennt für drei Altersgruppen der Kinder, Geschlecht der
Kinder und drei Stufen von Schichtzugehörigkeit der Eltern. Die mitgeteilten Reliabilitäten reichen von mäßig bis sehr gut. Für Validitäten gilt dasselbe wie für die FKS.
Von den zahlreichen von Schneewind (1987b) selbst dargelegten Anwendungs- und
Forschungsmöglichkeiten mit den Skalen des FDTS wurden bislang nur wenige realisiert. Ein Grund dafür liegt vielleicht in dem Umstand, dass die Skalen nur als »graue
Literatur« vorliegen und deshalb nicht so leicht allgemein verfügbar sind wie andere
Publikationen. Auch räumt der Autor ein, dass seine Batterie hinter dem systemischen
Anspruch (mehrere Ebenen, also Individual-, Subsystem- und Systemebene; Multivariablenperspektive, also die Berücksichtigung mehrerer qualitativ unterscheidbarer und
quantitativ variierender Merkmale; Multimethodenansatz) insofern zurückbleibt, als das
FDTS nur aus Fragebogen besteht, die je nach Fragestellung durch beobachtungsorientierte, projektive oder bildhaft-metaphorische Verfahren ergänzt werden müssten.
Das Familiendiagnostische Testsystem FDTS
nommen werden, dass sich Familien mit Störungen wie Alkoholismus, Kriminalität
und psychischen Abnormitäten einzelner Mitglieder von unauffällig-»normalen« unterscheiden; gleichwohl wäre es vorteilhaft, dieses auch aufzuzeigen, des Weiteren, wie
es der Autor selbst anregt, auf der Basis von Reihenuntersuchungen zur Kontinuität und
Veränderung des Familienklimas im Familienlebenszyklus empirisch fundierte Präventions- und Interventionsmaßnahmen zu entwickeln, die einem »gesunden« Wachstum
der Familie und ihrer Mitglieder zuträglich sind.
Kapitel 3 · Diagnostische Verfahren
29 Einzeltests
358
3
Adaptation des
englischsprachigen
Originals
Teamdiagnostik
Theoretischer Hintergrund und Aufbau. Ausgehend von dem englischen Original des
Team Climate Inventory von Anderson und West (1994) hat Brodbeck zusammen mit
diesen Autoren deutschsprachige Adaptationsarbeiten vorgenommen. Der Fragebogen
Brodbeck, F., Anderson, N. & West, M. (2000). Göttingen: Hogrefe
Teamklima-Inventar TKI
3.7.3
Die Familienbogen erfassen drei wichtige Perspektiven (individuell, dyadisch, gesamtfamiliär) von Wahrnehmung und Einstellung; damit liefern sie in standardisierter Form wertvolle Informationen für beratende und therapeutische Funktionen. Die
nahegelegten Profilvergleiche stoßen auf Schwierigkeiten angesichts der vereinzelt
niedrigen Reliabilität der Skalen und deren durchweg mittelhohen Interkorrelationen. Ungeachtet dessen gefallen der Bezug auf ein theoretisches Modell und das
Vorliegen von Normen für verschiedene Lebensabschnitte, in denen sich oft genug
die familiären Probleme ganz andersartig darstellen.
Fazit
Augenfällig ist die Zunahme der Werte in Familien mit älteren Kindern besonders in
den Skalen Rollenverteilung und Kommunikation, auf Seiten der Väter zusätzlich noch
in Aufgabenerfüllung und Kontrolle.
Kapitel 3 · Diagnostische Verfahren
. Abb. 3.34. Rohwertprofile im Allgemeinen Fragebogen (FB-A) für Mütter und
Väter mit jüngeren Kindern
(Phase 3) und einem mindestens 12jährigen Kind
(Phase 4). (Nach Cierpka &
Frevert, 1994, S. 35)
362
6
4 Skala Vision
– Subskala Klarheit
– »Wie genau sind Sie sich im Klaren über die Ziele Ihres Teams?«
– »Was denken Sie, inwieweit sind die Ziele Ihres Teams den anderen Teammitgliedern klar und deutlich gegenwärtig?«
– Subskala Wertschätzung
– »Was denken Sie, inwieweit sind diese Ziele nützlich und angemessen?«
– Subskala Einigkeit
– »Inwieweit stimmen Sie mit diesen Zielen überein?«
– »Was denken Sie, inwieweit fühlen sich die Mitglieder Ihres Teams diesen
Zielen verpflichtet?«
– Subskala Erreichbarkeit
– »Was denken Sie, inwieweit sind diese Ziele realistisch und erreichbar?«
Einige Itembeispiele für die Skalen und Subskalen des TKI (aus Brodbeck
Anderson & West, 2000, S. 22/23)
Beispiel
enthält 44 Items und zielt auf die Arbeitsatmosphäre oder das Klima in Arbeitsgruppen.
Darunter verstehen Brodbeck et al. (2000, S. 8; alle weiteren Zitate, die nur mit Seitenangaben kenntlich gemacht sind, ebenso daraus) die »subjektive Wahrnehmung von
Individuen über ihre soziale Umgebung in Organisationen oder Arbeitsgruppen, die
mehr oder weniger sozial geteilt sind«. Den theoretischen Rahmen stellt eine 4-Faktoren-Theorie dar, der zufolge sich bei der Teameffektivität und Innovation die beiden
Aspekte Qualität und Quantität von Innovationen unterscheiden lassen. »Qualität bezieht sich auf die Neuartigkeit von Ideen, deren Bedeutsamkeit, gemessen an den jeweils
relevanten Kriterien, und deren Nutzen. Quantität bezieht sich auf die Anzahl neuer
Ideen, die vorgeschlagen und umgesetzt werden« (S. 10). Für die Qualität sind die beiden Faktoren »Vision« und »Aufgabenorientierung«, für die Quantität »partizipative
Sicherheit« und »Unterstützung für Innovationen« maßgeblich. Diese vier Faktoren
sollen mit insgesamt 13 Skalen gemessen werden, zu denen noch zwei kurze Skalen zur
sozialen Erwünschtheit kommen. Die Zugehörigkeit der einzelnen Skalen zu den Faktoren ist aus . Abb. 3.35 ersichtlich, zur Bedeutung der Faktoren . Itembeispiele.
3.7 · Gruppendiagnostik (Interaktionsdiagnostik)
3
. Abb. 3.35. Dimension
und Subskalen des Teamklima-Inventars. (Nach Brodbeck et al., 2000, S. 9)
13 inhaltliche Skalen
und 2 SE-Skalen
4-Faktoren-Theorie
44 Items zur Erfassung
der Arbeitsatmosphäre
363
3
Überprüfung der Validität auf Teamebene
Wie aus den Itemtexten ersichtlich, zielen manche Formulierungen auf individuelle
Einstellungen, unter selbst- oder auf das Team bezogener Perspektive, andere verlangen
eine Einschätzung der atmosphärischen Gegebenheiten im Team, und einige Fragen
erfordern ein gedankliches Hineinversetzen in andere Mitglieder des Teams.
Das Klima eines Teams ergibt sich aus der Mitteilung der (gewöhnlich anonym
abgelieferten) individuellen Punktwerte.
Konstruktionsprinzipien und psychometrische Kennwerte. 810 Personen aus 149
Teams stellten die Analyse- (und auch Normierungs-) Stichprobe dar. Obwohl die
Autoren betonen, dass das TKI »zur Messung von Merkmalen auf Teamebene konstruiert« worden sei (S. 39), wurden die internen Konsistenzen doch anhand der individuellen Daten ermittelt (die Cronbach-α-Werte liegen für die vier Skalen zwischen .84
und .89, für die Subskalen zwischen .61 und .82). Desgleichen beruhen die recht hohen
Interkorrelationen zwischen den Skalen (um .60) auf individuellen Werten, im Weiteren auch die konfirmatorischen Faktorenanalysen, die die 4-Faktoren-Struktur bestätigen. Die Überprüfung der Validität allerdings erfolgte auf der Aggregatebene des
Teams insofern, als hier auf das Team bezogene Fremdeinschätzungen von Projektmanagern und Teammoderatoren als Kriterien herangezogen wurden und die ermittelten Korrelationskoeffizienten auf den Messwerten für die Teams beruhten. Mit
4 Skala Aufgabenorientierung
– Subskala Hohe Standards
– »Ist es den Teammitgliedern ein echtes Anliegen, dass das Team den
höchstmöglichen Leistungsstandard erreicht?«
– Subskala Reflexion
– »Sind die Teammitglieder bereit, die Grundlagen der eigenen Arbeit in
Frage zu stellen?«
– Subskala Synergie
– »Bauen die Teammitglieder gegenseitig auf ihren Ideen auf, um das bestmögliche Ergebnis zu erhalten?«
4 Skala Partizipative Sicherheit
– Subskala Informationsverteilung
– »Wir halten uns über arbeitsrelevante Themen gegenseitig auf dem laufenden.«
– Subskala Sicherheit
– »Die Teammitglieder fühlen sich gegenseitig akzeptiert und verstanden.«
– Subskala Einfluss
– »Jede Ansicht wird angehört, auch wenn es die Meinung einer Minderheit ist.«
– Subskala Kontaktpflege
– »Wir stehen in häufigem, gegenseitigem Austausch.«
4 Skala Unterstützung für Innovation
– Subskala Bereitschaft (artikulierte Normen)
– »Das Team ist Veränderungen gegenüber aufgeschlossen und empfänglich.«
– Subskala Umsetzung (im Handeln erkennbare Normen)
– »In unserem Team nehmen wir uns die Zeit, die wir brauchen, um neue
Ideen zu entwickeln.«
Kapitel 3 · Diagnostische Verfahren
Gute interne Konsistenzen und hohe Skaleninterkorrelationen
364
2. Welche Formen der Interaktionsdiagnostik lassen
sich voneinander unterscheiden?
den Verfahren zur Interaktionsdiagnostik?
? 1. Was ist das Besondere an
(zu Abschn. 3.7)
Übungsfragen
365
3
Form einer Dyade (Paar) oder größerer Gruppen (Familien oder Arbeitsteams). Die erhaltenen Messwerte können sich auf die (individuellen) Mitglieder der jeweiligen Gruppe beziehen und diese in verschiedener Weise zueinander in Beziehung setzen. Sie können aber
auch das Aggregat als Ganzes beschreiben.
Ad 2. Die Verfahren können abheben auf kognizierte interpersonelle
Merkmale einer oder mehrerer Personen, auf interaktionelle Merkmale mehrerer Personen oder auf interpersonelle Eigenschaften von Personen. Gewöhnlich handelt es sich um Mischformen aus diesen drei
Bereichen.
! Ad 1. Gegenstand der Diagnostik ist eine soziale Konstellation in
Das TKI ist ein theoretisch verankertes und sehr ökonomisches Instrument, mit dem
das in der Gruppe herrschende Arbeitsklima durch Mittelung der individuellen
Teammitglieder-Scores erfasst wird. Auf individueller Ebene sind die Skalen intern
konsistent; auf Aggregatebene (Team als Messwert) ließ sich die Validität gegenüber
fremdeingeschätzten Maßen für Innovation demonstrieren. Insgesamt handelt es
sich um ein für die Personalentwicklung (7 Kap. 8: Diagnostik im ABO-Bereich) sehr
nützliches Instrument.
Fazit
fremdeingeschätzter Innovation korrelierte die TKI-Dimension »Vision« zu rtc = .64,
»Unterstützung für Innovation« zu rtc = .62; die Korrelationen für »Aufgabenorientierung« und »Partizipative Sicherheit« lauteten .32 bzw. .48 (alle Werte bis auf den vorletzten hoch signifikant; jeweils N = 29 Teams). Darüber hinaus ließ sich zeigen, dass
die konsensuale Validität der TKI, also die Übereinstimmung zwischen den Mitgliedern eines Teams, mit Werten über .90 sehr hoch ist und das Verfahren zwischen verschiedenen Teams (Industrie, Pflege, Entwicklung und Planspiel) signifikant diskriminiert (wobei aber der letztgenannte Vergleich erneut auf Individualdaten beruht, was
nicht ganz der Logik des Verfahrens entspricht).
3.7 · Gruppendiagnostik (Interaktionsdiagnostik)
(S.373-377)
Messung von Veränderungen und Unterschieden
(S.371-372)
Unimodale vs. multimodale Datenerfassung
Erhebungsstrategien
Unimodale vs. multimodale Datenerfassung
Bei ausschließlicher Verwendung nur je eines der bisher besprochenen diagnostischen
Verfahren würde man von unimodaler oder unimethodaler Datenerfassung sprechen.
Der Gebrauch dieser Begriffe ist nach Fahrenberg (1987) zur Zeit noch uneinheitlich.
Situationen, in denen derart singuläre Diagnostik zur Anwendung gelangt, sind nicht
sehr zahlreich. Sie findet sich allenfalls bei der institutionellen Diagnostik grosser
Bewerbergruppen, bei der die Zahl der mit weiteren Verfahren zu diagnostizierenden
Personen durch Einsatz eines Filtertests reduziert werden soll. Aber bereits bei den
Eignungsuntersuchungen für medizinische Studiengänge wurden die Testergebnisse
mit der Durchschnittsnote im Abitur, also einer weiteren Datenquelle kombiniert.
Bei der individuellen Diagnostik der klinischen und Beratungspraxis wird kaum
ein Diagnostiker sein Urteil auf ein einziges Verfahren stützen wollen und deshalb
mehrere diagnostische Verfahren einsetzen. Selbst dort, wo auf den ersten Blick nur
eine diagnostische Methode, wie z. B. das Gespräch, angewandt wird, erfolgt in der
Regel eine Kombination der Selbstbeurteilung des Klienten mit der Fremdbeurteilung
durch den Diagnostiker. Somit ist unimethodale Datenerhebung in der Praxis die Ausnahme, multimethodale Diagnostik dagegen die Regel (. Abb. 4.2).
Dieses Thema wurde in den letzten Jahren deshalb intensiv diskutiert, weil sich das
Interesse der Persönlichkeitsforschung zunehmend auf die teilweise nur mäßige Übereinstimmung zwischen den Ergebnissen verschiedener Methoden und die dafür maßgeblichen Ursachen gerichtet hat. Bereits Cattell (1966) rekurriert bei der Gewinnung
seiner Persönlichkeitsdimensionen auf Selbstbeurteilungen in Fragebogen, Fremdbeurteilungen, objektive Tests und physiologische Daten. Die dabei zutage getretene unbefriedigende Konkordanz der aus verschiedenen Quellen stammenden Befunde beschäftigt die Differentielle Psychologie bis heute. Einige Erfolge waren ihr bei der Suche
nach Verbesserungsmöglichkeiten beschieden. So ist die Übereinstimmung zwischen
Selbstbeurteilungen in Fragebogen und Fremdbeurteilungen grösser, wenn Messwerte
über mehrere Messzeitpunkte hinweg aggregiert werden (Epstein, 1979). Eine weitere
Erhöhung der Übereinstimmung gelang Wittmann (1987) durch die zusätzliche Aggregierung von Daten aus verschiedenen Kriteriumsbereichen. Borkenau und Amelang
4.3
wie eine Vigilanzuntersuchung unter entspannten Bedingungen für die Tätigkeit eines
Fluglotsen.
Der Gegensatz zwischen den beiden Gestaltungsprinzipien für die diagnostische
Situation geht auf die in 7 Kap. 1 angesprochenen unterschiedlichen diagnostischen
Zielsetzungen zurück. Die Selektion von Personen für bestimmte Tätigkeiten verlangt
in der Tat die Berücksichtigung der Anforderungen in der Bewährungssituation, die
deshalb vor Beginn der eigentlichen diagnostischen Untersuchung sorgfältig zu ermitteln sind. Testaufgaben wie externe Bedingungen sollten den im Kriterium herrschenden Anforderungen entsprechen, um aus dem Testverhalten valide Vorhersagen auf das
Kriteriumsverhalten machen zu können. Die Selektion von Bedingungen, unter denen
eine bestimmte Person ihr bestmögliches Ergebnis erzielen kann, erfordert dagegen die
Schaffung einer optimalen Untersuchungssituation. Bei einer Berufsberatung, bei der
die individuellen Fähigkeiten des Bewerbers zu ermitteln und zu berücksichtigen sind,
ist dagegen eine Kombination beider Strategien geboten, um zu prüfen, welches die
optimalen Bedingungen sind, unter denen ein Bewerber erfolgreich sein könnte, falls
er den Anforderungen eines bestimmten Bewährungskriteriums nicht genügt.
4.3 · Unimodale vs. multimodale Datenerfassung
4
Aggregation über
Messzeitpunke
Möglichkeiten der
Verbesserung:
Mäßige Konkordanz
von Daten aus verschiedenen Quellen
Individuelle
Diagnostik:
Meist multimodal
Institutionelle
Diagnostik:
Meist unimodal
Diagnostische Zielsetzung leitet Gestaltung
371
4
Umgang mit den divergierenden Befunden
Befunde durch mindestens 2 Methoden
absichern
Regressionsanalytische
Kombination
Aggregation über
Kriteriumsbereiche
(1985) ermittelten eine Zunahme der Konkordanz zwischen Selbst- und Fremdbeurteilung bei Items, die von den Versuchspersonen als zu ihrer Beurteilung angemessen
eingeschätzt wurden. In der Klinischen Psychologie, wo multimodale Diagnostik nach
Seidenstücker und Baumann (1987) zum Standard gehört, beklagen die Autoren dagegen, dass diese Problematik noch zu wenig gesehen und empirisch geprüft wird.
Bei der systematischen Personalauslese, bei der viele Daten anfallen, wird das Problem der variierenden Übereinstimmung von Ergebnissen verschiedener diagnostischer
Methoden mit der Fremdbeurteilung des Kriteriumsverhaltens schon länger thematisiert, wie die von Schuler und Schmitt (1987) zitierten Metaanalysen zeigen. Die differentielle Validität der verschiedenen Methoden bei unterschiedlichen Kriterien legt für
die beiden Verfasser eine regressionsanalytische Kombination von Methoden mit je
nach Kriterium jeweils anderer Gewichtung als Lösungsmöglichkeit nahe.
Diese Lösung ist dem in der individuellen Diagnostik tätigen Psychologen verwehrt,
hat er es doch meist mit sehr spezifischen Problemstellungen zu tun, für die es keine
Regressionsanalysen gibt. Er muss die Ergebnisse verschiedener Methoden ohne statistische Hilfe integrieren. Als Leitsatz hierbei hat nach allgemeiner Auffassung zu gelten,
dass ein Befund erst dann als gesichert anzusehen ist, wenn er durch mindestens 2
verschiedene Methoden möglichst unterschiedlicher Art bestätigt wird. Besondere
Schwierigkeiten machen auch hier die divergierenden Befunde. Im Gegensatz zu
Großserienuntersuchungen hat der Diagnostiker aber bei Individualuntersuchungen
die Möglichkeit, den Ursachen von Diskrepanzen durch Gespräche mit dem Klienten,
Analyse der verwendeten Methoden und beobachteten Prozesse oder Hinzuziehung
weiterer Informationen nachzugehen. Wie Psychologen ihre Daten zu einem Befund
integrieren und wie sie schließlich zu einem diagnostischen Urteil gelangen, wird in
7 Kap. 5 angesprochen.
Kapitel 4 · Erhebungsstrategien
. Abb. 4.2. Bei Assessment
Centern zur beruflichen Eignungsdiagnostik werden die
Ergebnisse der verschiedenen (multimodalen) »Übungen« für jeden Teilnehmer in
einer »Beobachterkonferenz« zusammengetragen
und diskutiert
372
Einstufige vs. mehrstufige Datenerhebung
Messung von Veränderungen und Unterschieden
Ein Spezialfall von mehrstufiger Datenerhebung liegt dann vor, wenn ein- und dieselbe
Messung zu wiederholten Zeitpunkten vorgenommen wird, um etwa das Ausmaß der
zwischen den Messungen eingetretenen Veränderungen und deren Stabilität abschätzen zu können (= indirekte im Unterschied der auf Einmalerhebungen beruhenden
direkten Veränderungsmessung). Derartige Veränderungen mögen als Folge einer gezielten Intervention (Training, Unterweisung, Therapie) intendiert oder auch bloß der
Ausdruck »zufälliger« Merkmalsoszillationen sein; denkbar sind auch Veränderungen
infolge von Regressionseffekten oder solche, die durch eine Testung selbst hervorgerufen werden. Nachfolgend soll nur auf einige allgemeine Prinzipien eingegangen werden;
die Spezialliteratur ist umfangreich (s. dazu insbesondere den »Klassiker« Harris, 1963,
im Weiteren Petermann, 1978, und das Themenheft der diagnostica von 1986). Die
besonderen Fragestellungen hauptsächlich innerhalb der Klinischen Diagnostik und
Intervention finden im letzten Abschnitt dieses Buches detaillierter Erwähnung (s. dazu
auch Baumann, Fähndrich, Stieglitz & Woggon, 1990).
Allgemein stellt sich bei der wiederholten Vorgabe ein- und desselben Tests an einzelnen Personen vor der inhaltlichen Interpretation eventuell aufgetretener Differenzen
(etwa im obigen Sinne) zunächst die methodische Frage nach deren statistischer Bedeutsamkeit. Darauf wurde in 7 Abschn. 2.1.1.5. bereits eingegangen. Darüber hinaus
4.5
Ob eine diagnostische Untersuchung in einer einzigen Sitzung durchgeführt werden soll
oder besser auf mehrere, zeitlich voneinander getrennte Termine aufzuteilen ist, wird
häufig unter dem Zwang äußerer Bedingungen entschieden. Ist z. B. dem Probanden aus
technischen oder ökonomischen Gründen ein mehrfaches Erscheinen nicht zuzumuten,
muss die Untersuchung in einer Sitzung abgeschlossen werden. Soll die Untersuchung
Hinweise auf die Belastungsfähigkeit eines Probanden in der Bewährungssituation ergeben, wäre es unter dem Aspekt der Repräsentativität der Testsituation für das Kriterium
sogar unverzichtbar, eine mehrstündige Untersuchung anzusetzen.
Andererseits sprechen plausible Gründe durchaus für eine mehrstufige Datenerhebung. So sind, wie schon weiter oben ausgeführt, zur angemessenen Gestaltung der
Testsituation genaue Kenntnisse von Fragestellung und Bewährungssituation erforderlich, die erst in einem einleitenden Gespräch in Erfahrung gebracht und u. U. nicht
sofort methodisch umgesetzt werden können. Das weitere diagnostische Vorgehen
kann häufig erst dann optimal erfolgen, wenn die Ergebnisse von Verfahren zur Groborientierung vorliegen. Eine aufgrund vorliegender Teilbefunde getroffene Methodenauswahl vermeidet überflüssigen Verfahrensaufwand und trägt somit zur Verringerung
von Kosten bei. Bei sehr speziellen Fragestellungen bietet eine Bedenkzeit zwischen
zwei Sitzungen die Möglichkeit, zusätzliche Informationen einzuholen. Ferner verstärken wiederholte Kontakte die Vertrauensbasis zwischen Diagnostiker und Proband und
verbessern so die motivationalen Bedingungen für eine Untersuchung unter optimierten Umständen. Des Weiteren gibt eine Datenerhebung zu unterschiedlichen Zeitpunkten dem Diagnostiker Gelegenheit, Informationen über Konstanz und situationale
Variabilität von Verhaltensweisen seines Klienten zu sammeln. Schließlich haben Cronbach und Gleser (1965) die Vorzüge einer sequentiellen Strategie unter entscheidungstheoretischem Aspekt herausgestellt (7 Kap. 6).
4.4
4.5 · Messung von Veränderungen und Unterschieden
4
Statistische
Bedeutsamkeit der
Differenzen
Indirekte Veränderungsmessung
Argumente für eine
mehrstufige Erhebung
Argumente für eine
einstufige Erhebung
373
4
»ReliabilitätsValiditäts-Dilemma«
r11 − r12
1 − r12
(4.1)
Die Reliabilität der Differenzwerte würde sich bei diesen Gegebenheiten also nur
auf .60 belaufen; individuelle Unterschiede wären bei einer derart niedrigen Reliabilität kaum als Grundlage für eine inhaltliche Interpretation geeignet.
r(1−2 )(1−2 ) =
.90 − .75
1− .75
.15
=
.25
= .60
Ein Fragebogen zur habituellen Ängstlichkeit habe eine Reliabilität (interne Konsistenz) von rtt = .90. Die Wiederholungsstabilität (= Korrelation zwischen zwei Testungen) bei einem Intervall von 6 Monaten betrage rtt = .75. Wie hoch ist die Reliabilität
der Differenzwerte? In Formel (4.1) eingesetzt erhalten wir:
Beispiel
Hierbei wird unterstellt, dass die Streuung und Reliabilität der erhobenen Rohwerte zu
den beiden Vergleichszeitpunkten identisch sind. Aus der Formel geht hervor, dass die
Reliabilität von Testwertdifferenzen immer dann unter derjenigen der originalen Testwerte liegt, wenn die Korrelation zwischen den Zeitpunkten positiv und grösser als Null
ist; mit zunehmender Korrelation zwischen den beiden Testadministrationen wird die
Reliabilität der Differenzen immer niedriger ausfallen, weil die Testungen 1 und 2 dann
immer mehr an wahrer Varianz gemeinsam haben und deshalb die Differenz primär
Fehleranteile widerspiegelt. Im Extremfall einer sehr hohen Korrelation zwischen den
beiden Testungen (wie sie etwa bei Paralleltests angestrebt wird) bestehen die auftretenden Differenzen praktisch nur aus Zufalls- oder Fehlergrößen. Umgekehrt bedeutet eine
nur niedrige Korrelation zwischen den beiden Testzeitpunkten, dass die Messungen zu
den verschiedenen Zeitpunkten nicht das Gleiche bedeuten können; hier wäre zwar eine
hohe Reliabilität der Differenzen gewährleistet, aber für Testscores von fragwürdiger
Validität (weil deren Reliabilität nicht gegeben ist; »Reliabilitäts-Validitäts-Dilemma«).
Damit ist eines der vorrangigen Ziele der Klassischen Testtheorie (KTT), nämlich
höchstmögliche Reliabilität zu jedem von möglichen (Einzel-)Zeitpunkten zu erzielen,
unvereinbar mit einer hohen Zuverlässigkeit der bestimmbaren Differenzwerte. Oder
mit anderen Worten: Die KTT führt zu dem Paradoxon, dass die Reliabilität von Differenzwerten immer geringer wird, je höher die Reliabilität der Ausgangswerte ist;
wegen der oft genug nur niedrigen Reliabilität der Differenzen sind diese für individuelle Interpretationen meistens unbrauchbar. Ein Beispiel möge diese Prinzipien veranschaulichen (7 Beispiel).
r(1–2)(1–2) = Reliabilität der Differenz zwischen 2 Testwerten
r11
= Reliabilität der Rohwerte, ausgedrückt als Anteil der wahren Varianz an
der Gesamtvarianz
r12
= Korrelation zwischen den beiden Testwerten
r(1−2)(1−2) =
interessiert, welche Zuverlässigkeit die ermittelten Differenzwerte aufweisen. Die Reliabilität von Veränderungswerten bemisst sich nach folgendem Ausdruck (Notation
nach Lienert & Raatz, 1994, S. 215):
Kapitel 4 · Erhebungsstrategien
Reliabilität von
Veränderungswerten
374
= Reliabilität von Test 1
= Reliabilität von Test 2
= Streuung von Test 1
= Streuung von Test 2
s12 r11 + s22 r22 − 2r12s1s2
s12 + s22 − 2r12s1s2
s12 = Varianz von Test 1
s22 = Varianz von Test 2
(4.2)
r11 + r22 − 2r12
2(1 − r12 )
(4.3)
Dieser Ausdruck ist von vorrangiger Bedeutung bei der Interpretation von individuellen Profildifferenzen, also von Werten zwischen Skalen innerhalb von Testsystemen wie
dem IST-2000, HAWIK-R und MMPI, FPI oder 16 PF-R, bei denen die Untertests alle
dieselbe Streuung aufweisen. Auftretende Profildifferenzen sind also dann eher reliabel,
r(1−2)(1−2) =
Die Formel ist auch angemessen für solche Konstellationen, bei denen ein- und derselbe Test zweimal angewendet wird, wo aber zu den beiden Zeitpunkten die Streuung und
die Reliabilität verschieden sind. Solche Gegebenheiten mögen vorliegen, wenn zwischen der Erst- und Zweitdurchführung ein Trainingsprogramm oder eine psychotherapeutische Intervention stattgefunden haben und sich dadurch die Unterschiede zwischen den Probanden ebenso veränderten wie die Reliabilitäten.
Weisen die beiden Tests identische Streuungen auf, vereinfacht sich Formel (4.2) zu
dem nachfolgenden Ausdruck:
Die Differenzen weisen in dem Beispiel eine Reliabilität von .80 auf und können deshalb interpretiert werden.
r(1−2 )(1−2 ) =
100 ⋅ .90 + 225 ⋅ .85 − 2 ⋅ .35 ⋅10 ⋅15
100 + 225 − 2 ⋅ .35 ⋅10 ⋅15
176.25
=
220
= .80
Eine Skala zur Erfassung rechnerischen Denkens sei auf die Streuung s = 10 normiert
und weise eine Reliabilität von rtt =. 90 auf; für eine andere Skala zu Wortschatz lauten die entsprechenden Daten für Streuung und Reliabilität s = 15 und rtt = .85. Die
Interkorrelation zwischen beiden Tests betrage .35. Wie hoch ist die Reliabilität der
individuell bestimmbaren Differenzwerte? Eingesetzt in die obige Formel erhalten
wir:
Beispiel
Wie ersichtlich, ist hier eine Generalisierung auf verschiedene (anstelle ein und desselben) Tests vorgenommen werden. Damit lassen sich Fragestellungen etwa der Art bearbeiten, wie reliabel die Differenzen zwischen verschiedenen Leistungs- oder Persönlichkeitsmerkmalen sind. Auch dazu sei ein Beispiel gegeben (7 Beispiel).
r11
r22
s1
s2
r(1−2)(1−2) =
Die Verallgemeinerung der obigen Formel für die Reliabilität von Veränderungsscores
lautet (s. O’Connor, 1972, S. 91):
4.5 · Messung von Veränderungen und Unterschieden
4
Interpretation von
individuellen Profildifferenzen
Berechnung der
Reliabilität von
Differenzen zwischen
verschiedenen Leistungs- und Persönlichkeitsmerkmalen
Verallgemeinerung
der Formel
375
4
Ausgangswertgesetz
Regression zur Mitte
»Effekt-« und
»Reliabilitätsfunktion«
Verschiedene Indices
für die Änderungssensitivität von Verfahren
rtt − rst
1 − rst
(4.4)
Um die Unzulänglichkeiten der KTT zur Lösung des Konstanz-Variabilitäts-Problems
zu überwinden, hat es verschiedene Ansätze gegeben, spezifische Indices für die Änderungssensibilität von Verfahren zu formulieren und Skalen danach zu konzipieren.
Einer der grundlegenden Gedanken geht dahin, in der Kombination von hoher interner
Konsistenz einerseits mit geringer Reteststabilität andererseits Voraussetzungen für
Änderungssensitivität zu sehen. Davon ausgehend hat Tack (1986) einen Lösungsvorschlag unterbreitet, der unter Verzicht auf zwei Kernannahmen der KTT (Konstanz der
wahren Werte und Unkorreliertheit der Fehler) eine »Effektfunktion« (Korrelation
zwischen den wahren Werten zu zwei verschiedenen Zeitpunkten) und eine »Reliabilitätsfunktion« (zeitabhängige Korrelation zwischen Messfehlern) vorsieht. Aber auch
in seinem System von Annahmen und Konzepten könne »eine Differenzen-Reliabilität
nie für ein Verfahren generell, sondern nur für ein Verfahren in Kombination mit einer
bestimmten Intervention und damit zusammenhängenden situativen Änderungen und
Restriktionen angegeben werden« (Tack, 1986, S. 63). Da es im Einzelfall schwer fällt,
die für die erwähnten Funktionen notwendigen Parameter in hinlänglich präziser Weise zu quantifizieren, haben diese Gedanken bislang keinen Eingang in die Praxis psychologischer Diagnostik gefunden.
Neben der fragwürdigen Reliabilität von Differenzwerten gibt es weitere Problembereiche, die eine Interpretation von Veränderungsscores zu einer diffizilen Aufgabe machen: Zum Einen ist das auf unzureichenden Reliabilitäten beruhende Phänomen der
Regression zur Mitte zu nennen. Bei der wiederholten Messung psychologischer Merkmale weist – sofern keine Übungs- oder Gedächtniseffekte auftreten – die Verteilung
aller Messwerte als Ganzes zwar dieselbe Gestalt auf, doch sind die anfänglich extrem
hohen oder extrem niedrigen Messwerte bei der zweiten Messung etwas zur Mitte regrediert; ihren ursprünglicher Platz in der Verteilung haben andere Messwerte eingenommen. Ursächlich dafür ist, dass die Extremität unter anderem durch die ungewöhnliche
Kombination vieler förderlicher bzw. hinderlicher Fehlerfaktoren bewirkt wird, die in
dieser spezifischen Konstellation kaum wieder auftritt. Vermeintlich eindeutige und
statistisch signifikante Verminderungen von anfänglich hohen Ängstlichkeitstestwerten
nach einer mehrwöchigen Intervention, wie sie in der Studie von Wieczerkowski et al.
(1969) beobachtet wurden, beruhen deshalb höchstwahrscheinlich nur auf diesem statistischen Artefakt und dürften deshalb – entgegen der Auffassung der Autoren – nicht
auf die angstreduzierende Wirkung der Intervention zurückgeführt werden.
Auswirkungen haben diese Prinzipien auch auf das Ausgangswertgesetz, demzufolge die Höhe eines Anfangswertes negativ mit dem Zuwachs korreliert. Dafür sind – je
nach Sachverhalt – teils biologische Faktoren verantwortlich, teils auch Limitierungen
wobei
–
rtt = arithmetisches Mittel aller Reliabilitätskoeffizienten aller k-Tests eines Profils
und
–r = arithmetisches Mittel der Interkorrelationen aller k-Tests.
st
prof rtt =
wenn die Subtests für sich eine hohe Reliabilität aufweisen, die Skalen untereinander
aber nur niedrig (im besten Falle: Zu Null) miteinander korrelieren.
Geht es nicht nur um die Reliabilität der Differenz zwischen zwei Testwerten, sondern um diejenige zwischen den Werten einer Batterie oder eines Testprofils, also um
die Profilreliabilität, gilt die Verallgemeinerung von (4.1):
Kapitel 4 · Erhebungsstrategien
Konstanz-VariabilitätsProblem
376
4. Welche Gründe lassen sich
für eine einstufige, welche
für eine mehrstufige Entscheidungsprozedur anführen?
suchungen sprechen ihre Vertraulichkeit, die Möglichkeit zu Beobachtungen, die Vermeidung von Störungen durch andere.
Befunde aus verschiedenen Datenquellen. Durch Gespräche mit dem
Klienten, Analyse der verwendeten Methoden und der beobachteten
Prozesse oder durch Hinzuziehung weiterer Informationen muss der
Diagnostiker versuchen, diesen Dissens aufzuklären.
Ad 4. Für einstufige Datenerhebung sprechen in erster Linie zeitökonomische Gründe. Für eine mehrstufige Erhebung sprechen mehrere
Gründe. So sind zur angemessenen Gestaltung der Testsituation genaue Kenntnisse von Fragestellung und Bewährungssituation erforderlich, die oft erst in einem einleitenden Gespräch in Erfahrung gebracht
und nicht sofort methodisch umgesetzt werden können. Das weitere
diagnostische Vorgehen kann häufig erst dann optimal erfolgen, wenn
die Ergebnisse von Verfahren zur ersten Groborientierung vorliegen.
Bei sehr speziellen Fragestellungen bietet eine Bedenkzeit die Möglichkeit, zusätzliche Informationen einzuholen. Eine aufgrund vorliegen-
Ad 3. Das Hauptproblem multimodaler Diagnostik sind diskrepante
Ad 2. Optimalbedingungen zu schaffen ist sinnvoll, wenn für den
Klienten eine Bedingungsoptimierung intendiert ist. Zu Selektionszwecken ist eine Orientierung an der Bewährungssituation geboten.
! Ad 1. Gruppenuntersuchungen sind ökonomischer. Für Einzelunter-
4
suchungen in Einzelsitzungen oder besser in Gruppen
erfolgen?
2. Was spricht für die Schaffung von Optimalbedingungen in der Testsituation,
was dagegen?
3. Welche Probleme ergeben
sich bei multimodaler
Diagnostik?
»Physicalism-subjectivism-dilemma«
377
? 1. Sollen diagnostische Unter-
Übungsfragen
von Seiten der vorgegebenen Skalen, im Weiteren aber auch unzureichende Reliabilitäten. Vergegenwärtigen lassen sich die dafür maßgeblichen Überlegungen sehr gut am
Würfeln als einer »Messung«, die nur auf Zufall beruht. Bei einer 6 im ersten Wurf ist
die Wahrscheinlichkeit für eine erneute 6 in einem zweiten Wurf nur 1/6; entsprechend
liegt die Wahrscheinlichkeit für eine niedrigere Ziffer als 6 bei 5/6. Umgekehrt verhält
es sich bei einer 1 im ersten Wurf. In diesen Fällen korrelieren die »Zuwächse« (= Veränderungen) negativ mit dem Ausgangswert. Mehrfach ist deshalb vorgeschlagen worden, die Werte der Anfangsmessung aus denen der Endmessung herauszupartialisieren;
die erhaltenen Residualwerte seien dann »basefree measures of change« (Tucker, Damarin & Messick, 1966). Kritisch daran sind u. a. erneut die fragwürdigen Reliabilitäten
von Residuen, vor allem bei kleinen Stichprobenumfängen, und das Problem, ob die
Linearitätsannahme regressionsanalytischer Prinzipien immer gerechtfertigt ist.
Ein grundsätzliches Problem zum Schluss: Es betrifft die Frage, ob numerisch identische Veränderungen auf den verschiedenen Abschnitten des Messwertekontinuums
Gleiches bedeuten (»physicalism-subjectivism-dilemma«, Bereiter, 1963). Das Intervallskalenniveau, das im Regelfall bei den herkömmlichen Leistungs- und Persönlichkeitstests angenommen wird, ist bekanntlich durch eben diese Eigenschaft definiert,
aber dennoch scheint einer trainingsbedingten Leistungssteigerung von, um nur ein
Beispiel zu geben, 10 IQ-Punkten bei extrem niedriger oder extrem hoher Intelligenz
eine andere Bedeutung zuzukommen als einer numerisch identischen Veränderung im
Mittelbereich. Gleiche Veränderungswerte stehen deshalb nicht zweifelsfrei für gleiche
psychologische Veränderungen.
4.5 · Messung von Veränderungen und Unterschieden
(S.385-388)
Das diagnostische Gutachten
(S.381-383)
Das diagnostische Urteil
(S.380-381)
Modellvorstellungen
Der diagnostische Prozess
5
Auswertung der
Ergebnisse
Planung der
Untersuchung
Operationalisierbarkeit
Generierung von
Hypothesen
Fragestellung leitet
Diagnostik
Anliegen wird zu psychologischem Auftrag
Modellvorstellungen
War früher die Gewinnung eines umfassenden Persönlichkeitsbildes die wichtigste
Aufgabe psychologischer Diagnostik (Fahrenberg, 1987), so setzte sich Mitte der 60er
Jahre die Erkenntnis durch, dass alle derartigen Versuche immer selektiv bleiben. Wenn
aber Selektivität schon nicht zu vermeiden sei, so sollte sie zumindest im Sinne der
praktischen Fragestellung des Auftraggebers erfolgen (Holzkamp, 1966), die der Diagnostiker folglich vor Beginn der eigentlichen Untersuchung kennen muss. Entweder
der Klient selbst oder eine die Untersuchung anordnende Person oder Institution können dabei als Auftraggeber fungieren. Dieser trägt die Fragestellung der Untersuchung
an den Diagnostiker heran, der das in der Regel nur laienhaft formulierte Anliegen
allerdings erst in seine psychologische Fachsprache übersetzen und meist weiter ausdifferenzieren muss. Mit der Fragestellung steht die Bewährungssituation für das Urteil
des Diagnostikers in engem Zusammenhang (Holzkamp, 1966). Die dort herangezogenen Bewährungskriterien bilden auf der einen Seite die Grundlage für die Gestaltung
der Testsituation und markieren andererseits als Zielkriterien den Punkt, an dem eine
Intervention als erfolgreich angesehen werden kann. Sie sind daher zusammen mit der
Fragestellung detailliert zu eruieren. Dies geschieht in der Regel im einleitenden diagnostischen Gespräch.
Nach dem Modell von Jäger (1982; . Abb. 5.1) muss der Diagnostiker aufgrund der
dabei ermittelten Informationen entscheiden, ob sich die Fragestellung in psychologische Hypothesen übersetzen lässt, und im negativen Fall versuchen, die Fragestellung
zu modifizieren. Im positiven Fall sollte der Diagnostiker nicht nur in der Lage sein,
Hypothesen über das Zustandekommen eines Problemverhaltens zu formulieren, sondern auch Annahmen darüber, durch welche Interventionsmaßnahmen ein problematischer Ist-Zustand in einen erwünschten Soll-Zustand überführt werden kann.
Nach Formulierung der Untersuchungshypothesen stellt sich die Frage nach deren
Operationalisierbarkeit. Erscheint diese aus technischen oder in der Person des Diagnostikers liegenden Gründen nicht möglich, ist der Klient darüber aufzuklären und ggf.
an eine kompetentere Adresse zu verweisen.
Während die formulierten Hypothesen den Inhalt der diagnostischen Untersuchung, die strategische Planung, bestimmen (Kaminski, 1970), dreht sich die taktische
Planung um die mehr technische Frage, mit Hilfe welcher Verfahren die inhaltlichen
Ziele zu erreichen sind. Dabei bestimmen Fragen der Repräsentativität der Testsituation für die Bewährungssituation sowohl die Testauswahl als auch die im vorangegangenen Kapitel diskutierten Erhebungsstrategien.
Die erste Auswertung der Untersuchungsergebnisse ermöglicht nur in seltenen Fällen eine direkte Antwort auf die gestellte Frage. Meist müssen Hypothesen zusätzlich
abgesichert oder sich neu ergebende operationalisiert und überprüft werden.
Als diagnostischer Prozess wird die Abfolge von Maßnahmen zur Gewinnung diagnostisch relevanter Informationen bezeichnet.
Definition
Der diagnostische Prozess beginnt nicht erst mit der diagnostischen Untersuchung
selbst, sondern bereits mit der ersten Kontaktnahme des Diagnostikers mit dem Auftraggeber der Untersuchung.
5.1
Kapitel 5 · Der diagnostische Prozess
Persönlichkeitsbilder
sind immer selektiv
380
nein
zusätzliche
Hypothesen
Datenauswertung
Untersuchungsplanung
und Durchführung
der Untersuchung
ja
Operationalisierbarkeit
Hypothesenformulierung
ja
Umsetzbarkeit in
psychologische
Hypothesen
Ausarbeitung
einer differenzierten
Fragestellung
Rückgabe des
Auftrags
gegebenenfalls Umformulierung der
Fragestellung
nein
Absicherung
der
Hypothesen
ja
Fragestellung
nein
nein
nein
Auftraggeber
Das diagnostische Urteil
Von den Teilaspekten des diagnostischen Prozesses wurde in der Literatur besonders
jener problematisiert, der sich mit dem Zustandekommen des diagnostischen Urteils
als Grundlage der Beantwortung der Fragestellung des Auftraggebers befasst. Nach
einer Klassifikation von Meehl (1954) und Sawyer (1966) lassen sich 2 gegensätzliche
Strategien der diagnostischen Urteilsbildung unterscheiden, eine statistische und eine
klinische Form.
Bei der statistischen Form wird die Datenintegration mit Hilfe statistischer Gleichungen vorgenommen, bei der klinischen kombiniert der Diagnostiker die Einzeldaten zu einem diagnostischen Urteil. Zu den gängigsten Verfahren der statistischen
Datenintegration gehören Regressions- und Diskriminanzanalysen. Nach den Analysen von Meehl und Sawyer erwiesen sich statistische Verfahren der Datenintegration
5.2
Die . Abb. 5.1 versucht, diesen iterativen Prozess mit Hilfe eines Flussschemas zu veranschaulichen.
! Der diagnostische Prozess ist somit keine Einbahnstraße, sondern eher ein Geschehen, bei dem der Diagnostiker sich u. U. erst nach mehreren Durchgängen dem
Ziel, der Beantwortung der Fragestellung, nähert.
Beantwortung
der
Fragestellung
Ausarbeitung
einer
Fragestellung
5.2 · Das diagnostische Urteil
Statistische
Urteilsbildung
Beantwortung
der Fragestellung
. Abb. 5.1. Der diagnostische Prozess. (Aus Jäger,
1982)
381
5
5
In einer Metaanalyse haben Grove, Zald, Lebow, Snitz und Nelson (2000) die vorliegenden Untersuchungen zur mechanischen (statistischen) und klinischen (menschlichen)
Urteilsbildung einer vergleichenden Bewertung unterzogen. Sie nahmen 136 Untersuchungen in ihre Analyse auf, die sich mit der Genauigkeit von Urteilen aus dem psychologischen und medizinischen Bereich befassten; Studien zur Vorhersage von Börsenkursen, Pferderennen oder etwa dem Wetter blieben unberücksichtigt. Insgesamt
erwies sich die mechanische Vorhersage der klinischen als überlegen. Die mittlere Effektstärke ist mit d = .089 aber sehr klein. Die große Streuung der Effektstärken veranlasste die Autoren, nach Moderatorvariablen zu suchen. So prüften sie, ob der Unterschied zwischen den beiden Methoden der Urteilsbildung von der verwendeten Definition der Effektstärke, dem Publikationsjahr, der Stichprobengröße, dem vorhergesagten Kriterium, von Training oder Erfahrung der Urteiler, der Informationsmenge und
von der Informationsart abhängt. Lediglich bei zwei Variablen – dem vorhergesagten
Kriterium und der Informationsart – entdeckten sie einen Effekt. Die mechanische
Urteilsbildung scheint der klinischen besonders dann überlegen zu sein, wenn medizinische und forensische Kriterien vorherzusagen sind, und wenn die Informationen in
Form von Interviewdaten vorliegen.
Warum erreichen menschliche Urteile nicht die Genauigkeit, die bei Anwendung
von mechanischen Urteilsmodellen möglich ist? Grove et al. (2000) vermuten, dass die
Anfälligkeit für bestimmte Urteilsfehler dafür verantwortlich ist. Verschiedene Untersuchungen belegen, dass Menschen oft die Basisrate ignorieren (also zu oft Diagnosen
stellen, die statistisch selten und damit unwahrscheinlich sind), Informationen falsch
gewichten, indem sie etwa leicht verfügbare Informationen übergewichten (availability
Heuristik), oder die Regression zur Mitte vernachlässigen.
Trotz ihrer offensichtlichen Überlegenheit ist auch Kritik an der mechanischen
Vorhersage angebracht. Ein statistisches Urteilsmodell kann nur mit Informationen
konstruiert werden, die für alle Probanden vorliegen. Zudem sind große Fallzahlen bei
einer einheitlichen Fragestellung erforderlich. In der Forschung fand zudem oft eine
(unrealistische) Beschränkung auf einen Test statt.
Ein bekanntes statistisches Urteilsmodell ist der Goldberg-Index (Goldberg (1965),
mit dessen Hilfe anhand von MMPI-Testergebnissen (zum MMPI 7 Abschn. 3.2.3)
festgestellt werden kann, ob ein Patient psychotisch ist oder nicht. Fünf Skalenwerte
(T-Werte) werden nach der Formel L+Pa+Sc–Hy–Pt verrechnet. Liegt der Index über
45, gilt der Patient als psychotisch. Klinische Urteilsbildung bedeutet, dass klinische
Experten anhand der gleichen Informationen beurteilen, ob ein Patient psychotisch
ist oder nicht. Sie verlassen sich dabei auf ihre klinische Erfahrung und brauchen ihr
Urteil nicht zu begründen. In einem Vergleich erwies sich die statistische Methode
der klinischen als überlegen (Goldberg, 1965). Als Kriterium für die »wahre« Diagnose dienten Psychiaterurteile über die gleichen Patienten. Betrachten wir nur die
Fälle, in denen ein Patient nach Einschätzung des Psychiaters entweder psychotisch
oder neurotisch ist, so erzielten die Klinker eine Trefferquote von 68%, während die
Anwendung des Goldberg-Index in 74%der Fälle zu richtigen Urteilen führte.
Beispiel
der klinischen Urteilsbildung in der Prognosegenauigkeit überlegen, unabhängig
davon, ob die Daten durch klinische Methoden, Testverfahren oder kombiniert erhoben
wurden (Sawyer, 1966).
Kapitel 5 · Der diagnostische Prozess
Höhere Prognosegenauigkeit
382
In der diagnostischen Praxis gilt es, die Vorteile und Chancen beider Urteilsmodelle
zu nutzen. Der Diagnostiker sollte mechanische Vorhersagemodelle kennen und bei
seiner Diagnose oder Prognose nutzen – aber ohne ihnen blind zu vertrauen. In begründeten Fällen sollte er die mechanische Vorhersage korrigieren oder ganz durch
eine klinische ersetzen, z. B. wenn er Zweifel daran hat, dass das Vorhersagemodell für
seinen Probanden angemessen ist. Für die Korrektur kann der Diagnostiker zusätzliche
Informationen nutzen, die im mechanischen Modell nicht berücksichtigt wurden.
Die meisten statistischen Urteilsmodelle verwerten nur lineare Zusammenhänge
zwischen Prädiktoren und Kriterien und sind »blind« für die Wirkungsmechanismen,
die der Beziehung beider Variablen zugrunde liegen. Mit den Künstlichen Neuronalen
Netzen stehen statistische Auswertungsprogramme zur Verfügung, die auch komplexe,
nichtlineare Verknüpfungen mehrerer Prädiktoren mit einem Kriterium entdecken
und für die Vorhersage nutzen. Häusler und Sommer (im Druck) gelang es mit diesem
Ansatz, die Vorhersage von Ausbildungserfolg mit Leistungstests als Prädiktoren gegenüber einer linearen Vorhersage zu verbessern.
Statistische Modelle beschreiben Zusammenhänge, indem sie viele möglicherweise
relevante Randbedingungen ignorieren. Sie verleiten den Diagnostiker dazu, einen Zusammenhang als allgemeingültig anzusehen und auf den Einzelfall zu übertragen, ohne
dabei zu wissen, ob dieser Schritt angemessen ist. Durch eine gründliche Erforschung
moderierender Faktoren wird der Geltungsbereich eines statistischen Vorhersagemodells
eingeengt und die Vorhersage verbessert. Ein gutes Beispiel ist die Prognose, ob ein Patient, der wegen Gewalttätigkeit in einer psychiatrischen Einrichtung untergebracht wurde, nach seiner Entlassung wieder gewalttätig wird. Rückfälle hängen von einer Reihe von
Randbedingungen ab, darunter dem sozialen Umfeld des Patienten nach seiner Entlassung. Eine kriminelle Nachbarschaft erhöht das Risiko erneuter Gewalt. Die Kriminalitätsrate in der Nachbarschaft erklärt sogar den bekannten Zusammenhang zwischen
Rasse und Gewalt (Monahan, 2003). Ohne dieses Wissen hätte ein Farbiger in den USA
eine schlechte Rückfallprognose. Wird die nun bekannte Moderatorvariable berücksichtigt, fällt die Prognose im Einzelfall oft anders aus als nach dem »alten« Modell. Nicht die
Hautfarbe, sondern das soziale Umfeld nach der Entlassung ist ein Risikofaktor.
Damit individuelle Diagnostik nicht zur esoterischen Kleinkunst verkommt, muss
sie wissenschaftliche Kriterien erfüllen. Fasst man die diagnostische Untersuchung als
psychologisches Experiment auf, so gehören zu ihren wesentlichen Bestimmungsstücken die Explizierung der Untersuchungshypothesen und die Kontrolle der Untersuchungsbedingungen, die eine Wiederholung und einen Vergleich mit anderen Untersuchungen erst ermöglichen. Darüber hinaus sind besonders die Explikation der Entscheidungsregeln und die Erfassung der Prognosegenauigkeit, der Validität der Diagnose, wichtig.
Das Ausgehen von Untersuchungshypothesen fordern bereits die Modelle von Kaminski (1970) und Jäger (1986). Probleme auf dieser diagnostischen Stufe bestehen in
einer eingeschränkten Wissensbasis, die zur Formulierung weniger Alternativhypothesen führt, und in einer mangelhaften Dokumentation dieser Annahmen, die eine spätere Korrektur erschwert. Die systematische Kontrolle der Untersuchungsbedingungen
ist zwar für einen methodisch gut ausgebildeten Psychologen eine Selbstverständlichkeit, ihre Dokumentation sollte aber ebenfalls selbstverständlich werden.
Das zentrale Problem der diagnostischen Urteilsbildung stellen die Entscheidungsregeln dar, die häufig mehr oder minder implizit angewendet werden. Wie diese nachträglich ermittelt und explizit gemacht werden können, haben Wottawa und Hossiep
(1987; . Abb. 5.2) beschrieben.
5.2 · Das diagnostische Urteil
5
Zentrales Problem: Die
Entscheidungsregeln
Probleme der klinischen Urteilsbildung
Forderungen an die klinische Urteilsbildung
383
Das diagnostische Gutachten
Demzufolge stellt das Gutachten eine wissenschaftlich begründete Entscheidungshilfe
bei einem gegebenen Problem dar. Im Mittelpunkt der Betrachtung steht dabei lediglich
ein bestimmter Ausschnitt aus dem Verhalten einer Person und nicht die »ganze Persönlichkeit«.
Gewöhnlich wird das Gutachten schriftlich fixiert; verschiedentlich erfolgt aber
auch eine Erstattung oder auch (nur zusätzliche) Erläuterung in mündlicher Form.
Die Übernahme von Gutachten versetzt den Diagnostiker gewöhnlich in ein komplexes Feld, das durch eine Vielzahl rechtlicher Bestimmungen vorstrukturiert wird
(s. dazu insbesondere Zuschlag, 1992). Bedeutsame ethische Limitierungen werden
besonders dann salient, wenn es sich bei der Interaktion von diagnostizierenden Psychologen und begutachteten Klienten nicht um einen »freien« Kontrakt (wie z. B. in
Form eines Privatgutachtens), sondern um einen solchen handelt, der allenfalls »bedingt frei« oder definitiv »aufgezwungen« ist (s. zu dieser Unterscheidung Lang, 1978).
Der letztere Fall liegt beispielsweise vor, wenn festgestellt werden soll, ob ein Zeuge
aufgrund seiner intellektuellen Leistungsfähigkeit oder wegen aktueller Affekte in der
Lage war, das Geschehen »objektiv« wahrzunehmen. Zu den »bedingt freien« Kontrakten zählen die meisten Untersuchungen im Gefolge von Sorge- und Umgangsrechtsstreitigkeiten; häufig ist es dabei so, dass die Eltern für sich keine einvernehmliche
»Psychodiagnostische Gutachten für (meist fachfremde) Dritte als selbständige (in
sich geschlossene) zusammenfassende Darstellung der psychodiagnostischen Vorgehensweise, der Befunde und Schlussfolgerungen in Bezug auf eine hinsichtlich
einer konkreten Fragestellung zu begutachtende Person, Institution oder Situation,
basierend auf einem der Fragestellung gemäßen, angemessen komplexen diagnostischen Prozess für einen Gutachtenempfänger (Auftraggeber). Mit Hilfe des Gutachtens soll sein Empfänger Entscheidungen in seinem System (seinem diagnostischen Prozess) fundierter treffen können.«
Definition
Die Fragestellung und der Untersuchungsplan zur Erhebung psychodiagnostischer
Informationen, die eingesetzten Verfahren, die ermittelten Daten sowie die daraus gezogenen Schlussfolgerungen werden häufig in Form eines Gutachtens zusammengestellt. Schmidt (1995, S. 468) definiert:
5.3
der Therapeut nichts erfährt. Bei Klassifikationsempfehlungen, bei denen die Erfolgsquote aller Behandlungsalternativen ermittelt werden kann, ist eine Rückmeldung dagegen prinzipiell möglich. Sie muss aber auch systematisch angestrebt werden. Dort,
wo der Diagnostiker auch die Intervention durchführt, hat er am ehesten die Möglichkeit, die Güte seiner Diagnosen zu evaluieren und ggf. Korrekturen vorzunehmen. Die
Lokalität für erforderliche Verbesserungen lässt sich um so leichter bestimmen, je genauer Hypothesen, Untersuchungsbedingungen und Entscheidungsregeln expliziert
wurden. Diese Form individueller Diagnostik wird von Petermann (1987) treffend mit
dem Begriff kontrollierte Praxis umschrieben und sollte für den Diagnostiker, der den
Anspruch hat, wissenschaftlich fundierte Diagnostik zu betreiben, zur selbstverständlichen Routine werden.
5.3 · Das diagnostische Gutachten
5
Rechtliche Vorschriften
und ethische Fragen
Kontrollierte Praxis
385
5
Nach Westhoff und Kluck (1998) besteht die Erstellung eines psychologischen Gutachtens aus einer Serie von Entscheidungen, die vom Psychologen zu treffen sind. Nachfolgend sind die einzelnen Schritte des diagnostischen Entscheidungsprozesses aufgelistet und in Anlehnung an Westhoff und Kluck erläutert:
1. Fragestellung,
2. Annahmen,
3. Anforderungsprofil,
4. psychologische Fragen (= Hypothesen),
5. Untersuchungsplan,
6. Durchführen der diagnostischen Untersuchung,
7. Darstellen der Ergebnisse,
8. Befund: Beantworten der psychologischen Fragen und damit der Fragestellung,
9. Vorschläge bzw. Empfehlungen zum weiteren Vorgehen.
In einem ersten Schritt ist u. a. zu klären, ob die Fragestellung, mit der ein Auftraggeber
an den Psychologen herantritt, überhaupt ethisch vertretbar sowie grundsätzlich zu beantworten ist. Danach muss entschieden werden, ob ein Psychologe vom Fachwissen her
Schritte des diagnostischen Entscheidungsprozesses
Voraussetzungen für
die Übernahme eines
Gutachtens
Lösung finden können und dafür mit Unterstützung eines Gerichtes Vorschläge von
einem Sachverständigen erwarten, dem dann aber in aller Regel aus dem Wunsch heraus, etwas zu behalten oder zu bekommen (nämlich das Besuchs- oder Sorgerecht),
die Arbeit häufig durch selektive Informationsüberlassung nicht sonderlich erleichtert wird.
Um der besonderen Verantwortung von Psychologen Rechnung zu tragen, hat die
Föderation der Deutschen Psychologenvereinigungen (1998) im Rahmen ihrer Ethischen Richtlinien verbindliche Kriterien für Gutachten und Untersuchungsberichte
formuliert:
1. Sorgfaltspflicht: Allgemein gilt, dass die Erstellung und Verwendung von Gutachten und Untersuchungsberichten von Psychologen größtmögliche sachliche und
wissenschaftliche Fundiertheit, Sorgfalt und Gewissenhaftigkeit erfordern. Gutachten und Untersuchungsberichte sind frist- und formgerecht anzufertigen. Die föderativen Richtlinien für die Erstellung von Gutachten sind zu beachten.
2. Transparenz: Gutachten und Untersuchungsberichte müssen für die Adressaten
inhaltlich nachvollziehbar sein.
3. Einsichtnahme:
a) Sind Auftraggeber und Begutachtete nicht identisch, kann das Gutachten bzw.
der Untersuchungsbericht nur mit Einwilligung des Auftraggebers den Begutachteten zugänglich gemacht werden.
b) Psychologen sind gehalten, darauf einzuwirken, dass die Begutachteten ihr Gutachten bzw. den Untersuchungsbericht auf Wunsch einsehen können, sofern für
sie kein gesundheitlicher Schaden zu befürchten ist.
c) Falls der Auftrag eine Einsichtnahme von vornherein ausschließt, müssen die
Begutachteten vorab davon in Kenntnis gesetzt werden.
4. Gefälligkeitsgutachten: Gefälligkeitsgutachten sind nicht zulässig, ebensowenig
die Abgabe von Gutachten, die Psychologen durch Dritte ohne eigene Mitwirkung
erstellen lassen.
5. Stellungnahme zu Gutachten von Kollegen: Stellungnahmen zu Gutachten von
Kollegen sind zulässig, wobei der Abschnitt B.II. (1) dieser Ethischen Richtlinien
(Kollegiales Verhalten) besonders zu beachten ist.
Kapitel 5 · Der diagnostische Prozess
Verbindliche Kriterien
für Gutachten und Untersuchungsberichte
386
Danach ist Verhalten eine Funktion folgender (nichtpsychologischer und psychologischer ) Variablengruppen:
4 Umgebungsvariablen (U; äußere Lebensbedingungen, z. B. Wohnsituation, finanzielle Situation),
4 Organismusvariablen (O; körperliche Bedingungen, z. B. Krankheiten, Behinderungen),
4 kognitive Variablen (K; Leistungsfähigkeit und Inhalte des Wahrnehmens, Lernens
und Denkens, z. B. Allgemeine Intelligenz, Intelligenzstruktur, Konzentration),
4 emotionale Variablen (E; z. B. emotionale Belastbarkeit, Umgang mit Gefühlen und
Belastungen),
4 motivationale Variablen (M; z. B. Leistungs- und Machtmotiv, Interessen, Werte),
V= f1(U, O, K, E, M, S)
hierfür zuständig ist bzw. ob prinzipiell genügend Wissen zur Bearbeitung vorliegt.
Schließlich muss für die Übernahme einer Fragestellung diese eindeutig formuliert sein.
Maßgeblich für den diagnostischen Entscheidungsprozess sind darüber hinaus die
grundlegenden Annahmen des Psychologen über menschliches Verhalten. So lässt sich
beispielsweise individuelles Verhalten lediglich dann beschreiben, erklären, vorhersagen und beeinflussen, wenn man von regelhaften und gesetzmäßigen Zusammenhängen zwischen Merkmalen von Situation und Verhaltensweisen sowie zwischen den
Verhaltensweisen selber ausgehen kann.
Wie bereits erwähnt, besteht das Ziel jedes diagnostischen Prozesses in der Bereitstellung von Entscheidungshilfen bei wichtigen Fragen, wie z. B. ob jemand für einen
bestimmten Beruf geeignet ist oder welche Therapieform bei einer vorliegenden Störung die größte Aussicht auf Erfolg hat. Um zwischen verschiedenen Alternativen (z. B.
Beruf, Therapieform) entscheiden zu können, müssen Kriterien bzw. Anforderungen
vorliegen, die den Verhaltensmerkmalen und Eigenschaften der beurteilten Person
gegenüber zu stellen sind. So kann man beispielsweise die Anforderungen des Berufs
Diplom-Sozialarbeiter mit dem Leistungs- und Persönlichkeitsprofil einer Person vergleichen, um die Frage zu beantworten, ob sie für diese Tätigkeit geeignet ist. In Anlehnung an arbeitspsychologische Fragestellungen wird die Summe der jeweiligen Anforderungen als Anforderungsprofil bezeichnet; diesen Begriff übertragen Westhoff und
Kluck auch auf den klinischen, pädagogisch-psychologischen und forensischen Bereich. Dabei lassen sich kompensatorische von nichtkompensatorischen sowie stabile
von instabilen Anforderungen unterscheiden (Westhoff & Kluck, 1998, S. 18 f.). Generell müssen die Anforderungen möglichst verhaltensorientiert definiert sein, um sie
exakt beurteilen zu können.
Da die Fragestellung meistens in einer sehr globalen Form vorliegt, wird sie in psychologische Fragen (= Hypothesen) übersetzt. Demzufolge werden ausgehend von der
Fragestellung Variablen ausgewählt, anhand derer man das relevante Verhalten erklären
oder vorhersagen kann. Diese Vorgehensweise dient einerseits zur Strukturierung und
Gliederung des diagnostischen Prozesses und andererseits zur Erhöhung der Transparenz und Prüfbarkeit des Gutachtens und wirkt sich somit positiv auf die Verständlichkeit für die (meist psychologisch nicht geschulten) Leser aus. Die Auswahl geeigneter
Variablen zur Überprüfung der psychologischen Fragen erfolgt nach Westhoff und
Kluck (1998, S. 25 f.) u. a. durch Zuhilfenahme der Verhaltensgleichung. Diese Formel
fasst alle relevanten Variablen zusammen, die zur Erklärung, Vorhersage und Beeinflussung individuellen Verhaltens bedeutsam sind:
5.3 · Das diagnostische Gutachten
5
Nichtpsychologische
und psychologische
Variablengruppen
Verhaltensgleichung
Anforderungsprofil
Diagnostik als
Entscheidungshilfe
Psychologische Annahmen über Verhalten
387
5
Fragestellungen
für Gutachten
Befund
Untersuchungsdurchführung
U und O sind damit nichtpsychologische Variablengruppen, K, E, M und S gehören zu
den psychologischen Variablengruppen.
Im Rahmen des diagnostischen Prozesses kann durch die Verwendung der Verhaltensgleichung sichergestellt werden, dass keine relevanten Variablen unberücksichtigt
bleiben.
Damit für die Leser des Gutachtens nachvollziehbar ist, auf welche Weise die Erhebung der relevanten Variablen erfolgt, werden die hierzu verwendeten Verfahren und
sonstigen Informationsquellen im Untersuchungsplan beschrieben. Nach Westhoff
und Kluck (1998) soll als übergeordnetes Kriterium für die Auswahl von Informationsquellen stets das Verhältnis von Kosten und Nutzen bei deren Einsatz herangezogen
werden. Weitere Kriterien für die Auswahl von beispielsweise standardisierten diagnostischen Verfahren sind u. a. die jeweiligen testtheoretischen Gütekriterien (Objektivität,
Reliabilität, Validität) sowie die Verfügbarkeit über entsprechende Normen.
Nach diesen Vorbereitungen kann die Durchführung der diagnostischen Untersuchung stattfinden. Die eingesetzten Verfahren und die damit gewonnenen Ergebnisse, Resultate aus Fragebögen, Tests, Gesprächen sowie anderen Informationsquellen,
werden in allgemeinverständlicher Form dargestellt. Der diagnostische Prozess endet
damit, dass die Untersuchungsergebnisse im Befund so integriert werden, dass sie die
zuvor formulierten psychologischen Fragen beantworten.Die Stellungnahme gibt
schließlich eine Antwort auf die zu bearbeitende Fragestellung des Gutachtens. Daran
können sich Vorschläge und Empfehlungen in Bezug auf das weitere Vorgehen anschließen.
Die Fragestellungen, Arbeitsfelder und Aufgabenbereiche für psychodiagnostische Gutachten sind zahlreich, wie der nachfolgenden Auflistung zu entnehmen ist
(nach Föderation Deutscher Psychologenvereinigungen, 1988):
4 Schule (Schulfähigkeit, Lernfähigkeit; Lern-/Leistungsstörungen; Verhaltensauffälligkeiten; Schullaufbahnberatung),
4 Universität/Hochschule (Zulassung zum Studium, z. B. Härtefälle; Wechsel des Studienortes/-faches; Zulassung zum Zweitstudium/ Doppelstudium),
4 Versicherungsträger (Rentenfragen, Berufsunfähigkeit, Begründung psychotherapeutischer Interventionen, Rehabilitationsmaßnahmen mit beruflichen Einsatzmöglichkeiten usw.),
4 Gesundheitswesen (im Falle klinisch-psychologischer Interventionen, bei psychiatrischen Fragestellungen, z. B. als Zusatzgutachten; bei Fragen der psychologischen
Vorbereitung und Begleitung medizinischer Interventionen, z. B. Operationsvorbereitung, Vorbereitung auf schmerzhafte diagnostische Behandlungen usw.; bei Fragen der psychologischen Nachsorge nach medizinischen Interventionen, z. B. nach
entstellenden Operationen oder dauerhaften Funktionseinschränkungen; bei Entscheidungen über ausgewählte medizinische Eingriffe, z. B. Sterilisation, Geschlechtsumwandlung, Schönheitsoperation),
4 öffentliche Verwaltung (Städteplanung, Medien, Namensänderung),
4 Arbeitsamt (Berufseignung, Berufslaufbahn, Beratung),
4 Verkehrsbehörden (insbesondere Fahreignungsuntersuchungen),
4 Kreiswehrersatzamt (Wehrdiensttauglichkeit; Gewissensüberprüfung bei Kriegsdienstverweigerung),
4 und deren Wechselwirkungen (Subskript I).
deren«)
4 soziale Variablen (S; soziale Intelligenz, Normen, Einflüsse von »bedeutsamen An-
Kapitel 5 · Der diagnostische Prozess
Auswahl von
Informationsquellen
388
(S.410-415)
Nutzenerwägungen
(S.408-409)
Festsetzung von Testtrennwerten
(S.404-408)
Entscheidungsfehler
(S.401-404)
Einstufige vs. mehrstufige
Entscheidungsstrategien
(S.399-401)
Kompensatorische und konjunktive
Entscheidungsstrategien
(S.396-399)
Arten diagnostischer Entscheidungen
Zuordnungs- und
Klassifikationsstrategien
6
Institutionelle
Entscheidung
Entscheidungen setzen
Alternativen voraus
Arten diagnostischer Entscheidungen
1.
2.
3.
4.
5.
6.
Nutzen der Entscheidungen geht zugunsten
Annahme
Behandlungen
Möglichkeit von Ablehnungen
Informationsdimensionen
Entscheidungen
Institution
festgelegt
singulär
ja
univariat
terminal
vs.
vs.
vs.
vs.
vs.
vs.
Individuum
variabel
multipel
nein
multivariat
investigatorisch
. Tabelle 6.1. Arten diagnostischer Entscheidungen. (Nach Cronbach & Gleser, 1965, S. 16)
Es ist bereits mehrfach darauf hingewiesen worden, dass moderne Diagnostik einen
Finalitätscharakter besitzt, d. h. mit einer konkreten Zielvorstellung vorgenommen
wird, die über die Beschreibung eines bestimmten Zustandes hinausgeht. Auf der Basis
der erhobenen diagnostischen Informationen müssen Entscheidungen über anstehende Fragen gefällt werden, etwa der Art, ob ein Bewerber die ausgeschriebene Stelle erhält, welche Schüler zweckmäßigerweise welchen Unterrichtseinheiten zugeordnet
werden, ob bei einem Klienten eine Gesprächs- oder Verhaltenstherapie angemessen
ist usw. In einem allgemeinen Sinn gehören die Arbeitsstelle, Unterrichtseinheiten und
therapeutische Eingriffe in die Kategorie von Interventionen, d. h. Maßnahmen, die
aus den verschiedensten Gründen eingeleitet werden. Sie setzen an diagnostischen
Feststellungen an, mit dem Ziel, Veränderungen auf organisatorischer oder individueller Ebene herbeizuführen. Im angloamerikanischen Raum ist dafür der Terminus
»treatment«, also Behandlung, gebräuchlich. Die intendierten Effekte sind erwartungsgemäß dann besonders positiv, wenn die Passung zwischen Diagnose und Intervention
in optimaler Weise ausfällt. Nachfolgend sollen die Probleme, Fehler und Lösungsmöglichkeiten erörtert werden, die sich bei der Zuordnung von diagnostischen Daten zu
Interventionen ergeben.
Die für jede Zuordnung notwendigen Entscheidungen setzen voraus, dass mindestens 2 Alternativen vorhanden sind (z. B. Annahme oder Ablehnung). Sofern nicht von
einer vollständigen Gültigkeit des diagnostischen Instrumentariums für das anstehende Problem ausgegangen werden kann, sind die Entscheidungen mit Unsicherheit oder
dem Risiko des Irrens behaftet. Klassifiziert werden diagnostische Entscheidungen
nach einem Raster, das auf das nachgerade epochale Buch von Cronbach und Gleser
(1965) zurückgeht (. Tab. 6.1).
Aus der Kombination aller Klassifikationskriterien mit allen anderen resultieren
26 = 64 verschiedene Arten von diagnostischen Entscheidungen. Viele davon haben in
der Praxis jedoch nur eine untergeordnete Bedeutung, so dass in diesem Abschnitt eine
Beschränkung auf die häufiger vorkommenden Konstellationen erfolgen kann.
Eine Entscheidung ist von institutioneller Art, wenn eine Organisation (z. B. ein
Betrieb oder eine Fortbildungsanstalt) nach einem standardisierten Vorgehen alle Personen in der gleichen Weise einem Verfahren unterzieht. So müssen z. B. alle Personen
ein und denselben Test bearbeiten oder an einem Vorstellungsgespräch teilnehmen,
dessen Ergebnisse dann für die »Behandlung« relevant sind. In solchen Fällen wird eine
Entscheidungsregel gesucht, die den Nutzen vieler (gleichartiger) Entscheidungen über
alle Entscheidungssituationen hinweg für die Institution maximiert, die die Eignungsprüfungen organisiert, weil sie ein Interesse daran hat, die bestgeeigneten Personen für
Arbeit, Training oder Unterweisung heranzuziehen.
6.1
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
Diagnose und
Intervention
396
a
C
Score y1
B
A
Zuordnung Zuordnung Zuordnung
zu
zu
zu
Behandlung Behandlung Behandlung
Score y1
Ablehnung
Annahme
b
Ganz anders gelagert sind dagegen die Verhältnisse, wenn ein Individuum auf
einen Diagnostiker oder eine Institution zugeht (z. B. um Rat über die anstehende Berufswahl oder eine Therapieform einzuholen) und dort je nach Biographie, Vorkenntnissen oder Beschwerden ein spezifisches Untersuchungsprogramm mit dem Ziel
zusammengestellt wird, die beste Handlungsalternative für die nachfragende Person
herauszufinden. Hierbei interessiert allein der individuelle Nutzen (der sich über alle
Personen hinweg auch als institutioneller Nutzen, z. B. für den gesamten Gesellschaftsverband, begreifen lässt).
Um festgelegte Annahmequoten handelt es sich dann, wenn z. B. nur eine bestimmte Zahl von Therapie- oder Ausbildungsplätzen zur Verfügung steht, denen die
Interessenten oder Bewerber zugeordnet werden müssen. Übersteigt die Zahl der Personen diejenige der vorhandenen Plätze, kann diese Zuordnung nur dann rational erfolgen, wenn von allen Personen die diagnostischen Daten vorliegen. Die Entscheidungen über einzelne Personen erfolgen dann aber nicht unabhängig voneinander, weil ein
Votum zugunsten bestimmter Personen implizit zu Lasten anderer geschieht und jedenfalls auf einem Vergleich von zumindest einer Ordinalrelation beruht.
Hingegen ist bei nichtfestgelegten oder variablen Annahmequoten wechselseitige
Unabhängigkeit der Entscheidungen über die einzelnen Probanden gegeben. Dies trifft
beispielsweise zu, wenn die Eltern aller Kinder, die im 7. Lebensjahr noch einnässen,
einer psychologischen Exploration unterzogen werden.
Unter Behandlung werden allgemein höchst unterschiedliche Interventionen subsumiert. Es mag sich dabei um eine eng umschriebene Maßnahme handeln (wie z. B.
die Therapie eines Klienten) oder um eine Kombination vieler einzelner »treatments«
(wie z. B. den Einbezug der Familie oder der Arbeitskollegen in den Behandlungsplan).
Hauptsächlich denken Cronbach und Gleser (1965, S. 16) aber, wie Erläuterungen erkennen lassen, an die Unterscheidung zwischen einstufigen und mehrstufigen (sequentiellen) Testungen. Im ersten Fall erfolgt die Zuordnung auf der Basis einer punktuell-einmaligen Diagnose, im letzten als Resultat eines gestuften Vorgehens in mehreren Schritten (mehr dazu 7 unten).
Sind Ablehnungen aufgrund von Testungen möglich, liegt die klassische Struktur
von Selektionsparadigmen vor. Verbleiben hingegen alle Probanden im System und
werden infolge der Diagnoseerstellung nur horizontal oder vertikal zu spezifischen
Interventionen »verschoben«, spricht man von Platzierung (. Abb. 6.1a und b).
Platzierungen federn gleichsam die harschen Schnitte einfacher Selektionen insofern ab, als niemand von einer (positiven) Intervention ausgeschlossen wird.
Für eine Selektion ist nicht notwendig, dass – wie in der . Abb. 6.1 dargestellt – 2
Variablen vorliegen; vielmehr genügt dazu bereits ein Prädiktor. Damit wird zu einem
weiteren Punkt übergeleitet: Die diagnostische Information kann sich auf eine Dimension beschränken (z. B. Allgemeine Intelligenz oder die Abiturnote), also univariat
vorliegen, oder aus mehreren Dimensionen stammen und somit multivariat beschaf-
6.1 · Arten diagnostischer Entscheidungen
Score y2
6
. Abb. 6.1. a Platzierung;
b Selektion (Aus Cronbach &
Gleser, 1965, S. 13)
Univariate vs. multivariate Informationen
Einstufige vs. mehrstufige Testungen
Behandlung
Variable Annahmequoten
Festgelegte
Annahmequoten
Individuelle
Entscheidung
397
6
Zielsetzung und
Strategie
Regelkreismodell
Terminale vs. investigatorische Entscheidung
C
B
A
Test 1
fen sein. Meist werden zur Erhöhung der Validität und damit auch der Entscheidungssicherheit mehrere Prädiktoren herangezogen, weil damit verschiedene Facetten des
Kriteriums abgedeckt werden können. Zudem erlauben nur multivariate Ansätze die
Vornahme einer Klassifikation, d. h. der Zuweisung von Probanden entsprechend einer ermittelten Merkmalskonfiguration, wie sie in . Abb. 6.2 am Beispiel einer Zuordnung zu einem von mindestens 3 Treatments dargestellt ist.
Der Begriff »Klassifikation« steht hier also für eine ganz bestimmte Art von Klassenzuweisung, nämlich einer nach Maßgabe der Merkmalsstruktur. Wie Janke (1982)
deutlich gemacht hat, wird der Term in der Literatur zum Teil auch in anderer Bedeutung gebraucht, so z. B. für die Methoden zur Bildung von Klassen (Typenbildung,
Gruppierung, Clusteranalyse) und solche zur Trennung der Klassen voneinander (z. B.
Diskriminanzanalyse). Zur Differenzierung der verschiedenen Arten von Klassen selbst
sei auf die Darstellung von Kallus und Janke (1992) verwiesen.
Wird auf der Basis der diagnostischen Information ein Proband einer Behandlung
zugeführt, in der er mehr oder weniger lange verbleibt (z. B. einer Sonder- anstelle der
Grundschule, Übertragung einer neuen Verantwortung, Aufnahme in ein Ausbildungsprogramm), handelt es sich um eine terminale Entscheidung. Mit der Zuweisung ist
die diagnostische Aufgabe abgeschlossen. Soll die Maßnahme, der eine Person als Ergebnis diagnostischer Datensammlung zugeordnet wird, hingegen nur vorläufigen,
weil weiter erkundenden Charakter haben (wie z. B. eine Anstellung auf Probe, um die
Bewährung an konkret anfallenden Anforderungen abschätzen zu können; eine spezifische Medikation, um zu sehen, wie der Patient »darauf anspricht« usw.), sprechen wir
von einer investigatorischen Entscheidung. Somit ist das Ergebnis einer investigatorischen Entscheidung eine neue Frage oder ein ganzer Satz von neuen Fragen.
Tack (1976) hat verschiedene Komponenten des diagnostischen Entscheidungsprozesses, darunter die terminalen und investigatorischen Entscheidungen, in einer Art
Regelkreismodell zusammengestellt (. Abb. 6.3), dessen Grundaufbau auf Cronbach
und Gleser (1965, S. 18) zurückgeht.
Neu darin ist die Zielsetzung. Sie spielt eine wesentliche Rolle für die im Verlauf
des diagnostischen Prozesses überhaupt in Betracht kommenden Einzelentscheidungen. So sind etwa die potentiellen Behandlungen bei Eheleuten, die wegen Partnerschaftsschwierigkeiten um Rat fragen, grundsätzlich andere als diejenigen bei depressiven Klienten oder verhaltensauffälligen Kindern. Die Einweisung in eine von mehreren freien Stellen folgt völlig anderen Prinzipien als die Beratung über mögliche
berufliche Optionen. Insofern wirkt die jeweilige Zielsetzung auch auf eine Strategie,
die im Zentrum des Modells steht. Strategien sind Regeln, um zu Entscheidungen zu
Test 2
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
. Abb. 6.2. Klassifikation,
d. h. Zuweisung zu einer von
3 verschiedenen Maßnahmen auf der Basis von 2 Prädiktoren. (Nach Cronbach &
Gleser, 1965, S. 12)
398
Frage C
Frage B
Frage A
terminale
Entscheidung
Ergebnis
investigatorische
Entscheidung
Strategie
Zielsetzung
Behandlung C
Behandlung B
Behandlung A
Kompensatorische und konjunktive
Entscheidungsstrategien
Die lineare Kombination von Prädiktionswerten zu einem Rechenmaß, das eine maximale (multiple) Korrelation mit dem jeweiligen Kriterium gewährleistet, impliziert ein
sog. kompensatorisches Modell. Das heißt, ein und derselbe (globale) Prädiktionswert
kann durch ganz verschiedene Merkmalskonfigurationen in den Einzeltests erreicht
werden, oder mit anderen Worten: Niedrige Leistungen in einigen Prädiktoren können
durch hohe in anderen wettgemacht werden. Eine solche Kompensation gelingt dann
besonders leicht, wenn hohe Scores in jenen Tests erzielt werden, die innerhalb der
Batterie hohe β-Gewichte aufweisen.
Kompensatorische Modelle liegen der diagnostischen Praxis sehr häufig zugrunde.
Etwa kann das Ziel der Versetzung in die nächste Schulklasse auch bei starken Defiziten
in bestimmten Fächern erreicht werden, wenn diese durch besonders gute Leistungen
in anderen ausgeglichen werden (eine Fünf in einem Nebenfach ist durch eine Zwei in
einem anderen kompensierbar, hingegen bedarf es bei einer Fünf in einem Hauptfach
guter Noten in mehreren anderen Fächern usw.). Ein ordentlicher Verkäufer mag eine
Qualifikation erreichen, indem er mit bestechender Sachkenntnis seine holprigen Umgangsformen überspielt usw.
6.2
gelangen, oder, wie es Tack (1976, S. 105) formuliert: »Darunter verstehen wir ein
(normatives) System von Regeln, die angewandt auf vorliegende Informationen unter Berücksichtigung der jeweiligen Zielsetzung zu einer bestimmten Entscheidung
führen.«
Die wichtigsten Grundmuster derartiger Strategien sollen nachfolgend vorgestellt
werden.
•••
Informationen
über eine
Person
Problemstellung
6.2 · Kompensatorische und konjunktive Entscheidungsstrategien
•••
6
Prädiktionswerte
durch unterschiedliche Merkmalskonfigurationen
. Abb. 6.3. Schematische
Darstellung des diagnostischen Entscheidungsprozesses. (Aus Tack, 1976, S. 105)
399
6
. Abb. 6.4a,b. Entscheidungsstrategien: a kompensatorische, b konjunktive.
(Aus Wieczerkowski &
Oeveste, 1982, S. 931)
Trennwerte
»Und-Konzept«
Abweisung
-3 -2 -1
0
1
2
3 (Z1)
a Kompensatorisches Modell
-3
-2
0
1
2
2
2
Zulassung
Abweisung
3
-3 -2 -1
1
b Konjunktives Modell
-3
-2
0
-1
0
1
-1
2
Zŷ = -1
1
(Z 2) 3
Zulassung
2
(Z 2) 3
3 (Z1)
Nur ein kleiner Schritt ist es von der kombinatorisch-kompensatorischen Strategie
zu einem »Oder-Konzept«. Dort ist es nicht notwendig, die Summe aus Teilkompetenzen zu bilden, sondern es genügen entsprechend hohe Punktwerte in einem der Prädiktoren. Eine solche Auswahlstrategie liegt dann nahe, wenn die durch das Kriterium
geforderte Leistung entweder auf die eine oder andere Weise erbracht werden kann,
dass also für beide Prädiktoren Mindestanforderungen gestellt werden, aber ein Bewerber nur die Mindestanforderung in einem Prädiktor erfüllen muss, um zugelassen zu
werden. Gute Leistungen in der Schule können beispielsweise durch Fleiß oder Begabung erreicht werden. Ein guter Lehrer mag sich für seinen Beruf durch große Fähigkeit
in Mathematik oder in Geschichte empfehlen usw.
Kompensatorische Strategien sind immer dort dysfunktional, wo in jedem Teilbereich bestimmte Mindestleistungen unabdingbar vorliegen müssen, um eine Tätigkeit
erfolgreich ausführen zu können. Beispielsweise kann ein Chirurg nicht mangelnde
feinmotorische Kompetenz durch Intelligenz kompensieren, ein Pilot nicht fehlende
Sehtüchtigkeit durch gute räumliche Orientierung, ein Systemüberwacher nicht Ausfälle der Daueraufmerksamkeit durch kognitive Flexibilität usw. Hier besteht also die
Forderung nach Leistungen in dem einen und dem anderen Bereich, weshalb diese
Modelle auch konjunktive bzw. »Und-Strategien« heißen. Ein kompensatorisches und
ein konjunktives Modell sind in . Abb. 6.4a und b für den Fall graphisch veranschaulicht, dass der für die Zulassung kritische Testtrennwert mit zŷ = –1 festgelegt worden
wäre. Nach der kompensatorischen Strategie (. Abb. 6.4a) fallen alle Probanden in die
Kategorie »Zulassung«, bei denen die Kombination aus z1 und z2 mindestens den Wert
zŷ = –1 ergibt (also z1 = +2, z2 = –3; z1 = +1, z2 = –2 usw.). Da ein z-Wert von –1 einem
Prozentrang von 16 entspricht, gehören 84% aller Probanden in die Kategorie »Zulassung«, deren Grenze durch die schräge Gerade in . Abb. 6.4a markiert wird.
Dem konjunktiven Modell (. Abb. 6.4b) zufolge ist der kritische Trennwert in jeder
der beiden Variablen bei z = –1 angesetzt worden. Daraus resultiert ein insgesamt konservativeres Vorgehen, d. h. die Anforderungen sind höher, um in die Kategorie der
Zugelassenen zu gelangen. Dementsprechend fallen nunmehr die mit 1 und 2 bezeichneten Segmente – im Gegensatz zur kompensatorischen Strategie – unter die Abgelehnten. Gleichwohl gäbe es auch einige Probanden, die unter den gegebenen Randbedingungen unter der konjunktiven, aber nicht unter der kompensatorischen Strategie zugelassen werden. Sie sind mit 3 gekennzeichnet.
Sofern die Aufnahmequoten fest vorgegeben sind, führen die kombinatorische
(kompensatorische bzw. Oder-Strategie) sowie die konjunktive Und-Strategie zu unterschiedlichen Trennwerten, wie aus . Abb. 6.5 hervorgeht.
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
»Oder-Konzept«
400
1T2
Oder-Strategie
x
X1
Einstufige vs. mehrstufige Entscheidungsstrategien
1
x1T
Kombinatorische (kompensatorische)
Strategie
Und - Strategie
Persönliche Entscheidungen erfolgen meist als Elemente einer langen Endloskette.
So trifft ein Abiturient vielleicht die Entscheidung zugunsten eines bestimmten Studiums. Nach dem ersten Semester stellt er fest, dass ihn die Materie weit weniger
interessiert, als er zuvor angenommen hat und wechselt deshalb zu einem anderen
Fach. Dort fühlt er sich überfordert und wendet sich wieder seiner ursprünglichen
Wahl zu, diesmal jedoch mit anderen Schwerpunkten. Nach dem Examen geht er in
die freie Wirtschaft, gründet später selbst eine Firma, die aber nach einigen Jahren
wegen starker Konkurrenz eingeht, was eine erneute Umorientierung nötig macht
usw.
Ähnliches gilt für institutionelle Entscheidungen: Zu Vorprüfungen in einigen
Studiengängen wird nur zugelassen, wer die notwendigen Leistungsnachweise in einzelnen Lehrveranstaltungen erbracht hat (. Abb. 6.6). Wiederholtes Nichtbestehen der
Zwischenprüfungen führt zum Ausschluss aus dem System (d. h. dem Studiengang).
Aber auch nach dem Ablegen der Zwischenprüfungen muss in weiteren Lehrveranstaltungen und Prüfungen unter Beweis gestellt werden, dass man vom Angebot des Treatments »Lehre« in hinreichender Weise profitiert hat. Das heißt, die Institution Universität sammelt im Sinne investigatorischen Vorgehens fortwährend diagnostische Informationen über den Leistungs- (und Motivations-)stand jedes Studierenden. Ganz
ähnlich geht es in Behörden, Betrieben und auch im Bereich des sportlichen Wettkampfes zu. Setzt man Tests an die Stelle der Tätigkeiten, so wird klar, dass definitiv »terminale« Entscheidungen selten oder auf jene Fälle beschränkt sind, in denen eine institutionelle Entscheidungsinstanz eine Person aus ihrem System entlässt und damit keine
weiteren Informationen mehr über sie erhebt. Umgekehrt ist sequentielles Vorgehen in
der Lebenswirklichkeit offenkundig die Regel.
6.3
1
x2T
2
x2T
X2
6.3 · Einstufige vs. mehrstufige Entscheidungsstrategien
6
»Terminale« Entscheidungen sind selten
Institutionelle
Entscheidungen
Persönliche
Entscheidungen
. Abb. 6.5. Festlegung der
Trennwerte (T1 und T2) in
2 Prädiktoren (X1 und X2) bei
festen Selektionsraten und
unterschiedlichen Auswahlstrategien
401
6
. Abb. 6.7a-e. Zwei nichtsequentielle (a und b) und
3 sequentielle (c–e) Auswahlstrategien. (Aus Cronbach & Gleser, 1965, S. 73)
Sequentielles
Vorgehen
Einstufiges Vorgehen
IV
c Vorauswahl
I
III
I
II
III
II
I
IV
III
II
e Vollständige sequentielle Strategie
b Einzelteststrategie
d Vorentscheidung
I
a Nichtsequentielle Batterie
IV
III
Innerhalb des sequentiellen Vorgehens sind die folgenden 3 Grundmuster möglich:
4 Vorauswahl-(Pre-reject-)Strategie (. Abb. 6.7c): Nach einem ersten Test werden
alle Probanden, die einen bestimmten Score nicht erreichen, von weiteren Untersu-
In der diagnostischen Praxis kommt aus Zeit- und Kostengründen das einstufige
Vorgehen recht häufig vor. Hier unterscheidet man die
4 »nichtsequentielle Batterie« (. Abb. 6.7a): Die gesamte Batterie wird an alle Probanden vorgegeben, und es werden diejenigen ausgewählt (III), die in dem optimal
gewichteten Summenwert die höchsten Scores erzielen, und den
4 »single screen« (. Abb. 6.7b): Auf einem Test allein (Annahmebereich = II) fußen
alle weiteren Entscheidungen.
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
. Abb. 6.6. Zu universitären Zwischen- und Abschlussprüfungen werden
oft nur diejenigen Studierenden zugelassen, die
bestimmte Leistungsnachweise erbracht haben
402
Das Auswahlverfahren der »Studienstiftung des Deutschen Volkes« ähnelt sehr stark
der Vorauswahlstrategie: Nur mit jenen Kandidaten wird sich eingehender befasst, die
aufgrund ihrer schulischen oder akademischen Leistungen aus dem Gros der Mitschüler bzw. Kommilitonen herausragen und deshalb als Kandidaten der Stiftung gegenüber
nominiert werden. Unter ihnen wird mit Hilfe eines Verfahrens, das seinerseits sequentiell strukturiert ist (Gruppentestung, später Interviews mit den Testbesten), nach den
vermutlich geeignetsten Personen gesucht (. Abb. 6.8).
Hingegen wies die Zulassung zum Medizinstudium bis 1996/97 einige Elemente der
Vorentscheidungsstrategie auf: Hier wurde ein bestimmtes Kontingent der Plätze für
die nach Schulnoten Besten reserviert, des Weiteren ein Kontingent für die Besten
unter denjenigen, die sich dem mehrstündigen TMS (7 Abschn. 1.6) unterzogen hatten.
Für die restlichen Bewerber galt ein Zulassungsschlüssel, in den die Schulnoten und
Testergebnisse mit unterschiedlichen Gewichtszahlen eingingen.
Die relative Überlegenheit von sequentiellen zu nichtsequentiellen Strategien ist bei
institutionellen Entscheidungen an Nutzenüberlegungen (7 dazu Abschn. 6.6) gekoppelt, d. h. die Gewinne, die eine Organisation daraus erwirtschaftet, dass auf der Basis
von diagnostischen Untersuchungen die Bestgeeigneten identifiziert werden, im Vergleich zu den Kosten, die eben diese Testungen verursachen (. Abb. 6.7a–e). Dabei
spielen, wie noch zu zeigen sein wird, vor allem die Validität und der Prozentanteil
auszuwählender Bewerber eine wichtige Rolle. Ungeachtet der dadurch notwendigen
Differenzierungen sind sequentielle Strategien den einstufigen Vorgehensweisen generell überlegen, doch verschwindet diese Überlegenheit bei extremen Selektionsraten
(Cronbach & Gleser, 1965, S. 77 ff.).
chungen ausgeschlossen und zurückgewiesen (I). Die verbleibenden Probanden
absolvieren weitere Verfahren. Die Entscheidung über Annahme (III) vs. Ablehnung (IV) wird aus der Kombination zwischen Erst- und Folgetests getroffen.
4 Vorentscheidungs-(Pre-accept-)Strategie (. Abb. 6.7d): Nach einem ersten Teil
werden alle Probanden, die einen bestimmten Trennwert überschreiten, bereits
(terminal) akzeptiert (II). Mit den verbleibenden Probanden wird analog zur Vorauswahlstrategie verfahren.
4 Vollständige sequentielle Strategie (. Abb. 6.7e): Kombination der beiden vorgenannten Vorgehensweisen. Nach Maßgabe der Punktwerte in einem Test erfolgt
eine Aufteilung aller Probanden in 3 Gruppen, eine, die (terminal) akzeptiert (II),
eine andere, die definitiv abgewiesen (I) und eine dritte, die mit einem Folgetest
untersucht wird.
6.3 · Einstufige vs. mehrstufige Entscheidungsstrategien
6
. Abb. 6.8. Beispiel für
eine Pre-reject-Strategie: Zur
praktischen Fahrprüfung
werden nur diejenigen Bewerber zugelassen, die bereits die theoretische Prüfung bestanden haben
Überlegenheit der sequentiellen Strategien
Beispiel für Pre-accept
Beispiel für Pre-reject
403
6
Entscheidungsfehler
Risiko: 1 – α
^ )
p(KA–
Risiko: α
^ )
p(KA+
^
^
^
p(K A− ∩ K A − )
TN
Ⳏ
p(K A − )
FN + TN :
Prädiktiver Wert einer negativen Zuordnung (Anteil der richtig diagnostizierten Gesunden in der
Gruppe der als gesund diagnostizierten Personen)
Prädiktiver Wert einer positiven Zuordnung (Anteil der richtig diagnostizierten Kranken an allen
als krank diagnostizierten Personen)
^
^
p(K A+ ∩ K A+ )
TP
Ⳏ
p(K A+ )
TP + FP :
^
^
Spezifität der Zuordnungsregel (Anteil der richtig diagnostizierten Gesunden in der Gruppe der
Gesunden)
1
p(KA–)
p(K A− ∩ K A− )
TN
Ⳏ
p(K A− )
FP + TN :
^
p( TN) = p(K A − ∩ K A− )
p(FP ) = p(K A + ∩ K A− )
^
Richtige Zuordnung
(–; –)
TN (wahre Negative)
richtig als gesund identifizierte Gesunde
Risiko: β
falsche Zuordnung Typ 1
(+; –)
FP (falsche Positive)
fälschlich als krank bezeichnete Gesunde
Risiko: 1 – β
p(KA+)
Sensitivität der Zuordnungsregel (Anteil der richtig diagnostizierten Kranken in der Gruppe der
Kranken)
KA(gesund)
^
p(FN) = p(K A− ∩ K A+ )
p( TP) = p(K A + ∩ K A+ )
^
falsche Zuordnung Typ 2
(–; +)
FN (falsche Negative)
fälschlich als gesund bezeichnete Kranke
richtige Zuordnung
(+; +)
TP (wahre Positive)
richtig als krank identifizierte Kranke
Grundrate KÂ–
(Diagnose »gesund«)
p(K A+ ∩ K A+ )
TP
Ⳏ
p(K A+ )
TP + FN :
Tatsächliche
Zugehörigkeit
KA+
(krank)
Grundrate KÂ+
(Diagnose »krank«)
Zuordnung aufgrund des Prädiktors
. Tabelle 6.2. Arten richtiger und falscher Klassenzuordnung, zusammen mit den Zuordnungsregeln und Risiken für Fehlentscheidungen bei der statistischen Hypothesentestung. (Überarbeitet nach Kallus & Janke, 1992, S. 175 und 178)
Die zentrale Aufgabe von Zuordnungsstrategien besteht darin, Fehler bei der Klassenzuordnung zu vermeiden. Derartige Fehler liegen immer dann vor, wenn die Zuordnung aufgrund der Prädiktorvariablen nicht mit der tatsächlichen Klassenzugehörigkeit übereinstimmt. Für den Fall von 2 Klassen sind in . Tab. 6.2 die 4 möglichen
Kombinationen von Übereinstimmung/ Nichtübereinstimmung der Vorhersagen des
6.4
Sequentielle Entscheidungen lassen sich stets auf eine Folge einstufiger Klassenzuordnungen reduzieren. Deshalb genügt es, nachfolgend einige grundlegende Probleme
nur für einstufige Strategien zu besprechen.
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
Fehler bei der Klassenzuordnung vermeiden
404
Sensitivität und Spezifität lassen sich unabhängig von den Grundraten oder der Prävalenz bestimmen; hingegen unterliegen die Prädiktions- oder Vorhersagewerte sehr
stark deren Einfluss. Das wird sogleich deutlich, wenn man sich den Grundlagen der
Selektion und dort insbesondere den Bemühungen von Taylor und Russell (1939) um
eine Verbesserung der Effizienz von Auswahlentscheidungen zuwendet. Beide Autoren
haben erstmals gezeigt (und dafür ausführliche Tabellenwerke erstellt), dass es auch bei
Tests mit einer nur mäßigen Validität möglich ist, hochgradig effizient auszuwählen,
d. h. weitgehend nur diejenigen Bewerber, die später auch erfolgreich sein werden.
Voraussetzungen dafür sind allerdings hohe Grundraten der ohne Testung Erfolgreichen und eine niedrige Selektionsrate. Die Prinzipien sind schematisch in . Abb. 6.9
veranschaulicht. (Test und Kriterium sind hier – dem Regelfall entsprechend – positiv
gepolt, d. h. höhere Werte stehen jeweils für höhere Leistungen im Test und höheren
»Erfolg« im Kriterium. Um die Gegebenheiten aus . Tab. 6.2, wo es um die Identifikation von Krankheiten ging, darauf zu übertragen, müssten höhere Werte in T und K mit
größerer Wahrscheinlichkeit von »Krankheit« gleichgesetzt werden, was durchaus Sinn
macht, wenn man etwa Skalen für Krankheitsdisponiertheit einsetzt; die Erfüllung des
Kriteriums »Krankheit« wäre in diesem Sinne der Vorhersage gemäß ein »Erfolg«,
obwohl Krankheit als solche üblicherweise damit nicht gleichgesetzt wird.)
Das Verhältnis der im Kriterium erfolgreichen Probanden zur Gesamtzahl aller
Meßwertträger, also der Quotient (TP+FN)/N definiert die Basisrate; dafür ist auch die
Bezeichnung »natürlicher Eignungsquotient« geläufig (»Success without use of test«).
Die Effizienz der Auslese bemisst sich nach dem Anteil der Geeigneten an allen Ausgewählten, also gemäss TP/(TP+FP). Dieser Term heißt »selektiver Eignungsquotient«,
und er ist, wie ein vergleichender Blick auf Tab. 6.2 lehrt, identisch mit dem dort aufgeführten »positiven Prädiktionswert«. Verändert man den Testtrennwert, der über
Annahme oder Ablehnung entscheidet, von x1 zu x′1, so stellt sich ein positiver Prädik-
Im Anschluss an . Tab. 6.2 sind die Gütekriterien aufgeführt, die zur Beschreibung
einer Entscheidungsstrategie errechnet werden können (nach Noack & Petermann,
1992, S. 299):
4 Sensitivität: die Wahrscheinlichkeit, mit der ein vorliegender positiver Zustand als
solcher erkannt wird.
4 Spezifität: die Wahrscheinlichkeit, mit der ein vorliegender negativer Zustand als
solcher erkannt wird.
4 Positiver Prädiktionswert: die Wahrscheinlichkeit, mit der eine positive Diagnose
zutreffend ist.
4 Negativer Prädiktionswert: die Wahrscheinlichkeit, mit der eine negative Diagnose zutreffend ist.
Prädiktors mit der »wahren« Kategorienzugehörigkeit zusammengestellt, und zwar der
besseren Anschaulichkeit halber mit den aus der klinischen Diagnostik dafür gebräuchlichen Begriffen.
KA+ bzw. KA– bezeichnen die Kategorien der klinisch Kranken und Gesunden. KÂ+
und KÂ– stehen für die aufgrund der Prädiktoren geschätzte Klassenzugehörigkeit.
Demnach sind 2 Arten von Zuordnungsfehlern zu unterscheiden:
4 Fehler erster Art: FP = falsche Positive, d. h. Personen werden als krank bezeichnet,
obwohl sie gesund sind.
4 Fehler zweiter Art: FN = falsche Negative, d. h. Personen werden als gesund diagnostiziert, obwohl sie der Krankengruppe angehören.
6.4 · Entscheidungsfehler
Selektiver
Eignungsquotient
Effizienz der
Entscheidungen
Taylor-Russell-Tafeln
Gütekriterien
einer Entscheidungsstrategie
Fehler 1. und 2. Art
405
6
6
Entscheidungsregeln
Bedingte Fehlerzuordnungswahrscheinlichkeiten
Bedeutung der Fehlerarten unterschiedlich
TN
FN
x1
FP
TP
x1' x1''
T
tionswert von 1,0 ein (d. h. alle durch den Test Ausgewählten sind auch tatsächlich erfolgreich). Dieser ist allerdings auch abhängig von der Grundrate, denn wenn diese
anstelle von y1 durch den Kriteriumstrennwert y′1 definiert wäre, würde ein Trennwert
x′1 noch einen kleinen Teil von FP mit auswählen (in der Abbildung andersfarbig schraffiert gekennzeichnet). Deshalb bedürfte es eines noch weiter hinausgeschobenen Testtrennwertes x″1, um auch bei der niedrigeren Rate natürlicher Eignung einen höchstmöglichen positiven Prädiktionswert zu gewährleisten. Es fällt also leichter, bei einer
hohen Grundrate geeigneter Probanden effektiv im Sinne dieser Konzeption zu arbeiten, oder mit anderen Worten: Die Güte des Zuordnungsverfahrens hängt stark von der
Grundrate ab.
Was diese Güte angeht, so wird sie allgemein in dem Sinne definiert, dass eine Regel
»zulässig« ist, wenn es keine andere gibt, die besser ist. »Besser« bedeutet mindestens
so gute Trefferraten in jeder der Klassen und Überlegenheit in mindestens einer weiteren. Dabei können Nutzenerwägungen eine Rolle spielen, die Abhebung von Zufallstreffern oder eine besondere Gewichtung spezifischer Kategorien. So kann beispielsweise die Zuordnung zur Kategorie KÂ+ in . Tab. 6.2 als eine Entscheidung mit der
größeren Bedeutung (»Alternativhypothese«) angesehen werden, weil nur dies die Einleitung einer Behandlung sicherstellt. Deshalb kommt es darauf an, die Wahrscheinlichkeit einer fälschlichen Nicht-Zuordnung zu dieser Klasse (also die Annahme der
Nullhypothese bei gültiger Alternativhypothese) zu minimieren (= Fehler zweiter Art,
FN, β-Fehler).
Damit sind die Prinzipien der statistischen Hypothesenprüfung angesprochen. Um
diese anwenden zu können, müssen die bedingten Fehlerzuordnungswahrscheinlichkeiten herangezogen werden. Das heißt, die in den Feldern von . Tab. 6.2 eingetragenen absoluten Wahrscheinlichkeiten müssen auf die jeweiligen Grundraten relativiert
werden (woraus sich die Formeln im unteren Teil der Tabelle ergeben).
Um die Fehler bei Zuordnungsverfahren gering zu halten, bieten sich mehrere Arten von Entscheidungsregeln an (nach Kallus & Janke, 1992, S. 179):
y1
y1'
K
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
. Abb. 6.9. Anteile von:
Richtig klassifiziert Positiven
(TP), falsch klassifiziert Positiven (FP), falsch klassifiziert
Negativen (FN) und richtig
klassifiziert Negativen (TN).
Im Fall von FP lautet die
Diagnose aufgrund des Tests
»erfolgreich«, obwohl die
Probanden im Kriterium
nicht erfolgreich sind, im Fall
von FN »nicht erfolgreich«,
obwohl Erfolg tatsächlich
vorliegt
406
p(x i /K A + )
>c
p(x i /K A − )
(6.1)
Wird c = 1 gesetzt, ergibt sich die Zuordnung nach dem Prinzip der maximalen
Gruppenzugehörigkeitswahrscheinlichkeit. Durch Einsetzen anderer Werte für c
lässt sich die Sensitivität zu Lasten der Spezifität und vice versa beeinflussen. Desgleichen können Multiplikatoren von c herangezogen werden, um Kosten-NutzenÜberlegungen mit einzubinden.
Bei einer Berücksichtigung der Grundraten muss der Likelihood-Quotient anhand
der empirischen Wahrscheinlichkeiten errechnet werden.
4 Regressionstechniken: Durch Einsetzen der individuellen Prädiktionswerte in die
für das anstehende Problem ermittelte Regressionsgleichung werden individuelle
Kriteriumswerte ermittelt. Die Zuordnung zu den Kategorien erfolgt durch Differenzbildung mit kritischen Kriteriumswerten.
xi = Vektor aller Prädiktoren eines Individuums i.
L(x i ) =
Je nach diagnostischer Fragestellung ist einer der vorgenannten Regeln der Vorzug zu
geben.
Die Analyse von Zuordnungsfehlern setzt voraus, dass zuvor eine Zuordnung bereits
stattgefunden hat. Diese kann sich verschiedener Methoden bedienen:
4 Zugehörigkeitswahrscheinlichkeiten: Auf der Basis von Wahrscheinlichkeitstafeln, wie sie Taylor und Russell (1939) erarbeitet haben, erfolgt die Zuordnung zu
derjenigen Klasse, der das Individuum nach Maßgabe der Ausprägung im Prädiktor
mit der größten Wahrscheinlichkeit angehört. Dafür wird der Likelihood-Quotient
herangezogen:
Likelihood-Quotient
Zuordnungsmethoden
Minimum-Loss
Minimax
6
ROC-Kurve:
Unabhängige Bestimmung von Spezifität
und Sensitivität
Cattellsche Formel
Euklidische Distanz
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
2 ⋅ χ 0,5( k )2σ 2 − D2
2 ⋅ χ 0,5( k )2σ 2 + D2
(6.3)
Festsetzung von Testtrennwerten
Je nachdem, zu welchem der Gruppenvergleichsprofile die größere Ähnlichkeit bzw.
geringere Distanz besteht, geschieht die Zuordnung des Einzelfalles.
Allerdings setzt die Berechnung der Distanz D die Unabhängigkeit der Prädiktoren
voraus, die nur in den wenigsten Fällen vorliegen dürfte. Die Mahalanobis-Distanz
als Verallgemeinerung der Euklidischen Distanz verlangt diese Voraussetzung nicht
(zu den Details und Einschränkungen s. Kallus & Janke, 1992).
k = Anzahl der Freiheitsgrade,
σ = Standardabweichung der Profilnormen.
ri =
Desgleichen ist die von Lienert (1989) adaptierte Cattellsche Formel gebräuchlich:
Aus der Beschäftigung mit den positiven Prädiktions- oder Vorhersagewerten bzw.
dem selektiven Eignungsquotienten im vorangegangenen Abschnitt ist bekannt, dass
sich diese Größen durch Verschiebung des Trennwertes vergleichsweise einfach verändern lassen: Je weiter der kritische Cut-off in Richtung auf das zu identifizierende
Merkmal (z. B. Krankheit oder Eignung) hin angehoben wird, um so höher fallen die
besagten Quotienten aus. Allerdings wird damit nur der Fehler einer falsch positiven
Entscheidung (FP, . Abb. 6.9) ins Kalkül gezogen, nicht aber derjenige der falsch negativen. Zudem sind für die Festlegung des Testtrennwertes die Grundrate bzw. der natürliche Eignungsquotient von Bedeutung. Mit Hilfe der sog. ROC-Kurve (von Receiver-Operating Characteristic aus der Signal-Entdeckungs-Theorie; s. Schäfer, 1989)
lassen sich simultan Spezifität und Sensitivität unabhängig von den Basisraten für verschiedene Testtrennwerte bestimmen, sofern aufgrund empirischer Untersuchungen
die Verteilungskennwerte der unterschiedlichen Gruppen ermittelt werden konnten. In
6.5
(6.2)
dj = Profildifferenz von 2 Probanden (oder Gruppen von Merkmalsträgern) in
einem Test.
D = ∑d j 2
gleichbar, nur noch einfacher. Denn durch Einsetzen der individuellen Testwerte in
die Diskriminanzfunktion resultiert ein Wert, der entweder größer, gleich oder
kleiner ist als der kritische Diskriminationswert, der die Klassen voneinander trennt.
Entsprechend kann anhand des individuellen Diskriminationswertes unmittelbar
die Zuordnung zu einer der Gruppen vorgenommen werden.
4 Ähnlichkeits- bzw. Distanzmaße: Häufig wird ein individuelles Testwerteprofil mit
dem durchschnittlichen Profil verschiedener Gruppen von Personen (z. B. Schülern
des sprachlichen oder mathematischen Zweiges; Angehörigen verschiedener Berufe; erfolgreichen und nichterfolgreichen Stelleninhabern usw.) verglichen. Dafür
stehen verschiedene Maße zur Verfügung, z. B. das Ähnlichkeitsmaß (Euklidische
Distanz) von Osgood und Suci (1952):
Verschiebung des Entscheidungskriteriums
408
4 Diskriminanzanalyse: Das Verfahren ist demjenigen der multiplen Regression ver-
6
entscheidungen in die Klassenzuordnungsunterscheidung mit einzubeziehen. Sein
Prinzip besteht darin, das Modell der statistischen Hypothesenprüfung auf die
Klassenzuordnungsentscheidung anzuwenden. In Analogie zur Festlegung des kritischen Wertes der Teststatistik bei der Hypothesenprüfung wird das Entscheidungskriterium so verschoben, dass das Risiko für den Fehler erster Art unterhalb
eines frei bestimmbaren Wertes liegt (z. B. α < 0,05 oder 0,01 usw.). Allerdings
wächst mit der Reduzierung des Fehlers erster Art derjenige zweiter Art, und zwar
in einem unbekannten Ausmaß. Deshalb ist ein solches Modell nur in Situationen
sinnvoll, in denen Fehlentscheidungen zweiter Art vergleichsweise unbedeutend
sind. In der klinischen Diagnostik dürften solche Fehler aber gravierendere Ausmaße aufweisen als diejenigen erster Art (weil die Vorenthaltung einer Behandlung
im Zweifelsfall die Gefahr größerer Fehlentwicklungen beinhaltet als die Vornahme einer überflüssigen Behandlung und die damit möglicherweise einhergehende
Stigmatisierung).
4 Nach dem Minimax-Kriterium wird der maximale Zuordnungsfehler (betrachtet
in allen Klassen) möglichst klein gehalten. Der Betrag des größten Zuordnungsfehlers aller Klassen/Kategorien/Gruppen ist am geringsten.
4 Das Minimum-Loss-Kriterium minimiert die Zuordnungsfehler über alle Klassen
hinweg. Dies kann im Vergleich zum Minimax-Kriterium bedeuten, dass eine Konstellation gewählt wird, bei der ein Zuordnungsfehler einer Kategorie/Klasse/Gruppe im Vergleich zu allen anderen relativ hoch ist.
407
4 Das Neyman-Pearson-Kriterium erlaubt es, unterschiedliche Risiken von Fehl-
6.4 · Entscheidungsfehler
x2
x3
Testwert z. B. IQ
mögliche Cut-off-Werte
x1
Verteilung der
positiven bzw.
geeigneten
Personen
1,0
0,0
b
x3
x2
x1
ROC- Kurve
409
Die engen Beziehungen zur Fairness-Problematik liegen auf der Hand (7 Abschn. 2.3.2.2).
»Die Festsetzung kritischer Trennwerte stellt somit ein Problem dar, für das es eine eindeutige Lösung nicht gibt, weil sie zugleich ein Werturteil erfordert, das nicht allein
wissenschaftlich begründbar ist, sondern stets auch auf persönlichen, sozialen und
ökonomischen Werten sowie auf praktischen Erwägungen beruht« (Wieczerkowski &
Oeveste, 1982, S. 929f.).
. Abb. 6.10a und b ist dafür ein Beispiel gegeben. Auf der Abszisse ist nicht die Spezifität, sondern die Rate Falsch-Positiver (=1-Spezifität) abgetragen.
Wie ersichtlich, geht mit der Heraufsetzung des Testtrennwertes von X1 über X2 nach
X3 ein Rückgang der Fehlerrate vom Typ 1, FP (d. h. eine Zunahme an Spezifität) sowie
eine Zunahme der Fehler vom Typ 2, FN (d. h. eine Abnahme der Sensitivität) einher.
Damit sind die betreffenden Kennwerte zwar »unter einen Hut gebracht«, doch
bedarf es auch in solchen Fällen einer zusätzlichen Bewertung der einzelnen Ausgänge
und Fehlermöglichkeiten, die völlig unabhängig von methodischen Zugängen ist.
Wieczerkowski und Oeveste (1982, S. 929) zitieren ein Beispiel aus der Literatur zum
Zusammenhang zwischen einem Prädiktor und dem Erfolg im Studium. Zwingen etwa
die Kosten für die Ausbildung und knappe öffentliche Gelder dazu, das Risiko des
Scheiterns möglichst niedrig zu halten, würden nur Bewerber zugelassen, bei denen die
Wahrscheinlichkeit für Erfolg bei – sagen wir – 75% liegt; das hätte einen Trennwert
von 112 zur Folge. Sprächen aber gesellschaftliche Werte und pädagogisch relevante
Gründe dafür, den Schülern eine möglichst große Wahlfreiheit einzuräumen, könnte
man sich auch mit einer nur ca. 25%igen Erfolgsaussicht zufrieden geben, was einem
Trennwert von 82 entspräche. Im ersten Entscheidungsfall würde die Zahl fälschlich
zugelassener Schüler verringert, aber der Anteil fälschlich abgewiesener erhöht, im
zweiten der Anteil fälschlich abgewiesener vermindert und die größere Rate fälschlich
zugelassener in Kauf genommen.
1,0
6
Kritische Trennwerte
beinhalten Werturteile
Zusätzliche Bewertung der möglichen
Ausgänge
Komplementäre Veränderung der Fehler
Fehlerrate = 1 - Spezifität
. Abb. 6.10a,b. Verteilungen von 2 Gruppen unterschiedlicher Eignung (a) für die eingetragenen
Optionen möglicher Trennwerte (b) und ROC-Kurve (Aus Noack & Petermann, 1992, S. 300)
a
Verteilung der
negativen bzw.
ungeeigneten
Personen
6.5 · Festsetzung von Testtrennwerten
Sensitivität
6
Strategiematrix
Nutzenfunktionen
Nutzenerwägungen
1
> xiTe
0
0
≤ xiTe
1
≤ 2,5
1
0
0
0
0
0
1
0
.05
.90
.00
.80
.95
.05
.20
.10
–
probabilistisch
+
!d
+b
–c
alternativ
Entscheidungen t
> 2,5
Informationsklassen r
Anmerkung.
a Hohe Schulnoten stehen hier für gute Leistungen.
b + = Akzeptieren (terminal).
c - = Ablehnen (terminal)
d ! = weitere Informationen einholen (investigatorisch).
e x = Testtrennwert.
iT
Intelligenzquotient
Schulnoten
a
Informationsquelle
.00
.05
.80
.10
!
. Tabelle 6.3. Strategiematrix für zwei unterschiedliche Informationsquellen und dichotome
bzw. kontinuierlich abgestufte Entscheidungswahrscheinlichkeiten
Institutionelle und individuelle Entscheidungen werden getroffen, weil sich die jeweiligen Organisationen bzw. Personen im Fall richtiger Entscheidungen etwas davon
versprechen, nicht zuletzt positive ökonomische Auswirkungen, also Gewinne, während bei falschen Entscheidungen die Gefahr von Verlusten droht. So mögen sich für
ein Unternehmen die erheblichen Investitionen für das Auffinden, Abwerben und Einstellen einer fähigen Führungskraft um ein Vielfaches wieder auszahlen, wenn es die
richtige Wahl war. Umgekehrt kann eine krasse Fehlbesetzung an wichtiger Stelle den
Konzern an den Rand des Ruins bringen, wie viele Beispiele aus der Gegenwart anschaulich vor Augen führen. Auch individuelle Entscheidungen für Ausbildung und
Beruf können sich in »Mark und Pfennig« bemerkbar machen, weil bei richtigen Entscheidungen unter sonst gleichen Voraussetzungen ein vergleichsweise höherer Erfolg
als bei falschen zu erwarten steht.
Cronbach und Gleser (1965) haben diese ökonomische Dimension bei institutionellen
Entscheidungen formalisiert und Nutzenfunktionen entwickelt, mit deren Hilfe sich der
Gesamtnutzen einer Entscheidungsstrategie bestimmen lässt. Dafür ist eine sog. Strategiematrix unabdingbare Voraussetzung. In ihr sind die Regeln festgehalten, nach denen
auf der Basis von diagnostischen Informationen Entscheidungen getroffen werden sollen.
Die Werte einer solchen Matrix geben die Wahrscheinlichkeit an, mit der ein Proband,
von dem die Information xr vorliegt, der Behandlung t zugeführt wird: p(t|xr). In . Tab. 6.3
ist ein Beispiel für eine solche Strategiematrix wiedergegeben.
Wie ersichtlich, verlangt die Strategie in der diskreten Formulierung, dass bei überdurchschnittlichen Schulnoten der Proband akzeptiert, bei unterdurchschnittlichen
dagegen weiter untersucht wird. Im Fall der IQ-Testung ist eine solche investigatorische
Entscheidung nicht vorgesehen. Anstelle der imperativen 0/1-Regel sind auch probabilistische Verknüpfungen möglich, wie sie im rechten Teil der Tabelle angegeben sind.
6.6
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
Gewinne bei richtigen
Entscheidungen
410
p(1/2t)
>xiTe
≤xiTe
p(2/2t)
p(2/1t)
.35
.15
.20
p(3/2t)
p(3/1t)
.30
.25
.05
nicht erfolgreich (3)
1.00
.50
.50
Summe
U
ec
= Utility,
= Nutzen der Kriteriumsleistung c,
II
III U = N∑p(x r )∑p(t|x r )∑p(c|x r ,t )ec − N∑p(x r ) ⋅ cr
r
t
c
r IV
I
(6.4)
Darüber hinaus bedarf es einer Verknüpfung zwischen den vorgenommenen Behandlungen und deren Ergebnis, gleichsam dem Erfolg im Kriterium. Diese Verknüpfung wird festgehalten in der sog. Validitätsmatrix. Deren Einträge geben die Wahrscheinlichkeit dafür an, dass ein Proband mit xr und der Behandlung t den Kriteriumswert cr erlangt: p(c|xr,t). Die Kriteriumswerte können im einfachsten Fall dichotome
Kategorien (erfolgreich/nicht erfolgreich; gesund/krank) bilden; möglich sind auch
kontinuierliche Abstufungen. . Tabelle 6.4 gibt ein Beispiel für eine Validitätsmatrix.
Analoge Matrizen müssten auch für die beiden anderen Behandlungen in . Tab. 6.3
angefertigt werden. (Daraus werden bereits die empirischen Schwierigkeiten deutlich,
denn die Abgelehnten kommen möglicherweise auf einem anderen Weg, z. B. in einer
anderen Schule, doch zum Erfolg.)
Schließlich ist es erforderlich, jeder Kriteriumsklasse C einen Nutzenvektor ec und
jeder Informationsklasse einen Kostenvektor cc zuzuordnen. Der Nutzen ist der Wert,
der sich bei jeder Stufe des Kriteriums für die auslesende Institution ergibt; die Kosten
gelten den Aufwendungen, die zur Gewinnung der jeweiligen Information notwendig
sind. Eine erfolgreiche Führungskraft, eingestellt im Alter von 45 Jahren, kann dem
Unternehmen vielleicht 500.000 € wert sein (jährliches Gehalt von 100 000 € mal 20
absehbare Berufsjahre. Vermutlich stellt dieser Ansatz jedoch eine Unterschätzung dar,
weil der Mitarbeiter angeworben wurde, um den Profit des Unternehmens zu mehren,
er also »mehr wert« ist, als es seinem Gehalt entspricht) und eine mäßig erfolgreiche
Kraft vielleicht nur die Hälfte, während ein Versager mit einem Minusbetrag von angenommen 500.000 € zu Buche schlägt.
Wichtig ist, dass Nutzen und Kosten auf derselben Skala abgetragen sein und mindestens Intervallniveau aufweisen müssen. Für monetäre Einheiten, also Geld, sind
diese Erfordernisse erfüllt.
Gestützt auf die Eintragungen in der Strategiematrix und den Validitätsmatrizen
sowie die Werte des Nutzen- und Kostenvektors lässt sich die folgende nichtparametrische Nutzenfunktion aufstellen (nach Crombach & Gleser, 1965, S. 24):
.35
.10
.25
p(1/1t)
Testwerte
weniger erfolgreich (2)
Kriteriumsklassen C
erfolgreich
(1)
Informationsklassen
. Tabelle 6.4. Beispiel einer Validitätsmatrix für die Behandlung tA (Annahme), zwei Informations- und drei Kriteriumsklassen. In den Feldern der Matrix bedingte Wahrscheinlichkeiten für
das Eintreten der Ereignisse
6.6 · Nutzenerwägungen
Voraussetzungen: Intervall-Skalen-Niveau
Vektoren für Nutzen
und Kosten
Validitätsmatrix
411
6
6
Netto-Nutzen
A-priori-Nutzen
Nutzenmodell
von Brodgen
= Wert aus der Validitätsmatrix für die Behandlung t,
= Wert aus der Strategiematrix,
= Wahrscheinlichkeit der Informationsklasse r,
= Kosten für die Einholung der Information r,
= Anzahl der Probanden, auf die die Strategie angewendet wird,
= erwarteter Nutzen eines Individuums im Kriterium, wenn es sich in Informationsklasse r befindet und es der Behandlung t zugeführt wird,
= erwarteter Nutzen eines Individuums in der Informationsklasse r,
= erwarteter Nutzen eines Individuums (= Mittelwert über Kriteriumsklassen, Behandlungen und Informationsklassen),
= erwartete Kosten zur Informationseinholung über einen Probanden.
= durchschnittlicher Nutzen, den ein Proband bei Treatment A (Annahme)
der Institution bringt,
= Streuung der erwarteten Nutzenwerte,
= Korrelation zwischen Prädiktor und (Nutzenunterschieden im) Kriterium, et(A), se, rxe müssen vor der Testanwendung in der Grundgesamtheit bestimmt werden,
= Ordinate der Standardnormalverteilung im (standardisierten) Testtrennwert xiT,
= Selektionsrate beim Trennwert xiT,
= Kosten.
(6.5)
(6.6)
(6.7)
Geteilt durch die Zahl der getesteten Probanden, erhält man den Nettonutzen »per man
tested« (Cronbach & Gleser, 1965, S. 308), also pro untersuchte Person.
Wie aus den Gleichungen hervorgeht, spielen die Validität des Tests, die Variabilität
der Nutzen und die Selektionsquote für den Nutzen eine Rolle; wenn beispielsweise die
Selektionsquote extrem hoch oder niedrig ist, kann auch der Einsatz eines hochvaliden
Tests keinen Nutzen bringen.
U − U o = N ⋅ s e ⋅ rxe ⋅ V( xiT) − NC x
Der Nutzen durch Anwendung des Tests (Nettonutzen) an N Probanden bemisst sich
deshalb als
U o = Nφ( xiT) e t ( A )
Der A-priori-Nutzen ist jener, der daraus resultiert, wenn N · φ(xiT) Personen aus der
Grundgesamtheit durch Zufall ausgewählt werden:
φ(xiT)
C
V(xiT)
se
rxe
et(A)
U = N ⋅ s e ⋅ rxe V( xiT) + N ⋅ φ( xiT) e t ( A ) − NC x
Wenn Nutzen und Kosten mit der Zahl der untersuchten Probanden multipliziert werden, so ergibt die Formel den erwarteten Nettonutzen einer Strategie, insoweit diese
auf eine Gruppe von N Individuen angewendet wird.
Werden für die Informations- und Kriteriumskategorien Kontinuitätsannahmen
gemacht, konstante Kosten für alle Probanden unterstellt und eine lineare Beziehung
zwischen Testwerten und Nutzen angenommen, dann geht das Modell in dasjenige von
Brogden (1949) über. Dessen zentrale Formel lautet:
IV
II
III
p(c|xr,t)
p(t|xr)
p(xr)
cr
N
I
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
Nettonutzen einer
Strategie
412
Zwischenzeitlich sind die geschilderten Modelle unter anderem durch die Berücksichtigung des Zeitfaktors und des Kalkulationszinsfußes sowie den Einfluss der Gewinnsteuern und die Diskontierung für sofort anfallende Kosten präzisiert worden
(s. die Übersicht bei Boudreau, 1991). Auch sind wesentliche Fortschritte erzielt worden bei der Methodik zur Bestimmung der Leistungsstreuung.
Die Voraussetzung des linearen Zusammenhanges zwischen Prädiktor und Nutzen
wird vielfach nicht erfüllt sein. Etwa ist denkbar, dass an Probanden gewisse Mindestanforderungen gestellt werden müssen, d. h. erst ab einem bestimmten Testwert steigt die
Regressionsgerade sprunghaft an. Auch sind Gegebenheiten leicht vorstellbar, bei denen eine umgekehrt U-förmige Regressionslinie besteht, weil vielleicht die im Test besonders leistungsfähigen Probanden durch die auszuführende Tätigkeit unterfordert
werden und deshalb mäßigere Kriteriumsleistungen erbringen. Abgesehen von diesen
spezifischen Gesichtspunkten bereitet es größte Schwierigkeiten, die Werte für die Validitätsmatrizen zu erhalten, denn es darf für deren Bestimmung keine vorherige Selektion gemäß der Entscheidungsstrategie vorgenommen worden sein, oder mit anderen
Worten: Die in Betracht kommenden Personen hätten (nach Zufall) auf die vorhandenen Treatments aufgeteilt und längsschnittlich begleitet werden müssen, um die Erfolgsraten adäquat ermitteln zu können.
Neben diesem Grundsatzproblem stellt sich die Bestimmung der Geldwertäquivalente als vergleichsweise einfach dar. Zumindest die Kosten scheinen hier auf den ersten
Blick in den Griff zu bekommen sein (. Abb. 6.11), weil leicht zu eruieren ist, was man
für den Test selbst sowie für dessen Administration und Auswertung bezahlen muss.
Korrekterweise müssten allerdings auch die Aufwendungen für die Entwicklung eines
Verfahrens und die Ausbildung des Diagnostikers umgelegt werden. Schwerer zu beziffern ist dagegen der Verlust, der bei (richtiger oder fälschlicher) Abweisung entsteht.
Cronbach und Gleser (1965, S. 36 ff.) stellen im Hinblick darauf lapidar fest:
6.6 · Nutzenerwägungen
6
. Abb. 6.11. Die praktischen und finanziellen Konsequenzen einer »Fehlbesetzung« von verantwortungsvollen Positionen können
beträchtlich sein
Bestimmung der
Geldwertäquivalente
Linearität des
Zusammenhanges
413
6
Kalkulation der
Nutzenwerte
Kostensenkung durch
Psychotherapie
Dies ist ein sehr einfacher Ansatz, der der bisherigen Praxis in Institutionen allerdings
wohl noch am besten gerecht wird. Betriebswirtschaftlich müsste man von Opportunitätskosten sprechen im Sinne eines dadurch entgangenen Gewinns, dass ein geeigneter Bewerber fälschlicherweise nicht angenommen worden ist.
Für den Bildungsbereich und auch für therapeutische Zwecke ist eine direkte
Übertragung eines solchen Ansatzes, der die institutionelle Perspektive verfolgt, nicht
prinzipiell ausgeschlossen, selbst wenn weiterhin eine angemessene Berücksichtigung
auch der individuellen Kosten und Nutzen in den Modellen nicht geleistet wird. In
gewissen Grenzen müssen zudem individuelle Verluste als gesellschaftliche Kosten
verstanden werden, weil in einem Sozialstaat der Einzelne nicht einfach seinem Schicksal überlassen bleibt, auch wenn er von einer oder mehreren Institutionen abgewiesen
wurde. In einem solchen Sinne und unter Heranziehung von Anhaltspunkten über die
Effektivität eines Trainings bzw. die relative Wirksamkeit einer Behandlung konnte
gezeigt werden, dass sich durch psychotherapeutische Intervention bei Alkoholismus,
bei Asthma bronchiale, Angst- und Panikattacken sowie psychosomatischen Störungen
die Kosten, die anderenfalls durch Inanspruchnahme von stationären medizinischen
Diensten, Arbeitsunfähigkeit und Frühberentung entstanden wären, in ganz erheblicher Weise senken ließen (7 die Übersicht bei Amelang, 1999).
Die Kalkulation der Nutzenwerte ist bei elementaren Leistungen (wie z. B. Stückzahlen im Akkord oder am Fließband) noch vergleichsweise einfach, bereitet aber auch
bei komplexeren Tätigkeiten keine unüberwindlichen Schwierigkeiten. So war in der
Studie von Brandstätter (1970) die durchschnittliche Gesamtleistung der nach Schulzeugnis und psychologischen Tests ausgewählten Rechtspfleger um ca. 16.000 DM
nützlicher als die Durchschnittsleistung der nur nach dem Schulzeugnis ausgewählten
Bewerber - doch orientierte sich die Untersuchung am Erfolg in der Ausbildung und
nicht demjenigen in der beruflichen Praxis. Gösslbauer (1981) beziffert den Nutzen der
Auswahl für Studienplätze auf den negativen Betrag von U = –115.700.000 DM. Demgegenüber erzielte ein biographischer Fragebogen, der zur Auswahl von Mitarbeitern
einer Versicherungsgesellschaft benutzt wurde und eine inkrementelle Validität von
nur r = .18 im Vergleich zu den Daten aus den Bewerbungsunterlagen und Erstgesprächen aufwies, für 3 Anwendungsperioden und 4 Jahre Wirkung einer Anwendung einen Netto-Barwert-Nutzen von nicht weniger als einer halben Million DM; das Verhältnis von Kosten zu Erträgen lag bei 1:5 (s. Barthel & Schuler, 1989). Für ein neues
Auswahlverfahren in Forschung und Entwicklung ermittelten Schuler, Funke, Moser
und Donat (1995) selbst unter der Annahme ungünstigster Bedingungen (Durchführung nur eines Assessment Centers pro Jahr mit 10 Bewerbern, von denen die Hälfte
angenommen würde; inkrementelle Validität r = .20) noch einen Gewinn von nahezu
100.000 DM für das Unternehmen. Weitere Anwendungsbeispiele finden sich bei
Weinstein und Fineberg (1980). Hunter und Schmidt (1992) haben die beträchtlichen
Auswirkungen auf die Produktivität einer ganzen Nation herausgestellt, wenn die Arbeitsplätze auf den unterschiedlichen Ebenen der Beschäftigungshierarchien nach Gesichtspunkten einer optimierten Platzierung vergeben werden.
Ein anderer Ansatz zur Schätzung des Nutzens bezieht sich nicht auf die Parameter
der Cronbach- und Gleser-Gleichungen, sondern geht von einer durchschnittlichen
volkswirtschaftlichen Wertschöpfung jedes unselbstständig Beschäftigten von ca.
»Die Entscheidung, einen Bewerber zurückzuweisen, bedeutet meist, dass er keinen
weiteren Kontakt mit der Institution hat. Wir können daher das Ergebnis einer solchen
Entscheidung so betrachten, als habe es einen Wert von Null.«
Kapitel 6 · Zuordnungs- und Klassifikationsstrategien
Individuelle und
gesellschaftliche
Kosten und Nutzen
414
Abschließende Bemerkungen
Entscheidungstheoretische Prinzipien haben in der psychologischen Praxis bislang
keine breite Anwendung erfahren. Das liegt unter anderem daran, dass beispielsweise
im klinisch-therapeutischen Alltag, z. T. aber auch im Bildungswesen - abgesehen von
Grobkategorien wie Gesprächs- oder Verhaltenstherapie, ambulant oder stationär vorgenommene Behandlungen usw. - keine klar abgrenzbaren Treatments vorliegen. Die
einzelnen Behandlungen können zudem in der Interaktion von Therapeut und Klient
individuell abgewandelt werden, so dass es eine unüberschaubare Zahl von Interventionsmöglichkeiten gibt, für die die Erfolgschancen im einzelnen unmöglich ermittelt
werden können. Gleiches gilt für die noch vorgeordnete Problematik einer Quantifizierung bedingter Wahrscheinlichkeiten für die Zugehörigkeit zu einzelnen Klassen. Angesichts dieser grundsätzlichen Probleme verlassen sich viele Praktiker bei der Bewältigung der einzelnen Fälle auf ihre »Erfahrung« und verschreiben sich somit mehr den
sog. klinischen als den statistischen Verfahrensweisen.
Ein Ansatz, dabei wenigstens Nutzenerwägungen praktisch umsetzen zu können, besteht in der sog. MAUT-Technik (Multi-Attributive Utility-Technique; s. Slovic
et al., 1977). Dabei werden alle bedeutsam erscheinenden Aspekte von Nutzen (und
nicht nur der ökonomische) zunächst generiert und im Hinblick auf ihre Wichtigkeit
eingeschätzt. Das Produkt aus relativer Wichtigkeit eines Aspektes und aus dem Nutzen der Alternativen für diesen Aspekt wird für jede Behandlungsalternative errechnet. Der höchste Wert gibt den Ausschlag dafür, welche Intervention angewendet
wird.
6.7
Insgesamt handelt es sich bei den Nutzenfunktionen um einen eminent wichtigen
Beitrag, der die psychologische Diagnostik um die ökonomische Dimension erweitert. Sie wird in einer Zeit zunehmenden Wettbewerbes in allen Bereichen menschlichen Handelns eine weiter wachsende Bedeutung erfahren. So überzeugend die
vorgetragenen Überlegungen und Modelle auch sind, wirft die konkrete Ermittlung
der relevanten Parameter doch schwierige Fragen auf. Deren Beantwortung geschieht in weitem Maße auf höchst unsicherer Grundlage, so dass es sich bei dem
Gewinn an Präzision durch Anwendung der Formeln partiell um eine nur scheinbare
Genauigkeit handelt. Davon abgesehen lenken die Modelle von Cronbach und Gleser (1965) den Blick auf die Notwendigkeit, dass sich psychologische Diagnostik im
weitesten Sinne auch »rechnen« lassen muss. Dabei ist es aber dringend geboten,
die institutionelle Perspektive durch die individuelle zu ergänzen.
Fazit
60.000 DM aus. Nimmt man nur eine Leistungssteigerung von 5% durch den Einsatz
psychologischer Diagnostik an (eine Marge, die unschwer zu erreichen sein dürfte), so
ergibt sich daraus ein Nutzen von 3.000 DM pro Besetzungsentscheidung und Jahr oder
– für den Fall einer 10jährigen Verweildauer auf der neuen Position – von 30.000 DM für
jeden psychodiagnostisch ausgewählten Mitarbeiter. Davon müssen zwar die Investitionen und die Kapitalverzinsung eines Unternehmens für die Anstellung eines Psychologen
sowie die für dessen Arbeit notwendigen zusätzlichen Ressourcen abgezogen werden,
doch verbleibt immer noch ein Netto-Überschuss in zweistelliger Milliardenhöhe für die
Volkswirtschaft durch psychodiagnostische Eignungsauswahl (Wottawa, 1997).
6.7 · Abschließende Bemerkungen
6
MAUT-Technik
Entscheidungstheoretische Prinzipien bisher
kaum angewandt
Erwiesener Nutzen von
psychodiagnostischer
Eignungsauswahl für
Volkswirtschaft
415
(S.432-438)
Bindung von kriteriumsirrelevanter
Prädiktorenvarianz: Suppression
(S.427-430)
Moderation: Identifikation von Personengruppen
mit einer besonders hohen Vorhersagbarkeit
(S.420-427)
Kontextuelle Faktoren
und technische Verbesserungen
Probleme und Differenzierungen
von Prognosen
7
Beispiel: Extravertiertes Verhalten unter
hohem vs. niedrigem
situativem Druck
Auslesesituation:
Konformes Verhalten
angeregt
Projektive Tests:
Individuelles Verhalten
angeregt
Kontextuale Faktoren und technische Verbesserungen
Bei projektiven Tests, wie den Klecksbildern von Rorschach (o.J.), den Bildern des
Thematischen Apperzeptionstests von Murray (1936) oder den Aufnahmen des FotoHandtests von Belschner (1970), sind bereits die Wahrnehmungsvorlagen unbestimmt
oder unscharf, um auf diese Weise den Probanden einen höchstmöglichen Spielraum
für ihre persönlichkeitseigene »Deutung« einzuräumen. Umgekehrt üben Konkurrenz- und Auslesesituationen für die Beantwortung von Persönlichkeitsfragebogen
offenkundig einen so massiven Druck im Hinblick auf die Abgabe sozial erwünschter
Antworten aus, dass die Testwerte für die ins Auge gefassten Ziele unbrauchbar sind.
(In dieser Hinsicht sind Leistungstests den Persönlichkeitsfragebogen grundsätzlich
überlegen: Man kann darin nicht »nach oben« schwindeln, d. h. einen fähigeren Eindruck erwecken, als es aufgrund der individuellen Kompetenzen möglich ist.)
Monson et al. (1982) sind diesem Aspekt gezielt nachgegangen. In 2 experimentell
realisierten Bedingungen bestand für die Versuchspersonen ein hoher situativer Druck
in Richtung auf extravertiertes bzw. introvertiertes Verhalten; eine dritte Situation war
diesbezüglich neutral. Mit der von unabhängigen Beurteilern eingeschätzten Gesprächigkeit der Versuchspersonen während der experimentellen Aufgabe korrelierten die
präexperimentell (also unter diagnostischen Standardbedingungen) erhobenen Extraversionswerte numerisch nur unter jener Situation befriedigend und signifikant (r=.56
gegenüber .18 und .38), die für die Versuchspersonen unbestimmt und mehrdeutig war.
Dieser Effekt war, wie nicht anders zu erwarten, hauptsächlich durch die zwangsbedingt
verminderte Streuung der Kriteriumswerte verursacht. In einer zweiten Studie der Autoren fungierten insgesamt 4 Papier- und Bleistiftszenarien als Kriterien, zu denen die
Versuchspersonen ihre wahrscheinlichste Verhaltensweise angeben mussten. So sollten
sich die Probanden vorstellen, an ihrer Universität, an der sie gerade neu eingeschrieben
ten zu zeigen, schwinden traitgeleitete individuelle Verhaltensunterschiede.
! Besteht in einer gegebenen Situation ein hoher Druck, ein bestimmtes Verhal-
Bestimmte Situationen engen den Verhaltensspielraum in einem Maße ein, dass interindividuelle Unterschiede nahezu verschwinden. Damit aber droht der Ansatz sinnfrei
zu werden, auf der Basis von Eigenschaftsmaßen Vorhersagen und Varianzaufklärung
vornehmen zu wollen. So stellt z. B. Rotlicht bei Verkehrsampeln für alle Kraftfahrer
einen »starken« Stimulus mit hohem Uniformitätsdruck dar. Ähnlich verhält es sich mit
dem Erscheinen des Pfarrers in der Kirche oder dem Heben des Taktstocks durch den
Dirigenten, was i. Allg. alle Unterhaltungen binnen kurzem verstummen lässt. Diese
Erwartung konformer Verhaltensweisen kann auch zum Konzept von prototypischen
Situationen gewendet bzw. verallgemeinert werden (s. Schutte et al., 1985), die ganz
spezifische Verhaltensmuster nahelegen bzw. mit unterschiedlich starkem Nachdruck
verlangen (. Abb. 7.1a–c). Wenn dabei allerdings der situative Druck soweit geht, traitgeleitete Unterschiede in Handlungstendenzen obsolet zu machen (Stagner, 1977),
schwindet die individuelle Variabilität und damit die Aussicht, diese durch Testmaße
aufklären zu können. Vielmehr verlangt der eigenschaftstheoretische Ansatz außerhalb
des Leistungsbereiches zwingend solche Situationen, die eher schwach oder uneindeutig strukturiert sind und für verschiedene Individuen eine unterschiedliche Bedeutung
aufweisen. Diese Forderung gilt gleichermaßen für die Erhebung von Prädiktor- wie
von Kriteriumsmaßen.
7.1.1 Verhaltensvariabilität
7.1
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Situativer Druck
führt zu Verhaltenskonformität
420
c
a
b
7.1 · Kontextuale Faktoren und technische Verbesserungen
7
. Abb. 7.1a–c. Intraindividuelle Variabilität erklärt
sich häufig als Folge veränderter situativer Anforderungen(a, b). Mitunter
verlangt der situative Kontext interindividuelle Uniformität des Verhaltens (c)
421
7
. Abb. 7.2. Mittlere Korrelation zwischen einem
Punktwert im Verhaltensprätest und (selbstberichteten)
»Kriteriumsmaßen« als Funktion des Kriteriumsumfanges (1, 2, 3 oder 4 Szenarien)
und der Wahrscheinlichkeit,
eine vorhersagbare (nicht
durch Druck gekennzeichnete) Situation zu enthalten
1
2
3
4
Alle Kriterien
Kriterien, die mindestens
eine vorhersagbare
Situation enthalten
Umfang des Kriteriums (aggregierte Verhaltensszenarien)
Kriterien, die keine
vorhersagbare Situation
enthalten
.00
0.1
0.2
0.3
0.4
0.5
seien, wäre eine »get acquainted-party« für den Samstagabend anberaumt worden. Sie
hätten bis dahin noch kaum eine Gelegenheit gehabt, die Bekanntschaft anderer Leute
zu machen, und diese Veranstaltung böte die Chance, gleich viele auf einmal kennenzulernen. Druck in Richtung auf extra- und introvertiertes Verhalten wurde dadurch
erzeugt, dass Zusatzinformationen gegeben wurden wie: die meisten anderen Kommilitonen würden einen ermutigt haben, zur Party zu gehen, der nach wie vor begehrte
Ex-Partner würde die Veranstaltung ebenfalls besuchen, bzw. dass der Besuch der Party mit den Verpflichtungen des Studiums kollidieren oder die Wahrnehmung eines
Teilzeitjobs unmöglich machen würde.
Im Mittel der 4 Szenarios korrelierten die unbeeinflusst erhobenen Extraversionstestwerte mit dem Verhalten unter schwachem Druck zu r = .42, mit dem unter starkem
Druck geäußerten (Kriteriums-)Verhalten zu r = .12, was insofern die früheren Resultate bestätigte bzw. weiter differenzierte. Zusätzlich bedeutsam war die Frage, wie die
Kombination der Szenarios zu unterschiedlich großen »Aggregaten« (7 7.1.3) die Validität beeinflussen würde. Die Resultate sind in . Abb. 7.2 zusammengestellt.
Wie die Resultate lehren, beeinflusst die Zahl der situativen Zusatzinformationen
mit den jeweils gewählten Verhaltensweisen, die in ein Kriterium eingehen, nicht wesentlich die Korrelation (»Validität«), wenn die Wahrscheinlichkeit konstant gehalten
wird, dass im Kriterium eine vorhersagbare und damit nicht durch Druck gekennzeichnete Situation enthalten ist. Sofern die Wahrscheinlichkeit für das Vorhandensein einer
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Einfluss des Kriteriumsumfanges auf die
Validität von Verhaltenstests
422
Durchschnittliche Korrelationen
In einer zwischenzeitlich sehr bekannt gewordenen Untersuchung haben Pryor et al.
(1977) das Ausmaß von selbstzentrierter Aufmerksamkeit dadurch erhöht, dass ein
Teil der Probanden beim Ausfüllen von inhaltsvaliden Tests zur Soziabilität einen Spiegel
vor sich auf dem Tisch stehen hatte (. Abb. 7.3). Gegenüber einem wenige Tage später
erhobenen Verhaltensmaß zur Soziabilität (Kombination aus Fremdrating und Zahl von
Worten in einer Wartesituation) korrelierten die unter den üblichen Bedingungen gelieferten Fragebogenpunktwerte nur gering (r = .16). Hingegen war die Korrelation für die
Probanden hoch (r = .62; Differenz signifikant), die während der ersten Sitzung mit einem Spiegel konfrontiert waren. »Die Induktion selbstzentrierter Aufmerksamkeit
scheint also bei einem inhaltsvaliden Messverfahren ein Instrument zu sein, die Vorhersagevalidität eines Selbstberichtes zu erhöhen« (Wicklund, 1977, S. 402).
Weitere Experimente haben entsprechende Resultate auch zu anderen Eigenschaftsdimensionen erbracht (u. a. Wicklund, 1982). Solche Befunde nähren den Verdacht,
dass die üblicherweise für Fragebogen gegebene Instruktion, bei der Beantwortung
»nicht lange nachzudenken«, einen folgenschweren Missgriff darstellt. Damit hoffen
Testautoren implizit, Überlegungen auf Seiten der Probanden, welche Antwort sie in
einem günstigeren Licht erscheinen lassen würde, abzukürzen. Aber vieles spricht da-
7.1.2 Aktuelle Selbstaufmerksamkeit
Sofern es nicht um Leistungen geht, müssen die kontextualen Rahmenbedingungen sowohl bei der Erhebung der Prädiktor- als auch derjenigen der Kriterienwerte
von einer Art sein, die individuelle Unterschiede in der Häufigkeit, der Intensität und
dem Stil des Verhaltens hervortreten lässt. Nur unter diesen Voraussetzungen ist es
sinnvoll, mit Hilfe des eigenschaftstheoretischen Ansatzes Varianzaufklärung bzw.
Verhaltensvorhersagen vornehmen zu wollen. Hilfreich ist die zusätzliche Erfassung
der subjektiven Besonderheiten bei der Wahrnehmung und Verarbeitung der Informationen über die Anforderungsmerkmale einer Situation.
Fazit
vorhersagbaren Situation 1.0 beträgt (7 obere Linie in Abb. 7.2), verändert sich die Korrelation nicht bedeutsam mit einer Zunahme im Umfang des Kriteriums. Gleiches gilt,
wenn die besagte Wahrscheinlichkeit .00 beträgt (untere Linie), das Verhalten also in
allen Szenarien durch hohen situativen Druck beeinflusst wird. Variiert jedoch die
Wahrscheinlichkeit für vorhersagbare Situationen, stellt sich die typische Beziehung
zwischen Höhe der Korrelation und Umfang des Kriteriums ein.
Aber auch stark einengende Situationsfaktoren mögen individuell verschieden aufgenommen und interpretiert werden. Deshalb ist eine Berücksichtigung der als Mediatoren zwischen Persönlichkeitseigenschaften und konkreten Verhaltensweisen fungierenden individuellen Perzeptionen und Kognitionen zweckmässig. Mischel (1977)
hat vorgeschlagen, das individuelle Kategorisierungsverhalten von Situationen festzuhalten, ferner die Erwartungen, die durch bestimmte Situationen geweckt und im Hinblick auf antizipierte Handlungsfolgen gehegt werden. Soweit hier allgemeinere Strategien für Klassen von Situationen ausfindig gemacht werden könnten, ist eine Operationalisierung vergleichbar mit derjenigen zu den generalisierten Erwartungen Rotters
(1954) (internale vs. externale Bekräftigungsüberzeugung, zwischenmenschliches Vertrauen) naheliegend.
7.1 · Kontextuale Faktoren und technische Verbesserungen
7
Bedenkzeit bei
Fragebogen durchaus
sinnvoll
Selbstaufmerksamkeit
erhöht Validität von
Selbstberichten
Berücksichtigung individueller Perzeptionen
und Kognitionen
423
7
Aggregation von
Kriteriumsverhalten
Reliabilitätsverbesserung auf Prädiktorenseite
Die Prinzipien der Reliabilitätsverbesserung durch Verlängerung von Skalen sind seit
Spearman-Brown (7 2.1.1.4) allgemein bekannt. Sie wurden auf die verschiedensten
Prädiktoren ganz selbstverständlich immer wieder angewendet. Es bedurfte jedoch des
Beitrages von Epstein (1979), um deren Effektivität auch auf der Seite der Kriterien
drastisch vor Augen zu führen: Wurde die Stabilität des vorherzusagenden Verhaltens
durch Aggregation (d. h. durch Mittelung prinzipiell ein und desselben Verhaltens
über mehrere Beobachtungszeitpunkte) auf ein akzeptables Niveau gehoben, stellten
sich bei einigen Skalen Test-Kriteriums-Korrelationen um rtc = .40 bis .50 ein – aber nur
unter eben den besagten Bedingungen (= Reliabilitätserhöhung durch Aggregation
über »occasions« mit indirekten Auswirkungen auf die Validität). Eine substantielle
7.1.3 Aggregation von Maßen
! Die Validität von Selbstbeschreibungen kann durch Induktion erhöhter
Selbstaufmerksamkeit während der Testsituation gesteigert werden.
für, dass gerade Antworten im Sinne sozialer Erwünschtheit sehr rasch gegeben werden
können, sodass im Zweifelsfall durch die Tempobetonung eher reflektive Gedanken
über die eigene Persönlichkeit unterbunden werden, was die Validität der Selbstbeschreibung beeinträchtigen müsste.
Auch wenn bislang bei einer Variation der Instruktion »spontanes Antworten« vs.
»genaues Überlegen« nur Mittelwertsunterschiede, aber keine Validitätsdifferenzen
gefunden wurden (s. Krämer & Schneider, 1987, deren Stichprobenumfänge allerdings
für die zufallskritische Absicherung von Korrelationsunterschieden viel zu klein waren), kann für die psychodiagnostische Praxis eine sinnvolle Empfehlung nur darin
bestehen, durch geeignete Massnahmen, wie z. B. ein einführendes Gespräch oder eine
ausführlichere Exploration, situative Rahmenbedingungen dafür zu schaffen, dass die
Testperson sich selbst in möglichst adäquater Weise beschreiben kann.
Kapitel 7 · Probleme und Differenzierungen von Prognosen
. Abb. 7.3. Eine erhöhte
Selbstaufmerksamkeit kann
die Validität von Selbstbeschreibungen erhöhen
424
1
Geleitet von verschiedenen Techniken der Validitätserhöhung und der dabei erzielten Erfolge sind
noch folgende Wendungen in der Literatur gebraucht worden: »Predicting more of the people
more of the time« (Bem & Funder, 1978), »On predicting most of the people much of the time« (Epstein, 1979), »Vorhersagen für einige Personen in vielen Merkmalen« (Amelang & Borkenau, 1981a)
und »Vorhersagen für einige Personen in einigen Dimensionen« (Borkenau & Amelang, 1983), doch
ein Beitrag etwa des Inhalts »Predicting all of the people all of the time« ist noch in Vorbereitung
(Bem & Funder, 1978).
Ein durchgängiger Argumentationsstrang der bisherigen Ausführungen ging dahin,
dass durch Erhöhung der Reliabilität im Prädiktor und/oder Kriterium im Regelfall auch
Validitätsgewinne zu erwarten sind, und zwar unbeschadet der Prinzipien des sog. »Verdünnungsparadoxons« (zur Wechselbeziehung zwischen Reliabilität und Validität
7.1.4 Validität ohne Stabilität
! Reliabilitätserhöhungen durch Aggregation über Beobachtungszeitpunkte,
Verhaltensweisen und Situationen können zu einer substantiellen Erhöhung
der Validität führen.
Erhöhung der Validität lässt sich auch erzielen, wenn auf seiten der Prädiktoren und/
oder Kriterien über »modes« aggregiert wird. So fasste beispielsweise Moskowitz (1982)
Verhaltensweisen wie Kommandieren, Nahelegen, Drohen u. Ä. zu »multiple referents«
für Dominanz als der einen Dimension und Hilfesuchen, Berühren, Aufmerksamkeit
heischen etc. für Abhängigkeit als einer anderen Dimension zusammen. Mit diesen
durch mehrere Indikatoren repräsentierten Traitmaßen korrelierten die Einzelindizes
wesentlich höher als paarweise untereinander. Im Grunde entspricht das einer Berechnung von Trennschärfekoeffizienten bzw. Iteminterkorrelationen. Dabei ist im vorliegenden Fall die für Persönlichkeitsfragebogen (also: selbstberichtetes Verhalten) wiederkehrend angestellte Beobachtung auch auf fremdbeobachtetes Verhalten übertragbar: Sogenannte »single acts« in Form einzelner Verhaltensweisen, selbst- oder
fremdeingeschätzt, korrelieren infolge ihrer geringen Stabilität und hohen Spezifität
nur relativ niedrig miteinander, hingegen vergleichsweise hoch mit dem »Aggregat«
oder »Konglomerat« anderer für das Konstrukt einschlägiger Verhaltensweisen. Die
Summierung über verschiedene Verhaltensweisen bewirkt nicht nur eine Erhöhung der
Reliabilität, sondern auch eine solche der Heterogenität und inhaltlichen Breite, mit der
Folge höherer Validitäten und transsituativer Verhaltenskonsistenzen. Diese Regeln
standen auch bei der Entwicklung der Multiple Act Criteria (Fishbein & Ajzen, 1974)
sowie einer Multiple Act Criterion Scale (Jaccard, 1974) Pate.
Schließlich kommt noch die Aggregation über Situationen in Betracht. Bei einer
Klumpung von Verhaltensstichproben aus verschiedenen Situationen konnte Moskowitz
(1982) die transsituative Konsistenz der Maße für Dominanz beträchtlich erhöhen. »The
strategy used in this study (provided) average predictions of moderate accuracy for many
people« bemerkt Moskowitz (1982, S. 765) in Abwandlung des bekannten Titels der Arbeit von Bem und Allen (1974): »On predicting some of the people some of the time.«1)
Wie Schwenkmezger (1984) allerdings feststellt, ist die Aggregation über Situationen nur sinnvoll, wenn das Durchschnittsverhalten in einer Klasse von ähnlichen Situationen interessiert; hier kann durch Reduktion des Messfehlers die Vorhersagegenauigkeit erhöht werden. Steht hingegen die Reaktion von Individuen in ganz spezifischen Situationen im Vordergrund des Interesses, verdeckt eine solche Aggregation
eher die situationsspezifischen Varianzanteile.
7.1 · Kontextuale Faktoren und technische Verbesserungen
7
Aggregation über
Situationen
Erhöhung von Reliabilität, Heterogenität
und inhaltlicher Breite
Validitätserhöhung
durch multipel
repräsentierte TraitDimensionen
425
7
. Abb. 7.4. Schwankungen
der Messwerte von 4 hypothetischen Probanden um
einen gemeinsamen Mittelwert. ----/––– denkbare
Schwellen (Aus Wottawa &
Hossiep, 1987, S. 14)
Andere Indizes zur Reliabilitätsbestimmung
6
Die referierten Untersuchungen belegen an inhaltlichen Beispielen die Prinzipien,
die bereits in allgemeiner Form unter den methodischen Gesichtspunkten (7 oben
die Ausführungen zur Reliabilität) behandelt wurden. Sie zeigen, dass für eine Reliabilitätserhöhung primär eine Aggregation von (ein und demselben) Verhalten über
Fazit
7 Abschn. 2.3.3). Nun sind aber Fälle denkbar, für die hohe Reliabilitätsanforderungen
im Sinne von Reteststabilitäten dysfunktional oder abwegig sind, weil diese dem spezifischen Anspruch, sensitiv auf Änderungen anzusprechen, nachgerade entgegenstehen.
Dieses trifft auf die Verfahren zur Erfassung von States zu. Gerade weil sich die aktuellen
Zustände durch eine gewisse Flüchtigkeit, also Instabilität auszeichnen, kann hier die
Retestung kein angemessener Zugang zur Abschätzung der Stabilität sein. Generell gilt
das für alle Fälle, in denen der wahre Wert nennenswerte Oszillationen aufweist, wie es
z. B. auch für Schwankungen der Aufmerksamkeit unterstellt werden kann. Wottawa
und Hossiep (1987) haben dies, wie es in . Abb. 7.4 zu sehen ist, veranschaulicht.
Das Beispiel ist so gewählt, dass die 4 Probanden zwar denselben Mittelwert aufweisen, aber mit unterschiedlicher Wellenlänge um das mittlere Niveau oszillieren. Es ergibt
sich eine Nullstabilität, wenn 2 beliebige Zeitpunkte herausgegriffen und miteinander in
korrelative Beziehung gesetzt werden, obwohl die Muster der Schwankungen für sich
idealtypisch stabil sind. In solchen Fällen, in denen also die herkömmlichen Reliabilitätsschätzungen als Anteil der wahren an der Messwertevarianz versagen, müssen andere
Indizes gewählt werden. Einfach wäre es, für das in der Abbildung gewählte Beispiel die
jeweils höchste Amplitude während eines längeren Beobachtungsausschnittes zu wählen
(was zu 2 unterschiedlichen Scores führt) und 2 derartige Messstrecken miteinander
zu vergleichen. Aufwändiger sind Verfahren wie die Fourier-Analysen, bei denen
die beobachtbaren Schwankungen spektralanalytisch, d. h. in Anteile von Frequenzbändern zerlegt werden, was in der EEG-Forschung eine der Standardtechniken darstellt.
Eine Übersicht der Kennwerte zur Charakterisierung derartiger Modelle gibt u. a. Sammer (1994).
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Änderungssensitivität
bei der Erfassung von
States
426
427
7
Moderation: Identifikation von Personengruppen mit einer
besonders hohen Vorhersagbarkeit
Moderatorvariablen:
Einfluss auf die
Validität
Leistungsbereichs nach Testsituationen, die eher schwach oder uneindeutig strukturiert sind und durch verschiedene Individuen mit verschiedenen Bedeutungen ausgefüllt werden. Werden traitgeleitete Unterschiede in Handlungstendenzen durch situativen Druck obsolet
gemacht, sinkt die individuelle Variabilität und damit die Vorhersagemöglichkeit durch einen Testwert.
Ad 2. Pryor et al. (1977) stellten einem Teil der Probanden (Versuchsgruppe) beim Ausfüllen eines inhaltsvaliden Fragebogens zur Soziabilität einen Spiegel auf den Tisch, in dem sie sich selber sehen konnten.
Gegenüber einem wenige Tage später erhobenen Verhaltensmaß zur
Soziabilität erwies sich die Vorhersagevalidität (Korrelation der Fragebogenwerte mit dem Verhaltensmaß) in der Versuchsgruppe als sehr
viel höher als in der Kontrollgruppe, deren Selbstaufmerksamkeit nicht
gezielt erhöht worden war.
Ad 3. Wenn das Durchschnittsverhalten von Individuen in einer Klasse von ähnlichen Situationen interessiert; nicht jedoch, wenn die Reaktion von Individuen in ganz spezifischen Situationen im Vordergrund
steht.
! Ad 1. Der eigenschaftstheoretische Ansatz verlangt außerhalb des
Erstmals ist es Ghiselli (1963) gelungen, ein gesondertes Testverfahren zu konstruieren,
nach dessen Punktwert entschieden werden konnte, für welche Probanden in einer
Stichprobe von Taxifahrern (aus deren Punktwerten in Leistungstests) Vorhersagen
über das Ausmaß der allgemeinen Fahrtauglichkeit möglich waren und für welche
nicht. Der fragliche Teil war damit ein Test zur individuellen Prognostizierbarkeit,
weil er mit der Differenz zwischen den jeweils standardisierten Leistungspunktwerten
und den Kriteriumswerten für Fahreignung oder, was dasselbe ist: Mit dem Zusammenhang zwischen diesen beiden Messwertreihen korrelierte.
Seitdem hat es an Bemühungen zum Auffinden solcher Moderatorskalen, die also
mit der Validität korrelieren, nicht gefehlt. Häufig waren die Befunde jedoch nicht
replizierbar, was u. a. daran liegt, dass teils die Suche nach Moderatoren vorwiegend
7.2
3. Wann ist die Aggregation
von Verhaltensweisen über
Situationen zur Erhöhung
der Validität sinnvoll?
sind an Testsituationen zu
stellen, wenn mit Hilfe des
eigenschaftstheoretischen
Ansatzes Verhaltensvorhersagen gemacht werden
sollen?
2. Wodurch wurde in der Untersuchung von Pryor et al.
(1977) selbstzentrierte Aufmerksamkeit erzeugt und
welche Auswirkungen
hatte sie auf die Vorhersagevalidität?
? 1. Welche Anforderungen
Übungsfragen
(zu Abschn. 7.1)
verschiedene Zeitpunkte ein probates Mittel darstellt. Teils als Konsequenz davon,
teils durch die zusätzliche Aufnahme anderer Verhaltensweisen im Prädiktor sowie
im Kriterium bietet die Aggregation über Modes die Aussicht auf eine zusätzliche
Steigerung der Validität. Erfolgt zudem eine Aggregation über Situationen, so wird
dieses die Validität gegenüber einem breiten Spektrum möglicher Kontextbedingungen allgemein positiv beeinflussen, und zwar zu Lasten von einzelnen (im Vergleich zu vielen und verschiedenen) Kriterien.
7.2 · Moderation: Identifikation von Personengruppen
7
Die einfachste und deshalb in der Literatur am häufigsten verwendete Methode bei der
Suche nach Moderatorfunktionen besteht darin, die Gesamtstichprobe nach Maßgabe
einer theoretisch belangvollen Variablen in (meist 2–3) homogenere Subgruppen aufzuteilen und für jede dieser Untergruppen getrennt die Test-Kriteriums-Korrelationen
zu ermitteln. Unterscheiden sich diese Validitätskoeffizienten signifikant voneinander,
so übt die Teilungsvariable einen bedeutsamen Moderatoreffekt aus. Im Falle der Untersuchung von Todt (1966; 7 Beispiel) trifft dies auf die Differenz R = .11 und R = .63
Frederiksen und Melville (1954) hatten herausgefunden, dass sich relativ zwanghafte Studenten in allen Lehrfächern nahezu gleichmäßig einsetzten, und zwar
ungeachtet ihrer jeweiligen Interessensschwerpunkte, während sich nichtzwanghafte Personen nur gemäß ihrer Neigungen engagierten. Das legt die Hypothese
nahe, dass sich akademische Leistungen nichtzwanghafter Studenten aus Interessentests viel besser vorhersagen lassen als diejenigen ihrer zwanghaften Kommilitonen – was auch der Fall war.
An dieser Beobachtung knüpft Todt (1966) an. Seinen Erhebungen zufolge war
die mittlere Schulnote von Schülern ein Jahr vor dem Abitur aus ganz unterschiedlichen Prädiktorenkombinationen vorhersagbar, je nachdem, ob es sich um Besucher
des sprachlichen oder naturwissenschaftlichen Zweiges handelte. Bei den Sprachlern ergab die optimale Gewichtung von 6 Skalen des Differentiellen Interessentests
(7 3.2.5) mit einer Subskala aus dem Differentiellen Kenntnistest und dem Intelligenztest von Wilde (s. Jäger & Todt, 1964) eine multiple Korrelation von R = .44; hingegen bestand die optimale Prädiktorenkombination bei den Naturwissenschaftlern aus 3 Intelligenz- und 4 Kenntnissubskalen, die zu R = .38 mit dem Kriterium
korrelierten. Daraus ließ sich unter Bezugnahme auf die Befunde aus den USA die
Hypothese ableiten, dass Zwanghaftigkeit nur bei den Sprachlern die Validität der
Prognosebatterie (die fast nur aus Interessentests bestand) moderieren würde, nicht
aber bei den Naturwissenschaftlern, weil deren Interessen für die Vorhersage des
Schulerfolges praktisch ohne Belang waren. Als Diagnostikum der Zwanghaftigkeit
stand die Skala Rigidität von Brengelmann und Brengelmann (1960) zur Verfügung.
In der Tat errechnete sich für die relativ rigiden Schüler aus dem sprachlichen
Zweig ein R = .11, hingegen für die relativ flexiblen ein R = .63. In der Gruppe der
Naturwissenschaftler lauteten die Koeffizienten R = .44 bzw. .51 – was die Hypothese in überzeugender Weise bestätigte. Innerhalb der Sprachler wiesen somit zwar
Interessen den besten Vorhersagewert auf, und zwar im deutlichen Unterschied zu
den Naturwissenschaftlern, doch waren diese für flexible Schüler von wesentlich
größerer Bedeutung als für rigide.
Diese Studie belegt nachdrücklich, dass es innerhalb von größeren Personengruppen Substichproben mit ganz unterschiedlicher Vorhersagbarkeit gibt. Sie wirft
aber auch die Frage auf, welche Instrumente bei den nur mäßig prognostizierbaren
Personen erfolgreich angewendet werden können.
Die Vorhersage des Schulerfolges bei rigiden und flexiblen Schülern
Beispiel
»blind-analytisch« vor sich ging, teils einige methodische Probleme bei der Verwendung von Moderatorvariablen ausser acht gelassen wurden (s. Zedeck, 1971). Einiges
spricht dafür, dass positive Resultate dann zu erwarten sind, wenn theoriegeleitet geforscht wird (7 Beispiel).
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Suche nach Moderatoreffekten
428
Saunders (1956) hat deshalb ein Modell vorgeschlagen, mit dem die eben geschilderten
Unzulänglichkeiten regressionsanalytisch umgangen werden. Zentral darin ist der Gedanke, die Steigung der einfachen linearen Regression eines Kriteriums auf einen Prädiktor mit Hilfe einer weiteren Variablen, dem Moderator, zu beschreiben. Das Modell
ist für diesen einfachsten Fall in . Abb. 7.5 grafisch veranschaulicht.
! Zur Identifikation einer Moderatorvariablen ist die Fraktionierung einer Stichprobe dann sinnvoll, wenn die zu prüfende Variable alternativ oder mehrklassig diskret ist. Ist die Variable kontinuierlich-quantitativ abgestuft, ist ein
regressionsanalytisches Modell besser geeignet.
zu, die auf dem 5%-Niveau signifikant ist. Dementsprechend stellt die Rigiditätsskala
eine Moderatorvariable dar.
Die Methode einer solchen Fraktionierung von Gruppen ist immer dann angemessen, wenn die auf ihre potentielle Moderatorfunktion geprüfte Variable alternativ (z. B.
Geschlecht: männlich/weiblich) oder mehrklassig diskret ist (z. B. ethnische Herkunft:
kaukasoid/negroid/ mongolid; Körperbau: pyknisch/leptosom/athletisch).
Handelt es sich bei der Unterteilungsvariablen aber um eine Skala mit kontinuierlich-quantitativen Abstufungen (so z. B. der Rigiditätstest in der Todtschen Studie),
weist die Fraktionierungsmethode einige Nachteile auf. Vorrangig ist diesbezüglich die
Vergrößerung des Stichprobenfehlers zu nennen, die es nach Halbierung oder Drittelung der Gesamtstichprobe reichlich erschwert, Unterschiede zwischen den dann relativ kleinen Substichproben zufallskritisch abzusichern. Zudem erfolgt die Trennung am
Median bzw. an Perzentilwerten in gewisser Weise willkürlich, jedenfalls nicht nach
psychologisch plausiblen Ableitungen. Es kann nämlich kaum davon ausgegangen werden, dass sich mit der Überschreitung beispielsweise des Medians in einer Verteilung
kontinuierlich abgestufter Werte die zugrundeliegenden Prozesse in einem qualitativen
Sprung ändern. Darüber hinaus hängt der jeweilige Trennungspunkt davon ab, welche
Probanden mit welchen Merkmalsausprägungen jeweils Eingang in die Untersuchungsstichprobe gefunden haben. Ferner erlaubt eine Zwei- oder Dreiteilung nicht die Beschreibung der Moderatorfunktion in Art einer mathematischen Funktion, ganz abgesehen von den Problemen, die sich daraus ergeben mögen, dass die potentielle Moderatorvariable vielleicht selbst mit dem Kriterium und/oder den Prädiktoren korreliert.
7.2 · Moderation: Identifikation von Personengruppen
7
. Abb. 7.5. Räumliche Darstellung einer moderierten
Regression des Kriteriums Y
auf den Prädiktor X bei linearer Moderatorfunktion der
Variablen Z: Die Steigungskoeffizienten der Regressionsgeraden AB, CD, EF, GH,
IJ, KL und MN stellen eine
lineare Funktion von Z dar.
(Aus Bartussek, 1970, S. 59)
Regressionsanalytisches Modell
Fraktionierung
von Stichproben
429
7
Prüfung quadratischer
Moderatorfunktionen
Vorhersage mit
Prädiktor- und Moderatorvariablen
Lineare Regressionsgleichung
(7.1)
b = d + fZ
(7.2)
a = c + eZ
(7.3)
(7.5)
(7.4)
Die Formel (7.5) entspricht einer herkömmlichen Regressionsgleichung für die Vorhersage des Kriteriums Y auf der Basis von 3 Prädiktoren. Neben X und Z sind die individuellen Kreuzpunkte zwischen X und Z als dritter Prädiktor hinzugekommen. Durch
die Multiplikation der X- und Z-Werte trägt dieser Prädiktor jenen Anteil zur Vorhersage des Kriteriums bei, der sich analog zu den varianzanalytischen Wechselwirkungen
experimenteller Versuchspläne interpretieren lässt. Sofern die multiple Korrelation zur
Vorhersage des Kriteriums Y aus X und Z durch Hinzunahme des Terms XZ signifikant
ansteigt, liegt mit der Skala Z ein bedeutsamer Moderator vor.
Bartussek (1970) hat dieses Modell auf die Prüfung quadratischer (also U- bzw.
umgekehrt U-förmiger) Moderatorfunktionen erweitert. Inhaltlich bedeutet das die
Hypothese einer unterschiedlichen Prognostizierbarkeit der Probanden, die auf der
Moderatorvariablen extrem niedrig oder hoch scoren im Vergleich zu denjenigen im
Mittelbereich. Solche Gegebenheiten liegen etwa im Fall des Antwortstils Akquieszenz
bei der Bearbeitung von Fragebogen vor: Die ausgeprägten »Ja-Sager« sind den notorischen »Nein-Sagern« (»Yeah-« vs. »Nay-Sayer«) insofern ähnlich, als sie vom Iteminhalt offenkundig keine rechte Notiz nehmen und statt dessen in stereotyper Weise
nur mit einer individuell präferierten Antwortkategorie reagieren. Von daher wäre für
Ŷ = c + dX + eZ + fXZ
Nach Auflösen der Klammern und Umstellen der Formel erhält man
Ŷ = (c + eZ) + (d + fZ)X
Die Formel (7.3) beschreibt die unterschiedlichen Schnittstellen der Regressionen Y
auf Z mit der Regressionsfläche Y auf X (die Geraden AM, OP, QR, ST und BN in
. Abb. 7.5).
Setzt man (7.2) für b und (7.3) für a in (7.1) ein, so ergibt sich:
Z
Eine Änderung des b in (7.2) aufgrund der linearen Abhängigkeit von Z hat eine Änderung von a in (7.1) zur Folge, da sich durch die Drehung der Regressionslinie für
jeden Z-Wert andere Schnittpunkte der Regressionsgeraden mit Y ergeben müssen. Auf
diese Weise entspricht jedem Zb ein bestimmtes Za, sodass gilt:
f = Ausmaß der Änderung von Zb mit Z, d = Zb für Z = 0.
Z
Die Steigung b dieser Regressionsgeraden soll nun eine lineare Funktion des Moderators Z sein, sodass sich auf jeder Stufe von Z eine andere Steigung Zb ergibt:
Ŷ = a + bX.
Die Steigungskoeffizienten der Regressionsgeraden AB, CD, EF usw. bis MN stellen
eine lineare Funktion von Z dar (aus Bartussek, 1970, S. 59). Für die Prüfung der Frage,
ob in Gestalt der Variablen Z ein potentieller Moderator vorliegt (d. h. eine Variable,
von der der Steigungskoeffizient byx linear abhängt), sind folgende Erwägungen bzw.
Ableitungen anzustellen:
Die lineare Form einer Regression von Y auf X lautet bekanntlich (7 S. 57 ff.):
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Lineare Moderatorfunktion
430
7
Suppression
Paradoxe Qualität
von Prädiktoren
Validitätsverbesserung
durch mehrere Prädiktoren
Bindung von kriteriumsirrelevanter Prädiktorenvarianz:
Suppression
Ad 2. Zentral ist der Gedanke, die Steigung der einfachen linearen
Regression eines Kriteriums auf einem Prädiktor mit Hilfe einer weiteren Variablen, dem Moderator, zu beschreiben.
theoretisch belangvollen Variablen in homogene Subgruppen aufzuteilen bzw. zu fraktionieren und für jede dieser Gruppen getrennt die
Test-Kriteriums-Korrelationen zu ermitteln.
! Ad 1. Sie besteht darin, die Gesamtstichprobe nach Maßgabe einer
6
Eines der ersten empirischen Beispiele für Suppression berichtet Horst (1966) aus
den Versuchen, im Zweiten Weltkrieg den Erfolg von Ausbildungsprogrammen für
Piloten vorherzusagen. In einer dieser Studien bestand die Testbatterie aus
4 Mechanical ability (M),
4 Numerical ability (N),
Validitätsgewinn durch Unterdrückung irrelevanter Prädiktorenvarianz
Beispiel
Die Kombination von verschiedenen Prädiktoren führt bekanntlich dann zu besonders
markanten Zuwächsen an Validität, wenn jede einzelne der herangezogenen Skalen
bereits für sich selbst möglichst hoch mit dem Kriterium und möglichst niedrig mit den
anderen Prädiktoren korreliert. In einem solchen Fall deckt jeder Prädiktor einen anderen Aspekt des Kriteriums ab, was sich für die Validität der Testbatterie als Ganzes
sehr positiv auswirkt.
Ähnliche Konsequenzen ergeben sich aber auch dann, wenn die Rahmenbedingungen gegenteiliger Art sind, nämlich Variablen in eine Testbatterie zusätzlich aufgenommen werden, die mit dem Kriterium niedrig, aber möglichst hoch mit den anderen
Prädiktoren korrelieren. Weil die Validitätserhöhung in einer derartigen Konstellation
trotz (oder, wie noch zu zeigen sein wird, gerade wegen) der Nullkorrelation mit dem
Kriterium auftritt, handelt es sich gleichsam um eine paradoxe Qualität. Sie kommt
dadurch zustande, dass aufgrund der hohen Korrelation einer oder mehrerer zusätzlicher Variablen mit den übrigen Prädiktoren deren kriteriumsirrelevante Varianzanteile gebunden oder unterdrückt werden; dementsprechend heisst die Bezeichnung für
dieses Phänomen der Validitätssteigerung »Suppression«.
7.3
Methode bei der Suche
nach Moderatorfunktionen, wenn die auf die Moderatorfunktion geprüfte
Variable alternativ oder
mehrklassig diskret ist?
2. Welches ist der zentrale Gedanke in Saunders’ Modell
(1956) für Skalen mit kontinuierlich-quantitativen
Abstufungen?
? 1. Welches ist die einfachste
(zu Abschn. 7.2)
schen Verfahren, die gerade das Letztere leisten, ist bislang allerdings ein empfindlicher
Mangel zu beklagen.
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Übungsfragen
432
nc
n x + nc ⋅ n y + nc
(7.7)
7
= .44.
9+7 ⋅ 9+7
Wenn 8 der 9 für die Vorhersage des Kriteriums durch p irrelevanten Elemente durch
den Suppressor erklärt werden (p–s), der für sich selbst keinerlei Überlappung mit dem
Kriterium aufweist, lauten die Korrelationen wie folgt:
rpc =
Im Beispiel von . Abb. 7.6 besteht das Kriterium c aus insgesamt 16 Elementen, von
denen 7 mit dem Prädiktor gemeinsam sind (c–p). Der Prädiktor setzt sich gleichfalls
aus 16 Elementen zusammen, von denen 9 für das Kriterium irrelevant sind (8×(p–s)
+ 1p).
Gemäß (7.7) errechnet sich daraus die Korrelation
nx = Zahl der Elemente spezifisch für x,
ny = Zahl der Elemente spezifisch für y,
nc = Schnittmenge der Elemente aus x und y.
rxy =
Das Zustandekommen von Suppressionseffekten kann auf methodische Weise mit
Hilfe eines Scheibchendiagramms und durch Rückgriff auf die Interpretation von Korrelationen als Folge gemeinsamer Elemente (McNemar, 1962) veranschaulicht werden
(. Abb. 7.6).
Die allgemeine Formel für die »Common-elements-Korrelation« lautet:
Die ersten 3 Faktoren korrelierten positiv mit dem Kriterium. Verbales Geschick stand
mit dem Kriterium nicht in Beziehung, korrelierte aber mit den anderen Skalen. Trotz
der Nullkorrelation zwischen verbalen Leistungen und dem Trainingserfolg verbesserte die Hinzunahme von Verbal ability die Validität der Batterie erheblich.
Horst interpretierte diesen Effekt psychologisch, indem er feststellte, dass die
verbalen Fähigkeiten zwar mit dem Ergebnis des Flugtrainings nichts zu tun haben
mochten, wohl aber eine hohe Ausprägung in V den Erhalt hoher Punktwerte in den
übrigen Prädiktoren begünstigte, und zwar vermutlich über das bessere Verständnis
der Testinstruktion und der allgemeinen Prinzipien zum Lösen der Aufgaben. Von
daher kam es darauf an, eben jene durch V »verursachten« Varianzanteile zu eliminieren bzw. von der sonstigen Prädiktionsvarianz abzuziehen. Denn für den Flugtrainingserfolg war es wichtig, hohe Punktwerte in erster Linie in den Skalen M, N
und S zu erzielen, weil damit Komponenten abgedeckt werden, die für die Steuerung eines Flugzeuges unabdingbar sind. Hingegen war es eher irrelevant für die
Vorhersage, wenn Probanden hohe Punktwerte in der Batterie hauptsächlich durch
ihre verbalen Fähigkeiten erreichten. In der Tat führte der Abzug der Varianz zu Lasten von V, d. h. ein negatives β-Gewicht in der Linearkombination der Prädiktoren,
zu einer bedeutsamen Validitätsverbesserung der Gesamtbatterie.
4 Spatial ability (S) und
4 Verbal ability (V).
7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression
Prädiktor-Kriterium
Common-elementsKorrelation
Methodische Veranschaulichung des
Suppressoreffekts
433
7
7
Klassischer Fall:
Suppressorvariable
wird abgezogen
Erhöhte Validität durch
Suppressoreffekt
Suppressor-Kriterium
Prädiktor-Suppressor
c
c
c
c
c
c-p
c-p
c-p
c-p
c-p
c
c-p
c-p
p
s
7
= .62.
1+ 7 ⋅ 9 + 7
Bei der Ermittlung der Regressionsgleichung auf der Basis der bivariaten Korrelationen zeigen die Vorzeichen der Regressionsgewichte (0,66p–0,50s), dass die gewichtete s-Variable von den Prädiktorwerten abgezogen werden muss, um die kriteriumsirrelevante Varianz zu entfernen. Das stellt den »klassischen Fall« des Suppressionsparadigmas dar.
Eine Quelle möglicher Konfusionen tut sich aber auf, wenn alle Variablen mit negativen β-Gewichten in Prädiktionskombinationen als »negative Suppressoren« bezeichnet werden. Lubin (1957) und Darlington (1968) verfahren so und belegen mit
diesem Begriff solche Variablen, die positiv mit dem Kriterium, aber negativ mit anderen Prädiktoren korrelieren. Das mag deshalb zu Missverständnissen führen, weil zahlreiche Dimensionen außerhalb des Leistungsbereiches bipolarer Art sind, wie an Skalen
zur Erfassung von Einstellungen oder Persönlichkeitsmerkmalen sowie kognitiven Stilen zu erkennen ist, deren Scorungsrichtung und positive Bewertung innerhalb gewisser Grenzen von willkürlichen Festlegungen abhängt. Auf diese Weise aber könnte ein
Prädiktor (wie z. B. Extraversion oder Flexibilität) durch einfache Reflektion zu einem
Suppressor (Introversion bzw. Rigidität) konvertiert werden. Zur Vermeidung solcher
konzeptueller Unschärfen soll hier an der restriktiven Definition eines Suppressors
festgehalten werden, in der die Nullkorrelation mit dem Kriterium eine entscheidende
Rolle einnimmt.
rpc =
Weil es bei der Korrelation zwischen s und c keine gemeinsamen Elemente gibt, steht
im Zähler der Common-elements-Korrelation zwischen Suppressor- und Kriteriumsvariablen Null, deshalb: rsc = 0,00.
Nun lässt die Betrachtung von . Abb. 7.6 erkennen, dass es trotz der Irrelevanz von
s für c nützlich ist, die »frei schwebenden« Elemente in p, d. h. jene, die keine Kommunalität mit c zeigen, durch s zu »binden«. In einem solchen Fall weist p nur noch 8 andere Elemente auf (1p sowie 7c–p), und die Prädiktor-Kriteriums-Korrelation beläuft
sich dann auf
suppressor (s)
p-s
p-sp-s
p-s
p-s p-s
p-s
p-s
8
= .67.
8 + 8 ⋅ 1+ 8
criterion (c)
c
rps =
c
c
predictor (p)
Kapitel 7 · Probleme und Differenzierungen von Prognosen
. Abb. 7.6. Veranschaulichung der Korrelation zwischen je einer Prädiktor-,
Suppressor- und KriteriumsVariablen als Folge gemeinsamer Elemente. (Aus Conger & Jackson, 1972, S. 582)
434
1− rps
2
rcp − rcsrps
(7.8)
rcp
1− rps
2
(7.9)
2
1− rcs
rcp − rcs ⋅ rps
1− rps
2
(7.10)
6
Unter idealen Suppressorbedingungen vereinfacht sich (7.10) ebenfalls zu (7.9). Bei
suboptimalen Gegebenheiten muss der resultierende Koeffizient etwas höher ausfallen als (7.8), weil im Vergleich zum Partkoeffizienten im Nenner rcs zusätzlich berücksichtigt wird.
rc( p ⋅ s ) =
Die Formel (7.9) besagt, dass der Partkoeffizient immer dann höher als rcp (= die Validität) ausfällt, wenn rps ungleich Null ist.
Soll der Einfluss einer Drittvariablen aus 2 anderen Variablen herausgezogen werden
(z. B. der Suppressor gleichermaßen aus dem Prädiktor und dem Kriterium), ist die
Partialkorrelation angemessen, also
rc( p ⋅ s ) =
Falls die Korrelation zwischen s und c Null beträgt (= ideale Suppressorvoraussetzung), vereinfacht sich (7.8) zu
c = Kriterium,
p = Prädiktor,
s = Suppressor (oder Variable, die eine kleinere Korrelation mit c aufweist als p).
rc( p ⋅ s ) =
Die Formel für die Partkorrelation lautet:
Wie Conger und Jackson (1972) deutlich gemacht haben, bestehen enge Beziehungen zwischen dem Suppressionskonzept und der Part- bzw. Partialkorrelation:
Wird nämlich der Einfluss einer Variablen von einer anderen eliminiert und mit
einer dritten Variablen korreliert, liegt eine Konstellation vor, in der eine Partkorrelation angemessen ist (. Abb. 7.7). Genau das ist auch das Rationale für Suppressoreffekte.
Zur Beziehung der Suppression zu Part- und Partialkorrelation
Exkurs
7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression
7
. Abb. 7.7. Konstellation
für eine Partkorrelation sowie einen Suppressoreffekt.
P = Prädiktor, C = Kriterium,
S = Suppressor
Partialkorrelation
Partkorrelation
435
7
. Abb. 7.8. Zunahmen an
Validität (Ordinate) als Funktion der Korrelationen zwischen Suppressor und Prädiktor (rps; Abszisse) sowie
der originalen Test-Kriteriums-Validitäten (Linienschwarm)
Ausmaß der
Validitätssteigerung
1− rps 2
rcp 2 + rcs 2 − 2rcprcsrps
(7.11)
0,00
0,20
0,40
0,60
0,80
1,00
0,20
0,98
0,95
-1–
0,40
0,92
δ = rcp ((1-r 2sp ) 2 -1)
0,995
δ = r'c·sp - rcp
0,87
0,60
0,80
0,70
0,80
0,60
0,50
0,40
0,30
1,00
0,20
0,10
rps
Das Ausmaß der möglichen Validitätssteigerung durch einen Suppressor hängt nicht
nur von der Enge der Korrelation zu den anderen Prädiktoren der Batterie ab, sondern
auch von der originalen Prädiktor-Kriteriums-Validität. Die dafür maßgeblichen Funktionen sind aus . Abb. 7.8 ersichtlich.
Wenn die Validität beispielsweise mit rcp = .40 gleich hoch ist wie die Interkorrelation rps, bedeutet das einen Zugewinn um rund 0,04 Einheiten oder ca. 10%. Erst bei
sehr hohen Werten für rps fallen die Validitätszunahmen ernsthaft ins Gewicht.
Eben diese Voraussetzung aber war in den bislang durchgeführten empirischen
Untersuchungen nicht erfüllt (s. die Zusammenstellung bei Holling, 1981), weshalb die
Resultate insgesamt höchst unbefriedigend ausgefallen sind. Um dafür ein Beispiel zu
geben: In einer äußerst aufwändigen Studie prüfte Vagt (1974) die Hypothese, ob Aspekte der Testangst und Testmotivation als Suppressoren wirken. Zusätzlich zu vorliegenden Skalen entwickelte er eigens Fragebogen u. a. zur Erfassung von Angst vor der
R = rc( p⋅s ) =
Bei Verletzung der idealen Suppressorbedingungen liefert, wie bei einem Vergleich
der beiden Formeln deutlich wird, die multiple Korrelation den höheren Validitätskoeffizienten:
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Mulitiple Korrelation
436
rcq 2
rcp + rcq 2
2
(7.13)
(7.12)
Das bedeutet nichts Anderes, als dass die Suppressorvarianz 4mal soviel Varianz im
Prädiktor wie der zweite Prädiktor an Varianz im Kriterium erklären muss, um den
gleichen Effekt in Bezug auf die Validitätssteigerung zu erzielen.
rps 2 =
Werden die Zuwächse miteinander gleichgesetzt, so gilt:
p = 1. Prädiktor,
q = 2. Prädiktor (und potentieller Suppressor).
δ p = rc⋅pq − rcp ⋅ rcp2 + rcq 2 − rcp
Testsituation und den Testkonsequenzen, vor Psychologen und unangenehmer Selbsterkenntnis bzw. Tests zur Feststellung der Wichtigkeit von Psychologie für das Bedürfnis nach Selbsterkenntnis und des Vertrauens in die Gültigkeit von Prüfungen u. Ä.
Diese Skalen wurden zusammen mit Intelligenztests in einer Situation vorgegeben,
deren ernster, bedrohlicher Charakter durch verschiedene Maßnahmen betont wurde.
Das Kriterium bestand aus einem Maß für sprachliche Ausdrucksfähigkeit, das aus 2
Aufsätzen gewonnen wurde, die freiwillig und in einer entspannten Atmosphäre geschrieben worden waren. Die Validität des Intelligenztests für dieses Kriterium betrug
an N = 253 Schülern rcp=.66. Die Korrelationen zwischen einer der Suppressorskalen
und dem Kriterium lagen ganz überwiegend bei Null (höchste Koeffizienten rcs = –.25,
.14, und .12). Allerdings korrelierten die Suppressorvariablen auch mit dem Prädiktor
bestenfalls zu rps = –.25 (Angst vor Psychologen und der Psychologie) und rps = .23
(Leistungsmotivation), sodass von daher kaum Aussicht auf einen nennenswerten Validitätsgewinn durch Suppression bestand. Die einzige signifikante Erhöhung der Validität war im Falle der Wichtigkeit von Psychologie mit rcs = .12 und rps = .04 weniger
eine Folge von Suppression als vielmehr eine solche der Hinzunahme eines weiteren
unabhängigen Prädiktors.
Desgleichen mussten die Bemühungen von Goldberg et al. (1970), verschiedene
Antwortstilskalen auf ihre Suppressionseffekte gegenüber dem California Psychological
Inventory zu untersuchen, schon im Ansatz als aussichtslos angesehen werden, weil
Antwortstile mit den inhaltlichen Skalen nicht in einem Ausmaß korrelieren, das für
eine substantielle Validitätserhöhung Voraussetzung ist.
Um aber die bestechende Brillanz des Suppressionskonzeptes praktisch nutzen zu
können, bedarf es auch einer hohen Korrelation rps mit den Prädiktoren, die im Regelfall leichter zu erzielen ist als eine entsprechende Validität (rcp).
Allerdings gibt es einen Grund, warum entsprechende Bemühungen nicht mit dem
zu erwartenden Nachdruck entfaltet wurden: Im Vergleich zu dem Validitätsgewinn
durch einen Suppressor, wie er sich in . Abb. 7.6 als Formel für δ eingetragen findet,
beträgt der Zugewinn im Falle eines weiteren Prädiktors
7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression
7
Weiterer Prädiktor effektiver als Suppressor
Validitätsgewinn durch
zusätzlichen Prädiktor
Beispiel: Antwortstil
als Suppressor
Beispiel: Testangst und
Testmotivation als
Suppressoren
437
7
der Suppression?
ditätserhöhung beitragen können, obwohl sie mit dem Kriterium nicht
oder nur gering korrelieren. Aufgrund der hohen Korrelationen der
zusätzlichen Variablen mit den übrigen Prädiktoren werden deren kriteriumsirrelevante Varianzanteile gebunden oder unterdrückt.
! Ad 1. Suppression bezeichnet die Feststellung, dass Variablen zur Vali-
Conger, 1974; Holling, 1981.
Weiterführende Literatur
? 1. Was bezeichnet der Begriff
(zu Abschn. 7.3)
Fazit
Insgesamt zeigen die Forschungen zum Suppressorkonzept, dass es neben der
direkten Erhöhung der Validität durch Einsatz von weiteren Prädiktoren auch die
Möglichkeit gibt, Variablen zu erheben, die keinen oder einen nur sehr geringen
Zusammenhang zum Kriterium aufweisen. Die Brillanz des Suppressionskonzeptes
liegt darin, irrelevante Varianzanteile der Prädiktoren zu binden oder zu unterdrücken.
Kapitel 7 · Probleme und Differenzierungen von Prognosen
Übungsfragen
438
(S.472-473)
Diagnostik und Intervention
bei Gruppen
(S.468-471)
Tätigkeitsbezogene Diagnostik
und Intervention
(S.444-447, 449-451, 453-455, 458-465)
Personalbeurteilung
(S.440-443)
Diagnostik und Entwicklung
von Organisationen
Diagnostik in der Arbeits-, Betriebsund Organisationspsychologie
8
Strukturdiagnostik
Aufgaben der Organisationsdiagnostik
Bereiche der Diagnostik und Intervention
Diagnostik und Entwicklung von Organisationen
Eine so verstandene Organisationsdiagnostik stellt allerdings »eher ein Programm als
eine Sozialtechnologie« (von Rosenstiel, 1992, S. 358) dar, denn es gibt kaum genormte
Verfahrensweisen in diesem Bereich (. Abb. 8.1).
Allgemein lassen sich 2 grundlegende Muster voneinander unterscheiden, nämlich
die Strukturdiagnostik und die Prozessdiagnostik.
4 Die Strukturdiagnostik stellt das Mittel der Wahl in der vergleichenden Organisationsforschung dar, die dem sog. Kontingenzansatz verpflichtet ist. »Damit wird die
Annahme gekennzeichnet, dass Unterschiede zwischen Organisationsstrukturen
»Die psychologische Organisationsdiagnose dient dazu, die psychologischen Aspekte des Erlebens und Verhaltens von Mitgliedern in Organisationen zu diagnostizieren, um Regelhaftigkeiten im Erleben, im Verhalten und in den Interaktionen zu beschreiben, zu erklären und zu prognostizieren« (Büssing 1993, S. 445).
Definition
Im Gegensatz zu den mehr betriebswirtschaftlich ausgerichteten Organisationsanalysen, in denen es um »die systematische Untersuchung des gegebenen Gesamtzustandes
einzelner Organisationen mit dem Ziel der Aufdeckung vorhandener Organisationsprobleme und die Vorbereitung von Organisationsänderungen zum Zwecke der Verringerung oder Beseitigung dieser Probleme« (Klages, 1980, zit. nach Büssing, 1993,
S. 446) geht, ist die Aufgabe der psychologisch ausgerichteten Organisationsdiagnostik
mehr am Verhalten und Erleben der Mitglieder in Organisationen ausgerichtet:
8.1.1 Organisationsdiagnostik
Dabei gelten Organisationsdiagnostik und -entwicklung als Felder, in denen der Versuch einer Integration der 3 anderen Bereiche unternommen wird. Im Hinblick auf den
sich daraus ergebenden Überordnungsstatus soll nachfolgend zuerst darauf eingegangen werden.
Vier Bereiche sind es vor allem, innerhalb derer Diagnostik und Intervention einen
wichtigen Stellenwert einnehmen (s. von Rosenstiel, 1992; Bungard & Antoni, 1993):
4 Individuen,
4 Aufgaben,
4 Gruppen (darin auch Konflikte zwischen Personen) und
4 Organisationen.
8.1
Von Anfang an waren Diagnostik und Intervention in der ABO-Psychologie sehr
eng auf die praktischen Bedürfnisse von Organisationen (und zwar vor allem im industriellen Bereich) bezogen. Zu ihren Anwendungsfeldern zählen auf einer mehr abstrakten Ebene die Diagnostik und Entwicklung von Organisationen, und auf etwas konkreterem Niveau einerseits die am Individuum ausgerichtete Beurteilung und Entwicklung von Personal sowie andererseits die an den Arbeitsbedingungen ansetzende
Analyse und psychologische Gestaltung der Arbeit.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Diagnostik und
Entwicklung von
Organisationen,
Personal- und Arbeitsbedingungen
440
Angesichts der Verschiedenheit der Anforderungen, die in den einzelnen Anwendungsbereichen an die psychologische Diagnostik gestellt werden, ist evident, dass eine übergreifende und hinreichend kohärente Organisationsdiagnostik nur sehr schwer zu operationalisieren ist.
Ein Versuch in diese Richtung stellt das Organisationsanalyseinstrumentarium
OAI von van de Ven und Ferry dar (1980, zit. nach Büssing, 1993). Fünf verschiedene
»Module«, zu denen jeweils Fragebogen vorliegen, sollen den komplexen Anforderungen organisatorischen Geschehens gerecht werden:
1. Macroorganizational module: Dient der Messung der Gesamtstruktur der Organisation,
2. Interunit relations module: Hebt auf die Messung der Koordination zwischen
organisationalen Einheiten ab,
auf Unterschiede in den Situationen zurückzuführen sind, in denen sich die jeweiligen Organisationen befinden« (Büssing, 1993, S. 452). Solche »Situationen« können z. B. bestimmte Technologien oder die Größe der Unternehmen sein, die dann
innerhalb der Strukturdiagnose erfasst werden.
4 Die Prozessdiagnostik geht demgegenüber davon aus, dass »eine Vielzahl von Merkmalen und Bedingungen in Organisationen einer fortwährenden Veränderung unterliegt« (Büssing, 1993, S. 453). Organisationsdiagnostik kann sich bei einer solchen
Sichtweise im Gegensatz zu strukturdiagnostischen Vorgehensweisen nicht in einer
einmaligen Datengewinnung erschöpfen, sondern muss einen mehrstufigen Vorgang bilden. Sie wird besonders häufig angewandt bei der Diagnose von
5 organisationalen Veränderungen,
5 sozialer Interaktion und Kommunikation innerhalb von Organisationen und
5 Wechselwirkungen zwischen Strukturmerkmalen, situativen Faktoren und dem
Erleben/Verhalten in Organisationen.
8.1 · Diagnostik und Entwicklung von Organisationen
8
Organisationsanalyseinstrumentarium OAI
Prozessdiagnostik
. Abb. 8.1. Auch die
Raumgestaltung in Organisationen kann Hinweise auf
die Unternehmenskultur liefern
441
8
SORK-Paradigma
Intervention in
Organisationen
Beispiel: Diagnose des
Organisationsklimas
Unter Organisationsentwicklung versteht man eine geplante, meist mehrjährige Intervention in der gesamten Organisation (also nicht nur in einzelnen Bereichen oder
Gruppen). Was die Zielsetzung solcher Interventionen angeht, soll es nicht um »klassische Rationalisierungsprojekte (gehen), die ausschließlich auf eine Erhöhung der
Produktivität abzielen; vielmehr steht zum einen die Forderung der Selbstverwirklichung und Autonomie der Mitarbeiter im Vordergrund, (zum anderen soll) durch die
Konzipierung und Implementation geeigneter Arbeits-, Führungs- und Kooperationsformen ein hohes Maß an Commitment sowie eine hinreichende leistungsbezogene
Effizienz aller Organisationsmitglieder sichergestellt werden« (. Abb. 8.2, Gebert,
1993).
Beruhend auf dem S(Stimulus)-O(Organismus)-R(Reaktion)-K(Konsequenz)Paradigma unterscheidet Gebert (1993) einen personalen und einen strukturalen
8.1.2 Organisationsentwicklung
Die darauf gerichteten Untersuchungen ergaben am Ende aber, dass sich das Konstrukt
des Organisationsklimas, obgleich konzeptuell eigenständig, empirisch, also in der Praxis, von »Betriebsklima« und »Arbeitszufriedenheit« kaum unterscheiden lässt (s. von
Rosenstiel, 1992).
Auf weitere Beispiele für die Diagnostik in anderen Teilbereichen von Organisationen wird in 7 Abschn. 8.1.2 eingegangen.
Vom OAI einmal abgesehen, handelt es sich bei Organisationsdiagnostik mehr um eine
theoretische Fiktion denn um ein konkretes Diagnostikinstrumentarium. So ist es in
der Praxis durchaus üblich, jeweils nur Teilbereiche diagnostisch zu erfassen, was am
Beispiel der Messung des »Organisationsklimas« kurz dargestellt werden soll:
Das Konstrukt des »Organisationsklimas« unterscheidet sich von dem mehr industriesoziologischen Ansatz des »Betriebsklimas«. Unter Letzterem wird die bewertende
Beschreibung einer Organisation durch ein aggregiertes soziales Kollektiv verstanden,
wohingegen das Organisationsklima für eine nichtbewertende Beschreibung der Organisation durch den Einzelnen steht. In diesem Sinne zielen Untersuchungsinstrumente
zum Organisationsklima z. B. auf die folgenden, rein deskriptiv zu verstehenden Gesichtspunkte:
4 Betrieb als Ganzes,
4 Kollegen,
4 Vorgesetzte,
4 Aufbau- und Ablauforganisation,
4 Information und Mitsprache,
4 Interessenvertretung,
4 betriebliche Leistung.
3. Organizational unit module: Erfasst die Aufgaben, Strukturen und Prozesse auf
verschiedenen Arbeitsebenen,
4. Job design module: Misst Merkmale einzelner Arbeitsplätze einschließlich ihrer
strukturellen Anforderungen und der Einstellung sowie die Zufriedenheit der Arbeitenden,
5. Performance module: Richtet sich an die Effizienz und Effektivität auf den verschiedenen Arbeitsebenen.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Begriff »Organisationsdiagnostik« eher
theoretische Fiktion
442
rung der Arbeitswelt sowie die Erhöhung von Effizienz und Commitment der
Organisationsmitglieder abzielen.
! Die Organisationsentwicklung umfasst Maßnahmen, die auf die Humanisie-
Das allgemeine Anliegen der Organisationsentwicklung besteht darin, solche (Rahmen-)Bedingungen in Organisationen zu schaffen, die einer Verwirklichung der oben
angeführten Ziele dienlich sind. Dabei muss hauptsächlich zu Beginn von entsprechenden Maßnahmen sowohl auf Seiten des Managements als auch auf Seiten der Belegschaft viel Überzeugungsarbeit geleistet werden, um neue, partizipativere Arbeits- und
Führungsstile dauerhaft verwirklichen zu können. Konkret können dafür Führungstraining und Teamfähigkeitstraining vonnöten sein, oder auch die Auswahl von Mitarbeitern, die eine besondere Schulung erfahren, um die neuen Formen der Arbeit
optimal vorstellen zu können.
Hand in Hand damit sollte eine Enthierarchisierung innerhalb der Organisationsstrukturen angestrebt werden, um den Mitarbeitern im Sinne der Humanisierung der
Arbeitswelt mehr Mitsprachemöglichkeiten und Autonomie zu geben. Diese Beispiele
sollen auf die große Zahl und Bandbreite denkbarer Organisationsentwicklungsmaßnahmen auf den unterschiedlichsten Organisationsebenen hinweisen. In der Praxis
sind häufig genug ökonomische Erwägungen oder anderweitige Sachzwänge (z. B. die
Einführung neuer Techniken) für die Realisierung solcher Maßnahmen entscheidend.
Die in der Theorie und Programmatik gewöhnlich in den Vordergrund gerückten humanistischen Ziele stellen meist nur (durchaus willkommene) Nebeneffekte dar.
Ansatz der Organisationsentwicklung. Dabei sollten im Idealfall beide Ansätze gleichzeitig verwirklicht werden:
4 Der personale Ansatz richtet sich auf die Kategorien O und R und beinhaltet beispielsweise gruppendynamische Trainings- sowie Weiterbildungsmaßnahmen.
4 Der strukturale Ansatz bezieht sich auf die Elemente S und K und beinhaltet, grob
vereinfacht, die sog. »neuen Formen der Arbeitsgestaltung« (u. a. »job enrichment«)
sowie die Implementierung von Gruppenarbeitsmodellen.
8.1 · Diagnostik und Entwicklung von Organisationen
8
Humanisierung
der Arbeitswelt
Schaffung von
Rahmenbedingungen
Strukturaler Ansatz
Personaler Ansatz
. Abb. 8.2. Besonders in
der Automobilindustrie sind
Beispiele für die Einrichtung
»teilautonomer Arbeitsgruppen« bekannt geworden,
deren Vor- und Nachteile
heftig diskutiert wurden
443
8
Regelmäßige Leistungsbeurteilungen
Rückmeldungen zum
Arbeitsverhalten
3 Ebenen der
Beurteilung
Personalbeurteilung
Personalbeurteilung
Leistungseinschätzung,
Zielsetzung
2. Ebene
Leistungsbeurteilung
Fähigkeitseinschätzungen,
Prognosen
Verhaltenssteuerung, Lernen
1. Ebene
Day-to-day-Feedback
3. Eben
Potentialbeurteilung
Funktion
Ebene
Eignungsdiagnose,
Assessment Center
systematische Beurteilung
Gespräch, Unterstützung
Verfahrensweise
. Tabelle 8.1. 3 Ebenen der Personalbeurteilung. (Nach Schuler & Prochaska, 1992, S. 178)
Dabei lassen sich 3 Ebenen der Beurteilung unterscheiden (. Tab. 8.1).
Die erste Ebene bezieht sich hauptsächlich auf das alltägliche Arbeitsverhalten.
Hier hat sich gezeigt, dass Feedback, wie aus den experimentellen Laborstudien nicht
anders zu erwarten, dann am wirksamsten ist, wenn dem Akteur die Kontingenzen
zwischen Verhalten und dessen Konsequenzen klar vor Augen geführt werden können.
Solche Rückmeldungen sind von großer Bedeutung für das Verhalten der Beurteilten,
weil das fragliche Verhalten noch relativ gegenwärtig oder »greifbar« ist. Da die methodischen Ansprüche auf dieser Ebene vergleichsweise gering sind, kann meist auf ein
systematisches Beurteilungsverfahren verzichtet werden.
Die zweite Ebene wird markiert durch die regelmässig stattfindenden Leistungsbeurteilungen, die für Zwecke der Personalentwicklung und des Personalmanagements unentbehrlich sind (z. B. für Platzierungs- und Beförderungsentscheidungen).
Die Beurteilung erfolgt meist auf der Basis eines Gespräches zwischen Vorgesetztem/
Vorgesetzter und Mitarbeiter/Mitarbeiterin, wobei dieses Gespräch aus Gründen der
Objektivitätsoptimierung zumindest in halbstandardisierter Form erfolgen sollte. Neben konkret-objektiven Indikatoren wie Verkaufs- und Umsatzzahlen, den Diskrepanzen zwischen Soll- und Ist-Zuständen u. a. werden gewöhnlich auch potentielle individuelle Förderungsmassnahmen und solche zur Erhöhung der persönlichen Bewährungswahrscheinlichkeit und Einsatzbreite einen Themenschwerpunkt bilden. Wichtig
ist für den Ertrag der Unterredung eine besondere Schulung des Vorgesetzten in Ge-
»Leistungs- und Potentialdaten werden im organisationalen Kontext zum Zwecke der
individuellen Auswahl, Beurteilung und Förderung erhoben, um Über- und Unterforderung von Mitarbeitern zu vermeiden, Entwicklungsmöglichkeiten zu sichern und
gleichzeitig die Effizienz von Organisationen zu steigern« (Schuler & Prochaska, 1992,
S. 158).
Die auf Individuen bezogene Diagnostik lässt sich in 2 Bereiche untergliedern:
4 Im Rahmen der Eignungsdiagnostik werden Daten über die Eignung von Bewerbern für Stellen oder Funktionen erhoben.
4 Die (systematische) Personalbeurteilung schließt eignungsdiagnostische Aussagen
häufig ein, geht andererseits in jenen Fällen darüber hinaus, wo es um die Abschätzung von Potentialen und die Zuführung zu Personalentwicklungsmaßnahmen
geht.
8.2
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Eignungsdiagnostik
444
Dabei sind 3 prototypische Konstellationen identifizierbar, zwischen denen aber fließende Übergänge auftreten (zit. nach von Rosenstiel, 1992):
4 Es sind mehrere freie Stellen, aber nur ein Bewerber oder eine Bewerberin vorhanden. Diese(r) soll auf jene Stelle kommen, die ihr/ihm am besten entspricht (Auswahl der bestgeeigneten Funktion oder Stelle; »Eignungsdiagnostik«).
»Unter Berufseignungsdiagnostik wird die Gesamtheit aller wissenschaftlichen und
wissenschaftsgeleitet-praktischen Bemühungen verstanden, die auf dem Wege über
eine gedankliche Zuordnung von beruflichen Situationen zu Personen oder von Personen zu beruflichen Situationen die Ziele ›Maximierung beruflicher Zufriedenheit‹
und ›Maximierung beruflicher Leistung‹ anstreben« (Eckardt & Schuler, 1992, S. 534).
Definition
8.2.1 (Berufs-)Eignungsdiagnostik
sprächsführung. Hilfreich können für den Beurteiler auch Einstufungsverfahren, wie
z. B. Skalen zur Verhaltensbeobachtung, sein.
Von der dritten Ebene wird allgemein eine besondere prognostische Funktion erwartet, sie wird deshalb auch als Potentialbeurteilung bezeichnet und liefert die
Grundlage für nachfolgende Personalentwicklungsmaßnahmen. Die methodischen
Ansprüche an diese Form der Mitarbeiterbeurteilung sind hoch, sodass neben der Ergebnis- bzw. Verhaltensbeurteilung durch einen Vorgesetzten mehr und mehr Elemente der Assessment-Center-Technik zum Tragen kommen.
8.2 · Personalbeurteilung
8
3 Aufgabenstellungen
möglich
Potentialbeurteilung
. Abb. 8.3. In Dienstleistungsberufen sollte z. B.
auch »kundenorientiertes
Verhalten« bei einer Personalbeurteilung berücksichtigt werden
445
8
446
In den so genannten »Leitsätzen« werden allgemeine Empfehlungen zum Vorgehen
formuliert. Beispielsweise sollte zur Aufklärung über die Untersuchungssituation gehören, dass die Kandidaten erfahren, welche Personen an der Untersuchung mitwirken,
4 Für die Anbieter entsprechender Dienstleistungen (»Auftragnehmer«): Leitfaden
für die Planung und Durchführung von Eignungsbeurteilungen.
4 Für die Personen und Institutionen, die Eignungsbeurteilungen durchführen lassen (»Auftraggeber«): Maßstab für die Bewertung von externen Angeboten.
4 Für die Personalverantwortlichen: Qualitätssicherung und -optimierung von
Personalentscheidungen.
4 Für die Personen, deren Eignung beurteilt wird: Schutz vor unsachgemäßer oder
missbräuchlicher Anwendung von Verfahren.
Zweck der DIN 33430
DIN 33430 zu berufsbezogenen Eignungsbeurteilungen: Anforderungen an
Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen
Zur Feststellung der berufsbezogenen Eignung wurden in der Vergangenheit häufig
Verfahren mit fraglicher Validität herangezogen. Umgekehrt ist in der beruflichen Praxis die Akzeptanz für nachweislich hoch valide Verfahren gering (. Tab. 8.2). Aus der
Unzufriedenheit mit der Praxis der beruflichen Eignungsdiagnostik entwickelte sich
eine Initiative zur Etablierung eines Standards für eine wissenschaftlich fundierte Vorgehensweise. Der Berufsverband Deutscher Psychologinnen und Psychologen (BDP)
stellte 1995 beim Deutschen Institut für Normierung e.V. (DIN e.V.) den formalen
Antrag, eine Norm zur beruflichen Eignungsdiagnostik zu erarbeiten. Unterstützung
fand der BDP durch die Deutsche Gesellschaft für Psychologie (DGPs). Am 9. Juni 1997
nahm ein Ausschuss des Deutschen Instituts für Normung, der mit Vertretern aus
Wissenschaft und Praxis, Unternehmen, Behörden, Verbänden und Verlagen besetzt
war, unter Vorsitz von Prof. Hornke die Arbeit auf (7 auch Interview mit Prof. Hornke).
Das Ergebnis dieser Arbeit ist letztlich ein Konsens, der auch von Interessen der Beteiligten geprägt ist. Im Jahr 2002 erfolgte die Veröffentlichung der »Anforderungen an
Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen: DIN 33430«
(Beuth-Verlag, Berlin).
Auf 15 Seiten Text (der durch sieben Seiten Glossar ergänzt wird) werden Qualitätsstandards sowohl für die Personen, die als Auftragnehmer oder Mitwirkende die Eignungsbeurteilung durchführen, als auch an die dabei eingesetzten Verfahren definiert.
Die DIN 33430 ist nicht rechtsverbindlich. Das Deutsche Institut für Normung ist ein
privater Verein, der auf Antrag Dritter den Normerstellungsprozess koordiniert. Es
steht potentiellen Anwendern frei, sich künftig nach der Norm zu richten. Allerdings
darf die Norm nicht beliebig zu Werbezwecken benutzt werden; bei Missbrauch droht
eine Abmahnung. Denkbar ist, dass sich Gerichte künftig bei Klagen von abgewiesenen
Bewerbern an der DIN 33430 orientieren.
nete Person soll ermittelt werden (»Konkurrenzauslese«).
4 Nur eine Stelle ist frei, für die sich mehrere Interessenten bewerben. Die bestgeeig-
Ziel ist die wechselseitige optimale Zuordnung oder Platzierung.
4 Die Anzahl der offenen Stellen und die Anzahl der Bewerber entsprechen einander.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Anforderungsbezug
Kandidaten vorab möglichst Informationen über den Arbeitsplatz geben
Vorgehensweise der Vorauswahl und die Auswahlkriterien vorab festlegen
Gesetzliche Vorgaben (u. a. Schweigepflicht, Datenschutz) beachten
Kandidaten vorab über die Untersuchungssituation aufklären und diese angemessen gestalten.
Bei den Personen, die an der Eignungsuntersuchung beteiligt sind, wird zwischen Auftraggeber, Auftragnehmer und »Mitwirkenden« unterschieden, die einzelne Verfahren
durchführen und auswerten können. Auftraggeber kann z. B. ein Unternehmen sein,
das freie Stellen besetzen möchte. Der eignungsdiagnostische Prozess kann von Mitarbeitern des Unternehmens in Eigenregie durchgeführt werden, es können aber auch
externe Experten beauftragt werden. In beiden Fällen wären diese Personen Auftragnehmer. Der Auftragnehmer ist hauptverantwortlich für den gesamten Prozess, der von
der Planung und Durchführung der Untersuchung über die Auswertung und Interpretation der Ergebnisse bis zum Bericht an den Auftraggeber reicht. Er muss die zur
Verfügung stehenden Verfahren und Prozesse kennen. Dazu gehören auch Kenntnisse
über die Konstrukte (z. B. Intelligenz) und über die Qualität und Einsatzvoraussetzungen der Verfahren. Bestimmte Teilprozesse, insbesondere die Durchführung und Auswertung einzelner Verfahren, kann er an »Mitwirkende« delegieren.
Von den Verfahren wird verlangt, dass sie grundsätzlich einen Bezug zu den Anforderungen aufweisen. Ein Verfahren, das bei einer Fragestellung passend ist, kann
bei einer anderen völlig unangemessen sein. Es werden jedoch auch allgemein gültige
Auswahlkriterien genannt. So sollen in den Unterlagen zu einem Verfahren die Handhabung erklärt und Angaben gemacht werden, die zu einer kritischen Bewertung
nötig sind. Konkrete Anforderungen werden an die Objektivität, Zuverlässigkeit, Gültigkeit und die Normen formuliert. In einem Anhang der DIN-Norm finden sich detaillierte Forderungen, welche Informationen über ein Verfahren verfügbar sein
sollten (z. B. zur Zielsetzung, der theoretischen Grundlage, bestimmte Aspekte der
Reliabilität).
Nach gegenwärtigem Stand (Juli 2005) ist nur eine Lizenzierung von Personen realisiert worden. Organisiert werden die Prüfungen von der Deutschen Psychologenakademie (DPA), einer Bildungseinrichtung des BDP, die auch ein öffentlich zugängiges
Register lizenzierter Personen führt. Für die Zulassung zur Prüfung ist kein bestimmter
Berufs- oder Studienabschluss erforderlich, wohl aber ein Nachweis angeleiteter Praxiserfahrung. Informationen zur DIN-Prüfung, aber auch weitere aktuelle Informationen
zur DIN 33430 finden sich über die Homepage des BDP (http://www.bdp-verband.
org/bdp/politik/din.shtml). Das Grundwissen zur DIN 33430, das zugleich auch für die
Zertifizierung nach DIN 33430 prüfungsrelevant ist, liegt in einem von Westhoff et al.
(2005) herausgegebenen Band vor.
4
4
4
4
4
Leitsätze für die die Vorgehensweise bei berufsbezogenen Eignungsbeurteilungen
welche Folgen eine mangelnde Kooperation haben kann und wer von den Ergebnissen
der Untersuchung erfährt.
8.2 · Personalbeurteilung
447
8
Um Antworten auf jede dieser Fragestellungen zu erhalten, bedient sich die berufliche
Eignungsdiagnostik nahezu der gesamten Palette verfügbarer Instrumente, vielleicht
mit Ausnahme der projektiven Verfahren. Innerhalb des Entscheidungsprozesses, der
zur Einstellung bzw. zur Ablehnung eines Bewerbers führt, kommt auch heute noch
dem Bewerbungsgespräch die Funktion eines Eckpfeilers zu (. Tab. 8.2). Darin ist
allerdings eine gewisse Gefahr insofern enthalten, als implizite Theorien auf Seiten des
Gesprächsleiters eine informationssuchende und entscheidungsleitende Funktion
übernehmen können, und zwar zu Lasten einer sachlichen Angemessenheit. Daher
sind strukturierte Interviews gegenüber unstrukturierten wegen ihrer höheren Validität
und Fairness - die Bewerber werden weitgehend gleich behandelt - zu bevorzugen.
Was Tests angeht, so kommen hauptsächlich solche zur Allgemeinen Intelligenz zur
Anwendung. Insbesondere der Zusammenhang der Allgemeinen Intelligenz mit der
Leistungshöhe im Beruf ist durch zahllose Untersuchungen empirisch gut belegt, und
zwar für nahezu alle Gruppen von beruflichen Tätigkeiten (s. Eckardt & Schuler, 1992,
S. 538). Weitere Merkmale, die mittels Leistungstests erfasst werden, gehören je nach
den Anforderungen der zu besetzenden Stellen zu den Bereichen der anschauungsge-
Wird in Zukunft eine einheitliche europäische Norm angestrebt?
Die DIN 33430 auf europäischem Parkett zu präsentieren und u. a. dort zu etablieren
ist eine sinnvolle und folgerichtige Idee, aber so schwierig es war, sich national zu einigen, so schwierig wird es sein, sich europäisch zu einigen. In Österreich hat man zwischenzeitlich die DIN 33430 in eine Önorm übernommen. Vorbildlich sind zwar die
Vorstellungen der British Psychological Society, die A-, B-, C-Lizenzen für Testanwender vorsehen. Aber die DIN 33430 rückt ja gerade vom Test ab und betont den gesamten Prozess der Eignungsbeurteilungsarbeit. Das ist weit mehr als Testanwenden! <
Woran kann beispielsweise ein Bewerber erkennen, dass seine berufliche Eignung
professionell nach den DIN-Standards beurteilt wird?
Zunächst einmal daran, dass die Rückmeldung, die jemand nach der Eignungsbeurteilung erhält, die eigenen Leistungen und Neigungen angemessen widerspiegelt. Problematisch wird das naturgemäß dann, wenn Bewerber sich anders sehen als sie von Eignungsbeurteilern erlebt werden. Aber die DIN 33430 will da ja gerade helfen, Willkür
in der Eignungsbeurteilung abzustellen.
Was bedeutet DIN 33430 für Absolventen eines Psychologiestudiums, die in ihrem
angestrebten Beruf berufliche Eignungsdiagnostik betreiben wollen?
Zunächst bedeutet es, dass Absolventen der Psychologie sich auf Augenhöhe mit
den Angehörigen anderer Berufsgruppen messen müssen, wenn es um Mitarbeit in der
beruflichen Eignungsbeurteilung geht. Sie alle haben über solides Wissen zu verfügen
und auftragsangemessen zu planen sowie eignungsbezogene Informationen zu erheben.
eine Fortbildungsserie für in der Eignungsbeurteilung Tätige entwickelt (s. http://www.
dpa-bdp.de/willkommen__21.html). Deshalb wurde auch eine Lizenzprüfung konzipiert und zwischenzeitlich schon über 40mal durchgeführt. Deshalb wurde ein öffentliches Register erstellt, in das sich - auch psychologiefremde - Personen nach erfolgreicher Lizenzprüfung eintragen lassen können. Deshalb wird weiter für die DIN 33430
geworben, damit aus der Normungsidee eine normierte, gute Praxis wird, bei der nicht
einfach Schritte weggelassen oder vergessen werden, die für die so entscheidende Beurteilung der Eignung von Personal wesentlich sind.
8.2 · Personalbeurteilung
Tests zur Allgemeinen
Intelligenz
Bewerbungsgespräch
449
8
8
Prognosegüteb
.51
.54
.48
.51
.38
.41
.37
.35
.26
.02
Berufserfolg
Einsatzhäufigkeit (%) a
3
12
5
50
51
5
12
14
32
3
Ausbildungserfolg
Prognosegüteb
.56
_
–
.35
.35
.38
–
.30
.23
–
Einsatzhäufigkeit (%) a
32
20
40
55
28
10
6
11
5
0
bundenen Intelligenz (Wahrnehmungsgeschwindigkeit und -genauigkeit) sowie der
Psychomotorik (Hand- und Fingergeschicklichkeit, sensomotorische Koordination).
Insbesondere wird jedoch den letzteren gewöhnlich ein sehr viel geringeres Gewicht als
den kognitiven Fähigkeitsfaktoren zugemessen. In . Tab. 8.2 sind unter »Leistungstests« Verfahren zusammengefasst, die berufsrelevantes Wissen erfassen.
Leistungsmotivation stellt weithin verbreiteten Überzeugungen zufolge eine ganz
wesentliche Voraussetzung für beruflichen Erfolg dar. Spangler (1992) führte eine
Metaanalyse über insgesamt 105 empirische Untersuchungen zum Zusammenhang
zwischen Leistungsmotivation und verschiedenen Leistungsmaßen durch. Die Leistungsmotivation wurde entweder durch Fragebogen (193 Korrelationen, N = 15.328)
oder durch einen projektiven Test, den TAT (190 Korrelationen; N = 12.961) gemessen. Unter den analysierten Leistungsmaßen stellen reale Leistungen im Leben, bspw.
Einkommen oder Verkaufserfolge, das härteste Validitätskriterium dar. Fragebogenmaße korrelierten durchschnittlich zu .13 mit realen Leistungen, TAT-Maße zu .22.
Bei den Koeffizienten handelt es sich um beobachtete, unkorrigierte Werte. Die leichte Überlegenheit des projektiven Verfahrens ist möglicherweise auf eine Konfundierung mit Intelligenz zurückzuführen. Intelligentere Personen produzieren eher längere Geschichten zu den TAT-Bildern, und mit der verbalen Produktivität steigt das
Motivmaß an.
Eine weitere Metaanalyse (Robbins, Lauver, Le, Davis, Langley & Carlstrom, 2004)
galt der Beziehung zwischen psychosozialen Faktoren, unter anderem auch von – mit
Fragebogen erfasster – Leistungsmotivation und Studienerfolg. Die Autoren errechneten eine mittlere Korrelation von .26 (korrigiert .30) zwischen Leistungsmotivation und
a
Anmerkung. Leicht modifiziert nach Schmidt-Atzert (2005, S. 227). Ergebnisse zu ausgewählten
Verfahren. Weitere Erläuterungen im Text.
Einsatzhäufigkeit in deutschen Unternehmen nach Schuler, Frier und Kaufmann (1993); prozentualer Anteil der Unternehmen, die das Verfahren zur externen Personalauswahl bei
Auszubildenden/(Fach-) Arbeitern, Angestellten ohne Führungsaufgaben, Trainees und Führungskräften einsetzen. Bei Interview jeweils höchste Nennungshäufigkeit aus Personalabteilung oder Fachabteilung.
b nach Schmidt und Hunter (1998).
c Zur Spezifizierung dieser Verfahren 7 Text.
Kognitive Leistungstests
Arbeitsproben
Leistungstestsc
Interview, strukturiert
Interview, unstrukturiert
Persönlichkeitstestsc
Assessment Center
Biograf. Fragebogen
Referenzen
Graphologie
Verfahren
. Tabelle 8.2. Einsatzhäufigkeit und Prognosegüte verschiedener Verfahren zur Vorhersage
von Ausbildungs- und Berufserfolg
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Leistungsmotivation
450
6
bei der Bundeswehr«
Wie viele Psychologen arbeiten bei der Bundeswehr, welche Anforderungen müssen
sie bei der Einstellung erfüllen, und wie werden sie weiter für ihre Einstellung qualifiziert?
Zahl der Psychologinnen und Psychologen bei der Bundeswehr: 180.
Anforderungen bei der Einstellung:
4 Hauptdiplom in Psychologie einer Universität,
4 Uneingeschränkte Bereitschaft zum Einsatz im gesamten Bundesgebiet,
4 Uneingeschränkte Bereitschaft zur truppenpsychologischen Ausbildung und zur
Teilnahme an Auslandseinsätzen der Bundeswehr (ggf. im Soldatenstatus),
> Interview mit Dr. Dieter Hansen zum Thema »Psychodiagnostische Verfahren
Studienleistungen in Form von Noten (17 Korrelationen, N = 9.330). Fazit: Trotz der
plausiblen Annahme, dass berufliche Leistungen oder Studienleistungen erheblich von
der Leistungsmotivation abhängen, lassen sich zwar positive, aber doch nur schwache
Korrelationen finden.
Zwischen den »Big-Five«-Persönlichkeitsmerkmalen und Berufserfolg besteht nur
ein schwacher Zusammenhang. Barrick, Mount und Judge (2001) haben insgesamt 15
Metaanalysen dazu vorgefunden und die Ergebnisse daraus aggregiert. Der höchste
Zusammenhang besteht mit einer Korrelation von .12 für Gewissenhaftigkeit (Mittelwert von 239 Studien, N = 48.000). Nach Korrektur für Varianzeinschränkung und
Reliabilität entspricht dem eine Korrelation von .27 auf Konstruktebene. In Tab. 8.2
sind unter »Persönlichkeitstests« Ergebnisse zu einer speziellen Variante von Fragebögen aufgeführt, nämlich Integritätstests. Diese Verfahren wurden entwickelt, um
kontraproduktives Verhalten im Unternehmen (Diebstahl, Alkohol- oder Drogenkonsum, Beschädigung oder Zerstörung von Sachen etc.) vorherzusagen. Integritätstests
weisen nicht nur eine beachtliche Validität auf, sie haben zudem eine inkrementelle
Validität gegenüber der Intelligenz (Schmidt & Hunter, 1998). In Deutschland finden
Integritätstests kaum Verwendung.
Relativ gute Validitäten erbringen biografische Fragebogen, deren Grundgedanke
darin besteht, »dass vergangene Erfahrungen und deren subjektive Verarbeitung
brauchbare Prädiktoren künftigen Verhaltens sein müssten« (Schuler & Prochaska,
1992, S. 171). Metaanalysen ergaben allerdings, dass die Höhe der Validitätskoeffizienten stark von der jeweiligen Gruppe abhängt, sodass z. B. akzeptable Werte bei
Militärs und Wissenschaftlern, nur sehr niedrige hingegen (aus verständlichen Gründen) bei Jugendlichen zu beobachten waren (zusammenfassend s. Schuler & Prochaska, 1992).
Die bei den erwähnten und weiteren Prädiktortypen als durchschnittlich ermittelten Validitätskoeffizienten sind in . Tab. 8.2 zusammengestellt. Die in der ersten Spalte
aufgeführten Befragungsergebnisse zeigen, dass die Anwendungshäufigkeit eines Verfahrens mehrfach nicht mit der Validität korrespondiert. So haben sich kognitive Leistungstests, andere Leistungstests und Arbeitsproben zur Vorhersage von Berufserfolg
bewährt. Den Befragungsergebnissen zufolge werden sie dennoch relativ selten eingesetzt.
Eine Institution, in der Personalauswahl in großem Umfang betrieben wird, ist die
Bundeswehr. Das 7 Interview mit Dr. Hansen gibt einen Einblick in die Praxis der Personalauswahl und informiert über die Anforderungen an Psychologen, die bei der
Bundeswehr tätig sein wollen.
8.2 · Personalbeurteilung
Biografische
Fragebogen
Andere Persönlichkeitsmerkmale
451
8
Ein wiederkehrendes Problem eignungsdiagnostischer Untersuchungen besteht darin,
dass Testverfahren zum Einsatz gelangen, die nicht in ausreichendem Maße auf die
üblichen Testgütekriterien hin überprüft wurden. Das liegt vielfach daran, dass zahlreiche Betriebe aufgrund sehr spezifischer Voraussetzungen und Anforderungen der jeweiligen Stellen zunächst eigene Testverfahren entwickeln, die dann aus Zeit- oder
Geldmangel, mitunter auch weil nach einer Stellenbesetzungsphase nicht mehr die
! Eignungsdiagnostische Untersuchungen werden durchgeführt, um größtmögliche Übereinstimmung zwischen beruflichen Anforderungen und optimaler
Bewerberauswahl und -zuordnung zu erreichen. Dazu bedient sie sich nahezu
der gesamten Palette verfügbarer Instrumente. Besondere Bedeutung kommt
dem Bewerbungsgespräch zu.
In welchem Verhältnis steht nach Ihren Erfahrungen der personelle Aufwand der
psychologischen Eignungsdiagnostik zu dessen Nutzen?
Militärische Ausbildungsgänge sind im Allgemeinen mit hohen Kosten verbunden
(z. B. kostet die Ausbildung eines Kampfpiloten 1,5 Mio Euro). Darüber hinaus können
Fehlleistungen von Spezialpersonal, das fälschlicherweise ausgewählt wurde, in risikoreichen Situationen (z. B. Flugsicherheit) zu dramatischen Konsequenzen führen. Personalauswahl dient insofern nicht nur dazu, die Versagerraten in der Ausbildung auf
einem vertretbar niedrigen Niveau zu halten, sondern auch der Gewährleistung der
Sicherheit und Effektivität im Einsatz. Sowohl aus qualitativer als auch aus ökonomischer Sicht hat sich der Einsatz der psychologischen Eignungsdiagnostik mit dem damit
verbundenen personellen Aufwand im Rahmen der Bundeswehr ausgezahlt. <
Wie ist es Ihren Erfahrungen zufolge um die prognostische Validität der eingesetzten diagnostischen Verfahren bestellt?
Die Erfassung der prognostischen Validität der in der Bundeswehr eingesetzten diagnostischen Verfahren bereitet erhebliche Probleme, da die Verfahren häufig geändert
werden (Berücksichtigung neuer Anforderungen in der Ausbildung und im beruflichen Einsatz), und weil die Zeitspanne zwischen Testdurchführung und der Verfügbarkeit von Leistungsergebnissen aus der Ausbildung bzw. aus der beruflichen Bewährung
zumeist mehrere Jahre beträgt. Einige Analysen zeigen, dass die Validitätskoeffizienten
der simulationsgestützten Arbeitsproben im Mittel über .50 liegen, während Intelligenz- und Konzentrationsverfahren mittlere Werte um .40 erreichen. Weniger valide
sind Interview und Gruppensituationsverfahren.
Für den Laien müssten Integritätstests in einer Organisation wie der Bundeswehr
eine große Bedeutung haben, stimmt das?
Sog. Integritätstests finden bei der Bundeswehr keine Verwendung.
Für Außenstehende kommen Fragen der Belastbarkeit eine besondere Bedeutung
innerhalb militärischer Belange zu; stimmt das, und welcher Art sind die darauf
gerichteten Instrumente?
Das Merkmal »Belastbarkeit« ist in der Tat für die Mehrzahl der militärischen Verwendungen von besonderer Bedeutung.
Belastbarkeit wird mit folgenden Instrumenten bewertet:
4 teilstandardisiertes Interview (Prüfgruppe aus Psychologen und Offizieren),
4 Verhaltensbeobachtung bei simulationsgestützten Arbeitsproben,
4 Verhaltensbeobachtung bei Gruppensituationsverfahren.
8.2 · Personalbeurteilung
8
Problem: Mangelnde
Testgüte der Verfahren
453
8
Platzierung
Selektion
guter Eindruck
vorwiegend Leistungsmerkmale
nicht unbedingt erforderlich
Messgegenstand
Normen
Welcher Proband passt am besten
zu dem Beruf?
Ziel des Probanden
Fragestellung
unbedingt erforderlich
auch Interessen und Persönlichkeit
realistisches Bild
Welcher Beruf passt zum
Eignungsprofil des Probanden?
Platzierung
. Tabelle 8.3. Unterschiede zwischen Selektion und Platzierung
Notwendigkeit weiterer Testuntersuchungen besteht oder sich die Gegebenheiten im
Umfeld ändern, keiner weiteren Überprüfung mehr unterzogen werden.
Ein weiterer Problembereich liegt darin, dass Eignungsdiagnostik in aller Regel
Status- und nicht Prozessdiagnostik ist. Damit bestimmt gleichsam die Tagesform der
Bewerber ihre Chance, und die punktuellen Messungen eröffnen nur geringe Möglichkeiten, treffsichere Aussagen über künftige Entwicklungen der Bewerber zu machen.
Um die Statusdiagnostik durch die Perspektive des Prozessualen zu erweitern, wurden u. a. die Entwicklungen des Assessment Centers (7 Abschn. 8.2.2) vorangetrieben.
Bei dieser Technik werden mehrere Personen für meistens 2–3 Tage unter gleichsam
»kasernierten« Bedingungen zusammengeführt. In derartigen Settings bearbeiten die
Probanden nicht nur vielfältige Leistungs- und Persönlichkeitstests, sondern nehmen
auch an Gruppen- und Kommunikationsübungen teil, simulieren Arbeits- und Gruppenprozesse usw. Die Ergebnisse werden i. Allg. von Führungskräften des betreffenden
Konzerns und von Psychologen beurteilt. Trotz des relativ hohen Aufwandes an Kosten
und Personal finden Assessment Center wegen ihrer relativ hohen Validität zunehmend
mehr Anwendungsbereiche.
In vielen Fällen dürfte die »Methode der Wahl« in der Realisierung einer möglichst
langen Probezeit liegen. Allerdings erhalten darin nur die bereits eingestellten Bewerber
die Chance, sich in der konkreten Arbeitssituation zu bewähren.
Während in Unternehmen und Behörden vorrangig eine Konkurrenzauslese betrieben wird, stellt sich bei der Berufsberatung die Frage nach der richtigen Platzierung.
Welcher Beruf oder welche Berufsausbildung ist für den Ratsuchenden am besten geeignet? Diese Frage wird an Psychologen der Bundesagentur für Arbeit gerichtet (7 dazu
auch Interview mit Prof. Hilke). Selektion und Platzierung unterscheiden sich in mehrfacher Hinsicht (. Tab. 8.3). Bei einer Selektion genügt es, einige wenige Merkmale der
Bewerber zu erfassen, die einer Anforderungsanalyse und Validitätsuntersuchungen
zufolge für den einen Beruf relevant sind. Auch wenn mehrere Bewerber geeignet sind,
wird nur der beste ausgewählt; die Auswahl bezieht sich auf Personen. Für eine Berufswahlentscheidung werden die Anforderungen mehrerer Berufe mit dem Eignungsprofil des Ratsuchenden abgeglichen; hier bezieht sich die Auswahl auf Berufe.
In einer Auswahlsituation werden sich die Bewerber günstig darzustellen versuchen. Beim Einsatz von Fragebögen und Interviews ist deshalb mit Verfälschungen zu
rechnen. Auch in einem Assessment Center besteht die Gefahr, dass sich Bewerber so
präsentieren, wie es ihnen vorteilhaft erscheint. In einer Beratungssituation ist die Motivlage eine andere; der Proband wird sich eher so darstellen, wie es für ihn typisch ist.
Deshalb kommen in dieser Situation auch Verfahren in Frage, die leicht verfälscht wer-
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Problem: Meist nur
Statusdiagnostik
454
6
Wie viele Psychologen arbeiten bei der BA, welche Anforderungen müssen sie bei
ihrer Einstellung erfüllen, und wie werden sie weiter für ihre Tätigkeit qualifiziert?
Insgesamt arbeiten im PD der BA 443 Psychologinnen und Psychologen, 410 in den
Agenturen, 20 in den Regionaldirektionen und 13 im BA-Servicehaus und der Zentrale.
Worin unterscheiden sich die Tests, die vom Psychologischen Dienst der BA verwendet werden, von den Tests, die von den Testverlagen zum Kauf angeboten werden?
Wir müssen im Rahmen von psychologischen Begutachtungen auch Aussagen machen,
auf die Entscheidungen über finanzielle Leistungen der BA gestützt werden können. Wir
müssen deshalb auf den Testschutz besonderen Wert legen. Dies ist der zentrale Grund
für die Entwicklung BA-eigener Testverfahren. Bei der Entwicklung der Verfahren
orientieren wir uns an denselben Konstruktionsprinzipien und wissenschaftlichen Kriterien wie andere Testkonstrukteure auch. Wir haben allerdings den nicht zu unterschätzenden Vorteil, Auswahl bzw. Konstruktion der Einzeltests stärker populations- und
fragestellungsbezogen vornehmen zu können als ein Testautor, der für den Markt produziert. Zudem stellen wir bei den BA-eigenen computergestützten Tests durch verzweigte Testinstruktionen sicher, dass die Ratsuchenden mit dem Testmaterial vertraut
sind, bevor der eigentliche Test beginnt. Für die im Rahmen der Entwicklung der Tests
notwendigen empirischen Studien können wir in der Regel auf relativ große Stichproben
zurückgreifen und haben damit eine gute »empirische Basis« für unsere Verfahren.
scher Verfahren bei Berufseignungsuntersuchungen«
Wie viele Berufseignungsuntersuchungen führt die Bundesagentur für Arbeit (BA)
jedes Jahr durch und zu welchem Zweck wird von der BA Diagnostik betrieben?
Eignungsurteile werden im Rahmen jeder beruflichen Beratung und bei jeder Vermittlung durch eine Vermittlungs- und Beratungsfachkraft der BA abgegeben. Es sind im
Jahr etwa 240.000 solcher Untersuchungen. Wir unterscheiden fünf Arten von Begutachtungen; das Spektrum reicht von der »Begutachtung nach Aktenlage« über die
»Standardisierte Eignungsuntersuchung« mit dem Berufswahltest (BWT) bis zur »Psychologischen Begutachtung von hochgradig Sinnesbeeinträchtigten«. Es geht dabei
immer um Fragen der beruflichen Eignung, aber zumeist nicht um Fragen der Eignung
alleine. Zum Psychologischen Dienst (PD) kommen Menschen im Alter von 14 Jahren
bis über 50 Jahre, Menschen jedes Bildungsniveaus, geistig behinderte Menschen ebenso wie Akademiker und Menschen mit Behinderungen, deren berufliche Eingliederung
der Agentur-Psychologe unterstützt. Er muss Eignungsaussagen zu etwa 800 Berufen
machen.
Eigentlich müsste ich von der Agentur-Psychologin sprechen, denn wir haben bald
mehr weibliche Psychologen beschäftigt als männliche.
> Interview mit Prof. Dr. Reinhard Hilke zum Thema »Anwendung diagnosti-
den können. Persönlichkeitsmerkmale und (berufliche) Interessen sind für die Platzierung relevant und werden daher berücksichtigt. Da für die einzelnen Berufe Mindestanforderungen (z. B. eine mindestens durchschnittliche Intelligenz) feststehen,
sind normierte Werte erforderlich. Die Verfahren müssen nicht nur normiert sein, es
ist auch erforderlich, dass berufsbezogene Vergleichswerte von erfolgreichen Stelleninhabern verfügbar sind.
8.2 · Personalbeurteilung
8
Prof. Dr. Reinhard Hilke, Leiter des Psychologischen Dienstes der
Bundesagentur für
Arbeit
455
8
Unbestimmt bleibt in dieser Definition allerdings noch das »diagnostische Modell«:
Dieses entwickelte sich aus einer Überwindung der Vorstellungen, dass es eine Art
»Führungspersönlichkeit« gebe, die in der Lage sei, ein weites Spektrum von Anforderungen zu meistern und als eine Funktion stabiler Persönlichkeitsmerkmale verstanden
werden müsse. Dagegen wird mittlerweile davon ausgegangen, dass es – anstelle von
breit generalisierten Führungskompetenzen – individuelle Stärken und Schwächen der
Mitarbeiter zu berücksichtigen gelte, die mit den speziellen Anforderungen der Führungsposition verglichen werden müssten; nur im Hinblick auf diese Anforderungen
könne Führungseignung sachgerecht diagnostiziert werden.
Im AC wird versucht, die zukünftigen Anforderungssituationen zu simulieren, um
so individuelle Fähigkeiten im Verhalten beobachtbar (und damit diagnostizierbar) zu
machen.
»Ein Assessment Center ist ein umfassendes, standardisiertes Verfahren, im Rahmen
dessen unterschiedlichste Beurteilungs- und Bewertungsverfahren, wie beispielsweise
situative Übungen, Interviews, Unternehmungsplanspiele, Tests, Gruppendiskussionen und eine Vielzahl von Simulationen eingesetzt werden, um einzelne Mitarbeiter
im Hinblick auf verschiedene Zielsetzungen zu beurteilen. Eine Anzahl ausgebildeter
Beurteiler, die nicht im direkten Vorgesetztenverhältnis zu den Teilnehmern stehen
sollen, verbringen 3 bis 5 Tage mit der Beobachtung der Kandidaten und bewerten sie
abschließend hinsichtlich ihres Managementpotentials und ihres Weiterbildungsbedarfs. Die Beurteilungsergebnisse werden den vorgesetzten Stellen mitgeteilt und dienen dann als Grundlage personalpolitischer Entscheidungen, wie Beförderung, Versetzung und Karriereplanung. Wenn die Ergebnisse auch den Teilnehmern bekanntgegeben werden, sollen sie zur eigenen individuellen Entwicklungsplanung beitragen.«
Beschreibung des AC
Neues Modell der
Führungseignung
Diagnostische Zielsetzungen und Prinzipien: Das Assessment Center (AC) ist eine
Methode der Personalauswahl und -entwicklung. Ursprünglich wurde dieses zeitlich
und finanziell aufwändige Verfahren vor allem zur Auswahl von Führungskräften,
Spezialisten und Trainees eingesetzt. Erst seit Mitte der 70er Jahre findet es auch als
Instrument der Personalentwicklung verstärkt Anwendung. Die meisten Organisationen kombinieren heute beide Aspekte miteinander. Bemerkenswerterweise bilden
in Deutschland Hochschulabsolventen die größte Zielgruppe von AC-Seminaren, sofern es um die Auswahl für Trainingsprogramme geht (s. Obermann, 1992, S. 31).
Eine nähere Gegenstandsbeschreibung, die alle wesentlichen Elemente eines AC
aufzeigt, stammt von Blumenfeld (1971, zit. nach Stehle, 1982, S. 50):
8.2.2 Exkurs: Assessment Center
Fazit
Es kann festgehalten werden, dass ein »gemischtes« Verfahren mit möglichst verschiedenen Prädiktionselementen und auch einigen Interventionsansätzen, wie es
im Assessment Center praktiziert wird, die insgesamt verlässlichsten Prognosen liefern dürfte. Unabdingbare Bestandteile darin wären (zumindest halbstandardisierte)
Vorstellungs- oder Bewerbungsgespräche, bewährte Leistungstests zu kognitiven
Funktionen sowie Verhaltensbeobachtungen zu simulierten Arbeitsproben, die den
zukünftigen Tätigkeiten möglichst weitgehend ähneln.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Zielsetzungen des AC
458
Zudem erfolgt im Anschluss an die Absolvierung des AC-Programms für jeden Teilnehmer ein Rückmeldegespräch mit individuellem Feedback in Bezug auf das konkrete Anforderungsprofil. Diese Offenheit und Transparenz führen dazu, dass die Akzeptanz des AC durch die Teilnehmer weit über derjenigen anderer eignungsdiagnostischer
Methoden liegt.
Steht die Optimierung einer Selektionsentscheidung im Zuge der Personalauswahl
im Vordergrund, spricht man von Auswahl- oder Beurteilungsseminaren. Kommt es
hingegen bei der Veränderung von Personen oder Bedingungen als Teil der Personalentwicklung auf eine Modifikationsentscheidung an, ist eine Bezeichnung als Entwicklungs- oder Förderungs-Seminar üblich (Jeserich, 1981, S. 36).
Der Einsatz eines AC als Bestandteil der Personalauswahl ist nach Obermann (1992,
S. 16) immer dann sinnvoll, wenn überfachliche Eigenschaften eine wesentliche Rolle
für den Berufserfolg spielen. Es eignet sich dabei gleichermaßen zur Unterstützung der
Selektion externer wie auch interner Bewerber.
Von diesen Annahmen ausgehend ist das AC folgenden Prinzipien verpflichtet (vgl.
Neubauer, 1980, S. 125):
4 Verhaltensorientierung: Nicht Persönlichkeitseigenschaften, sondern Verhaltensweisen als Indikatoren der Eignung bilden die Grundlage der Beurteilung. Zur
Provokation von Verhaltensweisen bedarf es der möglichst realistischen Simulation
der zukünftigen Führungsanforderungen. Die Ähnlichkeit der situativen Übungen/
Arbeitsproben mit den tatsächlichen Aufgaben bestimmt die Genauigkeit der Vorhersage (= Repräsentationsschluss der Verhaltenstheorie, 7 Abschn. 1.4 und 1.6).
4 Anforderungsbezogenheit: »Die Diagnose kann nicht besser sein als die Vorstellung darüber, wodurch sich geeignete von weniger geeigneten Mitarbeitern unterscheiden« (Jeserich, 1981, S. 53). Neubauer (1980, S. 125) spricht davon, dass Eignung sich nur durch das »geeignet wofür« bestimmen lässt. Von daher ist für jedes
AC eine detaillierte Anforderungsanalyse unabdingbar notwendig.
4 Methodenvielfalt: Das Prinzip der Methodenvielfalt dient dazu, die Fehlerquellen
einzelner Verfahren auszugleichen. Einzelne Anforderungskriterien müssen in
Rollenübungen, Gruppendiskussionen, Simulationen usw. mehrfach und unabhängig voneinander beobachtbar sein, um Beurteilungen zuverlässig vornehmen
zu können.
4 Mehrfachbeurteilung: Gewöhnlich wird jeder Teilnehmer eines AC-Seminars von
mehreren Personen (in der Regel Führungskräfte des Unternehmens) beobachtet,
und zwar abwechselnd in verschiedenen Einzelübungen, um etwaige Beobachtungs- und Beurteilungsfehler auszugleichen. Das Verhältnis von Teilnehmern zu
Beobachtern ist meist 2:1. Die Verhaltensbeobachtung erfordert ein intensives Training und wiederholte Schulung der Führungskräfte. Diese aus dem eigenen Unternehmen für die Aufgaben innerhalb der AC-Seminare zu rekrutieren, bringt eine
Reihe von Vorteilen mit sich: Kenntnis der Unternehmenskultur und damit der
angestrebten »Passung« zwischen Anforderungen und Bewerbern, Möglichkeiten
der Selbstdarstellung und Repräsentation des Unternehmens, Kontaktanbahnung
zur kommenden Führungsgeneration u. a.
4 Transparenz: Schon bei der Konstruktion, später auch bei der Durchführung, liegen
die Anforderungen und Beobachtungskriterien offen. Der Zusammenhang zwischen
Verfahren und Ziel ist evident, die inhaltliche Verwandtschaft der Übungs- und Simulationselemente zur Zielfunktion und dem Soll-Zustand stellt eine Besonderheit
dar, die gleichsam eine Art Gegenpol zu den projektiven Verfahren markiert.
8.2 · Personalbeurteilung
8
Auswahl- oder Entwicklungsseminare
Rückmeldung
Transparenz
Mehrfachbeurteilung
Methodenvielfalt
Anforderungsbezogenheit
Verhaltensorientierung
Prinzipien des AC
459
8
Verfahren der Anforderungsanalyse. Eine exakte und umfassende Anforderungsmessung und der aus ihr abgeleitete Anforderungsrahmen liefern den Maßstab für die
Beurteilung der Teilnehmerleistungen im AC. Die Strukturierung des Anforderungskataloges erfordert auf der höchsten Abstraktionsebene einen Satz von Kategorien,
denen ein Komplex von spezifischen Verhaltensweisen bzw. Tätigkeiten (Merkmale)
zugeordnet ist. Bei der Konstruktion von Übungselementen muss darauf geachtet werden, dass diese Anforderungsmerkmale für den Beurteiler im Verhalten beobachtbar
sind. Durch die Gewichtung der Anforderungen entsteht das Anforderungsprofil, das
in der Regel die gewünschte Mindestausprägung bzw. die Ausprägungsspanne des
Merkmals für eine bestimmte Position definiert.
Bei der Durchführung des AC mit Entwicklungszielsetzung sind die Anforderungen weniger eng und konkret auf eine bestimmte Position bezogen definiert. Es wird
vielmehr eine breitere organisationsspezifische Vorstellung von Führungsfähigkeiten
realisiert.
Die Methoden der Anforderungsanalyse teilt Obermann (1992, S. 77) in 2 große
Blöcke ein, die er »Bottom-up-« und »Top-down-Verfahren« nennt. Die Gruppe der
»Bottom-up-Vorgehensweisen« hilft die Frage zu beantworten, wie sich gegenwärtig
erfolgreiche von weniger erfolgreichen Positionsinhabern unterscheiden. Durch die
Orientierung an momentan bestehenden Strukturen gerät aber der Versuch, zukünftige Veränderungen und Entwicklungen mit zu berücksichtigen, zu einem äußerst
schwierigen Unterfangen.
Die »Top-down-Methoden« hingegen orientieren sich nicht am Bestehenden,
sondern an strategischen Unternehmungszielen, Marktentwicklungen und Werten, die das Unternehmen in Zukunft prägen sollen. Damit wird die Vorwegnahme von zukünftigen Entwicklungen zur Leitlinie für die Beurteilung von Mitarbeitern.
Zwei prototypische Vertreter der »Bottom-up-Vorgehensweise« sind:
Anforderungsanalyse
Top-down
Bottom-up
Operationalisierung
durch beobachtbare
Verhaltensweisen
Mehr Raum nehmen AC-Veranstaltungen hingegen unter der Perspektive der Personalentwicklung ein. Diesbezüglich eröffnen sich u. a. die folgenden Anwendungsmöglichkeiten (nach Obermann, 1992, S. 18 ff.):
4 Trainingsbedarfsanalysen: Diagnostizierte und präzise umschriebene Schwächen
von Mitarbeitern liefern den Ansatz für individuell abgestimmte bedarfsorientierte
Trainingsmaßnahmen,
4 Potentialanalyse: Insbesondere im Hinblick auf weiterführende Aufgaben,
4 Kompetenzerweiterung: Z. B. in Kommunikation oder Führung,
4 Entwicklung der Unternehmenskultur: Förderung der Identifikation der Mitarbeiter mit unternehmerischen Werten,
4 Laufbahnplanung/Ausbildungsberatung,
4 Hilfsmittel der Arbeitsplatzgestaltung: Die Ergebnisse von AC-Veranstaltungen
müssen sich nicht auf Veränderungen an Personen beschränken, sondern können
auch solche von bestehenden Arbeitsbedingungen mit einschließen, etwa in Form
der Erweiterung von Aufgaben, Verantwortung und Herausforderung (darunter Job
enlargement, Job enrichment, Job rotation, 7 Abschn. 8.4),
4 Trainingsevaluation,
4 berufliche Rehabilitation: AC-Untersuchungen an Rehabilitanden können nicht
nur das Ausmaß an Einschränkung und Behinderung attestieren, sondern auch
positiv aufzeigen, in welchen Bereichen welche Kompetenzen vorhanden sind
(s. Schuler & Stehle, 1983, S. 40).
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
AC zur Personalentwicklung
460
6
1. Auf »Verhaltensindikatoren« gestützte Verfahren.
Aus eigenschaftsorientierten Methoden wie
– Intelligenztests,
– allgemeinen Leistungstests,
– Interessentests
lassen sich nur unter Rekurs auf psychologische Theorien Vorhersagen über konkretes Verhalten ableiten. Solche Verfahren sind dem AC gemeinhin wesensfremd, doch wird – trotz ihrer geringen Transparenz und Akzeptanz – gelegentlich zu Zwecken der Grobklassifikation darauf zurückgegriffen.
Kategorien der AC-Übungen nach Neubauer (1980, S. 129 ff.)
Übungen des AC-Verfahrens. Zwar besteht die Möglichkeit, Standardübungen – ggf.
mit Modifikationen – anzuwenden, doch spricht die Spezifität der jeweiligen Anforderungen eher dafür, gesonderte (»maßgeschneiderte«) Übungen zu konstruieren. Ungeachtet ihrer Vielfalt und Spezifität lassen sich dabei jedoch nach Neubauer (1980,
S. 129 ff.) die in der 7 Übersicht dargestellten Kategorien unterscheiden.
gen Strukturen (Bottom-up) oder an zukünftigen Entwicklungszielen (Topdown) einer Organisation orientieren.
! Die Methoden der Anforderungsanalyse können sich entweder an gegenwärti-
Weitere Verfahren sind bei Jeserich (1981) und Obermann (1992) beschrieben, darunter auch der Fragebogen zur Arbeitsanalyse von Frieling und Hoyos (1978), der unter
7 Abschn. 8.4 kurz vorgestellt wird.
1. Die Critical Incident Technique (CIT). Die von Flanagan (1954) entwickelte CIT
verlangt von den Führungskräften der Zielebene, dass sie mehr oder weniger typische Vorfälle, darunter insbesondere wichtige und plötzliche/unerwartete Ereignisse, auflisten. Der erhaltene Katalog wird Führungskräften vorgelegt, die die
Zielposition kennen. Diese sollen beurteilen, mit welchen Verhaltensweisen erfolgreiche und mit welchen weniger erfolgreiche Stelleninhaber diese Vorfälle meistern. Über die Gewichtung und Systematisierung der Verhaltensweisen gelangt
man zu einem Anforderungsprofil. Ein Vorteil dieser Methode besteht darin, dass
aus der CIT sowohl kritische Verhaltensweisen und somit Beurteilungsdimensionen als auch Situationsaspekte und somit Bausteine für AC-Übungen abgeleitet
werden können.
2. Die Repertory-Grid-Technik (REP). In einer Modifikation der auf Kelly (1955) zurückgehenden Methode werden von den Führungskräften mehrere erfolgreiche
und weniger leistungsfähige Kollegen genannt. Deren Namen, auf Karten geschrieben, werden in verschiedenen Dreiergruppen Experten vorgelegt. Diese sollen die
Gemeinsamkeiten von 2 Personen benennen, die diese beiden von der dritten Person unterscheiden. Ähnlichkeit bzw. Unterschiedlichkeit sollen sich auf die konkrete Funktion der Personen als Führungskräfte beziehen und in Form beobachtbaren
Verhaltens beschrieben werden. Daraus resultiert eine Liste von Gegensatzpaaren,
die zu einem Fragebogen zusammengefasst und mit Skalen versehen wird. Mit
Hilfe dieses Fragebogens wird das Verhalten von erfolgreichen und weniger erfolgreichen Stelleninhabern eingeschätzt.
8.2 · Personalbeurteilung
8
AC-Übungen
Beispiel: Benennung
von Gemeinsamkeiten
Beispiel: Auflistung
typischer Vorfälle
461
8
Validität. In Abhängigkeit von der Zielsetzung eines AC, dessen inhaltlichen Bausteinen, der Stichprobe der daran teilnehmenden Personen und den verfügbaren Kriterien
tenz und Retestung) kommt beim AC als weiterer Zugang die Prüfung der Übereinstimmung zwischen den Beurteilern hinzu. Je nachdem, ob nur einzelne Übungen oder
deren Gesamtheit eingeschätzt werden und je nachdem, ob die Beurteiler unabhängig
voneinander vorgehen oder nicht, schwanken die Werte für die Interraterreliabilität
erheblich und liegen zwischen .50 und .90. Ähnliches gilt für Maße der internen Konsistenz. Kommen sehr verschiedene Aspekte von Leistungen zum Tragen, können die
betreffenden Koeffizienten allenfalls mittlere Höhen erreichen (um .50; s. Hinrichs &
Haanperä, 1976). Wiederholungsuntersuchungen fehlen wegen der damit verbundenen Kosten und auch deshalb, weil durch ein AC Veränderungen induziert werden
sollen: Ein erneutes AC-Seminar mit der gleichen Zielsetzung würde nicht mehr an den
gleichen personalen Voraussetzungen anknüpfen.
Reliabilität. Zu den üblichen Ansätzen der Reliabilitätsabschätzung (interne Konsis-
Auswertung. Grundsätzlich sollte eine strikte Trennung in die zwei Abschnitte von
Beobachtung einerseits und Beurteilung andererseits stattfinden. In der ersten Phase
werden lediglich Daten gesammelt, in der zweiten diese den Beurteilungskriterien zugeordnet. Die strenge Trennung soll gewährleisten, dass nicht bereits durch erste und
diffuse Eindrücke die Qualität der Daten gemindert wird. Den Ergebnissen von Thornton et al. (1987) zufolge lässt sich die Auswertungsobjektivität durch die Hinzuziehung
von Psychologen und Managern, die die Anforderungen gut kennen und im Hinblick
darauf die gezeigten Leistungen angemessen interpretieren können, verbessern.
Methodenvielfalt und Einsatz mehrerer Beobachter sind der Auswertungsobjektivität deshalb förderlich, weil sich dadurch ein Fehlerausgleich (potentiell) erzielen
lässt.
Trennung von
Beobachtung und
Beurteilung
Prüfung der Beurteilerübereinstimmung
Durchführung. Obgleich in der eingangs gegebenen Definition von »Standardisierung«
die Rede war, ist Objektivität der Durchführung beim AC nicht gegeben, was mit den
Besonderheiten situativer Übungen zu tun hat.
2. Auf »früheres Verhalten« gestützte Verfahren.
Nach dem Credo der Verhaltenstheorie »The best predictor of future performance is past performance« (Wernimont & Campbell, 1968, S. 372) kommen hier
in Betracht:
– Hintergrundinterviews,
– biographische Fragebogen.
3. Auf »aktuelles Verhalten« gestützte Verfahren.
Sie bilden das Kernstück der AC-Methodologie:
– schriftliche Einzelübungen (Ausarbeitungen; Postkörbe),
– mündliche Einzelübungen (Vorträge und Präsentationen; Interviewsimulation und Rollenspiele).
4. Gruppendiskussionen.
5. Sonstige Verfahren.
Mischformen aus den vorgenannten Verfahren; Lockerungsübungen ohne Bewertungsdruck, Peer-ratings, computersimulierte Unternehmensplanspiele.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Keine Durchführungsobjektivität
462
.37
.36
.53
.33
.35
.36
Beförderung
Frühe Identifikation
Auswahl
Forschung
.30
.46
.41
.48
Resultate – unterteilt nach Zielen des AC
Leistung
Potential
Dimensionen
Training
Karriere
Resultate – unterteilt nach Kriterienmaßen
Gesamtresultat
Validitätsmittelwert
.0293
.0000
.0032
.0000
.0203
.0373
.0998
.0197
.0000
.0172
Varianz
.04 bis .64
.46 bis .46
.30 bis .52
.48 bis .48
.08 bis .64
.15 bis .91
–.29 bis .95
.07 bis .63
.36 bis .36
.11 bis .63
Konfidenzintervall
65
0
9
0
43
64
77
69
0
46
P
. Tabelle 8.4. Ergebnisse der Metaanalyse von Thornton et al. (1987). (Aus Obermann, 1992,
S. 255) P »wahre« Varianz der Validität in den Studien
ist eine erhebliche Streuung der Validitätskoeffizienten zu erwarten. In die Metaanalyse von Thornton et al. (1987) gingen 50 Einzelstudien ein, deren Validität zwischen
rtc = –.25 und +.78 variierte. Bei den Kriterien handelte es sich um Einschätzungen der
Arbeitsleistung, des Leistungspotentials, der Leistungen in den im AC verwendeten
Dimensionen und der Leistungen in einem Managertrainingsprogramm sowie um
Maße der Karriereentwicklung wie Gehaltserhöhungen und Anzahl der Beförderungen. Nach einer Artefaktkorrektur für die Stichprobenfehler aufgrund der wechselnden
(und häufig nur mäßigen) Gruppengrößen der Einzelstudien, für die mangelnde Reliabilität der Kriterien und für die aufgrund der starken Vorselektion eingeschränkte
Messwertestreuung (nicht aber für die Unreliabilität der Prädiktoren) betrug die mittlere prädiktive Validität rtc = .37 (. auch Tab. 8.2). Die getrennt für die einzelnen Kriterienmaße und Ziele der AC ermittelten Validitätskoeffizienten sind aus . Tab. 8.4 ersichtlich. Die Frage nach der Generalisierbarkeit der Validität kann bejaht werden, da
die Berechnung des 95%-Konfidenzintervalles einen unteren Wert von rtc = .11 ergab,
der auf dem 1%-Niveau von Null verschieden ist.
Weitere Untersuchungen, darunter solche zur inkrementellen Validität einzelner
Bausteine des AC, haben Neubauer und Volkmann (1989) zusammengestellt.
Nicht alle der in der Literatur berichteten Validitätskoeffizienten sind direkt mit
denjenigen herkömmlicher Tests vergleichbar, und zwar deshalb nicht, weil die Ergebnisse des AC gewöhnlich den Teilnehmern und anderen Führungskräften detailliert
mitgeteilt werden. Daraus mögen Effekte im Sinne einer »self-fulfilling prophecy« resultieren, und zwar auch deshalb, weil Beförderungs- und Besetzungsentscheidungen
vom Wissen der AC-Ergebnisse beeinflusst sein können, somit das Kriterium vom
Prädiktor nicht unabhängig ist. Außerdem kann jemandem, dem beispielsweise in einer
AC-Veranstaltung herausragende Entwicklungspotentiale zuerkannt wurden, später
nur schwer völliges Versagen attestiert werden, zumal dann nicht, wenn die Beurteiler
der AC-Leistungen und derjenigen aus dem regulären Arbeitsablauf teilweise dieselben
8.2 · Personalbeurteilung
Mangelnde Vergleichbarkeit mit herkömmlichen Tests
Erhebliche Streuung
der Vailiditätskoeffizienten
463
8
8
Einengung anderer
Validitätsaspekte
Im Vergleich zu anderen eignungsdiagnostischen Verfahren wie Praktika, Schulnoten,
Tests, biografischen Daten und graphologischen Gutachten nimmt das AC hinter dem
Vorstellungsgespräch Platz 2 in Bezug auf die soziale Validität ein. Die berichteten
Ergebnisse gelten allerdings ausschließlich dem AC als Selektionsinstrument; über
analoge Einordnungen unter der Entwicklungsperspektive fehlen zunächst Anhaltspunkte.
Mit dem hohen Ausmaß an sozialer Validität geht andererseits eine gewisse Einengung anderer Validitätsaspekte einher. So beklagt Neubauer (1980, S. 154 ff.) die Ausrichtung auf einen ganz bestimmten »Erfolgstyp«, einen »Vielredner mit eindrucksvollem Auftreten und Durchsetzungsvermögen«, des Weiteren »übungsspezifische Filtereffekte«, da das Medium aller Übungen die verbale Ausdrucksfähigkeit sei. Generell
muss zudem damit gerechnet werden, dass die demotivierenden Effekte auf Seiten
nichterfolgreicher Teilnehmer besonders gravierend sind.
In Bezug auf jeden der Gesichtspunkte ist das AC anderen Methoden deutlich überlegen. Der Zusammenstellung von Obermann (1992, S. 269 ff.) folgend gilt:
4 das AC wird als wenig angst- und stressinduzierend erlebt,
4 es hat eine hohe Augenschein-(Face-)Validität,
4 nach Teilnahme verschiebt sich die positive Einschätzung der sozialen Validität
noch mehr zugunsten des AC, hängt aber verständlicherweise auch z. T. vom Abschneiden selbst ab.
Positive Beurteilung
der AC
Soziale Validität
AC zumindest
»gleichwertig«
Personen sind. Von daher besteht die Gefahr einer direkten Kriterienkontamination
(s. dazu Klimoski & Brickner, 1987) und artifiziell erhöhter Validitäten. Von eminent
wichtiger Bedeutung ist deshalb die berühmte AT & T-Studie von Bray et al. (1974), in
der die AC-Ergebnisse gegenüber Teilnehmern und Vorgesetzten geheim gehalten wurden. Dessen ungeachtet belief sich auch unter diesen Gegebenheiten die prädiktive
Validität nach einem Vorhersageintervall von 8 Jahren auf rtc = .46.
Angesichts solcher Befunde gelangt Hossiep (1994, S. 96) in seiner Würdigung des
AC, die sich an dem Kriterienkatalog des Testkuratoriums orientiert (7 Abschn. 2.3), zu
der Feststellung, »dass die AC in ihrer Vorhersagekraft für Beförderungskriterien und
subjektive Leistungskriterien alternativen Prädiktoren eher überlegen, zumindest aber
gleichwertig erscheinen«.
Mit dem Begriff der »sozialen Validität« haben Schuler und Stehle (1983) eine Art
Kontrastkonzept zur empirisch-technischen Vorhersagevalidität geschaffen. Damit
werden die Reaktionen der Getesteten auf die eignungsdiagnostischen Untersuchungen
in den Vordergrund von Erwägungen gerückt. Die soziale Validität betrifft den sozialen
Kontext der Diagnostik und ist durch 4 Aspekte gekennzeichnet:
4 Berücksichtigung sozialpsychologischer Anforderungen (insbesondere die Information über die zur Selbstselektion relevanten Charakteristika von Arbeitsplatz
und Organisation),
4 Partizipation der Betroffenen (sowohl bei der Entwicklung als auch der Durchführung von Untersuchungen),
4 Transparenz,
4 angemessene wechselseitige Kommunikation (darunter Urteilskommunikation,
Feedback in rücksichtsvoller, verständlicher und nachvollziehbarer Form).
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Gefahr direkter
Kriterienkontamination
464
6
Worin bestand im vorliegenden Fall Ihre Leistung?
Auf der Basis umfangreicher Anforderungs- und Sollprofil- Analysen haben wir ein
umfangreiches Management Assessment (MA) zusammengestellt. Dieses MA wird von
den Managern der oberen Ebenen besucht. Im Rahmen der umfangreichen Verhaltensdiagnostik wird ein Stärken- und Schwächenbild der einzelnen Teilnehmer und in der
Aggregation der Führungsmannschaft erstellt. Im Rahmen von Feedbacksitzungen
werden aus den individuellen Ergebnisreports individuelle Entwicklungsmaßnahmen
abgeleitet.
Aus welchen Gründen entscheiden sich Unternehmen dafür, Ihre Dienste in Anspruch zu nehmen? Vielleicht können Sie das an einem Beispiel erläutern.
Aktuell ist unsere Auftragslage durch die wirtschaftliche Situation geprägt. Fragestellungen der Verhaltens- und Leistungsdiagnostik (Management Diagnostik) in Zeiten
der Reorganisation oder der Akquisition haben eine entsprechende Nachfrage. Aber es
gibt auf der anderen Seite auch die Kunden, die ihre Entwicklungsprogramme weiter
elaborieren. So führt aktuell ein Kunde, Marktführer im Bereich der technischen Kommunikation, eine Zusammenführung beider Fragestellung in der Art durch, dass er mit
unserer Hilfe umfangreiche Potentialassessments im Top-Management umsetzt, um im
Anschluss daran die Weiterentwicklung des Managements differentiell und damit gezielter gestalten zu können.
Managementberatung«
Herr Dries, stellen Sie doch bitte erst einmal Ihre Firma kurz vor. Wie viele Psychologen sind bei Ihnen beschäftigt und worauf haben Sie sich spezialisiert?
Wir, das kölner institut für managementberatung, sind eine Unternehmensberatung,
die sich auf die Kompetenzfelder Personalmanagement und Organisationsberatung
spezialisiert hat. Durch die wissenschaftlich-psychologische Ausbildung unserer 15 fest
angestellten Mitarbeiter und die enge Zusammenarbeit mit verschiedenen Hochschulen bearbeiten wir Fragestellungen der Praxis auf der Basis neuester wissenschaftlicher
Erkenntnisse und Methoden. Insbesondere im AC Bereich gehören wir zu den führenden Anbietern in Deutschland. So vergeht kein Tag im Kalenderjahr, an dem nicht einer
unserer Berater im nationalen oder internationalen Kontext ein Assessment durchführt.
> Interview mit Dr. Christian Dries zum Thema »Assessment Center in der Praxis:
»Das Assessment Center leistet einen wichtigen Beitrag zu Auswahlprozessen in
Wirtschaft und Verwaltung... Der Trend zum Assessment Center ist... ungebrochen,
da gleichermaßen eine durchgängig hohe Akzeptanz durch Unternehmen und Bewerber gegeben ist und Inhalt wie Ablauf von Gruppenauswahlverfahren als anforderungsnah erlebt werden. Anwendungsgebiete, Zielgruppen und Erfassungsbreite
des Verfahrens sind denkbar groß...« (Hossiep, 1994, S. 102), die Ökonomie des Verfahrens im diametralen Gegensatz dazu äußerst gering.
Von den Hauptgütekriterien kann nur die Validität zufriedenstellen, die im Einzelfall sehr stark von der Sorgfalt in Entwicklung und Durchführung abhängt. Die
hohe soziale und die Augenscheinvalidität sind potentielle Hinderungsgründe für
die Notwendigkeit von kontrollierten Bewährungsstudien.
Fazit
8.2 · Personalbeurteilung
Dipl.- Psych. Dr. Christian Dries, Geschäftsführer des kölner
instituts für managementberatung.
465
8
8
. Abb. 8.4. Die Wirkung
von Kontext- und ContentVariablen auf Unzufriedenheit und Zufriedenheit. (Aus
von Rosenstiel, 1992, S. 77)
Motivatoren und
Satisfaktoren
Hygienefaktoren
Tätigkeitsbezogene Diagnostik und Intervention
1. Die sog. Hygienefaktoren, die die Rand- und Folgebedingungen der Arbeit betreffen:
Sie werden auch als Kontextvariablen bezeichnet. Diese Art von Variablen affiziert
die extrinsische Arbeitsmotivation, und sie können Unzufriedenheit abbauen, ohne
deshalb Zufriedenheit zu erzeugen. Im Hinblick darauf ist auch eine Bezeichnung als
»Dissatisfaktoren« gebräuchlich. Zu dieser Ebene zählen u. a. Faktoren wie
5 Führungsstil,
5 Arbeitsbedingungen,
5 interpersonale Beziehungen,
5 Gehalt.
2. Demgegenüber betreffen die Contentvariablen die intrinsische Arbeitsmotivation
(deshalb auch die Bezeichnung »Motivatoren«). Bei entsprechender Ausprägung
führen sie zu Zufriedenheit (»Satisfaktoren«). Dazu gehören u. a.
5 Leistung,
5 Anerkennung (der eigenen Leistung),
5 Verantwortung.
Zweifaktorentheorie der Arbeitszufriedenheit von Herzberg et al. (1959)
Für die Ausgestaltung tätigkeitsbezogener Maßnahmen, also jener, die an konkreten
Handlungen innerhalb einer Organisation ansetzen, war die Zweifaktorentheorie der
Arbeitszufriedenheit von Herzberg et al. (1959) von maßgeblichem Einfluss. Selbst
wenn diese Theorie und mehr noch die daran ansetzenden Operationalisierungen während der letzten 25 Jahre mannigfaltige Kritik erfahren haben, soll sie dennoch hier
vorgestellt werden.
Herzberg unterscheidet zwei Ebenen, die für die Arbeitszufriedenheit verantwortlich sind (7 Übersicht). . Abbildung 8.4 veranschaulicht diese Theorie als dimensionales System.
8.4
verwandt, bei dem ein älteres Organisationsmitglied einen ihm zugeordneten jüngeren
Mitarbeiter berät und unterstützt.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Zweifaktorentheorie
von Herzberg
468
6
Instruktion und Beispielitems für die Bereiche
Informationsaufnahme und Gefährdungsarten
1.
Informationsaufnahme und Informationsverarbeitung
Arbeitselemente 1.01 bis 1.66
1.1.
Quellen der Arbeitsinformation
Hinweise zur Einstufung der Arbeitselemente 1.01 bis 1.20
Stufen Sie die Arbeitselemente danach ein, wie häufig sie als Informationsquellen vom Stelleninhaber benutzt werden, um die Aufgaben erfolgreich
erledigen zu können.
Fragebogen zur Arbeitsanalyse (FAA)
Beispiel
Die daraus ableitbaren praktischen Implikationen sind mannigfach; zumindest einige
können hier angesprochen werden:
Auf der Ebene der Kontextfaktoren kommt die Optimierung von Bereichen bzw.
Variablen wie Lärmpegel am Arbeitsplatz, Beleuchtungsverhältnisse (man denke an das
berühmte 1939 publizierte Hawthorne-Experiment), Arbeitsmodelle (z. B. Auswirkung von Schichtarbeit auf psychische, vegetative und psychosomatische Variablen)
und weitere potentielle Stressoren in Betracht. Etwa hat die Einführung der Computer
am Arbeitsplatz ganz neue Probleme geschaffen. Viele der daran tätigen Menschen
klagen z. B. über Kopf- und Rückenschmerzen oder Augenreizung usw.
Das vorrangige Interventionsziel der Psychologie in diesem Bereich besteht dementsprechend darin, möglichst günstige Arbeitsrahmen- bzw. Arbeitsplatzbedingungen zu schaffen. Dadurch soll der Umfang an Beeinträchtigungen in erträglichem Ausmaß gehalten werden, etwa in Gestalt verbesserter Beleuchtungsverhältnisse, der Schaffung von Ruheräumen, der Bereitstellung von strahlungsarmen Bildschirmen usw.
Auch die Erhebung und Umsetzung möglichst wenig belastender Schichtarbeitsmodelle gehört hierher.
Vielen Untersuchungen zufolge ziehen verbesserte Arbeitsplatzbedingungen auch
bessere Leistungen nach sich, sodass Maßnahmen der besagten Art auch im Interesse
der Unternehmensleitung liegen, ganz abgesehen von den Vorgaben des Programms
zur »Humanisierung der Arbeitswelt« (zusammenfassend s. Frieling & Sonntag,
1987).
Verbesserungen in diesen Bereichen würden im Sinne der Theorie die Unzufriedenheit reduzieren, ohne Einfluss auf die Arbeitszufriedenheit zu nehmen.
Hauptsächlich auf diese Ebene bezieht sich der in Deutschland weit verbreitete
»Fragebogen zur Arbeitsanalyse FAA« von Frieling und Hoyos (1978), der aus dem im
angloamerikanischen Raum gebräuchlichen »Position Analysis Questionnaire PAQ«
(McCormick et al., 1969) hervorgegangen ist. Die annähernd 200 Items gelten Variablengruppen wie kognitiven Prozessen (u. a. Informationsaufnahme), dem Arbeitsoutput, der Beziehung zu anderen Personen, der Arbeitsumgebung u. a. (7 Beispiel). Das
»Ziel des FAA ist es, explizit das Was der Tätigkeit zu analysieren« (Gebert & von Rosenstiel, 1989, S. 232). Die Beantwortung der Fragen geschieht teilweise durch Befragungen, teilweise durch Beobachtungen. Das Verfahren eignet sich hauptsächlich zur
Beschreibung und Bewertung motorischer Tätigkeiten und weniger für diejenige geistiger Arbeiten. Die erhaltenen Resultate erlauben nicht zuletzt auch einen Vergleich
verschiedener Tätigkeiten miteinander.
8.4 · Tätigkeitsbezogene Diagnostik und Intervention
8
FAA: Befragung und
Beobachtung
FFA zur Arbeitsanalyse
Humanisierung
der Arbeitswelt
Bessere Leistungen
Praktische Implikationen: Bessere
Arbeitsbedingungen
469
8
Wie häufig dient Zahlenmaterial (Material, das aus Zahlen oder Beträgen besteht; z. B. numerische Angaben, Rechnungen, technische Daten oder Zahlentabellen) als Quelle der Arbeitsinformation?
H 1.03
Wie häufig dient handgeschriebenes Material (z. B. Entwürfe für Briefe, Notizen, handschriftliche Anweisungen oder Stenogramme) als Quelle der Arbeitsinformation?
H 1.02
Optische Quellen der Arbeitsinformation
Wie häufig dient gedrucktes, maschinengeschriebenes oder in Druckschrift geschriebenes Material (z. B. Bücher, Zeitschriften, Zeitungen, Berichte, Dienstschreiben, Texte oder Briefe) als Quelle der Arbeitsinformation?
H 1.01
Auf der Ebene der »Satisfaktoren« bietet sich u. a. das Verfahren der »Subjektiven
Arbeitsanalyse SAA« von Udris und Alioth (1980) an, dessen 50 Items sich auf die
folgenden Bereiche richten (von denen die letzten beiden mehr zu den Dissatisfaktoren
gehören):
Gefährdung durch Hitze bzw. Feuer
H 4.19
(Der Stelleninhaber ist bei seiner Arbeit der Gefahr von Verbrennungen ausgesetzt;
z. B. beim Schweißen, beim Kochen oder beim Löschen von Bränden)
Gefährdung durch »Arbeit an erhöhten Plätzen«
H 4.18
(Der Stelleninhaber arbeitet auf Leitern, Gerüsten, Dächern, Kaminen usw. Berücksichtigen Sie bei der Einstufung, dass die Unfallgefährdung durch die Wettereinflüsse noch gesteigert werden kann)
Gefährdung durch sich bewegende oder fallende Objekte
H 4.17
(Der Stelleninhaber steuert oder bedient Fahrzeuge und/oder Transportgeräte, oder
er arbeitet an Transporteinrichtungen, Hebezeugen oder Hochregalen; z. B. Anschläger, Gabelstaplerfahrer, Kranführer oder Lagerist)
Gefährdungsarten
Gefährdung durch Werkzeuggebrauch
H 4.16
(Der Stelleninhaber benutzt unfallträchtige Werkzeuge; z. B. Schnitt- und Stechwerkzeuge, Sägen oder Skalpelle)
1.1.1
Die Häufigkeit soll dabei auf die Gesamtheit aller am Arbeitsplatz auftretenden Arbeitsprozesse bezogen werden.
Schlüssel (H)
Häufigkeit
0
trifft nicht zu
1
sehr selten
2
selten
3
mittel
4
häufig
5
sehr häufig
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
SAA zur subjektiven
Arbeitsanalyse
470
»Mit Hilfe der SAA kann die Arbeitssituation, wie sie subjektiv wahrgenommen wird, in
theoretisch relevanten Aspekten erfasst werden, wobei das Verfahren den Vorteil hat,
zur Analyse recht unterschiedlicher Arbeitstätigkeiten eingesetzt werden zu können«
(von Rosenstiel, 1992, S. 71).
Handlungsspielraum (z. B. Autonomie),
Transparenz (z. B. im sozialen Bereich),
Verantwortung (z. B. für eine gemeinsame Aufgabe),
Qualifikation (Anforderung, Einsatz, Chance),
soziale Struktur (z. B. Unterstützung durch Kollegen),
Arbeitsbelastung.
Die sog. »neuen Wege psychologischer Arbeitsgestaltung« beinhalten im Grunde all
solche Maßnahmen, die im Sinne der Herzbergschen Theorie die intrinsische Arbeitsmotivation erhöhen können und somit den negativen Folgen der tayloristischen Vereinzelung und Entfremdung (»innere Kündigung«, höhere Fluktuation und Fehlzeiten)
entgegenwirken. Des Weiteren zielen sie auch auf eine sinngebende und zufriedenstellende Arbeitssituation, eine Erhöhung der Partizipation der Arbeitenden, und sie richten sich in der Regel an den Vorgaben der »Humanisierung der Arbeitswelt« aus:
Job enlargement: Erweiterungen der Aufgaben im horizontalen Sinne. Ausführung
von verschiedenen Tätigkeiten an einem Arbeitsplatz, die zuvor von mehreren, stärker
spezialisierten Arbeitskräften verrichtet wurden. Eine solche Form der Arbeitsumgestaltung bringt allerdings keine Autonomie oder Partizipation mit sich, sondern nur
eine Vergrösserung des Tätigkeitsspielraumes.
Job rotation: Geplanter Arbeitsplatztausch innerhalb eines Bereiches. Auch dieser
Ansatz zielt vor allen Dingen auf eine höhere Qualifikation des Arbeitenden ab.
Job enrichment: Ausweitung des Arbeitsbereiches in horizontaler und vertikaler
Richtung; letzteres bedeutet Zugestehen von Autonomie- und Entscheidungsspielräumen. Konkret könnten einem Beschäftigten nicht nur zusätzliche Arbeitselemente,
sondern in gewissen Grenzen auch die Planung und Endkontrolle seiner Tätigkeit
übertragen werden.
Der Ansatz der teilautonomen Arbeitsgruppen vereint die 3 vorgenannten Konzepte. Darunter versteht man »kleine funktionale Einheiten der regulären Organisationsstruktur (ca. 3 bis 10 Personen), die konstant zusammenarbeiten und denen die
Erstellung eines kompletten (Teil-)Produkts oder einer Dienstleistung mehr oder weniger eigenverantwortlich übertragen wurde« (Bungard & Antoni, 1993, S. 391).
Obwohl auch die Autonomie solcher Arbeitsgruppen im konkreten Fall recht eingeschränkt sein mag, überzeugt der Gedanke in konzeptioneller Hinsicht als eine perspektivenreiche Alternative, die Arbeitenden mehr in das Geschehen der Organisation
einzubinden.
Eine weitere Maßnahme auf dem Weg zu einer Erhöhung der intrinsischen Arbeitsmotivation besteht in der Implementierung von »Qualitätszirkeln«, deren Aufgabe
primär darin besteht, innerhalb der eigenen Gruppe Problembereiche in moderierten
Gesprächsrunden zu thematisieren und Lösungsvorschläge aufzuzeigen.
Wie bereits dargelegt, dürften die »humanitären« Gesichtspunkte kaum ausschlaggebend dafür sein, sie in der Praxis umzusetzen, um damit zu einer Erhöhung der Arbeitszufriedenheit beizutragen. Vielmehr werden es eher ökonomische Überlegungen
sein, die auf Seiten der Unternehmensleitung handlungsbestimmend sind. Das Motto
von der Humanisierung der Arbeitswelt stellt insofern im Regelfall wohl nur eine sozial
4
4
4
4
4
4
8.4 · Tätigkeitsbezogene Diagnostik und Intervention
Ökonomische Ziele
handlungsbestimmend
Qualitätszirkel
Teilautonome
Arbeitsgruppen
Umfassende Ausweitung des Arbeitsbereiches
Arbeitsplatztausch
Tätigkeitsspielraum
Erhöhung der
intrinsischen Arbeitsmotivation
471
8
8
Verbesserung der
Kommunikation
Interpersonale
Kommunikation als
Problemfeld
Konfliktdiagnostik
Diagnostik und Intervention bei Gruppen
Angesichts der zunehmenden Verwirklichung von Gruppenarbeitskonzepten (wie teilautonome Arbeitsgruppen, Qualitätszirkel u. a.) in Organisationen befasst sich neuerdings die ABO-Psychologie auch mehr und mehr mit gruppenspezifischen Diagnostikund Interventionsfragestellungen. Dabei wird allerdings fast ausschließlich auf bekannte Ansätze aus der Sozialpsychologie zurückgegriffen, sodass es genügt, hier ganz
kurz einige Beispiele herauszustellen.
Von zentralem Interesse ist u. a. die Konfliktdiagnostik, die etwa anhand strukturaler Organisationsmerkmale erfolgen könnte (dazu würden u. a. die Wettbewerbshaltung innerhalb von und zwischen den Gruppen gehören, des Weiteren vielleicht gleiche
oder unklare Machtverhältnisse zwischen oder innerhalb der Gruppen usw.). In einem
solchen Fall müsste es dem Psychologen darum gehen, die Bedingungen herauszufinden, die zur Entstehung, Aufrechterhaltung und Förderung von Konflikten führen.
Diese Faktoren können auch individueller Art sein und das Verhalten der einzelnen
Beschäftigten beeinflussen, wie z. B. Überbetonung der eigenen Ziele, Verheimlichung
der »eigentlichen« Interessen, Hintergehen der anderen Gruppen, »mobbing« u. Ä.
Aus den sozialpsychologischen Experimentalanordnungen aus dem Arbeitskreis
um Sherif (Sherif et al., 1961) ist bekannt, dass konfliktuöse Situationen zur Intensivierung des Gruppenzusammenhaltes, zu einer steigenden Zielorientierung und der Bereitschaft, autoritäre Führungsstile zu akzeptieren, beitragen. Als denkbare Lösung
kommt u. a. in Betracht, die Kooperation durch Konzipierung von Zielen zu fördern,
die nur gemeinsam erreichbar sind.
Ein weiteres Problemfeld, hauptsächlich im Verhältnis zwischen Gruppen, besteht
in der interpersonalen Kommunikation. In Bezug auf diese wird die psychologische
Diagnostik und Intervention vor allem zur Aufdeckung und Beseitigung von Kommunikationsfehlern eingesetzt. Die Grundfrage diagnostischen Vorgehens lautet gemäß
der Laswell-Formel: »Wer sagt was zu wem auf welchem Kanal mit welchem Effekt?«
(von Rosenstiel, 1992, S. 295 ff.). Ausgehend von dieser Frage lassen sich insgesamt 5
potentielle Fehlerquellen in einer Kommunikation festmachen, die dann ggf. verändert
werden können. Zur Intervention sind 3 allgemeine Ratschläge von Sader (1976) zur
Verbesserung der Kommunikation hilfreich:
4 Kurze Wege für den Informationsfluss (wenig Schaltstellen),
4 Berücksichtigung möglicher Informationsveränderungen [man denke an Bartletts
Konzeption der Gerüchtebildung (1932)],
4 Bevorzugung der schriftlichen Form.
8.5
sische Motivationsfaktoren für die Arbeitszufriedenheit verantwortlich. Das
Modell impliziert eine Reihe von Folgerungen zur Humanisierung der Arbeit,
deren praktische Umsetzung in der Regel jedoch ökonomischen Notwendigkeiten untergeordnet ist.
! Dem Modell von Herzberg zufolge sind sowohl intrinsische als auch extrin-
erwünschte Bemäntelung einer ökonomischen Ausnützung des Produktivitätsfaktors
Gruppenarbeit dar.
Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie
Rückgriff auf die
Sozialpsychologie
472
lung von Organisationen und auf konkreter Ebene einerseits die am
Individuum ausgerichtete Beurteilung und Entwicklung von Personal
sowie andererseits die an den Arbeitsbedingungen ansetzende Analyse
und psychologische Gestaltung der Arbeit.
Ad 2. Innerhalb der Personalbeurteilung unterscheidet man die Eignungsdiagnostik von der (systematischen) Personalbeurteilung. Mit
der Eignungsdiagnostik werden Bemühungen umschrieben, größtmögliche Übereinstimmung zwischen beruflichem Anforderungsprofil einerseits und optimaler Bewerberauswahl und -zuordnung andererseits zu verwirklichen.
Zur Erreichung dieses Ziels bedient sie sich nahezu der gesamten Palette verfügbarer Instrumente, vielleicht mit Ausnahme der projektiven
Verfahren. Eine Sonderstellung nehmen die sog. Assessment Center
ein.
Die systematische Personalbeurteilung schließt eignungsdiagnostische Aussagen häufig ein, geht aber in jenen Fällen darüber hinaus, wo
es um die Abschätzung von Potentialen und die Zuführung zu Personalentwicklungsmaßnahmen geht.
Ad 3. Ein Assessment Center (AC) ist ein umfassendes, standardisiertes
Verfahren, in dessen Rahmen unterschiedlichste Beurteilungs- und Bewertungsverfahren wie z. B. Tests, Interviews oder Simulationen, eingesetzt werden, um einzelne Mitarbeiter im Hinblick auf Personalauswahl
oder -entwicklung zu beurteilen. Es wird dabei versucht, die zukünftigen Anforderungssituationen zu simulieren, um so individuelle Fähigkeiten im Verhalten beobachtbar und diagnostizierbar zu machen.
Ad 4. Der Begriff »soziale Validität« stellt ein Kontrastkonzept zur empirisch-technischen Vorhersagevalidität dar. Sie betrifft den sozialen
Kontext der Diagnostik und ist durch 4 Aspekte gekennzeichnet: Berücksichtigung sozialpsychologischer Anforderungen, Partizipation der Betroffenen, Transparenz und angemessene wechselseitige
Kommunikation.
4. Was bedeutet der Begriff
»soziale Validität«?
3. Was ist ein Assessment
Center?
2. Welche Bereiche werden in
der Personalbeurteilung
unterschieden und wie
lassen sie sich charakterisieren?
! Ad 1. Auf abstrakter Ebene zählen dazu die Diagnostik und Entwick-
8
zählen zur ABO-Psychologie?
473
? 1. Welche Anwendungsfelder
Übungsfragen
Zur historischen Entwicklung der Diagnostik im Führungsbereich, aktuellen Modellen
und der Validität von Prädiktoren für Managementpositionen s. Sarges (1994).
Weiterführende Literatur
Fazit
Diagnostik und Intervention in der ABO-Psychologie kommen vor allem praktischen
Bedürfnissen in Organisationen nach: Der Auswahl, Beurteilung und Entwicklung
von Personal, der Strukturierung von Organisationen oder deren Teilen sowie der
Analyse und psychologischen Gestaltung der Arbeit. Sie hat vor allem auf der Ebene
des Individuums (Berufseignung, Personalentwicklung und Arbeitsanalyse) theoretische Konzepte und Instrumentarien von Bedeutung hervorgebracht.
Im Bereich der Gruppendiagnostik wurden jedoch noch sehr wenige eigenständige Ansätze von Seiten der ABO-Psychologie entwickelt.
8.5 · Diagnostik und Intervention bei Gruppen
(S.485-488)
Hochbegabtendiagnostik
(S.481-485)
Diagnostik und Intervention bei
der individuellen Schülerhilfe
(S.476-481)
Diagnostik und Intervention bei
der Schullaufbahnberatung
Diagnostik und Intervention in der
pädagogischen Psychologie
9
Zurückstellung bei
mangelnder Schulfähigkeit
Bewährung ist bessere
Methode
Problem:
Bereits hohe Grundrate
Schulreife
Passung von Schulanforderungen und
Lernvoraussetzungen
Diagnostik und Intervention bei der Schullaufbahnberatung
Die Beobachtung, dass Schüler, die den Anforderungen der ersten Schulklasse nicht
gewachsen waren, ein Jahr später dem Unterricht folgen konnten, ließ Kern (1951)
vermuten, der Schulerfolg sei eine Funktion der Schulreife, die sich bei verschiedenen
Schülern zu unterschiedlichen Zeitpunkten von selbst einstelle. Man müsse nur durch
den Einsatz geeigneter Schulreifetests verhindern, dass noch nicht schulreife Kinder zu
früh eingeschult würden. Der von Kern für diese Zwecke vorgeschlagene Grundleistungstest konnte die Aufgabe jedoch nur sehr unvollkommen erfüllen. Neuere Schulreifetests (7 Abschn. 3.1.5) erwiesen sich als reliabler und auch valider. Nach Berechnung von Tiedemann (1974) können Schulreifetests jedoch die Erfolgsquote von 90%
bei Einschulung aller Schüler nur selten erreichen, sodass die Bewährung in der ersten
Klasse die bessere diagnostische Methode ist, die überdies den Vorzug hat, konkrete
Bewährungskriterien zu liefern anstelle der durch die Tests repräsentierten sehr allgemeinen Leistungsanforderungen.
Aus diesen Gründen wäre es ökonomischer, auf Schuleingangstests ganz zu verzichten und das Ergebnis der schulischen Bewährung abzuwarten. Die mit einem schulischen Versagen verbundenen traumatisierenden Lernerfahrungen lassen es jedoch
geboten erscheinen, einem noch nicht schulfähigen Kind möglichst bald die ständigen
Überforderungserlebnisse zu ersparen. Hier können bei gegebenem Verdacht auf Schulunreife eingesetzte Schuleingangstests Hinweise geben. Die Nachteile einer Zurückstellung haben sich verringert, seit Vorklassen zurückgestellten Schulanfängern eine angemessene Lernumwelt bereitstellen. Will man diese Nachteile weiter reduzieren, müssen
die Befunde von Schulreifetests durch den Einsatz weiterer Entwicklungstests abgesichert werden. Empfehlungen für einen Verbleib in der Schule sollten sich jedoch nicht
nur auf die genannten Verfahren stützen, sondern auch eine Diagnose des erreichten
Kenntnisstandes einbeziehen und detaillierte Ratschläge für eine gezielte Förderung
enthalten.
9.1.1 Diagnostik und Intervention beim Schuleintritt
Der Einsatz diagnostischer Verfahren bei der Schullaufbahnberatung wird begründet
durch den Wunsch nach Optimierung der Passung zwischen Lernvoraussetzungen
beim Schüler und schulischen Anforderungen sowie nach Vermeidung frustrierender
Erfahrungen durch schulische Überforderungen.
9.1
Diagnostik im Rahmen der Pädagogischen Psychologie war von Anfang an auf Intervention angelegt. Zwei große Bereiche zählen zu ihren Anwendungsfeldern, die
Schullaufbahnberatung und die individuumzentrierte Schülerhilfe. Während die
Intervention bei der Schullaufbahnberatung sich auf Personen- und/oder Bedingungsselektion im Sinne von Pawlik (1976) beschränkt, kann bei individueller Schülerhilfe
eher von Intervention im Sinne von Behandlung gesprochen werden.
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Ausrichtung auf
Intervention
476
Die wohl folgenschwerste Aufgabe im Rahmen von Schullaufbahnberatungen hat die
pädagogische Diagnostik bei der Überweisung von Schülern in die Sonderschule für
Lernbehinderte zu leisten, da diese Maßnahme mit dem Verlust von sozialem Status
und späteren Berufs- und Lebenschancen verbunden ist. Die Überweisungsmodalitäten sind in den einzelnen Bundesländern relativ ähnlich und durch Verwaltungsverordnungen geregelt. Sie setzen einen mehr als einjährigen allgemeinen Leistungsrückstand
in der Grundschule voraus, der durch eine weitere Klassenwiederholung nicht zu kompensieren ist. Falls sich dieser Leistungsrückstand durch Schulleistungstests objektivieren lässt, muss als weiteres Kriterium ein Intelligenzquotient <85 gegeben sein, um eine
Umschulungsempfehlung zu rechtfertigen (vgl. Kautter, 1979). Durch die Anwendung
eines objektiven Schulleistungstests soll verhindert werden, dass schwache Schüler in
sehr guten Klassen oder etwa bei zu strenger Benotung fälschlicherweise als lernbehindert eingestuft werden. Auch Schüler mit nur partiellen Lernschwierigkeiten sollen auf
diese Weise erfasst und von einer Überweisungsprozedur ausgeschlossen werden. Die
Intelligenzdiagnostik soll darüber hinaus verhindern, dass Kinder ohne kognitive Retardierungen nur aufgrund ihrer Schulleistungsdefizite in die Lernbehindertenschule
abgeschoben werden. Intelligenztests wie der HAWIK-R sind wegen ihrer Sprach- und
Schulleistungsabhängigkeit für diese Aufgabe allerdings weniger gut geeignet. Sie würden die Ergebnisse der Schulleistungsüberprüfung vermutlich nur bestätigen. Trotzdem gehört der HAWIK immer noch zu den bevorzugten Verfahren bei der Sonderschulauslese (Probst, 1984). Weniger sprachabhängige Verfahren wie die Tests aus der
Raven- oder der CFT-Reihe sind als Verfahren zur Verhinderung vorschneller Sonderschulüberweisungen besser geeignet. Für die immer größer werdende Zahl von Ausländerkindern unter den Schulversagern stellen sie auf jeden Fall die Alternative mit
der größeren Testfairness dar.
Auf den ersten Blick scheinen damit genügend Sicherungen gegen eine ungerechtfertigte Sonderschulselektion in das Auswahlverfahren eingebaut zu sein. Um so erstaunlicher ist demgegenüber die Zahl der Sonderschüler mit knapp durchschnittlicher
oder durchschnittlicher Intelligenz (Kautter, 1975). Eine Ursache für diese offensichtliche Missklassifikation könnte man in der Tatsache vermuten, dass die Ausleseverfahren nicht durch ausgebildete Psychologen, sondern durch Sonderschullehrer durchgeführt werden, die z. T. beharrlich an überalterten Testverfahren festhalten (Probst,
1984). Als Angehörige der aufnehmenden Institution sind sie obendrein nicht neutral.
Durch ihr Ausleseergebnis haben sie Einfluss auf Bestand und Ausbau ihrer eigenen
Institution. Mit dem Ausbaugrad des Sonderschulwesens erhöhte sich aber auch die
Neigung der Grundschulen, Problemschüler in die dafür scheinbar besser qualifizierte
Schulform abzuschieben. Weitere Sicherungen gegen eine zu großzügige Sonderschulselektion zeigt eine diagnostische Strategie von Kornmann (1977a; . Abb. 9.1) auf.
In den letzten Jahren ist die Unzufriedenheit der Sonderschule mit ihrer Lückenbüßerfunktion für die Unfähigkeit der Grundschule, mit Problemschülern fertigzuwerden, wie auch an dem praktizierten Ausleseverfahren deutlich gewachsen. Nicht auslesen, sondern fördern lautete die Devise eines Symposions, das sich mit Möglichkeiten
einer Förderdiagnostik befasste (Kornmann et al., 1983). Die vor allem von den Ausbildern für das Fach Sonderpädagogik ausgehenden Bestrebungen zur Veränderung der
Auslesepraxis werden von Probst (1984) allerdings skeptisch bewertet. Förderungsdiagnostische Bemühungen würden von den Grundschulen zu wenig aufgenommen und
kämen auch in der Regel zu spät, nämlich erst dann, wenn massive Lernrückstände
9.1.2 Diagnostik und Intervention bei der Sonderschulüberweisung
9.1 · Diagnostik und Intervention bei der Schullaufbahnberatung
9
Fördern statt auslesen
Möglichkeiten einer
Förderdiagnostik
Viele Sonderschüler
mit durchschnittlicher
Intelligenz
Verwendete
Testverfahren
Maßnahmen gegen
vorschnelle Sonderschuleinweisungen
Kriterien zur Sonderschulüberweisung
Folgenschwere
Aufgabe
477
9
Rechtzeitige Diagnose
soll Lernprobleme
mindern
ja
ja
ja
L
I–
Versuch
d. Inter vention
I+
KL
KL
KL
2.3
I–
Versuch
d. Regulierung
I + = Intervention erfolgreich
I – = Intervention erfolglos
1.4.
Diskrepanz
zw. schulischer
u. häusl.
Erzieh.
1.3.
plötzl.
Änd. d. Lernu. Lebensbeding.
1.2.
Schulver säumnisse
ja
I+
KL
2.4.
Persönlich keitsstörungen
2.3
Behinderung
i. S. einer and.
So - Schul art
2.2.
Hirn schädigung
L = Lernbehinderung
KL = Keine Lernbehinderung
Diagnostiker muss
sich beraten lassen
nein
nein
nein
nein
2.1.
Sozioökonom.
u. soziokultur.
Fakt.
2.
geht nicht
auf behebbare
Faktoren
zurück
ja
ja
ja
ja
Therap.
veranlassen
KL
weitere
Unters.
veranl.
KL
L
L
entstanden und mit den Mitteln der Grundschule nicht mehr zu beheben seien. Braband und Kleber (1983) versuchten daher, Sonderschullehrer als Diagnostiker und
Berater bei Lernschwierigkeiten bereits in der Grundschule einzusetzen, um ein gravierendes Lernversagen erst gar nicht entstehen zu lassen, und hatten dabei gute Erfolge. Sicher wird sich auf diese Weise nur ein Teil der Lernschwierigkeiten beheben lassen.
Die Zahl der Sonderschulselektionen zu verringern und auf das absolut notwendige
Maß zu reduzieren, ist jedoch ein erstrebenswertes Ziel. Pädagogisch-psychologische
2.
nein
nein
nein
nein
1.1.
Sinnesstörung
1.
geht auf
behebbare
Faktoren
zurück
Ist der Leistungsrückstand zeitlich überdauernd
und weder mit schulischen noch mit außer schulischen Maßnahmen behebbar ?
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
. Abb. 9.1. Strategie zur
Sonderschulauslese. (Aus
Kornmann, 1977a)
478
Die früher übliche Praxis, die Eignung von Schülern für weiterführende Schulen nur
mit Hilfe von Aufnahmeprüfungen zu ermitteln, wurde schon früh kritisiert. Der Subjektivität der Aufnahmeprüfungen und der Empfehlungen der abgebenden Grundschulen sollten Testverfahren abhelfen, die weniger schulisches Wissen als die Begabung der Schüler erfassen. Die dafür verwendeten Entwicklungstests sowie die eigens
zu diesem Zweck konstruierten Übertrittstests (. Abschn. 3.1.5.2) konnten allerdings
die Hoffnung, langfristige Prognosen von hinreichender Gültigkeit zu erstellen, trotz
Anwendung sophistizierter statistischer Methoden nicht erfüllen. Lediglich im Bereich
kurz- bis mittelfristiger Vorhersagen konnten Validitätskoeffizienten bis .60 erzielt werden. In diesem Vorhersagezeitraum konkurrieren sie jedoch mit Schulleistungsergebnissen, die als Indikatoren notwendiger Vorkenntnisse wie der kognitiven Bedingungen
zu ihrem Erwerb gelten.
Damit käme an sich dem Urteil der abgebenden Grundschule wieder ein größeres
Gewicht bei der Empfehlung zu, welche Schulart für einen Schüler am besten geeignet
sei. Für eine stärkere Gewichtung der Grundschulempfehlung spricht auch die längere
Beobachtung der Schüler, die eine zuverlässigere Einschätzung ermöglicht als eine einmalige Testuntersuchung. Gegen eine Dominanz der Grundschulempfehlung lässt sich
allerdings die eingeschränkte Vergleichbarkeit der Schulzensuren sowie eine angesichts
der drohenden Auszehrung der Hauptschule zu befürchtende Zurückhaltung mit
Übertrittsempfehlungen ins Feld führen. Obendrein vermag kein noch so zuverlässiges
und valides Lehrerurteil die konkreten Lernbedingungen der aufnehmenden Schule,
zu denen nicht nur das Anforderungsniveau der jeweiligen Schule, sondern auch die
dort unterrichtenden Lehrer gehören, hinreichend zu antizipieren.
Die sicherste Methode zur Feststellung der Eignung für eine bestimmte Schulart,
die auch die konkreten Anforderungen berücksichtigt, wäre somit, wie bei der Aufnahme in die Grundschule, die Bewährung in der gewählten Schulart. Da eine Aufnahme
aller Schüler aus Kapazitätsgründen nicht in Betracht kommt, hat sich inzwischen in
einigen Bundesländern ein Verfahren herauskristallisiert, das wichtige Komponenten
vereinigt. Auf der Basis der Übertrittsempfehlungen der abgebenden Grundschule
wählen die Erziehungsberechtigten kraft Elternrecht die gewünschte Schule. Aufnahmeprüfungen sind nur für den Fall vorgesehen, dass Übertrittsempfehlung und Elternwunsch differieren. An der aufnehmenden Schule ist eine zeitlich begrenzte Bewährungsphase zu durchlaufen, nach deren Abschluss die endgültige Entscheidung über
Verbleib oder Umschulung getroffen wird. Was auf den ersten Blick wie eine Bankrotterklärung der pädagogisch-psychologischen Diagnostik aussieht, ist bei genauerem
Hinsehen nur die Ersetzung einer unzureichenden, allein auf die Konstanz individueller Differenzen aufbauenden Statusdiagnostik durch eine auch die konkreten Kontextbedingungen einbeziehende Prozessdiagnostik. Diese sollte allerdings nicht den Lehrern allein überlassen bleiben, sondern zumindest im Problemfall auch den psychologischen Experten einbeziehen. Der hierfür zuständige schulpsychologische Dienst ist
jedoch noch nicht überall zureichend ausgebaut.
9.1.3 Diagnostik beim Übertritt in weiterführende Schulen
Diagnostik, die bereits im Stadium des Entstehens von Lernschwierigkeiten einsetzt
und die Basis für eine gezielte Förderung schafft, könnte helfen, dieses Ziel zu erreichen
(7 Abschn. 9.2).
9.1 · Diagnostik und Intervention bei der Schullaufbahnberatung
9
Prozessdiagnostik ersetzt Statusdiagnostik
Lösung: Bewährungsphase in gewünschter
Schulform
Vor- und Nachteile
der Grundschulempfehlung
Nur kurz- und mittelfristige Prognosen
möglich
Probleme langfristiger
Prognosen
Probleme von
Aufnahmeprüfungen
479
9
Das wirft die Frage auf, welche Fächer bzw. Fächer-Gruppen voneinander unterschieden werden müssen, um gegebenenfalls dafür gesonderte Verfahren vorzusehen. Ne-
Welche Fächer bilden
homogene Gruppen?
Forschungsbedarf
Ziel: Passung von
Anforderungen und
Personenmerkmalen
Kombination von
Abiturnoten, Tests und
Interviews
In der Bundesrepublik Deutschland übertrifft seit geraumer Zeit die Nachfrage nach
Studienplätzen das von den Universitäten vorgehaltene Angebot um etwa den Faktor 2,
d. h. es haben sich ungefähr doppelt so viele Studierende eingeschrieben, wie Plätze für
sie vorhanden sind. Es steht zu befürchten, dass auch in Zukunft eine Beschränkung
von Zulassungen unausweichlich ist, was die Frage aufwirft, nach welchen Gesichtspunkten das vergleichsweise rare Gut »Studienplätze« vergeben werden soll. Dieser
Frage kommt eine besondere Aktualität deshalb zu, weil den Hochschulen eine stärkere Autonomie eingeräumt werden soll, in deren Rahmen es ihnen dann auch freisteht,
zumindest einen Teil »ihrer« Studierenden selbst auszuwählen.
Im Fach Medizin war für die Selektion der TMS (7 Abschn. 1.6) entwickelt worden,
doch wurde beschlossen, ihn 1997 letztmalig einzusetzen, weil durch die Beschränkung
der Niederlassungsfreiheit für Ärzte nunmehr weniger Studienbewerber in das Fach
drängen, was den Aufwand nicht mehr rechtfertigen würde.
Ansetzend an den positiven Erfahrungen mit einem Auswahlverfahren, in dem
Tests eine Rolle spielen, und geleitet von der Absicht, das Dilemma zu überwinden, das
aus der partiellen Unvereinbarkeit von Autonomie der einzelnen Hochschulen einerseits und Einheitlichkeit des Zulassungssystems andererseits resultiert, hat der Deidesheimer Kreis (1997) Empfehlungen zur Feststellung der Studieneignung erarbeitet.
Zentral darin ist – neben einer Berücksichtigung der Durchschnittsnote im Abschlusszeugnis als Indikator der allgemeinen Studieneignung – die Entwicklung und flexible
Verwendung von studienfach- bzw. studienfeldbezogenen Fähigkeitstests vorgesehen,
im Weiteren der lokale Einsatz von Interviews, die den Bewerbern Gelegenheit geben
sollen, sich in ihrer Gesamtpersönlichkeit darzustellen und darüber hinaus ihre Motivations- und Interessenstruktur darzulegen.
Die Realisierung eines derartigen Verfahrens dürfte zu einer besseren »Passung«
von individuellen Voraussetzungen der Studierenden mit den fach- und ortsspezifischen Anforderungen an die Studierenden führen und im Gefolge davon eine Verminderung von Studienabbrüchen, Fachwechseln und Prüfungswiederholungen, allgemein
also eine effektivere Nutzung der Kapazitäten bewirken.
Einige der Voraussetzungen und Implikationen bedeuten jedoch einen gewissen
weiteren Forschungsbedarf:
4 Zur Erreichung des besagten »person-job-fit« gehört nicht nur die Auswahl von
Personal, sondern auch dessen Entwicklung, also die Vermittlung von Kenntnissen
und Fähigkeiten zur Bewältigung der beruflichen Anforderungen.
Über die Sozialisation an und durch Hochschulen ist freilich vergleichsweise wenig
bekannt (s. Amelang & Hoppensack, 1977; Hoffmann & Stiksrud, 1994).
4 Die wechselseitige »Passung« und die Entwicklung von Prognosesystemen erfordern
systematische Anforderungsanalysen, die sich des besonderen Methodenarsenals der
Arbeits- und Organisationspsychologie zu bedienen hätten (s. Sonntag, 1992).
Das Pilotprojekt »Profilbildung« der Hochschulrektorenkonferenz (s. Hödl, 1995)
ist dafür immerhin ein erster Schritt.
4 Der Gesichtspunkt einer hinreichenden Ökonomie verlangt eine fachübergreifende, das spezifische Anforderungsprofil einer bestimmten Ausbildungsstätte gegebenenfalls eine fachspezifische Prädiktion.
9.1.4 Diagnostik beim Übertritt in den tertiären Bildungsbereich
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Beschränkung der
Zulassung wegen
Studienplatzknappheit
480
Diagnostik und Intervention bei individueller Schülerhilfe
Über diese Kernvariablen hinaus werden Kontextfaktoren wie Unterrichtsklima sowie
Stimulation oder Beeinträchtigung durch Bedingungen der Peer-Group und des Elternhauses als für die Schulleistung bedeutsam angenommen.
Die häufigsten Anlässe für Diagnose und Intervention im Aufgabenbereich der Pädagogischen Psychologie sind individuelle Lernschwierigkeiten. Sie äußern sich in
negativen Abweichungen der Schülerleistungen von klassenbezogenen Normen oder
individuellen Erwartungen. Für die Beurteilung einer konkreten Schülerleistung bildet in der Regel die Durchschnittsleistung der Klasse den Bezugsrahmen. Wird sie
deutlich und nicht nur vorübergehend unterschritten, ist Anlass für diagnostische
Maßnahmen gegeben, da ohne sie zielgerichtete Interventionen nicht ergriffen werden
können. Aber auch ein Nachlassen der Leistungen eines bislang guten Schülers kann
diagnostische Maßnahmen initiieren, wenn seine Leistungen dauerhaft hinter den
individuellen Erwartungen zurückzubleiben drohen. Da Lernschwierigkeiten nach
übereinstimmender Auffassung als multifaktoriell bedingt angesehen werden, stellt
sich die Frage, an welchem Punkt diagnostische Maßnahmen sinnvollerweise anzusetzen sind.
Ein Modell von Haertel et al. (1983) nimmt an, dass Erfolg und Misserfolg im Unterricht von 5 Bedingungen abhängig sind, und zwar von:
1. der zur Bewältigung einer Aufgabe vom Schüler benötigten Lernzeit,
2. der von ihm konkret aufgewandten Lernzeit,
3. seiner Fähigkeit, Instruktionen zu verstehen,
4. der ihm vom Lehrer zugestandenen Lernzeit und
5. der Qualität des Unterrichts.
9.2
Gleichwohl liegen Arbeiten vor, die in der Tat eigenständige Validitätsaspekte von Interviews für die Vorhersage des Studienerfolges belegen (s. z. B. Hojat et al., 1993). In
Nachuntersuchungen an jenen Studierenden, die über das Auswahlgespräch einen Studienplatz in Medizin erhielten, fanden Ittner und Halsig (1993) zwar eine leistungsmäßige Unterlegenheit gegenüber den nach Leistungsquoten Zugelassenen, aber auch
Unterschiede in verschiedenen Kategorien des Studienerlebens und des Selbstbildes,
die als sehr positiv zu bewerten sind.
ben einer konventionell-rationalen Klassifikation, wie sie im Arbeitskreis um Trost
(Blum & Trost, 1982; Blum et al., 1982; Fay et al., 1982) mit Tests für Ingenieurwissenschaften, Mathematik, Naturwissenschaften, Philologie sowie Rechts- und Wirtschaftswissenschaften vorgenommen wurde, ist auch ein analytisch-induktives Vorgehen
denkbar. Giesen et al. (1986) haben diesen Weg sehr erfolgreich eingeschlagen und u. a.
gezeigt, dass eine Polarität zwischen einem eher mathematisch-naturwissenschaftlichen und einer eher kultur- und geisteswissenschaftlichen Orientierung besteht, und
auf einer anderen Dimension soziale und pädagogische Neigungen von Interesse an
Politik und Wirtschaft getrennt werden.
4 Ein Interview als Bewerbungsgespräch verspricht gewöhnlich gleichermaßen der
interviewenden und der interviewten Person hochgradige subjektive Evidenzen
über die inhaltliche Richtigkeit, die häufig genug in diametralem Gegensatz zur
empirischen Befundlage stehen.
9.2 · Diagnostik und Intervention bei individueller Schülerhilfe
Bedingungen
des Schulerfolgs
Hilfe bei Lernschwierigkeiten
Validität von
Interviews
481
9
9
Neue Sicht der
»Faulheit«
Fähigkeit, Anstrengung, Aufgabenschwierigkeit, Zufall
Modell der Lernmotivation
Entwicklungsprozess
zur nächsten Lernzielebene
Ermittlung der basalen
Lernzielebene
Die von einem Schüler zur Bewältigung einer konkreten Lernaufgabe aufgewendete
Lernzeit ist der Verhaltensbeobachtung zugänglich und ein Indikator seiner Lernmotivation. Nach einem Modell der Lernmotivation von Heckhausen und Rheinberg
(1980) ist die Bereitschaft eines Schülers, sich für eine Lernaufgabe zu engagieren,
abhängig von dessen subjektiver Einschätzung, ob er das Ergebnis durch eigenes
Handeln beeinflussen kann, ob das Ergebnis positive Konsequenzen hat, und ob ihm
diese Konsequenzen auch wünschenswert erscheinen. Der Vergleich eines Handlungsergebnisses mit einem Gütemaßstab entscheidet darüber, ob dieses als Erfolg oder
Misserfolg bewertet werden kann. Je nachdem, ob ein Handlungsergebnis auf eigene
Fähigkeit, Anstrengung, Aufgabenschwierigkeit oder Zufall zurückgeführt wird,
empfindet der Handelnde Befriedigung und Stolz oder Unzufriedenheit und Scham.
Die Erklärung von Misserfolgen durch mangelnde eigene Fähigkeiten würde die
zukünftige Anstrengungsbereitschaft beeinträchtigen, da eigene Anstrengungen als
zwecklos angesehen werden. Ein Zurückführen von Misserfolgen auf mangelnde
Anstrengung eröffnet dagegen Verbesserungschancen. Auf der anderen Seite würden
Erfolge eine geringere positive Wertigkeit in der Selbstbewertungsbilanz erhalten,
wenn sie entweder auf Glück oder zu geringe Aufgabenschwierigkeit zurückgeführt
würden.
Die von Lehrern beobachtete Unwilligkeit eines Schülers mit Lernschwierigkeiten,
die ihm zugestandene Lernzeit hinreichend zu nützen, könnte somit darin begründet
sein, dass er die Erfolgschancen der eigenen Handlungsmöglichkeiten in einer konkreten Lernsituation aufgrund zurückliegender Erfahrung als so gering einstuft, dass ihm
jede Eigenaktivität aussichtslos erscheint. Aber selbst wenn ein Lernergebnis erreichbar
erschiene, könnten eigene Anstrengungen ausbleiben, falls keine positiven Ergebnisfolgen antizipiert oder als nicht attraktiv genug bewertet würden.
9.2.2 Diagnostik und Beeinflussung der aufgewendeten Lernzeit
Je unzureichender die aufgabenspezifischen Lernvoraussetzungen eines Schülers sind,
desto mehr Lernzeit muss er zur Erreichung eines Lernziels aufwenden. Das Fehlen
spezifischer Vorkenntnisse gilt inzwischen als wichtigste Ursache zur Erklärung von
Lernschwierigkeiten und steht deshalb im Vordergrund der zu ihrer Aufklärung anzusetzenden diagnostischen Bemühungen. Fachspezifische Schulleistungstests können
helfen, den Bereich der Lernvoraussetzungen grob zu strukturieren. Zur Feindiagnostik
eignen sich informelle Lernzielkontrollen, die neueren Unterrichtswerken inzwischen
immer häufiger beigegeben werden. Ziel einer Vorkenntnisdiagnose ist die Ermittlung
jener basalen Lernzielebene, auf der der Schüler mit Lernschwierigkeiten keine oder
nur geringfügige Vorkenntnisdefizite hat (Gagné, 1973). Von dieser Ebene ausgehend,
haben Interventionsmaßnahmen das Erreichen der nächst höheren Lernzielebene anzustreben und die Konsolidierung der Leistungen auf diesem Niveau zu sichern. Durch
zwischengeschaltete Lehrzieltests ist dieser Entwicklungsprozess zur jeweils nächsthöheren Lernzielebene diagnostisch so lange zu begleiten, bis der Schüler den Anschluss
an seine Lerngruppe gefunden und seine Kenntnisse in einem Abschlusstest unter
Beweis gestellt hat. Liegen Vorkenntnisdefizite zu weit zurück, müssen schulische Interventionsbemühungen eventuell durch außerschulische Nachhilfemaßnahmen ergänzt werden.
9.2.1 Diagnostik und Beeinflussung der benötigten Lernzeit
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Mangelnde Vorkenntnisse als Ursache von
Lernschwierigkeiten
482
Die quantitativen unterrichtsorganisatorischen Rahmenbedingungen werden durch
das Ausmaß an zugestandener Lernzeit definiert, die unterrichtsdidaktischen durch
die Qualität des Unterrichts. Ob in einer Klasse die zugestandene Lernzeit zu knapp
9.2.4 Diagnostik und Verbesserung des Unterrichts
Ist das Verständnis für sprachliche Instruktionen reduziert, haben Schüler zwangsläufig
Probleme, dem Unterricht zu folgen. Traditonellerweise wird diese Fähigkeit durch
sprachliche Intelligenztests überprüft. Da diese Verfahren Instruktionsverständnis
meist nur mittelbar erfassen, sind Tests vorzuziehen, die, wie der Anweisungs- und
Sprachverständnistest von Kleber und Fischer (1982) oder der Hörverstehenstest von
Urban (1986), speziell auf diesen Bereich zugeschnitten sind und ihn deshalb differenzierter erfassen können. Dadurch bieten sie prinzipiell bessere Ansatzpunkte für Interventionsmaßnahmen als traditionelle Intelligenztests.
In der Praxis erweist sich die Förderung der sprachlichen Verstehenskompetenz jedoch als schwierig. Nach einer Metaanalyse (Kavale, 1990) war psycholinguistisches Training von Sprachverständnis mit einer Effektstärke von .20 nur wenig erfolgreich. Auch
existiert derzeit im deutschen Sprachraum mit dem psycholinguistischen Sprachförderungsprogramm von Lug (1985) lediglich ein formelles Verfahren, das eine Förderung auf
diesem Gebiet verspricht. Über seine Effektivität liegen derzeit noch keine verlässlichen
Angaben vor. Es stellt sich auch die Frage, ob anstelle des Versuchs, allgemeines Sprachverständnis zu fördern, nicht besser Übungen geeignet wären, die fachspezifisch ansetzen.
Berichte von Palinscar und Brown (1984) über ein Gruppentraining zur Förderung von
Textverständnis, bei dem die Gruppenmitglieder nach Maßgabe ihres erreichten Verständnisgrades immer aktiver in Gruppendiskussionen einbezogen werden, bis sie selbst
Instruktionsaufgaben übernehmen können, klingen recht ermutigend.
9.2.3 Diagnostik und Beeinflussung von Instruktionsverständnis
Motivationale Diagnostik kann sich folglich nicht mit der Feststellung ungenügender
Ausnützung der zur Verfügung stehenden Lernzeit begnügen, sondern muss die subjektive Einschätzung des Schwierigkeitsgrades konkreter Aufgaben, die Erwartung positiver Handlungsfolgen und deren subjektive Bewertung einbeziehen. Schätzt ein Schüler
eine Aufgabe als zu schwer ein, ist deren Schwierigkeitsgrad so weit zu reduzieren, dass
dem Schüler ein Erfolg durch eigene Anstrengung möglich erscheint. Bei Schülern mit
häufigen Lernschwierigkeiten reicht diese Maßnahme oft nicht aus, da sie sich für nicht
befähigt genug halten. Ihnen müssen zumindest zeitweilig zusätzliche Anreize in Form
von Lob oder Belohnungen angeboten werden, damit sich für sie die Anstrengung lohnt
(Lukan & Blöschl, 1977). Welche Anreize jeweils wirksam sind, lässt sich durch Vorgabe
sog. Verstärkerlisten (Windheuser & Niketta, 1972) diagnostizieren, die auch eine Einschätzung der subjektiven Wertigkeit der einzelnen Verstärker erlauben.
Erfolge, die durch die genannten Maßnahmen ermöglicht werden, reichen jedoch oft
nicht aus, die negativen Folgen häufig erlebter Misserfolge zu kompensieren, solange ein
Schüler mangelnde eigene Fähigkeiten für sein Versagen verantwortlich macht. Erst
wenn es durch ein entsprechendes Attributionstraining gelingt, ihn davon zu überzeugen, dass der entscheidende Faktor für den Erfolg die eigene Anstrengung ist, ergeben
sich nach Befunden von Borkowski et al. (1988) reliable Leistungsverbesserungen.
9.2 · Diagnostik und Intervention bei individueller Schülerhilfe
9
Diagnostik der
Unterrichtsqualität
Förderung von Sprachverständnis schwierig
Tests zur Prüfung
von Instruktionsverständnis
Langfristige Verbesserungen durch
Attributionstraining
Aufgaben einer
Motivationsdiagnostik
483
9
Einfluss auf Lernschwierigkeiten und
Verhaltensstörungen
Verbesserung
des Klimas
Diagnostik des
Unterrichtsklimas
Probleme der praktischen Umsetzung
Einer der wichtigsten sozialen Kontextfaktoren für Erfolg und Misserfolg in der Schule ist das Unterrichtsklima. Ein Verfahren, das Unterrichtsklima mit Hilfe eines Fragebogens zu diagnostizieren, konstruierten v. Saldern und Littig (1987). Es erfasst die
sozialen Beziehungen zwischen Schülern wie die zwischen Lehrer und Schülern sowie
allgemeine Unterrichtsmerkmale. Da soziale Probleme von der Zusammensetzung der
einzelnen Gruppe abhängen und sich somit jeweils anders darstellen, müssen Interventionsmaßnahmen die spezielle Situation berücksichtigen. Hierzu kann der genannte
Fragebogen wichtige Informationen beitragen. Eine vielversprechende generelle Maßnahme scheint die Umstellung von einem Wettbewerbsklima auf kooperative Arbeitsstrukturen zu sein (Johnson et al., 1981). Sie führt offenbar nicht nur zu größerer Zufriedenheit und gegenseitiger Akzeptanz der Schüler, sondern auch zu verbesserten
Einzelleistungen. Da mit Leistungsverbesserungen wiederum eine Reduktion von Verhaltensproblemen verbunden ist (Winett & Roach, 1973), könnte dieser Ansatz geeignet sein, sowohl Lernschwierigkeiten als auch mit ihnen verbundene Verhaltensstörungen anzugehen.
9.2.5 Diagnostik und Beeinflussung von Kontextfaktoren
bemessen wird, lässt sich durch Unterrichtsbeobachtung oder Befragung der Schüler
ermitteln. Von zu engen zeitlichen Vorgaben ist auszugehen, wenn nicht nur einzelne
Schüler, sondern ganze Gruppen die Lernziele in der vorgegebenen Zeit nicht voll erreichen. Eine Intervention muss hier auf Gewährung von ausreichender Lernzeit, die
auch eine Sicherung der Lernergebnisse erlaubt, ausgerichtet sein.
Eine Diagnose der Unterrichtsqualität kann sich dagegen nicht nur an äußerlichen
Merkmalen orientieren. Dass ein Unterricht, der Vorkenntnisdefizite nicht zu verhindern oder beheben sucht, Lernschwierigkeiten Vorschub leistet, gilt nach Bloom
(1976) als hinreichend gesichert. Als Hauptaufgabe einer Unterrichtsdiagnose ist folglich zu prüfen, wie mit Vorkenntnislücken umgegangen wird. Die Bereitstellung zusätzlicher Lernzeit ist dabei ein wesentliches quantitatives Indiz. Weitere qualitative
Merkmale sind nach Weinert et al. (1990) intensive Nutzung der zur Verfügung stehenden Unterrichtszeit, Konzentration auf Lernziele, Kontrolle der Lernaktivitäten
der Schüler, ständige Überwachung des Lernfortschritts, Vermeidung von Schülerfehlern durch präzise Aufgabenstellungen und einfache Fragen sowie die sofortige Verfügbarkeit von Hilfsmaßnahmen, wenn Lernschwierigkeiten auftreten. Die Effektivität derartiger Maßnahmen, auch unter dem Oberbegriff direkter Unterricht bekannt,
ist vielfach belegt (Brophy & Good, 1986; Helmke et al., 1986). Als wichtigstes Merkmal erwies sich nach Weinert et al. (1989) der unterstützende Kontakt des Lehrers mit
dem Schüler. Seine Anpassung an die Bedürfnisse der Schüler und seine Geduld mit
langsamen Lernern wirkten sich auch positiv auf deren Lernmotivation aus (Weinert
et al., 1992).
So plausibel die angeführten Ansätze für eine Unterrichtsdiagnose erscheinen mögen, so schwierig ist ihre Umsetzung in die Praxis. Es bedarf hierzu einmal der Bereitschaft des Lehrers, Fehler auch im eigenen pädagogischen Handeln zuzugestehen und
fachkundigen Rat einzuholen. Zum Anderen mangelt es an institutionellen Einrichtungen für informelle pädagogische Beratung. Ohne pädagogische Ausbildung fehlt Schulpsychologen häufig die hierzu notwendige Qualifikation. Sonderschullehrer, wie sie in
dem Schulversuch von Braband und Kleber (1983) in Regelschulen eingesetzt wurden,
könnten diese Lücke eventuell schließen.
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Qualitätsmerkmale
des Unterrichts
484
Hochbegabtendiagnostik
Definitionsprobleme. Ein wesentliches Problem bei der Diagnostik von Hochbegabung liegt bereits in der Begriffsbestimmung von Hochbegabung. Vor allem ist die inhaltliche Breite des Konzepts strittig. Über die verschiedenen Hochbegabungskonzepte
und -modelle informieren Holling und Kanning (1999) sowie Rost, Sparfeldt und Schilling (im Druck). Einige Autoren präferieren eine Hochbegabtendiagnostik ausschließlich anhand der Allgemeinen Intelligenz, andere schließen auch andere Fähigkeitsbereiche wie Soziale Intelligenz oder Kreativität mit ein. Dementsprechend wird je nach
Begriffsverständnis das Urteil, ob eine Hochbegabung vorliegt, unterschiedlich ausfallen. Vor allem reduziert sich bei einem mehrdimensionalen Definitionsansatz die Zahl
der Hochbegabten. Hanses und Rost (1998) haben berechnet, wie viele Personen in
Abhängigkeit von der Anzahl der geforderten Kriterien (bei einem festgelegten CutOff-Wert) untersucht werden müssen, um 50 Hochbegabte zu finden. Daraus lässt sich
ablesen, wie hoch der Anteil der Hochbegabten in der Population sein muss. Verlangt
9.3
Ein weiterer sozialer Kontextfaktor ist die soziale Stellung innerhalb der Schulklasse. Korrelationen zwischen dem Beliebtheitsgrad eines Schülers und seinen Schulleistungen (Bless, 1986) weisen auf bedeutsame Zusammenhänge hin und lassen die Diagnostik seines sozialen Ranges mittels soziometrischer Befragungen geboten erscheinen
(Müller, 1980; Petillon, 1980). Weniger einfach sind Versuche, den sozialen Rang von
Schülern mit Lernschwierigkeiten zu verbessern. Sitzplatzveränderungen nach soziometrischen Präferenzen verschärften die sozialen Probleme sogar (Johansen, 1972).
Zwar finden sich Hinweise darauf, dass z. B. positive Verstärkungen durch den Lehrer
zu Statusverbesserungen führen können (Retish, 1973), doch ergeben sich gerade bei
Lernschwierigkeiten oft nicht genug Gelegenheiten hierzu. Ein weiteres Problem stellen
die mit Lernschwierigkeiten häufig verbundenen Verhaltensprobleme dar. Versuche,
diese isoliert anzugehen, waren, wie Analysen von Bryan und Lee (1990) zeigen, wenig
erfolgreich. Die Beobachtung, dass der Zusammenhang zwischen sozialem Status und
Lernerfolg von Klasse zu Klasse stark schwanken kann (Selg, 1965), deutet vielmehr
darauf hin, dass dieses Problem im konkreten sozialen Kontext gesehen und gelöst
werden muss.
Familiäre Ursachen von Lernschwierigkeiten entziehen sich i. Allg. systematischer
Diagnostik, da die jeweilige Familienkonstellation von Fall zu Fall stark variiert. Die
diagnostische Methode der Wahl ist deshalb das Gespräch, in dem am besten auf die
spezielle Problematik eingegangen werden kann. Zur Erfassung des Erziehungsstils
existieren Verfahren, mit deren Hilfe wesentliche Aspekte, wie Unterstützung, Strenge
und Zuwendung im Selbstbericht (Baumgärtel, 1979) oder aus der Sicht der Schüler
(Krohne & Pulsack, 1990), erfasst werden können. Über weitere familiendiagnostische
Verfahren informiert Cierpka (1987).
Erfolgreiche Behandlung familiärer Probleme setzt die Bereitschaft der Familienmitglieder zur Mitwirkung voraus. Diese hängt mit davon ab, wie Eltern sich das Zustandekommen der Schwierigkeiten erklären. Wenn sie eine Mitverantwortung bejahen, sind sie eher zur Mitarbeit bereit (Strey, 1993). Für die Behandlung tieferliegender
Familienprobleme hat sich seit einigen Jahren die familientherapeutische Sichtweise
durchgesetzt, bei der die betroffenen Familienmitglieder nicht als Einzelpersonen, sondern als Teil eines dynamischen Systems gesehen werden, das als Ganzes behandelt
werden muss (Schneewind, 1991).
9.3 · Hochbegabtendiagnostik
9
Definitionsprobleme
Familientherapie: Mitglieder als Teil eines
dynamischen Systems
Probleme einer
Intervention
Diagnostik des
sozialen Ranges
485
9
Anforderungen an Intelligenztest. Welche Anforderungen sind an einen Intelligenztest zur Feststellung von Hochbegabung zu stellen? Erstens sollte der Test ein breites
Anforderungen
an Intelligenztest
Overachiever
Achiever
Underachiever
Begabung und Leistung. Unter Intelligenz wird das Potential einer Person verstanden,
kognitive Leistungen zu erbringen. Eine hoch intelligente Person kann, muss aber nicht
gute Leistungen in der Schule oder etwa im Beruf zeigen. Motivationale Gründe oder
ungünstige Arbeitsbedingungen können dazu führen, dass die Person nicht die Leistungen zeigt, zu der sie eigentlich fähig wäre.
Die strikte Unterscheidung zwischen Fähigkeit (Potential) und Performanz führt
dazu, dass - bei einer kategorialen Betrachtung - zwei Typen von Hochbegabten resultieren: Underachiever (die Leistungen sind niedriger, als nach dem Potential zu erwarten wäre) und Achiever (Hochbegabte, deren Leistungen ihren Fähigkeiten entsprechenden). Dass es auch Hochbegabte geben kann, deren Leistungen über ihrem Potential liegen, ist hier unerheblich. Wird zunächst nur auf eine außergewöhnliche Performanz (z. B. sehr gute Leistungen in der Schule) geachtet, fallen beide Typen von
Hochbegabten nicht gleichermaßen auf. Hochbegabte Underachiever sind benachteiligt. Eine diagnostische Entscheidung wird durch Einsatz eines Intelligenztests herbeigeführt. In die Gruppe der diagnostizierten Hochbegabten werden bei dieser Vorselektion nicht alle tatsächlich Hochbegabten eingehen (siehe auch »Hochbegabtendiagnostik durch Lehrer«). Viele hochbegabte Underachiever werden darin fehlen. Mit anderen
Worten: Es gibt noch unentdeckte Hochbegabte. Am Rande sei angemerkt, dass sich
messfehlerbedingt unter den diagnostizierten Hochbegabten auch Personen mit einem
wahren IQ von etwas weniger als 130 befinden werden. Es sind normal begabte Overachiever, die durch herausragende Leistungen aufgefallen sind und in der diagnostischen Untersuchung die magische IQ-Grenze von 130 erreicht haben.
Potential für kognitive
Leistungen
»Die Feststellung einer intellektuellen Hochbegabung orientiert sich als Richtwert an
einem Intelligenzquotienten (IQ) von 130 bzw. einem Prozentrang (PR) von 98« (Amtsblatt des Hessischen Kultusministeriums, 2001, S. 518; zit. nach Rost et al., im Druck).
Definition von Hochbegabung
Definition
man, dass ein Hochbegabter in einem Kriterium (z. B. Intelligenz) zu den oberen 2%
der Verteilung gehört, sind 2.500 Personen zu untersuchen. Schon bei zwei Kriterien
(Annahme: Sie korrelieren zu .30) erhöht sich die Zahl auf 30.048. Die Hinzunahme
eines zweiten Kriteriums führt dazu, dass jetzt nicht mehr 2% der Population als hochbegabt gelten, sondern nur noch 0.17 Prozent. Bei drei Kriterien (die ebenfalls .30
miteinander korrelieren) verringert sich der Anteil der Hochbegabten bereits auf 0.03%.
Diese Modellrechnung macht deutlich, dass die Vorannahmen über das Konzept der
Hochbegabung enorme praktische Konsequenzen haben. Durch die Forderung nach
immer weiteren Kriterien lässt sich die Hochbegabung schlicht wegdefinieren. Außerdem wird mit jedem weiteren Kriterium konzeptuell unklarer, was die Kombination
von Multitalenten inhaltlich bedeutet.
Gut begründbar und auch weitgehend konsensfähig sind die Festlegung auf ein Kriterium, und zwar das der Allgemeinen Intelligenz, und die Festsetzung der unteren
Grenze für Hochbegabung bei zwei Standardabweichungen über dem Populationsmittelwert (vgl. Holling & Kanning, 1999; Rost et al., im Druck). Diese Konzeption ist vor allem
auch für die Praxis nützlich, da sie eine klare diagnostische Entscheidung ermöglicht.
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Festlegung auf ein
Kriterium: Die Allgemeine Intelligenz
486
Hochbegabtendiagnostik durch Lehrer. Die Schule ist der Ort, an dem Hochbegabte
vor allem auffallen sollten. Können Lehrer aber eine herausragende intellektuelle Begabung ohne Zuhilfenahme von Tests erkennen?
Wild (1993) hat in einer groß angelegten Studie an Drittklässlern die Übereinstimmung zwischen Lehrerurteilen und Intelligenztestergebnissen überprüft. Die Lehrerstichprobe umfasste 388 Lehrkräfte, die insgesamt über 7.000 Schüler beurteilten. Die
Intelligenz wurde mit drei Tests gemessen: Grundintelligenztest – Skala 2 (CFT 20),
Zahlen-Verbindungs-Test (ZVT) und Sprachliche Analogien 3/4 (SPA). Die Lehrer
stuften die Intelligenz ihrer Schüler auf siebenstufigen Ratingskalen von »extrem
schwach« bis »exzellent« ein. Sie erhielten Informationen über Inhalt (auch Itembeispiele) und Aufbau der Intelligenztests, an denen ihr Urteil später überprüft werden
sollte. Sie gaben für jeden der drei Tests eine Prognose ab. Weiterhin nominierten sie
einige ihrer Schüler. Dazu diente eine Liste von 15 begabungsrelevanten Merkmalen
(z. B. formal-logisches Denken, Merkfähigkeit; solche Checklisten finden z. T. in der
Hochbegabungsdiagnostik Verwendung). Pro Item durften die Lehrer maximal drei
Schüler mit hoher Merkmalsausprägung benennen.
Die Korrelationen zwischen den Testleistungen und Ratings sowie den Nominationen variierten sehr stark zwischen den Klassen. Einige Lehrer schätzten die Intelligenz
ihrer Schüler also recht gut ein, andere erwiesen sich als schlechte Diagnostiker. Über
alle Klassen hinweg korrelierte die Intelligenztestleistung (aggregiert über die drei
Tests) mit den ebenfalls gemittelten Lehrer-Einschätzungen zu .59. Für die Nomination
fiel die vergleichbare Korrelation mit .47 niedriger aus.
Von großer praktischer Bedeutung sind die Trefferquoten, die mit einem Intelligenzrating und einem Nominationsverfahren erzielt werden. Als Kriterium für Hochbegabung wird eine Gesamttestleistung von mindestens zwei Standardabweichungen
über dem Mittelwert festgesetzt, was einem IQ über 130 entspricht. Von den Schülern,
die nach dem Lehrerurteil »exzellent« begabt sind, erwiesen sich - gemäß den Intelligenztests – 35,1% als tatsächlich hochbegabt. Der Rest hatte zu niedrige Intelligenztestergebnisse. Eine andere Frage ist, wie viele der tatsächlich hochbegabten Schüler
(IQ>130) durch eine Lehrerbeurteilung entdeckt würden. Es sind gerade 16,4%. Mit der
Frage, welche ihrer Schüler exzellent begabt sind, lassen sich also die meisten Hochbegabten (83,6%) nicht auffinden. Auch die Nominationsmethode erwies sich als ineffi-
g-Maß darstellen, die Intelligenz also über mehrere Teilbereiche prüfen. Werden beispielsweise nur numerische Testaufgaben verwendet, kann der Testwert, bedingt etwa
durch besondere schulische Förderung in Mathematik, im Vergleich zu anderen Begabungsbereichen erhöht sein und zu einer Überschätzung der Intelligenz führen. Umgekehrt führen eine Teilleistungsschwäche oder eine mangelnde schulische Förderung
dazu, dass die Allgemeine Intelligenz unterschätzt wird. Anstelle eines einzigen breiten
Tests kann auch eine Kombination mehrerer Intelligenztests verwendet werden, wobei
darauf zu achten ist, dass diese unterschiedliche Intelligenzkomponenten abdecken.
Zweitens sind aktuelle Normen zu fordern. Durch die beobachtete Zunahme der Intelligenztestleistungen im Laufe der Zeit (Flynn-Effekt) muss die Verwendung überalterter Normen dazu führen, dass zu viele Personen als hochbegabt diagnostiziert werden.
Drittens muss der Test im oberen Leistungsbereich gut differenzieren. Dazu sollen die
Normen weit über einen IQ von 130 hinausgehen, und die Lösung einer weiteren Aufgabe darf zu keinen Sprüngen im IQ führen. Selbstverständlich ist zu fordern, dass die
Eichstichprobe repräsentativ für die jeweilige Altersgruppe (also beispielsweise keine
Übergewichtung von Gymnasiasten) und hinreichend groß ist.
9.3 · Hochbegabtendiagnostik
9
Intelligenzrating und
Nominationsverfahren
487
9
Talent
4
4
4
4
4
4
Vorzeitige Einschulung
Überspringen einer Klasse
Besuch einer Sonderklasse für Hochbegabte
Stärkere innere Differenzierung im Unterricht
Einsatz als Tutor im regulären Unterricht
Spezielle Freizeitangebote für Hochbegabte (Feriencamps etc.)
Ausgewählte Fördermaßnahmen für Hochbegabte
Interventionen. Nach der Diagnose »Hochbegabung« fragen sich die Betroffenen,
meist sind es die Eltern eines Kindes und dessen Lehrer, was nun zu tun ist. Zunächst
einmal ist festzustellen, dass Hochbegabung nicht mit einer Benachteiligung in anderen
Merkmalsbereichen »bezahlt« wird. Es ist ein Mythos, der von einigen Elternvereinigungen mit Hinweis auf Einzelfälle genährt wird, dass hochbegabte Kinder im sozialen
oder emotionalen Bereich als Folge ihrer Hochbegabung leiden. Im Gegenteil: »Hochbegabte Kinder gehen beispielsweise stärker aus sich heraus, sind warmherziger, emotional stabiler, ruhiger, fröhlicher, enthusiastischer, natürlicher als Schüler mittlerer
oder unterer Intelligenz« (Rost, 2001, S. 180). Da eine Begabung nicht automatisch zu
entsprechenden Leistungen führt, liegt es nahe, über Fördermaßnahmen nachzudenken, die Hochbegabten hilft, ihr Potential zu entfalten. Im Einzelfall ist unter Berücksichtigung der individuellen Lern- und Lebensbedingungen zu erwägen, ob eine Fördermaßnahme überhaupt angebracht ist und wenn ja, welche.
Spezialbegabungen. Menschen können – neben der Intelligenz – auch in anderen Bereichen besonders begabt sein. Beispiele sind Mathematik, Kunst, Sport und Musik. Diese
Begabungen oder Talente sollten nicht zum Begriff der Hochbegabung zählen, der für eine
sehr hohe Allgemeine Intelligenz reserviert bleiben sollte. Im Einzelfall stellt sich aber die
Frage, ob eine Spezialbegabung nicht Ausdruck einer außergewöhnlich hohen Intelligenz
ist. Kognitive Fähigkeiten sind positiv korreliert. Herausragende Leistungen in der Mathematik werden meist mit einer sehr hohen Intelligenz einhergehen. Für eine explizit nicht
intellektuelle Spitzenbegabung sollte der Begriff Talent verwendet werden (Rost, 2001).
zient. Als Kriterium für Hochbegabung laut Nomination legte Wild fest, dass ein Schüler bei mindestens 12 der 15 Merkmale benannt sein musste. Von den so als hochbegabt
beurteilten Schülern wiesen 33% einen IQ über 130 auf. Von den per Test als hochbegabt diagnostizierten Schüler wurden lediglich 14,9% auch mit dem Nominationsverfahren als hochbegabt erkannt. Insgesamt belegt diese Untersuchung eindruckvoll, dass
Lehrerurteile wenig brauchbar sind, um Hochbegabte zu entdecken.
Lehrerurteile lassen sich aus pragmatischen Gründen für eine Vorselektion verwenden. Damit möglichst viele wirklich Hochbegabte gefunden werden, muss man den
Ergebnissen dieser Studie zufolge alle Schüler einer gründlichen Intelligenzdiagnostik
unterziehen, die von den Lehrern mindestens als »gut« begabt (3. Stufe auf der 7stufigen
Skala) beurteilt werden. Bei einer derart groben Vorauswahl würden lediglich 1,5% der
Hochbegabten nicht entdeckt.
Neben Lehrern können auch andere Personen zur Entdeckung von Hochbegabten
beitragen. Neben den Eltern sind hier Peers (Mitschüler, Freunde) und auch die Hochbegabten selbst zu nennen. Die Güte dieser Quellen ist allerdings als kritisch zu beurteilen (s. Rost et al., im Druck).
Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie
Lehrerurteile als
Vorselektion
488
(S.554-559)
Verkehrspsychologische Diagnostik
(S.543-546, 548-553)
Rechtspsychologische Diagnostik
Diagnostik und Intervention in
weiteren Anwendungsfeldern
Rechtspsychologische Diagnostik
Glaubhaftigkeit von Zeugenaussagen. In Strafverfahren kommt der Aussage von
Zeugen oft eine große Bedeutung zu. Wenn es stimmt, was der Zeuge berichtet, wird
der Beschuldigte verurteilt – oder auch nicht, wenn es sich um eine entlastende Zeugenaussage handelt. Manchmal sind jedoch Zweifel an der Zeugenaussage angebracht.
In diesem Fall kann das Gericht eine Begutachtung veranlassen. Grundsätzlich ist zwischen der Glaubhaftigkeit der Aussage und der Glaubwürdigkeit der Person des Zeugen zu unterscheiden (Steller & Volbert, 1997).
Auch wenn ein Zeuge sich um eine korrekte Aussage bemüht, können ihm Fehler
unterlaufen. Beobachtungen (und Aussagen darüber) decken sich oft nicht mit den
Fakten, die beobachtet werden. Vielen Menschen unterlaufen teilweise gravierende
Beobachtungsfehler, wie in empirischen Untersuchungen mit gestellten oder im Film
gezeigten Ereignissen eindrucksvoll demonstriert wurde (z. B. Loftus, 1979). Inzwischen konnten zahlreiche Faktoren, die sich auf die Identifikation durch Augenzeugen
Die Fragestellungen sind so heterogen, dass ein einheitliches Vorgehen völlig abwegig
wäre. Deshalb wird exemplarisch auf vier Bereiche eingegangen, die in der Praxis eine
große Bedeutung haben: Die Beurteilung der Glaubhaftigkeit von Zeugenaussagen, der
Schuldfähigkeit von Straftätern, die Kriminalprognose und schließlich – aus dem zivilgerichtlichen Bereich – auf Sorgerechtsentscheidungen.
In Strafverfahren:
– Glaubwürdigkeit einer Zeugenaussage
– Schuldfähigkeit eines Täters
– Strafrechtliche Verantwortlichkeit bei jugendlichen Tätern
In Zivilverfahren:
– Entzug der Geschäftsfähigkeit
– Umgangs- und Sorgerecht für ein Kind nach Scheidung der Eltern
– Entzug der elterlichen Sorge
In Sozialgerichtsverfahren:
– Arbeits- und Erwerbfähigkeit
– Voraussetzungen für eine Umschulungsmaßnahme
– Berufsunfähigkeit
Im Strafvollzug:
– Erstellen eines Vollzugsplans
– Vollzugslockerung
– Kriminalprognose (vorzeitige Entlassung, Sicherheitsverwahrung)
Diagnostische Fragestellungen in der Rechtspsychologie
Klassische diagnostische Aufgaben in der Rechtspsychologie sind die Erstellung von
Gerichtsgutachten zu Fragen der Schuldfähigkeit von Straftätern, der Glaubhaftigkeit
von Zeugenaussagen oder etwa des Sorgerechts in Scheidungsverfahren sowie die
Untersuchung von Straftätern, die bereits überführt sind und sich nun in einer Haftanstalt befinden. Damit soll eine fundierte Auswahl von Behandlungsmaßnahmen
gewährleistet und gegebenenfalls gegen Ende des Strafvollzugs eine Rückfallprognose
erstellt werden.
11.2
11.2 · Rechtspsychologische Diagnostik
11
Beobachtungen
decken sich oft nicht
mit den Fakten
Aussage oder
Person des Zeugen
untersuchen
Aufgaben und
Fragestellungen
543
11
Eigenschaften der
Person des Zeugen
„Realkennzeichen“
der Aussage
Logische Konsistenz
Schilderungen von Komplikationen im Handlungsverlauf
Schilderung ausgefallener Einzelheiten
Schilderung eigener psychischer Vorgänge
Eingeständnis von Erinnerungslücken
Schließlich richtet sich die Aufmerksamkeit auf die Person des Zeugen. Ist die Person
aufgrund ihres Urteilsvermögens grundsätzlich in der Lage, zu dem Sachverhalt eine
gültige Aussage zu machen? Eine niedrige Intelligenz, fehlender Erfahrungshinter-
4
4
4
4
4
Beispiele für Realkennzeichen (das Vorliegen spricht für eine glaubwürdige
Aussage)
Die vorliegende Aussage wird inhaltlich danach analysiert, ob sie bestimmte Kriterien
für Glaubhaftigkeit aufweist. Der Gutachter sucht dabei nach so genannten »Realkennzeichen« (vgl. Steller & Volbert, 1997). Diese Realkennzeichen (7 Übersicht) differenzieren zwischen Aussagen, die auf selbst versus nicht selbst erlebten Ereignissen beruhen. Das Vorliegen vieler Realkennzeichnen in einer Aussage spricht dafür, dass der
Zeuge das Ereignis selbst erlebt hat und keine »Erfindungen« präsentiert. Ein Problem
besteht darin, dass es keine verbindlichen Standards (Normen) dafür gibt, wie viele
Realkennzeichnen vorliegen müssen, damit eine Aussage als sehr wahrscheinlich authentisch eingestuft werden kann. Es bleibt also dem Gutachter überlassen, die Zahl der
vorgefundenen Realkennzeichen richtig zu interpretieren. Interpretationsobjektivität
ist also nicht gegeben.
4 »Hat der Mann gesagt, du sollst mitkommen?« (der Sachverhalt, dass der Mann
das gesagt hat, wird unterstellt).
4 »Könnte es sein, dass das Messer schon am Tatort lag?« (Aufforderung zu einer
Spekulation, implizite Erwartung).
4 Verstärkung von Antworten (Nicken, »ahja«, »gut beobachtet«), die ins Konzept
des Interviewers passen (der Zeuge erfährt, welche Antworten erwünscht sind).
4 Wiederholung einer Frage im Verlauf des Interviews (erzeugt Druck, nun endlich
die »richtige« Antwort zu geben).
Beispiele für eine suggestive Befragung
auswirken, durch experimentelle Untersuchungen identifiziert werden (für eine Übersicht siehe Wells & Olsen, 2003). Insgesamt belegen diese Untersuchungen, wie trügerisch es sein kann, sich auf menschliche Beobachtungen zu verlassen. Bei der Begutachtung von Zeugenaussagen werden aus diesen Gründen zuerst die Umstände, unter
denen die Aussage zustande gekommen ist, analysiert. Dabei spielen die Wahrnehmungsbedingungen (z. B. Beobachtungsdauer, mögliche Ablenkung der Aufmerksamkeit, sensorische Wahrnehmungsbedingungen) ebenso eine Rolle wie die Bedingungen,
unter denen die Aussage aufgenommen wurde. Besonders bei Kindern kann sich eine
(ungewollt) suggestive Befragung auf die Aussagen auswirken (Volbert, 2000). Günstig
sind Aufforderungen, zu einem Thema zu erzählen (»Beschreibe doch einmal, wie der
Mann aussah«) und offene Fragen (»Was hat der Mann zu dir gesagt?«).
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Entstehungsbedingungen der Aussage analysieren
544
§ 20 StGB
Schuldunfähigkeit und verminderte Schuldfähigkeit eines Täters. In § 20 des deutschen Strafgesetzbuchs wird festgelegt: »Ohne Schuld handelt, wer bei Begehung der
Tat wegen einer krankhaften seelischen Störung, wegen einer tiefgreifenden Bewusstseinsstörung oder wegen Schwachsinns oder einer schweren anderen seelischen Abartigkeit unfähig ist, das Unrecht der Tat einzusehen oder nach dieser Einsicht zu handeln«. Eine verminderte Schuldfähigkeit liegt nach § 21 StGB vor, wenn »die Fähigkeit
des Täters, das Unrecht der Tat einzusehen oder nach dieser Einsicht zu handeln, aus
einem der in § 20 bezeichneten Gründe bei Begehung der Tat erheblich vermindert«
ist. In diesem Fall kann die Strafe gemildert werden.
Die Begutachtung der Schuldfähigkeit bzw. einer verminderten Schuldfähigkeit
setzt an den in § 20 StGB genannten möglichen Bedingungen an. Es genügt jedoch
nicht, dass eines dieser Kriterien vorliegt. Vielmehr muss daraus eine Aufhebung oder
§ 21 StGB
Verfahren zur
Begutachtung von
Zeugen
Motive für
Falschaussage
545
Für die Begutachtung der Person des Zeugen finden Akteninformationen (Gerichtsakten) Verwendung, weitere Informationen werden im diagnostischen Interview gewonnen. Wenn sich die Frage nach einer psychischen Störung stellt, bieten sich dazu
ein strukturiertes klinisches Interview sowie bestimmte klinische Fragebogen an. Je
nach Sachlage kommen auch Testverfahren (Intelligenztests, Konzentrationstests, Gedächtnistests etc.) zum Einsatz.
Antje F. (20 Jahre) sagt in einem Strafverfahren gegen Herrn S. aus. Der Zuhälter
habe sie in der Wohnung eingeschlossen, ihr Rauschgift verkauft und sie zur Prostitution gezwungen. Nach 10 bis 11 Monaten wurde sie »seelisch und körperlich heruntergekommen« vom Zuhälter in die Klinik gebracht. Ihre Glaubwürdigkeit als Zeugin wird dadurch erschüttert, dass ihr Erinnerungsvermögen möglicherweise durch
mehrjährigen Heroingebrauch beeinträchtigt ist. Es liegt langjähriger Alkohol- und
Drogenkonsum vor; bereits mit etwa 17 Jahren hat sie auch Heroin (ca. 3 g pro Tag)
konsumiert. Drogengebrauch über längere Zeit kann die Persönlichkeit, die Konzentrationsfähigkeit, die Gedächtnisleistung etc. negativ verändern. Die Untersuchung
ergibt, dass ihre Aussagen als glaubhaft erscheinen, da Kriterien wie Detailfülle, folgerichtige Handlungsverkettungen, teils widersprüchliche, aber geklärte Aussagen
und Selbstbezichtigung erfüllt sind. In Tests zur Messung der Intelligenz, der Konzentrationsfähigkeit und der Merkfähigkeit erreicht sie durchschnittliche bis leicht
überdurchschnittliche Werte. Der Gutachter kommt zu dem Schluss, dass keine Verschlechterung der intellektuellen Leistungsfähigkeit (hierzu stellt er einen Vergleich
mit den früheren Schulleistungen an) erkennbar ist, keine Hinweise auf cerebralpathologische Abbauprozesse vorliegen, und die Erinnerungsfähigkeit nicht eingeschränkt ist. Er bejaht die Glaubwürdigkeit der Zeugin und die Glaubhaftigkeit
ihrer Aussagen. Das Gericht hatte keine Zweifel an ihren Aussagen. Angesichts dieser Situation ließ sich der Angeklagte auf die wesentlichen Punkte der Anklageschrift ein (Quelle: Reichert, 1997).
Beispiel
grund, bestimmte psychische Störungen oder Alkohol- oder Drogenkonsum können
Zweifel an dem Urteilsvermögen begründen. Hat die Person besondere Gründe, die sie
zu einer Falschaussage veranlassen könnte? Möglicherweise hat sie Motive, sich für
etwas zu rächen oder würde von einer Verurteilung profitieren (das Sorgerecht für das
Kind erhalten, einen ungeliebten Konkurrenten loswerden).
11.2 · Rechtspsychologische Diagnostik
11
11
Weitreichende
Konsequenzen
Tiefgreifende Bewusstseinsstörung
Schwere seelische
Abartigkeit
Schwere seelische
Störung
6
Entlassung aus der Sicherheitsverwahrung? Franz H. (51 Jahre), wurde vor 13
Jahren wegen sexueller Nötigung zu 3 Jahren Freiheitsstrafe und anschließender
Sicherheitsverwahrung verurteilt. Das Gericht hat zu entscheiden, ob die restlichen
6 Monate zur Bewährung ausgesetzt werden können oder ob nach § 67, Abs. 3 StGB
eine Fortdauer der Sicherheitsverwahrung über die 10 Jahre hinaus angeordnet
werden muss. Das vom Gericht in Auftrag gegebene Gutachten soll klären, ob weitere erhebliche Straftaten zu erwarten sind, insbesondere solche, die zur Sicherheitsverwahrung führten. Ferner soll der Gutachter vorbereitende Maßnahmen
vorschlagen, die eine Entlassung aus der Sicherheitsverwahrung ohne Gefährdung
der Allgemeinheit ermöglichen. Der dafür erforderliche Zeitraum soll angegeben
werden.
Vorgeschichte laut Akten: Herr H. hatte 1986 eine flüchtige Bekannte in deren
Wohnung aufgesucht, mit ihr einige Gläser Wein getrunken, getanzt und geschmust
und sie schließlich zum Geschlechtsverkehr aufgefordert. Sie weigerte sich und er
schlug ihr daraufhin ins Gesicht, riss ihr Teile der Kleidung vom Leib. Die Frau konnte
Beispiel
Kriminalprognose. Die Prognose des zukünftigen Verhaltens eines Straftäters hat eine
erhebliche Bedeutung für die Auswahl und Bemessung der Strafe bzw. anderer Maßnahmen (z. B. Sicherheitsverwahrung), die Ausgestaltung des Strafvollzugs und für
dessen Beendigung (Dahle, 1997, 2000). Beispielsweise hat ein Straftäter einen Großteil
seiner Strafe verbüßt, und es steht nun eine Entscheidung über eine vorzeitige Haftentlassung auf Bewährung an. In bestimmten Fällen wird nach Verbüßung einer Haftstrafe
geprüft, ob die Notwendigkeit einer Sicherheitsverwahrung besteht.
Einschränkung des Unrechtsbewusstsein oder der Steuerungsfähigkeit bei der Tat herrühren.
Die juristischen Begriffe können nicht eins zu eins in psychologische oder auch
psychiatrische Kategorien übersetzt werden. Am einfachsten ist aus psychologischer
Sicht mit dem Begriff des Schwachsinns umzugehen, der als intellektuelle Minderbegabung bzw. geistige Behinderung aufzufassen ist. Zur Feststellung sind Intelligenztests
geeignet. Eine wichtige Informationsquelle stellen auch biografische Daten wie Art und
Dauer des Schulbesuchs, die Beschäftigung oder die Unterbringung in einem Heim für
geistig behinderte Menschen dar. Bezugspersonen können im Interview nach Kompetenzen des Täters zur Bewältigung alltäglicher Probleme befragt werden. Die Feststellung einer schweren seelischen Störung oder einer schweren anderen seelischen Abartigkeit fällt in die klinische Diagnostik (7 Kap. 10), denn hier geht es um psychiatrische
Diagnosen. Die anderen schweren seelischen Abartigkeiten sind überwiegend im Bereich gravierender Persönlichkeitsstörungen und bei Suchterkrankungen zu suchen.
Eine tiefgreifende Bewusstseinsstörung muss nicht krankhaft sein; auch ein psychisch
gesunder Täter kann sich bei der Tat in einer hochgradigen affektiven Erregung befunden haben. Bei der Begutachtung kommt daher der Analyse des Tatablaufs und der
Vorgeschichte, die zur Tat geführt hat, eine besondere Bedeutung zu. Weitere Faktoren
sind etwa die Persönlichkeit des Täters, seine Beziehung zum Opfer und Erinnerungsstörungen nach der Tat. Die nötigen Informationen erhält der Gutachter durch Auswertung der gerichtlichen Akten, durch ein Interview mit dem Täter, aber auch mit
Persönlichkeitsfragebogen oder projektiven Verfahren.
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Intellektuelle
Minderbegabung
546
11
Deshalb sind grundsätzlich nur Wahrscheinlichkeitsaussagen möglich (»es ist zu erwarten, dass…«). Die Folgen einer Fehleinschätzung des Rückfallrisikos sind schwerwiegend, und zwar im einen Fall für die Opfer, und im anderen Fall für den Straftäter,
wenn ihm unbegründet die Freiheit vorenthalten wird.
Bei der Begutachtung können statistische Erkenntnisse über Rückfallrisiken in vergleichbaren Fällen genutzt werden. Die statistische Vorhersage muss sich auf Merkmale
der Tat und der Delinquenten konzentrieren, die allgemein verfügbar sind. Kriminalprognosetafeln enthalten daher Merkmale wie die Art der Straftat, Alter, Geschlecht
und (in den USA) die Hautfarbe des Delinquenten. Sie helfen, das Risiko abzuschätzen,
können aber nicht erklären, warum ein Straftäter rückfällig wird. Die Hautfarbe hat in
den USA eine hohe Priorität; eine schwarze Hautfarbe kann jedoch nicht direkt kausal
dafür verantwortlich sein, dass jemand wieder eine Straftat begeht. Eine schwarze Hautfarbe geht normalerweise mit vielen anderen Merkmalen einher. Durch gründliche
Forschung kann manchmal aufgedeckt werden, dass andere, hinter dem leicht erfassbaren Merkmal stehende Faktoren für die Kriminalprognose entscheidend sind. Der
Faktor Hautfarbe verliert bei der Prognose von künftigen Gewalttaten seine Vorhersagekraft, wenn die Kriminalität in der Nachbarschaft, in die sich der ehemalige Straftäter
nach seiner Entlassung begibt, berücksichtigt wird (Monahan, 2003; 7 Abschn. 5.2). Die
statistische Prognose vernachlässigt zwangsläufig die seltenen, nicht bei allen Personen
vorhandenen Risikofaktoren und protektiven Faktoren.
Gretenkord (2002) hat einen treffenden Vergleich für die Nutzung statistischer Vorhersagen gefunden: Beim Verkauf eines Autos kann der Verkäufer mit einem Programm nach Eingabe von Typ, Baujahr und Kilometerleistung einen Listenpreis suchen
lassen. Er kann sich nach diesem Preis richten, wenn er sein Fahrzeug anbietet; er kann
aber auch davon abweichen, weil er Besonderheiten seines Autos wie etwa eine kleine
Beule oder die wenig gefragte Wagenfarbe berücksichtigt. Der aus der Liste ermittelte
Preis dient als Anhaltspunkt; einen realistischen Verkaufspreis findet er, indem er diesen Preis korrigiert. Genauso beachtet der Gutachter die statistischen »Gesetzmäßigkeiten« von Prognosetafeln und stellt vielleicht fest, dass der Proband aufgrund seines
Alters, seiner Vorstrafen etc. ein hohes Rückfallrisiko von 30% hat. Bis dahin hat sich
der Gutachter nicht der Gefahr von Urteilsfehlern (z. B. Ignorieren von Basisraten;
7 Abschn. 5.2) ausgesetzt.
. Tabelle 11.4 zeigt ein Beispiel für eine Prognosetafel. Zu deren Erstellung hatte
Gretenkord (2002) 188 Straftäter, die im Durchschnitt acht Jahre lang in einer Klinik
für gerichtliche Psychiatrie untergebracht waren, nach drei Variablen klassifiziert, die
Nur Wahrscheinlichkeitsaussagen möglich
Beispiel für
Prognosetafel
Individuelle
Besonderheiten
Grenzen der statistisch
begründeten Prognose
Kriminalprognosetafeln
Statistische
Urteilsbildung
Prognosen über künftiges delinquentes Verhalten sind schwer zu stellen, da gleich
mehrere ungünstige Bedingungen zusammentreffen (vgl. Dahle, 2000):
4 Das vorherzusagende Verhalten tritt (zumindest bei zahlreichen Delikten) selten
auf. Viele Gewalttäter und gewalttätige Sexualstraftäter bleiben Jahre oder gar Jahrzehnte lang unauffällig, um dann plötzlich wieder einschlägige Straftaten zu begehen.
4 Verhalten wird immer auch durch die Situation determiniert. In welche Situationen
der Straftäter einmal kommen wird, die ihn wieder in Versuchung bringen, ist ungewiss. Auch ungünstige Lebensumstände wie Arbeitslosigkeit oder das Zerbrechen
einer Beziehung oder Ehe sind schwer vorherzusehen. Günstige Randbedingungen,
die anfangs vorhanden sind und bei der Begutachtung berücksichtigt wurden (z. B.
Alkoholabstinenz), können später wegfallen.
4 Der Geltungszeitraum der Prognose ist gerade bei jungen Straftätern sehr lang.
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Schwierige
Randbedingungen
für Prognose
548
nein
ja
nein
ja
36%
65%
16%
39%
15%
37%
16%
38%
6%
18%
6%
16%
2%
6%
6&
17%
2%
7%
2%
6%
1%
2%
60 Jahre
der internationalen Forschung zufolge (46 Studien) zur Vorhersage des Rückfallrisikos
gut geeignet sind: Vorliegen einer Persönlichkeitsstörung (meist Psychopathie), früheres Gewaltdelikt, Gewalttätigkeit während der Unterbringung und Alter. Er überprüfte,
ob die Patienten in einem Zeitraum von durchschnittlich acht Jahren nach ihrer Entlassung einen Eintrag im Bundeszentralregister erhalten hatten, also wieder straffällig
geworden waren.
. Tabelle 11.4 lässt sich entnehmen, dass das Rückfallrisiko deutlich mit dem Alter
abnimmt. Prognostisch ungünstig sind eine Persönlichkeitsstörung, Vorstrafen wegen
eines Gewaltdeliktes und Gewalttätigkeit während des Maßregelvollzugs. Das höchste
Risiko (Rückfallwahrscheinlichkeit von 65%) haben Patienten, die jung sind (Altersgruppe 20 Jahre) und drei weitere Risikomerkmale (. Tab. 11.4) aufweisen. Am unwahrscheinlichsten ist ein Rückfall bei älteren Patienten (Altersgruppe 60 Jahre), die
weder eine Persönlichkeitsstörung noch eine Vorstrafe wegen eines Gewaltdelikts haben oder trotz einschlägiger Vorstrafe während ihres Klinikaufenthaltes nicht gewalttätig geworden sind oder eine Persönlichkeitsstörung haben, aber weder aufgrund ihrer
Vorstrafen noch durch ihr Verhalten während des Maßregelvollzugs als gewalttätig
gelten. Die Rückfallwahrscheinlichkeit liegt hier nur bei 1 oder 2%.
Liegen Prognosetafeln vor, überlegt der Gutachter im nächsten Schritt, ob es gute
Gründe gibt, die statistische Vorhersage zu korrigieren. Dazu befasst er sich mit den
Besonderheiten des Delinquenten und bezieht sie in sein Urteil ein. Beispielsweise ist
der Proband zwar wegen eines Gewaltdelikts vorbestraft, aber es handelt sich nur um
ein kleines Delikt, das zudem schon sehr lange zurückliegt. Die Prognose kann in
diesem Fall günstiger ausfallen. Dahle (2000) spricht bei diesem Vorgehen von »klinischen Prognosen« – der Begriff darf nicht mit der »klinischen« Urteilsbildung (. Abschn. 5.2) verwechselt werden, die Dahle als »intuitive« Prognose bezeichnet. Die klinische Prognose im Sinne von Dahle orientiert sich an der statistischen Vorhersage,
versucht diese aber durch Berücksichtigung von individuellen Besonderheiten zu optimieren. Ziel ist es letztlich, ein Erklärungsmodell für den Straftäter zu entwickeln.
Dieses sollte sparsam sei, vor allem mit theoretisch oder empirisch nicht belegbaren
Zusatzannahmen. Gutachter, die sich diesem Ansatz verpflichtet fühlen, werden etwa
folgende Fragen stellen:
Ja
Nein
nein
ja
Ja
Ja
nein
ja
Nein
Nein
6%
17%
20 Jahre
40 Jahre
Entlassungsalter
Persönlichkeitsstörung
Mind. 2 x
gewalttätig
Vorstrafe mit
Gewaltdelikt
Risikofaktor
. Tabelle 11.4. Beispiel für eine Prognosetafel zur Rückfallwahrscheinlichkeit von männlichen
Straftätern nach Entlassung aus dem Maßregelvollzug
11.2 · Rechtspsychologische Diagnostik
11
Erklärungsmodell für
den Straftäter
Korrektur der statistischen Vorhersage
möglich
Kombination von Risikofaktoren entscheidend
Rückfallrisiko ablesen
549
11
Gemeinsamer Elternvorschlag gewichtig
Personen- und
Vermögensvorsorge
Hauptanlass
Scheidungsverfahren
recht für die Kinder, führt das Familiengericht eine Entscheidung herbei, wobei das
Streit um das Sorgerecht. Kommt es dagegen zu einem Streit der Eltern um das Sorge-
Elterliche Sorge. Die elterliche Sorge gilt von der Geburt bis zur Volljährigkeit des
Kindes und umfasst die Personen- und die Vermögensfürsorge. Zur Personenfürsorge
gehören die Fürsorge für das körperliche Wohl des Kindes, die Erziehung, Aufenthaltsbestimmung, Aufsichtspflicht und die Umgangsbestimmung. Die Vermögensfürsorge
betrifft die Vertretung des Kindes in finanziellen Angelegenheiten. Die Ausübung der
elterlichen Fürsorge ist nicht nur ein Recht, sondern auch eine Pflicht. Kein Elternteil
kann darauf verzichten. Möglich ist es allerdings, die Fürsorge dem anderen Elternteil
oder einer dritten Person zu überlassen; dies ist jederzeit widerrufbar. In einem Scheidungs- oder Trennungsverfahren müssen die Eltern angeben, ob gemeinsame minderjährige Kinder betroffen sind. Legen sie eine einvernehmliche Regelung zur elterlichen
Sorge und zum Umgang mit den Kindern vor, besteht seitens des Gerichts normalerweise kein Handlungsbedarf. Der gemeinsame Elternvorschlag steht sogar über dem
Kindeswohl, sofern dieses nicht erkennbar beeinträchtigt ist.
Viele Begutachtungen ergeben sich durch Scheidungsverfahren, von denen minderjährige Kinder betroffen sind. Laut Statistischem Bundesamt (Pressemitteilung vom
13. Juli 2005, s. www.destatis.de/presse/deutsch/pm2005/p2980023.htm) wurden 2004
in Deutschland insgesamt 213.691 Ehen geschieden und in etwa 50% der Fälle hatten
die Ehepartner ein oder mehrere minderjährige Kinder.
Familiengericht: Sorgerechtsentscheidungen. Im Rahmen von familiengerichtlichen
Verfahren können psychologische Gutachten zu sehr unterschiedlichen Fragestellungen angefordert werden (Salzgeber, 2001). Fragestellungen, die z. B. selten vorkommen,
sind:
4 die Beurteilung der Ehemündigkeit von heiratswilligen Minderjährigen,
4 die Frage, ob eine Minderjährige die Folgen und die Tragweite eines Schwangerschaftsabbruchs einschätzen kann oder
4 die Frage, ob die Aufrechterhaltung einer Ehe eine besondere Härte darstellt.
Die dazu benötigten Informationen finden sich in den Akten über die früheren Straftaten, in früher erstellten Gutachten, in der Dokumentation des Haftverlaufs, in Interviews mit dem Täter und evtl. auch mit wichtigen Bezugspersonen (z. B. der Ehefrau).
Zur Beurteilung der Persönlichkeit können auch Persönlichkeitsfragebögen oder projektive Verfahren herangezogen werden. Je nach Fragestellung kann auch ein Intelligenztest oder ein anderer Leistungstest eingesetzt werden.
Unter welchen Bedingungen wurde die Straftat begangen?
Wie kann die Entstehung der damaligen Straftat erklärt werden?
Wie hat sich die Persönlichkeit des Delinquenten in der Haft verändert?
Welche therapeutischen Maßnahmen wurden mit welchem Erfolg durchgeführt?
Wie ist der »soziale Empfangsraum« nach der möglichen Entlassung (Arbeitsplatz,
Unterkunft, soziale Beziehungen)?
4 Welche Lebensperspektiven (berufliche Möglichkeiten, Partnerschaft, Familie etc.)
hat der Delinquent?
4 Wie hoch ist die Wahrscheinlichkeit, dass kritische Umstände auftreten, unter denen bei dieser Person die Gefahr einer erneuten Straftat groß ist?
4
4
4
4
4
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Diagnostische
Verfahren
550
der Scheidungen mit minderjährigen Kindern einigen sich die Eltern darauf. Dass
dieser Entscheidung Vermittlungsbemühungen vorausgegangen sein können, wurde
bereits oben erwähnt. In strittigen Fällen kann der Antrag eines Elternteils jedoch auch
anders lauten. In der Übersicht sind einige Entscheidungsmöglichkeiten in Sorgerechtsverfahren aufgeführt, die oft nicht die Zustimmung eines Elternteils oder die eines über
14jährigen Kindes finden, und die zur Hinzuziehung eines Sachverständigen führen
können.
Gerade der letzte Punkt, die Umgangsregelung, kann sich im Detail als schwierig
und strittig erweisen. Ziel der Regelung des Umgangs des Kindes mit seinen Eltern ist
es, eine harmonische Eltern-Kind-Beziehung mit beiden Elterteilen auch nach deren
Fragestellungen. Die gemeinsame elterliche Sorge stellt den Regelfall dar; in über 90%
Psychologischer Sachverständiger. In familiengerichtlichen Verfahren, die ein Kind
betreffen, hat der Familienrichter eine Ermittlungspflicht. Es steht im Ermessen des
Familienrichters, ein Sachverständigengutachten einzuholen. Die erforderliche fachliche Kompetenz findet das Gericht nicht nur bei Psychologen, sondern, je nach Fragestellung, auch manchmal bei Ärzten für Kinder- und Jugendpsychiatrie, selten auch bei
Kinderärzten oder Diplompädagogen. Wen der Richter im Einzelfall beauftragt, steht
ihm frei. In Bayern gibt es öffentlich bestellte und beeidigte Sachverständige, die nach
der Zivilprozessordnung anderen Sachverständigen vorgezogen werden sollen. Bei der
Auswahl des Sachverständigen spielen sicherlich auch Kriterien wie wissenschaftliche
Reputation, Prozesserfahrung, Ansehen bei Rechtsanwälten und Bewährung in Prozessen eine wesentliche Rolle. Formal betrachtet steht der Sachverständige dem Richter in
der Rolle des Gehilfen oder Helfers gegenüber.
Kindeswohl und Kindeswille. Bei der Suche nach einer Lösung der Sorgerechtsfrage
hat das Gericht wie auch ein hinzugezogener Sachverständiger aufgrund gesetzlicher
Vorgaben das Kindeswohl, sowie bei über 14jährigen Kindern auch den Willen des
Kindes, zu beachten. Das Kindeswohl umfasst das leibliche und das geistig/seelische
Wohl des Kindes. Der Begriff ist juristisch nicht definiert; zur Beurteilung des Kindeswohls sind vor allem sozialwissenschaftliche Erkenntnisse anzuwenden. Das Kindeswohl hat in einem Sorgerechtsverfahren eine zentrale Bedeutung. Kommt das Gericht,
etwa aufgrund eines psychologischen Gutachtens, zu der Erkenntnis, dass das Kindeswohl gefährdet ist, kann es weit reichende Maßnahmen beschließen. So kann es die
Wohnung ausschließlich einem der Elternteile zuweisen, einem Elternteil oder einem
Dritten den Zutritt zum Haus bzw. der Wohnung verbieten oder vorschreiben, das
Stadtgebiet nicht mehr zu betreten. Es kann sogar einem Elternteil oder auch beiden
Eltern das Sorgerecht entziehen. Bei der Sorgerechtsentscheidung ist ferner der Kindeswille zu berücksichtigen. Ein über 14jähriges Kind darf selbst einen Vorschlag zum
Sorgerecht machen. Wenn das Kind einem gemeinsamen Elternvorschlag zur Regelung
des Sorgerechts explizit nicht zustimmt, trifft das Gericht eine Entscheidung, die sich
am Kindeswohl orientiert.
Gericht auf eine einvernehmliche Regelung der Betroffenen hinwirken sollte. Bevor es
jedoch zu einer gerichtlichen Entscheidung kommt, müssen Schlichtungs- und Vermittlungsversuche unternommen werden. Wird ein psychologischer Sachverständiger
vom Gericht hinzugezogenen, gilt dieser Grundsatz auch für ihn. Diagnostik und Intervention (Hinwirken auf eine Einigung, Vermittlung, Beratungsangebot etc.) sind in
diesem Fall eng verzahnt.
11.2 · Rechtspsychologische Diagnostik
11
Umgangsregelung
Strittige
Entscheidungsmöglichkeiten
Auswahlkriterien für
Sachverständige
Kindeswohl im Sorgerechtsverfahren von
zentraler Bedeutung
Diagnostik und
Intervention verzahnt
Einvernehmliche
Regelung angestrebt
551
11
4
4
4
4
4
4
4
4
4
Ist die Erziehungsfähigkeit durch eine Erkrankung eingeschränkt?
Liegt sexueller Missbrauch vor?
Ist die Bereitschaft vorhanden, elterliche Verantwortung zu übernehmen?
Sind die Betreuungs- und Versorgungsmöglichkeiten ausreichend?
Wie stark ist die Bindung des Kindes an einen Elternteil?
Was ist der Kindeswille?
Wie groß ist die Förderkompetenz des Elternteils?
Liegt ein Mangel an erzieherischer Kompetenz vor?
Wendet ein Elternteil unzulässige Erziehungsmaßnahmen an?
Beispiele für psychologische Fragen in Sorgerechtsentscheidungen:
Diagnostisches Vorgehen. Bei den in der Übersicht aufgeführten Fragestellungen handelt es sich um juristische Fragen, aus denen zunächst psychologische Fragen abgeleitet
werden. Familienrichter werden in der Regel nur dann einen psychologischen Sachverständigen hinzuziehen, wenn sie psychologische Fragestellungen sehen, die sie nicht
selbst beantworten können. Für die Ableitung der psychologischen Fragen sind nicht
nur Vorinformationen über den individuellen Fall erforderlich, sondern auch Kenntnisse der einschlägigen Gesetze und der Rechtssprechung. Welche konkreten psychologischen Fragen gestellt werden, ergibt sich oft erst nach einem Aktenstudium oder
einem ersten Gespräch mit den Eltern. Ein Richter kann aber auch die Fragestellung
von Anfang an auf eine oder mehrere Teilfragen einengen.
Trennung zu ermöglichen. Wenn sich ein Elternteil als problematisch erweist, kann das
Gericht beispielsweise einen beaufsichtigten Umgang anordnen, oder den Kontakt zum
Kind für eine bestimmte Zeit untersagen. Auch der Umgang mit weiteren Personen
(z. B. neuer Partner eines Elternteils, Großeltern, Stiefeltern) kann Gegenstand einer
Umgangsregelung sein.
4 Alleinige elterliche Sorge (einem Elternteil wird die Sorge übertragen),
4 Aufteilung der Sorge (ein Elternteil z. B. zuständig für die schulische Erziehung
etc.),
4 Aufhebung der gemeinsamen Sorge (die gemeinsame Sorge wird in eine alleinige umgewandelt),
4 Entzug der elterlichen Sorge oder Teilen der elterlichen Sorge (eventuell auch
Übertragung auf eine dritte Person),
4 Rückführung eines Kindes nach dem Haager Übereinkommen (das Kind lebt bei
einem Elternteil in einem anderen Staat),
4 Meinungsverschiedenheiten der Eltern bei gemeinsamem Sorgerecht (Uneinigkeit in Angelegenheiten, die für das Kind wichtig sind, beispielsweise Auswahl
der Schule),
4 Regelung des Umgangs des Kindes mit seinen Eltern (das Kind lebt bei einem
Elternteil, hat aber auch Umgang mit dem anderen Elternteil oder weiteren
Personen).
Fragestellung bei und nach Trennung oder Scheidung der Eltern:
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Psychologische Fragen
aus Vorinformationen
und Rechtssprechung
herleiten
552
Welche Art von psychodiagnostischen Verfahren fehlt in Ihrem Arbeitsbereich am
meisten?
Die Arbeit einer Familienrichterin sollte weniger rückwärtsgewandt/aufklärend als
lösungsorientiert sein. Wichtig wären also Tests, mit deren Hilfe zukünftiges Verhalten/
Einstellungen prognostiziert bzw. beeinflusst werden könnten.
6
Sind die dabei erstellten Gutachten von Psychologen für Sie nachvollziehbar und
schlüssig? Inwiefern hilft es Ihnen?
Nachvollziehbar und schlüssig: Ja. Normalerweise sind die psychologischen Gutachten
in einen Anamnese- und Beobachtungs- sowie einen Diagnostikteil gegliedert. Die
angewendeten Testverfahren sind bekannt bzw. werden erläutert. Die eingeholten Gutachten helfen mir. Nicht immer bringen sie für mich »neue« Erkenntnisse. Aber es ist
einerseits hilfreich, wenn die eigene Meinung »fundiert« bestätigt wird, andererseits
lässt sich durch Übersendung bzw. Erläuterung des Gutachtens an die Parteien oft ein
Ergebnis besser vermitteln, wodurch die Akzeptanz für eine zutreffende Entscheidung
erhöht bzw. im besten Falle eine Entscheidung sogar entbehrlich wird, weil die Eltern
auf der Grundlage des Gutachtens eine eigenverantwortliche Lösung treffen.
In welcher Art von Fällen nehmen Sie die spezifische Kompetenz von Psychologen
in Anspruch?
Sorge- und Umgangsrechtsstreitigkeiten zwischen getrennt lebenden Eltern, selten zwischen Eltern und Pflegeeltern.
achten in der Rechtssprechung«
Wie häufig ziehen Sie Psychologen zu Rate?
Ein- bis höchstens zweimal jährlich.
> Interview mit Dr. Ulrike Schmidt-Aßmann zum Thema »Psychologische Gut-
Diagnostische Verfahren. Auf die psychologischen Fragen sucht der Diagnostiker mit
Hilfe von Aktenanalysen, diagnostischem Interview, Verhaltensbeobachtung, Persönlichkeitsfragebogen, Leistungstests oder auch projektiven Verfahren eine Antwort. Die
Auswahl der Verfahren richtet sich stark nach der spezifischen Fragestellung. Beispielsweise stellt sich die Frage, ob die Erziehungsfähigkeit durch eine (dem Gutachter bekannte) hirnorganische Erkrankung eingeschränkt ist. In diesem Fall wird der
Gutachter mit Hilfe von neuropsychologischen Tests (7 Abschn. 11.1) versuchen, die
Schwere der Funktionsbeeinträchtigungen abzuschätzen. In einem anderen Fall ist der
Verdacht aufgekommen, dass ein Elternteil das alleinige Sorgerecht anstrebt, um Unterhaltsforderungen stellen zu können oder um den Partner dafür zu »bestrafen«, dass
er die Ehe zerstört hat. In diesem Fall ist die Bereitschaft zu hinterfragen, elterliche
Verantwortung zu übernehmen. Durch ein diagnostisches Interview kann der Gutachter eruieren, welche konkreten Zukunftspläne bezüglich Kindesbetreuung, Freizeitgestaltung und Umgang mit anstehenden Problemen ein Elternteil hat und wie dieser in
der Vergangenheit seine Elternrolle ausgefüllt hat. Zur Beurteilung der Bindung des
Kindes an einen Elternteil bietet sich bei Kleinkindern die Verhaltensbeobachtung der
Eltern-Kind-Interaktion bei einem Hausbesuch an. Ferner können die Eltern befragt
werden. Bei älteren Kindern kommen auch ein diagnostisches Interview mit dem Kind
in Frage sowie projektive Tests wie der Familien-Beziehungs-Test (Howells & Lickorish, 2003).
11.2 · Rechtspsychologische Diagnostik
11
Dr. Ulrike SchmidtAßmann, seit 1979
Familienrichterin am
Amtsgericht Heidelberg; ausgebildete
Familienmediatorin
(BAFM); vielfältig in der
Aus- und Weiterbildung tätig.
Bindung des Kindes
an einen Elternteil
feststellen
Auswahl durch
Fragestellung geleitet
Breites Spektrum
an Verfahren
553
11
Alkoholproblematik
häufigster Untersuchungsanlass
Statistik der
Bundesanstalt für
Straßenwesen
Untersuchungsanlässe. Für eine medizinisch-psychologische Begutachtung kommen
verschiedene Anlässe in Frage. Eine Statistik der Bundesanstalt für Straßenwesen gibt
Aufschluss über die Art und die Häufigkeit der einzelnen Untersuchungsanlässe sowie
über das Ergebnis der Begutachtung (. Tab. 11.5). Neben einem positiven oder negativen Ergebnis besteht für die Gutachter in den meisten Fällen auch die Möglichkeit, eine
Nachschulung vorzuschlagen und gegebenenfalls festzustellen, ob der Proband nachschulungsfähig ist.
Über die Hälfte der Begutachtungen fällt wegen einer Alkoholproblematik an. Maßgeblich sind hier § 13, Nr. 2 der FeV (7 Übersicht).
Fahrerlaubnis-Verordnung. Die rechtliche Grundlage für eine Begutachtung der
Fahreignung stellt die »Verordnung über die Zulassung von Personen zum Straßenverkehr« (kurz Fahrerlaubnis-Verordnung) vom 18. August 1998 (BGBl. I S. 2214) in der
Fassung des Inkrafttretens vom 01.07.2004 dar (s. www.verkehrsportal.de/fev/fev.
php).
Rechtliche Grundlage
für Begutachtung
Verkehrspsychologische Diagnostik
Im Volksmund gibt es das böse Wort »Idiotentest« für die psychodiagnostische Untersuchung, der sich viele Kraftfahrer nach dem Verlust des Führerscheins unterziehen
müssen. Dass die Betroffenen überwiegend ablehnend reagieren, ist zumindest nachvollziehbar. Schwer zu verstehen ist hingegen, dass sich verkehrsunauffällige Kraftfahrer
und sogar Automobilclubs mit denen solidarisieren, die stark alkoholisiert am Steuer
gesessen haben oder etwa durch aggressives Fahrverhalten Leben und Gesundheit ihrer
Mitmenschen gefährdet haben.
11.3
Haben die psychologischen Gutachten erfahrungsgemäß eher einen geringen oder
großen Einfluss bei der Entscheidungsfindung?
Wenn schon ein Gutachten eingeholt wird, hat es auch eher einen erheblichen Einfluss
auf die Entscheidungsfindung. <
Wie ist es um Rückmeldungen über die Treffsicherheit der Gutachterempfehlungen
in Ihrem Arbeitsbereich bestellt?
Die Frage scheint mir nicht richtig formuliert. Nicht der Gutachter hat zu entscheiden,
also »treffsicher« zu sein, sondern ich als Richterin. Dafür benötige ich die Hilfe des
Gutachters. Habe ich Zweifel am Gutachten, werde ich mir das Gutachten mündlich
erläutern lassen. Natürlich gibt es unterschiedliche Einschätzungen.
Inwieweit befürchten Sie, dass die Klienten bei familienrechtlichen Gutachtenfällen
durch persönliche Verstellung das Ergebnis des Gutachtens in Ihrem Sinne beeinflussen können?
Selbstverständlich wollen die Klienten sich gegenüber dem/der GutachterIn besonders
gut darstellen. Ich sehe keine Gefahr darin, dass dadurch Ergebnis und Qualität des
Gutachtens beeinflusst werden. Es ist ein bekanntes Phänomen. Wichtig ist die Art der
Fragestellung an den Gutachter. Je weniger es um eine klassische Diagnostik mit Beschreibung eines »Ist-Zustandes«, je mehr es um lösungsorientierte Hilfestellung geht,
umso weniger groß ist die Beeinflussung durch persönliche Verstellung.
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
„Idiotentest“
emotional besetzt
554
1.678
Sonstige Anlässe
100%
1.5%
4.1%
1.0%
1.4%
1.4%
1.7%
9.1%
10.1%
18.4%
39.1%
2.5%
9.6%
Anteil
45%
–
91%
43%
48%
47%
43%
38%
49%
40%
43%
45%
44%
15%
–
–
8%
6%
17%
6%
16%
9%
14%
17%
17%
26%
Schulung
40%
–
9%
49%
46%
36%
51%
46%
42%
46%
39%
38%
30%
negativ
Ergebnis der Begutachtung
positiv
6
[Die Fahrerlaubnisbehörde ordnet an, dass]
1. ein ärztliches Gutachten (§ 11, Abs. 2 Satz 3) beizubringen ist, wenn Tatsachen
die Annahme von Alkoholabhängigkeit begründen oder die Fahrerlaubnis
wegen Alkoholabhängigkeit entzogen war oder sonst zu klären ist, ob Abhängigkeit nicht mehr besteht, oder
2. ein medizinisch-psychologisches Gutachten beizubringen ist, wenn
a) nach dem ärztlichen Gutachten zwar keine Alkoholabhängigkeit, jedoch
Anzeichen für Alkoholmissbrauch vorliegen oder sonst Tatsachen die Annahme von Alkoholmissbrauch begründen,
b) wiederholt Zuwiderhandlungen im Straßenverkehr unter Alkoholeinfluss
begangen wurden,
FeV § 13 Klärung von Eignungszweifeln bei Alkoholproblematik
Anmerkungen. Quelle: Bundesanstalt für Straßenwesen, Oktober 2004 (www.bast.de/htdocs/
aktuelles/presse/2004/mpu_2003.pdf ). Nur Untersuchungsanlässe mit mind. 1.000 Fällen pro
Jahr aufgeführt.
110.776
4.571
FeV §10: Abweichung vom
Mindestalter
Gesamt
1.152
1.516
Verkehrsauffälligkeit + Medikamente/Drogen
Sonstige Mehrfachfragestellungen
1.913
Alkohol + Verkehrs- oder
strafrechtl. Auffälligkeit
1.585
10.076
Betäubungsmittel- & Medikamentenaufällige
Verkehrsauffälligkeit + strafrechtl.
Auffälligkeit
11.194
Alkoholauffälligkeit, wiederholt
Alkohol + Medikamente/Drogen
43.330
20.408
Alkoholauffälligkeit, erstmalig
2.754
10.599
Verkehrsauffälligkeiten
Sonstige strafrechtl. Auffälligkeiten
Anzahl
Untersuchungsanlass
. Tabelle 11.5. Begutachtungen bei den Medizinisch-Psychologischen Untersuchungsstellen
2003
113 · Verkehrspsychologische Diagnostik
555
11
11
Paradigmenwechsel:
Modifizierbares Verhalten statt Dispositionen
relevant
Verhaltensgewohnheiten, Persönlichkeit
oder Leistungsfähigkeit entscheidend
Spezifizierung der Anforderungen
Begutachtungs-Leitlinien. Für die Begutachtung stellen heute »Begutachtungs-Leitlinien zur Kraftfahrereignung« (Lewrenz, 2000) ein wichtiges Hilfsmittel dar (auch
unter www.fahrerlaubnisrecht.de/Begutachtungsleitlinien/BGLL%20Inhaltsverzeichnis.htm). Die Leitlinien wurden von dem so genannten Paritätischen Ausschuss unter
befasst sich mit unterschiedlichen Aspekten der Fahreignung. Je nach Begutachtungsanlass und Fragestellung liegt der Schwerpunkt etwa auf Verhaltensgewohnheiten im
Umgang mit Alkohol, der Persönlichkeit des Fahrers oder auf bestimmten Merkmalen
der Leistungsfähigkeit. Im Fall der Fahrerlaubnis zur Fahrgastbeförderung oder bei
Zweifeln an der psychischen Leistungsfähigkeit stehen eindeutig kognitive Leistungsmerkmale im Vordergrund: Optische Orientierung, Konzentrationsfähigkeit, Aufmerksamkeit, Reaktionsfähigkeit und Belastbarkeit. Bei Straftaten, die im Zusammenhang mit der Kraftfahreignung oder der Teilnahme am Straßenverkehr stehen, können
das Aggressionspotential, die Neigung zu rücksichtsloser Durchsetzung eigener Anliegen oder die Bereitschaft zu ausgeprägt impulsivem Verhalten begutachtungsrelevant
sein. Damit kommt wieder das diagnostische Interview als Methode in Frage, eventuell
auch Fragebogen zur Erfassung von Persönlichkeitsmerkmalen (z. B. Aggressivität), die
jedoch verfälschbar sind.
In den letzten Jahrzehnten fand in der verkehrspsychologischen Eignungsdiagnostik ein Paradigmenwechsel statt. Früher spielte die Annahme stabiler Dispositionen
(Persönlichkeitsmerkmale, Leistungsdefizite) eine wichtige Rolle, heute hat sich die
Ansicht durchgesetzt, dass das Verhalten wichtig ist, und dass Verhalten auch modifizierbar ist. Dem wird mit dem Konzept der Nachschulung Rechnung getragen (Wittkowski & Seitz, 2004).
Psychologische Fragen und diagnostisches Vorgehen. Die Fahreignungsdiagnostik
Viele andere Fragestellungen ergeben sich aus der Anwendung von § 11 der FeV, der
sich auf die Eignung der Führerscheininhaber, speziell auf die »notwendigen körperlichen und geistigen Anforderungen« bezieht. Eine Begutachtung ist unter anderem
vorgesehen »bei erheblichen oder wiederholten Verstößen gegen verkehrsrechtliche
Vorschriften oder bei Straftaten, die im Zusammenhang mit dem Straßenverkehr oder
im Zusammenhang mit der Kraftfahrereignung stehen oder bei denen Anhaltspunkte
für ein hohes Aggressionspotential bestehen« (§ 11, Abs. 3;4). Wer eine Fahrerlaubnis
zur Fahrgastbeförderung anstrebt, also beispielsweise als Taxifahrer oder als Busfahrer
tätig sein will, braucht dazu eine spezielle Fahrerlaubnis, deren Erteilung in § 48 geregelt
ist. »Die Fahrerlaubnis zur Fahrgastbeförderung ist zu erteilen, wenn der Bewerber…
[u. a.] seine geistige und körperliche Eignung gemäß § 11, Abs. 9 in Verbindung mit
Anlage 5 nachweist.« In Anlage 5 der Fahrerlaubnisverordnung werden folgende Anforderungen spezifiziert: Belastbarkeit, Orientierungsleistung, Konzentrationsleistung,
Aufmerksamkeitsleistung, Reaktionsfähigkeit.
c) ein Fahrzeug im Straßenverkehr bei einer Blutalkoholkonzentration von 1,6
Promille oder einer Atemalkoholkonzentration von 0,8 mg/l oder mehr geführt wurde,
d) die Fahrerlaubnis aus einem der unter Buchstabe a bis c genannten Gründe
entzogen war oder
e) sonst zu klären ist, ob Alkoholmissbrauch nicht mehr besteht.
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
»Geistige Anforderungen« erfüllt?
556
Beispiel Alkoholproblematik. Am Beispiel der Alkoholproblematik sollen die Begutachtungsgrundsätze in knapper Form erläutert werden. In den Leitlinien wird zwischen
Alkoholmissbrauch und Alkoholabhängigkeit unterschieden. Die Diagnostik einer Alkoholabhängigkeit erfolgt nach den üblichen ICD-10-Kriterien (7 Kap. 10). Menschen, die alkoholabhängig sind, dürfen kein Kraftfahrzeug führen. Für die Feststellung, dass keine Abhängigkeit mehr vorliegt, wird der Nachweis verlangt, dass eine
dauerhafte Abstinenz besteht. In der Regel sind eine erfolgreiche Entwöhnungsbehandlung und eine einjährige Abstinenz nach der Entgiftungs- und Entwöhnungszeit nachzuweisen. Außerdem dürfen keine sonstigen eignungsrelevanten Mängel vorliegen.
Auch Alkoholmissbrauch (nach ICD-10 »schädlicher Gebrauch«) ist unvereinbar mit
dem Führen eines Kraftfahrzeugs. Missbrauch liegt vor, wenn der Proband, ohne bereits
alkoholabhängig zu sein, vor der Teilnahme am Straßenverkehr nicht zuverlässig auf
Alkoholkonsum verzichtet, der die Fahrsicherheit beeinträchtigt. Ein sicherer diagnostischer Hinweis ist, wenn der Proband wiederholt ein Fahrzeug unter unzulässig hoher
Alkoholwirkung geführt hat. Als starker Hinweis auf Alkoholmissbrauch gilt auch,
wenn er nur einmal mit hoher Alkoholkonzentration gefahren ist, ohne dass dabei
weitere Anzeichen einer Alkoholwirkung (Ausfallserscheinungen) erkennbar waren. In
diesem Fall ist eine extreme Gift-/Trinkfestigkeit anzunehmen.
Dass ein Alkoholmissbrauch abgestellt wurde, kann unter anderem anhand folgender Kriterien beurteilt werden:
4 Das Trinkverhalten wurde ausreichend geändert.
4 Die Änderung im Umgang mit Alkohol ist stabil und motivational gefestigt.
Selbstverständlich ersetzen die Leitlinien nicht eine individuelle Begutachtung und
Begründung des Gutachtens. Sie zeigen Beurteilungsgrundsätze und Begründungen
auf und dienen als Entscheidungshilfe.
der Leitung des Bundesministeriums für Verkehr, Bau- und Wohnungswesen erstellt.
Sie führen die Begutachtungs-Leitlinien »Krankheit und Kraftverkehr« mit dem »Psychologischen Gutachten Kraftfahreignung« zusammen. Aktuelle Stellungnahmen der
relevanten medizinischen und psychologischen Fachgesellschaften und gutachtliche
Erfahrungen fanden Berücksichtigung. So verbinden die Leitlinien Erfahrungen aus
der Praxis der Begutachtung mit einschlägigen wissenschaftlichen Erkenntnissen.
Die Leitlinien gehen in einem allgemeinen Teil auf Themen von grundsätzlicher
Bedeutung (z. B. Anforderungen an die psychische Leistungsfähigkeit) und auf organisatorische und rechtliche Bedingungen der Begutachtung (z. B. rechtliche Stellung des
Gutachters) ein. Im speziellen Teil werden einzelne eignungsausschließende und -einschränkende körperlich-geistige (psychische) und charakterliche Mängel beim Fahrerlaubnisbewerber und Fahrerlaubnisinhaber behandelt. Einige sind rein medizinischer Art (z. B. verschiedene Herz- und Gefäßkrankheiten), andere fallen in den Kompetenzbereich von Medizinern und Psychologen (z. B. psychische Störungen, Alkohol)
und ein kleiner Teil (z. B. intellektuelle Leistungseinschränkungen, Thema Fahrgastbeförderung) wird am ehesten von einem Psychologen begutachtet werden. Für die Begutachtungspraxis erfüllen die Leitlinien vor allem zwei wichtige Funktionen:
4 Zusammenstellung aller wichtigen eignungsausschließenden und -einschränkenden Merkmale;
4 Argumentationshilfe: Der Gutachter kann sich im Einzelfall auf die BegutachtungsLeitlinien beziehen und muss nicht jede gutachterliche Schlussfolgerung eingehend
erläutern.
113 · Verkehrspsychologische Diagnostik
11
Alkoholmissbrauch
abgestellt?
Diagnostische Kriterien
für Alkoholmissbrauch
Alkoholabhängigkeit
und Alkoholmissbrauch schließen
Führen eines Kraftfahrzeugs aus
Beurteilungsgrundsätze und Entscheidungshilfe
Spezieller Teil: konkrete
eignungsrelevante
Merkmale
Allgemeiner Teil
Praxis und
Wissenschaft vereint
557
11
Inhaltsanalytische
Auswertung von
Gutachten
Eigenes Fehlverhalten
erkennen und ändern
Fakten von Beschönigungen unterscheiden
Leistungstests
Akteninformationen
Diagnostisches
Interview von zentraler
Bedeutung
Qualität der Gutachten. Für die Erstellung von Gutachten zur Kraftfahrereignung
gelten die gleichen Anforderungen wie für andere Gutachten (7 Abschn. 5.3). Wittkowski und Seitz (2004) haben insgesamt 122 Gutachten aus 39 medizinisch-psychologischen Begutachtungsstellen analysiert. Anlass war immer das Fahren unter Alkoholeinfluss. Die Beurteiler überprüften jedes Gutachten anhand einer umfangreichen
Merkmalsliste. Mit diesem inhaltsanalytischen Vorgehen konnten sie zahlreiche Stärken und Schwächen der Gutachten aufdecken. Die Ergebnisse sind zu umfangreich, um
Was sollte der Betroffene sagen, um ein positives Gutachten zu bekommen? Unter
dieser Überschrift gibt ein Rechtsanwalt folgenden Rat: »Ganz allgemein kann aber
gesagt werden, dass von dem Betroffenen eine kritische Auseinandersetzung mit dem
eigenen Verhalten verlangt wird. Es wird verlangt, dass der Betroffene sein früheres
Fehlverhalten erkannt hat und sich damit intensiv auseinandergesetzt hat, um dann zu
einer in Hinsicht auf die Kraftfahreignung »besseren« Lebensweise zu kommen…«. Wer
im Rahmen einer MPU angibt, er habe einfach Pech gehabt, weil andere ja auch ständig
gegen Verkehrsvorschriften verstoßen, ohne dabei erwischt zu werden, hat keine Aussicht auf ein positives Gutachten. Auch mit dem Hinweis, man habe ja schließlich z. B.
zu schnell fahren müssen, weil der Chef einen ständig unter Druck setze, ist das negative Gutachten in der Praxis schon vorprogrammiert. Bei einer solchen Haltung wird
nämlich gerade nicht deutlich, dass man sein eigenes Fehlverhalten als solches erkannt
hat und aufgrund einer Aufarbeitung des eigenen Fehlverhaltens eine Verhaltensänderung herbeigeführt hat.« (www.verkehrsportal.de/verkehrsrecht/mpu_05.php)
Problem der Verfälschung. Die Klienten werden bestrebt sein, einen »guten« Eindruck
zu hinterlassen, um den Führerschein (wieder) zu erlangen. Das diagnostische Interview hat bei vielen Fragestellungen einen hohen Stellenwert. Die Fragen müssen daher
so ausgewählt werden, dass diagnostisch relevante Fakten von beschönigenden Darstellungen unterschieden werden können.
Für jedes dieser Kriterien finden sich in den Leitlinien Hinweise zur Operationalisierung. So ist eine stabile und motivational gefestigte Änderung des Trinkverhaltens
unter anderem daran zu erkennen, dass der Änderungsprozess nachvollziehbar aufgezeigt werden kann und die mit der Verhaltensänderung erzielten Wirkungen positiv
erlebt werden.
Die Beurteilungsgesichtspunkte lassen bereits erkennen, welche diagnostischen
Verfahren bei Annahme einer Alkoholproblematik nahe liegen. Zur Feststellung von
Alkoholmissbrauch oder -abhängigkeit kommt dem diagnostischen Interview eine zentrale Bedeutung zu. Nur dieses Verfahren kann die nötigen Informationen über Trinkund Verhaltensgewohnheiten sowie über Problembewusstsein, eingeleitete Therapiemaßnahmen etc. liefern. Der Gutachter kann schriftliche Belege über Therapiemaßnahmen verlangen. Dem Interview geht eine Auswertung der Akten voraus. Wichtige
Informationen sind die Höhe des Blutalkoholspiegels, das Verhalten unter Alkoholeinfluss (unauffälliges Verhalten spricht für eine hohe Alkoholtoleranz), eventuelle Vorgutachten, medizinische Befunde zu alkoholbedingten Schädigungen, Laborwerte etc.
Zur Überprüfung von Leistungs- oder Funktionsbeeinträchtigungen nach einer überwundenen Alkoholabhängigkeit finden Leistungstests Verwendung.
ren Alkoholmissbrauchs fehlen.
4 Verkehrsrelevante Leistungs- oder Funktionsbeeinträchtigungen als Folgen frühe-
Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern
Verhaltensnahe
Operationalisierung
558
Welche forderdringlichen Entwicklungsnotwendigkeiten sehen Sie in der verkehrspsychologischen Diagnostik?
Es werden Testverfahren benötigt, die gerade im unteren Skalenbereich besonders gut
differenzieren, da für das Führen eines Kraftfahrzeuges, eines Flugzeuges, eines Triebfahrzeuges oder auch eines Motorbootes, Mindestvoraussetzungen erfüllt sein müssen,
6
in der Verkehrspsychologie«
Für welche Aufgabenbereiche innerhalb der Verkehrspsychologie sehen Sie einen
besonderen Nutzen der psychologischen Diagnostik?
Bei der medizinisch-psychologischen Begutachtung spielen diagnostische Verfahren
aus verschiedenen Fachgebieten der Psychologie, z. B. Explorationstechniken, Erfassung psychofunktionaler Leistungsvoraussetzungen (v. a. Konzentration, Orientierung,
Belastbarkeit, Reaktion, Aufmerksamkeit) und Persönlichkeitsmerkmale (v. a. Eigenkritikfähigkeit und Selbstkontrolle) sowie intellektuelle Leistungsvoraussetzungen eine
besondere Rolle. Hinzu kommen verschiedene Befunde aus der Medizin (z. B. Laborparameter, klinische Befunde), sozialanamnestische und soziodemografische Daten.
Einen besonderen Nutzen sehe ich im Einsatz leistungsdiagnostischer Testverfahren bei
der Fahreignungsdiagnostik. Hier werden modernste Verfahren eingesetzt, die sich
mehr als in der Vergangenheit am Grundlagenwissen der Psychologie orientieren und
nach neuen Technologien – z. B. nach dem Konstituentenansatz – konstruiert und
theoriegeleitet validiert sind. Ihre Relevanz für die Beantwortung von diagnostischen
Fragestellungen an die Fahreignungsbegutachtung, z. B. nach dem Vorliegen alkohol-,
drogen-, oder altersbedingter Leistungsbeeinträchtigungen, ist durch empirische Untersuchungen belegt. Die verwendeten Verfahren sind kein Ersatz für Fahrverhaltensbeobachtungen, sondern erlauben es, Leistungsbesonderheiten heraus zu präparieren
und Hinweise für zielgerichtete Intervention sowie therapeutische Maßnahmen abzuleiten, z. B. bei der Rehabilitation von Alkoholabhängigen und der Bewertung der Abstinenzbehauptung. Die diagnostische Besonderheit dieses Begutachtungsprozesses
besteht darin, dass die im Einzelnen erhobenen Befunde aus Psychologie und Medizin
widerspruchsfrei im Sinne der zu beantwortenden - vom Gericht oder von der Behörde
veranlassten - Fragestellung zu integrieren und interpretieren sind.
> Interview mit Dr. Wolfgang Schubert zum Thema »Psychologische Diagnostik
Insgesamt unterstreicht diese Untersuchung, dass die abgelieferten Gutachten in vielen
Fällen (noch) nicht den Standards entsprechen.
hier wiedergegeben zu werden. Exemplarisch sind im Folgenden einige Bewertungsaspekte aufgeführt (in Klammern der Anteil von Gutachten mit Mängeln):
4 Gutachtenauftrag wörtlich wiedergegeben (81%)
4 Quellen zur Feststellung des bisherigen Sachverhalts benannt (23%)
4 Fragestellungen in konkrete Untersuchungsvariablen überführt (39%)
4 Vollständige Angaben zur Art der Informationsquellen wie Akten, Testverfahren
etc. (25%)
4 Im Ergebnisbericht Trennung von Informationen und deren Interpretation (2%)
4 Ergebnisse für den Leser klar und eindeutig formuliert (61%)
4 Integrative Befunde (sofern vorhanden) durch Mehrfachbelege gestützt (52%)
4 Fragestellung klar und unmissverständlich beantwortet (97%)
4 Vollständiges Literaturverzeichnis am Ende des Gutachtens (80%)
113 · Verkehrspsychologische Diagnostik
11
Dr. rer. nat. Wolfgang
Schubert, Dipl.-Psych.,
Leiter des Fachbereiches Verkehrspsychologie der DEKRA Automobil GmbH, 1. Vorsitzender des Vorstandes
der Deutschen Gesellschaft für Verkehrspsychologie e. V.
Gutachten teilweise
unzulänglich
559
Abels, D. (1974). Konzentrations-Verlaufs-Test KVT. Göttingen: Hogrefe.
Allehoff, W. (1984). Berufswahl und berufliche Interessen. Göttingen: Hogrefe.
Allen, B. P. & Potkay, Ch. R. (1981). On the arbitrary distinction between states and traits. Journal
of Personality and Social Psychology, 41, 916-928.
Allport, G. W. (1953). The trend in motivational theory. American Journal of Orthopsychiatry, 32,
107-119.
Amelang, M. (1978). Hochschulzugang. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (S. 1013-1022). Düsseldorf: Schwann.
Amelang, M. (1985). Historische Bedingtheit der empirisch orientierten Persönlichkeitsforschung.
In T. Herrmann & E. Lantermann (Hrsg.), Persönlichkeitspsychologie. Ein Handbuch in Schlüsselbegriffen (S. 9-19). München: Urban & Schwarzenberg.
Amelang, M. (1987). Fragebogen-Tests und experimentalpsychologische Variablen als Korrelate
der Persönlichkeitsdimensionen Extraversion/Introversion (E/I) und Neurotizismus (N). In M.
Amelang (Hrsg.), Bericht über den 35. Kongress der Deutschen Gesellschaft für Psychologie
in Heidelberg 1986 (Bd. 2, S. 403-416). Göttingen: Hogrefe.
Amelang, M. (1994). Über die Prozesse bei Selbsteinschätzungen. Eine Reaktionszeitanalyse
von State- und Trait-Urteilen. In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 241-257). Göttingen:
Hogrefe.
Amelang, M. (1999). Zur Lage der Psychologie: Einzelaspekte von Ausbildung und Beruf unter
besonderer Berücksichtigung der ökonomischen Implikationen psychologischen Handelns.
Psychologische Rundschau, 50, 2-13.
Amelang, M. & Bartussek, D. (1990). Differentielle Psychologie und Persönlichkeitsforschung
(3. Aufl., 5. Aufl. 2001). Stuttgart: Kohlhammer.
Amelang, M. & Borkenau, P. (1981a). Vorhersagen für einige Personen in vielen Merkmalen.
Oder: Konsistenz über Variable und Kontextbedingungen als Eigenschaft. In W. Michaelis
(Hrsg.), Bericht über den 32. Kongreß der Deutschen Gesellschaft für Psychologie in Zürich
1980 (S. 495-498). Göttingen: Hogrefe.
Amelang, M. & Borkenau, P. (1981b). Untersuchungen zur Validität von Kontroll-Skalen für Soziale
Erwünschtheit und Akquieszenz. Diagnostica, 27, 295-312.
Amelang, M. & Borkenau, P. (1982). Über die faktorielle Struktur und externe Validität einiger Fragebogen-Skalen zur Erfassung von Dimensionen der Extraversion und emotionalen Labilität.
Zeitschrift für Differentielle und Diagnostische Psychologie, 3, 119-146.
Amelang, M. & Borkenau, P. (1986). Zur faktorenanalytischen Kontrolle sozialer Erwünschtheitstendenzen. Eine Untersuchung anhand des Freiburger Persönlichkeitsinventars. Zeitschrift
für Differentielle und Diagnostische Psychologie, 7, 17-28.
Amelang, M., Gold, A. & Külbel, E. (1984). Über einige Erfahrungen mit einer deutschsprachigen
Skala zur Erfassung des zwischenmenschlichen Vertrauens (Interpersonal Trust). Diagnostica,
30, 198-215.
Amelang, M., Herboth, G. & Oefner, J. (1991). A prototype strategy for construction of a creativity
scale. European Journal of Personality, 5, 261-285.
Amelang, M. & Hoppensack, Th. (1977). Persönlichkeitsstruktur und Hochschulbesuch I. Merkmalsveränderungen während des Studiums bei Studierenden verschiedener Fachrichtungen.
Psychologische Beiträge, 19, 161-188.
Amelang, M. & Pielke, M. (1992). Effects of erotica upon men’s and women’s loving and liking responses for their partners. Psychological Reports, 71, 1235-1245.
Amelang, M., Schäfer, A. & Yousfi, S. (2002). Comparing verbal and nonverbal personality scales:
Psychometric properties, the influence of social desirability, and the effects of fake good instruction. Psychologische Beiträge, 44, 24-41.
Amelang, M., Schwarz, G. & Wegemund, A. (1989). Soziale Intelligenz als Trait-Konstrukt und TestKonzept bei der Analyse von Verhaltensauffälligkeiten. Zeitschrift für Differentielle und Diagnostische Psychologie, 10, 37-57.
Literaturverzeichnis
567
568
Literaturverzeichnis
Amelang, M. & Vagt, G. (1970). Warum sind die Schulnoten von Mädchen durch Leistungstests
besser vorherzusagen als diejenigen von Jungen? Zeitschrift für Entwicklungspsychologie
und Pädagogische Psychologie, 2, 210-220.
American Psychiatric Association. (1987). Diagnostic and statistical manual of mental disorders
DSM-III-R. Washington: American Psychiatric Association.
American Psychiatric Association. (1994). Diagnostic and statistical manual of mental disorders
DSM-IV. Washington: American Psychiatric Association.
Amthauer, R. (1953). Intelligenz-Struktur-Test IST (2. Aufl. 1955). Göttingen: Hogrefe.
Amthauer, R. (1957). Über die Prüfung der Zuverlässigkeit von Tests – erörtert am IST. Psychologische Rundschau, 8, 165-171.
Amthauer, R. (1972). Test zur Untersuchung des praktisch-technischen Verständnisses PTV.
Göttingen: Hogrefe.
Amthauer, R. (1973). IST 70 (4. Aufl., 1. Aufl. 1970). Göttingen: Hogrefe.
Amthauer, R., Brocke, B., Liepmann, D. & Beauducel, A. (2001). Intelligenz-Struktur-Test 2000
(IST 2000). Göttingen: Hogrefe.
Andersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38, 123-140.
Andersen, E. B. (1980). Discrete statistical models with social science applications. Amsterdam:
North Holland.
Andersen, E. B. (1995). Polytomous Rasch models and their estimation. In G. H. Fischer &
I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications
(pp. 271-291). New York: Springer.
Anderson, N. R. & West, M. A. (1994). The Team Climate Inventory. Windsor: Berks ASE.
Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43,
561-573.
Angleitner, A. (1993). Zur Konvergenz von verbalen und nicht-verbalen Erfassungstechniken von
Persönlichkeitsmerkmalen. Bielefeld: Unveröffentlichter Praktikumsbericht.
Angleitner, A. (1997). Minnesota Multiphasic Personality Inventory (MMPI). Rezension. Zeitschrift
für Differentielle und Diagnostische Psychologie, 18, 4-10.
Antonovsky, A. (1979). Health, stress, and coping. San Francisco: Jossey-Bass.
Arbeitskreis OPD. (1996). Operationalisierte psychoanalytische Diagnostik. Bern: Huber.
Arentewicz, G. & Schmidt, G. (1986). Sexuell gestörte Beziehungen. Konzept und Technik der Paartherapie. Berlin, Heidelberg, New York: Springer.
Armstrong, M. A. S. (1954). Children’s responses to animal and human figures in thematic pictures.
Journal of Consulting Psychology, 18, 76-70.
Atkinson, J. W. (1978). Motivational determinants of intellective performance and cumulative
achievement. In J. W. Atkinson & J. O. Raynor (Eds.), Personality, motivation, and achievement
(pp. 221-212). Washington: Hemisphere.
Barrick, M. R., Mount, M. K. & Judge, T. A. (2001). Personality and performance at the beginning of
the new millenium: What do we know and where do we go next? International Journal of
Selection and Assessment, 9, 9-30.
Bartenwerfer, H. (1964). Allgemeine Leistungstests. In R. Heiss (Hrsg.), Handbuch der Psychologie,
Psychologische Diagnostik (S. 385-410). Göttingen: Hogrefe.
Bartenwerfer, H. (1983). Allgemeine Leistungsdiagnostik. In K. J. Groffmann & L. Michel (Hrsg.),
Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 2: Intelligenz- und Leistungsdiagnostik (S. 482-521). Göttingen: Hogrefe.
Barthel, D. & Schuler, H. (1989). Nutzenkalkulationen eignungsdiagnostischer Verfahren am Beispiel eines biographischen Fragebogens. Zeitschrift für Arbeits- und Organisationspsychologie, 33, 73-83.
Bartlett, F. C. (1932). Remembering. A study in experimental and social psychology. Cambridge:
Cambridge University Press.
Bartling, G., Fiegenbaum, W. & Krause, R. (1980). Reizüberflutung. Theorie und Praxis. Stuttgart:
Kohlhammer.
Bartling, G., Echelmeyer, L., Engberding, M. & Krause, R. (2005). Problemanalyse im therapeutischen Prozess (5. Aufl.). Stuttgart: Kohlhammer.
Bartussek, D. (1970). Eine Methode zur Bestimmung von Moderatoreffekten. Diagnostica, 16, 57-76.
Bartussek, D. (1982). Modelle der Testfairness und Selektionsfairness. Trierer Psychologische Berichte, 9, Heft 2.
Bartussek, D. (1988). Beurteilung der deutschen Form des 16 PF-Tests. Diagnostica, 34, 367-379.
Bartussek, D. & Amelang, M. (1992). Verschränkungen mit der Differentiellen Psychologie. In
R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. veränderte Aufl., S. 50-64).
Weinheim: Psychologie Verlags Union
Bartussek, D., Raatz, U., Stapf, K. H. & Schneider, B. (1986). Die Evaluation des Tests für Medizinische
Studiengänge, 3. Zwischenbericht. Bonn: Ständige Konferenz der Kultusminister der Länder.
Basler, H.-D. & Kröner-Herwig, B. (Hrsg.), (1995). Psychologische Therapie bei Kopf- und Rückenschmerzen. Ein Schmerzbewältigungsprogramm zur Gruppen- und Einzeltherapie. München:
Quintessenz.
Bastine, R. (Hrsg.). (1992a). Klinische Psychologie (Bd. 2). Stuttgart: Kohlhammer.
Bastine, R. (1992b). Klinische Psychodiagnostik. In R. Bastine (Hrsg.), Klinische Psychologie (Bd. 2,
S. 1-55). Stuttgart: Kohlhammer.
Bastine, R. (1992c). Psychotherapie. In R. Bastine (Hrsg.), Klinische Psychologie (Bd. 2, S. 179-308).
Stuttgart: Kohlhammer.
Bastine, R. (1998). Klinische Psychologie (Bd. 1, 3. Aufl.). Stuttgart: Kohlhammer.
Bastine, R. & Tuschen, B. (1996). Klinisch-psychologische Diagnostik. In A. Ehlers & K. Hahlweg
(Hrsg.), Psychologische und biologische Grundlagen der Klinischen Psychologie. Enzyklopädie der Psychologie: Themengebiet D, Serie 2, Klinische Psychologie, Bd. 1 (S. 195-268).
Göttingen: Hogrefe.
Baumann, U. (1981). Indikationen zur Psychotherapie. München: Urban & Schwarzenberg.
Baumann, U. (1990). Klinisch-Psychologische Diagnostik: Gibt es Alternativen zur klassischen
Diagnostik? Zeitschrift für Klinische Psychologie, 19, 179-182.
Baumann, U., Fähndrich, E., Stieglietz, R. D. & Woggon, B. (Hrsg.). (1990). Veränderungsmessung in
Psychiatrie und Klinischer Psychologie. München: Profil-Verlag.
Baumgärtel, F. (1979). Hamburger Erziehungsverhaltensliste für Mütter. Göttingen: Hogrefe.
Bäumler, G. (1974b). Lern- und Gedächtnistest LGT 3. Göttingen: Hogrefe.
Bäumler, G. (1985). Farb-Wort-Interferenztest FWIT. Göttingen: Hogrefe.
Beauducel, A., Brocke, B. & Liepmann, D. (2001). Perspectives on fluid and crystallized intelligence:
facets for verbal, numerical, and figural intelligence. Personality and Individual Differences,
30, 977-994.
Beck, A. T. & Emery, G. (1981). Kognitive Verhaltenstherapie bei Angst und Phobien. Tübingen:
Deutsche Gesellschaft für Verhaltenstherapie.
Beck, A. T., Freeman, A. & Associates (1995). Kognitive Therapie der Persönlichkeitsstörungen
(3. Aufl.). Weinheim: Psychologie Verlags Union.
Beck, A. T., Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar (BDI).
(2., überarb. Aufl.). Göttingen: Hogrefe.
Beck, A. T., Rush, A. J., Shaw, B. F. & Emery, G. (1996). Kognitive Therapie der Depression (5. Aufl., 1.
Aufl. 1992). Weinheim: Psychologie Verlags Union.
Becker, P. (1982). Psychologie der seelischen Gesundheit. Göttingen: Hogrefe.
Becker, P. (1987). Interaktions-Angstfragebogen IAF (2. Aufl., 1. Aufl. 1982). Weinheim: Beltz.
Becker, P. (1988). Ein Strukturmodell der emotionalen Befindlichkeit. Psychologische Beiträge, 30,
514-536.
Becker, P. (1996). Der Gießen-Test (GT) und ein Sechs-Faktoren-Modell der Persönlichkeit. Trierer
Psychologische Berichte, 23, Heft 3.
Becker, P. (1999). Beyond the Big Five. Personality and Individual Differences, 26, 511-530.
Becker, P. (2003). Trierer Integriertes Persönlichkeitsinventar TIPI. Göttingen: Hogrefe
Becker, P., Bös, K. & Woll, A. (1994). Ein Anforderungs-Ressourcen-Modell der körperlichen Gesundheit: Pfadanalytische Überprüfungen mit latenten Variablen. Zeitschrift für Gesundheitspsychologie, 2, 25-48.
Becker, P. & Hänsgen, K. D. (1994). Persönlichkeitsvergleich von Ost- und Westdeutschen in Indikatoren der seelischen Gesundheit und der Verhaltenskontrolle. Report Psychologie, 19, 2841.
Becker, P., Krieger, W., Kamm, U. & Schoerer, S. (1989). Alltagskorrelate und -verläufe der emotionalen Befindlichkeit: Literaturüberblick sowie zeitreihenanalytische Studien an fünf Paaren
über 100 Zeitpunkte. Trierer Psychologische Berichte, 16, Heft 3.
Becker, P., Schaller, S. & Schmidtke, A. (1978). Coloured Progressive Matrices CPM. (Deutsche
Version). Weinheim: Beltz.
Literaturverzeichnis
569
570
Literaturverzeichnis
Beckmann, D., Brähler, E. & Richter, H.-E. (1990). Der Gießen-Test (4. Aufl.). Bern: Huber.
Beckmann, D., Brähler, E. & Richter, H.-E. (1991). Der Gießen-Test GT. Ein Test für die Individual- und
Gruppendiagnostik. Handbuch (4. Aufl., 1. Aufl. 1972). Bern: Huber.
Bellak, L. & Bellak S. S. (1965). Children’s apperception test. (Human figures). New York: CPS.
Belschner, F. (1970). Der Foto-Handtest (FHT). Über die Entwicklung eines projektiven Verfahrens
zur Erfassung aggressiven Verhaltens. Diagnostica, 16, 123-138.
Belschner, F., Lischke, G. & Selg, H. (1971). Foto-Hand-Test (FHT) zur Erfassung der Aggressivität.
München: Alber.
Bem, D. J. & Allen, A. (1974). On predicting some of the people some of the time: The search for
cross-situational consistencies in behavior. Psychological Review, 81, 506-520.
Bem, D. J. & Funder, D. C. (1978). Predicting more of the people more of the time: Assessing the
personality of situations. Psychological Review, 85, 485-501.
Bene, E. & Anthony, J. (1957). Family Relations Test. London: National Foundation for Educational
Research.
Benjamin, L. S. (1974). Structural Analysis of Social Behavior. Psychological Review, 81, 392-425.
Benton-Sivan, A. B. & Spreen, O. (1996). Der Benton Test (7., vollst. überarb. Aufl.). Göttingen:
Hogrefe.
Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. In C. W. Harris (Ed.),
Problems in measuring change (pp. 3-20). Madison: University of Wisconsin Press.
Bergeman, N. & Johann, G. K. (1993). Berger-Skala zur Erfassung der Selbstakzeptanz. Göttingen:
Hogrefe.
Biermann-Ratjen, E. M., Eckert, J. & Schwartz, H. J. (2003). Gesprächspsychotherapie. Verändern
durch Verstehen (9. Aufl.). Stuttgart: Kohlhammer.
Binet, A. & Simon, Th. (1905). Methodes nouvelles pour le diagnostique du niveau intellectuel des
arnomaux. Année Psychologique, 11, 191-244.
Binz, U. & Wendt, G. (1986). Kurz-Skala Stimmung/Aktivierung KUSTA. Weinheim: Beltz.
Birbaumer, N. & Schmidt, R. F. (1966). Biologische Psychologie (3. Aufl.). Berlin, Heidelberg, New
York: Springer.
Birnbaum, A. (1968). Some latent trait models. In F. M. Lord & M. R. Novick (Eds.), Statistical theories
of mental test scores (pp. 395-479). Reading, MA: Addison-Wesley.
Bless, G. (1986). Der soziometrische Status des integrierten Hilfsschülers. Untersuchung in Regelklassen mit heilpädagogischer Schülerhilfe. Vierteljahresschrift für Heilpädagogik und ihre
Nachbargebiete, 55, 49-58.
Block, J. (1961). The Q-Sort method in personality assessment and psychiatric research. Springfield: C. C. Thomas.
Bloom, B. S. (1976). Human characteristics and school learning. New York: McGraw.
Blum, F., Hengsen, A. & Trost, G. (1982). Studienfeldbezogener Beratungstest Naturwissenschaften
(SFT-NW). Bonn: Institut für Test- und Begabungsforschung.
Blum, F. & Trost, G. (1982). Studienfeldbezogener Beratungstest Ingenieurwissenschaften (SFT-IW).
Bonn: Institut für Test- und Begabungsforschung.
Blum, G. S. (1950). Blacky pictures. New York: Psychological Corporation.
Bolm, W. (1994). Goal Attainment Scaling: Gütemaß und praktische Erfahrungen bei 397 psychiatrischen Behandlungsverläufen. Zeitschrift für Klinische Psychologie, Psychopathologie und
Psychotherapie, 42, 128-138.
Bölte, S., Adam-Schwebe, S., Englert, E., Schmeck, K. & Poustka, F. (2000). Zur Praxis der psychologischen Testdiagnostik in der deutschen Kinder- und Jugendpsychiatrie: Ergebnisse einer
Umfrage. Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie, 28, 151-161.
Bommert, H. (1987). Grundlagen der Gesprächspsychotherapie (4. Aufl.). Stuttgart: Kohlhammer.
Bommert, H. & Hockel, M. (Hrsg.). (1982). Therapieorientierte Diagnostik. Stuttgart: Kohlhammer.
Borkenau, P. (1986). Untersuchungen zur internen Konsistenz und externen Validität der deutschsprachigen Form des 16 PF-Tests von Schneewind, Schröder & Cattell. Diagnostica, 32, 100110.
Borkenau, P. & Amelang, M. (1983). Vorhersagen für einige Personen in einigen Dimensionen.
Oder: Individuelle Angemessenheit von Eigenschaftskonstrukten und Differentielle Validität.
In G. Lüer (Hrsg.), Bericht über den 33. Kongreß der Deutschen Gesellschaft für Psychologie in
Mainz 1982, Bd. 1 (S. 468-472). Göttingen: Hogrefe.
Borkenau, P. & Amelang, M. (1985). Individuelle Angemessenheit von Eigenschaftskonstrukten als
Moderatorvariable für die Übereinstimmung zwischen Selbst- und Bekannten-Ratings.
Diagnostica, 31, 105-118.
Borkenau, P. & Amelang, M. (1986). Zur faktorenanalytischen Kontrolle sozialer Erwünschtheitstendenzen. Eine Untersuchung anhand des Freiburger-Persönlichkeits-Inventars. Zeitschrift
für Differentielle und Diagnostische Psychologie, 7, 17-28.
Borkenau, P. & Ostendorf, F. (1993). NEO-Fünf-Faktoren Inventar (NEO-FFI) nach Costa & McCrae.
Göttingen: Hogrefe.
Borkowski, J. G., Weyhing, R. S. & Carr, M. (1988). Effects of attributional retraining on strategybased reading comprehension in learning disabled students. Journal of Educational Psychology, 80, 46-53.
Bös, K. (Hrsg.). (2001). Handbuch Motorische Tests: Sportmotorische Tests, Fragebogen zur körperlich-sportlichen Aktivität und sportpsychologische Diagnoseverfahren (2., vollständig
überarbeitete und erweiterte Auflage). Göttingen: Hogrefe.
Bös, K. & Mechling, H. (1985). Der Bilder-Angst-Test für Bewegungssituationen. Göttingen:
Hogrefe.
Boudreau, J. W. (1991). Utility Analysis for decisions in human resource management. In N. I. Dunnette & L. N. Lough (Eds.), Handbook of industrial and organisational psychology (Vol 2,
pp. 621-745). Palo Alto, CA: Consulting Psychologists Press.
Braband, H. & Kleber, E. W. (1983). Sonderpädagogische Interventionen in der Grundschule als
integriertes Analyse-Interventions- und Beratungssystem. In R. Kornmann, H. Meister & J.
Schlee (Hrsg.), Förderungsdiagnostik (S. 160-170; 2. Aufl. 1986). Heidelberg: Schindele.
Brackmann, A. (2000). Zur Konvergenz verbaler und nonverbaler Erfassungstechniken von Persönlichkeitsmerkmalen. Unveröffentlichte Diplomarbeit am Psychologischen Institut, Universität
Heidelberg.
Brähler, E. & Beckmann D. (1981). Stabilität der Gießen-Test-Skalen. Diagnostica, 27, 110-126.
Brähler, E. & Beckmann D. (1984). Die Erfassung von Partnerbeurteilungen mit dem Gießen Test.
Diagnostica, 30, 184-197.
Brähler, E. & Brähler, Ch. (1993). Paardiagnostik mit dem Gießen-Test. Bern: Huber.
Brähler, E., Holling, H., Leutner, D. & Petermann, F. (Hrsg.). (2002). Brickenkamp Handbuch psychologischer und pädagogischer Tests (3., vollständig überarbeitete und erweiterte Aufl.). Göttingen: Hogrefe.
Brandstätter, H. (1970). Leistungsprognose und Erfolgskontrolle. Bern: Huber.
Brandstätter, H. (1978). Organisationsdiagnose. In A. Mayer (Hrsg.), Organisationspsychologie (S. 4371). Stuttgart: Poeschel.
Brandstätter, V. (2005). Der objektive Leistungsmotivations-Test OLMT von L. Schmidt-Atzert.
Rezension. Zeitschrift für Personalpsychologie, 4, 132-137.
Bray, D. W. Campbell, R. J. & Grant, D. L. (1974). Formative years in business: A longterm AT and T
study of managerial lives. New York: Wiley.
Brengelmann, J. C. & Brengelmann, L. (1960). Deutsche Validierung von Fragebogen der Extraversion, neurotischen Tendenz und Rigidität. Zeitschrift für Experimentelle und Angewandte
Psychologie, 7, 291-331.
Brickenkamp, R. (1986). Handbuch apparativer Verfahren in der Psychologie. Göttingen:
Hogrefe.
Brickenkamp, R. (1994). Test d2 (8. Aufl., 1. Aufl. 1962). Göttingen: Hogrefe.
Brickenkamp, R. (2002). Test d2: Aufmerksamkeits-Belastungs-Test (9., überarbeitete und neu
normierte Aufl.). Göttingen: Hogrefe.
Brickenkamp, R., Merten T. & Hänsgen, K.-D. (1997). d2-C Computersystem Hogrefe Testsystem.
Göttingen: Hogrefe.
Brickenkamp, R. & Zillmer, E. (1998). The d2 Test of Attention. Seattle: Hogrefe and Huber Publishers.
Brocke, B., Beauducel, A. & Tasche, K. (1995). Der Intelligenz-Struktur-Test: Analysen zur theoretischen Grundlage und technischen Güte. Technische Universität Dresden: Forschungsberichte, 2.
Brodbeck, F., Anderson, N. & West M. (2000). Teamklima-Inventar TKI. Göttingen: Hogrefe.
Brody, N. (1988). Personality. In search of individuality. San Diego: Academic Press.
Brogden, H. E. (1949). When testing pays off. Personnel Psychology, 2, 171-185.
Literaturverzeichnis
571
572
Literaturverzeichnis
Bronisch, T., Hiller, W., Zaudig, M. & Mombour, W. (1995). IDCL-P Internationale Diagnose Checklisten für Persönlichkeitsstörungen nach ICD-10 und DMS-IV. Bern: Huber.
Brophy, J. E. & Good, T. L. (1986). Teacher behavior and student achievement. In M. C. Wittrock (Ed.),
Handbook of research on teaching (3rd ed., pp. 328-375). New York: Macmillan.
Broughton, R. (1984). A prototype strategy for construction of personality scales. Journal of
Personality and Social Psychology, 47, 1334-1346.
Bryan, T. & Lee, J. (1990). Training social skills with learning disabled children and adolescents:
The state of the art. In T. E. Scruggs & B. Y. L. Wong (Eds.), Intervention research in learning disabilities. Berlin, Heidelberg, New York: Springer.
Bühler, C. & Hetzer, H. (1932). Kleinkindertests. Leipzig: Barth.
Bühner, M. & Schmidt-Atzert, L. (2004). Überprüfung der Äquivalenz einer Test d2-Version für
ältere Probanden. Zeitschrift für Neuropsychologie, 15, 7-13.
Bühner, M., Schmidt-Atzert, L., Grieshaber, E. & Lux, A. (2001). Faktorenstruktur verschiedener
neuropsychologischer Tests. Zeitschrift für Neuropsychologie, 12, 181-187.
Bungard, W. (1987). Zur Problematik von Reaktivitätseffekten bei der Durchführung eines Assessment Centers. In H. Schuler & W. Stehle (Hrsg.), Assessment Center als Methode der Personalentwicklung (S. 99-125). Stuttgart: Verlag für Angewandte Psychologie.
Bungard, W. & Antoni, C. H. (1993). Gruppenorientierte Interventionstechniken. In H. Schuler
(Hrsg.), Lehrbuch der Organisationspsychologie (S. 377-404). Bern: Huber.
Burisch, M. (1984). Approaches to personality inventory construction. A comparison of merits.
American Psychologist, 39, 214-227.
Buse, L. (1975). Dimensionen und Komponenten des Interesses. Unveröffentlichte Dissertation,
Universität Hamburg.
Buss, D. M. & Craik, K. H. (1980). The frequency concept of dispostion: Dominance and prototypically dominant acts. Journal of Personality, 48, 379-392.
Buss, D. M. & Craik, K. H. (1984). Acts, dispositions, and personality. In B. A. Maher & W. B. Maher
(Eds.), Progress in experimental personality research (Vol. 13, pp. 241-301). New York:
Academic Press.
Büssing, A. (1993). Organisationsdiagnose. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 445-479). Bern: Huber.
Campbell, G. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the multitraitmultimethod matrix. Psychological Bulletin, 56, 81-105.
Cantor, N. & Mischel, W. (1979). Prototypes in person perception. In L. Berkowitz (Ed.), Advances in
experimental social psychology (Vol. 12, pp. 3-52). New York: Academic Press.
Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. New York:
Cambridge University Press.
Caspar, F. (1986). Die Plananalyse als Konzept und Methode. Verhaltensmodifikation, 7, 235-256.
Caspar, F. (Hrsg.). (1996). Psychotherapeutische Problemanalyse. Tübingen: DGVT-Verlag.
Catron, D. W. (1978). Immediate test-retest changes in WAIS scores among college males. Psychological Reports, 43, 279-290.
Cattell, R. B. (1966). The data box: Its ordering of total resources in terms of possible relational
systems. In R. B. Cattell (Ed.), Handbook of multivariate experimental psychology (pp. 67-128).
Chicago: Rand McNally.
Cattell, R. B. (1972). The 16PF and basic personality structures: A reply to Eysenck! Journal of
Behavioral Science, 17, 169-187.
Cattell, R. B. & Warburton, F. W. (1967). Objective personality and motivation tests. Urbana: University of Illinois Press.
Chaiken, A. L., Derlerga, V. J. & Miller, S. J. (1976). Effects of room environment on self-disclosure in
a counceling analogue. Journal of Counseling Psychology, 23, 479-481.
Chamberlin, R. W. (1969). A study of an interview method for identifying family authority patterns.
Genetic Psychology Monograph, 80, 129-148.
Chambless, D. L. (1993). Task force on promotion and dissemination of psychological procedures.
Report of Division 12. Washington: American Psychological Association.
Chambless, D. L. & Hollon, S. D. (1998). Defining empirically supported therapies. Journal of Consulting and Clinical Psychology, 66, 7-18.
Christensen, L. & Mendoza, J. L. (1986). A method of assessing change in a single subject: An
alteration of the RC Index. Behavior Therapy, 17, 305-308.
Cierpka, M. (Hrsg.). (1987). Familiendiagnostik. Berlin, Heidelberg, New York: Springer.
Cierpka, M. (Hrsg.). (1996). Handbuch der Familiendiagnostik. Berlin, Heidelberg, New York, Tokio:
Springer.
Cleary, T. A. (1968). Testbias: Prediction of grades of negro and white students in integrated
colleges. Journal of Educational Measurement, 5, 115-124.
Clement, U. & Löwe, B. (1996). Fragebogen zum Körperbild. Göttingen: Hogrefe.
Cole, N. S. (1973). Bias in selection. Journal of Educational Measurement, 10, 237-255.
Colvin, C. R. & Funder, D. C. (1991). Predicting personality and behavior: A boundary on the
acquaintanceship effect. Journal of Personality and Social Psychology, 60, 884-894.
Comer, R. J. (2001). Klinische Psychologie (2. Aufl.). Heidelberg: Spektrum Akademischer Verlag.
Conger, A. J. (1974). A revised definition for suppressor variables. Educational and Psychological
Measurement, 34, 35-46.
Conger, A. J. & Jackson, D. N. (1972). Suppressor variables, prediction, and the interpretation of
psychological relationships. Educational and Psychological Measurement, 32, 579-599.
Conrad, W., Baumann, E. & Mohr, V. (1980). Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens MTP. Göttingen: Hogrefe.
Conrad, W., Büscher, P., Hornke, L., Jäger, R., Schweizer, H., Stünzner, W. v. & Wiencke, W. (1986).
Mannheimer Intelligenztest MIT (2. Aufl., 1. Aufl. 1971). Weinheim: Beltz.
Constantinople, A. (1970). Some correlates of average level of happiness among college students.
Developmental Psychology, 2, 447.
Costa, P. T. & McCrae, R. R. (1989). NEO PI/FFI manual supplement. Odessa, FL: Psychological
Assessment Resources.
Costa, P. T. & McCrae, R. R. (1992). Revised NEO Personality Inventory (NEO PI-R) and NEO Five
Factor Inventory. Professional manual. Odessa, FL: Psychological Assessment Resources.
Cranach, M. v. (1983). Present State Examination PSE (2. Aufl., 1. Aufl. 1978). Weinheim: Beltz.
Cranach, M. v., Kalbermatten, U., Indermühle, K. & Gugler, B. (1980). Zielgerichtetes Handeln. Bern:
Huber.
Crick, N. R. & Dodge, K. A. (1994). A review and reformulation of social information-processing
mechanisms in children’s social adjustment. Psychological Bulletin, 115, 74-101.
Cronbach, L. J. & Gleser, G. C. (1965). Psychological tests and personnel decisions (2. Aufl., 1. Aufl.
1957). Urbana, JL: University of Illinois Press.
Curran, J. P. & Cattell, R. B. (1970). Eight State Questionnaire. Champaign, JL: Institute for Personality and Ability Testing.
Dahl, G. (1971). Zur Berechnung des Schwierigkeitsindex bei quantitativ abgestufter Aufgabenbewertung. Diagnostica, 17, 139-142.
Dahle, K-P. (1997). Kriminalprognosen im Strafrecht: Psychologische Aspekte individueller Verhaltensvorhersagen. In M. Steller & R. Volbert (Hrsg.), Psychologie im Strafverfahren: Ein Handbuch
(S. 119-140). Bern: Huber.
Dahle, K. P. (2000). Psychologische Begutachtung zur Kriminalprognose. In H.-L. Kröber & M. Steller
(Hrsg.), Psychologische Begutachtung im Strafvervahren: Indikationen, Methoden und Qualitätsstandards (S. 77-111). Darmstadt: Steinkopff.
Dahme, G., Bleich, C., Jungnickel, D. & Rathje, H. (1992). Ermutigende Befunde zur Reliabilität und
enttäuschende Ergebnisse zur Konstruktvalidität des HAKEMP: Daten aus einer Felduntersuchung. Zeitschrift für Differentielle und Diagnostische Psychologie, 13, 139-160.
Dahmer, J. (1973). Anamnese und Befund. Stuttgart: Thieme.
Daniels, J. C. (1967). Figure Reasoning Test. London: Crosby Lockwood.
Darlington, R. B. (1968). Multiple regression in psychological research and practice. Psychological
Bulletin, 69, 161-182.
Davier, M. v. & Rost, J. (o. J.). WINMIRA. Windows 3.x – Programmsystem zur Analyse von RaschModell, Mixed Rasch-Modell und Latent Class Analyse. Kiel: Institut für Pädagogik der
Naturwissenschaften.
Davison, G. C. & Neale, J. M. (2002). Klinische Psychologie (6. Aufl.). Weinheim: Psychologie Verlags
Union.
Deidesheimer Kreis (1997). Hochschulzulassung und Studieneignungstests. Göttingen, Zürich:
Vandenhoeck & Ruprecht
De Jong-Gierveld, J. & Kamphuis, F. (1985). The development of a Rasch-type loneliness scale.
Applied Psychological Measurement, 9, 3, 289-299.
Literaturverzeichnis
573
574
Literaturverzeichnis
Deneke, F.-W. & Hilgenstock, B. (1989). Das Narzißmusinventar. Göttingen: Hogrefe.
Deusinger, I. M. (1986). Frankfurter Selbstkonzeptskalen FSKN. Göttingen: Hogrefe.
Dieterich, R. (1973). Psychodiagnostik. Grundlagen und Probleme. München: Reinhardt.
Dilling, H. & Freyberger, H. J. (Hrsg.). (2001). Taschenführer zur ICD-10-Klassifikation psychischer
Störungen der Weltgesundheitsorganisation (2. Aufl.). Bern: Huber.
Dilling, H., Mombour, W. & Schmidt, M.H. (1993). Internationale Klassifikation psychischer Störungen, ICD-10 Kapitel V (2. Aufl.). Bern: Huber.
Dilling, H., Mombour, W., Schmidt, M.H. & Schulte-Markwort, E. (1994). Internationale Klassifikation
psychischer Störungen, ICD-10 Kapitel V; Forschungskriterien. Bern: Huber.
DiNardo, P. A. (1975). Social class and diagnostic suggestion as variables in clinical judgement.
Journal of Consulting and Clinical Psychology, 43, 363-368.
Dreesmann, H. (1979). Zusammenhänge zwischen Unterrichtsklima, kognitiven Prozessen bei
Schülern und deren Leistungsverhalten. Zeitschrift für Empirische Pädagogik, 3, 121-133.
Dudek, F. J. (1979). The continuing misinterpretation of the standard error of measurement.
Psychological Bulletin, 86, 335-337.
Duhm, E. & Hansen, J. (1957). Der Rosenzweig P-F-Test, Form für Kinder. Göttingen: Hogrefe.
Düker, H. & Lienert, G. A. (1965). Konzentrations-Leistungs-Test KLT. Göttingen: Hogrefe.
Düker, H., Lienert, G. A., Lukesch, H. & Mayrhofer, S. (2001). KLT-R. Konzentrations-Leistungs-Test
(revidierte Fassung). Göttingen: Hogrefe.
Ebel, O. & Lienert, G. A. (1960). Ein Index zur numerischen Bestimmung der Niveau-Eigenschaften
eines psychologischen Tests. Metrica. Zeitschrift für theoretische und angewandte Statistik,
3, 117-123.
Eckardt, H. H. & Schuler, H. (1992). Berufseignungsdiagnostik. In R. S. Jäger & F. Petermann (Hrsg.),
Psychologische Diagnostik (2. Aufl., S. 533-551). Weinheim: Psychologie Verlags Union.
Eggert, D. (1974). Lincoln-Oseretzky-Skala. KF. 18 (2. Aufl., 1. Aufl. 1971). Weinheim: Beltz.
Eggert, D. (1976). Hannover-Wechsler-Intelligenztest für das Vorschulalter HAWIVA. Bern: Huber.
Ehlers, A. (1999). Posttraumatische Belastungsstörung. Göttingen: Hogrefe.
Ehlers, A. (2000). Psychologische Grundlagen der Verhaltenstherapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (S. 69-87). Heidelberg: Springer.
Ehlers, A., Margraf, J. & Chambless, D. (2001). Fragebogen zu körperbezogenen Ängsten, Kognitionen und Vermeidung AKV (2. Aufl.). Weinheim: Beltz.
Ellis, A. & Grieger, R. (1995). Praxis der rational-emotiven Therapie (2. Aufl., 1. Aufl. 1979). Weinheim:
Psychologie Verlags Union.
Emmelkamp, P.M.G. & van Oppen, P. (2000). Zwangsstörungen. Göttingen: Hogrefe.
Endler, N. S., Hunt, J. McV. & Rosenstein, A. J. (1962). An S-R-inventory of anxiousness. Psychological
Monographs, 76, No. 17.
Epstein, S. (1979). The stability of behavior: I. On predicting most of the people much of the time.
Journal of Personality and Social Psychology, 37, 1097-1126.
Erzigkeit, H. (1993). Kurztest zur Erfassung von Gedächtnis- und Aufmerksamkeitsstörungen SKT
(5., neubearb. Aufl.). Weinheim: Beltz.
Exner, J. E. Jr. (2003). The Rorschach: A comprehensive system (4th ed.). New York: Wiley.
Eysenck, H. J. (1953). The structure of human personality. London: Methuen.
Eysenck, H. J. (1957). The dynamics of anxiety and hysteria. London: Routledge.
Eysenck, H. J. (1967). The biological basis of personality. Springfield, IL: Ch. Thomas.
Eysenck, H. J. (1970). EPI Eysenck Personality Inventory. London: University of London Press.
Fahrenberg, J. (1964). Objektive Tests. In R. Heiss (Hrsg.), Handbuch der Psychologie in 12 Bänden,
Bd. 6: Psychologische Diagnostik (S. 488-532). Göttingen: Hogrefe.
Fahrenberg, J. (1987). Multimodale Diagnostik - eine Einleitung. Diagnostica, 33, 185-187.
Fahrenberg, J. (1994). Freiburger Beschwerden-Liste. Göttingen: Hogrefe.
Fahrenberg, J., Hampel, R. & Selg, H. (2001). Das Freiburger Persönlichkeitsinventar: FPI; Revidierte
Fassung FPI-R und teilweise geänderte Fassung FPI-A1 (7. Aufl., 1. Aufl. 1970). Göttingen:
Hogrefe.
Fahrenberg, J. & Selg, H. (1970). Das Freiburger Persönlichkeitsinventar FPI. Göttingen: Hogrefe.
Faßnacht, G. (1979). Systematische Verhaltensbeobachtung (1. Aufl., 2. verb. Aufl. 1994). München:
Reinhardt.
Fay, E. (1992). Über die Übbarkeit der Leistung in einem Durchstreichverfahren zur Messung der
Konzentrationsfähigkeit. Diagnostica, 38, 301-311.
Fay, E. (2003). Bochumer Matrizentest (BOMAT – advanced – short version). In E. Fay (Hrsg.), Tests
unter der Lupe 4: Aktuelle psychologische Testverfahren – kritisch betrachtet (S. 24-35).
Göttingen: Vandenhoeck & Ruprecht.
Fay, E., Mausfeld, R., Niederée, R., Stumpf, H. & Trost, G. (1982). Studienfeldbezogener Beratungstest Mathematik (SFT-MATH). Bonn: Institut für Test- und Begabungsforschung.
Fay, E. & Stumpf, H. (1995). Leistungsdaten. In R. S. Jäger (Hrsg.), Psychologische Diagnostik
(S. 380-396). München, Weinheim: Psychologie Verlags Union.
Fels, M. & Geissner, E. (1997). Neglect-Test (NET) (2., korrigierte Aufl.). Göttingen: Hogrefe.
Feuerlein, W., Küfner, H., Ringer, Ch. & Antons, K. (1989). Kurzfragebogen für Alkoholgefährdete
KFA. Weinheim: Beltz.
Feuerlein, W., Ringer, Ch., Küfner, H. & Antons, K. (1979). Münchner Alkoholismus-Test MALT. Weinheim: Beltz.
Fiedler, P. (2001). Persönlichkeitsstörungen (5. Aufl.). Weinheim: Psychologie Verlags Union.
Fiedler, P., Stieglitz, R. D., Baumann, U. & Freiberger, H. J. (Hrsg.). (2001). Interaktionsdiagnostik bei
Paaren und Familien. Psychodiagnostik in Klinischer Psychologie, Psychiatrie und Psychotherapie. Stuttgart: Thieme.
Fiegenbaum, W. & Tuschen, B. (2000). Reizkonfrontation. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 413-426). Heidelberg: Springer.
Fieguth, G. (1977). Die Entwicklung eines kategoriellen Beobachtungsschemas. In U. Mees & H.
Selg (Hrsg.), Verhaltensbeobachtung und Verhaltensmodifikation (S. 33-42). Stuttgart: Klett.
Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber.
Fischer, G. H. (1978). Probabilistic test models and their application. The German Journal of
Psychology 2, 298-319.
Fischer, G. H. (1983). Neuere Testtheorie. In J. Bredenkamp & H. Feger (Hrsg.), Messen und Testen
(S. 604-692). Göttingen: Hogrefe.
Fischer, G. H. (1988). Spezifische Objektivität. Eine wissenschaftstheoretische Grundlage des
Rasch-Modells. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 87-111). Weinheim: Psychologie Verlags Union.
Fischer, G. H. (1995a). Linear logistic models for change. In G. H. Fischer & I. W. Molenaar (Eds.),
Rasch models: Foundations, recent developments, and applications (pp. 157-180). New York:
Springer.
Fischer, G. H. (1995b). The linear logistic test model. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch
models: Foundations, recent developments, and applications (pp. 131-155). New York:
Springer.
Fischer, G. H. (1996). IRT-Modelle als Forschungsinstrumente der Differentiellen Psychologie.
In K. Pawlik (Hrsg.), Grundlagen und Methoden der Differentiellen Psychologie (S. 673-729).
Göttingen: Hogrefe.
Fischer, G. H. & Molenaar, I. W. (Eds.). (1995). Rasch models: Foundations, recent developments,
and applications. New York: Springer.
Fischer, G. H. & Parzer, P. (1991). An extension of the rating scale model with an application to the
measurement of treatment effects. Psychometrika, 56, 637-651.
Fischer, G. H. & Ponocny, I. (1995). Extended rating scale and partial credit models for assessing
change. In G. H. Fischer & I. W. Molenaar (Eds.). Rasch models: Foundations, recent developments, and applications (pp. 353-370). New York: Springer.
Fischer, G. H. & Spada, H. (1973). Die psychometrischen Grundlagen des Rorschachtests und der
Holtzman Inkblot Technique. Bern: Huber.
Fishbein, M. & Ajzen, I. (1974). Attitudes towards objects as predictors of single and multiple
behavioral criteria. Psychological Review, 81, 59-74.
Fiske, D. W. & Butler, J. M. (1963). The experimental conditions for measuring individual differences. Educational and Psychological Measurement, 23, 249-266.
Fisseni, H. J. (1982). Persönlichkeitsbeurteilung. Zur Theorie und Praxis des Psychologischen Gutachtens. Göttingen: Hogrefe.
Fisseni, H. J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen: Hogrefe.
Flanagan, J. (1954). The critical incident technique. Psychological Bulletin, 51, 327-358.
Fleischmann, U. M. (2000). Gerontoneuropsychologie - Diagnostik, Therapie und Intervention. In
W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie:
Grundlagen, Methoden, Diagnostik, Therapie (S. 663-673). Lisse, NL: Swets & Zeitlinger.
Literaturverzeichnis
575
576
Literaturverzeichnis
Fleishman, E. A. & Hempel, W. P. (1955). The relation between abilities and improvement with
practice in a visual discrimination reaction task. Journal of Experimental Psychology, 49, 301312.
Fliegel, S. (1996). Rollenspiele. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 353359). Berlin, Heidelberg, New York: Springer.
Fliegel, S., Groeger, W., Künzel, R., Schulte, D. & Sorgatz, H. (1998). Verhaltenstherapeutische Standardmethoden: Ein Übungsbuch (3. Aufl.). Weinheim: Psychologie Verlags Union.
Flor, H., Behle, D. J. & Hermann, C. (1992). Psychophysiologische Methoden bei der Diagnose
chronischer Schmerzen. In E. Geissner & G. Jungnitsch (Hrsg.), Psychologie des Schmerzes
(S. 171-187). Weinheim: Psychologie Verlags Union.
Florin, I. (1989). Verhaltensmedizin. Bedeutung eines interdisziplinären Ansatzes für die Erforschung und Therapie körperlicher Krankheiten. In I. Florin, G. Haag, U. Brack & E. M. Fahrner
(Hrsg.), Perspektive Verhaltensmedizin (S. 1-9). Berlin: Springer.
Föderation Deutscher Psychologenvereinigungen (1988). Richtlinien für die Erstellung Psychologischer Gutachten. Bonn: Deutscher Psychologenverlag.
Formann, A. K. (1984). Die Latent-Class-Analyse. Weinheim: Beltz.
Formann, A. K. (1993). Some simple latent class models for attitudinal scaling in the presence of
polytomous items. Methodika, 7, 62-78.
Formann, A. K. & Piswanger, K. (Hrsg.). (1979). Wiener Matrizen-Test WMT. Ein Rasch-skalierter
sprachfreier Intelligenztest. Weinheim: Beltz.
Frank, L. K. (1948). Projective methods. Springfield, IL: C. C. Thomas.
Franke A. (1991). Gruppentraining gegen psychosomatische Störungen (2. Aufl.). Weinheim:
Psychologie Verlags Union.
Franke, G. H. (2000). Brief Symptom Inventory von Derogatis (BSI). Göttingen: Hogrefe.
Franke G. H. (2002). SCL-90-R. Die Symptom-Checkliste von Derogatis – Deutsche Version.
Göttingen: Beltz-Test.
Frankenburg, W. K. & Dodds, J. B. (1967). The Denver developmental screening test. Journal of
Pediatrics, 7, 181-191.
Frederiksen, N. & Melville, S. D. (1954). Differential predictability in the use of test scores. Educational and Psychological Measurement, 14, 647-656.
Freud, S. (1952). Gesammelte Werke, 18 Bände. Frankfurt: Fischer.
Fricke, R. (1972). Testgütekriterien bei lehrzielorientierten Tests. Zeitschrift für erziehungswissenschaftliche Forschung, 6, 150-175.
Fricke, R. (1974). Kriterienorientierte Leistungsmessung. Stuttgart: Kohlhammer.
Frieling, E. & Hoyos, C. Graf (1978). Fragebogen zur Arbeitsanalyse (FAA). Deutsche Bearbeitung
des PAQ. Bern: Huber.
Frieling, E. & Sonntag, K. H. (1987). Arbeitspsychologie. Bern: Huber.
Fröse, S., Mölders, R. & Wallrodt, W. (1986). Kieler Einschulungsverfahren KEV. Weinheim: Beltz.
Fruhner, R., Schuler, H., Funke, U. & Moser, K. (1991). Einige Determinanten der Bewertung
von Personalauswahlverfahren. Zeitschrift für Arbeits- und Organisationspsychologie, 35,
170-178.
Funder, D. C., Block, J. H. & Block, J. (1983). Delay of gratification: Some longitudinal personality
correlates. Journal of Personality and Social Psychology, 44, 1198-1213.
Funder, D. C. & Colvin, C. R. (1988). Friends and strangers: Acquaintanceship, agreement, and the
accuracy of personality judgment. Journal of Personality and Social Psychology, 55, 149-158.
Funder, D. C. & Dobroth, K. M. (1987). Differences between traits: Properties associated with interjudge agreement. Journal of Personality and Social Psychology, 52, 409-418.
Funder, D. C. & West, S. G. (1993). Consensus, self-other agreement, and accuracy in personality
judgment: an introduction. Journal of Personality, 61, 457-476.
Funke, W., Funke, J., Klein, M. & Scheller, R. (1987). Trierer Alkoholismus-Inventar TAI. Göttingen:
Hogrefe.
Fydrich, T. (1995). Fragebogen zur sozialen Angst; Deutsche Bearbeitung des Social Phobia and
Anxiety Inventory (SPAI) von Turner und Beidel. Unveröffentlichtes Manuskript. Heidelberg.
Fydrich, T. (1996). Komorbidität psychischer Störungen. Empirische Untersuchungen zu einem
umstrittenen Konzept. Habilitationsschrift, Universität Heidelberg.
Fydrich, T. (2002a). Beck-Inventar zu kognitiven Schemata (B-IKS). In E. Brähler, J. Schumacher &
B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 51-55). Göttingen: Hogrefe.
Fydrich, T. (2002b). SPAI – Soziale Phobie und Angst Inventar. In E. Brähler, J. Schumacher & B. Strauß
(Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 335-338). Göttingen:Hogrefe.
Fydrich, T. (2002c). F-SozU – Fragebogen zur sozialen Unterstützung. In E. Brähler, J. Schumacher &
B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 150-153). Göttingen: Hogrefe.
Fydrich, T. (2003). Soziale Phobie. Psychologisches Störungsmodell und kognitiv-verhaltenstherapeutische Behandlung. Psychotherapie im Dialog, 4 (1), 10-16.
Fydrich, T. & Bürgener, F. (2005). Ratingskalen für soziale Kompetenz. In N. Vriends & J. Margraf
(Hrsg.), Soziale Kompetenz – Soziale Unsicherheit – Soziale Phobie (3. Aufl., S. 81-96). Baltmannsweiler: Schneider-Verlag Hohengehren.
Fydrich, T., Geyer, M., Hessel, A., Sommer, G. & Brähler, E. (1999). Fragebogen zur sozialen Unterstützung (F-SozU): Normierung an einer repräsentativen Stichprobe. Diagnostica, 45, 112-126
Fydrich, T., Laireiter, A. R., Saile, H. & Engberding, M. (1996). Diagnostik und Evaluation in der Psychotherapie. Zeitschrift für Klinische Psychologie, 25, 161-168.
Fydrich, T., Renneberg, B., Schmitz, B. & Wittchen, H.-U. (1997). SKID-P. Strukturiertes Klinisches
Interview für DSM-IV, Achse II (Persönlichkeitsstörungen). Göttingen: Hogrefe.
Fydrich, T., Schmitz, B., Hennch, C. & Bodem, M. (1996). Zuverlässigkeit und Gültigkeit diagnostischer Verfahren zur Erfassung von Persönlichkeitsstörungen. In B. Schmitz, T. Fydrich &
K. Limbacher (Hrsg.), Persönlichkeitsstörungen: Diagnostik und Psychotherapie (S. 91-113).
Weinheim: Psychologie Verlags Union.
Fydrich, T. & Sommer G. (2003). Diagnostik sozialer Unterstützung. In M. Jerusalem & H. Weber
(Hrsg.), Psychologische Gesundheitsförderung (S. 79-104). Göttingen: Hogrefe.
Fydrich, T., Sommer, G. & Brähler, E. (2004). Fragebogen zur sozialen Unterstützung (F-SozU).
Göttingen: Hogrefe.
Fydrich, T., Sommer, G., Menzel, U. & Höll, B. (1987). Fragebogen zur sozialen Unterstützung (Kurzform; SOZU-K-22). Zeitschrift für Klinische Psychologie, 16, 434-436.
Gagné, R. M. (1973). Die Bedingungen menschlichen Lernens. Hannover: Schroedel.
Galton, F. (1869). Natural inheritance. London: Macmillan.
Gardner, H. (2002). Intelligenzen: Die Vielfalt des menschlichen Geistes. Stuttgart: Klett Cotta.
Gatterer, G. (1990). Alterskonzentrationstest AKT. Göttingen: Hogrefe.
Gaul, D. (1990). Rechtsprobleme psychologischer Eignungsdiagnostik. Bonn: Deutscher Psychologen Verlag.
Gebert, D. (1993). Interventionen in Organisationen. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 481-494). Bern: Huber.
Gebert, D. & v. Rosenstiel, L. (1989). Organisationspsychologie (2. Aufl.). Stuttgart: Kohlhammer.
Gerhard, U. (1981). Zur Diagnose und Bedeutung von Zwangsphänomenen. Weinheim: Beltz.
Ghiselli, E. E. (1963). Moderating effects and differential reliability and validity. Journal of Applied
Psychology, 47, 81-86.
Gierschmann, F. (2003). Raven´s Progressive Matrices (PPM). In E. Fay (Hrsg.), Tests unter Lupe 4:
Aktuelle psychologische Testverfahren - kritisch betrachtet (S. 105-123). Göttingen: Vandenhoeck & Ruprecht.
Giesen, H., Gold, A., Hummer, A. & Jansen, R. (1986). Prognose des Studienerfolgs. Ergebnisse aus
Längsschnittuntersuchungen. Frankfurt am Main: Unveröffentlichter Projektbericht.
Gittler, G. (1990). Dreidimensionaler Würfeltest (3DW). Ein Rasch-skalierter Test zur Messung des
räumlichen Vorstellungsvermögens. Weinheim: Beltz.
Gittler, G. & Wild, B. (1988). Der Einsatz des LLTM bei der Konstruktion eines Itempools für das
adaptive Testen. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 115-139). Weinheim: Psychologie Verlags Union.
Glanzmann, P. (1985). Zusammenhänge zwischen Angstneigung und Zustandsangst in unterschiedlichen Stress-Situationen. Zeitschrift für Differentielle und Diagnostische Psychologie,
6, 161-173.
Glas, C. A. W. & Verhelst, N. D. (1989). Extensions of the partial credit model. Psychometrika, 54,
635-659.
Goldberg, L. R. (1965). Diagnosticians vs. diagnostic signs: The diagnosis of psychosis vs. neurosis
from the MMPI. Psychological Monographs: General and Applied, 79 (9, Whole No. 602).
Goldberg, L. R., Rorer, L. G. & Green, M. M. (1970). The usefulness of »stylistic« scales as potential
suppressors or moderator variables in prediction from the CPI. Research Bulletin, 10. Eugene,
OR: Research Institute.
Literaturverzeichnis
577
578
Literaturverzeichnis
Goldfried, M. R. & Kent, R. N. (1976). Herkömmliche gegenüber verhaltenstheoretischer Persönlichkeitsdiagnostik: Ein Vergleich methodischer und theoretischer Voraussetzungen. In
D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (S. 3-23). München: Urban & Schwarzenberg.
Goodenough, F. L. (1949). Mental testing. New York: Rinehart.
Goodman, L. A. (1974). Exploratory latent structure analysis using both identifiable and unidentifiable models. Biometrika, 61, 215-231.
Gösslbauer, J. P. (1981). Grundprinzipien der Entscheidungstheorie in der Psychologischen
Diagnostik. In E. G. Wehner (Hrsg.), Psychodiagnostik in Theorie und Praxis (S. 214-258). Bern:
Lang.
Gough, H. G. (1969). Manual for the California Psychological Inventory. Palo Alto: Consulting
Psychologists Press.
Gough, H. G. & Heilbrun, A. B. (1980). Adjective Check List manual. Palo Alto, CA: Consulting
Psychologists Press.
Graczyk, W. (1990). Der Wilde-Intelligenz-Test (WIT). Diagnostica, 30, 310-320.
Gräser, H. (1979). Überprüfung der faktoriellen Struktur einer deutschsprachigen Version des
»Eight State Questionnaire« mittels Ketten-P-Technik. Diagnostica, 25, 49-58.
Graumann, C. F. (1960). Eigenschaften als Problem der Persönlichkeitsforschung. In Ph. Lersch &
H. Thomae (Hrsg.), Persönlichkeitsforschung und Persönlichkeitstheorie. Handbuch der
Psychologie (Bd. IV, S. 87-154). Göttingen: Hogrefe.
Grawe, K. (1982). Der Veränderungsprozeßbogen (VPB). In M. Zielke (Hrsg.), Diagnostik in der
Psychotherapie (S. 231-252). Stuttgart: Kohlhammer.
Grawe, K. (1991). Über den Umgang mit Zahlen. In K. Grawe, R. Hänni, N. Semmer & F. Tschan
(Hrsg.), Über die richtige Art, Psychologie zu betreiben (S. 89-105). Hogrefe: Göttingen.
Grawe, K. (1992). Psychotherapieforschung zu Beginn der neunziger Jahre. Psychologische Rundschau, 43, 132-162.
Grawe, K., Caspar, F. & Ambühl, H. (1990). Differentielle Therapieforschung: Vier Therapieformen
im Vergleich. Zeitschrift für Klinische Psychologie, 19, 292-376.
Grawe, K., Donati, R. & Bernauer, F. (1994). Psychotherapie im Wandel. Von der Kofession zur Profession (2. Aufl.). Göttingen: Hogrefe.
Gregory, R. J. (1992). Psychological testing: History, principles, and applications. Boston: Allyn and
Bacon.
Greif, S. (1970). Untersuchungen zur deutschen Übersetzung des 16 PF-Fragebogens. Psychologische Beiträge, 12, 186-213.
Gretenkord, L. (2002). Prognose im Maßregelvollzug (§ 63 StGB) – wie lassen sich die Ergebnisse
von Rückfallstudien nutzen? In T. Fabian, G. Jacobs, S. Nowara & I. Rode (Hrsg.), Qualitätssicherung in der Rechtspsychologie (S. 347-360). Münster: LIT-Verlag.
Griffith, R. M. (1951). The test-retest similarities of the Rorschachs of patients without retention,
Korsakoff. Journal of Projective Techniques, 15, 516-525.
Griffith, R. (1954). The abilities of babies: A study in mental measurement. New York: McGraw-Hill.
Grimm, H. & Schöler, H. (1985). Sprachentwicklungsdiagnostik. Göttingen: Hogrefe.
Grimm, H. & Schöler, H. (1991). Heidelberger Sprachentwicklungstest HSET (2. Aufl., 1. Aufl. 1978).
Braunschweig: Westermann.
Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E. & Nelson, C. (2000). Clinical versus mechanical
prediction: A meta-analysis. Psychological Assessment, 12, 19-30.
Gruhle, H. W. (1948). Verstehende Psychologie. Stuttgart: Thieme.
Guilford, J. P. (1964). Persönlichkeit. Weinheim: Beltz.
Guilford, J. P. (1974). Persönlichkeitspsychologie. Stuttgart: Kohlhammer.
Guilford, J. P. (1976). Apitude for creative thinking: One or many? Journal of Creative Behavior, 10,
165-169.
Gulliksen, H. (1950). Theory of mental tests. New York: Wiley.
Guttmann, G. & Ettlinger, S. C. (1991). Susceptibility to stress and anxiety in relation to performance, emotion, and personality: The ergopsychometric approach. In C. D. Spielberger, I. G.
Sarason, J. Strelau & J. M. T. Brebner (Eds.), Stress and anxiety, Vol. 13 (pp. 23-52). New York:
Hemisphere Publishing Corporation.
Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer (Ed.), The American soldier.
Studies in social psychology in World War II. Princeton: Princeton University Press.
Häcker, H. (1982). Objektive Tests zur Messung der Persönlichkeit. In K. J. Groffmann & L. Michel
(Hrsg.), Enzyklopädie der Psychologie, Serie Diagnostik, Bd. 3: Persönlichkeitspsychologie
(S. 132-185). Göttingen: Hogrefe.
Häcker, H., Leutner, D. & Amelang, M. (Hrsg.). (1998). Standards für pädagogisches und psychologisches Testen. Diagnostica und Zeitschrift für Differentielle und Diagnostische Psychologie,
Supplementum.
Häcker, H., Schmidt, L. R., Schwenkmezger, P. & Utz, H. E. (1975). OATB 75 Objektive Testbatterie
Manual. Weinheim: Beltz.
Häcker, H., Schwenkmezger, P. & Utz, H. E. (1979). Über die Verfälschbarkeit von Persönlichkeitsfragebogen und Objektiven Persönlichkeitstests unter SD-Instruktion und in einer Auslesesituation. Diagnostica, 25, 7-23.
Haertel, G. D., Walberg, H. J. & Weinstein, T. (1983). Psychological models of educational performance: A theoretical synthesis of constructs. Review of Educational Research, 53, 75-91.
Hageböck, J. (1994). Computerunterstützte Diagnostik in der Psychologie – Die Entwicklung eines
computergestützten Diagnosesystems für die Einzelfallhilfe in der Schulpsychologie. Göttingen: Hogrefe.
Hahlweg, K. (1986). Partnerschaftliche Interaktion. München: Röttger.
Hahlweg, K. (1996). Fragebogen zur Partnerschaftsdiagnostik (FDP). Handanweisung. Göttingen:
Hogrefe.
Hahlweg, K., Dürr, H. & Müller, U. (1995). Familienbetreuung schizophrener Patienten. Weinheim:
Psychologie Verlags Union.
Hahlweg, K., Schindler, L. & Revenstorf, D. (1982). Partnerschaftsprobleme: Diagnose und Therapie. Berlin, Heidelberg, New York: Springer.
Hahn, M. G. (1992). Modelle für den Urteilsprozeß: Kritische Betrachtung formaler Urteilsmodelle
am Beispiel klinischer Aufgaben. Frankfurt: Lang.
Hake, A. (2000). Aggregatbezogene statistische Kennwerte bei der Einzelfallanalyse. Heidelberg:
Dissertation in der Fakultät für Sozial- und Verhaltenswissenschaften.
Hambleton, R. K. & Swaminathan, H. (1985). Item response theory. Principles and applications.
Boston: Kluwer-Nijhoff Publishing.
Hamilton, M. (1986). The Hamilton rating scale for depression. In N. Sartorius & T.A. Ban (Eds.),
Assessment of depression (pp. 278-296). Berlin: Springer.
Hampel, R. & Klinkhammer, F. (1978). Verfälschungstendenzen beim Freiburger PersönlichkeitsInventar in einer Bewerbungssituation. Psychologie und Praxis, 22, 58-69.
Hamster, W, Langner, W. & Mayer, K. (1980). Neuropsychologische Testbatterie TÜLUC. Weinheim:
Beltz.
Hanses, P. & Rost, D. H. (1998). Das »Drama« der hochbegabten Underarchiever – »Gewöhliche« oder
»außergewöhnliche« Underarchiever? Zeitschrift für Pädagogische Psychologie, 21, 53-71.
Hany, E. A. (1987). Psychometrische Probleme bei der Identifikation Hochbegabter. Zeitschrift für
Differentielle und Diagnostische Psychologie, 8, 173-191.
Hardesty, F. P. & Priester, H. J. (1956). Hamburg-Wechsler-Intelligenztest für Kinder HAWIK. Bern:
Huber.
Hartje, W. (2004). Neuropsychologische Begutachtung. Göttingen: Hogrefe.
Hartje, W. & Rixecker, H. (1978). Der Recurring-Figures-Test von Kimura. Normierung an einer
deutschen Stichprobe. Nervenarzt, 49, 354-356.
Harris, C. W. (Ed.). (1963). Problems in measuring change. Madison: University of Wisconsin Press.
Härting, C., Markowitsch, H. J., Neufeld, H., Calabrese, P. & Deisinger, K. (2000). Wechsler Gedächtnis Test – Revidierte Fassung (WSM-R). Deutsche Adaptation der revidierten Fassung der
Wechsler-Memory-Scale. Göttingen: Hogrefe.
Hasemann, K. (1983). Verhaltensbeobachtung und Ratingverfahren. In K. J. Groffmann & L. Michel
(Hrsg.), Enzyklopädie der Psychologie, Serie Diagnostik, Bd. 4: Verhaltensdiagnostik (S. 434488). Göttingen: Hogrefe.
Hasenbring, M. (1994). Kieler Schmerz-Inventar. Bern: Huber.
Hathaway, S. R. & McKinley, J. C. (1951). The Minnesota Multiphasic Personality Inventory Manual
revised. New York: The Psychological Corporation.
Hathaway, S. R., McKinley, J. C. & Engel, R. R. (2000). MMP-2. Manual. Bern: Huber.
Häusler, J. & Sommer, M. (2006). Neuronale Netze: Nichtlineare Methoden der statistischen Urteilsbildung in der psychologischen Eignungsdiagnostik. Zeitschrift für Personalpsychologie, 5, 4-15.
Literaturverzeichnis
579
580
Literaturverzeichnis
Hautzinger, M. (1994). Diagnostik in der Psychotherapie. In R.-D. Stieglitz & U. Baumann (Hrsg.),
Psychodiagnostik psychischer Störungen (S. 284-295). Stuttgart: Enke.
Hautzinger, M. (2002). Hamilton Depressions-Skala. In: E. Brähler, J. Schumacher & B. Strauß (Hrsg.),
Diagnostische Verfahren in der Psychotherapie (S. 183-186). Göttingen: Hogrefe.
Hautzinger, M. & Bailer, M. (1993). Allgemeine Depressions-Skala ADS. Weinheim: Beltz.
Hautzinger, M., Bailer, M. & Keller, F. (1995). Beck-Depressions-Inventar BDI (2. Aufl.). Bern: Huber.
Hautzinger, M., Stark, W. & Treiber, R. (1997). Kognitive Verhaltenstherapie bei Depressionen (4.
Aufl.). Weinheim: Psychologie Verlags Union.
Haynes, S. N. & Horn, W. F. (1982). Reactive effects of behavioral observation. Behavioral Assessment, 4, 443-469.
Heckhausen, H. (1963). Hoffnung und Furcht in der Leistungsmotivation. Meisenheim: Hain.
Heckhausen, H. & Rheinberg, F. (1980). Lernmotivation im Unterricht, erneut betrachtet. Unterrichtswissenschaft, 8, 7-47.
Hehl, F. J. & Hehl, R. (1975). Persönlichkeitsskalen System 25, PSS 25. Weinheim: Beltz.
Hehl, F. J. & Wirsching, M. (1983). Psychosomatischer Einstellungs-Fragebogen (PEF). Göttingen:
Hogrefe.
Heil, F. E. (1984). Zur Erfassung von Coorientierungsstrukturen in Partnerschaften. Grundlegung,
Entwicklung und Evaluation des Trierer Partnerschaftsinventars. Trier: Dissertation im Fachbereich Psychologie.
Heil, F. E. (1993). Partnerschaftszufriedenheit: Eine theoretisch fundierte Alternative zu traditionellen Diagnoseverfahren. In L. Montada (Hrsg.), Bericht über den 38. Kongreß der Deutschen
Gesellschaft für Psychologie in Trier 1992 (Bd. 2, S. 580-588). Göttingen: Hogrefe.
Heil, F. E. (1998). Das Trierer Partnerschaftsinventar (TPI). Manual Entwurf. Trier: Fachbereich
Psychologie.
Heilmann, K. (1999). Das Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung
(BIP). In E. Fay (Hrsg.), Tests unter der Lupe II (S. 19-38). Lengerich: Pabst.
Heimberg, R. G, Juster, H. R., Hope, D. A. & Mattia, J. I. (1995). Cognitive behavioral group treatment
for social phobia: Description, case presentation, and empirical support. In M. B. Stein (Ed.),
Social phobia: Clinical and research perspectives (pp. 293-321). Washington: American
Psychiatric Press.
Heinemann, M. & Höpfner, C. (1993). Screeningverfahren zur Erfassung von Sprachentwicklungsverzögerungen SEV. Weinheim: Beltz.
Heller, K. A. (Hrsg.), (1992). Hochbegabung im Kindes- und Jugendalter. Göttingen: Hogrefe.
Heller, K. A. (1997). Grundintelligenztest Skala 2 (CFT 20). Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 53-55.
Heller, K. A, Gaedike, A. K. & Weinläder, H. (1985). Kognitiver Fähigkeits-Test für 4. bis 13. Klassen
KFT 4-13 (2. Aufl., 1. Aufl. 1976). Weinheim: Beltz.
Heller, K. A, Rosemann, B. & Steffens, K. H. (1978). Prognose des Schulerfolgs. Weinheim: Beltz.
Helmke, A. (1983). Prüfungsangst. Psychologische Rundschau, 34, 7-47.
Helmke, A., Schneider, W. & Weinert, F. E. (1986). Quality of contribution to the IEA classroom
environment study. Teaching and Teacher Education, 2, 1-31.
Hermans, H., Petermann, F. & Zielinski, W. (1978). Leistungs-Motivations-Test LMT. Amsterdam:
Swets & Zeitlinger.
Hermans, H. (1976). Leistungsmotivationstest für Jugendliche LMT-J (deutsche Fassung von Udo
Undeutsch). Amsterdam: Swets.
Hermans, H. J. M. (1976). Prestatie Motivatie Test (1. Aufl. 1968). Amsterdam: Swets & Zeitlinger.
Herrle, J. & Kühner, C. (1994). Depression bewältigen. Ein kognitiv-verhaltenstherapeutisches
Programm nach P. M. Lewinsohn. Weinheim: Beltz, Psychologie Verlags Union.
Herrmann, Th. (1976). Lehrbuch der empirischen Persönlichkeitsforschung. Göttingen: Hogrefe.
Hersch, J. (1974). Die Unfähigkeit, Freiheit zu ertragen – Reden und Aufsätze. Zürich, Köln:
Bezinger.
Herzberg, F., Mausner, B. & Snyderman, B. B. (1959). The motivation to work (2nd ed.). New York:
Wiley.
Hetzer, H. & Tent, L. (1971). Weilburger Test für Schulanfänger. Weinheim: Beltz.
Heubrock, D. (1995). Neuropsychologische Diagnostik bei Simulationsverdacht: Ein Überblick
über Forschungsergebnisse und Untersuchungsmethoden. Diagnostica, 41, 303-321.
Heyde, G. (1995). Inventar komplexer Aufmerksamkeit (INKA). Frankfurt: Swets Test Services.
Heyde, G. (2004). INKA - Inventar Komplexer Aufmerksamkeit. In G. Büttner & L. Schmidt-Atzert
(Hrsg.), Diagnostik von Konzentration und Aufmerksamkeit (S. 133-142). Göttingen: Hogrefe.
Hiller, W., Zaudig, M. & Mombour, W. (1995). ICD-10 Checklisten. Bern: Huber.
Hinrichs, J. R. & Haanperä, S. (1976). Reliability of measurement in situational exercises: An assessment of the assessment center method. Personnel Psychology, 29, 31-40.
Hobi, V. (1985). Basler Befindlichkeits-Skala. Weinheim: Beltz.
Hödl, E. (1995). Hochschulberichtssystem und Profilbildung. Forschung und Lehre, 6, 322-324.
Hofer, M. (1969). Die Schülerpersönlichkeit im Urteil des Lehrers. Weinheim: Beltz.
Hofer, M. (Hrsg.). (1981). Informationsverarbeitung und Entscheidungsverhalten von Lehrern.
Beiträge zu einer Handlungstheorie des Unterrichtens. München: Urban & Schwarzenberg.
Hofmann, H. & Stiksrud, A. (1994). Zufriedenheit mit einem Psychologie-Lehrbetrieb. Aspekte der
Evaluation von Evaluatoren. Empirische Pädagogik, 8, 169-198.
Hofmann, K. & Kubinger, K. D. (2001). Herkömmliche Persönlichkeitsfragebogen und Objektive Persönlichkeitstests im »Wettstreit« um (Un-)Verfälschbarkeit. Report Psychologie, 26, 298-304.
Hofstee, W. K. B. (1994). Who should own the definition of personality? European Journal of
Personality, 8, 149-162.
Hohenberger, E. & Schindler, L. (1984). Ein verhaltenstherapeutisches Programm zur Behandlung
von Schlafstörungen. In J. C. Brengelmann & G. Bühringer (Hrsg.), Therapieforschung in der
Praxis (S. 55-71). München: Röttger.
Hojat, M., Robeson, M., Damjanov, L., Veloski, J. J., Glaser, K. & Gonnella, J. S. (1993). Students
psychosocial characteristics as predictors of academic performance in medical school.
Academic Medicine, 68, 635-637.
Holden, R. R., Wood, L. L. & Tomashewski, L. (2001). Do response time limitations counteract the
effect of faking on personality inventory validity? Journal of Personality and Social Psychology,
81, 160-169.
Holling, H. (1981). Das Suppressor Konzept. Eine systematische Analyse und Neudefinition. Zeitschrift für Differentielle und Diagnostische Psychologie, 2, 123-150.
Holling, H. & Kanning, U. P. (1999). Hochbegabung: Forschungsergebnisse und Fördermöglichkeiten. Göttingen: Hogrefe.
Hollmann, H. (1988). Das Freiburger Persönlichkeitsinventar. Diagnostica, 34, 277-285.
Hollmann, H. (1993). Validität der Eignungsdiagnostik. Göttingen: Hogrefe.
Holmes, D. S. (1968). Dimensions of projection. Psychological Bulletin, 69, 248-268.
Holmes, D. S. & Tyler, J. D. (1968). Direct versus projective measurement of achievement motivation. Journal of Consulting and Clinical Psychology, 32, 712-717.
Holtzman, W. H, Thorpe, I. S, Swartz, J. D. & Herron, E. W. (1961). Inkblot perception and personality.
Austin: University of Texas Press.
Holzkamp, K. (1966). Begutachtung als Kommunikation. In A. O. Jäger & F. Merz (Hrsg.), Prognose
und Bewährung in der psychologischen Diagnostik (S. 19-40). Göttingen: Hogrefe.
Hörmann, H. (1964). Aussagemöglichkeiten psychologischer Diagnostik. Göttingen: Hogrefe.
Hörmann, H. (1978). Theoretische Grundlagen der projektiven Tests. In R. Heiss, K.-J. Groffmann &
L. Michel (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik
(S. 71-112). Göttingen: Hogrefe.
Hörmann, H. (1982). Theoretische Grundlagen der projektiven Verfahren. In K. J. Groffmann &
L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 3:
Persönlichkeitsdiagnostik (S. 173-247). Göttingen: Hogrefe.
Horn, A. & Bonz, G. (1969). Persönlichkeitsuntersuchungen mit dem Rorschach-Test bei bewegungsbehinderten Kindern. Schweizerische Zeitschrift für Psychologie, 28, 39-48.
Horn, J. L. & Cattell R. B. (1966). Refinement and test of theory of fluid and crystallized intelligence.
Journal of Educational Psychology, 57, 253-270.
Horn, R. (2003). Eine kritische Anmerkung zum K-ABC. Report Psychologie, 28, 189.
Horn, W. (1969). Prüfsystem für Schul- und Bildungsberatung PSB. Göttingen: Hogrefe.
Horn, W. (1972). Begabungstestsystem BTS (2. Aufl.). Göttingen: Hogrefe.
Horn, W. (1983). Leistungs-Prüf-System LPS (2. Aufl., 1. Aufl. 1962). Göttingen: Hogrefe.
Horn, W., Lukesch, H., Kormann, A. & Mayrhofer, S. (2002). PSB-R 4-6: Prüfsystem für Schul- und
Bildungsberatung für 4. bis 6. Klassen – revidierte Fassung. Göttingen: Hogrefe.
Horn, W., Lukesch, H., Mayrhofer, S. & Kormann, A. (2003). PSB-R 6-13: Prüfsystem für Schul- und
Bildungsberatung für 6. bis 13. Klassen – revidierte Fassung. Göttingen: Hogrefe.
Literaturverzeichnis
581
582
Literaturverzeichnis
Hornke, L. F. & Kersting, M. (2004). Checkliste zur DIN 33430. In L. F. Hornke & U. Winterfeld (Hrsg.),
Eignungsbeurteilungen auf dem Prüfstand: DIN 33430 zur Qualitätssicherung (S. 273-324).
Heidelberg: Spektrum Akademischer Verlag.
Hornke, L. F. & Etzel, S. (1993/1995). Theoriegeleitete Konstruktion und Evaluation von computergestützten Tests zum Merkmalsbereich »Gedächtnis und Orientierung«. Untersuchungen des
Psychologischen Dienstes der Bundeswehr 1993/1995 (Bd. 2), 183-296.
Hornke, L. F., Rettig, K. & Hutwelker, R. (1988). Theoriegeleitete Konstruktion eines Tests zur Messung des räumlichen Vorstellungsvermögens. Untersuchungen des Psychologischen Dienstes der Bundeswehr, 23, 145-222.
Hornke, L. F. & Storm, G. (1993/1995). Theoriegeleitete Konstruktion von Items zur Messung visueller Analyseleistungen III. Untersuchungen des Psychologischen Dienstes der Bundeswehr
1993/1995 (Bd. 2), 37-182.
Horowitz, L. M., Strauß, B. & Kordy, H. (2000). Inventar zur Erfassung interpersonaler Probleme
(IIP-D) (2. Aufl.). Weinheim: Beltz.
Horst, P. (1966). Psychological measurement and prediction. Belmont, CA: Wadsworth.
Hossiep, R. (1994). Das Assessment-Center. Diagnostica, 40, 89-104.
Hossiep, R. & Paschen, M. (1998). Das Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung BIP. Göttingen: Hogrefe.
Hossiep, R., Turck, D. & Hasella, M. (1999). BOMAT – advanced. Bochumer Matrizentest. Göttingen:
Hogrefe.
Hossiep, R., Turck, D. & Hasella, M. (2001). BOMAT – advanced – short version. Bochumer Matrizentest. Göttingen: Hogrefe.
Hossiep, R. & Wottawa, H. (1993). Diagnostik. In A. Schorr (Hrsg.), Handwörterbuch der Angewandten Psychologie (S. 131-136). Bonn: Deutscher Psychologen Verlag.
Howells, J. G. & Lickorish, J. R. (2003). Familien-Beziehungs-Test (FBT) (6. Aufl.).München: Ernst
Reinhardt Verlag.
Huber, W., Poeck, K., Weniger, D. & Willmes, K. (1983). Aachener Aphasietest AAT. Göttingen:
Hogrefe.
Huffcutt, A. I., Conway, J. M., Roth, P. L. & Klehe, U. C. (2004). The impact of job complexity and study
design on situational and behavior description interview validity. International Journal of
Selection and Assessment, 12, 262-273.
Hundleby, J., Pawlik, K. & Cattell, R. B. (1965). Personality factors in objective test devices. San
Diego: Knapp.
Hunter, J. E. & Schmidt, F. L. (1976). Critical analysis of the statistical and ethical implications of
various definitions of test bias. Psychological Bulletin, 83, 1053-1071.
Husslein, E. (1978). Der Schulangst-Test. Göttingen: Hogrefe.
Hylla, E. & Kraak, B. (1976). Aufgaben zum Nachdenken AZN (3. Aufl., 1. Aufl. 1965). Weinheim: Beltz.
Ihl, R. & Weyer, G. (1993). Alzheimer’s Disease Assessment Scale ADAS. Weinheim: Beltz.
Ingenkamp, K. (1988). Pädagogische Diagnostik. In R. S. Jäger (Hrsg.), Psychologische Diagnostik
(S. 423-436). München: Psychologie Verlags Union.
Ingenkamp, K., Jäger, R. S. & Horn, R. (Hrsg.). (1981). Tests und Trends. Jahrbuch der Pädagogischen
Diagnostik. Weinheim: Beltz.
Ingenkamp, K., Wolf, B., Christmann, H., Lißmann, U., Knapp, A. & Haenisch, H. (1977). Bildungs-Beratungs-Test für 4. bis 6. Klassen BBT 4-6. Weinheim: Beltz.
Institut für Test- und Begabungsforschung. (1990). Test für Medizinische Studiengänge TMS
(3. Aufl., 1. Aufl. 1987). Göttingen: Hogrefe.
Irle, M. & Allehoff, W. (1984). Berufs-Interessen-Test II (BIT II). Göttingen: Hogrefe.
Iseler, A. (1967). Zur varianzanalytischen Schätzung der Auswertungsobjektivität von psychologischen Tests. Diagnostica, 13, 135-148.
Ittner, E. & Halsig, N. (1993). Prognostische Relevanz des Auswahlgesprächs als qualitativ neue
Methode beim Zugang zum Studium der Medizin. In F. Baumgärtel (Hrsg.), Klinische Psychologie im Spiegel ihrer Praxis (S. 113-119). Bonn: Deutscher Psychologenverlag.
Jaccard, J. J. (1974). Predicting social behavior from personality traits. Journal of Research in
Personality, 1, 358-367.
Jäckel, U. (1980). Partnerwahl und Ehe-Erfolg. Stuttgart: Enke.
Jackson, D. N. (1967). Manual for the Personality Research Form (2nd ed. 1974). Goshen: Research
Psychologists Press.
Jacobi, C., Thiel, A. & Paul, T. (1995). Kognitive Verhaltenstherapie bei Anorexia und Bulimia nervosa. Weinheim: Psychologie Verlags Union.
Jacobson, N. S, Folette, W. C. & Revenstorf, D. (1984). Psychotherapy outcome research: Methods
for reporting variability and evaluating clinical significance. Behavior Therapy, 15, 336-352.
Jacobson, N. S. & Revenstorf, D. (1988). Statistics for assessing the clinical significance of psychotherapy techniques: Issues, problems, and new developments. Behavioral Assessment, 10,
133-145.
Jacobson, N. S. & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful
change in psychotherapy research. Journal of Consulting and Clinical Psychology, 59, 12-19.
Jäger, A. O. (1963). Der Wilde Test, ein neues Intelligenzdiagnostikum. Zeitschrift für Experimentelle und Angewandte Psychologie, 10, 260-278.
Jäger, A. O. (1984). Intelligenzstrukturforschung: Konkurrierende Modelle, neue Entwicklungen,
Perspektiven. Psychologische Rundschau, 35, 21-35.
Jäger, A. O. & Althoff, K. (1994). Wilde-Intelligenztest WIT (1. Aufl.age 1983). Göttingen: Hogrefe.
Jäger, A. O, Süß, H.-M. & Beauducel, A. (1997). Berliner Intelligenzstruktur-Test (Form 4; BIS-4).
Göttingen: Hogrefe.
Jäger, A. O. & Todt, E. (1964). Zur Faktorenstruktur des WIT bei 17jährigen; Faktorenanalyse der
WIT-Langformen. Diagnostica, 10, 3-14.
Jäger, R. S. (1970). Personalauslese. In A. Mayer & B. Herwig (Hrsg.), Handbuch der Psychologie,
Bd. IX: Betriebspsychologie (S. 613-667). Göttingen: Hogrefe.
Jäger, R. S. (1982). Diagnostische Urteilsbildung. In K. J. Groffmann & L. Michel (Hrsg.). Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 1: Grundlagen psychologischer
Diagnostik (S. 295-375). Göttingen: Hogrefe.
Jäger, R. S. (1986). Der diagnostische Prozeß (2. Aufl., 1. Aufl. 1983). Göttingen: Hogrefe.
Jäger, R. S. (1986). Measuring examiner and examinee reactions to each other and to the psychodiagnostic situation. In B. Nevo & R. S. Jäger (Eds.), Psychological testing: The examinee perspective (pp. 129-149). Göttingen: Hogrefe.
Jäger, R. S. (1988). Der diagnostische Prozeß. In R. S. Jäger (Hrsg.), Psychologische Diagnostik
(S. 382-386). München: Psychologie Verlags Union.
Jäger, R. S., Mattenklott, A. & Schröder, R. D. (Hrsg.). (1984). Diagnostische Urteilsbildung in der
Psychologie. Göttingen: Hogrefe.
Jäger, R. S. & Petermann, F. (1992). Psychologische Diagnostik (2. veränderte Aufl.). Weinheim:
Psychologie Verlags Union.
Janke, W. (1971). Klassifikation. In R. Heiss, K. J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik (3. Aufl., S. 901-929). Göttingen: Hogrefe.
Janke, W. (1973). Das Dilemma von Persönlichkeitsfragebogen. Einleitung des Symposiums über
Konstruktion von Fragebogen. In G. Reinert (Hrsg.), Bericht über den 27. Kongreß der Deutschen Gesellschaft für Psychologie in Kiel 1970. Göttingen: Hogrefe.
Janke, W. (1982). Klassenzuordnung. In K. J. Groffmann & L. Michel (Hrsg.), Grundlagen psychologischer Diagnostik (S. 376-466). Göttingen: Hogrefe.
Janke, W. & Debus, G. (1978). Die Eigenschaftswörterliste EWL. Göttingen: Hogrefe.
Janke, W. & Erdmann, G. (Hrsg.). (1996). Streßverarbeitungsfragebogen (SVF 120). Kurzbeschreibung und grundlegende Kennwerte. Göttingen: Hogrefe.
Janke, W. & Erdmann, G. (2002). SVF 78: Eine Kurzform des Stressverabeitungsfragebogens
SVF 120. Göttingen: Hogrefe.
Janke, W., Erdmann, G. & Kallus, W. (1985). Streßverarbeitungs-Fragebogen SVF. Göttingen:
Hogrefe.
Janke, W., Erdmann, G. & Kallus, K. W. (2002). SVF mit SVF 120 und SVF 78. Stressverarbeitungsfragebogen (3., erweiterte Auflage). Göttingen: Hogrefe.
Janke, W. & Hüppe, M. (1991). Emotionalität. In W. D. Oswald, W. M. Herrmann, S. Kanowski,
U. M. Lehr & H. Thomae (Hrsg.), Gerontologie (2. Aufl., S. 88-124). Stuttgart: Kohlhammer.
Jensen, A. R. (1980). Bias in mental testing. London: Methuen.
Jeserich, W. (1981). Mitarbeiter auswählen und fördern: Assessment Center-Verfahren. München:
Hanser.
Joerin, S., Stoll, F., Bergmann, C. & Eder, F. (2000). EXPLORIX - das Werkzeug zur Berufswahl und
Laufbahnplanung. Deutschsprachige Adaptation des Self-directed Search (SDS) nach John
Holland. Bern: Huber.
Literaturverzeichnis
583
584
Literaturverzeichnis
Johansen, I. (1972). Gruppenbildung und Soziometrie. In E. Meyer (Hrsg.), Gruppenpädagogik
zwischen Moskau und New York (S. 140-149). Heidelberg: Quelle & Meyer.
Johnson, D. W., Maruyama, G., Johnson, R., Nelson, D. & Skon, L. (1981). Effects of cooperative,
competitive, and individualistic goal structures on achievement: A metaanalysis. Psychological Bulletin, 89, 47-62.
Jungnitsch, G. (1992). Schmerz- und Krankheitsbewältigung bei rheumatischen Erkrankungen.
München: Quintessenz.
Kaiser, A. & Hahlweg, K. (1996). Kommunikations- und Problemlösetraining. In J. Margraf (Hrsg.),
Lehrbuch der Verhaltenstherapie (Bd. 1, S. 371-385). Berlin, Heidelberg, New York: Springer.
Kallus, K. W. & Janke, W. (1992). Klassenzuordnung. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (S. 170-186). Weinheim: Psychologie Verlags Union.
Kaminski, G. (1970). Verhaltenstheorie und Verhaltensmodifikation. Stuttgart: Klett.
Kämmerer, A. (1983). Die therapeutische Strategie »Problemlösen«. Theoretische und empirische
Perspektiven ihrer Anwendung in der Kognitiven Psychotherapie. Münster: Aschoff.
Kanfer, F. H., Reinecker, H. & Schmelzer, D. (2006). Selbstmanagement-Therapie (4. Aufl.). Berlin:
Springer.
Kanfer, F. H. & Saslow, G. (1976). Verhaltenstheoretische Diagnostik. In D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (2. Aufl., 1. Aufl. 1974; S. 24-59). München: Urban & Schwarzenberg.
Kanfer, R., Dugdale, B. & Mc Donald, B. (1994). Empirical findings on the action control scale in the
context of complex skill aggression. In J. Kuhl & J. Beckmann (Eds.), Volition and personality.
Action vs. state orientation (pp. 61-77). Seattle: Hogrefe und Huber.
Kanning, U. P. (2003). Sieben Anmerkungen zum Problem der Selbstdarstellung in der Personalauswahl. Zeitschrift für Personalpsychologie, 2, 193-195.
Karnath, H.-O. (2000). Vernachlässigung – Neglect. In W. Sturm, M. Herrmann & C. W. Wallesch
(Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik,
Therapie (S. 366-374). Lisse, NL: Swets & Zeitlinger.
Kastner, M. (1978). Zur Problematik von Tests zum Übergang an weiterführende Schulen. Psychologie in Erziehung und Unterricht, 25, 9-15.
Kaufman, A. S., Kaufman, N. L., Melchers, P. & Preuß, U. (2001). Kaufman Assessment Battery for
Children, Deutsche Version (6., teilweise ergänzte Auflage). Göttingen: Hogrefe.
Kautter, H. (1975). Zur Klassifikation und schulischen Plazierung von Lernbehinderten. Zeitschrift
für Heilpädagogik, 26, 222-238.
Kautter, H. (1979). Der Übergang zu Sonderschulen. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (Bd. 4, S. 977-988). Düsseldorf: Schwann.
Kavale, K. A. (1990). Variances and varieties in learning disability interventions. In T. E. Scruggs &
B. Y. L. Wong (Eds.), Intervention research in learning disabilities (pp. 3-33). Berlin, Heidelberg,
New York: Springer.
Keats, J. A. (1957). Estimation of error variances of test scores. Psychometrika, 22, 29-41.
Kelly, G. A. (1955). The psychology of personal constructs. New York: Norton.
Kemmler, L. (1967). Erfolg und Versagen auf der Grundschule. Göttingen: Hogrefe.
Kent, R. N., O’Leary, K. D., Dietz, A. & Diamant, C. (1979). Comparision of observational recordings in vivo via mirror and via television. Journal of Applied Behavior Analysis, 12, 517522.
Kenrick, D. T. & Stringfield, D. O. (1980). Personality traits and the eye of the beholder: Crossing
some traditional boundaries in the search for consistency in all of the people. Psychological
Review, 87, 88-104.
Kern, A. (1951). Sitzenbleiberelend und Schulreife. Freiburg: Herder.
Kersting, M. (1995). Der Einsatz »westdeutscher« Tests zur Personalauswahl in den Neuen Bundesländern und die Fairneßfrage. Report Psychologie, 20, 32-41.
Kersting, M. (1999a). Diagnostik und Personalauswahl mit computergestützten Problemlöseszenarien? Zur Kriteriumsvalidität von Problemlöseszenarien und Intelligenztests. Göttingen:
Hogrefe.
Kersting, M. (1999b). Intelligenz-Struktur-Test 2000 (IST 2000). In E. Fay (Hrsg), Tests unter der Lupe
II (S. 88-115). Lengerich: Pabst.
Keßler, B. H. (1976). Elternanamnese zur Erziehungsberatung. In L. R. Schmidt & B. H. Keßler (Hrsg.),
Anamnese (S. 294-305). Weinheim: Beltz.
Keßler, B. H. (1982). Biographische Diagnostik. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie
der Psychologie, Serie II: Psychologische Diagnostik, Bd. 3: Persönlichkeitsdiagnostik (S. 1-56).
Göttingen: Hogrefe.
Keßler, B. H. (1988). Daten aus dem Interview. In R. S. Jäger (Hrsg.), Psychologische Diagnostik – ein
Lehrbuch (363-372). München: Psychologie Verlags Union.
Kessler, J., Denzler, P. & Markowitsch, H. J. (1988). Demenztest. Weinheim: Beltz.
Kessler, J. & Kalbe, E. (2000). Gerontoneuropsychologie – Grundlagen und Pathologie. In W. Sturm,
M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 648-673). Lisse, NL: Swets & Zeitlinger.
Kessler, J., Markowitsch, H. J. & Denzler, P. (1990). Mini Mental Status Test MMST. Weinheim: Beltz.
Kessler, J., Schaaf, A. & Mielke, R. (1993). Fragmentierter Bildertest. Göttingen: Hogrefe.
Kici, G. & Westhoff, K. (2000). Anforderungen an psychologisch-diagnostische Interviews in der
Praxis Report Psychologie, 25, 428-436.
Kiesler, D. J., Anchin, J. C., Perkins, M. J., Chirico, B. M., Kyle, E. M. & Federman, E. J. (1976). The Impact
Message Inventory IMI. Richmond: Virginia Commonwealth University.
Kind, H. (1973). Leitfaden für die psychiatrische Untersuchung. Berlin, Heidelberg, New York:
Springer.
Kiresuk, T., Smith, A. & Cardillo, J. E. (Eds.). (1994). Goal attainment scaling: Applications, theory,
and measurement. Hillsdale: Lawrence Erlbaum Associates.
Kisser, R. (1992). Adaptive Strategien. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 161-170). Weinheim: Psychologie Verlags Union.
Klages, H. (1980). Organisationsanalyse in der öffentlichen Verwaltung. In E. Grochla (Hrsg.), Handwörterbuch der Organisation (S. 1460-1468). Stuttgart: Poeschel.
Klages, U. (1989). Zur Entwicklung eines Fragebogens irrationaler Einstellungen: Ergebnisse einer
Repräsentativbefragung. Zeitschrift für Psychologie, Psychopathologie und Psychotherapie,
37, 5-13.
Klages, U. (1989). Fragebogen irrationaler Einstellungen FIE. Göttingen: Hogrefe.
Klauer, K. C. (1991). An exact and optimal standardized person fit test for assessing consistency
with the Rasch model. Psychometrika, 56, 213-228.
Klauer, K. C. (1995). The assessment of person fit. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch
models: Foundations, recent developments, and applications (pp. 97-110). New York:
Springer.
Klauer, K. J. (1972). Zur Theorie und Praxis des binomialen Modells lehrzielorientierter Tests.
In K. J. Klauer, R. Fricke, M. Herbig, H. Rupprecht & F. Schott (Hrsg.), Lehrzielorientierte Tests
(S. 161-201). Düsseldorf: Schwann.
Klauer, K. J. (1987). Kriteriumsorientierte Tests. Göttingen: Hogrefe.
Klauer, K. J., Fricke, R., Herbig, M., Rupprecht, H. & Schott, F. (Hrsg.), (1972). Lehrzielorientierte Tests.
Düsseldorf: Schwann.
Kleber, E. W. (1979). Tests in der Schule. München: Reinhardt.
Kleber, E. W. & Fischer, R. (1982). Anweisungs- und Sprachverstehenstest. Weinheim: Beltz.
Klein, F. J. (1982). Die Rechtmäßigkeit psychologischer Tests im Personalbereich. Gelsenkirchen:
Manhald.
Klepsch, R., Zaworka, W., Hand, I., Lünenschloß, K. & Jauernig, G. (1993). Hamburger Zwangsinventar-Kurzform HZI-K. Weinheim: Beltz.
Klimoski, R. & Brickner, M. (1987). Why do assessment centers work? The puzzle of assessment
center validity. Personnel Psychology, 40, 243-260.
Klinck, D. (2002). Computergestützte Diagnostik: Beeinflusst das Medium der Testverarbeitung die
Testcharakteristika, die Testfairness oder das Erleben der Testsituation? Göttingen: Hogrefe.
Knowles, E. S. (1988). Item context effects on personality scales: Measuring changes the measure.
Journal of Personality and Social Psychology, 55, 312-320.
Koch, C. (1981). Fragebogen zur Abschätzung psychosomatischen Krankheitsgeschehens FAPK.
Weinheim: Beltz.
Köhler, T. (1979). Teststatistische Anforderungen an ein State-Meßinstrument. Diagnostica, 25,
64-75.
Köller, O. (1993). Die Identifikation von Ratern bei Leistungstests mit Hilfe des Mixed-RaschModells. Vortrag auf der 1. Tagung der Fachgruppe Methoden der Deutschen Gesellschaft für
Psychologie in Kiel. Empirische Pädagogik (o. A.).
Literaturverzeichnis
585
586
Literaturverzeichnis
Koppenhöfer, E. (2004). Kleine Schule des Genießens. Ein verhaltenstherapeutisch orientierter
Behandlungsansatz zum Aufbau positiven Erlebens und Verhaltens. Lengerich: Pabst.
Kormann, A. (Hrsg.). (1987). Beurteilen und Fördern in der Erziehung. Salzburg: Müller.
Kornmann, R. (1977a). Diagnose von Lernbehinderungen. Weinheim: Beltz.
Kornmann, R. (1977b). Testbatterie zur Untersuchung entwicklungsrückständiger Schulanfänger
TES. Weinheim: Beltz.
Kornmann, R., Meister, H. & Schlee, J. (Hrsg.). (1983). Förderungsdiagnostik (2. Aufl. 1986). Heidelberg: Schindele.
Kraak, B. & Nord-Rüdiger, D. (1989). Fragebogen zu Lebenszielen und zur Lebenszufriedenheit FLL.
Göttingen: Hogrefe.
Krämer, H.-J. & Schneider, J. F. (1987). Validität von Fragebogendaten in Abhängigkeit von Antwort-Zeit-Instruktionen und der intraindividuellen Variabilität der Probanden. Psychologische
Beiträge, 29, 458-468.
Krampen, G. (1981). IPC – Fragebogen zur Erfassung generalisierter Kontrollüberzeugungen.
Göttingen: Hogrefe.
Krampen, G. (1986). Zur Validität der deutschen Form des 16 PF. Faktorielle Validität und Beziehungen zum FPI. Diagnostica, 32, 91-99.
Krampen, G. (1996). Kreativitätstest für Vorschul- und Schulkinder. Version für die psychologische
Anwendungspraxis (KVS-P). Handanweisung. Göttingen: Hogrefe.
Krauth, J. (1995). Testkonstruktion und Testtheorie. Weinheim: Beltz, Psychologie Verlags Union.
Kröber, H.-L. & Steller, M. (Hrsg.). (2000). Psychologische Begutachtung im Strafverfahren: Indikationen, Methoden und Qualitätsstandards. Darmstadt: Steinkopff.
Kroger, R. O. & Turnbull, W. (1975). Invalidity of validity scales: The case of the MMPI. Journal of
Consulting and Clinical Psychology, 43, 238-260.
Krohne, H. W. (1980). Prüfungsangst: Defensive Motivation in selbstwertrelevanten Situationen.
Unterrichtswissenschaft, 8, 226-242.
Krohne, H. W. & Hindel, C. (1988). Trait anxiety, state anxiety, and coping behavior as predictors of
athletic performance. Anxiety Research, 1, 225-234.
Krohne, H. W. & Pulsack, A. (1990). Erziehungsstilinventar. Weinheim: Beltz.
Kröner-Herwig, B. & Sachse, R. (1988). Biofeedbacktherapie (2. Aufl.). Stuttgart: Kohlhammer.
Krüger, C. & Amelang, M. (1995). Bereitschaft zu riskantem Verhalten als Trait-Konstrukt und TestKonzept. Zur Entwicklung eines Fragebogens auf der Basis des Handlungs-Häufigkeits-Ansatzes. Diagnostica, 41, 1-18.
Kruse, L. (1980). Privatheit als Gegenstand und Problem der Psychologie. Bern: Huber.
Kubinger, K. D. (1987). Adaptives Testen. In R. Horn, K. Ingenkamp & R. S. Jäger (Hrsg.), Tests und
Trends – 6. Jahrbuch der Pädagogischen Diagnostik (S. 103-127). München: Psychologie Verlags Union.
Kubinger, K. D. (1988). Aktueller Stand und kritische Würdigung der probabilistischen Testtheorie.
In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 19-83). Weinheim: Beltz.
Kubinger, K. D. (Hrsg.). (1988). Moderne Testtheorie. Weinheim: Psychologie Verlags Union.
Kubinger, K. D. (Hrsg.). (1989). Moderne Testtheorie – ein Abriß samt neuesten Beiträgen (2. Aufl.).
Weinheim: Psychologie Verlags Union.
Kubinger, K. D. (1992). Testtheorie: Probabilistische Modelle. In R. S. Jäger & F. Petermann (Hrsg.),
Psychologische Diagnostik (2. Aufl., S. 322-334). Weinheim: Psychologie Verlags Union.
Kubinger, K. D. (1995). Einführung in die Psychologische Diagnostik. Weinheim: Psychologie Verlags Union.
Kubinger, K. D. (1995). Objektive Diagnostik. In K. Pawlik (Hrsg.), Enzyklopädie der Psychologie.
Differentielle Psychologie, 1, Grundlagen und Methoden (S. 507-541). Göttingen: Hogrefe.
Kubinger, K. D. (1996). Methoden der psychologischen Diagnostik. In E. Erdfelder, R. Mausfeld,
Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 567-576). Weinheim:
Psychologie Verlags Union.
Kubinger, K. D. & Ebenhöh, J. (1996). Arbeitshaltungen – Kurze Testbatterie. Anspruchsniveau,
Frustrationstoleranz, Leistungsmotivation, Impulsivität/Reflexivität. Frankfurt/M.: Swets.
Kubinger, K. D., Fischer, D. & Schuhfried, G. (1993). Begriffs-Bildungs-Test (BBT). Mödling: Dr. G.
Schuhfried.
Kubinger, K. D., Wagner, M. & Alexandrowicz, R. (1998). Zur Interpretation der Paardiagnostik mit
dem Gießen-Test. Psychotherapie, Psychosomatik und Medizinische Psychologie, 49, 249-253.
Kubinger, K. D., & Wurst E. (1991). Adaptives Intelligenz Diagnostikum AID. Weinheim: Beltz.
Kubinger, K. D., & Wurst, E. (2001). AID 2: Adaptives Intelligenz Diagnostikum 2. Göttingen:
Hogrefe.
Kuder, G. F. & Richardson, W. (1937). The theory of the estimation of test reliability. Psychometrika,
2, 151-160.
Kuhl, J. (1990). Kurzanweisung zum Fragebogen HAKEMP 90. Unveröffentliches Manuskript.
Osnabrück.
Kuhl, J. (1994a). A theory of action and state orientations. In J. Kuhl und J. Beckmann (Eds.), Volition
and personality. Action vs. state orientation (pp. 9-46). Seattle: Hogrefe & Huber.
Kuhl, J. (1994b). Action vs. state orientation: Psychometric properties of the action control scale
(ACS-90). In J. Kuhl & J. Beckmann (Eds.), Volition and personality. Action vs. state orientation
(pp. 47-59). Seattle: Hogrefe und Huber.
Kuhl, J. & Fuhrmann, A. (1995). Funktionskomponenten des Willens im Selbsterleben. Kurzmanual
für den Fragebogen VCC. Unveröffentlichtes Manuskript. Osnabrück.
Kurth, E. & Büttner, G. (1999). TPK Testreihe zur Prüfung der Konzentrationsfähigkeit (2., neu
bearbeitete Auflage). Göttingen: Hogrefe.
Kurth, E., & Büttner, G. (2004). Testreihe zur Prüfung der Konzentrationsfähigkeit (TPK). In
G. Büttner & L. Schmidt-Atzert (Hrsg.), Diagnostik von Konzentration und Aufmerksamkeit
(S. 143-159). Göttingen: Hogrefe.
Lakatos, A. & Reinecker, H. (2001). Kognitive Verhaltenstherapie bei Zwangsstörungen – Ein
Therapiemanual (2. Aufl.). Göttingen: Hogrefe.
Lambert, M. J., Bergin A. E. & Garfield, S. L. (2003). Handbook of Psychotherapy and Behavior
Change (5th ed.). New York: Wiley.
Lamiell, J. T. (1987). The psychology of personality: An epistemological inquiry. New York: Columbia
University Press.
Lang, A. (1978). Diagnostik und Autonomie der Person. In U. Pulver, A. Lang & F. W. Schmid (Hrsg.),
Ist Psychodiagnostik verantwortbar? (S. 17-30). Bern: Huber.
Langer, E. J. & Abelson, R. P. (1974). A patient by any other name: Clinician group difference in
labeling bias. Journal of Consulting and Clinical Psychology, 42, 4-9.
Langfeldt, H.-P. & Tent, L. (1999). Pädagogisch-psychologische Diagnostik. Bd. 2: Anwendungsbereiche und Praxisfelder. Göttingen: Hogrefe.
Laux, L. & Glanzmann, P. G. (1996). Angst und Ängstlichkeit. In M. Amelang (Hrsg.), Enzy