Comments
Description
Transcript
Document 2723126
(S.15-16) Diagnostische Strategien (S.8-15) Modellannahmen: Eigenschafts- und Verhaltensdiagnostik (S.7-8) Arten von Diagnostik (S.4-7) Aufgabenbereiche und Fragestellungen (S.2-4) Definition Einleitung 1 Kapitel 1 · Einleitung Diagnostik zur Beratung Diagnostik zur Behandlung Zielgerichtetheit von Psychodiagnostik Psychologische Diagnostik 2 Definition bestimmte unerwünschte Zustände zu beheben bzw. erwünschte Gegebenheiten zu erhalten gilt. Eine solche Struktur liegt vor, wenn etwa ein Proband mit einer Verhaltensstörung um Hilfe bittet. Deren Erscheinungsform, Verursachung und Auslösung müssen zunächst eingehender ergründet werden, um auf den gewonnenen Erkenntnissen dann ein geeignetes Behandlungsprogramm aufzubauen, mit dessen Hilfe schließlich »Normalität« angestrebt wird; ob und inwieweit dieser Zustand schließlich erreicht wird, muss durch erneute Diagnostik ermittelt werden. In einem anderen Fall fragt vielleicht eine Abiturientin in einer Beratungsstelle danach, welche Studienrichtung oder Berufstätigkeit im Hinblick auf ihr Begabungsprofil »richtig« bzw. optimal sei. Auch hierbei muss zunächst der Ist-Zustand geprüft und zu einem Soll-Zustand (etwa: Erfolg im Studium oder Beruf) in Beziehung gesetzt werden. Dies macht den Rückgriff auf bestimmte Schlussfolgerungen notwendig (7 unten). Die Beispiele lassen sich beliebig fortsetzen. Ihre Gemeinsamkeit besteht darin, dass spezifische Aufgabenstellungen den Einsatz eines wissenschaftlichen Instrumentariums Ad 1. Diagnostik wird nicht etwa um ihrer selbst willen betrieben, sondern weil es An einer solchen Konzeptualisierung gefallen 2 Aspekte: 1. die Finalität, d. h. die Zielgerichtetheit von Psychodiagnostik, 2. das weite Spektrum der in Betracht gezogenen Merkmalsträger. Als Merkmalsträger kommen in Betracht: 4 Einzelpersonen, 4 Personengruppen, 4 Institutionen, 4 Situationen und 4 Gegenstände. Wie viele andere Begriffe in der Psychologie so haben auch diejenigen von Diagnose und Diagnostik ihre Wurzeln im Griechischen, wo das Verb »diagignoskein« eine kognitive Funktion mit den Bedeutungen »gründlich kennen lernen«, »entscheiden« und »beschließen« bezeichnet. Sieht man sich in der wissenschaftlichen Literatur nach Definitionen um, so findet man gewöhnlich Hinweise darauf, dass es sich bei Diagnostik um eine Methodenlehre handele, die im Dienste der Praktischen Psychologie stehe (Wellek, 1955) und das Ziel habe, Personen richtig zu beurteilen (Dieterich, 1973) oder zu erfahren, wie sich Menschen voneinander unterscheiden (Hörmann, 1964). Sehr viel präzisere Angaben macht Leichner (1979), wenn er die Aufgabe der Psychodiagnostik in der Ermittlung interindividueller Differenzen im Erleben und Verhalten von Personen unter standardisierten Bedingungen sieht. Jäger und Petermann (1992, S. 11) fassen psychologische Diagnostik als System von Regeln, Anleitungen und Algorithmen zur Bereitstellung von Instrumenten auf, mit deren Hilfe sowohl 4 psychologisch relevante Charakteristika von Merkmalsträgern gewonnen als auch 4 die erhobenen Daten zu einem diagnostischen Urteil integriert werden sollen, und zwar 4 mit dem Ziel einer Vorbereitung von Entscheidungen sowie Prognosen und deren Evaluation. 1.1 Für gegenständliche oder abstrakte Merkmalsträger, deren Beschaffenheit u. a. dadurch diagnostiziert wird, dass Personen Urteile über ihre Wahrnehmungen und Eindrücke liefern, gilt diese Definition sinngemäß. Psychodiagnostik ist eine Methodenlehre im Dienste der Angewandten Psychologie. Soweit Menschen die Merkmalsträger sind, besteht ihre Aufgabe darin, interindividuelle Unterschiede im Verhalten und Erleben sowie intraindividuelle Merkmale und Veränderungen einschließlich ihrer jeweils relevanten Bedingungen so zu erfassen, hinlänglich präzise Vorhersagen künftigen Verhaltens und Erlebens sowie deren evtl. Veränderungen in definierten Situationen möglich werden. Definition Spektrum diagnostischer Problemstellungen ganz erheblich. Namentlich bei den Bemühungen um eine Evaluation immer weiterer Bereiche in Wirtschaft, Staat und Wissenschaft müssen Verwaltungs- und Produktionsabläufe, hergestellte Güter und erbrachte Dienstleistungen sowie deren Akzeptanz durch potenzielle Abnehmer im weitesten Sinne bewertet werden, des Weiteren wissenschaftliche Leistungen, die Qualität von Lehrveranstaltungen usw. (also entweder materielle oder abstrakte Gegebenheiten), darüber hinaus Ereignisse und Prozesse, und zwar häufig von einem hohen Komplexitätsgrad – all dies setzt eine fundierte Bestandsaufnahme oder Diagnose voraus. Gleichwohl werden es meist Menschen sein, die den Gegenstand psychologischer Diagnostik ausmachen. Im Hinblick darauf ist aber an der Begriffserläuterung von Jäger und Petermann (1992) zu kritisieren, dass sie die eher »typischen« Merkmalsausprägungen, also die Charakteristika, in den Mittelpunkt rückt und veränderungsorientierte Ansätze nicht explizit herausstellt. Unter Berücksichtigung dieses Gesichtspunktes definieren wir Psychodiagnostik folgendermaßen: Ad 2. Die Generalisierung auf andere Merkmalsträger als nur Personen erweitert das geboten erscheinen lassen, um zu einer Diagnose zu gelangen. Daran anknüpfend werden Erwägungen angestellt, welche Maßnahmen indiziert sind, um einen antizipierten Zustand zu erreichen. Nach der Anwendung der »Behandlung« (Therapie, Training, Platzierung, Empfehlung o. Ä.) oder auch begleitend zu ihr werden neue Informationen im Sinne von Diagnosen gesammelt, um festzustellen, ob sich die Differenz zwischen Ist- und Soll-Zustand im intendierten Sinne verringert hat. Aus der Medizin ist dieses Prozedere hinlänglich bekannt; dort kommt es bei Diagnose und Diagnostik vorrangig darauf an, Krankheiten zu erkennen und sie bestimmten Ursachen zuzuordnen. Lautet bei einer Schwellung des Mittelhandknochens beispielsweise die Diagnose »Entzündung«, so mag eine Behandlung in Form des Auflegens von Eisstücken verordnet werden. Am Rückgang der Schwellung ist die Richtigkeit der Kombination von Diagnose und Therapie ablesbar. Wären dagegen keinerlei Besserungen zu beobachten, so mag dies Anlass zu einer Revidierung der Diagnose (z. B. im Sinne von »bösartige Geschwulst«) mit dementsprechend anderer Intervention sein (z. B. Applikation von Kortison). Die Finalität impliziert, dass nicht nur festgestellt wird, welche Gegebenheiten im Augenblick vorliegen (»Was ist?«) und ggf. welche Umstände dafür maßgeblich sind (»Was war?« bzw. »Woher?« oder »Warum?«), sondern auch, was in Zukunft geschehen soll (»Wohin?«). 1.1 · Definition 1 Definition der Psychodiagnostik Bewertung von Gegebenheiten, Ereignissen und Prozessen Was ist? Warum? Wohin? Diagnostik auf dem Weg vom Ist- zum Sollzustand 3 1 Kapitel 1 · Einleitung ABO-Psychologie Bereitstellung von Entscheidungshilfen . Abb. 1.1. Das diagnostische Dreieck. (Aus Hossiep & Wottawa, 1993, S. 132) 4 Befragung Ψ Anwendungen Ψ Organisations- Forensische Diagnostik Pädag. Ψ Ψ Ψ Soziale Rahmenbedingungen Ψ Klinische Entwicklungs- Ψ Sprach- Kognitions- Grundlagen Ψ Technische Rahmenbedingungen Aufgabenbereiche und Fragestellungen Nach der obigen Definition werden die Aufgabenbereiche und Fragestellungen der Diagnostik von ihren Anwendungsbereichen bestimmt. Diese lassen sich grob gliedern nach den Bereichen Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie, Pädagogische Psychologie und Klinische Psychologie. Fragestellungen aus der ABO-Psychologie sind die Unterstützung der Ausbildungsund Berufswahl, Auswahl und Weiterqualifizierung von Beschäftigten, Piloten oder Füh- 1.2 Hier wie dort besteht das Ziel der Erkenntnisbemühungen darin, bei konkreten Fragestellungen wissenschaftlich fundierte Entscheidungshilfen für unterschiedliche Handlungs- und/oder Behandlungsmöglichkeiten bereitzustellen. Die psychologische Diagnostik konstruiert und verwendet hierzu spezielle Verfahren, die nicht nur im Hinblick auf ihre praktische Brauchbarkeit, sondern auch in Bezug auf ihre theoretische Fundierung fortwährend kritisch zu überprüfen sind. Die theoretische Begründung bedeutet den Rekurs auf die wissenschaftlichen Ergebnisse der (Gesamt-)Psychologie, deren Stand in den einzelnen Teildisziplinen dokumentiert wird. Methoden, Anwendungen und Grundlagen konstituieren somit die 3 Seiten einer Art »Spannungsfeld, in dem psychologische Diagnostik entsteht und fruchtbar wird« (Hossiep & Wottawa, 1993, S. 132; . Abb. 1.1). Kulturelle Rahmenbedingungen Ψ Arbeits- Verhaltensbeobachtung Testverfahren Psychologische Ψ Ψ Motivations- Sozial- Exploration Differentielle Interview Fragebogen Methoden Wirtschaftliche Rahmenbedingungen rungskräften, des Weiteren auch die Diagnostik von Organisationen, Institutionen und geschäftlichen Abläufen. Im Rahmen der Pädagogischen Psychologie geht es um die Feststellung der Schulfähigkeit, die Eignung für weiterführende Schulen und Studiengänge, Überprüfung der Sonderschulbedürftigkeit, Erfassung der Eignung für Förder- oder Umschulungsmaßnahmen und die Überprüfung von deren Erfolg sowie um Erziehungsprobleme in Schule und Familie. Die Klinische Psychologie versucht mit Hilfe diagnostischer Methoden, den Verursachungsbedingungen psychischer Störungen auf die Spur zu kommen und Ansatzpunkte für Interventionsmaßnahmen zu finden. Beispiele für Fragestellungen sind Abhängigkeiten, Depressionen, Angststörungen, psychophysiologische Störungen (z. B. Asthma, Bluthochdruck), Essstörungen, Partnerschaftsprobleme, Störungen des Sexualverhaltens und der Stressverarbeitung, um nur einige zu nennen. Daneben bestehen traditionell weitere Anwendungsfelder. So gehört es beispielsweise seit langem zu den Aufgaben der Forensischen Psychologie, fundierte Aussagen über die strafrechtliche Verantwortlichkeit eines Täters oder – im Falle von Minderjährigen – dessen Deliktfähigkeit zu machen, des Weiteren über die Glaubwürdigkeit von Zeugen, die Geschäftsfähigkeit bestimmter Personen oder die Bewährungsprognose von Inhaftierten für den Fall ihrer Freilassung. In jedem Fall sind spezifische diagnostische Verfahren nötig. In der Markt- und Werbepsychologie stehen hingegen häufiger Produkte im Mittelpunkt des Interesses. So soll z. B. die Anmutungsqualität eines neuen Artikels oder einer Anzeige ermittelt werden, um die Aussichten auf positive Wirkungen bei den potenziellen Kunden zu optimieren. Analoge Problemstrukturen liegen mitunter in der Ökologischen Psychologie vor, wenn es darum geht, die subjektiven Eindrücke zu diagnostizieren, die durch Wohn-, Arbeits- und Schulumwelten bei den jeweiligen Bewohnern hervorgerufen werden. Im Falle der Verkehrspsychologie besteht – neben der Erfassung der Fähigkeit zum Führen von Fahrzeugen – eine häufig wiederkehrende Problemstellung darin, Ampeln und Schilder so zu platzieren, dass sie gut wahrgenommen werden können, und Kreuzungen und Straßen so zu gestalten, dass die Risiken von Unfällen gemindert werden. In der Pharmakopsychologie interessieren vor allem Präparate mit ihren Haupt- und Nebenwirkungen. In der Gesundheitspsychologie schließlich, um die Reihe von Beispielen abzuschließen, mag die Wirksamkeit eines Programmes zur Einschätzung bestimmter Medikationen oder Diäten Gegenstand diagnostischer Untersuchungen sein. Wie die Auflistung möglicher Beispiele gezeigt hat, handelt es sich bei den Merkmalsträgern, über die diagnostische Informationen eingeholt werden sollen, entweder (direkt) um Individuen bzw. Gruppen von Personen, oder die Merkmalsträger bestehen aus materiellen Substraten, Objekten mit »Dingcharakter« sowie mitunter auch aus Prozessen in Institutionen oder sozialen Gruppen. In diesem Fall manifestieren sich deren Wirkungen erst in der Interaktion mit Menschen. Deshalb müssen deren körperliche und – was hier mehr interessiert – psychische Korrelate in Form von Kognitionen, Einstellungen, Emotionen und Verhaltensweisen registriert werden. Neben Fragestellungen der geschilderten Art, die durch die Suche nach der optimalen Treatmentwahl dem Idealbild von den Aufgaben der psychologischen Diagnostik am nächsten kommen, existiert noch durch eine Reihe völlig anderer Vorgaben oder Motive ein gewisser gesellschaftlicher Bedarf an Diagnostik (nach Wottawa & Hossiep, 1987): 1.2 · Aufgabenbereiche und Fragestellungen 1 Pharmakopsychologie Gesundheitspsychologie Verkehrspsychologie Ökologische Psychologie Markt- und Werbepsychologie Forensische Psychologie Klinische Psychologie Pädagogische Psychologie 5 1 Kapitel 1 · Einleitung Diagnostik zu Auswahlzwecken Diskriminierung von Gruppen Frühe Versuche einer Ausdrucksdiagnostik Mitmenschen erzeugen Unsicherheit Probleme der Selbstdiagnostik Wege der Selbstdiagnostik 6 Immer wieder kommt es vor, dass verfügbare Ressourcen nicht ausreichen, um die Nachfrage zu befriedigen. Ein Beispiel dafür mögen Studien- und Arbeitsplätze bilden. Verwaltung von Mangelzuständen Mitunter liefern diagnostische Informationen über einzelne oder Gruppen von Personen wie Andersgläubige, Farbige, Behinderte oder Ausländer, denen gegenüber (aus welchen Gründen auch immer) tiefsitzende Ressentiments erlebt werden mögen, gleichsam die Rationalisierung für die bestehenden Vorurteile. Oft genug werden die niedrigeren Punktwerte solcher Personen in verbalen Tests (wie etwa die durchschnittlichen Minderleistungen von Schwarzen gegenüber Weißen in allgemeinen IQ-Tests) durch die Unfairness von Tests produziert, d. h. die Resultate stellen letztlich eine Konsequenz ideologisch motivierten Wunschdenkens dar. Ungeachtet einer solchen Genese erweisen sich entsprechende Rechtfertigungen als relativ verbreitet, weil sie einen bequemen Weg darstellen, selektiv diskriminierend zu wirken, ohne kognitive Inkonsistenz erleben zu müssen. Wunsch nach Rechtfertigung Seit jeher erleben Mitmenschen u. a. auch Unsicherheit dahingehend, was von ihnen ggf. zu erwarten oder zu befürchten sei. Eine rasche und richtige Diagnose des Gegenübers stellt in diesem Zusammenhang die Voraussetzung für ein angemessenes eigenes Verhalten dar. Schon frühzeitig sind deshalb Zeichen propagiert worden, um aus der äußeren Beschaffenheit auf den Charakter schließen zu können (z. B. »Fuchs-« oder »Habichtgesicht«, »Ohren wie ein Esel«, »Behaarung wie ein Tier« u. Ä.). Auch die wissenschaftliche Fortführung in Gestalt der Phrenologie, d. h. aus der Form des Schädels auf die Ausprägung von bestimmten Sinnen zu schließen, war nicht erfolgreich. Demgegenüber hat die Analyse von Mimik und Gestik – d. h. der dynamischen Elemente der körperlichen Erscheinung – mit dem Ziel, aus deren Deutung die Persönlichkeit zu erkennen, nicht an Bedeutung verloren. Ein Teil dieser Ausdruckspsychologie ist im Übrigen auch die Graphologie. Trotz einer Reihe einschlägiger Lehrbücher (z. B. Lersch, 1948; Gruhle, 1948) und außerordentlich instruktiver Darstellungen von Detailproblemen (z. B. Rohracher, 1965) handelt es sich bei der individuellen Ausgestaltung der Ausdrucksdiagnostik (soweit es also nicht nur um das richtige Verständnis von situativen Verhaltensvarianten wie Lachen oder Weinen geht) insgesamt wohl heute noch mehr um Intuition und persönliche Kunst als um fundierte Wissenschaft. Bedürfnis nach Unsicherheitsreduktion Viele Menschen interessieren sich, besonders in Zeiten krisenhafter Umstellungen in ihrem Leben, bei denen Fragen des Warum und Wohin eine größere Rolle spielen, besonders nachhaltig für die eigene Person, ihren Charakter, ihre Potenziale und Verhaltensgewohnheiten. Der Blick in selbstverfasste Tagebücher mag dabei hilfreich sein; objektiveren Aufschluss aber dürften i. Allg. Gespräche mit Außenstehenden über das Selbst liefern. Großer Beliebtheit erfreuen sich in diesem Zusammenhang die mehr oder weniger ausgearbeiteten Tests in Publikationen der verschiedensten Art. Ein nicht geringes Problem besteht bei der Selbstdiagnostik darin, dass selbst unter Verwendung brauchbarer Verfahren ein Verständnis für die psychologischen Fachtermini zur Bezeichnung einzelner Konstrukte nicht garantiert werden kann und es offen bleibt, welche Schlussfolgerungen die betreffende Person schließlich aus ihrer Diagnose für sich zieht. Streben nach Selbsterkenntnis Arten von Diagnostik Bedingungsselektion (= Eignungsdiagnostik) (= Konkurrenzauslese) Selektionsdiagnostik Institutionell Personenselektion häufig ABO- und Pädagogische Psychologie häufig Klinische Psychologie Verhaltensmodifikation Bedingungsmodifikation Modifikationsdiagnostik Individuell Arten von Diagnostik Die bereits auf den ersten Blick sehr differenzierenden Anwendungsfelder unterscheiden sich auch systematisch nach der Art der dort zum Einsatz kommenden Diagnostik. Im Bereich der ABO- und pädagogischen Psychologie handelt es sich vorwiegend um sog. institutionelle Diagnostik, die nach Cronbach und Gleser (1965) in Institutionen mit häufig wiederkehrenden gleichbleibenden Fragestellungen praktiziert wird, während individuelle Diagnostik vor allem in der klinischen Psychologie betrieben wird, wo sehr spezielle und häufig wechselnde Problemstellungen dominieren (. Abb. 1.2). Institutionelle Diagnostik ist primär Selektionsdiagnostik. Als Personenselektion (Pawlik, 1976) will sie geeignete Personen für bestimmte Anforderungen (Arbeitsplatz, Schulart, Studienfach) ermitteln. Als Bedingungsselektion versucht sie, geeignete Bedingungen auszuwählen, unter denen eine Person mit bestimmten Eignungsmerk- 1.3 In diesen Fällen scheint es so zu sein, als ob die Verteilung der knappen Güter auf der Basis von psychodiagnostischen Informationen von der öffentlichen Meinung eher akzeptiert würde, weil als »gerechter« empfunden, als wenn nach Zufall, Anciennität oder Vorleistungen entschieden wird. Für Hossiep und Wottawa (1993, S. 135) benötigen gerade demokratische Gesellschaften rationale, nach wissenschaftlichen Methoden entwickelte Selektionsverfahren für verantwortungsvolle Positionen; mit Hinweis auf Hersch (1974) sei leistungsbezogene Selektion daher »kein Gegensatz, sondern die Grundlage einer funktionierenden Demokratie«. Oft läuft die Frage eines Einsatzes von Tests in diesem Zusammenhang auf die Frage hinaus, ob der Nutzen (im Sinne einer Verbesserung der Prognose) und der Gewinn an Prestige (durch das Einsetzen einer auf rationalen Prinzipien aufbauenden Technik) die Kosten (in Einheiten von Geld, Zeit, Mühen, Einschränkung von Gleichheitsidealen u. Ä.) aufwiegen. 1.3 · Arten von Diagnostik 1 . Abb. 1.2. Verschiedene Arten psychologischer Diagnostik Selektion von Personen oder Bedingungen Diagnostik: Institutionell oder individuell Kosten und Nutzen 7 1 Kapitel 1 · Einleitung Eigenschaften werden aus beobachtbarem Verhalten erschlossen Eigenschaften (»traits«) stellen hypothetische Konstrukte dar Verhalten wird als veränderbar angesehen Eigenschaften werden als stabil angesehen Modifikation von Verhalten oder Bedingungen 8 Modellannahmen: Eigenschafts- und Verhaltensdiagnostik (alles konkrete Verhaltensweisen!), dann »denken« wir wahrscheinlich an die nicht direkt beobachtbare Eigenschaft »Aggressivität«. Mit anderen Worten: Wir ordnen sehr verschiedene Verhaltensweisen, die vom Ablauf und den beteiligten Körperteilen nur wenig miteinander zu tun haben mögen, nach bestimmten Gesichtspunkten zu Kategorien oder Klassen, welche nach unserem Dafürhalten etwas gemeinsam haben. Des Weiteren bezeichnen wir die so gebildeten Kategorien mit Eigenschaftsnamen und nehmen innerhalb der Kategorien eine mehr oder weniger explizite Skalierung nach Eine Selektionsdiagnostik, die Personen aufgrund von Eignungsmerkmalen akzeptiert oder ablehnt bzw. bestimmten Arbeitsplätzen zuweist, geht davon aus, dass sich Personen hinsichtlich ihrer eignungsrelevanten Eigenschaften miteinander vergleichen lassen. Die fraglichen Eigenschaften, deren Genese von eher sekundärem Interesse ist, werden als über die Zeit hinweg relativ stabil und situationsinvariant angesehen, sodass die Diagnose ihres Ausprägungsgrades in gewisser Weise die Fortschreibung eines IstZustandes erlaubt und somit Prognosen auf zukünftiges Verhalten zulässt. Der situationale Kontext spielt dabei eine untergeordnete Rolle. Im Gegensatz hierzu geht eine Modifikationsdiagnostik davon aus, dass Verhalten erlernt und damit prinzipiell veränderbar ist und in Abhängigkeit von seinem situationalen Kontext variiert. Dementsprechend richtet sich das Interesse stärker auf Situationen, die ein Verhalten bedingen und aufrechterhalten, des Weiteren auf intrapsychische Veränderungen sowie auf Ansatzpunkte, um ein Problemverhalten zu modifizieren. Diese verschiedenen, hier nur grob umrissenen diagnostischen Strategien und Zielsetzungen rekurrieren dabei auf 2 grundsätzlich verschiedene Modelle oder Prinzipien, die mit Eigenschafts- bzw. Verhaltensdiagnostik bezeichnet werden. Die grundlegende Annahme eigenschaftstheoretischer Konzepte besteht darin, dass sich das Erleben und Verhalten von Menschen in Form von Eigenschaften (»traits«) beschreiben lässt. Diese werden aufgefasst als »relativ breite und zeitlich stabile Dispositionen zu bestimmten Verhaltensweisen, die konsistent in verschiedenen Situationen auftreten« (Amelang & Bartussek, 1990, S. 61 ff.). Eigenschaften sind nicht direkt beobachtbar. Sie stellen hypothetische, gedankliche, konstruierte Gebilde dar, somit Konstrukte, die aus direkt beobachtbaren Verhaltensäußerungen nur erschlossen werden. Wenn wir beispielsweise beobachten, wie ein Kind 4 einem Huhn die Federn ausreißt, 4 sein Spielzeug zerstört, 4 einen Kameraden schlägt und 4 einer erwachsenen Person Schimpfworte nachruft 1.4 malen erfolgreich sein kann (Platzierung von Bewerbern auf geeignete Arbeitsplätze, Berufsempfehlung). Individuelle Diagnostik im Rahmen klinisch-psychologischer Fragestellungen ist dagegen vornehmlich Modifikationsdiagnostik. Sie soll entweder ermitteln, welche spezifischen Verhaltensweisen einer Person verändert werden müssen (Verhaltensmodifikation; z. B. Modifikation aggressiven Verhaltens bei Erziehungsschwierigkeiten) oder welche externen Bedingungen zu ändern sind (Bedingungsmodifikation; z. B. im Rahmen einer Familientherapie bei Erziehungsschwierigkeiten), um ein Problemverhalten abzubauen. Häufigkeits- und Intensitätsgesichtspunkten vor: Wer viele der fraglichen Verhaltensweisen und/oder diese in stärkerer Penetranz zeigt, »hat« eine stärkere Ausprägung auf der »dahinterstehenden«, von uns nur gedachten Eigenschaftsdimension. Die Zusammenfassung der jeweiligen Verhaltensweisen in den besagten Kategorien erfolgt aus Gründen der Ökonomie: Um jemanden zu charakterisieren, bedarf es nicht mehr des Auflistens zahlreicher einzelner Verhaltensweisen, sondern es genügt die Nennung des betreffenden Attributes. Die Verhaltensweisen haben für die Eigenschaften die Funktion von Indikatoren, d. h., sie stehen dazu in einem Verhältnis wie Zeichen zu Bezeichnetem. (Da aber das Indizierte nur aus den Indikatoren erschlossen wird, wäre es unzulässig, das Erste als ursächlich für das Zweite anzusehen, etwa nach dem Prinzip: Der Täter hat gestohlen, weil er ein Dieb ist, oder ein Mitmensch raucht, weil er ein Raucher ist, usw. Ein derartiger Schluss wäre tautologisch, denn in einem solchen Fall würde dasjenige, was aus Verhaltensweisen nur erschlossen wird, zur Ursache eben dessen gemacht, was die Grundlage der Schlussfolgerung ist.) Nach der eigenschaftstheoretischen Konzeption von Persönlichkeit besteht der zweckmäßigste Weg zur Vorhersage des künftigen Verhaltens von Personen darin, deren Eigenschaften im Zuge psychodiagnostischer Bemühungen genau zu erfassen. Aus der zentralen Annahme der transsituativen Konsistenz des Verhaltens resultiert die Vorhersage, dass sich eine Person gemäß ihrer Eigenschaftsausprägungen verhält, und zwar relativ unbeeinflusst vom jeweiligen situativen Kontext. Ein relativ hoher Punktwert in einem Ängstlichkeitstest spräche dafür, dass der betreffende Proband die Eigenschaft aufweist, ängstlich zu sein. Aus diesem Ergebnis lässt sich prognostizieren, dass er auch unter bestimmten anderen, im Test nicht notwendigerweise erfassten Umständen »ängstlich« reagieren wird, also z. B. vor einem wilden Tier weglaufen oder nicht von einem 10-m-Turm ins Schwimmbecken springen wird (. Abb. 1.3). Diesen Modellvorstellungen liegt somit eine Art Analogieschluss zugrunde, was die Inferenz von den Indikatoren der Prädiktorvariablen auf das angeht, was als Kriterium diagnostiziert und prognostiziert werden soll. Für diese Schlussfolgerung bedarf es (zunächst) nicht der Voraussetzung, dass ein Zusammenhang zwischen Test und Kri- 1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik 1 . Abb. 1.3. Eigenschaftsdiagnostik ist z. B. dort relevant, wo nicht alle kritischen Situationen simuliert werden können Prinzip des Analogieschlusses Schlussfolgerung aus Eigenschaften auf zukünftiges Verhalten Verhaltensweisen fungieren als Indikatoren für Eigenschaften 9 1 Kapitel 1 · Einleitung Normorientierte Messung als Bezugsrahmen: Vergleich mit einer Population Validierung von Tests für verschiedene Personengruppen Indikatoren müssen repräsentativ sein Vorhersagen für bedeutungsvolle Situationen gewünscht 10 terium empirisch nachgewiesen ist (wenngleich sich die Zweckmäßigkeit des Schlusses auf Dauer durch entsprechende Evidenzen erweisen sollte). In verschiedenen Bereichen von Gesellschaft und Wirtschaft wurden denn auch seit alters her immer wieder Vorhersagen auf der Basis dieses Modells angestellt, obwohl entweder aus prinzipiellen Gründen oder nur vorläufig und vorübergehend der unterstellte Zusammenhang empirisch (noch) nicht aufgezeigt werden konnte. Beispiele dafür mögen jene Fälle liefern, in denen für kaum simulierbare Aufgaben (wie z. B. dem Verhalten von Kontrollpersonal bei unerwarteten Störungen eines Kernkraftwerkes) gleichwohl die vermutlich bestgeeigneten Personen ausgewählt werden müssen und es sehr lange dauern kann, bis später einmal – wenn überhaupt – irgendwelche »Bewährungsmaße« anfallen. Das allgemeine Kennzeichen einer derartigen Konstellation besteht darin, Vorhersagen für bedeutungsvolle Situationen machen zu müssen, für die aber die im Alltag anfallenden Beobachtungsgelegenheiten nur eine unzureichende Basis liefern (7 Abschn. 1.6). Solche Gelegenheiten bestanden etwa bei den Prüfungen für Anwärter auf Staatsposten im alten China oder bei der Auswahl von Beamten in England für den Dienst in den Kolonien. Auch die weithin gebräuchliche Verwendung von Biografien, Schulnoten und Intelligenzpunktwerten als geradezu universellen Orientierungsgrößen für den »allgemeinen Berufserfolg« beruht primär auf diesem Analogieschluss. Die zur Messung der jeweiligen Eigenschaft herangezogenen Aufgaben bzw. die in ihnen thematisierten Verhaltenstrends (z. B. »Gehen Sie gern auf Parties?«, »Übernehmen Sie bei gemeinsamen Aktionen gern die Führung?« usw.) müssen repräsentativ für die interessierende Eigenschaft sein. Inwieweit dieses Kriterium bei der Entwicklung von Tests dann auch erfolgreich eingehalten worden ist, erweist sich an der empirisch zu überprüfenden Validität eines Verfahrens (7 dazu unten): Hier wird – zwar durchaus unterschiedlich im Fall einzelner Skalen, aber doch in einer prinzipiell stets gleichen Vorgehensweise – festgestellt, inwieweit die eigenschaftstheoretischen Werte der Testung mit Einschätzungen derselben Eigenschaft von anderer Seite (z. B. Lehrer, Vorgesetzte, Kameraden usw.) oder mit gänzlich anderen Indikatoren für die Eigenschaftsausprägungen, etwa aus objektiven Verhaltensmanifestationen (wie Krankheiten, Unfälle, berufliche Position und dergleichen), übereinstimmen. Diese Validierung mag dann entweder eine Verrechnungsvorschrift für die diagnostischen Indikatoren (z. B. Subtests einer Batterie von Skalen) ergeben, die – im Hinblick auf einen maximalen korrelativen Zusammenhang mit dem Kriterium – für alle Personen gleich ist. In einem solchen Fall mögen zwar die einzeln erfassten Variablen in multiplen Korrelationen unterschiedliche Gewichtungsfaktoren erhalten; diese Gewichtungsfaktoren gelten dann aber für alle Personen bzw. Personengruppen. Unterschiede in den verrechneten Testergebnissen für einzelne Personen beruhen dann allein auf interindividuellen Unterschieden in der gemessenen Ausprägung der diagnostizierten Merkmale. Oder es müssen Subgruppen von Personen voneinander unterschieden werden, für die verschiedene Verrechnungsvorschriften gelten (d. h. gemäß der Gruppenzugehörigkeit verschiedene Gewichtungsfaktoren für die einzelnen Variablen in multiplen Korrelationen), weil aufgrund psychologischer Faktoren die Funktionalität der einzelnen Eigenschaften variiert. Dies ist beispielsweise für die sog. »over-« und »underachiever«, erfolgs- und misserfolgsorientierte Probanden, Personen mit unterschiedlichen Lebenserfahrungen und Temperamenten der Fall (7 dazu ausführlicher Abschn. 7.2). Ungeachtet solcher Konsequenzen eines empirischen Aufzeigens des korrelativen Zusammenhanges zwischen Index und Indiziertem (Test und Kriterium) ist der Bezugsrahmen der eigenschaftstheoretischen Vorgehensweise die normorientierte Mes- Einer solchen Begriffsumschreibung gemäß ist beim Versuch, die Persönlichkeit zu beschreiben und ihr Verhalten vorherzusagen, weniger nach »signs« (Indikatoren, Anzeichen) für den Charakter als mehr nach einem repräsentativen »sample« (Stichproben, Beispiele) von Verhaltensweisen zu suchen (die Unterscheidung zwischen Zeichen- und Stichprobenfunktion von Items geht auf Goodenough, 1949, zurück). Im Gegensatz zur herkömmlichen Messung von Eigenschaften bestehen die Tests der verhaltenstheoretischen Schule demnach aus Stichproben des vorherzusagenden (Kriteriums-)Verhaltens selbst (. Abb. 1.4). ! Die Persönlichkeit ist lediglich eine »intervenierende Variable, die definiert ist durch die Wahrscheinlichkeit, mit der eine Person bestimmte Verhaltenstendenzen in einer Reihe von Situationen ihres täglichen Lebens manifestiert« (Goldfried & Kent, 1976, S. 9). Nicht was eine Person an Eigenschaften im Sinne der Traitansätze »hat« oder von was sie, etwa im Sinne der psychodynamischen Betrachtungsweise, »getrieben« wird, steht im Vordergrund des Interesses verhaltenstheoretischer Analysen, sondern was diese Person in verschiedenen Situationen »tut« (nach Mischel, 1968, S. 10). ! »The best predictor of future performance is past performance« (Wernimont & Campbell, 1968, S. 372). sung: Zwischen den einzelnen Verhaltensweisen werden je nach Auftretenshäufigkeit oder -intensität quantitative Abstufungen getroffen. Die individuellen Messwerte stehen so für die jeweilige Ausprägung in der betreffenden Dimension im Vergleich zur Population. Aus der Kenntnis und dem Verständnis der Eigenschaften (als den »grundlegenden Strukturmerkmalen«) leitet somit der trait-orientierte Diagnostiker die Erwartung ab, späteres Verhalten vorhersagen zu können. Demgegenüber wählen Verhaltenstheoretiker einen sehr pragmatischen und direkteren Zugang, indem sie aus konkret beobachtetem Verhalten auch nur dieses vorhersagen wollen: 1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik 1 . Abb. 1.4. Aus Beobachtungen von Verhaltensweisen in »kritischen« Situationen kann man auf zukünftiges Verhalten in ähnlichen Situationen schließen Verhaltenstheoretischer Ansatz 11 1 Kapitel 1 · Einleitung Inhaltsvalidität wichtig Prinzip des Induktionsschlusses 12 realisiert werden, die repräsentativ für Angstinduktion sind. Entsprechend spielt das Konzept der Inhaltsvalidität für verhaltenstheoretische Tests eine wichtige Rolle (zu den Details s. Schulte, 1976; Pawlik, 1976). Als besonders fruchtbar hat sich der verhaltenstheoretische Ansatz bei der Modifikation von Verhaltensweisen erwiesen. Die eigenschaftsorientierte Diagnostik verfolgt als Hauptziel eine Klassifikation von Personen gemäß ihrer Messwerte in taxonomische Anders gelagert sind die Verhältnisse bei der verhaltenstheoretisch beeinflussten Gewinnung von Informationen über den Einzelnen. Hier wird nach Möglichkeit eine »angemessene Repräsentation von Reizsituationen« (Goldfried & Kent, 1976) hergestellt. Für die Messung von Angst bedeutet das z. B., dass solche Stimulationsbedingungen mit Hilfe von 4 Filmen, 4 Dias oder 4 verbalen Beschreibungen Bestimmte Deutungen im Rorschach-Test gelten als Indikatoren für Angst. Wenn ein Proband im Thematischen Apperzeptionstest Geschichten liefert, in denen böse Mitmenschen dem »Helden« Schaden zufügen, dieser vom Pech verfolgt ist, zaudert oder starke Aggressionen zeigt, wird man auch dieses als Zeichen seiner habituellen Ängstlichkeit werten. Der Rückschluss auf die Ausprägung in der Dimension »Ängstlichkeit« soll sodann über das Verständnis der Personen hinaus eine Vorhersage von deren zukünftigem Verhalten gewährleisten. Eine solche Prognose ist u. a. belastet durch die Unsicherheit der Beziehung zwischen Index und Indiziertem; denn dass die Antwort »Blut« auf Angst hinweist, die Deutung einer weißen Fläche eine negativistische Haltung indiziert (s. Hörmann, 1964), muss noch durch gesonderte Validitätsstudien erwiesen werden. Beispiel Beispiele dafür sind z. B. Farbtüchtigkeitsbestimmungen (bei denen die Probanden unterschiedliche Farben gleicher Helligkeit erkennen müssen) oder die Prüfung von Kenntnissen der Straßenverkehrsgesetze (wo in den theoretischen Prüfungen zur Erlangung der Fahrerlaubnis die Kandidaten zu gezeichneten oder geschilderten Szenarien aus dem Verkehrsgeschehen Stellung nehmen sollen). Des Weiteren lässt man die geforderte Tätigkeit auch direkt ausüben, wie z. B. in der praktischen Führerscheinprüfung ein Fahrzeug bewegen oder bei der Entscheidung über die Besetzung einer Schreibkraftstelle die Bewerber während einer Zeit schreiben, um dabei Geschwindigkeit und Richtigkeit der Arbeitsleistung beobachten zu können. Der Schluss ist dabei ein solcher der Induktion, d. h. es wird davon ausgegangen, dass das hier und jetzt (= speziell) gezeigte Verhalten auch zu anderen Anlässen (= allgemein) auftritt. Zwar ist dieser Schluss nicht logisch zwingend, doch wird man in zahlreichen Fällen auf die Verlässlichkeit eines solchen Vorgehens bauen dürfen. Da es mitunter unökonomisch und langwierig ist, Beobachtungen in natürlichen Situationen anzustellen, werden diese gewöhnlich in der experimentellen Anordnung des Rollenspiels »nachgestellt«. Gebräuchlich ist auch die Auswertung von verbalen Äußerungen des Individuums über seine Reaktionsweisen in spezifischer Umgebung. Ein Beispiel für den eigenschaftstheoretischen Ansatz soll das eben Ausgeführte veranschaulichen: Zur Untersuchung des individuellen »Belohnungsaufschubs« (»delay of gratification«) muss sich der Proband zwischen einem weniger wertvollen Gegenstand, der sofort erhältlich ist, und einem wertvolleren, der aber erst nach Ablauf einer Zeit zur Verfügung steht, entscheiden. Von den in der Testsituation mit ganz verschiedenen Objekten realisierten Entscheidungen (z. B. 5 DM jetzt gegenüber 10 DM in 2 Wochen) wird angenommen, dass sie in derselben Weise auch außerhalb der Untersuchungssituation erfolgen würden. Sehr verbreitet ist die Technik des »behavior sampling«, und zwar vor allem in der Klinischen Psychologie. Dort stellt häufig das Personal einer therapeutischen Institution im Hinblick auf die Behandlung eingehende Verhaltensbeobachtungen an. Einige Beispiele für verhaltenstheoretische Methoden und anderen Quellen. Der damit verfolgte Ansatz geht davon aus, »dass eine Beschreibung des problematischen Verhaltens, seiner kontrollierenden Bedingungen und der Mittel, durch die es geändert werden kann, die angemessensten ›Erklärungen‹ für das Verhalten … sind« (Kanfer & Saslow, 1976, S. 35). Sofern das Verhalten selbst die Grundlage von Verhaltensvorhersagen ist, verfügen verhaltenstheoretische (und damit behavioristische) Methoden über einige offenkundige Vorzüge: Absichtliche oder unabsichtliche Verfälschungen sind weniger wahrscheinlich, da es schwerer fallen dürfte, das Verhalten selbst und nicht nur einen Bericht darüber zu verfälschen. Ferner ergibt sich in geringerem Maße als bei den eigenschaftsorientierten Messungen die Frage nach der Fairness von Tests (s. dazu Möbus, 1978; Wottawa & Amelang, 1980; Bartussek, 1982). Schließlich ist auch der zunehmend kritisch beurteilte Gesichtspunkt einer Wahrung der persönlichen Intimität und individuellen »Privatheit« (Kruse, 1980) weniger akut, da nicht in die »Tiefen« einer Person eingedrungen wird (s. Sherman, 1979, S. 238/39). Die Informationen für die funktionale Verhaltensanalyse werden gewonnen aus 4 Interviews mit dem Probanden oder Patienten selbst sowie Bekannten der zu diagnostizierenden Person, 4 Testergebnissen und Verhaltensbeobachtungen, 4 einer Erkundung der Vorgeschichte des Klienten Einheiten (wie z. B. »Schizophrenie«, »Paranoia« und dergleichen), woraus aber noch keinerlei Handlungsanweisungen für eine Beeinflussung des Verhaltens resultieren. Dagegen liefert der lerntheoretische Ansatz Informationen, die aufgrund ihrer höheren Spezifität und Situationsbezogenheit wesentlich mehr Bedeutung für jegliche Intervention besitzen. Das zentrale Instrument zur Erfassung der situativen Faktoren, die das Verhalten kontrollieren und hervorbringen, stellt dabei die funktionale Analyse (Kanfer & Saslow, 1976, S. 34 ff.) dar. Inzwischen gehört diese Methode zum Standardrepertoire jeder lerntheoretisch betriebenen Therapie. Sie beinhaltet eine Untersuchung 4 des Kontextes, in dem ein kritisches Verhalten (z. B. Bettnässen) auftritt, 4 der Qualität und Intensität des kritischen Verhaltens, 4 der Folgen des Verhaltens für den Betreffenden und seine Umwelt, 4 der Möglichkeiten der Person und ihrer Umwelt für eine Modifikation und schließlich 4 der möglichen Rückwirkungen einer Verhaltensänderung auf den Betreffenden und seine Umwelt. 1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik 1 »Behavior sampling« in der Klinischen Psychologie Vorzüge des verhaltenstheoretischen Ansatzes Funktionale Verhaltensanalyse Lerntheoretischer Ansatz 13 1 Kapitel 1 · Einleitung Fragebogen Rollenspiel . Abb. 1.5. Auszug aus dem »Fear Survey Schedule FSS« und dem »Rathus Assertiveness Schedule RAS« Beispiel für Fragebogen 14 Verschiedene Hilfsmittel erleichtern dabei die Registrierung von Häufigkeit und Dauer der interessierenden Verhaltenskategorien (z. B. Sitzen, Gehen, Lachen, Reden usw.). In aller Regel werden die gebildeten Klassen möglichst »verrichtungsnah« definiert, um die externen Beobachter hinsichtlich der von ihnen geforderten Kategorisierungsleistungen nicht zu überfordern, oder um nicht mehr als unvermeidlich subjektive Momente einfließen zu lassen. Eine weitere Variante zur Gewinnung von verhaltenstheoretisch relevanten Informationen stellt das Rollenspiel dar. Im Allgemeinen wird darauf zurückgegriffen, um in kurzer Zeit Anhaltspunkte über Verhalten in Situationen zu gewinnen, für die selten Gelegenheit zur Beobachtung besteht (z. B. Interaktionen zwischen Ehepartnern unter bestimmten Stressbedingungen). Was selbstbeobachtetes Verhalten angeht, so sind auch vor dem Hintergrund der Verhaltenstheorien zahlreiche Fragebogen entstanden. Einige beschäftigen sich mit dem Angstgehalt verschiedener Situationen. Eine besonders große Verbreitung im klinischen Bereich hat das von Wolpe und Lang (1964) publizierte »Fear Survey Schedule (FSS)« erfahren (. Abb. 1.5). Die Grundprinzipien der oben dargelegten Modellvorstellungen zusammenfassend, stellt sich der Zusammenhang zwischen Prädiktoren und Kriterien (Indikatoren und Indiziertem sensu Wottawa & Hossiep, 1987) wie in . Abb. 1.6 grafisch veranschaulicht dar. Fear Survey Schedule (FSS) »Die Stichworte in diesem Fragebogen beziehen sich auf Dinge und Erfahrungen, die Angst oder unangenehme Gefühle hervorrufen können. Machen Sie bitte für alle Stichworte jeweils an der Stelle der Punkteskala ein Kreuz, die am besten den Grad Ihrer zurzeit bestehenden Angst beschreibt.« gar ein deutsehr nicht wenig lich stark stark Würmer Tote Tiere Leute mit Missbildungen Eine Straße überqueren Weite offene Räume Laute Stimmen Einem Kampf zusehen Menschliches Blut Bei einer Operation zusehen (Aus Schulte, 1976, S. 256) Rathus Assertiveness Schedule (RAS) Geben Sie an, wie charakteristisch jede der nachfolgenden Fragestellungen für Sie ist. + 3 sehr charakteristisch, sehr zutreffen ⯗ – 3 sehr uncharakteristisch, sehr unzutreffend »Die meisten Leute sind aggressiver und zeigen mehr Durchsetzungsvermögen als ich.« »Wenn ich um etwas gebeten werde, bestehe ich darauf, zu erfahren, warum.« »Über schlechten Service im Restaurant oder woanders beschwere ich mich.« (Nach Rathus & Nenid, 1977, S. 137–139) Beispiel Diagnostische Strategien Pawlik (1976, S. 23) hat die unterschiedlichen Dimensionen und Zielsetzungen, die mit den genannten Modellannahmen verbunden sind, in einer Übersicht zusammengefasst (. Tab. 1.1). Nach seiner Analyse lassen sich selektionsorientierte Eigenschaftsdiagnostik und verhaltensbezogene Modifikationsdiagnostik relativ gut voneinander abheben und halbwegs eindeutig unterschiedlichen psychologischen Arbeitsfeldern zuordnen. ! Modifikationsdiagnostik ist folglich kriteriumsorientierte Prozessdiagnostik. Modifikationsdiagnostik muss nach ihrem Selbstverständnis dagegen Prozessdiagnostik sein und Veränderungen des Verhaltens durch wiederholte Untersuchungen zu erfassen suchen. Die Annahme einer situativen Abhängigkeit des Verhaltens verbietet die Beschränkung des diagnostischen Prozesses auf eine begrenzte Verhaltensstichprobe. Sie erfordert statt dessen eine systematische Inventarisierung des gesamten für die Fragestellung relevanten Verhaltensrepertoires zur Erfassung situationsbedingter Variationen. Aber nicht Differenzen zu einer Vergleichsnorm, sondern die Distanz zu einem definierten Kriterium bestimmen Beginn und Ende von Interventionsmaßnahmen. ! Selektionsdiagnostik ist somit normorientierte Statusdiagnostik zur Schätzung des Ausprägungsgrades von Eigenschaften. Aus den im vorangegangenen Kapitel dargelegten unterschiedlichen Modellannahmen von Eigenschafts- und Verhaltensdiagnostik resultieren nach Pawlik (1976) auch unterschiedliche diagnostische Strategien: Selektionsdiagnostik kann sich als Statusdiagnostik auf die einmalige Feststellung eines Ist-Zustandes beschränken, da zeitstabile Eigenschaften Prognosen bereits nach einmaliger Messung ermöglichen. Die Testuntersuchung liefert anhand einer Stichprobe von Testitems einen Schätzwert der selektionsrelevanten Eigenschaft. Ihr Ausprägungsgrad soll in Relation zu einer Vergleichsnorm Handhabe für geeignete Entscheidungen liefern. 1.5 1 Prozessdiagnostik: Wiederholte Untersuchungen erfassen Verhaltensänderungen Statusdiagnostik: Einmalige Feststellung eines Ist-Zustandes . Abb. 1.6. Grundprinzipien diagnostischer Modelle zum Zusammenhang zwischen Index und Indiziertem 15 1 Kapitel 1 · Einleitung Grundlagenfach: Diffentielle Psychologie und Persönlichkeitsforschung Überschneidung diagnostischer Aufgaben in den Anwendungsfeldern 16 Individuelle Position relativ zu einem Verhaltenskriterium Verhaltensstichprobe → Eigenschaftswert 3. Testen (Inter-)individuelle Unterschiede 2. Normorientierte Diagnostik Kriterienorientierte Diagnostik Veränderungsmessung Ist-Zustand (diagnostisch oder prognostisch) 1. Statusdiagnostik Prozessdiagnostik Diagnostische Zielsetzung Dimension . Tabelle 1.1. Unterschiede zwischen Eigenschafts- und Verhaltensdiagnostik. (Nach Pawlik, 1976, S. 236) ⇔ ⇔ Meilensteine in der Geschichte der psychologischen Diagnostik Wie eingangs dargelegt wurde, handelt es sich bei der psychologischen Diagnostik um eine primär anwendungsorientierte Disziplin. Das »dazugehörige« Grundlagenfach ist die Differentielle Psychologie und Persönlichkeitsforschung. Beide Fächer sind sehr eng miteinander verflochten (s. Bartussek & Amelang, 1992): Hier wie dort kommt es darauf an, Unterschiede zwischen und innerhalb von Personen zu beschreiben mit dem Ziel, das augenblickliche Verhalten erklären und zukünftiges prognostizieren zu 1.6 Eigenschaftsdiagnostik findet man überwiegend dort, wo eignungsdiagnostische Entscheidungen getroffen werden, Modifikationsdiagnostik vor allem im Bereich der Klinischen Psychologie. Aber bereits in der Pädagogischen Psychologie überschneiden sich die diagnostischen Aufgaben. Selektionsdiagnostik findet vor allem in Fragen der Schullaufbahndiagnostik Anwendung, während Modifikationsdiagnostik bei der Untersuchung gestörter Lernprozesse sowie zur Planung und Evaluation pädagogischer Behandlungsmaßnahmen erforderlich wird. Selbst in der betrieblichen Eignungsdiagnostik sind die Fronten nicht mehr ganz klar. So fordern Triebe und Ulich (1977) zur Optimierung eignungsdiagnostischer Selektionen eine Prozessdiagnostik mit zwischengeschalteter Lernphase. Andererseits werden auch in der Klinischen Psychologie Selektionen dort vorgenommen, wo die Zuteilung von Behandlungsalternativen an das Vorliegen bestimmter Voraussetzungen gebunden ist. Insgesamt gesehen ist das Schema von Pawlik hilfreich für eine Klassifikation der sehr großen Zahl psychologischer Verfahren mit ganz unterschiedlicher Basis rationaler und theoriebezogener Konstruktionsgesichtspunkte und der unterschiedlichen Zielsetzungen ihres Einsatzes. Entscheidungs- und Behandlungsoptimierung Schätzung eines Eigenschaftswertes Diagnostik als Information für und über Behandlung Verhaltensrepertoire (-hierarchie) Inventarisieren 4. Diagnostik als Messung ⇔ ⇔ 1.5 · Diagnostische Strategien ⇔ ⇔ ⇔ ⇔ (S.135-178) Gütekriterien psychometrischer Tests und ihre Bestimmung (S.26-32) Voraussetzungen und theoretische Basis psychometrischer Tests Grundlagen diagnostischer Verfahren 2 Realisierung meist nur einer Stimuluskonfiguration 2.1.3 2.1.2 2.1.1 Die klassische Testtheorie (KTT) – 33 2.1.1.1 Zentrale Definitionen – 33 2.1.1.2 Der Standardmessfehler – 36 2.1.1.3 Minderungskorrekturen und Reliabilitätsindex – 39 2.1.1.4 Reliabilität und Testlänge – 44 2.1.1.5 Implikationen für die psychodiagnostische Praxis – 48 2.1.1.6 Kritik an der KTT – 60 Item-Response-Theorie (IRT) – 64 2.1.2.1 Grundüberlegungen der Item-Response-Theorie – 65 2.1.2.2 Dichotome Latent-Trait-Modelle – 68 2.1.2.3 Weitere Modelle der IRT – 82 Grundlagen kriteriumsorientierter Tests – 89 2.1.3.1 Die Generierung inhaltsvalider Itemmengen – 89 2.1.3.2 Die Setzung sachgerechter Normen – 89 2.1.3.3 Die Ermittlung zufallskritischer Trennwerte – 90 2.1.3.4 Weitere Probleme kriteriumsorientierter Tests – 92 Voraussetzungen und theoretische Basis psychometrischer Tests Alle diagnostischen Verfahren gehen davon aus, dass Unterschiede bestehen und diese gemessen werden können. Im Sinne der eingangs dargelegten Aufgabenfelder der Psychologischen Diagnostik betreffen diese Unterschiede solche zwischen Personen, Objekten, Behandlungen, Institutionen usw. Weil die interindividuelle Perspektive, wie historische Analysen zeigen, den Beginn ernsthafter Bemühungen um die psychodiagnostische Erfassung von Merkmalsausprägungen bestimmt hat und auch heute noch im Vordergrund der beruflichen Routinetätigkeit vieler Psychologen steht, folgt die nachfolgende Darstellung hauptsächlich diesem Gesichtspunkt. Die einzelnen thematisierten Überlegungen, Prinzipien und Probleme gelten in den Grundzügen jedoch auch für andere diagnostische Problembereiche. Wie immer die zu leistende Differenzierung inhaltlich auch beschaffen sein mag, weisen die dafür denkbaren Ansätze doch eine Reihe von wesentlichen Gemeinsamkeiten auf: Ein bedeutsamer Gesichtspunkt besteht darin, dass genau definierte situative Bedingungen hergestellt werden, die in Verbindung mit der gegebenen Instruktion und den interessierenden Persönlichkeitsmerkmalen als Auslöser oder Determinanten des beobachtbaren, diagnostisch relevanten Verhaltens gelten. In der Unterscheidung zwischen der unabhängigen Variablen (meist eine experimentell manipulierte Stimulusdimension) und der abhängigen Variablen (gewöhnlich die Beobachtungsgröße, also ein morphologisches oder Verhaltensmerkmal) wird diese Betrachtungsweise deutlich. Wenn etwa bei 10 min Zeitvorgabe doppelt so viele Aufgaben richtig beantwortet werden wie bei 5 min, so liegt es nahe, die unterschiedliche Zeit der Bearbeitung als Erklärung für die unter beiden Bedingungen verschiedenen Lösungshäufigkeiten heranzuziehen. In aller Regel verzichtet die Psychodiagnostik jedoch auf die Variation der Situationsfaktoren, wie sie für die Experimentelle (Allgemeine) Psychologie kennzeichnend ist, und greift lediglich eine bestimmte Stimuluskonfiguration aus dem Universum möglicher Faktorenkombinationen heraus. Die unter einer solchen Bedingung, in nur 2.1 Kapitel 2 · Grundlagen diagnostischer Verfahren Herstellung genau definierter situativer Bedingungen 26 Zur Bedingungskonstanz in der psychologischen Diagnostik In der einschlägigen Literatur wird regelmäßig darauf hingewiesen, dass die Konstanz der Durchführungsbedingungen einerseits zwar unabdingbar sei, andererseits aber doch nie so recht gegeben sei. Um der daraus resultierenden misslichen Lage zu begegnen, haben Sader und Keil (1966) die vorliegenden Untersuchungen gesichtet und daran ansetzend konkrete Ratschläge für den diagnostischen Praktiker abgeleitet. Ihrer Übersicht zufolge gibt es teils empirische, teils experimentelle Belege dafür, dass u. a. die Ich-Beteiligung der Probanden, deren Erfolg und Misserfolg sowie Testangst, Lob und Tadel von Seiten des Testleiters, des Weiteren allgemeine Eigenschaften und konkrete Verhaltensweisen des Diagnostikers, wahrgenommener Zeitdruck, Messintention und Testmotivation sowie unterschiedliche Vorübung und absichtliche Verfälschung die Ergebnisse beeinflussen und damit die strikte Standardisierung in Frage stellen. Allerdings sind in vielen der geschilderten Fälle die beobachteten Effekte durch extreme Manipulationen zustande gekommen, mit deren Hilfe die potenzielle Wirksamkeit des jeweiligen Faktors nachgewiesen werden sollte. Bei sachgemäßer Testvorgabe wäre deren Auftreten ganz unwahrscheinlich. Auch muss zwischen der statistischen Signifikanz eines Effektes und dessen praktischer inhaltlicher Relevanz unterschieden werden. Eine der Schlussfolgerungen der Autoren lautet daher, dass ungeachtet der referierten Effekte von einer für praktische Belange durchaus hinreichenden Bedingungskonstanz ausgegangen werden könne. »Stabilitäts- und Validitätsdaten der Größenordnung, wie sie in der Tat vorliegen, wären nicht möglich, wenn nicht Versuchsbedingungen im diagnosti6 Exkurs einem Feld eines imaginären Versuchs- oder Erhebungsplanes mit unendlicher Zahl an Faktoren und Abstufungen (z. B. Typen und Schwierigkeiten von Aufgaben, Zeitbemessung, Instruktion usw.), zwischen den Individuen noch auftretenden Verhaltensunterschiede liefern den Gegenstand bzw. Ansatzpunkt der personenzentrierten Psychodiagnostik. Miteinander vergleichbar und damit sinnvoll sind die ermittelten Punktwerte als quantitative Äquivalente für das beobachtete Verhalten (in Einheiten richtig gelöster Aufgaben, mit »Ja« beantworteter Fragen zu bestimmten Persönlichkeitsausprägungen usw.) verschiedener Personen nur dann, wenn die Bedingungen, unter denen eben dieses Verhalten provoziert wurde, bei allen Individuen identisch oder doch weitgehend ähnlich sind. Wenn beispielsweise der eine Bewerber während 15 min 20 komplexe Denkprobleme löst, wo der andere innerhalb von 20 min 23 richtige Antworten liefert, kann die unterschiedliche Trefferrate nicht im Sinne einer unterschiedlichen Fertigkeit der beiden Probanden verstanden werden. Analog dazu sind niedrige Punktwerte in einem Leistungstest nicht im Sinne unzureichender Konzentration zu werten, wenn der Testperson während der Bearbeitung der Bleistift abgebrochen ist und sie deshalb die richtigen Lösungen nicht kennzeichnen konnte oder wenn sie durch störende Geräusche, einen unruhigen Nachbarn, unzureichende Lichtverhältnisse oder das Beschlagen der Brille bei der Bearbeitung der Aufgaben behindert war, während andere Probanden durch keinen dieser Faktoren beeinträchtigt wurden. Die Konstanz bzw. Identität der Bedingungen oder Standardisierung ist somit eine Grundvoraussetzung für die Ermittlung und sinnvolle Interpretation jeglicher interindividueller Unterschiede. 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Konstanz der Bedingungen notwendig 27 2 2 Differenzierung am größten bei Aufgaben mittlerer Schwierigkeit Idealfall: Robustheit gegen andere (störende) Faktoren Diese nur auf den ersten Blick überraschende Tatsache hat Lienert (1989) außerordentlich instruktiv in einem Szenario veranschaulicht, in dem jeder der »Verlierer« jedem Wenn eine bestimmte Aufgabe von 50 Probanden aus einer Stichprobe von N = 100 Personen gelöst wird, so differenziert diese Aufgabe nicht nur zwischen den 50 Probanden mit der richtigen und den restlichen 50 Probanden mit der falschen oder gar keiner Antwort, sondern zwischen jedem der 50 Probanden, die das Item richtig beantworten und jedem der 50 Probanden, bei denen das nicht der Fall ist. Eine solche Aufgabe hat somit insgesamt 50 × 50 = 2500 Unterscheidungen getroffen. Beispiel Bei herkömmlichen Tests, die eine spezifische Variante von Bedingungen zur Provokation von Stichproben des Verhaltens darstellen, ist der Forderung nach Standardisierung durch Gleichheit des Materials, Identität der Instruktionen, genauen Anleitungen zur Durchführung und Auswertung usw. Rechnung getragen. Dennoch ist evident, dass nicht alle denkbaren Einzelfaktoren oder Störgrößen strikt kontrolliert werden können. In dem Maße, in dem sich Bedingungen der Kontrolle des Untersuchungsleiters entziehen, wird die Objektivität eines diagnostischen Verfahrens beeinträchtigt, d. h. dessen Unabhängigkeit von der Person des Testleiters und den damit möglicherweise verbundenen Besonderheiten in ihren verschiedenen Aspekten der Durchführung, Auswertung und Interpretation. Dies muss letztlich auch Minderungen der Reliabilität und Validität zur Folge haben (7 Abschn. 2.3.3). Im Idealfall erweist sich die gewählte Methode der Datengewinnung als hoch sensitiv gegenüber den Phänomenen oder Variablen, an denen man aus theoretischen Gründen interessiert ist, aber als robust und unempfindlich gegenüber allen anderen Faktoren (Pervin, 1970, S. 73). Die mit Hilfe von Tests realisierten Bedingungen werden i. Allg. so festgesetzt, dass die Variabilität des Verhaltens als Ansatzpunkt der personenzentrierten Psychodiagnostik maximal ist. Diese Differenzierung, die ebenfalls eine Grundvoraussetzung jeder Gewinnung von sinnvollen Informationen darstellt, ist dann am größten, wenn Tests oder ihre Bestandteile (einzelne Aufgaben, Untertests usw.) eine mittlere Lösungswahrscheinlichkeit aufweisen für jene Fähigkeits- oder Merkmalsausprägungen, in denen eine Diskriminierung vorgesehen ist. Dies kann mit einem Beispiel verdeutlicht werden: schen Experiment in einem gewissen und nicht unbeträchtlichen Maße konstant gehalten werden könnten« (Sader & Keil, 1966, S. 299). Die Vorschläge für die praktische Umsetzung reichen von der Rezipierung der relevanten Literatur über eine sachgerechte Befragung im Anschluss an durchgeführte Untersuchungen bis zu einer sorgfältigen Ausnutzung der Möglichkeiten zur allgemeinen Gestaltung der Gesamtsituation. Diese kann in einer Einleitungsansprache, Zwischenerläuterungen oder sogar in der Vorschaltung von Anwärmtests bestehen, wo dies geboten erscheint. Auch die nachträgliche Korrektur von Testergebnissen ist in solchen Fällen möglich, wo sich Fehler sachwidrig ausgewirkt haben mögen. Im konkreten Einzelfall werden solche Ratschläge nur bedingt weiterhelfen, weshalb sich der Diagnostiker dann zwangsläufig auf allgemeine wissenschaftliche Standards und wohl auch auf »den gesunden Menschenverstand (verlassen muss), wenn dieses der Sachlage nach geboten erscheint.« (Sader & Keil, 1966, S. 301). Kapitel 2 · Grundlagen diagnostischer Verfahren Idealfall: Sensitivität gegenüber interessierenden Faktoren 28 der »Gewinner« (Personen ohne bzw. mit richtigen Lösungen) zu dessen »Erfolg« durch Händedruck oder Schulterklopfen gratuliert hat. Im Falle des obigen Beispiels wäre das gleichbedeutend mit 2500 einzelnen Handreichungen. Wenn andererseits ein Item in einem Kenntnis-, Persönlichkeits- oder Interessentest nur von 20 der 100 Probanden in einer bestimmten Richtung beantwortet wird, so unterscheidet es zwischen 20 × 80 = 1600 Probandenpaaren. Noch schwierigere (oder auch leichtere) Aufgaben in Leistungstests bzw. solche mit sehr seltenen (oder auch häufigen) Beantwortungen sind trotz ihrer damit gegebenen verminderten Differenzierungskraft in der Gesamtpopulation in fast allen Verfahren enthalten, weil mit ihrer Hilfe auch in den Teilpopulationen »sehr guter« bzw. »sehr schlechter« Probanden (mit Ausprägungen in den Extrembereichen der jeweiligen Dimension) zwischen den Merkmalsträgern unterschieden werden kann, d. h. auch in den Extrembereichen ist eine mittlere Lösungswahrscheinlichkeit, bezogen auf die dortige Merkmalsausprägung, optimal. Ohne jeden Nutzen für eine Differenzierung sind solche Items, die überhaupt nicht streuen, d. h. nur einen invarianten Testpunktwert (meist 0 oder 1, »ja« oder »nein« usw.) liefern. Diese bedeuten lediglich das Hinzufügen (oder Weglassen) eines für alle Merkmalsträger konstanten Betrages auf der jeweiligen Dimension. Sofern ihnen nicht eine besondere Funktion zukommt, z. B. als »Eisbrecher« (»Möchten Sie, dass Ihr Leben schön ist?«) oder zur Überprüfung einer angemessenen Handhabung der Bearbeitungsmodalitäten und des Antwortblattes (»Haben Sie die Instruktion verstanden?«) oder zur Verschleierung der Messintention der anderen Items, wird auf sie deshalb aus Ökonomiegründen gewöhnlich verzichtet. Aus diesen Erwägungen geht auch hervor, dass in jenen Fällen, wo Aufgaben bei der Ermittlung des Gesamtpunktwertes gleich gewichtet werden (etwa 1 Punkt im Sinne des Merkmals bei jeder logisch richtigen Lösung oder einer symptomatisch relevanten Antwort verrechnet wird), gleichwohl eine implizite Gewichtung stattfindet, und zwar nach dem Beitrag, den das Item an der Variation des Gesamtpunktwertes leistet, also seiner Differenzierungskraft. In der Gewichtigkeit noch vorgeordnet ist die Forderung nach Objektivität der psychodiagnostisch relevanten Information, egal ob es sich dabei um das Ausdrucksverhalten von Personen, deren Berichte über Träume, Gefühle und Erlebnisse, um Testdaten oder Registrierungen physiologischer Reaktionen handelt. Nur dasjenige kann Gegenstand einer empirischen Wissenschaft und konkret einer diagnostischen Methode sein, was die Voraussetzung erfüllt, ein sog. »öffentlicher Sachverhalt« (Herrmann, 1976) und damit prinzipiell anderen Personen zugänglich zu sein. Außerdem muss es der Bedingung entsprechen, objektiv zu sein, d. h. es muss von mehreren Beobachtern in hinreichender Weise als gleich wahrgenommen oder eingeschätzt werden und damit möglichst weitgehend unabhängig von der Person des Beobachters sein. Im Falle einer Feststellung der Zahl richtiger Lösungen in einem Kenntnistest werden 2 Auswerter, von Flüchtigkeitsfehlern vielleicht abgesehen, vollständige wechselseitige Übereinstimmung aufweisen. Dies wird besonders dann der Fall sein, wenn die richtigen Antworten unter den angebotenen Mehrfachwahlen nur angekreuzt zu werden brauchen und für die Auswertung eine Schablone zur Verfügung steht. Viel schwerer dürfte aber Konkordanz zu erzielen sein, wenn beispielsweise aufgrund des Ausdrucksverhaltens beurteilt werden soll, ob ein Proband als »gehemmt« oder aber als »beherrscht« anzusehen ist, weil hier bei der Einordnung der Beobachtungsdaten sehr viel stärker auch interpretative Elemente mit einfließen (. Abb. 2.1). (Auf die unterschiedlichen Aspekte von Objektivität und ihrer numerischen Bestimmung wird unter 7 Abschn. 2.3 detaillierter eingegangen.) 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Objektivität = Unabhängigkeit vom Testleiter Gewichtung von Items gemäß ihrer Differenzierung Funktion nichtdifferenzierender Items 29 2 Abhängigkeit des diagnostischen Ansatzes von der theoretischen Einbettung Stabilität Reliabilität = Messgenauigkeit als »rein« technisches Kriterium Sollen die sich in den Messwerten niederschlagenden Merkmalsausprägungen als charakteristisch für die betreffenden Personen, Objekte, Sachverhalte usw. gelten, müssen sie reliabel sein, d. h. richtig im Sinne formaler Exaktheit, wobei davon abgesehen wird, ob die vorgenommene Messung auch dasjenige Merkmal getroffen hat, das Ziel der Messung war. Das heißt, es sollten – in Analogie zum Anspruch der theoretischen Reproduzierbarkeit von Resultaten aus der experimentellen Psychologie – bei einer erneuten Realisierung der betreffenden Bedingungskonstellationen bei den erfassten Merkmalsträgern in etwa dieselben Verhaltensäußerungen auftreten. Verschiedene Gründe (darunter Einflüsse durch Übung und Gedächtnis) stehen einer derartigen direkten Wiederholung aber oftmals entgegen. Es sind deshalb mehrere methodische Alternativen zur Bestimmung der Reliabilität entwickelt worden (7 dazu mehr im Abschn. 2.3.1.2). Im Fall der gleichwohl mitunter besonders aussagekräftigen Wiederholungsuntersuchungen läuft die Forderung nach Reliabilität auf eine möglichst hohe Korrelation zwischen den aus verschiedenen Beobachtungszeitpunkten rührenden Messwerten ein und derselben Stichprobe von Merkmalsträgern hinaus; hier spricht man dann von Stabilität (als einem besonderen Aspekt der Reliabilität). Einen Sinn erhalten die in den Miniatursituationen von Tests oder im größeren Rahmen von »natural settings« gewonnenen Messwerte meist erst durch den Bezug auf eine Theorie. Schon der Inhalt theoretischer Konzeptionen bestimmt in gewissem Ausmaß die Technik der Informationsgewinnung und die Art der zu erhebenden Messwerte. Unmittelbar augenfällig wird das bei einem Vergleich zwischen der bereits erwähnten sog. Verhaltens- und Eigenschaftsdiagnostik: Im ersten Fall stellen die Beobachtungsgrößen nur eine nach Möglichkeit repräsentative Stichprobe aus der viel größeren Population gleichartiger Verhaltensweisen dar, im zweiten stehen sie stellvertretend für die Ausprägung von bestimmten Eigenschaften, indizieren also etwas qualitativ völlig Andersartiges (Unterscheidung zwischen »sample« und »sign«). Da es sich bei den (»Dispositions-«)Eigenschaften um hypothetische Konstrukte, also erdachte Gebilde handelt, hängt es weitgehend vom Inhalt der jeweiligen Theorie ab, welche Indikatoren als angemessen gelten können. Wenn beispielsweise davon ausgegangen wird, dass die davon Betroffenen selbst über die Intensität erlebter Konflikte Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.1. Bei projektiven Verfahren wie z. B. dem TAT ist sowohl die Durchführung als auch die Auswertung nicht unabhängig von der Person des Testleiters 30 berichten können, erscheinen direkte Fragen danach zweckmäßig. Hingegen liegen völlig andere Zugänge nahe, z. B. solche über projektive Verfahren mit dementsprechend fundamental anderen diagnostischen »Anzeichen«, wenn der Theorie zufolge die Konflikte unbewusst ablaufen und damit per definitionem ein davon Betroffener selbst nichts weiß und daher auch keine Auskünfte erteilen kann. Die Brauchbarkeit der vorgenommenen Messoperationen sowie diejenige der damit erhaltenen Resultate muss sich sodann im Kontext weiterer Informationen erweisen, d. h., die Empirie wirkt zurück auf die Theorie und kontrolliert gleichsam die aus ihr abgeleiteten Aussagen. Theorie und Empirie bedingen einander gegenseitig und stehen so in einem Verhältnis wechselseitiger Abhängigkeit. Übertragen auf psychodiagnostische Verfahren läuft dies i. Allg. auf die Forderung nach dem Nachweis der Validität oder Gültigkeit hinaus. Das heißt, durch gezielte zusätzliche Untersuchungen müssen Hinweise dahingehend erbracht werden, dass der Test tatsächlich dasjenige misst, das er messen soll oder die Konstrukteure zu messen vorgeben (. Abb. 2.2; Validierung). Beispielsweise wird man bei einem neuen Intelligenztest auch prüfen, ob seine Ergebnisse mit denjenigen bereits bewährter Verfahren in groben Zügen übereinstimmen (nicht hingegen perfekt damit korrespondieren, da das neu entwickelte Verfahren ja bestimmte Unzulänglichkeiten der schon eingeführten Tests überwinden soll) und ob Korrelationen mit Maßen für Schul- und Berufserfolg sowie Schätzungen von Bekannten oder Freunden bestehen. Auf eine solche Validierung kann, worauf bereits an dieser Stelle hingewiesen werden soll, dann verzichtet werden, wenn ein Test nach der sog. externalen Methode entwickelt wurde. Wenn es z. B. darauf ankommt, die Gruppe der potenziell unfallgefährdeten Personen in einer Fabrik zu identifizieren (um sie gesondert zu schulen oder an Arbeitsplätze mit einem situativ geringeren Risiko zu versetzen), mag die Strategie der Skalenkonstruktion darin bestehen, eine möglichst umfangreiche und inhaltlich breit gefächerte Liste von Items zunächst 2 Gruppen von Probanden vorzugeben, von denen die eine mit Unfällen belastet ist und die andere nicht. 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 . Abb. 2.2. Praktische Fahrprüfungen haben logischerweise eine hohe Validität zur Messung des Fahrverhaltens im Straßenverkehr 31 2 ! Die wichtigsten Grundvoraussetzungen sind Standardisierung, Differenzierung, Objektivität, Reliabilität und Validität. Die Standardisierung bezeichnet die Konstanz bzw. Identität der Untersuchungsbedingungen. Eine Standardisierung kann erreicht werden, wenn etwa gleiches Material, identische Instruktionen und genaue Anleitungen zur Durchführung der Untersuchung verwendet werden. Des Weiteren muss ein Verfahren die Fähigkeit zur Differenzierung besitzen. Die mit Hilfe des Test realisierten Untersuchungsbedingungen sollten so festgesetzt werden, dass die Variabilität des Verhaltens als Ansatzpunkt der personenzentrierten Psychodiagnostik maximal ist. Um in ausreichendem Maße zu differenzieren, sollte die gewählte Methode zur Datengewinnung (im Idealfall) also hoch sensitiv gegenüber den interessierenden Merkmalen, aber robust gegenüber allen anderen Faktoren sein. Damit etwa ein Leistungstest (oder einzelne Untertests, Aufgaben etc.) hinreichend differenziert, verwendet man Aufgaben, die eine mittlere Lö- ? Benennen und cha- rakterisieren Sie die wichtigsten Grundvoraussetzungen für die Ermittlung und Interpretation von individuellen Unterschieden. duell miteinander vergleichen zu können, müssen die Durchführungsbedingungen strikt konstant gehalten werden (Standardisierung). 4 Zweckmäßigerweise sollten der Test und die Durchführungsbedingungen so gestaltet werden, dass sie im diagnostisch interessierenden Verhalten die Merkmalsträger maximal voneinander unterscheiden (Differenzierung). 4 Die zwischen den Merkmalsträgern auftretende Variation ist nur dann diagnostisch brauchbar, wenn die beobachteten Unterschiede objektiv und messgenau (oder exakt) zu registrieren sind (Objektivität und Reliabilität). Ein Aspekt der Reliabilität ist die Stabilität über der Zeit. 4 Da viele Tests hypothetische Konstrukte erfassen sollen, ist es unverzichtbar, weitere, von der Testung selbst unabhängige Informationen über dasjenige einzuholen, was der Test zu messen vorgibt (Validierung). 4 Um die Messwerte aus psychodiagnostischen Verfahren intra- und interindivi- Fazit Jene Items eignen sich dabei zur Erkennung von »Unfällern«, die zwischen den beiden Stichproben überzufällig differenzieren, bei denen also das Beantwortungsverhalten der Probanden mit und ohne Unfälle signifikant verschieden voneinander ist. Diese Unterschiede müssen auch in einer sog. Kreuzvalidierung mit 2 neuen Stichproben von Probanden erhalten bleiben. Die beiden Kategorien von Unfällern bzw. Nichtunfällern sind gleichsam soziale, betriebliche und ökonomische Realitäten, denen der Diagnostiker aus verschiedenen Gründen gerecht werden muss. Bei dem Versuch, dieses zu tun, mag er sich auf psychologische Theorien zur Genese von Unfällen und zum »Wesen« und der »Natur« von Unfällen stützen (wonach etwa geringe Konzentration und hohe Ablenkbarkeit sowie Impulsivität eine Rolle spielen). Er kann darauf aber auch verzichten und »blind-analytisch« einen Itempool zusammenstellen, in der Hoffnung, darin auch potenziell differenzierungskräftige Fragen oder Aufgaben eingeschlossen zu haben. Inwieweit diese Erwartung gerechtfertigt ist, erweist sich dann anhand der Beantwortungen beider Gruppen. Falls Unterschiede auftreten (und den Kreuzvalidierungen standhalten), ist die Validität gleichsam konstitutives Element der Skalenkonstruktion, ohne dass in derartigen Fällen in nennenswerter Weise auf inhaltliche Theorien rekurriert werden müsste. Kapitel 2 · Grundlagen diagnostischer Verfahren Übungsfrage 32 2.3.3 2.3.2 2.3.1 Hauptgütekriterien – 138 2.3.1.1 Objektivität – 138 2.3.1.2 Reliabilität oder Zuverlässigkeit – 141 2.3.1.3 Validität oder Gültigkeit – 149 Nebengütekriterien – 161 2.3.2.1 Normierung – 162 2.3.2.2 Testfairness – 167 Wechselbeziehungen zwischen Gütekriterien – 174 Gütekriterien psychometrischer Tests und ihre Bestimmung In ihrer spezifischen Bündelung oder Kombination konstituieren die einzelnen Items bestimmte Skalen oder Tests. Um deren psychometrische Eigenschaften beschreiben zu können, sind verschiedene Kriterien entwickelt worden. Prinzipiell lassen sich diese Beurteilungsmaßstäbe zwar auch auf jedes der Items selbst anwenden, doch dient gerade die Zusammenfassung von Items zu Skalen dem Ziel, eben dadurch die möglichen Unzulänglichkeiten einer punktuell-singulären Messung auf Itemebene zu überwinden und für den Itemverband als Ganzes ein qualitativ höheres Niveau zu erreichen, als es für jedes Einzelelement gegeben ist. Beispielsweise ist für die Reliabilität bereits gezeigt worden (7 Abschn. 2.1.1.4), dass bei der Addition mehrerer Itembeantwortungen ein stärkeres Anwachsen der Varianzkomponenten zugunsten der wahren Merkmalsunterschiede relativ zu den Fehleranteilen zu erwarten ist und dadurch das Ganze in gewisser Weise mehr darstellt als die Summe seiner Teile. Der Katalog einschlägiger Kriterien ist nicht verbindlich definiert. Ein vergleichsweise breites Spektrum von Bewertungsmaßstäben haben Amelang et al. für das Testkuratorium der Föderation Deutscher Psychologenverbände (1986) erarbeitet (7 unten). Die darin thematisierten Anforderungen an die Qualität psychologischer Tests sind vielfältig und können deshalb kaum jemals von einem einzigen Verfahren in gleichem Ausmaß erfüllt werden, zumal sie nicht alle miteinander vereinbar sind. Bei der umfassenden Beurteilung einer diagnostischen Methode kommt es deshalb in gewissen Grenzen auf die jeweils vorliegenden Umstände, Bedingungen und Zielsetzungen an, mit der Folge einer fallweise etwas unterschiedlichen Gewichtung der einzelnen Kriterien. Die Berücksichtigung von Fragestellung und Kontextbedingungen erweitert aber den Kriterienkatalog derart wesentlich, dass letztlich der gesamte diagnostische Prozess bestimmten Anforderungen genügen muss. Diese sind in den Standards für pädagogisches und psychologisches Testen (Häcker, Leutner & Amelang, 1998) festgehalten; ausführlich werden darin unter anderem auch die Standards für eine fachlich kompetente Testanwendung und für spezifische Vorgehensweisen definiert. Speziell für die Bewerberauslese mittels Leistungstestungen sind die einzelnen Schritte der Eignungsfeststellung inzwischen durch eine Normierung nach DIN-Prinzipien geregelt worden. Einer der dafür maßgeblichen Gedanken bestand darin, mit einer DIN-Norm einen Beitrag zum »Verbraucherschutz« im weitesten Sinne zu leisten, also im Falle psychologisch-diagnostischer Dienstleistungen den Interessenten oder Auftraggeber vor unseriösen Angeboten zu schützen. Mit dem Einbezug von Kontextbedingungen wird eine gewisse Flexibilität in der Handhabung der Bewertungsmaßstäbe eingeräumt; dieses gilt aber für die einzelnen Kriterien in unterschiedlicher Weise: Denn von zentraler Bedeutung für die Qualität 2.3 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung Gewichtung der Gütekriterien bei der Beurteilung Kriterienkatalog zur Testbeurteilung 135 2 2 Kriterien zur Durchführung eines Tests Kriterien zu den Grundlagen eines Tests Im Folgenden werden einige Gesichtspunkte angegeben, die bei der Beurteilung eines Testverfahrens von Bedeutung sind. Teilweise handelt es sich bei den genannten Aspekten um widersprüchliche Forderungen, denen kaum jemals von einem Testverfahren gleichermaßen Rechnung getragen werden kann. Bei der Beurteilung einer diagnostischen Methode kommt es auf die jeweils besonderen Umstände, Bedingungen und Zielsetzungen an, die aber deutlich zu erkennen und nachvollziehbar sein müssen; vor diesem Hintergrund werden die genannten Kriterien im Einzelfall zu gewichten sein. Grundlage für die Testbewertung ist prinzipiell das Testmanual; dieses muss so beschaffen sein, dass die wichtigsten Aussagen zu den für die Beurteilung relevanten Punkten daraus erarbeitet werden können. 1. Testgrundlage 1.1. Diagnostische Zielsetzung. Die Angaben zu diesem Punkt sollen es dem Benutzer ermöglichen, den Beitrag des Verfahrens zu einer diagnostischen Entscheidungsfindung zu erkennen. Dies betrifft sowohl den prinzipiellen diagnostischen Ansatz (etwa Zustandsdiagnostik, Veränderungsmessungen) als auch den vom Testautor intendierten Beitrag im Rahmen einer umfassenderen diagnostischen Informationssammlung. Wenn das Verfahren von seiner Zielsetzung oder vom aktuellen Entwicklungsstand her nicht für eine Einzelfalldiagnostik geeignet, sondern nur für Forschungszwecke vorgesehen ist, sollte dies explizit angegeben werden. 1.2. Theoretische Grundlagen. Hier ist deutlich zu machen, in welcher Weise das Verfahren auf den Ergebnissen der wissenschaftlichen Psychologie aufbaut. Die relevante Grundkonzeption muss ohne zusätzliche Sekundärliteratur erkennbar sein. Modifikationen etablierter theoretischer Vorstellungen durch den Testautor sind besonders deutlich zu machen. 1.3. Nachvollziehbarkeit der Testkonstruktion. Der Benutzer muss durch die Angaben zu diesem Punkt in angemessener, ausführlicher und verständlicher Weise in die Lage versetzt werden, die einzelnen Arbeitsschritte bei der Erstellung der Testmaterialien kritisch zu bewerten. Hierzu gehören insbesondere Angaben über die Veränderung bzw. Selektion von ursprünglich aus theoretischen Überlegungen heraus zusammengestellten Indikatorenmengen. 2. Testdurchführung 2.1. Durchführungsobjektivität. Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Vorschriften der Testinstruktion und aller übrigen Durchführungsbedingungen gesichert ist. 2.2. Transparenz. Das Ausmaß, in dem aus der Beschaffenheit eines Verfahrens die Spezifität und dessen Messfunktion und Auswertung ersichtlich sind. 2.3. Zumutbarkeit. Das Ausmaß, in dem ein Test (absolut und relativ zu dem aus der Anwendung des Verfahrens resultierenden Nutzen) die getestete Person in zeitlicher, psychischer (insbesondere »energetisch«-motivational und emotional) sowie körperlicher Hinsicht beansprucht. 2.4. Verfälschbarkeit. Das Ausmaß, in dem ein Test die individuelle Kontrolle über Art und Inhalt der verlangten bzw. gelieferten Informationen ermöglicht. 6 Präambel Testkuratorium der Föderation Deutscher Psychologenverbände Beschreibung der einzelnen Kriterien für die Testbeurteilung Kapitel 2 · Grundlagen diagnostischer Verfahren Grundsätze der Beurteilung nach diesen Kriterien 136 2.5. Störanfälligkeit. Das Ausmaß, in dem ein Test zur Erfassung habitueller Merkmalsunterschiede unempfindlich gegenüber aktuellen Zuständen der Person und situativen Faktoren der Umgebung ist. 3. Testverwertung 3.1. Auswertungsobjektivität. Das Ausmaß, in dem die Auswertung des Tests unabhängig von personenbedingten oder apparativen Störquellen ist. 3.2. Zuverlässigkeit. Messgenauigkeit oder Grad der Erklärbarkeit der beobachteten interindividuellen Unterschiede der Testergebnisse durch tatsächliche psychische Merkmalsunterschiede, untersucht etwa als Stabilität, Äquivalenz oder interne Konsistenz. Für die Bewertung ist die Angabe der verwendeten Berechnungsverfahren erforderlich. 3.3. Gültigkeit. Das Ausmaß der Treffsicherheit oder diagnostischen Valenz, mit dem der Test Rückschlüsse auf Verhalten außerhalb der Testsituation oder auf den Ausprägungsgrad des dem Testverhalten zugrundeliegenden Konstruktes ermöglicht. Bei der Testbeurteilung ist besonderes Schwergewicht auf die Ergebnisse zum Bereich der Kriteriumsvalidität zu legen. 3.4. Normierung. Ausmaß und Qualität der populationsspezifischen Bezugsgrößen zur Interpretation von Personenparametern, insbesondere zur Bestimmung der relativen Position einer Testperson in bezug auf (u. a. verschiedene) Populationsverteilungen von Testwerten. 3.5. Bandbreite. Ausmaß der Enge oder Vielfalt des Verfahrens gegenüber unterschiedlichen Fragestellungen, Gruppen- oder Prognosezeiträumen. 3.6. Informationsausschöpfung. Menge und Qualität der Indikatoren, die bezogen auf verschiedene Ziele, Anlässe oder Probandengruppen begründet aus den Testantworten abgeleitet werden. 3.7. Änderungssensitivität. Möglichkeiten und Grade der Veränderungsmessung durch dieses Verfahren, insbesondere im Rahmen von Zeitreihenvergleichen. 4. Testevaluation 4.1. Ökonomie. Das Ausmaß, in dem ein Test bei der Durchführung, Auswertung und Anschaffung als kostengünstig zu bewerten ist. 4.2. Fairness. Ausmaß einer eventuell bestehenden systematischen Diskriminierung bestimmter Testpersonen, z. B. aufgrund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit, bei der Abschätzung von Kriteriumswerten. 4.3. Akzeptanz. Ausmaß, in dem subjektive Meinungen, Bewertungen oder gesellschaftspolistische Überzeugungen gegen einen Test angeführt werden. 4.4. Vergleichbarkeit. Ausmaß der partiellen Übereinstimmung mit anderen Untersuchungsverfahren sowie die abweichenden Aspekte, Schwerpunkte oder Inhalte. Eine vermutete Sonderstellung bzw. Novität des Verfahrens ist besonders herauszustellen. 4.5. Bewährung. Systematische Aufarbeitung und Bewertung der mit dem Test gesammelten Erfahrungen, z. B. bezogen auf bestimmte Personengruppen oder diagnostische Ziele. 5. Äußere Testgestaltung Die Verständlichkeit des Testmanuals, die probandenfreundliche Gestaltung der übrigen Testmaterialien sowie die Übereinstimmung von Titel und werblicher Darstellung mit dem tatsächlichen Testinhalt werden bei der Beurteilung herangezogen. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Kriterien zur äußeren Gestaltung eines Tests Kriterien zur Evaluation eines Tests Kriterien zur Verwertung eines Tests 137 2 Quantitative Bestimmung der Durchführungsobjektivität Objektivität 2.3.1.1 2. Auswertungsobjektivität. Dieser Aspekt der Objektivität gibt das Ausmaß an, in dem »das Verhalten als empirisches Relativ in Item- und Test-Scores als numerischem Relativ eindeutig quantifiziert wird« (Fisseni, 1990, S. 54). Gleiches Verhalten der Testpersonen wird in einem objektiven Test nach stets exakt denselben Regeln abgebildet. zufällige Variationen im Verhalten des Testleiters und der von ihm hergestellten Durchführungsbedingungen zu Variationen im Verhalten der Testpersonen führen. Um eine höchstmögliche Invarianz des Testleiterverhaltens zu gewährleisten, wird eine maximale Standardisierung der Testsituation angestrebt. Dazu gehören, was eigentlich keiner weiteren Erwähnung bedarf, nicht nur identische Testmaterialien und Zeitvorgaben, sondern auch die Abfassung der Instruktion in schriftlicher Form und die Ausarbeitung von Regeln, wie ggf. auf Nachfragen oder Störungen zu reagieren ist, usw. In der Konsequenz läuft die strikte Standardisierung der Durchführung auf eine Minimalisierung der sozialen Interaktion zwischen dem Testleiter und den Testpersonen hinaus, was aber bei projektiven Tests meist nicht möglich ist. Die quantitative Bestimmung der Durchführungsobjektivität stößt auf erhebliche Schwierigkeiten. In der Literatur findet sich vielfach die Anregung, die Testergebnisse ein und derselben Probanden in ein und demselben Test aus Untersuchungen mit verschiedenen Testleitern zu interkorrelieren und den Mittelwert aus den resultierenden Koeffizienten als beste Schätzung für die Durchführungsobjektivität zu nehmen. In derartigen Ergebnissen würden sich jedoch auch die Einflüsse von seiten einer unzureichenden Reliabilität niederschlagen (weshalb es durchaus als angemessen erscheint, Objektivität als einen Teilaspekt der Reliabilität aufzufassen). Abgesehen davon wäre ein Prozedere kaum zu akzeptieren, bei dem immer neue Testleiter von denselben Testteilnehmern immer dasselbe verlangen. Aus diesen Gründen fehlen gewöhnlich quantitative Angaben zur Durchführungsobjektivität. Sie darf als hoch angesehen werden, wenn alle Bedingungen festgelegt sind, die sich plausiblerweise auf das Testverhalten auswirken können, und wenn darüber hinaus angenommen wird, dass Wetterlage, Jahreszeit, Wochentag, Tageszeit und ökologischer Mikroraum nur unerhebliche Einflüsse aufweisen. 1. Durchführungsobjektivität. Sie bezeichnet den Grad, in dem mehr oder weniger Je nach der Phase, in der sich ein möglicher Einfluss des Testleiters auswirken kann, werden verschiedene Aspekte der Objektivität unterschieden. Objektivität steht für das Ausmaß, in dem die Ergebnisse eines Tests unabhängig von der Person des Untersuchungsleiters sind. Definition Hauptgütekriterien 2.3.1 von Tests sind i. Allg. die sog. Hauptgütekriterien, nämlich Objektivität, Reliabilität und Validität, auf die fast ohne Einschränkung ein strenger Maßstab anzulegen ist. Diese Kriterien betreffen zudem schwerpunktmäßig technische Eigenschaften, welche die Instrumente mehr oder weniger unabhängig von den Rahmenbedingungen eines Einsatzes und von den anstehenden diagnostischen Entscheidungen kennzeichnen. Kapitel 2 · Grundlagen diagnostischer Verfahren Durchführungsobjektivität durch Standardisierung der Testsituation 138 2 sA . 2 sx Die Summe der restlichen Varianzkomponenten bildet die sog. Auswertungsfehlervarianz sF2 = sB2 + sC2 + se2, deren Quadratwurzel den Standardauswertungsfehler. Für die Ermittlung der mittleren Quadrate und Freiheitsgrade gelten die folgenden Terme (. Tab. 2.13): Anhand der herangezogenen Stichproben von Testprotokollen und Beurteilern resultierten die folgenden Koeffizienten (. Tab. 2.14): 3 Nach Maßgabe des Standardauswertungsfehlers √ sF2 ergeben sich daraus die folgenden Konfidenzintervalle für die Rohpunkte (5%) (. Tab. 2.15): Der »wahre« Rohpunkt eines Probanden kann also allein infolge der mangelnden Auswertungsobjektivität nur mit den angegebenen Unsicherheitsintervallen bestimmt werden. Weil eine analoge Untersuchung von Michel (1967) für den Subtest Gemeinsamkeiten des Intelligenz-Strukturtests (IST) von Amthauer mit r = .96 ebenfalls nur einen unbefriedigenden Grad an Auswertungsobjektivität ergeben 6 r= Die Auswertungsobjektivität wird als Intraklassenkorrelation ermittelt, und zwar hier als Anteil der Varianz zwischen den Testprotokollen an der Gesamtvarianz: Ansetzend an Ableitungen von Iseler (1967) haben Michel und Mai (1969) die Auswertungsobjektivität für die 3 Untertests Allgemeines Verständnis (AV), Gemeinsamkeiten Finden (GF) und Wortschatztest (WT) der Hamburg-Wechsler-Intelligenztests für Erwachsene und Kinder (HAWIE bzw. HAWIK) bestimmt (7 Abschn. 3.1.2 und 7 Abschn. 3.1.4). Als allgemeine Strukturgleichung gilt: sx2 = sA2 + sB2 + sC2 + se2. sx2 = Varianz aller Testpunktwerte, sA2 = Varianz zwischen Protokollen, sB2 = Varianz zwischen den Beurteilern, sC2 = Wechselwirkung Beurteiler × Protokolle, se2 = Situationsfehler. Beispiel Sofern in Leistungstests oder Persönlichkeitsfragebogen die richtigen Lösungen bzw. die Antworten im Sinne des Merkmals anhand eines Lösungsschlüssels festgelegt sind, kann absolute Objektivität unterstellt werden. Allerdings empfiehlt sich den Beobachtungen von Weise (1994) zufolge ein maschinelles Lesen der Antwortbogen, da bei dem üblichen Auflegen von entsprechenden Schablonen doch erstaunlich viele Ableseund Additionsfehler auftreten. Etwas geringer ist die Auswertungsobjektivität i. Allg. bei Leistungs- und Persönlichkeitstests, in denen die Antworten in ungebundener Weise erfolgen. In solchen Fällen werden nicht nur die allgemeinen Anforderungen an vollkommen richtige Lösungen in detaillierter Weise erläutert, sondern auch die häufiger vorkommenden Lösungen als Beispiele für absolut richtige und teilweise korrekte Antworten aufgeführt, um die Auswertung eindeutiger handhaben zu können. Immer wieder treten jedoch Fälle auf, für die es kein Vorbild im Katalog der Beispiellösungen gibt und wo auch eine Rubrizierung aufgrund der allgemeinen Anweisungen nicht ohne Ambivalenzen möglich ist. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Beispiel zur varianzanalytischen Bestimmung der Auswertungsobjektivität Eher geringe Auswertungsobjektivität bei ungebundenen Antwortformaten Auswertungsobjektivität durch eindeutige Quantifizierung des Verhaltens 139 2 MQTP MQAW MQTA Bezeichnung k-1 n-1 (k-1)(n-1) Freiheitsgrade n · σA2 + σC2 + σe2 k · σB2 + σC2 + σe2 σC2 + σe2 Erwartungswert 0.84 0.88 0.96 0.96 GF 0.97 0.96 WT ±2,63 ±3,06 AV ±2,04 ±1,62 GF ±5,98 ±4,49 WT Am niedrigsten liegt die Auswertungsobjektivität meist bei (Kurz-) Aufsätzen und insbesondere bei projektiven Tests wie dem Rorschach- oder dem Thematischen Apperzeptionstest. Zur quantitativen Bestimmung der Auswertungsobjektivität müssen die Testprotokolle einer Stichprobe von Probanden mindestens 2 verschiedenen Auswertern vorgegeben werden, die unabhängig voneinander jeweils die Punktwerte ermitteln oder – im Falle der projektiven Verfahren – die Signierungen vornehmen. Die Korrelation zwischen den beiden Auswertern (bzw. bei mehreren Beurteilern: Die mittlere Korrelation zwischen ihnen) über die Protokolle gibt das Ausmaß der wechselseitigen Übereinstimmung an. Systematische Unterschiede hinsichtlich der relativen Strenge des Bewertungsmaßstabes schlagen sich in diesen Korrelationen allerdings nicht nieder; zur Erfassung derartiger Variationsquellen bedarf es varianzanalytischer Pläne. hatte, wurde dieser für die Revision zum IST 70 mit Mehrfachwahlantworten versehen, womit seitdem vollständige Objektivität gegeben ist (7 Abschn. 3.1.2). HAWIE HAWIK . Tabelle 2.15. Konfidenzintervalle aufgrund nicht absoluter Auswertungsobjektivität für 3 Subtests des HAWIE bzw. des HAWIK HAWIE HAWIK AV . Tabelle 2.14. Auswertungsobjektivität (Intraklassenkorrelation) für 3 Subtests des HAWIE bzw. des HAWIK sTP2 = σA2 = (MQTP – MQTA)/n, sAW2 = σB2 = (MQAW – MQTA)/k, sTA2 = sC2 + σe2 = MQTA, sF2 = sAW2 + sTA2 = [MQAW + (k-1)MQTA]/k, sX2 = sTP2 + sF2, raa = sTP2/sX2. Zwischen den Testprotokollen Zwischen den Auswertern Wechselwirkung und Situationsfehler Quelle . Tabelle 2.13. Varianzanalytische Terme zur Bestimmung der Auswertungsobjektivität Kapitel 2 · Grundlagen diagnostischer Verfahren Quantitative Bestimmung der Auswertungsobjektivität 140 Reliabilität oder Zuverlässigkeit Insofern bleiben Aspekte der inhaltlichen Treffsicherheit (also der Validität) außer Betracht; nur die Präzision der Messung an sich interessiert hierbei. Ein Test ist dann vollständig reliabel, wenn mit seiner Hilfe die Lokalisierung der Probanden auf der jeweiligen Merkmalsdimension absolut fehlerfrei geschieht. In einem solchen Fall ist der Reliabilitätskoeffizient als Korrelation zwischen verschiedenen Messwerten, erhoben an denselben Probanden, rtt = 1,0. Wie unter 7 Abschn. 2.1.1.1, (2.12) bereits erläutert wurde, ist das gleichbedeutend mit dem Umstand, dass die beobachtete Testwertevarianz zur Gänze durch wahre Messwertunterschiede erklärt wird: Reliabilität als Quotient der wahren zur Gesamtvarianz. Weil es verschiedene Zugangsweisen zur Bestimmung der Reliabilität gibt, kann nicht von »der« Zuverlässigkeit eines Tests gesprochen werden. Aus diesem Grunde muss bei der Nennung eines Reliabilitätskoeffizienten jeweils auch die Methode er- Die Reliabilität beschreibt die Genauigkeit, mit der ein Test eine Merkmalsdimension erfasst, und zwar unter der Vernachlässigung des Umstandes, ob es sich dabei auch um die Merkmalsdimension handelt, deren Erfassung intendiert ist. Definition 2.3.1.2 3. Interpretationsobjektivität. Damit bezeichnet man den Grad, in dem die aus den numerischen Testergebnissen gezogenen Schlüsse unabhängig von der Person desjenigen sind, der diese Interpretationen vornimmt, oder mit anderen Worten: Das Ausmaß, in dem aus gleichen Scores verschiedener Probanden identische Schlüsse gezogen werden (von einem oder von mehreren Auswertern). Vollständige Interpretationsobjektivität ist dann gegeben, wenn es lediglich darauf ankommt, aus den Punktwerten eines Leistungstests oder Persönlichkeitsfragebogens die individuelle Position auf der jeweiligen Merkmalsdimension zu ermitteln. Bei den gebräuchlichen Tests bedarf es dazu nur eines Blickes in die entsprechenden Normentabellen, in denen für die einzelnen Rohwerte die dazugehörigen Standardwerte oder Prozentränge aufgeführt sind. Darüber hinaus liegt absolute Interpretationsobjektivität auch dann vor, wenn beispielsweise unter Heranziehung von Validitätskoeffizienten und der Regressionsrechnung auf die Position in einer Kriteriumsdimension geschlossen und damit das relative Ausmaß an Eignung oder Bewährung bestimmt wird. Generell fallen hierunter die einzelnen Schritte der sog. »statistischen« (im Unterschied zur »klinischen«) Vorgehensweise bei der Kombination von Testresultaten nach vorher festgelegten oder analytisch ermittelten Regeln, so dass nach Eingabe der individuellen Testscores kein Einfluss des Testinterpreten mehr möglich ist. Sehr viel niedriger ist die Objektivität der Interpretation bei den projektiven Tests, da diese nicht nur den Probanden eine große Bandbreite dahingehend eröffnen, wie diese die Testmaterialien »interpretieren« können (etwa welche Teile von Klecksbildern sie deuten und in welcher Weise dies geschieht), sondern häufig genug auch der Intuition und Erfahrung des Testleiters einen größeren Ermessensspielraum offen halten, welche Schlüsse daraus zu ziehen sind. Allgemein ist die Interpretationsobjektivität beim »klinischen« Vorgehen geringer, da dort das subjektive Ermessen (als Folge von Erfahrung und Hypothesengenerierung) bei der Ableitung von Schlussfolgerungen darüber, was die Testwerte letztlich bedeuten (können), eine sehr viel größere Rolle spielt. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 »Die« Reliabilität eines Tests gibt es nicht Präzision der Messung an sich »Klinische« Vorgehensweise »Statistische« Vorgehensweise Interpretationsobjektivität durch identische Schlüsse aus gleichen Scores 141 2 Kriterien der Parallelität von Tests Reliabilität als Korrelation paralleler Testformen Bedeutung von Störfaktoren Teststabilität 2. Paralleltestreliabilität. Die Vorgabe paralleler Versionen eines Tests an ein und dieselbe Gruppe von Personen gilt weithin als »Königsweg« der Reliabilitätsbestimmung. Zweckmäßigerweise wählt man für die Bearbeitung der parallelen Formen ein relativ kurzes Intervall von einigen Tagen und die Vorgabemodalitäten so, dass die eine Hälfte der Probanden die Tests in der Sukzession A vor B, die andere Hälfte B vor A bearbeitet. Parallel sind Tests dann, wenn die auf der Basis gleicher, aber nicht identischer Itemstichproben beobachteten Mittelwerte und Standardabweichungen identisch sowie die Korrelationen zwischen den beobachteten Werten hoch (zwischen den wahren Werten per definitionem: 1.0) sind. Die ermittelten Koeffizienten liegen häufig noch unter denjenigen für Retestuntersuchungen. Sie sind jedoch deshalb besonders praxisgerecht, weil sich hier die Reliabilität auf eine insgesamt größere Stichprobe von Items und damit ein breiteres Spektrum von Aufgabeninhalten bezieht. Essentielle Voraussetzung für diesen Ansatz ist selbstverständlich das Vorhandensein geeigneter »paralleler« Versionen, die für sich bei Gruppenuntersuchungen 1. Testwiederholung (Retest). Ein und derselbe Test wird ein und derselben Stichprobe von Probanden wiederholt dargeboten, im Regelfall insgesamt 2mal. Die Korrelation zwischen der ersten und zweiten Vorgabe gibt das Ausmaß der Retest- oder Testwiederholungsreliabilität an. Bei der Festlegung des optimalen Zeitintervalls für die Wiederholung besteht regelmäßig ein Dilemma: Einerseits gilt es, Erinnerungs- und Übungseffekte zu vermeiden, wie sie namentlich bei Leistungstests stets zu beobachten sind. Das macht eher lange Zeitabstände in der Größenordnung von mehreren Wochen oder gar Monaten erforderlich. Andererseits sollen die Testdurchführungen nicht soweit auseinander liegen, dass zwischenzeitlich auch reale Schwankungen des erfassten Merkmals auftreten und dadurch die messtechnisch-instrumentelle Qualität auf niedrigerem Niveau erscheinen lassen, als es tatsächlich der Fall ist. Insofern ist die Wiederholungsreliabilität auch immer von der Stabilität des erfassten Merkmals abhängig und wird deshalb auch als »Teststabilität« bezeichnet. Idealiter handelt es sich dabei um die Retestreliabilität, bereinigt um die mögliche Fluktuation des zugrundeliegenden Merkmals. Das aber setzt voraus, dass diese über anderweitige Ansätze erfasst werden kann, was nur höchst selten möglich ist. Sicher sind für Korrelationskoeffizienten systematische Mittelwertszunahmen von etwa der Hälfte einer Standardabweichung bei der wiederholten Vorgabe von Intelligenztests im Abstand von ca. einem Monat (s. z. B. Amthauer 1957; Catron 1978) völlig irrelevant. Derartige Übungsgewinne fallen erfahrungsgemäß nach Leistungsstand, Lernfähigkeit und Gedächtnis interindividuell recht verschieden aus, so dass Retestkoeffizienten eher konservative Schätzungen der Reliabilität liefern. Angemessen ist die Bestimmung der Reliabilität mittels Wiederholung bei reinen Speedtests und – mehr noch – bei Persönlichkeitsfragebogen. Hingegen fallen die erwähnten Störfaktoren um so mehr bei Tests aus dem Intelligenzbereich ins Gewicht, je weniger Items die Skalen enthalten, je eigentümlicher und inhaltlich esoterischer die Aufgaben sind und je kürzer das Retestintervall ist. In dem Maße, in dem dadurch die Erinnerung an die zuvor bewerkstelligten richtigen Lösungen begünstigt wird, verändert sich der Charakter eines Verfahrens in Richtung eines Gedächtnistests. wähnt werden, mit der die Zuverlässigkeit bestimmt wurde. Dafür stehen folgende Ansätze zur Verfügung. Kapitel 2 · Grundlagen diagnostischer Verfahren Reliabilität als Korrelation wiederholter Testdurchführungen 142 Möglichkeit, eine Testung zu wiederholen oder sie mit parallelen Instrumenten durchzuführen (z. B. weil kein hinreichend langes Zeitintervall abgewartet werden kann, die Probanden nicht mehr erreichbar sind oder wegen des eigentümlichen Charakters der Aufgaben von der ersten zur zweiten Messung eine grundlegende Veränderung der Validität zu befürchten ist oder einfach deshalb, weil Parallelversionen nicht vorliegen). In solchen Fällen bietet es sich an, die eine Form des Tests in 2 äquivalente Hälften aufzuteilen und die aus der einmaligen Bearbeitung dieser Teile pro Testperson vorliegenden Messwerte miteinander zu korrelieren. Die Höhe der Korrelation gibt einen Aspekt der Reliabilität an. Gewöhnlich werden die Koeffizienten nach den Prinzipien der Spearman-Brown »prophecy formula« auf doppelte Länge der Skala aufgewertet: Korreliert werden miteinander ja nur Hälften, doch interessiert die Reliabilität der 2mal so langen Gesamtskala. Bei diesem Ansatz können Schwankungen der Motivation, der Stimmung und Aufmerksamkeit bzw. Fluktuationen des untersuchten Merkmals praktisch ausgeschlossen werden. Alle diese Faktoren wirken sich nur in jenem Grade aus, in dem sie über die Items der Testskala hinweg oszillieren. Von daher kommt die Halbierungstechnik dem Konzept einer Beschreibung der primär instrumentellen Messgenauigkeit am nächsten. Voraussetzung ist freilich, dass die Homogenität und Anzahl der Items eine Aufteilung in 2 Hälften erlauben. Bei zahlreichen projektiven Tests ist diese notwendige Bedingung nicht gegeben. Für die Halbierung kommen mehrere Techniken in Betracht: 4 Aufteilung nach geradzahliger und ungeradzahliger Numerierung der Items: Für jede Versuchsperson wird individuell die Rohwertsumme aus den geradzahligen Items (also durch Addition der Antworten zu den Items Nr. 2, 4, 6 usw.) und gesondert den ungeradzahligen Aufgaben (also diejenige mit den Nummern 1, 3, 5, 7 usw.) gebildet. 4 Halbierung nach der laufenden Nummer der Items in dem Sinne, dass die Items 1 bis 20 von insgesamt 40 Aufgaben die eine Teilskala, die Items 21 bis 40 die zweite Teilskala bilden. 4 Aufteilung der Items nach Zufall in jede der beiden Halbformen. 4 Die Halbierung auf der Basis der Analysedaten stellt das anspruchsvollste Konzept dar. Hierbei werden für alle Items zunächst Schwierigkeit und Trennschärfe ermittelt und unter simultaner Berücksichtigung beider Kennwerte Paarlinge gebildet, die einander sehr ähnlich sind. Die Zuweisung der einzelnen Items aus solchen Paarlingen in die Halbskalen erfolgt sodann nach Zufall. 3. Testhalbierung. Oftmals besteht aus den verschiedensten Gründen heraus keine von hohem Wert sind, weil benachbart sitzende Probanden dann unterschiedliche Formen bearbeiten können. Ihre Herstellung wird allerdings erschwert, wenn es sich um die Erfassung sehr eng begrenzter Eigenschaften handelt und entsprechend das Universum denkbarer Items nur klein ist. Ein weiterer Hinderungsgrund liegt dann vor, wenn die Fragen von gleichsam einmaliger Art sind und deshalb eine Parallelisierung kaum möglich erscheint, ohne einem Transfer der Lösungsprinzipien und erheblichen Übungsgewinnen Vorschub zu leisten. Bei Speedtests, in denen die (gewöhnlich zahlreichen) Items eine hohe wechselseitige Ähnlichkeit aufweisen, ist demzufolge die Entwicklung von Parallelformen entbehrlich, da es für die zweite Vorgabe keinen Unterschied bedeutet, ob dieselben oder leicht abgewandelte Items bearbeitet werden müssen. Damit liegt hier eine Art Sonderfall vor, bei dem die Retest- und Paralleltestmethode gleichsam ineinander übergehen. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Halbierung über Schwierigkeit und Trennschärfe »Odd-even-Methode« Reliabilität durch Testhalbierung kommt instrumenteller Messgenauigkeit am nächsten Reliabilität als Korrelation äquivalenter Testhälften Praktisch Gleichheit von Paralleltest- und Retestmethode bei Speedtests Erschwerte Herstellung paralleler Testformen 143 2 144 evena 3,25 4,25 4,00 4,25 3,75 3,50 4,50 4,00 3,00 2,00 odda 3,50 3,50 3,50 3,25 3,25 2,75 3,25 4,00 3,00 2,00 2,75 4,00 3,50 4,25 3,50 2,75 4,50 3,25 3,25 2,50 3,00 3,75 4,25 4,25 3,50 3,00 4,25 3,00 3,75 2,50 4,00 3,75 4,00 3,25 3,50 3,50 3,25 4,75 2,75 1,50 3,50 3,50 3,75 3,25 3,25 3,00 3,75 4,00 3,75 2,00 Pac 2 5 5 5 4 3 5 2 4 3 6 3,25 4,25 3,75 4,25 3,75 3,25 4,00 4,00 2,25 2,00 Pbc 4 1 5 5 3 3 4 3 4 3 7 2 4 4 5 5 4 4 4 4 8 Bei der Parallelisierung wurden folgende Paare gebildet: Items 1 und 5, Items 2 und 7, Items 3 und 8, Items 4 und 6. Diese Paare wurden nun per Zufall auf 2 Gruppen verteilt, so dass folgendes Resultat entstand: A: 3, 4, 5, 7. B: 1, 2, 6, 8. Korrelationen: 4 odd-even: .747, 4 erste-zweite Hälfte: .137, 4 Zufallshalbierung: .217, 4 Parallelisierung nach Trennschärfe und Schwierigkeit: .546. 6 c b 3,75 4,00 3,25 3,25 3,50 3,25 3,50 5,00 2,25 1,50 Z2b 2 5 2 2 3 2 4 3 4 2 4 3 4 2 3 4 4 5 4 1 Z1b 5 4 5-8 4 5 4 4 4 3 3 5 3 2 3 5 2 5 4 3 5 5 1 2 1-4 3 2 odd/even: Mittelwerte für ungeradzahlige/geradzahlige Itemnummern. Z1/Z2: Zufallsaufteilung. Pa/Pb: Parallelisierung (nähere Details 7 unten). 4 3 3 2 3 3 2 5 1 1 1 2 3 4 5 6 7 8 9 10 a 1 Pbn Items . Tabelle 2.16. Antworten von 10 Probanden zu den 8 Optimismusitems. In den unteren Spalten sind pro Proband die Mittelwerte für Teilmengen der Items aufgeführt, die den Berechnungen der Korrelationen im Sinne der im Text erläuterten Methoden zugrunde gelegt wurden Beispiel Im folgenden Beispiel (. Tab. 2.16) ist an den 8 Items einer Skala zum Optimismus und einer Stichprobe von 10 Versuchspersonen jede der vorgenannten Methoden exemplarisch angewendet worden. Kapitel 2 · Grundlagen diagnostischer Verfahren 4 ⋅ (s12 - s1 ⋅ s(1-2) ⋅ r1(1-2) ) 4 ⋅ s12 + s(1-2)2 -4 ⋅ s1 ⋅ s(1-2) ⋅ r1(1-2) Angewendet auf die bereits oben erwähnte Stichprobe von 1226 Probanden resultiert für die 8 Items umfassende Optimismusskala ein Koeffizient von rtt(α) = 0.54. s12 = Varianz der Rohwerte aus der ersten Testhälfte, s(1–2)2 = Varianz der Rohwertdifferenzen, r1(1–2) = Korrelation der Rohwerte aus der ersten Testhälfte mit den Rohwertdifferenzen. rtt(α ) = Üblicherweise werden lediglich die Rohwerte aus den beiden Testhälften interkorreliert und der erhaltene Koeffizient auf die doppelte Länge der (Gesamt-)Skala aufgewertet. Allerdings setzt die Spearman-Brown-Formel die Identität von sxt und von sxu [7 (2.26)] bzw. s1 und s2 voraus. Mit Hilfe verschiedener Formeladaptationen versucht man, ggf. auftretenden Abweichungen gerecht zu werden. Deshalb hat Cronbachs Koeffizient α eine besondere Akzeptanz gefunden. Für ihn wird die Differenz der individuellen Rohwertpaare (X1 – X2) gebildet und die Korrelation der Rohwerte aus der ersten Hälfte mit diesen Differenzen ermittelt [r1(1–2)]. Die allgemeine Form lautet nach Lienert (1989, S. 222): Jede der vorgenannten Techniken verbietet sich bei Schnelligkeitstests, weil dort – von Flüchtigkeitsfehlern abgesehen – die individuellen Halbtestwerte fast immer ziemlich genau der Hälfte der Gesamtrohwerte entsprechen: Wenn jemand beispielsweise 80 Aufgaben insgesamt in Angriff genommen und bewältigt hat, bedeutet das mit großer Wahrscheinlichkeit 40 Items aus der einen und eine gleich große Zahl aus der anderen Hälfte. Damit aber wird die Reliabilität krass überschätzt. Deshalb bietet sich bei Speedtests eine andere Technik an: 4 Halbierung nach der Testzeit. Die gesamte Bearbeitungszeit wird in 2 Teile getrennt. Nach Ablauf der ersten Halbzeit müssen die Probanden auf Anweisung des Testleiters die Stelle im Antwortblatt markieren, an der sie momentan arbeiten, so dass für die erste und zweite Halbzeit erhebungstechnisch unabhängige Rohwertteilleistungen bestimmbar sind. Wegen der geringen Zahl von Messwertträgern in dem Beispieldatensatz sind von vornherein große Schwankungen zwischen den verschiedenen Berechnungsmodalitäten zu erwarten, und in der Tat führen die odd-even-Aufteilung und die Parallelisierung zu sehr viel höheren Halbierungsreliabilitäten als die beiden anderen Aufteilungen. Anhand der größeren Stichprobe von 1226 Probanden spielen Zufallsschwankungen infolge der Messwertträger keine Rolle mehr. Die geringe Zahl von Items leistet allerdings der Möglichkeit Vorschub, dass zufällig besonders ähnliche bzw. unähnliche Items in den Gruppen zusammengefasst wurden. Da die Koeffizienten aber bei allen Aufteilungsprinzipien recht nah beieinander liegen, kann mit Bestimmtheit festgehalten werden, dass die Skala nur eine mäßige Reliabilität aufweist. Kennwerte für alle (1226) Versuchspersonen: 4 odd-even: .273, 4 erste-zweite Hälfte: .281, 4 Zufallshalbierung: .303, 4 Parallelisierung nach Trennschärfe und Schwierigkeit: .327. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Formel für den Spezialfall zweier Testhälften Für Speedtests: Halbierung nach der Testzeit Testhalbierung führt bei Speedtests zur Überschätzung der Reliabilität 145 2 Cronbachs Koeffizient α K-R-Formula 20 K-R-Formula 8 Bestimmung über Trennschärfe und Schwierigkeitskoeffizienten = Varianz der Testrohwerte, = Schwierigkeit P/100, = 1-p, = Trennschärfe. s x 2 -∑pq ∑rit 2 ⋅ pq + ⎛ s x 2 -∑pq ⎞ + ⎜ 2s 2 ⎟ 2 2 ⋅ sx sx2 x ⎝ ⎠ 2 (2.76) (2.77) (2.78) r = Zahl paralleler Messungen, si2 = Stichprobenvarianz des i-ten Paralleltests, berechnet an der Stichprobe von N Versuchspersonen mit N-1 im Nenner, sij = Kovarianz zwischen i und j. r ⎛ ∑si 2 ⎞⎟ r ⎜ i =1 α= ⋅ ⎜1 - r ⎟ r r-1 ⎜ ∑si 2 + ∑sij ⎟ i =1 ⎠ ⎝ i =1 In beiden K-R-Formeln spielt der Ausdruck pq, also die Itemvarianz (7 Abschn. 2.2.7.1 zu Schwierigkeit) eine wichtige Rolle. Wenn bei einem Vergleich der Summe der Itemvarianzen oder deren Mittelwert mit der Varianz des Skalensummenwertes (sx2), wie er in der einen oder anderen Weise in den Formeln angestellt wird, weitgehende Übereinstimmung resultiert, so muss dafür das Fehlen von Itemkovarianzen verantwortlich sein. Denn die Varianz des Skalensummenwertes setzt sich zusammen aus der Summe aller (einzelnen) Itemvarianzen und aller Interitemkovarianzen. Das Fehlen von Itemkovarianzen aber bedeutet, dass jedes Item etwas anderes misst, die Skala also nicht reliabel im Sinne der Konsistenz ist. Am meisten verbreitet ist Cronbachs α: rtt = n ⎛ s x 2 - n ⋅ pq ⎞ ⋅ ⎟ n-1 ⎜⎝ s x 2 ⎠ n ⎛ s x 2 -∑pq ⎞ = ⋅⎜ n-1 ⎝ s x 2 ⎟⎠ Sofern aus irgendwelchen Gründen keine Interkorrelationen berechnet wurden oder dies wegen einer unvollständigen Aufgabenanalyse nicht möglich ist, kann K–R-Formula 20 Anwendung finden: sx2 p q rit rtt = 4. Konsistenzanalysen. Die Verallgemeinerung der Halbierungsmethode besteht darin, eine Testskala nicht nur in 2 Hälften zu zerlegen, sondern in so viele Teile, wie Items vorhanden sind. Entsprechend müssten die betreffenden Korrelationen ermittelt und die erhaltenen Werte auf die jeweilige Länge der Skala aufgewertet oder »hochgerechnet« werden. Am bekanntesten sind dafür die Formeln von Kuder und Richardson (1937) geworden. Die sog. K-R-Formula 8 stützt sich auf die Schwierigkeits- und Trennschärfekoeffizienten: Kapitel 2 · Grundlagen diagnostischer Verfahren Reliabilität als Konsistenz aller Testitems 146 sinn 2 s zwi Prb2 (da se2 = sinn2) (2.80) (2.79) rtt = 1 - srest 2 s zwi Prb2 Auf diese Weise gilt schließlich srest2 = sinn2 - szwi Items2, srest2 = se2. (2.81) Nun erzeugen selbst die einzelnen Items aufgrund ihrer selbst bei hoher Konsistenz immer etwas variierenden spezifischen Anforderungen eine Varianz. Diese Varianz zwischen den Items stellt insofern keine Fehlerkomponente dar und muss von der Varianz innerhalb der Personen abgezogen werden, um einen »bereinigten« Term für eine »Restvarianz« zu erhalten: rtt = 1 − s ∞ 2 = s zwi Prb2 - s e 2 , s ∞ 2 = s zwi Prb2 - sinn 2 s∞2 , rtt = 2 s∞ + se2 s zwi Prb2 - sinn 2 rtt = , s zwi Prb2 - sinn 2 + sinn 2 Durch Umstellen und Einsetzen erhält man: s zwi Prb2 = s ∞ 2 + s e 2 Die Varianz zwischen den Probanden setzt sich zusammen aus Komponenten zu Lasten der wahren Merkmalsunterschiede und zu Lasten von Fehlereinflüssen: sinn2 = se2 . In der letzteren Formel ist besonders augenfällig, dass die Varianz des Skalensummenwertes (im Nenner) verglichen wird mit der Summe der Itemvarianzen. Sofern die beiden Werte auseinanderklaffen, muss dieses eine hohe Homogenität bedeuten, weil in diesem Fall zur Summe der Itemvarianzen noch substantielle Itemkovarianzen hinzugekommen sind und die Differenz bewirkt haben. Ein anderer Ansatz besteht darin, die Konsistenz varianzanalytisch zu bestimmen, und zwar nach einem Schema, dessen Faktoren zum einen die Items, zum anderen die Probanden darstellen. Die dafür maßgeblichen Überlegungen sind einfach: Bei vollständiger Konsistenz eines Tests bzw. seiner Beantwortung durch Probanden müsste für jede Person pro Item dieselbe Antwort auftreten. Abweichungen davon, also jegliche Varianz innerhalb jedes einzelnen der Probanden, können in einer ersten Näherung als Fehler aufgefasst werden: 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung Varianzanalytische Konsistenzformel Varianzanalytische Bestimmung 147 2 2 6 QSzw = 34 ( ∑X)2 33489 = 733 = 63.22, N⋅k 50 k N⋅k 5 50 ∑P2 - ( ∑X)2 = 3471 - 33489 = 24.42, QStot = ∑X2 - ∑I2: ∑P2: 37 4 4 3 4 2 3 4 4 5 4 1 3 4 5 4 4 4 3 3 5 3 2 38 39 8 4 4 5 5 4 4 4 4 3 2 6 2 5 5 5 4 3 5 2 4 3 totale Quadratsumme, Quadratsumme innerhalb der Probanden, Quadratsumme zwischen Probanden, Quadratsumme zwischen Items, Rest-Quadratsumme, Zahl der Probanden, Zahl der Items, quadrierte Gesamtsumme der Testwerte, im Beispiel: 1832 = 33489, Summe der quadrierten Itemwerte, im Beispiel: 32 + 42 + 42 + … + 12 + 32 + 22 = 733. Summe der quadrierten Testwerte, im Beispiel: 172 + 222 + 202 + … + 102 = 3471, Summe der quadrierten Werte pro Item, im Beispiel: 352 + … + 392 = 6 715. 35 I QStot: QSinn: QSzw: QSzI: QSr: N: k: (∑X)2: ∑X2: 3 5 2 5 4 3 5 5 1 2 2 Items 1 2 3 4 5 6 7 8 9 10 Pbn 183 17 22 20 21 19 17 21 21 15 10 P . Tabelle 2.17. Antworten von 10 Probanden zu 5 Items einer Skala (Auszug aus . Tab. 2.16). In der letzten Spalte (P) die individuellen Summenwerte über die Items, in der letzten Zeile (I) die Summenwerte über die Probanden. Die P- und I-Werte liegen der Bestimmung von szwi2 und szwi Items2 zugrunde Beispiel Eine wesentliche Voraussetzung für diese varianzanalytische Prüfung besteht allerdings darin, dass die Itembeantwortung auf kontinuierlich-quantitativ abgestuften Skalen erfolgt. Das trifft häufiger bei Persönlichkeits- und Einstellungstests zu, ist aber auch bei Leistungstests der Fall, wenn dort je nach Zeitbedarf oder Richtigkeit der Lösung abgestufte Punkte vergeben werden. In . Tab. 2.17 findet sich ein Rechenbeispiel für eine Auswahl von 5 Items der Optimismusskala (vgl. . Tab. 2.7 und 2.10; die Items Nr. 1, 5 und 7 wurden wegen zu geringer Interkorrelationen eliminiert). Kapitel 2 · Grundlagen diagnostischer Verfahren Beispiel zur varianzanalytischen Konsistenzbestimmung 148 k 2 5 N⋅k 10 50 2 Validität oder Gültigkeit srest = 0.620 korrigiert 2 s zwi Repräsentationsschluss vom Testverhalten auf dasjenige außerhalb der Testsituation 1. Inhaltliche Validität. Sofern die Aufgaben eines Tests Stichproben aus dem zu erfassenden Zielmerkmal darstellen, kann aus dem Verhalten in der Testsituation auf dasjenige außerhalb im Sinne eines Repräsentationsschlusses geschlossen werden (7 Abschn. 1.6) Der Grad der Genauigkeit, in dem dieses möglich ist, bezeichnet die inhaltliche Validität. Sie ist hoch, wenn die Aufgaben völlig identisch sind, etwa mit Anforderungen, die in bestimmten Bereichen gestellt werden: Als Beispiel dafür stehen Prüfungen für Farbtüchtigkeit, Schulleistungstests oder die Fragen beim Ablegen der Führerscheinprüfung, des Weiteren Arbeitsproben wie orthographische Richtigkeit beim Diktat 2 Bedeutung hoher Validität 149 Bei hoher Validität erlauben die Ergebnisse eines Tests die Generalisierung aus dem numerischen Relativ der Testskalen auf das empirische Relativ des interessierenden Zielmerkmals oder einen Schluss aus dem (beobachteten) Verhalten in der Testsituation auf (ebenfalls beobachtbares) Verhalten außerhalb der Testsituation (Michel & Conrad, 1982, S. 55). Insofern handelt es sich um das wichtigste Gütekriterium überhaupt. Selbst der Objektivität und der Reliabilität kommt primär lediglich die Rolle zu, günstige Voraussetzungen für das Erreichen einer hohen Validität zu schaffen. Auch bei der Validität lassen sich verschiedene Aspekte voneinander unterscheiden: Unter Validität wird das Maß an Genauigkeit verstanden, mit dem der Test dasjenige Persönlichkeits- oder Verhaltensmerkmal misst, das er messen soll oder zu erfassen vorgibt. Definition 2.3.1.3 rtt = 1 - sinn = 0.643 unkorrigiert 2 s zwi 2 QSr 37.08 = = 1.0300, (N- 1) (k- 1) 36 QSzw 38.8 = = 0.9700, N (k- 1) 4 0 rtt = 1 - sr2 = 2 sinn = QSzw 24.42 s2zw = = = 2.7133, N-1 9 QSr = QSinn - QSzI = 38.8 - 1.72 = 37.08, k ∑I2 - ( ∑X)2 = 6715 - 33489 = 1.72, QSzI = 2 ∑P = 733 - 3471 = 38.8, QSinn = ∑X - 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Ü-Koeffizient der Beurteilerübereinstimmung (2.82) bei der Anfertigung ihrer Gemälde zu vermitteln. Um den Lehrenden und Studierenden konkrete Beispiele vor Augen zu führen, wählt eine staatliche Sachverständigenkommission unter Beteiligung der Akademien eine Reihe von Bildern aus, bei denen nach ihrer Auffassung jedes der Ziele in optimaler Weise erreicht ist. Bevor diese Bilder den Lehrplänen als Anschauungs6 Der Lehrplan für den Unterricht in Gestaltender Kunst an den Akademien der Bundesländer sieht vor, den Studierenden die Ziele 4 Originalität, 4 Innere Stimmigkeit, 4 Ausgleich von Form und Inhalt, 4 Intellektualität des Hintergrundes Beispiel Die Anwendung dieses Maßes wird anhand des folgenden Beispiels (. Tab. 2.18 und . Tab. 2.19) demonstriert. Ü = Übereinstimmungskoeffizient, QSinnh = Quadratsumme innerhalb der Personen, QSmax = maximal mögliche Quadratsumme innerhalb der Personen. = 1 - QSinnh U QSmax und Tempo in Kurzschrift oder Maschinenschreiben, wenn es um die Eignung als Sekretärin geht. Ferner gehören auch Untersuchungen an Fahr- und Flugsimulatoren hierher. In solchen Fällen ist die Übereinstimmung zwischen der Test- und Nicht-Testsituation unmittelbar augenfällig, weshalb darauf verzichtet werden kann, diese näher zu bestimmen. Es lassen sich aber leicht andere Beispiele anführen, wo die Entsprechungen weniger evident sind und es zweckmäßig erscheint, numerische Werte für die inhaltliche Validität zu ermitteln. Meist wird dabei wie folgt verfahren: In einem ersten Schritt wird das in Betracht gezogene Zielkonstrukt begrifflich und theoretisch expliziert. Sofern noch keine Aufgaben oder Fragen vorliegen, die das Zielkonstrukt treffen sollen, werden diese sodann nach Maßgabe operationaler Definitionen (s. Fricke, 1974) oder generativer Regeln (Klauer, 1987) erstellt. Die vorliegenden oder erhaltenen Items werden von mehreren unabhängig voneinander arbeitenden Personen (meist Experten oder zumindest in die Materie eingewiesene) daraufhin beurteilt, inwieweit sie dem Inhalt des Konstruktes, ggf. auch den Vorgaben der generativen Regeln entsprechen. Mitunter kommt es auch darauf an, die Einhaltung vorgegebener Quoten (z. B. Aufgaben mit bestimmten Strukturmerkmalen) einzuschätzen. Das Maß der Beurteilerübereinstimmung liefert einen Koeffizienten für die Inhalts- oder Kontentvalidität. Herangezogen werden dafür die pro Item beobachtbaren Urteilsstreuungen zwischen den Einschätzern. Für die Gesamtzahl der Items einer Skala bietet sich der Ü-Koeffizient von Fricke (1974, S. 40–43) an: Kapitel 2 · Grundlagen diagnostischer Verfahren Quantitative Bestimmung der inhaltlichen Validität 150 3 Rohwert 2 3 0 1 1 1 Bilder 4 Rohwert n n⋅ k j=1 n 2 j=1 2 4 (k ∑x j - ∑x j ) . 2 0 1 0 1 2 3 3 1 1 0 1 3 3 1 1 0 1 4 4 1 1 1 1 4 3 1 1 1 0 5 2 0 1 1 0 5 2 0 0 1 1 6 2 0 0 1 1 6 3 1 1 0 1 3 5 4 5 Randsumme 4 4 4 5 Randsumme = 1 - 4 (4 ⋅17- 53) = 1 - 60 = 0.375. U 6 • 16 96 für das Kriterium »Innere Stimmigkeit« ein solcher von = 1 - 4 (4 ⋅17- 49) = 1 - 76 = 0.208, U 6 ⋅16 96 k = Anzahl der Beurteiler, n = Anzahl der Bilder, xj = Rohwert (d. h. Summe) von Bild j. Für das Kriterium »Originalität« ergibt sich demnach ein Ü-Koeffizient von = 1 U Die Formel lautet: 1 1 1 1 1 1 2 3 4 Professoren . Tabelle 2.19. Kriterium 2 1 0 1 1 1 Bilder 1 2 3 4 Professoren . Tabelle 2.18. Kriterium 1 material beigefügt werden, beurteilen 4 Professoren für Kunst in einer Art Kreuzvalidierung, ob jedes der Kriterien aus ihrer Sichtweise erfüllt ist. In . Tab. 2.18 und . Tab. 2.19 werden Urteile einer Gruppe von Personen aufgelistet, ob das Kriterium 1 bzw. Kriterium 2 (7 weiter oben) in jedem von 6 Bildern erfüllt ist (= 1) oder nicht erfüllt ist (= 0). 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 151 2 2 Korrelationsschluss vom Testergebnis auf das Kriterium Ein überregional operierendes Taxiunternehmen führt eine Untersuchung zur psychologischen Erfassung der Eignung zum Führen eines Taxis durch. Die im Unternehmen beschäftigten Fahrer werden von ihren Gruppenleitern hinsichtlich ihres beruflichen Erfolges, also der Eignung, eingeschätzt (= Kriterium). Dafür bieten sich u. a. die folgenden Gesichtspunkte an: Die Zahl beförderter Passagiere in einem festgelegten Zeitraum, zurückgelegte Wegstrecken, die Zahl von Unfällen, Schäden am Fahrzeug, Beschwerden von Fahrgästen, Fehlzeiten und Strafmandate (die letzten Merkmale mit jeweils negativer Gewichtszahl). Jede dieser Variablen indiziert nur einen bestimmten Aspekt des »Berufserfolges«. Es mag deshalb naheliegen, die einzelnen Punktwerte zu einem Globalwert der Eignung zusammenzufassen. Je nach dem Dafürhalten der maßgeblichen Vorgesetzten oder der Unternehmensleitung erfahren einzelne Subdimensionen eine besondere Gewichtung. So könnte die Organisation bestrebt sein, nach außen ein nobles Erscheinungsbild abzugeben und aus diesem Grunde saubere Kleidung und verbindliche Umgangsformen als besonders wichtig erachten. (Das macht deutlich, dass Kriterien sich keineswegs immer auf selbstverständliche Weise ergeben, sondern häufig von Festlegungen verschiedenster Art wie Zielvorstellungen, Verfügbarkeit, Akzeptanz, Kosten u. Ä. abhängen.) Mit jeder der Einzelvariablen und/oder deren optimaler Kombination als Kriterien für die Fahrereignung werden die Ergebnisse solcher Leistungstests korreliert, die als einschlägig erachtet und deshalb den Beschäftigten vorgegeben werden: Dazu zählen vielleicht allgemeines Wissen, verbales Verständnis und Wortschatz (um 6 Beispiel 2. Kriteriumsbezogene Validität. Immer dann, wenn es nicht möglich ist, das Zielmerkmal als Ganzes oder wenigstens Stichproben daraus in einem Test zusammenzustellen, sondern die ausgewählten Verhaltensweisen oder Aufgaben nur bestimmte Merkmale indizieren (also für etwas anderes stehen und nicht nur für sich selbst), bedarf es eines Korrelationsschlusses, um von den Ergebnissen des Tests auf das interessierende Zielmerkmal oder Kriterium schließen zu können. Eine solche Korrelation muss empirisch ermittelt werden. Zu diesem Zweck bearbeitet eine Stichprobe von Probanden den Test, und es wird geprüft, ob die Ergebnisse mit dem Kriterium übereinstimmen, d. h. mit Punktwerten. Diese indizieren ihrerseits interindividuelle Unterschiede in der Zieldimension und müssen unabhängig von der Testung ermittelt worden sein. Um diese Unabhängigkeit der Erhebungsmodalitäten deutlich zu machen, hat man den Begriff »Außenkriterium« für Messwertreihen gewählt (im Unterschied zu sog. »Binnenkriterien« wie dem Skalenscore als Kriterium für die Bestimmung der Trennschärfe). Der Validitätskoeffizient wird mit rtc bezeichnet, der Korrelation des Tests mit einem Kriterium (engl.: criterion). Denkbar ist auch eine Bestimmung der Inhaltsvalidität auf experimentellem Wege: Mindestens 2 Gruppen von Personen werden die Explikationen eines Konstruktes sowie die Regeln vorgegeben, nach denen Items zu generieren sind. Die auf diese Weise unabhängig voneinander entstandenen Tests werden dann von einer größeren Stichprobe von Probanden bearbeitet. Die zwischen den Ergebnissen auftretende Korrelation ist gleichfalls ein Maß für die inhaltliche Validität beider Verfahren (s. Fricke, 1974, S. 45). Kapitel 2 · Grundlagen diagnostischer Verfahren Experimentelle Bestimmung der inhaltlichen Validität 152 Lienert (1989, S. 17) spricht in Bezug auf den letzten Faktor von »Zulänglichkeit« als der Kommunalität, die nach Absehung von der Reliabilität des Tests und derjenigen des Kriteriums besteht. Die numerische Bestimmung der Zulänglichkeit müsste deshalb mittels der doppelten Minderungskorrektur erfolgen (7 Abschn. 2.1.1.3). Dabei wird jedoch primär der technisch-instrumentellen Unzulänglichkeit Rechnung getragen, nicht so sehr dagegen der Zentralität oder der inhaltlichen Validität des Kriteriums für das in Frage stehende Konstrukt. Unter sonst gleichen Voraussetzungen wird ein Kriterium valide (und der Test eher zulänglich) sein, wenn es sich um eine Indizierung derselben Merkmalsdimension handelt, d. h. semantisch und theoretisch eine hohe Ähnlichkeit besteht. Eine Qualifizierung als Kriterium erlangen entsprechende Variablen erst dann, wenn sie darüber hinaus einen höheren Status aufweisen, letztlich also verlässlicher und entscheidungsrelevanter sind. Als informelle Regel bei der Beurteilung des Status empfiehlt Burisch (1984), sich das Dilemma zu vergegenwärtigen, auf der Basis inkonsistenter Informationen diagnostische Entscheidungen von erheblicher praktischer Bedeutung vornehmen zu müssen. So müssten die Fragen beantwortet werden, ob ein Patient wegen seiner Depression hospitalisiert werden müsse oder nicht, ob ein mehrfach rückfälliger Straftäter nach Verbüßung einer längeren Haftstrafe bedingt entlassen werden dürfe oder nicht, ob sich ein Bewerber für eine risikoreiche Expedition aufgrund seiner emotionalen Stabilität eigne oder nicht. Zwei Informationsquellen (z. B. die Einschätzung von Ärzten, Anstaltsleitung oder Bekannten bzw. die Punktwerte vorgegebener Tests) lieferten wechselseitig inkompatible Hinweise, die Variable X1 in der einen, X2 in der anderen Richtung. Diejenige Quelle, die den Ausschlag gäbe, qualifiziere sich als »echtes« Kriterium. Davon zu unterscheiden sind solche Kriterien, für die zwar die Bedingung der semantischen und theoretischen Äquivalenz, nicht aber diejenige des höherwertigen (Diese Voraussetzungen sind geradezu trivial, denn wenn eine Variable nicht mit sich selbst korreliert, kann sie schon gar nicht mit anderen Variablen kovariieren.) 4 vom Grad dessen, was Test und Kriterium an konzeptueller Gemeinsamkeit enthalten. Da häufig mehrere Kriterien vorliegen oder denkbar sind und vorab nicht entschieden werden kann, welches davon das optimale ist, hat ein Test so viele Validitäten, wie es vernünftige Kriterien für dasjenige gibt, was der Test messen soll. Wie unmittelbar einzusehen ist, hängt die kriteriumsbezogene Validität u. a. von den folgenden Faktoren ab: 4 der Reliabilität des Tests, 4 der Reliabilität des Kriteriums, die Voraussetzungen für Kommunikation mit den Fahrgästen und im Unternehmen zu prüfen), rechnerisches Denken, Merkfähigkeit, technisches Verständnis, motorische Fertigkeiten, des Weiteren Fragebogen zur Extraversion, Aggressivität und Frustrationstoleranz. Die korrelative Übereinstimmung zwischen der Kombination der Testwerte einerseits und derjenigen der Kriteriumsvariablen andererseits zeigt die Validität der Testbatterie gegenüber »dem« Kriterium an, d. h. das Ausmaß, in dem die Unterschiede im Außenkriterium durch Unterschiede in den Testleistungen erfassbar sind. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 »Echte Kriterien« Auswahl einer geeigneten Kriteriumsvariablen Kommunalität als Grad der konzeptuellen Gemeinsamkeit von Test und Kriterium Einflussfaktoren der kriteriumsbezogenen Validität 153 2 Konkurrente und prädiktive Gültigkeit Berücksichtigung von Grund- und Selektionsquoten »Effektivität« von Skalen Target-Variablen Ranges gilt. Solche Variablen verdienen nur eine Bezeichnung als »Quasikriterien«, da sie ihrerseits einer Validierung an echten Kriterien bedürfen. Das trifft etwa auf jene Fälle zu, in denen eine neu entwickelte Skala an einem Test »validiert« wird, der dasselbe Merkmal erfassen soll. So sind zahlreiche Intelligenztests mit dem Binet-Staffeltest verglichen worden, weil dieser selbst am Altersverlauf der Lösungswahrscheinlichkeiten und am Lehrerurteil entwickelt wurde. Bei der dabei verwendeten externalen Konstruktionsstrategie war die Validität der Items gleichsam Voraussetzung und deshalb gewährleistet. Von »echten« und »Quasikriterien« zu unterscheiden sind die sog. Target-Variablen. Dabei handelt es sich um eine spezifische Klasse von Kriterien, die aufgrund bestehender Sachzwänge vorhergesagt werden müssen, und zwar auf der Basis irgendwelcher Informationen. Beispiele dafür sind das Suizidrisiko bei psychiatrischen Patienten, die Zufriedenheit oder Unfallneigung von Beschäftigten in einem Betrieb oder das Alkoholismusrisiko bei Funktionsträgern in Überwachungsbereichen. In solchen Fällen kommt es lediglich auf das prognostische Ziel einer Maximierung der Trefferquoten an. Jede Testskala ist hierbei willkommen, die in signifikanter Weise zur Aufklärung der TargetVarianz beiträgt, gleich ob die Konfiguration der Testbatterie unter inhaltlich-psychologischer Perspektive einen (theoretischen) Sinn macht oder nicht. Die Korrelation von Skalen mit solchen Target-Variablen sollte zweckmäßigerweise als Effektivität bezeichnet werden. Die Höhe dieses Koeffizienten sagt nur wenig über den verwendeten Test als solchen aus, sondern nur etwas über die Angemessenheit seines Einsatzes: Ein Hammer beispielsweise zum Sägen oder Schrauben verwendet, würde nur eine geringe Effektivität aufweisen, und zwar nur deshalb, weil er dysfunktional eingesetzt wäre. Weil Target-Variablen meist in alternativ abgestufter Form vorliegen (hospitalisiert ja/nein; gefährdet/nicht gefährdet usw.) stellt sich hier das Problem des umgekehrt u-förmigen Zusammenhanges zwischen Grundquote und Höhe der Korrelation (das bereits unter der Trennschärfe angesprochen wurde; 7 Abschn. 2.2.7.2, S. 121, Implikationen: . Abb. 2.29) erneut, diesmal im Hinblick auf die Validität. Die Untersuchungen von Hollmann (1993) haben nachdrücklich vor Augen geführt, dass – abgesehen von der Art des verwendeten Korrelations-Koeffizienten – bei der Beurteilung »der« Validität unbedingt die Grund- und mehr noch die Selektionsquoten berücksichtigt werden müssen; letztere können z. B. je nach den wirtschaftlichen Gegebenheiten und dem Verhältnis zwischen Zahl der Bewerber und freien Stellen starken Schwankungen unterliegen. Burisch (1984) hat die vorgenannten 3 Arten von Validierungen anhand der nachfolgenden Graphiken veranschaulicht (. Abb. 2.31). Als Unterformen der kriteriumsbezogenen Validität lassen sich wiederum die konkurrente (gleichzeitige) und die prädiktive Gültigkeit voneinander unterscheiden. Die erste ist dann gegeben, wenn Test- und Kriteriumswerte nahezu gleichzeitig erhoben werden, die zweite liegt dann vor, wenn zu einem Zeitpunkt t1 die Testscores und zu einem späteren Zeitpunkt t2 die Punktwerte im Kriterium erhoben werden. Bestehen signifikante Korrelationen, so sprechen wir bei konkurrenter oder auch Übereinstimmungsvalidität davon, dass sich die Varianz des Kriteriums (als deskriptives Konstrukt) auf die Varianz der Testwerte zurückführen oder durch sie (als explikatives Konstrukt) auf- bzw. erklären lässt. Häufig hängt es allerdings nur von der Perspektive des Betrachters ab, in welcher Rolle jedes der beiden miteinander verglichenen Konstrukte gehandhabt wird, denn ebensogut wie man den schulischen Erfolg auf Intelligenz zurückführen kann, ist es möglich, Intelligenz mit der schulischen Leistung zu erklären usw. (»Henne-EiProblem«). Kapitel 2 · Grundlagen diagnostischer Verfahren »Quasikriterien« 154 Deshalb kommt der prädiktiven Validität ein höherer Stellenwert zu: Nach den Regeln unserer Logik kann nur zeitlich Früheres ursächlich verantwortlich sein für zeitlich Späteres und damit dieses erklären (sofern der Einfluss von Drittvariablen ausgeschlossen ist). Es spricht deshalb besonders nachhaltig für die Brauchbarkeit eines Tests, wenn etwa dessen heute ermittelten Punktwerte den Ausbildungs- oder Berufserfolg in 10 Jahren präzise vorherzusagen erlauben, das Instrument somit eine hohe prädiktive Validität aufweist. Wegen der im Vorhersageintervall auf die Probanden einwirkenden sehr verschiedenen und schwerlich kontrollierbaren Bedingungen liegen die Koeffizienten für die prädiktive Validität in aller Regel deutlich unter denen der konkurrenten Validität. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Stellenwert der prädiktiven Gültigkeit aufgrund der Brauchbarkeit von Vorhersagen . Abb. 2.31. Verschiedene Arten von Validierungen. (Aus Burisch, 1984) 155 2 156 rtc ⋅ Sx sx 2 2 rtc ⋅ Sx 2 1-rtc + 2 sx (2.83) Rtc = auf die größere (repräsentative) Streuung von Sx aufgewerteter Validitätskoeffizient, rtc = beobachteter Validitätskoeffizient, sx = beobachtete Messwertestreuung, Sx = angenommene Messwertestreuung. R tc = Validität bei eingeschränkter Variabilität Für Auslese- und Platzierungsentscheidungen auf der Basis von psychodiagnostischen Informationen bedarf es vorheriger längsschnittlicher Erhebungen. Damit wird der Fehlermöglichkeit vorgebeugt, wonach beispielsweise das Ausüben einer beruflichen Tätigkeit auch Auswirkungen auf das Lösen von Testaufgaben hat, etwa weil dabei Fertigkeiten vermittelt oder geübt werden, die bei der Bearbeitung des Tests dienlich sind. Dadurch aber würden die Testleistungen einseitig erhöht, ohne dass damit eine äquivalente Mehrleistung im Kriterium einherginge. Dies hätte die Folge, dass der Testwert für die Trennung voraussichtlich erfolgreicher und erfolgloser Bewerber falsch festgelegt wird. Diese Fehlerquellen werden vermieden, wenn zunächst die Prädiktorenscores erhoben, dann die (unter optimalen Bedingungen: alle getesteten) Probanden zum jeweiligen »treatment« (Behandlung, Schulung, Berufstätigkeit usw.) zugelassen und schließlich deren Erfolgsraten registriert werden. Der Rekurs auf die dabei gewonnenen Erkenntnisse (die Höhe des Validitätskoeffizienten, Quoten von Erfolg und Misserfolg usw.) bei zukünftig anstehenden Entscheidungen setzt somit die Konstanz aller Rahmenbedingungen voraus. Das heißt, es muss unterstellt werden, dass die sich später meldenden Bewerber auch repräsentativ sind für die seinerzeitige Forschungs- oder Begleituntersuchung und alle zwischen Testung und Erhebung der Kriteriumswerte auftretenden sozialen, ökonomischen und ökologischen Faktoren auch später dieselben sein werden – sicher weithin eine Fiktion. Da es aus verschiedenen Gründen nur selten möglich ist, alle Bewerber einzustellen, muss eine Selektion erfolgen. Für diese wird mitunter bereits auf den Test zurückgegriffen, dessen längsschnittliche Validität erst erprobt werden soll, etwa deshalb, weil man auf dessen Validität bereits vertraut, und zwar in der Art und Weise, dass die Leistungsschwächsten nicht zugelassen werden. In der Prädiktordimension (und weniger stark auch in der Kriteriumsvariablen) kommt es dadurch zu einer Einengung der Variabilität, d. h. für die Validitätsprüfung steht nicht mehr die gesamte Streubreite der Messwerte zur Verfügung, mit der Folge einer Minderung des Validitätskoeffizienten (. Abb. 2.32). Es sind deshalb Formeln entwickelt worden, um den bei restringierter Streuung im Prädiktor empirisch ermittelten Validitätskoeffizienten auf repräsentative Breite aufzuwerten: Exkurs Kapitel 2 · Grundlagen diagnostischer Verfahren Als Voraussetzung gilt die Annahme, dass die Standardschätzfehler und die Steigung der Regressionsgeraden gleich sind. Analoge Formeln liegen auch für jene Fälle vor, in denen nur die Kriteriumsvarianz eingeschränkt ist (wenn etwa die ungeeigneten Personen durch Entlassung oder Umsetzung für die Validitätsprüfung nicht mehr zur Verfügung stehen) oder sofern die Selektion und die damit einhergehende Varianzeinschränkung anhand eines bereits validitätserprobten Tests stattfanden, mit dem das neuentwickelte Verfahren der ausgelesenen Stichprobe korreliert (s. dazu Lienert, 1989, S. 304–309). Noch komplizierter sind diejenigen Fälle, in denen die »eigentliche« Validität für einen neuen Test ermittelt werden soll, der mit bewährten Skalen korreliert, anhand derer eine Selektion, gestaffelt nach der Höhe der Prädiktionsscores, vorgenommen R tc = .50 ⋅10 5 .502 ⋅102 1− .502 + 52 1 1 1 = .76. = = = 25 1.75 1.32 .75 + 25 Ein neuentwickelter Test hätte in der Normierungsstichprobe eine Streuung von Sx = 10 aufgewiesen. In der Validierungsgruppe habe sich nur ein Wert von sx = 5 gezeigt; die Validität sei mit rtc = .50 errechnet worden. Wie hoch wäre die Validität ausgefallen, wenn die gesamte Prädiktor-Streuung vorgelegen hätte? Beispiel 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Weitere mögliche Varianzeinschränkungen . Abb. 2.32. Korrelationshöhe in Abhängigkeit von der Homogenität der Probandenstichprobe. Selegiert man nur die im Test höher als der Durchschnitt scorenden Personen, wird die Korrelationsellipse der dann homogeneren Stichprobe runder als sie in der unausgelesenen Stichprobe ist. Wegen der hier angenommenen recht hohen Korrelation zwischen Test und Kriterium bedeutet die Selektion nach dem Prädiktor zugleich auch eine solche im Kriterium. (Aus Amelang & Bartussek, 1990, S. 103) 157 2 Kennwerte zur Konstruktvalidität existieren nicht Validierung als Prozess Die Theorie zur Introversions-Extraversions-Dimension von Eysenck (1957) beinhaltet im wesentlichen die Vorstellung, dass alle zentralnervösen Prozesse durch ein genetisches, interindividuell unterschiedliches Verhältnis von nervösen Erregungszu Hemmungsprozessen gekennzeichnet sind. Extravertierte sind nach Eysenck dadurch gekennzeichnet, dass sie zur Ausbildung nur schwacher exzitatorischer Potentiale, aber schnell aufgebauter, intensiver und langsam abklingender inhibitorischer Prozesse neigen. Introvertierte sollen umgekehrt starke exzitatorische Potentiale, aber nur langsam einsetzende, schwache Inhibitionsprozesse aufweisen. Als neurophysiologisches Korrelat der »excitation-inhibition-balance« wird die Erregungsschwelle des aufsteigenden retikulären Aktivierungssystems (ARAS) gesehen, und zwar mit einer bei Introvertierten leichteren, bei Extravertierten erschwerten Affizierbarkeit. Für eine Skala, die auf das besagte Erregungs-Hemmungs-Gleichgewicht abhebt, resultieren daraus u. a. die folgenden Vorhersagen: 4 Bei Applikation von sedierenden Psychopharmaka müssten Extravertierte eher Leistungseinbußen erkennen lassen als Introvertierte; umgekehrt sollten stimu6 Beispiel 3. Konstruktvalidität. Gleichsam eine Synthese aus inhaltlicher und kriteriumsbezogener Validität stellt die Konstruktvalidität dar. Darüber hinausgehend wird unter diesem Begriff die Einbettung des mit einem Test erfassten Konstruktes in das nomologische Netzwerk anderer, und zwar teils inhaltlich ähnlicher und teils völlig »artfremder« Konstrukte verstanden. Auf diese Weise fällt die Perspektive zumindest vom Anspruch her sehr viel breiter aus als bei den üblichen Validitätsuntersuchungen. Ferner gehört zu dem Bedeutungsgehalt des Begriffes die Vorstellung von einem andauernden Prozess: Weniger die Validität als ein gewissermaßen fertiges »Produkt«, sondern mehr die Validierung als Vorgang, dessen Abschluss offen steht, ist damit gemeint. Wie die erwähnte Einbettung im Einzelnen zu erfolgen hat, dafür existieren keine Handlungsanweisungen. Im Allgemeinen wird der postulierte Validierungsprozess darauf hinauslaufen, aus dem gewählten Konstrukt eine möglichst große Zahl verschiedener Hypothesen zum Verhalten von Personen mit unterschiedlichen Testscores auf der fraglichen Dimension abzuleiten. In mehreren gesonderten Schritten kommt es sodann darauf an, diese Hypothesen empirisch und/oder experimentell zu überprüfen. Dabei ist es wünschenswert, ein möglichst breites Spektrum von Verhaltensbereichen abzudecken und tunlichst verschiedene Analysemethoden anzuwenden, wie Mittelwertsprüfungen, Cluster- und Faktorenanalysen usw. Die Gesamtheit der erhaltenen Resultate steht dann für die Konstruktvalidität des Tests. Kennwerte, die dieses facettenreiche Bild in einem quantitativen Ausdruck zusammenfassen, existieren nicht. wurde. Diese Konstellation lag vor bei der Erprobung des Tests für Medizinische Studiengänge (TMS). Die Zulassung erfolgte nach Maßgabe der Schulnoten, und zwar derart, dass die Zulassungschance von Note zu Note multiplikativ anstieg. Demgemäß ist die Stichprobe der Zugelassenen in Form und Breite der Prädiktionswerteverteilung »verschoben«. Bartussek et al. (1986) haben die notwendigen Entzerrungen modellhaft vorgenommen und eine prädiktive Validität des TMS für die Examenszwischennote von rtc=.45 errechnet. Kapitel 2 · Grundlagen diagnostischer Verfahren Einbettung des Konstrukts in andere Konstrukte 158 Der geschilderte Variantenreichtum von Ansätzen, Methoden und Analysen einerseits, die Beliebigkeit der Vorgehensweise und die Kombination von Elementen andererseits, hat die Konstruktvalidität dem Vorwurf ausgesetzt, es fehle ihr an methodischer Stringenz, und auch zur präzisen Elaboration der Konstrukte (Pervin, 1981, S. 147) leiste sie keinen eigenständigen Beitrag. In der Tat trifft zu, dass die Konstruktvalidierung nicht über ein spezifisches Arsenal an Methoden oder Analysetechniken verfügt, sondern als Ober- und Sammelbegriff die bekannten Validitätsarten nur konstruktzentriert bündelt. Als ein besonderes Instrument der Zusammenführung von Validitätsklassen kann hier allerdings die sog. Multitrait-Multimethod-Analyse (Campbell & Fiske, 1959) rubriziert werden, bei der es sich um ein vergleichsweise sophistiziertes Validierungskonzept handelt. Ihr Grundgedanke besteht darin, dass die Ergebnisse allen wissenschaftlichen Messens auch von der gewählten Methode abhängen. Jedes Konstrukt ist nicht »an sich« beobachtbar oder aufzeigbar, sondern zumindest teilweise eine Resultante der vorgenommenen Operationalisierungen zu deren Erfassung. Von daher besteht ein wichtiges Anliegen darin, den spezifischen Anteil, den die jeweilige Operationalisierung oder Methode an der beobachtbaren Variation erzeugt, aus der Konfundierung Konstrukt plus Methode herauszulösen und »sichtbar« zu machen. Dazu sind mindestens die Kombinationen von 2 Konstrukten mit 2 Methoden (z. B. ein Test und dazugehörige Fremdeinschätzungen) erforderlich. Die angestrebte Trennung gelingt dann am besten, wenn Konstrukte und Methoden voneinander stark divergieren. Das Zu all diesen und vielen weiteren theoriegeleiteten Hypothesen liegen bestätigende Befunde vor. Ungeachtet einiger Inkonsistenzen (s. Amelang & Bartussek, 1990, S. 321–331) ist dadurch die Konstruktvalidität der E-I-Skala in einer außerordentlich umfassenden Weise abgeklärt. Daneben werden ständig weitere Arbeiten durchgeführt, als deren Folge sich u. a. auch Differenzierungen und Modifikationen der zugrundeliegenden theoretischen Vorstellungen ergeben. 4 4 4 4 lierende Substanzen bei Extravertierten größere Leitungszuwächse produzieren als bei Introvertierten. In fortlaufenden einfachen motorischen Handlungen mit Wiederholungscharakter sind eher Anzeichen von »Ermüdung« (Hemmung) bei den Extravertierten als bei den Introvertierten zu erwarten. Die Schmerzresistenz ist bei Extravertierten höher als bei Introvertierten. Zu prognostizieren ist bei Extravertierten auch ein stärkerer Reminiszenzeffekt, ein höherer α-Anteil im Ruhe-EEG und ein geringeres Langzeitgedächtnis. Im Sozialverhalten sind auf seiten der Extravertierten höhere Kriminalitäts- und Scheidungsraten zu erwarten, des Weiteren eine Neigung zu Drogen im weitesten Sinne (Alkohol, Nikotin), Einstellungen mehr im Sinne von »tough-mindedness« und weniger in Richtung von »tender-mindedness«. Eine Erregung des limbischen Systems, das als neurophysiologische Grundlage von Neurotizismus angenommen wird, führt vorliegenden Anhaltspunkten zufolge zu retikulärem Arousal, also einer nervösen »Feuerung« (aber umgekehrt führt retikuläres Arousal nicht zu limbischer Aktivation). Aus diesem Grunde ist eine geringe Korrelation der Neurotizismus- mit Introversionsscores wahrscheinlich. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung Multitrait-Multimethod-Analyse 159 2 2 160 .02 .05 Gesellig Ängstlich 6 .24ss Vertrauensvoll Methode 2 .00 –.25ss N .57ss HN E .84 .57ss IT27 SRT Methode 1 IT27 –.04 .26 .42ss –.16 .28s .41ss .70 SRT Methode 1 .11 .00 .22ss –.02 .17 .73 HN –.18 .34ss .04 –.15 .83 E .41ss –.03 .18 .85 N .10 .40ss .69ss Vertrauensvoll –.12 .67ss Gesellig Methode 2 .42ss Ängstlich . Tabelle 2.20. Multitrait-Multimethod-Matrix mit den Methoden 1 (Fragebogen) und 2 (gemittelte Fremdeinschätzung) sowie den Konstrukten Vertrauen (erfasst mit den Skalen IT27, SRT und HN) sowie Extraversion und Neurotizismus. (Nach Amelang et al., 1984, S. 210) Bei der Erprobung einer neuen Skala für zwischenmenschliches Vertrauen bearbeiteten 101 Erwachsene beiderlei Geschlechts u. a. 3 Fragebogentests zum Konstrukt Vertrauen, und zwar eine deutschsprachige Adaptation der auf Rotter zurückgehenden Interpersonal Trust Scale sowie die Skalen Self Reported Trust (SRT) von Constantinople (1970) und Trust aus den Philosophies of Human Nature (HN) von Wrightsman (1974). Als diskriminante Konstrukte dienten Extraversion und Neurotizismus, erfasst mit Hilfe des Eysenck-Personality-Inventory. Als alternativer methodischer Zugang zu diesen Fragebogen standen Fremdeinschätzungen von jeweils 2 Bekannten oder Freunden auf konstruktadäquaten Eigenschaftsdimensionen zur Verfügung. Die Resultate sind ausschnitthaft in . Tab. 2.20 zusammengestellt. Beispiel zentrale Prinzip besteht darin, die 4 Messwertreihen an einer Stichprobe von Personen zu erheben und Korrelationen zu analysieren. Die verschiedenen Methoden zu einem Konstrukt sollten miteinander hoch, die mit ein und derselben Methode erfassten Konstrukte jedoch niedrig miteinander interkorrelieren (konvergente bzw. diskriminante Validität), d. h. auch bei identischer Methode sollten sich unähnliche Konstrukte als relativ unabhängig erweisen. Nachfolgend wird ein empirisches Beispiel dazu gegeben. Eingehender sind die Prinzipien der Multitrait-Multimethod-Analyse von Ostendorf et al. (1986) dargestellt und anhand von Erhebungen an N = 641 Probanden mit der deutschsprachigen Form der Personality Research Form exemplifiziert worden. Kapitel 2 · Grundlagen diagnostischer Verfahren Nebengütekriterien Über die relative Wichtigkeit der Nebengütekriterien zueinander (und auch zu den Hauptgütekriterien) mögen die Meinungen auseinandergehen. Es gibt keine Anhaltspunkte für eine unter allen Gesichtspunkten objektive Entscheidung. Für die nachfolgende Darstellung sollen 2 Kriterien herausgegriffen werden, von denen das eine relativ »testnah« ist, insofern es die Einordnung der ermittelten Testscores in das Verhalten anderer Testteilnehmer betrifft, das andere mehr »entscheidungsnah«, weil die aus den Testdaten abzuleitenden Konsequenzen im Vordergrund stehen. 2.3.2 Insgesamt können damit die Forderungen von Campbell und Fiske (1959) für die Validierung der Vertrauensskala als erfüllt gelten. Von spezifischer Bedeutung für die hier anstehende Analyse sind andere Werte: 4 Die Koeffizienten für die Kombination von Test mit »zugehörigen« RatingDimensionen finden sich im linken unteren Drittel und sind durch Schattierung besonders hervorgehoben. Alle Werte sind mindestens auf dem 5%-Niveau signifikant. Das arithmetische Mittel beträgt r-tc = .35. Mit dem Nachweis dieser signifikanten (konvergenten) Validitäten ist die erste Forderung erfüllt. 4 Eine zweite Forderung geht dahin, dass die eben dargestellten Kombinationen höhere Koeffizienten aufweisen als die »nichthomologen« Paarungen von Testund Fremdeinschätzungsskalen. In der Tat beträgt deren arithmetisches Mittel nur r- = .10 (ohne Berücksichtigung des Vorzeichens), was die diskriminante Validität belegt. 4 Die dritte Forderung bezieht sich auf das Multitrait-Monomethod-Dreieck und läuft auf höhere Korrelation innerhalb ein und desselben Traits (bei Konstanz der Methode) als zwischen den Traits hinaus. Das betrifft im vorliegenden Material nur die linke obere Matrix. Das Mittel der eingerandeten Koeffizienten beträgt r- = .51, dasjenige der restlichen Werte außerhalb der Reliabilitätsdiagnonalen nur r- = .15. Auch hier findet sich also ein wesentlicher Unterschied zwischen konvergenter und diskriminanter Validität. 4 Eine vierte Forderung verlangt schließlich identische Zusammenhänge zwischen den Traits unabhängig von der Messmethode (Äquivalenz der divergenten Validitäten). Während sich für die Fragebogen ein Zusammenhang zwischen den 3 Vertrauensskalen und Extraversion von durchschnittlich r- = .15 errechnet, beträgt der eine Koeffizient für die Kombination der Fremdeinschätzungen vertrauensvoll/gesellig r = .40; das stellt keine gute Übereinstimmung dar. Wesentlich günstiger sieht es aber für Neurotizismus aus, wo die entsprechenden Koeffizienten r- = –.14 und r = .10 lauten. Schließlich ist auch der Zusammenhang zwischen E und N mit r = –.15 bzw. r = –.12 durchaus wechselseitig konkordant. In der Matrix gebührt den Diagonalen vorrangige Aufmerksamkeit: 4 In der Hauptdiagonalen stehen die Reliabilitäten der Skalen. Diese Werte sind am höchsten, was als eine Grundtatsache zu erwarten ist. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 161 2 2 Äquivalentnormen: Zuordnung der Scores zum Alter oder zu Reifeabschnitten Bei den Staffeltests, die auf Binet zurückgehen, sind die Aufgaben bekanntlich danach ausgewählt worden, dass sie – darin den Entwicklungstests sehr ähnlich – einen besonders steilen Anstieg der Lösungswahrscheinlichkeiten auf bestimmten Altersstufen aufwiesen. Aufgaben qualifizierten sich dann für die Testendform, wenn sie etwa von einer Altersgruppe in besonderer Häufung, von der darunter liegenden Altersgruppe gar nicht gelöst werden konnten. Die Stelle auf dem Alterskontinuum, an der diese Gegebenheiten vorlagen, entschied über die Zuordnung von Aufgaben zu Altersgruppen. Pro Altersstufe gab es 5 Aufgaben, die zusammen 1 Jahr oder 12 Monate Intelligenzalter (IA) definierten. Pro richtig gelöstem Item entsprach das mithin 12/5 IA oder 2,4 Monatsäquivalenten. Wenn ein Proband im Lebensalter (LA) von 8 Jahren (= 96 Monaten) die für seine Altersgruppe vorgesehenen Aufgaben (und auch diejenigen für die darunterliegenden Altersgruppen) richtig beantwortete, entsprach das einem individuellen IA von 96 Monaten oder 8 Jahren. Jede weitere richtige Lösung, gleich auf welcher Altersstufe, würde ein Mehr in Einheiten von 2,4 Monatsäquivalenten bedeuten. Hätte der Proband hingegen nur Aufgaben für die 6jährigen (= 72 Monate) plus 2 weitere aus dem Pool der 7jährigen geschafft, wäre das gleichbedeutend mit einem IA = 72 + (2 × 2,4) = 76,8 gewesen. Aus dem Vergleich des individuellen IA mit dem LA geht hervor, ob die Intelligenz »altersgemäß« ausgeprägt ist oder nicht. Beispiel Bei der Bildung von Äquivalentnormen erfolgt eine Zuordnung der jeweiligen Rohwerte oder Skalenscores zu bestimmten Zeitabschnitten, für die die betreffende Leistung besonders typisch ist, und zwar deshalb, weil sie von einer Referenzgruppe in besonderer Häufung gezeigt wurde. Die Zeitstufe, auf die Bezug genommen wird, stellt bei Intelligenz das Alter, bei Entwicklung der Reifestatus dar (Intelligenz- bzw. Entwicklungsalter). ! Bei diesem Transformationen unterscheidet man 5 Äquivalentnormen, 5 Variabilitäts- oder Abweichungsnormen, 5 Prozentrangnormen. 2.3.2.1 Normierung Die Normierung eines Tests liefert das Bezugssystem, um die individuellen Testscores im Vergleich zu denen einer größeren und meist »repräsentativen« Stichprobe von Testteilnehmern einordnen zu können. Auch wenn eine Skala hochgradig objektiv, reliabel und auch valide sein mag, so interpretieren sich die damit erhaltenen Scores doch nicht »aus sich selbst heraus«. Beispielsweise bedeuten 15 richtige Lösungen etwas Verschiedenes, wenn die Zahl angebotener Aufgaben auch 15 oder aber 30 beträgt, und sie bedeuten etwas völlig Verschiedenes, wenn alle anderen Probanden auch 15 geschafft haben oder aber keiner. Noch in einem anderen Sinne bedeuten die 15 Richtigen etwas anderes, je nachdem, ob von ihnen die Leistung des Probanden oder aber die Schwierigkeit des Tests charakterisiert werden soll. Die Normierung stellt den diesbezüglich erforderlichen Bezugsrahmen zur Verfügung und sagt uns, was die Rohpunktwerte »bedeuten«. Zu diesem Zweck werden die Rohwerte in transformierte Werte überführt, deren Bedeutung durch Rekurs auf bestimmte Operationalisierungen bekannt ist. Kapitel 2 · Grundlagen diagnostischer Verfahren Normierung als Bezugssystem zur Interpretation von Testscores 162 Jedenfalls handelt es sich bei dieser Auflistung um ein Gefüge theoretischer Annahmen von hoher Plausibilität oder um ein Modell, das z. B. in Gestalt des sog. Galton-Brettes das Entstehen von Normalverteilungen bei der zufälligen Kombination vieler Bedingungen (Kugeln, die auf Reihen von Nägeln fallen und unten in Schächten aufgefangen werden) sehr eindrucksvoll vor Augen führt (. Abb. 2.34). Normalverteilungen weisen die Eigenschaften auf, dass 4 der Abstand vom Mittelwert M der Verteilung zu deren Wendepunkt identisch ist mit einer Einheit der Standardabweichung s und 4 die relative Häufigkeit von Messwerten unter den einzelnen Abschnitten der Verteilung, sofern diese in Einheiten der Standardabweichung ausgedrückt werden, stets gleich ist, oder mit anderen Worten: Die Häufigkeit von Maßzahlen steht in direkter Beziehung zu s. Das heißt, immer dann, wenn M und s bekannt sind und feststeht, dass eine »normale« Verteilung vorliegt, kann die gesamte Verteilung aller Messwerthäufigkeiten angegeben werden. So liegen in der Standardnormalverteilung zwischen M und 1s ca. 34% der Maßzahlen, zwischen M und 2s ca. 48% usw. Die Einheit »Intelligenzalter« (oder bei anderen Tests: »Entwicklungsalter«) bildet somit ein Äquivalent für die Zahl richtiger Lösungen, nämlich jener, die von den Angehörigen einer Altersgruppe mehrheitlich gemeistert werden. Wegen der Plausibilität dieses Konzeptes haben derartige Äquivalentnormen verbreitete Akzeptanz gefunden. Weil gleiche numerische Differenzen (IA–LA) etwas ganz Unterschiedliches bedeuten, je nachdem, auf welcher LA-Stufe sie auftreten (z. B. ein Minus von 2 IA-Einheiten bei einem 12jährigen keineswegs als dramatisch erscheint, bei einem 4jährigen dagegen Schwachsinn anzeigen kann), hat Stern (1911) (. Abb. 2.33) vorgeschlagen, IA und LA in einem Quotienten aufeinander zu beziehen, dem Intelligenzquotienten, und den Bruch zur Gewährleistung ganzer Zahlen mit dem Faktor 100 zu multiplizieren: IQ = (IA/LA) · 100. Damit sollte eine Vergleichbarkeit von Leistungsvorsprüngen bzw. -rückständen über verschiedene Altersstufen erreicht werden [so besteht für einen Probanden, der als 4jähriger ein IA von 3 aufweist (IQ = 3/4 · 100 = 75), als 8jähriger ein IA von 6 erzielt (IQ = 6/8 · 100 = 75) usw. damit eine Konstanz des IQ in seiner Bedeutung als Vergleichsmaßstab zu Altersgleichen]. Gebunden ist dies an die Voraussetzung, dass mit zunehmendem Alter die Streuung der IA-Einheiten proportional zunimmt, was weithin zutraf. Ungeachtet der Gleichheit der Zahlen bedeuten aber psychologisch die beiden IQs etwas ganz Verschiedenes, und zwar deshalb, weil unterschiedliche absolute Leistungen in IA-Einheiten eingehen. Darüber hinaus ist die Bildung eines derartigen Quotienten nur legitim bei strikt linearem Anstieg der Leistungen über das Alter hinweg. Die meisten der vorliegenden Untersuchungen haben demgegenüber einen negativ beschleunigten Entwicklungsverlauf gefunden, mit einem Kulminationspunkt im frühen Erwachsenenalter. Gerade wegen des Abflachens der Leistungszuwächse mit zunehmendem Alter in der Jugendzeit war es unmöglich, das Konzept der Äquivalentnormen auch auf spätere Altersgruppen anzuwenden. Variabilitäts- oder Abweichungsnormen kennen die zuletzt genannten Probleme nicht, setzen dafür aber ein gewisses Verständnis für die Beschreibung von Häufigkeitsverteilungen voraus, in denen die Messwerte entweder im Sinne der Gaußschen Glockenkurve normal oder auch nicht normal verteilt sind. Normalverteilungen kommen dann zustande, wenn an der Hervorbringung einer Merkmalsausprägung 4 eine Vielzahl verschiedener Wirkfaktoren beteiligt ist, 4 diese Faktoren unabhängig voneinander ihren Einfluß entfalten und 4 sich die verschiedenen Wirkungen zu der Merkmalsausprägung addieren. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Eigenschaften von Normalverteilungen Kennzeichen von Normalverteilungen Variabilitäts- oder Abweichungsnormen: Bezug zu Häufigkeitsverteilungen Der Intelligenzquotient als Äquivalentnorm . Abb. 2.33. William Stern führte 1911 das Konzept des Intelligenzquotienten ein 163 2 Konstante Multiplikatoren und Polungen bei Standardskalen Transformation in z-Werte Standardnormalverteilung: M = 0 und s =1 (2.84) Durch diesen Rekurs auf die Standardnormalverteilung sind die Rohwerte in sog. Standardnormen transformiert worden. Jeder z-Wert ist eindeutig dadurch definiert, wie weit der zugehörige Rohwert vom Mittelwert der originalen Maßzahlen entfernt ist (. Abb. 2.35). Zur Vermeidung von negativen Vorzeichen und gebrochenen Zahlen ist es üblich, die z-Werte mit einem Faktor zu multiplizieren und eine additive Konstante hinzuzufügen. Am weitesten verbreitet ist die Konstante 100. Was den Multiplikator angeht, so sind dafür ganz unterschiedliche Größen gewählt worden. Wechsler entschied sich bei der Vorstellung seines »Abweichungs-Intelligenz-Quotienten« für den Faktor 15, und zwar deshalb, weil die Standardabweichung der IQs als Bruch von IA und LA empirisch einen Wert von ca. 15 ergeben hatte und zwischenzeitlich eine allgemeine Vertrautheit damit eingetreten war. Andere Autoren gaben sehr viel kleineren Werten den Vorzug. Beispielsweise beträgt der Multiplikator im Leistungsprüfsystem (LPS) von Horn (1983) nur 2. Maßgeblich dafür war u. a. die Überlegung, dass höhere Multiplikatoren die Gefahr beinhalten könnten, eine Differenzierung vorzuspiegeln, die mit Blick auf die nicht absolute Reliabilität keine Rechtfertigung findet. X-M =z sx Die sog. Standardnormalverteilung ist durch M = 0 und s = 1 erschöpfend beschrieben. Die Verteilungen von Merkmalen, wie Körpergröße oder Körpergewicht, politischen Einstellungen auf einem globalen Links-Rechts-Kontinuum usw., mögen je nach Art des gegebenen Abszissenmaßstabes verschieden breit bzw. schmal erscheinen. Man erhält jedoch häufig ein und dasselbe charakteristische Aussehen, d. h. denselben Verlauf der Häufigkeiten, wenn als Abszissenmaßstab die empirisch ermittelte Standardabweichung der jeweiligen Verteilung gewählt wird. Das geschieht, indem die Abweichung jedes einzelnen Messwertes X vom Mittelwert M der Verteilung in Einheiten der jeweiligen Streuung sx, also in Standardwerten (z-Werte) ausgedrückt wird: Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.34. Nagelbrett zur Veranschaulichung einer Normalverteilung (Aus Bortz, 1997) 164 0 100 100 50 5 5 5,5 z- Werte IQ Z-Werte T-Werte Centile Stanine Stene 1 15 10 10 2 2 2 Standardabweichung –2 bis +2 70-130 80-120 30-70 1-9 1-9c 1-10 Bereich HAWIE/HAWIK IST-Amthauer MMPIa PSBb FPId 16PFf Beispiel b MMPI Minnesota Multiphasic Personality Inventory (7 Abschn. 3.2.3). PSB Prüfsystem für Schul- und Bildungsberatung (Horn, 1969). c Dieser Bereich definiert die Skala als »standard-nine«; im Unterschied zu den anderen Normskalen sind hier keine noch extremeren Werte möglich. d Freiburger Persönlichkeits-Inventar. e Von Standart-ten. f 16 PF 16 Personality Factors (7 Abschn. 3.2.3). a Mittelwert Skala . Tabelle 2.21. Einige gebräuchliche Normenmaßstäbe. (Unter »Bereich« ist die Spanne von ±2 Standardabweichungen angegeben.) Beispiel Üblicherweise erfolgt die Polung in der Richtung, dass höheren Normwerten auch höhere Leistungen entsprechen. Diese Regel aber fand keine Anwendung im Begabungstestsystem (BTS) von Horn (1972), das in Analogie zu den Schulnoten auf M = 3,0 und s = 1,0, aber mit negativen Vorzeichen normiert wurde, hohe Testleistungen also zu niedrigen Normwerten führen und umgekehrt. Einige gebräuchliche Normenmaßstäbe werden in . Tab. 2.21 aufgeführt. Da sich alle Standardskalen leicht ineinander überführen lassen, darf zu Recht die Frage gestellt werden, ob nicht einem der Normierungsmaßstäbe eine allgemeine Leitfunktion beigemessen werden sollte. Immer dann, wenn die Messwerte nicht normalverteilt sind, verbietet sich die Transformation in Standardnormen, und zwar deshalb, weil die dafür notwendigen Voraussetzungen nicht erfüllt sind. Statt dessen werden derartige Verteilungen nach 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 . Abb. 2.35. Relative Häufigkeiten von z- sowie IQ-Werten unter den einzelnen Abschnitten der Normalverteilung 165 2 Repräsentativität der Normierungs- oder Eichstichprobe Gleiche Abstände haben u. U. verschiedene Bedeutungen Prozentränge benötigen keine Voraussetzungen Prozentrangnormen: Relative Position auf der Rangreihe der Bezugsgruppe cumf ⋅100 N 13 4 84 14 1 85 (2.85) Der große Vorzug von Prozenträngen besteht in ihrer Voraussetzungslosigkeit, was die Verteilungsform der Messwerte angeht, und in ihrer leichten Verständlichkeit: Jedermann kann sich ganz unschwer vorstellen, dass einem PR von beispielsweise 90 die Tatsache entspricht, dass nur 10% der vergleichbaren Probanden einen noch höheren Messwert erreichen. Andererseits muss bei Prozenträngen in Rechnung gestellt werden, dass numerisch gleiche Differenzen in der PR-Skala in Abhängigkeit vom Abschnitt der Messwerteverteilung ganz unterschiedlichen Differenzen in Standardwertnormen entsprechen. Der Abstand beispielsweise zwischen PR 5 und 15 ist numerisch identisch mit demjenigen zwischen 50 und 60. Dies bedeutet in der Verteilung mit M = 9,76 und s = 1,63 (7 Beispiel) im ersten Fall jedoch eine Z-Werte-Differenz von 5 (nämlich von Z = 85 bis Z = 90), im zweiten von 2,5 (nämlich von Z = 100 bis Z = 102,5) Punkten. Was die empirischen Daten angeht, die für jede Normierung unerlässlich sind, so ist eine repräsentative Zusammenstellung der Normierungs- oder Eichstichprobe un- Der Prozentrang für die Maßzahl 8 beträgt: PR = cumf/N · 100 = 17/85 · 100 = 20 X = M = 9,76, s = 1,63. In einem Experiment hätten sich folgende Häufigkeiten ergeben: Maßzahl 5 6 7 8 9 10 11 12 f 1 0 6 10 19 24 14 6 cumf 1 1 7 17 36 60 74 80 Beispiel PR = Prozentrang, f = Häufigkeit von Messwerten innerhalb einer Klasse, cumf = kumulierte Häufigkeit der Messwerte bis zur Klassengrenze, N = Gesamtzahl aller Probanden. PR = Maßgabe der relativen Maßzahlhäufigkeiten (= »Fläche«) in einzelne Abschnitte aufgeteilt und diesen Segmenten oder Transformationen Standardnormäquivalente zugeordnet. Ob eine Normalverteilung der Messwerte vorliegt oder nicht: Weder in dem einen noch dem anderen Fall kann daraus auf die Verteilungsform des Konstruktes »an sich« geschlossen werden, da sich in den Maßzahlen auch stets die spezifischen Operationalisierungen zur Erfassung der Merkmalsdimension niederschlagen und insofern der Untersuchungsgegenstand stets auch von der Methode abhängt, die zu seiner Beschreibung herangezogen wird. Bei Prozenträngen (PR) handelt es sich um eine weitere Normierung, bei der die Transformation darin besteht, dass den Maßzahlen die relative Position auf der nach Größe ranggereihten Messwerteskala der Bezugsgruppe zugeordnet wird: Kapitel 2 · Grundlagen diagnostischer Verfahren Alternative: Zuordnung von Standardnormäquivalenten 166 Testfairness Die gesellschaftspolitischen Bewegungen und gesetzgeberischen Initiativen, wie sie in dem soeben angeführten Zitat exemplarisch geschildert werden, haben auch in der testpsychologischen Fachliteratur zu einer intensiven Diskussion über »Testfairness«, »Testbias« und »Fairness der Auslese« Anlass gegeben (. Abb. 2.36). Als Ergebnis dieser Kontroverse liegen seit Ende der 60er Jahre ganz unterschiedliche Vorstellungen darüber vor, was im Einzelnen unter einer fairen Selektionsstrategie zu verstehen ist. Ein Vergleich der verschiedenen Definitionen von Fairness lässt jedoch erkennen, dass diese nicht primär fachwissenschaftliche, sondern spezifisch politische Wertvorstellungen implizieren. Je nachdem, welche gesellschaftspolitischen Ziele im Einzelfall handlungsbestimmend sind, bedeutet das eine Entscheidung zugunsten ganz bestimmter und zu Lasten anderer Fairnessmodelle. Weil sich die zugrundeliegenden Wertvorstellungen wechselseitig ausschließen, handelt es sich bei Fairness nicht um eine technische Qualität, die einem Instrument zu eigen ist oder nicht. Es gibt nicht den fairen Test oder das faire Selektionsverfahren, sondern nur Fairness im Hinblick auf Handlungs- und Entscheidungsaspekte (die expliziert werden müssen). In dem Maße, in dem sich die angestrebten Ziele voneinander unterscheiden, kann ein und dasselbe Testinstrumentarium als mehr oder weniger fair angesehen werden. »Murphy Archibald, 30, ein Vietnam-Heimkehrer aus Alabama, hatte sich, wie er meinte, durch gute akademische Leistungen die Aufnahme in ein Stipendium an der Vilanova-Universität verdient. Doch als er an der Universität auftauchte, befand sich seine Akte unter »Minoritäten-Bewerber« mit einem b wie »black« darauf. Als die Sachbearbeiter erkannten, dass der Mann aus Alabama nicht schwarz, sondern weiß war, wurde ihm das Stipendium entzogen. Ex-Stipendiat Archibald verdankt sein Scheitern der guten Absicht der Bürgerrechtsbewegung des Präsidenten Johnson: Der Civil-RightsAct von 1964 verbietet in Absatz 7 jedwede Benachteiligung amerikanischer Bürger aufgrund von Rasse, Geschlecht, Hautfarbe, Religion oder nationaler Herkunft.« (Der Spiegel, 1975, Nr. 7, S. 93) 2.3.2.2 erlässlich; nur dann macht es Sinn, einzelne Messwertträger mit ihrem Punktwert auf den durch die Population definierten Hintergrund zu beziehen. Sinnvoll und aussagekräftig sind neben einer Aufgliederung in Altersgruppen bei Leistungstests auch gesonderte Normen für verschiedene Schultypen. Ein Z-Wert von 110 bedeutet zwar für die Gesamtheit aller Probanden ein leicht überdurchschnittliches Niveau (= Prozentrang 84), doch in Bezug auf Oberschüler nur eine durchschnittliche Leistung und im Vergleich zu den erfolgreichen Examinanden eines Studienganges vermutlich weniger als den Durchschnitt. In Persönlichkeitstests finden sich häufiger auch geschlechterspezifische Normen. Wenn beispielsweise bekannt ist, dass Frauen im Mittel ängstlicher sind als Männer, könnte es leicht zu falschen Schlüssen führen, den Ängstlichkeitsscore einer weiblichen Probandin am Durchschnitt aller Merkmalsträger zu relativieren. Eine weitere Forderung geht dahin, dass die Normdaten aktueller Herkunft sein sollen. Die Literatur ist voller Beispiele über markante Leistungszuwächse im Laufe der Zeit, teils als Folge allgemein verbesserter Anregungs- und Schulungsbedingungen, teils als Folge spezifischer Ereignisse in Technik, Sport oder Wissenschaft. Diese führen dazu, dass ein und derselbe individuelle Punktwert immer leichter zu erzielen ist. Vor diesem sich änderndem Hintergrund müßten die Verfahren laufend »nachnormiert« werden, doch hapert es an der Einlösung dieser Notwendigkeit ebensooft wie an der Bereitstellung hinreichend repräsentativer Eichstichproben. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Gesellschaftspolitischer Einfluss auf die Definition von Fairness Normdaten sollen aktuell sein 167 2 Schwachstelle: Effizienz des Verfahrens unbeachtet Proportionale Repräsentativität der Stichprobe »nur unter einer Annahme sinnvoll zu sein, die von den Vertretern dieses Modells offenbar implizit gemacht wird, nämlich unter der Annahme, daß die … Gruppen ›in Wirklichkeit‹ gleich leistungsfähig sind (sowohl im Kriterium wie in den durch den Test zu erfassenden Merkmalen) und daß der Test durch fehlerhafte Konstruktion Unterschiede zwischen den Gruppen nur vortäuscht.« (Bartussek, 1982, S. 3) Einer gängigen Position zufolge gilt eine Selektionsmaßnahme dann als fair, wenn sie gewährleistet, dass in der Stichprobe der ausgewählten Bewerber die Proportion der miteinander verglichenen Gruppen dieselbe ist wie in der Bewerberpopulation (= proportionale Repräsentation). Gewöhnlich läuft das auf die Forderung nach Übereinstimmung der Mittelwerte und Standardabweichungen (sowie weiterer Verteilungskennwerte) für Populationssubgruppen hinaus, die als relevant erscheinen (z. B. Geschlechter, soziale Schichten, regionale Herkunft usw.). Die Schwachstellen einer solchen Definition sind sowohl konzeptioneller als auch empirischer Art. Weil nur die Gegebenheiten auf seiten des Vorhersageinstrumentes in die Definition eingehen, bleiben Aussagen über die Effizienz des Verfahrens im Hinblick auf den Erfolg der ausgewählten Bewerber gleichsam ausgeblendet. Unterstellt man andererseits, dass Diagnosen keinen Selbstzweck erfüllen, sondern die Basis für Prognosen wie etwa dem Erfolg in einem Kriterium liefern, scheinen die Forderungen des Modells Das Modell der proportionalen Repräsentation(Quotenmodell, Identitätskonzept) Die nachfolgende Darstellung gilt nur den wichtigsten Fairnessmodellen. Weitere Konzepte und insbesondere eine vertiefende Auseinandersetzung damit finden sich in den Sammeldarstellungen von Jensen (1980), Weiss und Davison (1981) sowie Bartussek (1982). Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.36. Im Hinblick auf inter-ethnische Unterschiede stellt sich das Problem der Fairness von Begutachtung und Entscheidung 168 Der Definition von Cleary (1968) zufolge ist ein Selektionsverfahren dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht. Diese Forderung ist dann erfüllt, wenn die zur Vorhersage des Kriteriums verwendeten gruppenspezifischen Regressionsgeraden miteinander identisch sind, d. h. gleiche Steigungen aufweisen und an derselben Stelle die Ordinate schneiden (Konstante a in der Regressionsgleichung, 7 Abschn. 2.1.1.5, Vorhersage auf der Basis von Testwerten). Für die Prädiktion des Kriteriums Y aus den Testwerten X kann deshalb in einem solchen Fall für alle Messwertträger (ohne Berücksichtigung ihrer Gruppenzugehörigkeit) eine gemeinsame Regressionsgerade angenommen werden, ohne dass dadurch einzelne Probanden je nach ihrer Gruppenzugehörigkeit systematisch bevorzugt oder benachteiligt würden. Das Regressionsmodell (Modell einer fairen Vorhersage) Eben diese Annahme trifft nach den vorliegenden Ergebnissen für gut konstruierte Tests definitiv nicht zu (s. Jensen, 1980, S. 465–515; Weiss & Davison, 1981, S. 697 ff.). Wenngleich hin und wieder Resultate berichtet werden, die näherungsweise in Einklang damit zu stehen scheinen (z. B. Michel, 1977; Trost et al., 1978, 1980), weist die Befundliteratur doch überwiegend eine deutliche Abhängigkeit der Mittelwerte von Leistungs- und Persönlichkeitstests von Gruppierungsgesichtspunkten der genannten Art aus. Die Erfüllung einer radikalen Fassung eines solchen Konzeptes muss somit aus methodischer Sicht fragwürdig erscheinen, weil sie nur zu Lasten der Validität geleistet werden könnte. Die mit systematischen Gruppenunterschieden verbundenen Probleme sind innerhalb der psychologischen Diagnostik für bestimmte Teilgruppen schon frühzeitig berücksichtigt worden; allerdings erfolgt die Beschäftigung damit unter dem Stichwort einer »Normierung« der Testwerte. Namentlich im Leistungsbereich werden i. Allg. individuelle Punktwerte an denjenigen von alters- und/oder geschlechtsgleichen Personen relativiert (vgl. Abweichungsnormen). Dahinter verbirgt sich die Überzeugung, dass es alters- oder geschlechtsabhängige Unterschiede nicht geben »darf« bzw. es unbillig wäre, etwa ältere Personen hinsichtlich ihrer Leistungsfähigkeit mit jüngeren zu vergleichen. Bemerkenswert dabei ist, dass von einer Normierung für die verschiedenen sozioökonomischen Schichten in den allermeisten Fällen abgesehen wird, obwohl gerade im Hinblick darauf die Mittelwertsunterschiede gravierend sind. Ungeachtet solcher Erwägungen kann Fairness kaum hergestellt werden durch Verwendung detaillierter, alle denkbaren Unterscheidungsmerkmale berücksichtigender Normtabellen: So wäre es gewiss unsinnig, beispielsweise einen 50jährigen Alkoholkranken mit einer anspruchs- und verantwortungsvollen Überwachungsaufgabe nur deshalb zu betrauen, weil er innerhalb der Subgruppe altersgleicher Alkoholkranker über hervorragende Leistungen in den einschlägigen Tests verfügt. Vielmehr muss die Entscheidung darüber von dem Umstand abhängig gemacht werden, welches Ausmaß an faktischer Bewährung bei einem gegebenen Testpunktwert zu erwarten ist. Der ausschlaggebende Aspekt liegt somit nicht in der Frage, ob es Unterschiede der Testmittelwerte an sich gibt, sondern ob bestimmte Verfahren zu subgruppenspezifischen Fehleinschätzungen der Kriteriumswerte führen oder nicht (s. Wottawa & Amelang, 1980). Das Identitätskonzept wird deshalb in der psychologischen Literatur nicht ernsthaft vertreten. Vielmehr stehen dort solche Modelle im Mittelpunkt, bei denen der Erfolg im Kriterium eine vorrangige Rolle spielt, wobei dieser in unterschiedlicher Weise auf jenen im Prädiktor bezogen wird. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Fairness bei identischen Regressionsgraden Subgruppenspezifische Fehleinschätzungen der Kriteriumswerte Umgang mit systematischen Gruppenunterschieden 169 2 Auswahl der im Kriterium voraussichtlich Besten Beispiel für Testfairness nach dem Regressionsmodell . Abbildung 2.37 veranschaulicht diese Gegebenheiten am Beispiel von 2 Gruppen und macht zugleich deutlich, dass bei diesem Modell sehr wohl bedeutsame Mittelwertsunterschiede im Prädiktor auftreten mögen, mit denen aber richtungsgleiche Differenzen eines bestimmten Ausmaßes im Kriterium einhergehen müssen. Solche Verhältnisse liegen beispielsweise in dem Untersuchungsmaterial von Simons und Möbus (1976) vor, wo aus einer Stichprobe von N = 310 Schülern des ersten Grundschuljahres N = 58 Arbeiter- und N = 63 Akademikerkinder ausgewählt worden waren. Die Prädiktoren bestanden aus 6 Untertests der Testbatterie Primary Mental Abilities in der deutschsprachigen Adaptation von Kemmler (1967), die Kriterien aus den Schulleistungen in Deutsch und Rechtschreiben. Alle Variablen waren für die Gesamtstichprobe T-normiert (7 Abschn. 2.3.2.1), also auf den Mittelwert 50 und eine Streuung von 10 standardisiert. Im Mittel der Testskalen erzielten die Arbeiterkinder einen Wert von M = 44,9, die Akademikerkinder einen solchen von M = 54,6; im Kriterium lauteten die Mittelwerte M = 48,1 und 54,4. Bei einem Vergleich der Regressionskoeffizienten aus beiden Substichproben wichen die Schätzungen durch die gemeinsamen und die getrennten Regressionen nicht signifikant voneinander ab – womit die Testbatterie für das anstehende Vorhersageproblem gemäß der übernommenen Definition fair war. Eine der vorrangigen Implikationen des regressionsanalytischen Fairnessmodells besteht darin, dass nur die im Kriterium voraussichtlich Besten ausgewählt werden, d. h. der durch den Test vorhergesagte Kriteriumswert bestimmt die Auswahl. Fair ist dieses Vorgehen für jeden einzelnen Probanden deshalb, weil jeder voraussichtlich im Kriterium bessere Bewerber jedem voraussichtlich weniger leistungsfähigen Bewerber vorgezogen wird (Position des »qualified individualism« sensu Hunter & Schmidt, 1976). Ein allgemeines Merkmal dieses Modells besteht darin, dass es wegen der Auswahl am Kriterium die voraussichtliche Erfolgsrate darin maximiert. Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.37. Das regressionsanalytische Fairnesskonzept von Cleary (1968), veranschaulicht am Beispiel von 2 Gruppen A und B: Die Regressionsgrade gyx zur Vorhersage des Kriteriums Y aus den Testwerten X ist in den beiden Gruppen A und B identisch. Sie geht durch – – – die Punkte (XA, YA) und (XB, – YB), also die jeweiligen Schnittpunkte des Prädiktormit dem Kriteriumsmittelwert in beiden Stichproben 170 Thorndike (1971) verlangt von fairen Verfahren, dass das Verhältnis zwischen der Zahl der durch die Testung ausgewählten Bewerber und der Zahl im Kriterium potentiell (d. h. ohne Auswahl!) Erfolgreicher in den miteinander verglichenen Gruppen gleich oder konstant ist. Gemäß der schematischen Darstellung in . Abb. 2.38 bedeutet das die Forderung nach Identität der Proportionen: (RP + FP) : (RP + FN). Beispielsweise wären von 300 erfolgreichen Teilnehmern an einem Ausbildungsprogramm 200 aus der Unterschicht und 100 aus der Oberschicht. Könnten infolge einer bedeutsamen Erweiterung des Trainingsinstituts 600 Bewerber für den nächsten Kurs zugelassen werden, so würden gemäß dieser Konzeption die im Test besten 400 Unterund besten 200 Oberschichtangehörigen akzeptiert. Soll derartigen Anforderungen Genüge geleistet werden, ohne für die Gruppen unterschiedliche Testtrennwerte einzuführen, so bedeutet das in regressionsanalytischer Formulierung eine Parallelverschiebung der Regressionsgeraden, wie es in . Abb. 2.39 veranschaulicht ist. Das Modell ist fair gegenüber den Gruppen A und B, weil der Anteil auszuwählender Bewerber an dem Anteil potentiell Erfolgreicher in jeder Gruppe definiert wird (Position einer Quotendefinition von Fairness). Aus der Abbildung geht hervor, dass – – unter der Annahme, ein Überschreiten von YA bedeute Erfolg – bei Festsetzung des – – Testtrennwertes für Auswahl bzw. Zurückweisung entweder bei XA oder XB, das Verhältnis der selegierten zu den potenziell Erfolgreichen in beiden Gruppen jeweils gleich ist, und zwar im gewählten Beispiel 1,0. Das Cleary-Modell würde eine derartige Konstanz der Quoten nicht gewährleisten, wie ein Blick auf . Abb. 2.37 erkennen lässt: Dort ist zwar das Verhältnis der Ausgewählten zu den Erfolgreichen in den beiden Gruppen gleich 1 (und zwar 50%), doch Das Modell konstanter Verhältnisse (»constant ratio model«) 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Parallelverschiebung der Regressionsgeraden . Abb. 2.38. Die 4 Ergebnisse eines Selektionsverfahrens. RP richtige Positive (Anzahl Ausgewählter, die erfolgreich sind), FP falsche Positive (Anzahl Ausgewählter, die nicht erfolgreich sind), RN richtige Negative (Anzahl Zurückgewiesener, die tatsächlich auch nicht erfolgreich sind), FN falsche Negative (Anzahl Zurückgewiesener, die erfolgreich wären). x+ »cut-off« im Zulassungstest, y+ »cut-off« im Kriterium (schlechtester Kriteriumswert, der noch als Erfolg gilt) 171 2 Fair gegen Selegierte, unfair gegenüber Abgelehnten Nach Cole (1973) ist ein Test fair, wenn der Quotient RP:(RP + FN) in den miteinander verglichenen Gruppen gleich ist (»conditional probability model«). In regressionsanalytischen Terms bedeutet das im Vergleich zum Thorndike-Modell eine noch größere Distanz zwischen den parallelen Regressionsgeraden, wenn ohne gruppenspezifische Testtrennwerte oder Bonus-Malus-System ausgekommen werden soll. (Letzteres findet bekanntlich bei der Verteilung der Studienplätze durch die Zentrale Vergabestelle Anwendung, wo die Bewerber je nach dem Abiturnotendurchschnitt ihres Heimatbundeslandes eine Gut- oder Lastschrift auf ihre individuellen Noten erhalten.) Linn (1973) definiert Fairness durch die Konstanz des Bruches RP : (RP + FP) Weitere Fairnesskonzepte stehen in B den wenigen Testbesten viel mehr potenziell Erfolgreiche im Kriterium gegenüber. Ein Nachteil des Thorndike-Modells besteht darin, dass es im Vergleich zur Konzeption von Cleary die Kriteriumsleistungen insgesamt gegenüber dem erreichbaren Maximum reduziert. Das wird deutlich an Grenzfällen: Wenn beispielsweise jemand – aus Gruppe A den kritischen Trennwert XA knapp verfehlt, so wird er gemäß der getroffenen Vorabfestlegungen zurückgewiesen, und zwar im Unterschied zu einem Bewerber aus B, der denselben »cut-off« knapp überwunden hat, obwohl der erste Proband nach Maßgabe der Regressionsgeraden gyxa einen höheren Erfolg aufgewiesen hätte als B auf der Basis von gyxb. Ein konzeptuelles Problem aller Quotendefinitionen besteht darin, dass die Definition von Fairness, orientiert an Selegierten und potenziell Erfolgreichen, in aller Regel unvereinbar ist mit einer solchen, die auf die Abgewiesenen und potentiell Erfolglosen abhebt, oder mit anderen Worten: Ein Test, der fair ist mit Blick auf die Selegierten, ist unfair gegenüber den Abgelehnten (= logische Inkonsistenz der kriteriumsbezogenen Quotendefinitionen nach Novick & Peterson, 1976). Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.39. Das Fairnessmodell konstanter Verhältnisse von Thorndike (1971) in regressionsanalytischer Veranschaulichung: Das Verhältnis der selegierten zu den potenziell erfolgreichen Bewerbern ist in beiden Gruppen A und B konstant (hier bei dem gewählten – Testtrennwert XA und dem Erreichen von Erfolg im Kriterium durch Überschreiten – von YA jeweils 1) 172 Misserfolg Kriterium 18 31% 77% 77% 77% 60% Selektionsrate Proportion korrekter Entscheidungen Anteil der validen Positiven an allen Selektierten (Modell gleicher Wahrscheinlichkeiten; Linn) Anteil der Selektierten an allen potenziell Erfolgreichen (Modell konstanter Verhältnisse; Thorndike) Anteil der validen Positiven an allen potenziell Erfolgreichen (Modell bedingter Wahrscheinlichkeiten; Cole) 6 40% 5 17 Basisrate 60 angenommen (22) 7 24 angenommen (31) West Misserfolg Kriterium abgelehnt (78) Test 53 16 abgelehnt (69) Test 3. Vergleich Erfolg Kriterium 2. Ost (von je 100) Erfolg Kriterium 1. West (von je 100) 49% 63% 77% 77% 22% 35% Ost 65 35 Grundquote/ Basisrate 60 40 Grundquote/ Basisrate . Tabelle 2.22. Häufigkeiten von Vorhersagequoten und -fehlern bei identischer Kriteriumsvalidität der in Ost- und Westdeutschland eingesetzten Testverfahren. (Nach Kersting, 1995, S. 37) Anhand der zwischen Ost- und Westdeutschen auftretenden Unterschiede in Leistungstests ist Kersting (1995) der Frage nachgegangen, welche Probleme im Hinblick auf die Fairness selbst dann bestehen mögen, wenn für beide Gruppen von einer identischen Validität der Prädiktoren ausgegangen wird. Grundlage waren die zwischen 1991 und 1992 erhobenen eignungspsychologischen Testdaten von N = 1377 Bewerbern beiderlei Geschlechts um eine Ausbildung zum gehobenen nichttechnischen Verwaltungsdienst. Die Probanden aus den alten Bundesländern wiesen im Vergleich zu jenen aus den neuen durchschnittlich 2,6 Standardwerte höhere Leistungen auf. Unter verschiedenen Rahmenannahmen (u. a. Testkriteriumsvalidität in beiden Gruppen rtc = .54, Anwendung desselben Testtrennwertes) führten die Modellrechnungen zu den in . Tab. 2.22 wiedergegebenen Resultaten. Beispiel (»equal probability model«), d. h. für die Zugelassenen aus den relevanten Gruppen soll die Wahrscheinlichkeit eines Erfolges im Kriterium gleich sein. Die Inkompatibilität dieses Modells mit jenem von Cleary ist am geringsten. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 173 2 2 Überlegungen zur Validitätssteigerung Wechselbeziehungen zwischen Gütekriterien Innerhalb der Hauptgütekriterien kommt der Validität die höchste Bedeutung zu: Die präzise Bestimmung inter- oder intraindividueller Unterschiede stellt kein Ziel für sich selbst dar, sondern bildet nur die notwendige Voraussetzung für die Möglichkeit von Generalisierungen, d. h. Rückschlüsse aus dem Verhalten in der Testsituation auf Merkmalsunterschiede außerhalb davon anstellen zu können. Insofern sind Objektivität und Reliabilität der Validität gleichsam vorgeordnet: Ohne ein Mindestmaß an Objektivität ist keine Reliabilität denkbar, ohne befriedigende Reliabilität keine hinlängliche Validität. Lienert (1989, S. 20) hat die Beziehungen der Hauptgütekriterien zueinander, wie in . Abb. 2.40 zu sehen, veranschaulicht. Ist eine hohe Validität erwiesen, entbindet dieses vom Nachweis der Objektivität und Reliabilität, da in einem solchen Fall diese Gütekriterien (ebenfalls) erfüllt sein müssen. Meist wird es jedoch darauf ankommen, durch geeignete Maßnahmen die Validität zu 2.3.3 Bei Jensen (1980, S. 405) findet sich eine vergleichende Übersicht über die vorgenannten Fairnesskonzepte, in der die Identität der Regressionsgeraden im Sinne von Cleary angenommen wird. Um dabei den Anforderungen der einzelnen Definitionen entsprechen zu können, bedarf es gruppenspezifischer Trennwerte, die je nach Modell verschieden weit auseinander liegen. Im konkreten Entscheidungsfall mögen politische oder ökonomische Vorgaben den Ausschlag zugunsten des einen oder anderen Quotenmodells geben (man denke nur an die Diskussion um die »Quotenfrauen«). Mit der Maximierung des Erfolges im Kriterium und der Akzentuierung der Test-Kriteriums-Validitäten gebührt aber unter methodischen Erwägungen dem Regressionsmodell von Cleary (1968) eine gewisse Vorzugsstellung. Simons und Möbus (1976) haben zudem wahrscheinlich gemacht, dass in bestimmten Fällen durch die Hinzunahme weiterer Prädiktoren in die Vorhersagebatterie und die dadurch erreichte Verbesserung der Validität auch subgruppenspezifischen Benachteiligungen entgegengewirkt werden kann, oder mit anderen Worten: Je höher die Validität, um so geringer ist das Risiko eines Testbias gegenüber einer relevanten Untergruppe von Merkmalsträgern. Abschließende Bemerkungen Wie ersichtlich, sind die Proportionen korrekter Entscheidungen und der Anteil der richtigen Positiven an allen Selegierten mit 77% jeweils gleich. Dieses wird erreicht, indem der ungünstigeren Basisrate im Osten (35% gegenüber 40%) durch eine strengere Selektionsrate entgegengewirkt wird. Daraus resultieren aber unterschiedliche Quoten nach dem Thorndike- und Cole-Modell. Für das letztere, das Modell der bedingten Wahrscheinlichkeiten, bedeuten die angegebenen Prozentzahlen für Westdeutsche eine im Vergleich zu den Ostdeutschen höhere Wahrscheinlichkeit, überschätzt zu werden: Mehr potenziell erfolgreiche Ostbewerber werden zurückgewiesen als angenommen oder in anderer Wendung: Im Westen werden 40% von 40%, also 16% von potentiell erfolgreichen Bewerbern nicht richtig erkannt; im Osten lauten die Zahlen 51% von 35%, also 18% (siehe die jeweils durch Fettdruck hervorgehobenen Quoten) – ein Beispiel dafür, wie bei einer an den Selektierten ausgerichteten Fairness gleichzeitig Unfairness bei den Abgelehnten bestehen kann. Kapitel 2 · Grundlagen diagnostischer Verfahren Validität als wichtigstes Gütekriterium 174 der Interpretation Validität (kriterienbezogen) innere Konsistenz Parallel- und Retest Reliabilität der Auswertung der Durchführung Objektivität Zulänglichkeit Konstanz des Persönlichkeitsmerkmals Eine zentrale Bedeutung innerhalb solcher Überlegungen kommt der Variabilität der Schwierigkeitskoeffizienten zu: Weil extreme Schwierigkeiten im Vergleich zu mittleren die Iteminterkorrelationen, die Trennschärfeindizes und (als Folge davon) die Homogenität der gesamten Skala mindern, bietet die Variation der Itemschwierigkeiten eine relativ einfache Handhabe für die Verbesserung der Validitätserwartungen (zu Lasten der Reliabilität). Batterien von Tests werden den in gewissen Grenzen unvereinbaren Anforderungen auf optimale Weise gerecht: In Form der homogenen Einzelskalen dem Aspekt der Messgenauigkeit, in Gestalt des Gesamttestwertes dem Gesichtspunkt der Validität. steigern, weil deren Höhe noch nicht ausreichend ist. Folgende Punkte sind in diesem Zusammenhang zu erwägen: 4 Retestreliabilität und Paralleltestreliabilität können nicht größer sein als Objektivität und Konsistenz. Eine Verbesserung der letztgenannten Kriterien schafft deshalb bessere Voraussetzungen für die Reliabilität. 4 Da die Reliabilität durch Verlängerung des Tests relativ leicht angehoben werden kann, wird darin oft ein probates Mittel zur Erzielung einer höheren Validität gesehen. Das kann i. Allg. durchaus zu praktischen Erfolgen führen. In theoretischer Hinsicht sind Reliabilität und Validität aber partiell miteinander inkompatibel: Wie aus der Erörterung der einfachen und doppelten Minderungskorrektur erinnerlich ist, stehen in der betreffenden Formel zur Aufwertung der Validität (7 Abschn. 2.1.1.3) sowohl die Reliabilität des Tests als auch diejenige des Kriteriums im Nenner. Jede Vergrößerung dieser Kennwerte muss deshalb zu einer Verminderung des Bruches führen, d. h. der (theoretisch interessierende) Zuwachs der Korrelation zwischen den wahren Test- und wahren Kriteriumswerten sinkt mit steigender Reliabilität (Attenuations- oder Verdünnungsparadox). 4 In der diagnostischen Praxis geht damit die Erfahrung einher, dass jene Verfahren, die eine besonders hohe Reliabilität aufweisen, nämlich sehr homogene Tests, häufig nur wenig valide sind gegenüber komplexeren Außenkriterien. Die Veränderung der Tests in Richtung auf eine größere inhaltliche Heterogenität – also unter Einbußen der Reliabilität – stellt dabei eine realistische Option zur Verbesserung der Validität dar. III II I 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Testbatterien als Lösung der partiellen Unvereinbarkeit der Gütekriterien . Abb. 2.40. Wechselbeziehungen zwischen den Hauptgütekriterien (Aus Lienert, 1989, S. 20) 175 2 »Aktuelle« Kriterien erfassen »eigentliche« Kriterien oft unzureichend In der Praxis häufig Verwendung leicht verfügbarer Kriterien Eine gesonderte Problematik ergibt sich aus dem Umstand, dass zwischen »eigentlichen« (ultimate) und »aktuellen« Kriterien unterschieden werden muss. Bei Berufserfolg handelt es sich beispielsweise um ein komplexes Kriterium, dessen individuelle Bestimmung erst dann mit »letzter« Sicherheit erfolgen kann, wenn eine Person altersbedingt aus dem Berufsleben ausgeschieden ist und damit alle Fakten zur Beurteilung vorliegen (wie z. B. höchste erreichte Position, Dauer der Partizipation am Arbeitsprozess, Produktivität oder Effizienz, Stetigkeit vs. Wechsel der Arbeitsverhältnisse, Kontinuität vs. Variation des Einkommens und der Beschäftigungszeiten usw.). In aller Regel stehen weder die zeitlichen noch sachlichen Ressourcen zur Verfügung, um derartige Entwicklungen abzuwarten; vielmehr müssen sich die Konstrukteure und Anwender von Tests meist mit leichter verfügbaren aktuellen Kriterien begnügen. Für das Beispiel des (lebenslangen) Berufserfolges würde das naheliegenderweise der bisherige oder aktuelle berufliche Erfolg sein, der operationalisiert werden könnte durch quantitative Einheiten für die momentan eingenommene Stellung oder das monatliche Einkommen, bei bestimmten Tätigkeitsfeldern durch die Zahl abgerechneter Krankenscheine, angemeldeter Patente, publizierter Forschungsarbeiten oder die fremdeingeschätzte Fachreputation. Häufig stehen gar nur Indikatoren wie gefertigte Stückzahlen, produzierter Ausschuss oder Fehlzeiten zur Verfügung. All diese Indikatoren stehen nur für Teilaspekte der aktuellen Kriterien und decken im ungünstigen Fall kaum noch relevante Seiten des »eigentlich« interessierenden Kriteriums ab. Sie sind durch Vorläufigkeit gekennzeichnet. Eine Erkrankung gerade durch die Ausübung einer beruflichen Tätigkeit kann den weiteren Verbleib im bisherigen Verantwortungsbereich erschweren oder verbieten, ein schwerer Sturz vom Gerät den strahlenden Weltmeister vieler Jahre für den Rest seines Lebens in den Rollstuhl zwingen (. Abb. 2.41), die Approbation und Niederlassung eines zusätzlichen Arztes am Ort die Zahl der Krankenscheine beim bislang ansässigen Doktor rapide reduzieren usw. Für ultimative Kriterien wie den individuellen Erfolg in Ausbildung oder Therapie, den institutionellen Erfolg einer Selektion, Platzierung oder Klassifikation (7 Kap. 6) ließen sich unschwer analoge Beispiele in großer Zahl auflisten. Je nach dem Zeitpunkt, an dem das Kriterium erhoben wird, müssen daraus ganz unterschiedliche individuelle Kennwerte resultieren. Das beeinflusst die Validität, und zwar ungeachtet der konzeptuellen Unzulänglichkeiten solcher aktueller Kriterien. Beschrieben wird diese Konfiguration mit den Begriffen Die Obergrenze der Validität wird durch die Wurzel aus der Zuverlässigkeit definiert: rtc = rtt . 4 Zwischen verschiedenen (weiteren) Kombinationen von Gütekriterien bestehen (ebenfalls) partielle Unvereinbarkeiten, und sei es nur unter ganz bestimmten Rahmenbedingungen oder Messintentionen: Änderungssensitivität und Retestreliabilität sind beispielsweise bei einem Verfahren zur Erfassung der aktuellen Befindlichkeit nicht gut auf einen gemeinsamen Nenner zu bringen. Auch kann es die Transparenz eines Fragebogens den Probanden leicht machen, ihre Antworten gezielt zu verstellen. Das kann je nach den Gegebenheiten in vermutet positiver oder negativer Richtung geschehen, ohne dass dies anhand der Punktwerte etwaiger »Lügenskalen« zu erkennen wäre (s. z. B. Kroger & Turnbull, 1975). Aus der Verfälschbarkeit resultieren Validitätsminderungen. Deshalb ist generell vom Einsatz von Persönlichkeitstest in solchen Kontextbedingungen abzuraten, wo gezielte Verstellungen besonders wahrscheinlich sind, nämlich allen Selektionsprozeduren (s. Hampel & Klinkhammer, 1978; Thornton & Gierasch, 1980). 4 Kapitel 2 · Grundlagen diagnostischer Verfahren »Eigentliche« vs. »aktuelle« Kriterien 176 Beziehungen zwischen »aktuellem« und »eigentlichem« Kriterium Unzureichende Operationalisierung der Prädiktionskonstrukte Die Problematik einer möglicherweise nur unzureichenden Operationalisierung des (Kriterium-) Konstruktes in Form bestimmter Indikatoren besteht auch für die Prädiktorenseite. Auch da treffen die jeweiligen Fragen oder Aufgaben die aus theoretischen Gründen als relevant erachteten Prädiktionskonstrukte im Regelfall nicht in ihrer umfassenden Bedeutung (man denke etwa an die Itemsammlungen zur Erfassung des Konstruktes »Studierfähigkeit« bei der Vorhersage des Erfolges von Medizinstudenten der ersten Semester an der Universität, in denen die Bereiche der sozialen Kompetenz und des Selfmanagement völlig fehlen). Daraus können im Extremfall die beiden folgenden Konstellationen resultieren (nach Wottawa & Hossiep, 1987): Der Prädiktionsmesswert korreliert hoch mit den Punktwerten für das aktuelle Kriterium, weist aber keinerlei Relevanz für das »eigentliche« Kriterium auf (. Abb. 2.42). c 2 . Abb. 2.41a–c. Das Ausmaß an beruflichem Erfolg und die Kriterien dafür mögen während verschiedener Lebensabschnitte sehr unterschiedlich sein 177 Kriteriumskontamination (= Eigenständigkeit des aktuellen Kriteriums gegenüber dem eigentlichen Kriterium), 4 Kriteriumsrelevanz (= Kommunalität oder wechselseitige Überlappung zwischen aktuellem und eigentlichem Kriterium), 4 Kriteriumsdefizienz (= nicht erfasste Aspekte des eigentlichen Kriteriums durch das aktuelle Kriterium). 4 b a 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Empirische Validität bedeutet nicht zwingend auch bedeutsame Korrelation der Konstrukte . Abb. 2.43. Schematische Veranschaulichung einer Konstellation, bei der die Punktwerte eines Prädiktors zwar nicht mit dem aktuellen, aber mit dem eigentlichen Kriterium korrelieren Der Prädiktionsmesswert korreliert zwar nicht mit den Indikatoren für das aktuelle Kriterium, weist aber eine hohe Aussagekraft für das »eigentliche« Kriterium auf (. Abb. 2.43). Zwischen den beiden Konstellationen sind »Mischformen« denkbar, bei denen man nicht ohne Weiteres erkennt, welche Gegebenheiten im Einzelnen vorliegen. Wichtig ist, dass auch im Falle einer empirisch belegten und numerisch hohen Validität gegenüber einem Kriterium unter Umständen nur wenig über die Korrelation zwischen einem theoretisch bedeutsamen Prädiktorkonstrukt und einem gleichermaßen wichtigen »eigentlich« interessierenden Kriterium ausgesagt ist. Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.42. Schematische Veranschaulichung für eine Konstellation, bei der die Punktwerte eines Prädiktors hoch mit dem aktuellen, aber zu Null mit dem eigentlichen Kriterium korrelieren 178 (S.344-348, 355-358, 362-365) Gruppendiagnostik (Interaktionsdiagnostik) (S.327-336) Diagnostisches Interview (S.321-326) Verhaltensbeobachtung (S.313-317) Projektive Verfahren (S.302-312) Nichtsprachliche und Objektive Persönlichkeitstests (S.240-258, 269-274, 278-283, 286-290, 292-298) Persönlichkeitsfragebogen (S.184-188, 190-197, 200-205, 207-220, 222-226, 232-240) Leistungstests Diagnostische Verfahren 3 Unterscheidung von Aufmerksamkeit und Konzentration Aufmerksamkeits- und Konzentrationstests Die Konstrukte Aufmerksamkeit und Konzentration sind bislang nicht gut definiert; zumindest sind keine konsensfähigen Definitionen erkennbar. Viele Autoren vermeiden deshalb eine begriffliche Festlegung und nennen Aufmerksamkeits- und Konzentrationstests in einem Atemzug. In einem einflussreichen Beitrag hatte Bartenwerfer (1964) vorgeschlagen, diese Tests als »Allgemeine Leistungstests« zu bezeichnen. Mit dem Begriff wollte er zum Ausdruck bringen, dass die Tests allgemeine Voraussetzungen für das Erbringen von kognitiven Leistungen erfassen. Eine konzeptuelle Klärung sah er als überflüssig an, wie das folgende Zitat belegt: »Jedoch weiß der unbefangene und fachkundige Leser ungefähr was gemeint ist, wenn von einem Test für Konzentrationsfähigkeit, Aufmerksamkeit, Willenskraft usw. gesprochen wird. Glücklicherweise ist eine eindeutige sprachlich-definitorische Klarheit über die genannten Bezeichnungen nicht erforderlich, wenn es darum geht, menschliches Verhalten vorherzusagen« (Bartenwerfer, 1964, S. 387). Der Begriff »Allgemeine Leistungstests« dient auch heute noch als Überbegriff, beispielsweise in dem weit verbreiteten Brickenkamp Handbuch psychologischer und pädagogischer Tests (Brähler, Holling, Leutner & Petermann, 2002). Allerdings wird auch die Auffassung vertreten, dass Aufmerksamkeit und Konzentration nicht gleichzusetzen sind. Schmidt-Atzert, Büttner und Bühner (2004) plädieren dafür, Aufmerksamkeit alleine mit der Wahrnehmung in Verbindung zu bringen und darunter das selektive Beachten relevanter Reize oder Informationen zu verstehen; demgegenüber soll sich der Begriff Konzentration dagegen auf alle Stufen der Verarbeitung von Informationen beziehen, von der selektiven Wahrnehmung (= Aufmerksamkeit) über die Kombination, Speicherung etc. bis zur Handlungsplanung. . Abbildung 3.1 veranschaulicht diese Trennung und zugleich den Überlappungsbereich von Aufmerksamkeit und Konzentration. Unter günstigen Arbeitsbedingungen, also ohne Zeitdruck, bei nur kurzer Beanspruchung, beim Fehlen von Störungen etc. hängt die Leistung eines Menschen alleine von Fähigkeiten und Fertigkeiten ab, die für die spezielle Aufgabe benötigt werden. Je nach Aufgabe sind dies beispielsweise die Rechenfertigkeit, die Kombinationsfähigkeit, die Merkfähigkeit oder die Psychomotorik. Konzentration ist erst am Zustandekommen von Leistungen beteiligt, wenn erschwerende Arbeitsbedingungen wie Zeitdruck, lange Arbeitszeit oder Störungen hinzukommen. Diese Überlegungen finden in folgendem Definitionsvorschlag für Konzentration ihren Niederschlag: Konzentration ist die 3.1.1 Gemessen an den (positiven) Konsequenzen von Psychodiagnostik, stehen dazu die Kosten der verwendeten Instrumente in einem angemessenen Verhältnis? Absolut, wir helfen unseren Kunden nicht nur effizienter zu sein in ihrer Prozessgestaltung, sondern auch überlegen in ihrer Mitarbeiterqualität und damit produktiver in ihren Märkten. Das ist einer der Gründe, warum wir im Recruiting nicht für konkurrierende Unternehmen arbeiten. Man kann immer nur einem helfen, Marktführer zu werden oder zu bleiben. < Kunden, die wir seit deren Gründung betreuen, oder die uns fast seit unserer Gründung treu sind und das spricht einfach für sich, finde ich. Darüber hinaus versuchen wir, wann immer möglich, unsere Verfahren auch im Feldeinsatz zu evaluieren. Diese Ergebnisse sind natürlich bedeutsamer als spontane Zufriedenheitsäußerungen und Schulterklopfen. Kapitel 3 · Diagnostische Verfahren Allgemeine Leistungsvoraussetzung 184 Konzentration Weiterverarbeitung Aufmerksamkeit Wahrnehmung Reaktion »Fähigkeit, unter Bedingungen schnell und genau zu arbeiten, die das Erbringen einer kognitiven Leistung normalerweise erschweren« (Schmidt-Atzert et al., 2004, S. 9). Konzentration kann demnach nur beim Arbeiten auftreten; konzentriertes Arbeiten wird als anstrengend erlebt (vgl. Westhoff & Hagemeister, 2005). Westhoff und Hagemeister (2005, S. 39 f.) stellen für Konzentrationstests folgende Anforderungen auf: Sie müssen einfache Reize verwenden, die klar und eindeutig wahrzunehmen sind; einfach zu erinnernde Regeln sollen angewendet werden; absichtsvolle Teilhandlungen sind aufzuführen; und sie müssen Leistung in Geschwindigkeit und Fehlern abbilden. Diese Definitionsvorschläge sind pragmatisch und bewusst atheoretisch. Sie implizieren also keine Annahmen über einen »Mechanismus«, der Aufmerksamkeits- und Konzentrationsleistungen erklären könnte. Betrachtet man jedoch die jeweiligen Konstruktionsprinzipien von Aufmerksamkeits- bzw. Konzentrationstests, so lassen diese sich leicht unterscheiden. Aufmerksamkeitstests haben ein gemeinsames Merkmal: Sie erfassen, wie schnell und genau Probanden kritische Reize entdecken. Verschiedene Aufmerksamkeitstests unterscheiden sich vor allem darin, welche kritischen Reize verwendet und unter welchen Bedingungen diese dargeboten werden. Die Bedingungen sind ausschlaggebend dafür, welche »Form« der Aufmerksamkeit gemessen wird. In . Tab. 3.1 sind einige häufig anzutreffende Aufmerksamkeitstypen aufgeführt. Das Konzept Alertness spielt v. a. in der Neuropsychologie eine Rolle. Darunter wird eine basale Wachheit oder Ansprechbarkeit auf Reize jeder Art verstanden. Eine extreme Verminderung der Alertness ist bei komatösen Patienten zu beobachten. Alertness bezeichnet im Grunde nicht eine bestimmte Form der Aufmerksamkeit, sondern vielmehr eine Voraussetzung für jede Form von Aufmerksamkeit (im Sinne von Reizselektion). Ein verbreiteter Test zur Alertness ist der Subtest Alertness der Testbatterie zur Aufmerksamkeitsprüfung (TAP). Die Probanden sind aufgefordert, beim Erscheinen eines Kreuzes auf dem Bildschirm sofort eine Antworttaste zu drücken. Es gibt keine anderen Reize, die zu ignorieren wären. Prinzipiell besteht kein Unterschied zu Tests zur Messung der Reaktionsschnelligkeit. So wird beim Reaktionstest (Schuhfried, ohne Jahr) in der Serie 1 ein gelbes Lichtsignal als einziger Reiz verwendet, der immer so schnell wie möglich zu beantworten ist. Der einzige Unterschied zum TAP-Test Alertness besteht darin, dass in der TAP zusätzlich zwischen tonischer und phasischer Alertness unterschieden wird. In der Bedingung phasische Alertness geht dem visuellen Reiz (Kreuz), anders als bei der tonischen Alertness, ein akustischer Warnreiz voraus, der die Alertness anheben soll. In einer Untersuchung von Bühner, Schmidt-Atzert, Grieshaber und Lux (2001) mit hirngeschädigten Patienten wiesen die Tests Alertness tonisch, Alertness phasisch und zwei klassische Reaktionszeittests (Reaktion auf Licht- . Abb. 3.1. Aufmerksamkeit und Konzentration als unabhängige Konstrukte. Die Aufmerksamkeit hat ausschließlich einen Einfluss auf die Wahrnehmung, die Konzentration wirkt primär auf die Weiterverarbeitung der selegierten Reize, kann aber auch die Wahrnehmung betreffen (»konzentrierte Aufmerksamkeit«) und den mentalen Anteil einer Reaktion (Handlungsplanung, Psychomotorik). Aus Schmidt-Atzert et al. (2004, S. 11). Reiz 3.1 · Leistungstests 3 Reaktionsschnelligkeit TAP Ansprechbarkeit auf Reize Kritische Reize entdecken Anforderungen an Konzentrationstests 185 3 Keine theoretischen Modelle TAP Go/Nogo Einzeldarbietung von ähnlichen Mustern, zwei Muster davon sind kritische Reize Beachtung eines bestimmten Reizes bzw. einiger weniger Reize innerhalb einer Reizklasse Beachtung von mindestens je einem Reiz aus zwei deutlich verschiedenen Reizklassen Fokussierte oder geteilte Aufmerksamkeit über längere Zeit Beachtung seltener Reize über längere Zeit Fokussierte oder selektive Aufmerksamkeit Geteilte Aufmerksamkeit Daueraufmerksamkeit Vigilanz reiz, auf akustischen Reiz) sehr hohe Ladungen auf einem gemeinsamen Faktor auf. Der theoretisch interessante Differenzwert zwischen tonischer und phasischer Alertness, der eigentlich das Profitieren von einer Anhebung der Alertness ausdrücken sollte, erwies sich als nicht interpretierbar. Auch Such- oder Durchstreichtests, die hier unter »Konzentrationstests« abgehandelt werden, erfassen die Aufmerksamkeit. Bei diesen Tests müssen die Probanden relevante Reize unter irrelevanten suchen (Selektion) und markieren. Sie werden zu Recht auch als Konzentrationstests bezeichnet, weil sehr viele Aufgaben bewältigt werden müssen und diese zudem unter Zeitdruck zu bearbeiten sind, also erschwerende Bedingungen vorliegen. Konzentrationstests lassen sich, anders als etwa Intelligenztests, nicht nach theoretischen Modellen unterscheiden, die ihnen zugrunde liegen. Solche Modelle wurden bisher nicht ausgearbeitet. Für Anwender ist vor allem relevant, welche Art von Aufgaben verwendet und für welche Zielgruppe ein Test gesucht wird. Zwei Arten von Test- Anmerkung. TAP = Testbatterie zur Aufmerksamkeitsprüfung (Zimmermann & Fimm, 1992). DAUF und VIGIL aus dem Wiener Testsystem (Fa. Schuhfried, Katalog 2004/2005). a Kritische Reize sind mit Tastendruck zu beantworten. b Zu Alertness 7 Erläuterungen im Text. VIGIL Hell aufleuchtender Punkt springt auf einer Kreisbahn (ähnlich Uhr) um einen Schritt – Doppelsprung (Dauer: 30, 35 oder 70 min) DAUF Reihe von 5 bzw. 7 ständig wechselnden Dreiecken mit Spitze nach oben oder unten – vorher definierte Anzahl von Dreiecken mit Spitze nach unten (Dauer: 20 bzw. 35 min) TAP Geteilte Aufmerksamkeit Visuell: Wechselnde Kreuze in einer 4 x 4 Matrix – Quadrat? Akustisch: Abwechselnd hoher und tiefer Ton – Unregelmäßigkeit? TAP Alertness Kreuz auf dem Bildschirm Einfache Reize schnell und zuverlässig beantworten Alertnessb Testbeispiel und Kurzbeschreibunga Testbedingung (Prinzip) Aufmerksamkeitsbegriff . Tabelle 3.1. Aufmerksamkeitsformen und -tests Kapitel 3 · Diagnostische Verfahren Konzentrationstests mit Selektionsaufgaben 186 Aufmerksamkeits-Belastungs-Test d2 (Brickenkamp, 2002) Revisionstest (Marschner, 1972) Konzentrations-Verlaufs-Test KVT (Abels, 1974) Zahlen-Symbol-Test des Berliner Intelligenzstruktur-Test: BIS-Form 4. (Jäger, Süß & Beauducel, 1997) Suchen, verbunden mit Reizdiskrimination Rechnen Sortieren Transformieren Transformation von Zahlen (1 bis 9) in Symbole anhand einer Umwandlungstabelle. Vorgegeben sind Zahlen, unter die jeweils das passende Symbol (z. B. = bei der Zahl 9) einzutragen ist. 60 Kärtchen mit jeweils 36 zweistelligen Zahlen auf vier Stapel sortieren: Die Zahl 43, die Zahlen 43 und 63, die Zahl 63 dabei, andere Zahl. Einfache Additionen auf Richtigkeit prüfen. Drei untereinander stehende einstellige Zahlen, deren letzte (Summe der oberen Zahlen?) durch einen Strich abgetrennt ist (z. B. 4 5 / 8). Alle d mit zwei Strichen durchstreichen. Die Zielobjekte verbergen sich unter d mit einer »falschen« Strichzahl und p mit unterschiedlich vielen Strichen. Erläuterung zur Aufgabe aufgaben haben bereits eine lange Tradition: Buchstaben-Durchstreichtests und Konzentrations-Rechentests. Die ersten Verfahren dieser Art wurden bereits in den Jahren 1885 bzw. 1888 entwickelt (Bartenwerfer, 1964). Die Art der Testaufgaben ist wichtig, weil häufig nicht »die« Konzentrationsfähigkeit (als allgemeine und breite Fähigkeit) gefragt ist, sondern die Fähigkeit, sich unter näher bestimmbaren Bedingungen zu konzentrieren. Beispielsweise kann sich die Fragestellung auf die Konzentration beim Erledigen von Schulaufgaben oder beim Autofahren beziehen. Die Tests können nach den Aufgaben unterteilt werden, unter denen konzentriertes Arbeiten verlangt wird. . Tabelle 3.2 zeigt die wichtigsten Aufgabentypen. Da bei den Suchaufgaben meist die Zielobjekte durchzustreichen sind, werden diese Tests oft auch als »Durchstreichtests« bezeichnet. Mit dieser Bezeichnung wird aber ein unerheblicher Aspekt der Testbearbeitung hervorgehoben, nämlich die Art der Itembeantwortung. Die eigentliche mentale Operation bei der Testbearbeitung ist das Suchen von Reizen nach vorgegebenen Merkmalen. Weil dabei verschiedene Reize unterschieden werden müssen, könnte man auch die Diskrimination ähnlicher Reize bei den Anforderungen betonen. Auch die Bezeichnungen »Aufmerksamkeitstests« oder Tests zur selektiven Aufmerksamkeit treffen zu, weil dargebotene (wahrgenommene) Reize selektiv zu beachten sind. Moosbrugger und Oehlschlägel (1996) haben sich beim Frankfurter Aufmerksamkeits-Inventar (FAIR) mit Absicht vom Durchstreichen als Antwortmodus distanziert und dafür ein »vollständiges Markierungsprinzip« eingeführt: Der Proband fährt mit dem Stift unter den zeilenweise angeordneten Items entlang und zieht, wenn er ein Zielobjekt entdeckt, den Stift nach oben, sodass ein Zacken entsteht. Bei der Computerversion des bekanntesten »Durchstreichtests«, dem Test d2-C (7 unten), gibt der Proband die Nummer der Zielobjekte ein. Das Inventar komplexer Aufmerksamkeit (INKA) von Heyde (1995; s. auch Heyde, 2004) kombiniert zwei Aufgabentypen. Vorgegeben sind lange Reihen von Konsonanten (z. B. RFLBPHZM…). Für jede Zeile müssen bestimmte Konsonanten anhand einer Testbeispiel Aufgabe . Tabelle 3.2. Einteilung der Konzentrationstests nach Aufgabentypen 3.1 · Leistungstests INKA FAIR Durchstreichtests Aufgabentypen 187 3 3 Eine Konzentrationsfähigkeit? Schulnahe Aufgaben TPK Störreize ignorieren Umwandlungstabelle in andere transformiert werden (aus B wird beispielsweise Z). Dann beginnt eine Suchaufgabe. Die transformierten Konsonanten (also beispielsweise Z) sind in der Zeile zu suchen. Sie werden jedoch nicht markiert, sondern der davor stehende Konsonant (im Beispiel H) ist am Rand zu notieren (RFLBPHZM… Antwort: H). Die Aufgabe ist also tatsächlich komplex, wie schon der Testname vermuten lässt. Allerdings stellt der Test auch erhebliche Anforderungen an die Merkfähigkeit der Probanden. Es existieren zumindest zwei weitere Tests, die nicht in das Schema von . Tab. 3.2 passen. Beim Farbe-Wort-Interferenztest (FWIT) nach J.R. Stroop (Bäumler, 1985) werden in der so genannten Interferenzbedingung Farbwörter (rot, grün, …) vorgegeben, die farbig gedruckt sind. Die Probanden werden aufgefordert, die Druckfarbe zu benennen. Wenn also das Wort »grün« in gelber Farbe gedruckt ist, lautet die richtige Antwort »gelb«. Die Bedeutung des Wortes (im Beispiel »grün«) wirkt dabei störend und führt zu einer Verlängerung der Benennungszeit gegenüber der Bedingung, unter der die Farbe mit der Bedeutung des Wortes übereinstimmt. Dieses Phänomen wird Interferenz genannt und die individuelle Ausprägung der Interferenz ist die Interferenzneigung. Die Zeit, die jemand für das Benennen von Farben benötigt, wird in einer zusätzlichen Testbedingung (Benennen von Farbstrichen) ermittelt und aus der Benennungszeit in der Interferenzbedingung herausgerechnet. Der Autor bietet zahlreiche Möglichkeiten für eine konzeptuelle Einordnung der individuellen Interferenzneigung an, darunter auch »konzentrativer Widerstand gegenüber dominierenden Reaktionstendenzen« (Bäumler, 1985, S. 7). Das Interferenzphänomen, das in diesem Test zum Messgegenstand erhoben wird, weist auf ein implizites Merkmal vieler Konzentrationstests hin, nämlich das Vorhandensein von Störreizen. Tests mit Suchaufgaben enthalten neben den »richtigen« Items (den Zielreizen) immer auch Distraktoren. Diese sind so beschaffen, dass sie den Zielreizen oft zum Verwechseln ähnlich sind. Beim Test d2 etwa ist das »p« dem gesuchten »d« in seiner Gestalt sehr ähnlich. Widerstand gegen störende Reize ist möglicherweise auch bei anderen Konzentrationstests an der Testleistung beteiligt. Der zweite Test, der das Schema sprengt, ist die Testreihe zur Prüfung der Konzentrationsfähigkeit (TPK) von Kurth und Büttner (1999; s. auch Kurth & Büttner, 2004). Der Test wurde für Schulkinder der zweiten bis sechsten Klasse konzipiert und enthält drei Aufgabetypen, die typische Anforderungen im Schulunterricht aufgreifen: Lesen, Rechnen und Reproduzieren. Einfache Rechenaufgaben wie 7 + 8 – 3 = ? kommen den Items anderer Rechen-Konzentrationstests sehr nahe. Ungewöhnlich für Konzentrationstests sind die Aufgaben »Abschreibtest« (Abschreiben eines Textes) und »Tiergeschichte« (Wiedergabe von Tiernamen aus einer vorgelesenen Tiergeschichte). Westhoff und Hagemeister (2005, S. 40) stellen fest, dass der Subtest »Tiergeschichte« nicht ihrer Definition von Konzentrationstests entspricht, da die Zahl richtig reproduzierter Tiernamen kein Tempo- und kein Fehlermaß liefert und die Testleistung vermutlich stark von der Merkfähigkeit der Probanden abhängt. Angesichts der offensichtlichen Unterschiedlichkeit der Tests ergeben sich mindestens drei wichtige Fragen an die Forschung: Erstens ist zu klären, ob die Konzentrationstests so viel gemeinsame Varianz aufweisen, dass man annehmen darf, dass sie eine Fähigkeit messen. Eine alternative Hypothese dafür ist, dass sich mehrere Formen der Konzentration unterscheiden lassen. Zweitens ist von Interesse, welche Tests als die typischsten Vertreter ihrer Gattung gelten können. Es sollten die Tests sein, die viel Konzentrationsvarianz und wenig andere Testvarianz aufweisen. Drittens werden insbesondere Testanwender wissen wollen, von welchen anderen Fähigkeiten und Fertig- Kapitel 3 · Diagnostische Verfahren Interferenztest 188 3 Gründe für Verwechslungsfehler Gründe für Auslassungsfehler Zwei Fehlertypen Leichte Aufgaben Arbeitstempo selbst wählen Bearbeitungszeit Kennwerte. Aufmerksamkeitstests und Konzentrationstests liefern Kennwerte für die Schnelligkeit und die Genauigkeit der Reaktionen. Bei computergestützten Tests, die immer Einzelreize oder Reizkombinationen vorgeben, stellt die Reaktionszeit auf die Reize die zentrale Prüfgröße dar. Berechnet wird der Mittelwert der Reaktionszeiten auf die Reize einer Testserie (oder der Median) sowie zusätzlich meist die intraindividuelle Streuung dieser Reaktionszeiten. Papier-und-Bleistift Tests dagegen erfassen, wie viele Zeichen ein Proband in der zur Verfügung stehenden Zeit bearbeitet oder richtig bearbeitet hat. Daraus lässt sich bei Bedarf berechnen, wie lange der Proband durchschnittlich für die Bearbeitung eines einzelnen Reizes benötigt hat. Reaktions- und Bearbeitungszeit liefern dennoch unterschiedliche Informationen. Bei der Einzeldarbietung von Reizen auf dem Bildschirm besteht eine starke Aufforderung, jetzt so schnell wie möglich zu reagieren. Bis zur Darbietung des nächsten Reizes ist meist eine kleine »Erholungspause« eingeplant. Wenn der Proband in einem Papier-und-Bleistift Test Reize sukzessive bearbeitet, bestimmt er selbst das Arbeitstempo. Das Arbeitstempo hängt also nicht nur davon ab, wie lange er für die Bearbeitung eines Reizes braucht, sondern auch von der Länge der selbst gewählten Pausen zwischen zwei Reizen. Westhoff (1995) sieht in dem selbst gewählten Arbeitstempo (»self-paced«) ein wesentliches Merkmal von Konzentrationstests. Bei der Bearbeitung eines Testitems sind Fehler grundsätzlich möglich, auch wenn – wie bereits dargelegt – die Aufgaben in Aufmerksamkeits- und Konzentrationstests in der Regel so leicht sind, dass sie von fast allen Probanden fehlerfrei gelöst würden, wenn sie sich genügend Zeit zur Bearbeitung nehmen würden. Bei Tests, die ein Reagieren auf kritische Reize und ein Nichtreagieren auf Distraktoren verlangen (insbesondere Suchaufgaben, Durchstreichtests, Aufmerksamkeitstests mit Einzeldarbietung von Reizen) können zwei Fehlerarten unterschieden werden: Auslassungsfehler und Fehlreaktionen auf Distraktoren. Von einem Auslassungsfehler spricht man, wenn ein kritischer Reiz vorliegt und der Proband nicht, wie zu erwarten wäre, darauf reagiert. Die Gründe für diese Art von Fehlreaktion können unterschiedlich sein. Erstens kann der Proband den Reiz falsch beurteilt haben; er hat entschieden, dass dieser Reiz nicht zu denen gehört, auf die er laut Instruktion zu reagieren hätte. In diesem Fall könnte man auch von einer Fehlreaktion auf einen kritischen Reiz sprechen. Zweitens, und das gilt nur für die Darbietung von Einzelreizen, kann die Reaktion des Probanden zu spät erfolgt sein (die Reaktion muss immer in einem bestimmten Zeitfenster erfolgen, wenn sie gültig sein soll). Die dritte und vierte Erklärung gelten nur für Papier-und-Bleistift Tests: Der Proband hat den Reiz übersehen beziehungsweise nicht bemerkt oder er hat ihn absichtlich nicht bearbeitet. Das absichtliche Nichtbearbeiten von Reizen kann vorkommen, wenn sich der Proband bei der Einzeldarbietung von Reizen eine »Verschnaufpause« gönnt oder bei vielen vorgegebenen Items in einem Papier-und-Bleistift Test absichtlich Zeichen überspringt, um seine Mengenleistung zu steigern. In diesem Fall könnte man auch von strategischen Fehlern sprechen. Ein Verwechslungsfehler liegt dagegen vor, wenn auf einen Disktraktor so reagiert wird, als wäre es ein Zielreiz. Der nahe liegende Grund ist, dass der Proband den Distraktor mit einem Zielreiz verwechselt hat. Auslassungs- und Verwechslungsfehler können auch auftreten, wenn ein Proband die Instruktion nicht richtig verstanden hat oder wenn er seine Antworten nach dem Zufallsprinzip gibt. In diesen Fällen werden aber so viele Fehler auftreten, dass dies einem Testauswerter auffallen und er einen entsprechenden Verdacht schöpfen wird. Kapitel 3 · Diagnostische Verfahren Reaktionszeit 190 Arbeitstempo (wenn Tempo »self-paced«: Anzahl bearbeiteter Aufgaben) mittlere Reaktionszeit (wenn Darbietung von Einzelreizen) Auslassungsfehler (Zielreiz nicht beantwortet) Verwechslungsfehler (Fehlreaktion auf Distraktor) Brickenkamp, R. (9., überarbeitete und neu normierte Aufl. 2002). Göttingen: Hogrefe. Befragungen von Psychologen in der Berufspraxis zeigen, dass unter den »allgemeinen Leistungstests« ein Test bevorzugt eingesetzt wird: Der Test d2. Der Umfrage von Steck (1997) zufolge ist der Test d2 der am häufigsten verwendete Leistungstest überhaupt. Insgesamt 32% der Befragten gaben an, den Test zu verwenden. Bei Schorr (1995) nimmt der Test d2 in der Liste der 20 am häufigsten verwendeten Testverfahren (Leistungstests, Fragebogen, projektive Verfahren) Platz 3 ein. In dieser Rangliste taucht außer dem Test d2 kein weiterer Aufmerksamkeits- oder Konzentrationstest auf. Bölte et al. (2000), die speziell Testanwender in der Kinder- und Jugendpsychiatrie befragt hatten, ermittelten für den Test d2 eine Anwendungshäufigkeit von 89%, in weitem Abstand gefolgt von KVT, KLT und FWIT mit 32, 26 und 18% aller Nennungen. Der Test wurde auch in viele andere Sprachen übersetzt. Besonders zu erwähnen ist eine amerikanische Ausgabe (Brickenkamp & Zillmer, 1998). Auch eine Computerversion wurde vorgestellt (Brickenkamp, Merten & Hänsgen, 1996), die jedoch nicht als äquivalent zur Papier-und-Bleistift Version gelten kann (7 unten). Die Verkehrspsychologie ist noch immer ein Einsatzgebiet für den Test. Inzwischen wird der Test unter anderem aber auch in der Klinischen Psychologie, der Neuropsychologie, der Arbeits- und Organisationspsychologie (zur beruflichen Eignungsdiagnostik), der Pädagogischen Psychologie und der Sportpsychologie eingesetzt. Der Test d2 erschien erstmals 1962. Das Testmaterial wurde seitdem nicht verändert. Ursprünglich sollte der Test vor allem zur Feststellung der Kraftfahreignung dienen. Der Testautor hatte sich für das bewährte Prinzip der Durchstreichtests entschieden, aber versucht, gewisse Unzulänglichkeiten der damals verfügbaren Durchstreichtests zu überwinden. Alleine die Diskrimination von zwei Buchstaben zu verlangen, erschien angesichts der komplexen Anforderungen an Kraftfahrer als zu einfach. Gegen die Verwendung unbekannter Zeichen sprachen die notwendige Einübungsphase und interindividuelle Unterschiede in der Lernfähigkeit. Ziel war ein Test mit einer einfachen und verständlichen Instruktion und einer Aufgabe, die von den Probanden ohne lange Einübung ausgeführt werden kann. Welches Merkmal wird mit dem Test d2 erfasst? Da der Test eine Reizselektion verlangt (bestimmte Zeichen sind unter visuell ähnlichen Zeichen herauszusuchen), erfasst er Aufmerksamkeit. Diese kann aufgrund der genauen Aufgabenstellung näher als selektive oder fokussierte Aufmerksamkeit bestimmt werden (vgl. . Tab. 3.2). Diese Aufmerksamkeitsleistung muss kontinuierlich und dabei schnell und richtig erbracht werden. Deshalb ordnet Brickenkamp (2002) den Test zutreffend auch in die Kategorie der Konzentrationstests ein. Der Zusatz »Belastungstest« wird durch die Tatsache gerechtfertigt, dass die Testleistung unter Zeitdruck zu erbringen ist. Der Proband soll so schnell und so genau wie möglich arbeiten. Dabei wird er vom Testleiter zu schnellem Arbeiten angetrieben, indem er alle 20 s dazu auffordert, die Bearbeitung der aktuellen Zeile abzubrechen und mit der nächsten anzufangen. Der Test liefert hauptsächlich Test d2: Aufmerksamkeits-Belastungstest 4 4 4 4 Wichtige Kennwerte von Aufmerksamkeits- und Konzentrationstests 3.1 · Leistungstests Was misst der Test? Zielsetzung bei der Testentwicklung Computerversion Verbreiteter Test 191 3 3 Ü-Syndrom Diagnoseschema Kennwerte Bearbeitete Zeichen und Fehler zählen Nach 20 s nächste Zeile »Schnell und genau arbeiten« Unterschiedliche Zeichen Tempo und Genauigkeit Auswertung. Mit Schablonen werden die Zahl der bearbeiteten Zeichen, der markierten Zielobjekte und der Auslassungs- und Verwechslungsfehler auf dem Testbogen zeilenweise ermittelt. Als Summe über alle Zeilen werden die Gesamtzahl der bearbeiteten Zeichen (GZ), die Gesamtzahl der markierten Zielobjekte (für Konzentrationsleistung KL) sowie die absolute Fehlerzahl ermittelt. Diese Kennwerte werden auf ein Auswertungsblatt übertragen. Die fehlerkorrigierte Tempoleistung (GZ-F) wird durch Subtraktion der Fehler (F) von der Gesamtzahl der bearbeiteten Zeichen (GZ) festgestellt. Der Kennwert Fehlerprozent (F%) wird aus der Fehlerzahl (x 100), dividiert durch GZ berechnet. Er gibt an, wie viel Prozent der bearbeiteten Zeichen falsch bearbeitet worden sind. Diese Rohwerte werden an Hand der Normtabelle in Standardwerte und zusätzlich in Prozentränge transformiert. Besonders instruktiv ist das Diagnoseschema auf dem Auswertungsblatt. Die Testleistung des Probanden wird hier als ein Punkt in einem zweidimensionalen Raster mit den Achsen Tempo (GZ) und Sorgfalt (F%) dargestellt. Dazu werden die Normwerte verwendet. Man sieht auf einen Blick, wie sich Tempo und Sorgfalt zueinander verhalten. Beispielsweise kann ein Proband sehr schnell und zugleich sehr sorgfältig gearbeitet haben oder etwa relativ langsam und dabei sehr genau. Ein grau unterlegter Bereich, der durch eine sehr hohe Fehlerrate und ein hohes oder sehr hohes Tempo gekennzeichnet ist, trägt die Bezeichnung Ü-Syndrom. Damit trägt der Autor der von Oehlschlägel und Moosbrugger (1991) geäußerten Kritik an der Verfälschbarkeit der Testleistungen durch Durchführung. Die Instruktion erfolgt durch Vorlesen eines Standardtextes. Für Kinder ist sie etwas ausführlicher und es wird empfohlen, die Aufgabe an einer Wandtafel zu veranschaulichen. Auf dem Testbogen ist zunächst eine Übungszeile ohne Zeitdruck zu bearbeiten, an Hand derer auch das Instruktionsverständnis überprüft werden kann. Wichtig ist die Anweisung am Ende: »Arbeiten Sie so schnell wie möglich – aber natürlich auch ohne Fehler!« Zur Bearbeitung des Tests ist der Testbogen umzudrehen. Der Testleiter fordert mit »Achtung! – Los!« auf, mit der ersten Zeile zu beginnen. Nach 20 s kommt der Befehl »Halt! Nächste Zeile«. Die Stoppuhr läuft dabei durch und der Testleiter wiederholt den Befehl zum Zeilenwechsel alle 20 s. Die Testdurchführung dauert damit ohne Instruktion genau 4 min und 40 s. Der Test kann einzeln und in Gruppen durchgeführt werden. Eine Parallelform existiert nicht. Testaufbau und Gliederung. Der Test besteht insgesamt aus 658 visuellen Reizen, die sich nur in zwei Merkmalen voneinander unterscheiden, nämlich in dem Buchstaben (d oder p) und in der Anzahl von kurzen Strichen unter und/oder über dem Buchstaben (. Abb. 3.2). Zielobjekte sind alle d’s mit zwei Strichen, wovon es drei Varianten gibt: Ein Strich über und ein Stich unter dem d, zwei Striche über dem d und zwei Striche unter dem d. In jeder der 14 Zeilen des Tests stehen insgesamt 47 Zielobjekte und Distraktoren. zwei Informationen über das Arbeitsverhalten des Probanden: Das Tempo (die Anzahl der bearbeiteten Zeichen in der Testzeit) und die Qualität (Genauigkeit, operationalisiert über die Fehlerquote). Kapitel 3 · Diagnostische Verfahren . Abb. 3.2. Übungszeile aus dem Test d2 von Brickenkamp (1962) 192 instruktionswidriges Überspringen von Items («Konzentrationsleistungen ohne Konzentration«) Rechnung. Wenn ein Proband ein hohes Arbeitstempo (GZ) durch Überspringen von Zeichenketten erreicht hat, wird er im Diagnoseschema auffallen. Das Diagnoseschema kann weiterhin dazu verwendet werden, das Arbeitsverhalten als »pedantisch« (sehr langsam und genau), »hochkonzentriert« (sehr schnell und genau) oder »konzentrationsgestört« (sehr langsam und ungenau) zu klassifizieren. Eigentlich würde es genügen, das Arbeitsverhalten im Test und damit auch die Konzentrationsfähigkeit des Probanden durch zwei Werte zu charakterisieren: das Tempo (GZ) und die Sorgfalt (F%). Die Berechnung von fehlerkorrigierten Tempowerten (GZ-F, auch KL) ist als Versuch zu werten, die Konzentrationsfähigkeit durch einen einzigen Wert zu beschreiben. Dass es jemandem gelingen kann, seine Tempoleistung durch nicht sorgfältiges Bearbeiten der Zeichen zu steigern, ist unstrittig. Allerdings kann weder der Wert GZ-F noch der KL-Wert angeben, wie viele Zeichen ein Proband bei einer durchschnittlichen Sorgfalt bearbeitet hätte. Wie Schmidt-Atzert (2004) anhand eines konkreten Beispiels errechnet hat, werden Tempo und Fehler bei GZ-F im Verhältnis 21:1 und bei KL 9:1 gewichtet. Fest steht, dass damit der KL-Wert stärker von der Sorgfalt des Probanden bei der Testbearbeitung abhängt als der Kennwert GZ-F. »Richtiger« oder »besser« ist er damit nicht. Brickenkamp (2002) schlägt vor, die Schwankungsbreite (SB) als Differenz zwischen der maximalen und der minimalen Anzahl bearbeiteter Zeichen pro Zeile zu berechnen. Dieser Kennwert ist jedoch nicht normiert und damit kaum zu interpretieren. Das Gleiche gilt für die Verteilung der Verwechslungsfehler auf die erste und die zweite Testhälfte. Allerdings erscheint eine andere Art der Fehleranalyse sinnvoll, um das Vortäuschen einer niedrigen Konzentrationsfähigkeit zu entdecken. Es ist schon lange bekannt, dass Verwechslungsfehler (Proband markiert einen Distraktor) wesentlich seltener vorkommen als Auslassungsfehler. Schmidt-Atzert und Bühner (1998) haben die Verwechslungsfehler weiter danach unterteilt, ob das fälschlicherweise durchgestrichene Zeichen den falschen Buchstaben, die falsche Strichzahl oder beide Merkmale trägt. Sie stellten fest, dass »Doppelfehler« (beide Merkmale falsch) selbst hirnorganisch gestörten Patienten extrem selten unterlaufen. Treten solche Fehler auf, könnte dies ein Hinweis auf Simulation sein. Schmidt-Atzert, Bühner, Rischen und Warkentin (2004) untersuchten diese Hypothese in einer experimentellen Untersuchung, in der Studierende zum Verfälschen ihrer Testleistungen aufgefordert wurden. Sie sollten dabei aber so geschickt vorgehen, dass es ein »Testexperte« nicht merkt. Dabei zeigt sich, dass viele »Simulanten« nicht die eher plumpen Doppelfehler machten. Als der beste Indikator für Simulation erwiesen sich die Fehler, bei denen die Probanden ein p mit zwei Strichen markierten. Obwohl im gesamten Test 187 dieser Zeichen vorkommen (eine durchschnittlich schnell arbeitende Person hatte 119 Mal die Gelegenheit für solche Fehler), erwiesen sich bereits zwei solcher Fehler als kritisch. Mit diesem Fehlerkriterium konnten 63% der Simulanten erkannt werden, während in der Kontrollbedingung niemand falsch bezichtigt würde. Allerdings ergab die Reanalyse von Testdaten neurologischer Patienten, dass 8% fälschlicherweise als Simulanten eingestuft würden. Setzt man die kritische Fehlerzahl auf 10, werden immer noch 47% der »Simulanten« entdeckt und eine ungerechtfertigte Bezichtigung als Simulant wird ganz vermieden. Ein weiteres Ergebnis dieser Untersuchung war, dass es den Versuchspersonen nicht gelang, ihre Testleistung nach oben zu verfälschen. Nur zwei der 31 Versuchspersonen in der Bedingung »Verfälschung nach oben« gaben an, Zeichen übersprungen zu haben. Sie machten davon aber so sparsam Gebrauch, dass ihnen kein Ü-Syndrom bescheinigt worden wäre. 3.1 · Leistungstests 3 Verfälschung nach oben gelingt nicht Simulation erkennbar Untersuchung zur Verfälschbarkeit Verschiedene Verwechslungsfehler Schwankungsbreite Unterschiedliche Gewichtung von Tempo und Fehler Gesamtleistungswerte 193 3 Weitere Validitätsbelege Korrelation mit Intelligenztests Korrelation mit Konzentrationstests Auch mittelfristige Konzentration erfasst Validität. Aufgrund des Aufgabenformates und der Vorgabebedingungen kann der Test gleichsam »vorab« inhaltliche und Augenschein-(Face-)Validität beanspruchen, und zwar primär für kurzfristige Konzentrationsleistungen unter Geschwindigkeits- und Qualitätsaspekt. Allerdings sprechen Ergebnisse einer Untersuchung von Steck (1996) dafür, dass mit dem Test d2 nicht nur kurz-, sondern auch mittelfristige Konzentration gemessen wird. Steck (1996) ließ von seinen Probanden nacheinander eine Version des Pauli-Tests von 5, 10 und 20 min Dauer sowie den Test d2 bearbeiten. Der Pauli-Test verlangt das fortwährende Addieren einstelliger Zahlen. Der Test d2 korrelierte .52 mit der Kurzversion (5 min) und .48 mit der Langversion (20 min) des Pauli-Tests. Eine weitere Probandengruppe bearbeitete eine 30-minütige Version des Pauli-Tests. Die Korrelation mit dem Test d2 betrug .45 min. Die Konstruktvalidität des Test d2 kann durch zahlreiche Untersuchungen als belegt gelten, in denen der Test mit anderen Konzentrationstests sowie (als konstruktdivergentem Kriterium) mit Intelligenztests korreliert wurde. Die Koeffizienten variieren erheblich, was sich mit den zum Teil kleinen Stichproben erklären lässt. Für den GZWert ergaben sich überwiegend Korrelationen im Bereich von .60 mit den Tempowerten von Konzentrationstests. Für das Fehlerprozent (F%) liegen die Korrelation mit den Fehlerwerten anderer Konzentrationstests überwiegend im Bereich von .40 bis .50 (Brickenkamp, 2002, S. 35). Mit Intelligenztestleistungen fanden sich überwiegend niedrige Korrelationen, abgesehen vom Zahlensymbol-Test des HAWIE (um .60). An zwei großen Stichproben wurde die Korrelation zum IST-2000 bzw. dessen Vorgänger IST-70 ermittelt. Der Gesamtwert für schlussfolgerndes Denken des IST-2000 korrelierte .21 mit GZ und .37 mit KL (N = 484; Brickenkamp, 2002, S. 39). Zwischen dem Gesamtwert des IST-70 und GZ bestand in einer Stichprobe von Auszubildenden (N = 1560) bei allerdings eingeschränkter Intelligenztestvarianz ein Zusammenhang von .14. Damit wird unterstrichen, dass die Konzentrationsfähigkeit im Test d2 klar von Intelligenz abzugrenzen ist. Dass die Korrelationen nicht bei Null liegen, kann mehrere Ursachen haben. Eine Erklärung ist, dass die Intelligenztestleistung (nicht die Intelligenz!) auch von der Konzentration der Probanden abhängt (Oswald & Hagen, 1996). Darüber hinaus liegen außerordentlich zahlreiche Belege zur empirischen Validität vor, z. B. in verkehrspsychologischen Bewährungskontrollen, bei eignungsdiagnostischen und sportlichen Problemstellungen. Mit der Eignung zum Führen von Kraftfahrzeugen korreliert der d2 zu .54, mit der Kontrolle von Fernsehapparaten im Herstellungsprozess zu .59 bis .75. Darüber hinaus diskriminiert der d2 erfolgreich zwischen Gesunden und psychiatrisch auffälligen Gruppen, im Weiteren zwischen Hauptschülern, die auf Grund des Lehrerurteils durch einen starken bzw. schwachen Antrieb gekennzeichnet sind (signifikante Differenzen in GZ, GZ-F und KL). Einige Befunde sprechen dafür, dass die d2-Leistungen unabhängig von der Tageszeit sind, aber sensitiv für verschiedene Psychopharmaka. Reliabilität. Die innere Konsistenz (Cronbachs α mit den Zeilen als Items) der wichtigsten Kennwerte, also der (fehlerkorrigierten) Tempoleistung GZ und KL, liegen für die Erwachsenen der Eichstichprobe zwischen .95 und .97. Selbst für die jüngste Altersgruppe (9–10 Jahre) beträgt die innere Konsistenz noch .91 (GZ) bzw. .93 (KL). Auch das Fehlerprozent (F%) weist bei den Erwachsenen (hier die Split-Half Korrelation) mit .92 bzw. .94 sehr hohe Werte auf. Der niedrigste Wert fand sich mit .82 wieder für die Gruppe der jüngsten Kinder. Die Retestkoeffizienten für die Gesamtmenge (GZ) liegen je nach Intervall bei Erwachsenen zwischen .71 und .94. In etwa derselben Größenordnung bewegen sich die Stabilitäten für GZ-F und KL. Kapitel 3 · Diagnostische Verfahren Hohe Reliabilität 194 Spezialformen. Die Zeichen auf dem Testformular sind relativ klein und können besonders älteren Probanden, deren Sehfähigkeit eingeschränkt ist, Schwierigkeiten bereiten. Deshalb wird in der Praxis das Testformular gelegentlich durch Kopieren auf das Format DIN A3 vergrößert. Bühner und Schmidt-Atzert (2004) haben an einer Stichprobe von Senioren (60 bis 92 Jahre) geprüft, ob diese Variante dem Original äquivalent ist. Die Vergrößerung hatte keinen Effekt auf die Anzahl der bearbeiteten Zeichen (GZ), wohl aber auf den Fehleranteil (F%) und den KL-Wert, der von der Fehlerzahl beeinflusst wird. Bei Verwendung der A3-Version machten die Probanden durchschnittlich nur 5.6% Fehler im Vergleich zu 7.7% bei der Origianl-A4-Version. Beide Versionen in diversen Buchbeiträgen vor, die sich meist auf ältere Auflagen beziehen (7 den Eintrag zum AUFMERKSAMKEITS-BELASTUNGS-TEST d2 in der Datenbank PSYNDEXplus). Eine relativ neue Bewertung von 2001 stammt von der Diagnostikkommission des Schweizerischen Verbandes für Berufsberatung SVB , die sich jedoch noch auf die 8. Aufl. bezieht (7 http://www.testraum.ch/Serie%204/d2.htm). Dort ist zu lesen: »Das Verfahren ist einfach durchzuführen und weit verbreitet, obwohl einige Testpersonen es als langweilig oder anstrengend empfinden. Auch eine gewisse Unabhängigkeit von verbalen oder numerischen Fertigkeiten hat zu diesem Erfolg beigetragen. In kurzer Zeit (ca. 5 Min. konzentrierte Arbeit und insgesamt 15 Min. Testdurchführung) wird eine reliable und valide Information gewonnen, die für ganz viele Lern- oder Arbeitssituationen von Bedeutung ist.« Es werden Zweifel geäußert, ob der Test hinreichend valide ist, wenn nicht eine relativ kurze Konzentration, sondern mehr eine konzentrierte Ausdauer als Konstrukt von Interesse ist. Die Testinstruktion sei für »normale bis aufgeweckte Testpersonen« zu lang. Berechtigte Kritik wird an dem Kennwert Schwankungsbreite (SB) geübt, der nicht nur von Leistungsschwankungen abhängt, sondern auch davon, dass die Zeilen des Tests unterschiedlich schwere Items enthalten. Schließlich werden die Interpretationsvorschläge der Handanweisung, in denen z. B. von »defizitärem Antrieb«, von »pedantisch«, von »reflexiv«, oder »impulsiv« die Rede ist, als nicht hinreichend abgesichert und damit zu weitgehend eingestuft. Mit dem Vorwurf von Oehlschlägel und Moosbrugger (1991), dass es bei hohen Fehlerzahlen (Überspringen von Zeichen) zu einer Überschätzung der Konzentrationsfähigkeit kommen kann, hat sich Brickenkamp im Manual wie zuvor schon in Publikationen gründlich auseinandergesetzt. Bei einer simultanen Beurteilung von Tempo und Sorgfalt im Diagramm des Auswertungsblattes sollte – wie bereits erwähnt – eine nicht instruktionsgemäße Bearbeitung des Tests auffallen. Noch fehlt eine durch Validitätsuntersuchungen begründete Aussage, welcher der beiden fehlerkorrigierten Tempowerte GZ-F und KL bei welcher Fragestellung zu bevorzugen ist. Insgesamt stellt der Test d2 ein gut bewährtes und in der Praxis leicht zu handhabendes Verfahren dar. Seine Kennwerte sind hoch reliabel und zur Validität liegen viele positive Befunde vor. Der Test wird deshalb auch gerne zur Validierung anderer Konzentrationstests herangezogen. Bewertung. Zum Test d2 liegen zahlreiche Rezensionen und wertende Darstellungen Normierung. Der Test d2 wurde von November 1999 bis Mai 2000 in vier Bundesländern an Schulen, in Betrieben, Universitätsinstituten und anderen öffentlichen Einrichtungen neu normiert. Die Gesamtstichprobe umfasst 3176 gültige Fälle. Es liegen Normen für Altersgruppen von 9–10 Jahren bis 40–60 Jahren vor, wobei die Altersgruppen der Kinder und Jugendlichen immer zwei Jahre umfassen. Die Altersgruppen bestehen aus 293 bis 731 gültigen Fällen. 3.1 · Leistungstests Vergrößerung für Senioren Bewährtes Verfahren GZ-F oder KL? Schwankungsbreite problematisch Große Informationsausbeute Einfache und schnelle Durchführung Aktuelle Normen 195 3 3 Würfel vergleichen Kindertest Weitere Unterschiede Andere Zeichen Computerversion nicht äquivalent Konzentrationstests mit Suchaufgaben stellen die größte Untergruppe der Konzentrationstests dar. Nach dem Prinzip, kritische Reize unter ähnlichen Reizen zu suchen, wurden weitere Tests konstruiert. Sie unterscheiden sich vom Test d2 vor allem darin, welche Art von Zeichen vorgegeben werden: Figuren unterschiedlicher Art (AKT, DLKE, DL-KG, FAKT, FAIR, KT 3-4) und bestimmte Buchstaben, die mit Strichen versehen sind (neben dem Test d2 auch der BKT; s. Brähler et al., 2002). Unterschiede können auch hinsichtlich der Zielgruppe (z. B. ältere Probanden), dem Markierungsprinzip, den berechneten Kennwerten und der Testdauer bestehen. Als Besonderheit ist die computerbasierte Testdurchführung und Auswertung zu erwähnen. Die Unterschiedlichkeit der Test soll anhand von drei Beispielen erläutert werden. Der Konzentrationstest für 3. und 4. Klassen (Revision) (KT 3-4 R) von Bretz, Nell und Sniehotta (2004) wurde, wie in der Testbezeichnung schon erkennbar ist, für Kinder entwickelt und zudem nur für einen engen Altersbereich. Die Items beinhalten Würfel, die zeichnerisch so dargestellt sind, dass man immer drei Flächen mit jeweils 1 bis 6 Punkten sehen kann. Jedes Item ist mit den vier Musterwürfeln zu vergleichen. Zunächst muss unter den Würfel als Zeichen dafür, dass dieser nun zur Bearbeitung ansteht, ein kleiner Punkt gemacht werden. Damit soll sichergestellt werden, dass alle Items nacheinander bearbeitet werden. Wenn der Würfel mit einem der vier Muster identisch ist, wird er durchgestrichen. Die reine Bearbeitungszeit beträgt 20 min. Der Testleiter fordert die Probanden alle 5 min auf, einen Strich als Zeitmarke unter den gerade bearbeiteten Würfel zu setzten. Die Musterwürfel ändern sich auf jeder Testseite, um den Einfluss der Merkfähigkeit auf die Testleistung zu minimieren. Das Frankfurter Aufmerksamkeits-Inventar FAIR von Moosbrugger und Oehlschlägel (1996) verwendet als Testitems vier Zeichen (Itemarten) in je zwei Versionen (. Abb. 3.3). Andere Konzentrationstests mit Suchaufgaben unterschieden sich nicht in der Reliabilität, den Streuungen der Testwerte und der Validität (drei Untertests der Testbatterie zur Aufmerksamkeitsprüfung TAP). Die Autoren raten, bei Sehschwierigkeiten die vergrößerte Version zu verwenden, weil damit ein Mangel ausgeglichen wird, der nichts mit der Konzentrationsfähigkeit zu tun hat und vermutlich zu einer Minderung der Testleistungen führen würde. Vom Test d2 existiert eine Computerversion (Brickenkamp et al., 1996), die sich bereits nach Augenschein vom Original unterscheidet. Auf dem Bildschirm ist immer nur eine Zeile zu sehen, die zudem nur aus 9 Zeichen besteht, die weiterhin einen relativ großen Abstand voneinander aufweisen. Die Buchstaben d und p sind mit Punkten statt mit Strichen angereichert. Unter jedem Zeichen steht eine Ziffer, und der Proband benutzt Zifferntasten von 1 bis 9, um anzugeben, bei welchen Zeichen es sich um ein Zielobjekt handelt. Dass bei diesem Antwortmodus längere Bearbeitungszeiten resultieren, darf nicht überraschen. Die Fehlerrate fällt im Vergleich zur Originalversion deutlich höher aus (F% = 3.3 versus 1.9). Gravierend für mögliche Anwendungen ist, dass die Leistungen, die mit der Computerversion erzielt werden, relativ niedrig mit den Leistungen in der Originalversion korrelieren. Für GZ werden Korrelationen von .63 und .62 aus zwei Stichproben berichtet und für F% .42 und .31. Würden beide Versionen das gleiche Merkmal messen, sollten sie in Höhe der kurzfristigen Retestreliabilität miteinander korrelieren. Diese beträgt für GZ .92 und für F% .61 (Stabilität nach 5 h, N = 172). Damit muss die Validität der Computerversion als fraglich gelten; zumindest können die Befunde zur Papier-und-Bleistift Version nicht als äquivalent angesehen werden. Kapitel 3 · Diagnostische Verfahren Bei Sehschwierigkeiten DIN A3 Version 196 Punkte Anzahl 2 3 Kreis Quadrat Gestalt Rechentests setzen stillschweigend voraus, dass die Teilnehmer einen etwa gleich hohen Automatisierungsgrad hinsichtlich der erforderlichen Rechenfertigkeiten erreicht haben und sich nur bezüglich ihrer Konzentrationsfähigkeit unterscheiden, eine Annahme, die angesichts sehr unterschiedlicher schulischer Biografien als problematisch an- Konzentrationstests mit Rechenaufgaben Zwei der vier Itemarten fungieren als Zielitems (in Testform A »Kreis mit 3 Punkten« sowie »Quadrat mit 2 Punkten«; in Testform B sind Ziel- und Nicht-Zielitems vertauscht), die beiden anderen Itemarten bilden die Nicht-Zielitems. Der Test besteht aus zwei Testbogen mit je 16 Zeilen à 20 Testitems, deren Reihenfolge hinsichtlich der Itemart zufallsverteilt ist. Auch beim FAIR lautet die Anweisung, möglichst ohne Fehler, aber so schnell wie möglich zu arbeiten. Im Sinne des »vollständigen Markierungsprinzips« geben die Testpersonen ihre Urteile Zeile für Zeile von links nach rechts in Gestalt einer durchgehenden Linie ab: Bei den Nicht-Zielitems ist die Linie unter den Zeichen nur entlang zu führen, bei den Zielitems hingegen ist die Linie zackenförmig hochzuziehen. Die reine Testdauer beträgt 6 min. Eine Besonderheit stellt das FAIR-Testauswerteprogramm (Moosbrugger & Goldhammer, 2005) dar. Es erlaubt nach Eingabe der protokollierten Gesamt- und Fehleranzahlen die automatische Erstellung eines Auswertungsbogens inklusive der Prozentrang- und Standard-Nine-Normwerte. Die Items des FAIR finden auch in dem computerbasierten adaptiven Frankfurter Adaptiver Konzentrationsleistungs-Test FAKT-II (Moosbrugger & Goldhammer, 2005) Verwendung. Der FAKT-II dient der adaptiven Ermittlung der individuellen Konzentrationsfähigkeit; er erfasst dazu die Aspekte Konzentrations-Leistung (KL), Konzentrations-Genauigkeit (KG) und Konzentrations-Homogenität (KH). Unter Benutzung eines computerbasierten Algorithmus wird das Schwierigkeitsniveau der Items »maßgeschneidert« an das individuelle Konzentrationsvermögen des Einzelnen dadurch angepasst, dass die Vorgabe der Items umso rascher erfolgt, je höher die Konzentrationsleistung liegt. Intendiert wird damit eine in etwa gleiche Beanspruchung auf den interindividuell unterschiedlichen Leistungsstufen. Zur Beurteilung des Leistungsverlaufes kann die Testlänge in 6-Minuten-Schritten auf 30 min ausgedehnt werden. Zur Beurteilung des individuellen Leistungsverlaufs werden bei Testdauern von 12, 18, 24 oder 30 min Konzentrationsergebnisse für jeden 6-Minuten-Abschnitt berechnet. Die drei kurz vorgestellten Tests zeichnen sich wie der Test d2 durch eine hohe Reliabilität der meisten Kennwerte aus. Als Validitätsbelege werden unter anderem überwiegend moderate Korrelationen mit anderen Konzentrationstests und niedrige Korrelationen mit Intelligenztests vorgelegt. Die hoch interessante Frage, welcher Test die höchste Validität aufweist, lässt sich damit nicht beantworten. . Abb. 3.3. Die Zellen zeigen die vier Itemarten des FAIR, welche durch die Variation der zwei Reizdimensionen Gestalt und Punkte-Anzahl erzeugt werden. Jede Itemart kommt in zwei Varianten vor, welche sich hinsichtlich der dritten, vom Probanden auszublendenden Dimension Anordnung der Punkte unterscheiden. (Moosbrugger & Oelschlägel, 1996) 3.1 · Leistungstests Annahme: Rechenfertigkeit voll vorhanden Leistungsverlauf bestimmen Adaptiver Test Testauswerteprogramm Vollständiges Markierungsprinzip 197 3 3 Umfragen zum Praxiseinsatz Viele Intelligenztests Enge Beziehung Intelligenz – Erfolg im Leben Sehr erfolgreiche Verfahren Enge Beziehung zu Rechenfertigkeit Intelligenztests 3.1.2.1 Systematik der Intelligenztests Im Testkompendium Brickenkamp (Brähler, Holling, Leutner & Petermann, 2002) sind insgesamt 57 Intelligenztests aufgeführt. Ein Ordnungsmerkmal ist die Beliebtheit der einzelnen Tests in der Praxis. Die dort tätigen Psychologen setzten bestimmte Verfahren bevorzugt ein, wie Umfragen unter praktisch tätigen Psychologen zeigen (. Tab. 3.4). Die Nennungshäufigkeiten sind nicht gleichzusetzen mit der Anzahl der Anwendungen. Sie besagen, wie viele Psychologen einen Test überhaupt verwenden. Die Wechsler Tests (HAWIE und HAWIK) sind nur in Einzelsitzungen durchzuführen, der IST bzw. Intelligenztests sind vermutlich die erfolgreichsten Verfahren in der psychologischen Diagnostik. Sie sind erfolgreich, weil sie in wichtigen Lebensbereichen erstaunlich gute Vorhersagen erlauben und zudem relativ zeitstabile Kennwerte liefern. Die Korrelationen mit Schul-, Ausbildungs- und Berufserfolg liegen im Bereich von .50 (Neisser et al., 1996; Schmidt & Hunter, 1998). In den Jahren 1921 und 1922 wurden in der monumentalen Terman-Studie rund 1.400 Kinder nach ihren Ergebnissen in dem Stanford-BinetStaffeltest ausgewählt. Ihr IQ musste mindestens 135 betragen. Damit gehörten sie zu dem oberen Prozent in der Intelligenzverteilung. Bei der genauen Verfolgung Ihres Lebensweges über viele Jahre hinweg zeigte sich, dass sie in fast jeder Hinsicht erfolgreicher und zufriedener waren als die Durchschnittsbevölkerung (obwohl eine Kontrollgruppe von Personen mit durchschnittlichem IQ nicht zur Verfügung stand). Beispielsweise gehörten im Jahre 1960 von den männlichen Teilnehmern 47% in die obere von fünf Berufsgruppen; dazu zählten Rechtsanwälte und Richter (10% der 738 hochbegabten Männer mit Beschäftigung), Ingenieure (8%), Universitätsmitglieder (7%), Naturwissenschaftler (6%) und Ärzte (5%) (Oden 1968). Erstaunlich ist nicht nur, dass die Intelligenz ein derart starker Prädiktor für Erfolg ist, sondern auch, dass es möglich ist, mit einem Intelligenztest, dessen Bearbeitung weniger als 2 h erfordert, so weit in die Zukunft eines Menschen zu schauen. 3.1.2 aktuellen Normen und die größere Informationsausbeute (insbesondere Angaben zum Leistungsverlauf) zu nennen. Im Vergleich zu den meisten anderen Konzentrationstests ist die Testaufgabe relativ komplex. So verlangt der Revisionstest »nur«, zu überprüfen, ob zwei einstellige Zahlen richtig addiert worden sind. Die oben beschriebene Untersuchung von Schmidt-Atzert et al. (im Druck) ergab, dass der KLT-R 6-13 nicht die gleiche Konzentrationsfähigkeit erfasst wie die meisten anderen Konzentrationstests. Ferner zeigte sich eine deutliche Abhängigkeit von der Rechenfertigkeit und der Merkfähigkeit. Die Angaben zur Validität des KLT-R (7 oben) weisen ebenfalls auf eine relativ enge Beziehung zur Rechenfertigkeit hin. Die Korrelationen mit einem Rechentest (divergente Validität) liegen in der gleichen Größenordnung wie die mit dem konstruktnahen Test d2. Dabei ist zu beachten, dass die Korrelationen mit dem Rechentest auf altershomogenen Probandengruppen basieren (was sich korrelationsmindernd auswirkt), während die Korrelationen mit dem Test d2 für einen breiteren Altersbereich ermittelt wurden. Die Normen stützen sich nur auf bayrische Schulen, was angesichts der Abhängigkeit der KLT-Leistung von der Rechenfertigkeit und Unterschieden im Schulsystem zwischen einzelnen Bundesländern problematisch ist. Auf die Testrezension von Nell (2003), aus der einige der genannten Kritikpunkte stammen, sei gesondert verwiesen. Kapitel 3 · Diagnostische Verfahren Komplexe Testaufgabe 200 HAWIK/HAWIK-R HAWIE/HAWIE-R SPM/RAVEN IST/IST-70 CFT (1, 2, 3, 20) LPS/LPS-R 1/1 2/2 3/3 4/4 5/5 6/7 9% 14% 16% 18% 28% 28% 5% 7% 9% 12% 18% 22% Nennungshäufigkeita G+Komponenten, auch für Kinder Komponente, kulturfair, auch als Powertest, z. T. auch für Kinder G+Intelligenzstruktur G, kulturfair, Powertest, auch für Kinder Einzeltest, g+Komponenten für Kinder, Einzeltest, g+Komponenten Anmerkungen zum Test Messintention. Nicht allen Tests liegt explizit ein bestimmtes Intelligenzmodell zugrunde. Dieser Nachteil lässt sich jedoch durch die Forschung zur Konstruktvalidität beheben. Für viele Fragestellungen ist es nützlich, ein Maß für die allgemeine Intelligenz zu erheben. Die meisten Tests sind dazu auch geeignet. Allerdings fassen die jeweiligen Testautoren das Konzept der allgemeinen Intelligenz nicht vollkommen gleich auf. Grundsätzlich sind hier zwei Ansätze zu erkennen. Die einen versuchen, den »Kernbereich« der Intelligenz, das schlussfolgernde Denken (Reasoning) zu erfassen. Diese Konzeption liegt beispielsweise den Standard Progressive Matrices SPM zugrunde. Andere bemühen sich um eine »breite« Messung mit Aufgabengruppen zu verschiedenen Bereichen (Komponenten) der Intelligenz mit anschließender Durchschnittsbildung. Die »Breite« kann dabei unterschiedlich gefüllt werden, d. h. die Auswahl der Intelligenzkomponenten variiert von Test zu Test. IST-70 wird dagegen meist in Gruppensitzungen durchgeführt. Alleine deshalb unterschätzt die Befragung seine Anwendungshäufigkeit im Vergleich zu der von HAWIE und HAWIK. In einer Befragung von Psychologen in ambulanten und stationären kinder- und jugendpsychiatrischen Einrichtungen (Bölte, Adam-Schwebe, Englert, Schmeck & Poustka, 2000) zeigte sich, dass Intelligenztests die Liste der dort eingesetzten Testverfahren anführen. Insgesamt 74% der Befragten gaben an, Intelligenztests »immer« einzusetzen, die restlichen 26% antworteten »oft«. Im Einzelnen tauchen in den Befragungsergebnissen alle in . Tab. 3.1 aufgeführten Tests auf. Den Antworten zufolge gelangt am häufigsten in diesem Praxisbereich der HAWIK-R zur Anwendung; in 97% der Einrichtungen kommt der Test zum Einsatz, gefolgt von der Kaufman Assessment Battery for Children (K-ABC) mit immerhin 85% aller Nennungen. Dieser Test taucht in den Umfragen von Steck (1997) und Schorr (1995) zumindest an prominenter Stelle nicht auf. Intelligenztests unterscheiden sich in vielen weiteren Aspekten voneinander. Zusammenfassend sind die Kriterien in . Tab. 3.5 aufgeführt. Sie werden im Folgenden kurz erläutert. Anmerkung. Die sechs in Umfragen von Steck (1997) und Schorr (1995) am häufigsten genannten Intelligenztests. Befragt wurden 250 bzw. 613 praktisch tätige Psychologen. G = allgemeine Intelligenz. a nach Steck/Schorr. Test (Kurzbezeichnung) Ranga . Tabelle 3.4. Intelligenztests in der Praxis 3.1 · Leistungstests 3 Unterschiedliche »Breite« Allgemeine Intelligenz 201 3 Einzel- oder Gruppentest Bildungseinflüsse Intelligenzkomponenten tung zu bevorzugen. Die dafür geeigneten Tests lassen sich selbstverständlich auch an einzelne Probanden vergeben. Die Wechsler-Tests (7 unten) wurden mit Absicht für Einzeluntersuchungen konzipiert. Die Durchführung verläuft als weitgehend standardisierter Dialog; der Testleiter fragt etwas und der Proband gibt eine Antwort darauf. Dieses Vorgehen kann aus motivationalen Gründen nötig sein, insbesondere bei Kindern und bei Erwachsenen mit einer psychischen Störung oder Behinderung. Es hat den weiteren Vorteil, dass der Testleiter Einblick in das Arbeitsverhalten bekommt und das Testergebnis vor dem Hintergrund der beobachteten Anstrengung und der eingesetzten Lösungsstrategien interpretieren kann. Ein IQ von 80, der mit höchster An- Durchführungsbedingungen. Aus ökonomischen Gründen ist oft eine Gruppentes- Die »breiten« Tests liefern zusätzlich Informationen über mehrere Intelligenzkomponenten (beispielsweise sprachliches, rechnerisches und räumliches Denken). Sie firmieren als Strukturtests, wenn viele Intelligenzkomponenten erfasst und Unterschiede zwischen den Untertests interpretiert werden können; gewöhnlich findet in diesen Fällen eine Darstellung der Untertestleistungen in Form eines Profils statt. Einige Tests sollen nur eine bestimmte Komponente der Intelligenz messen. Die in . Tabelle 3.4 genannten CFT-Tests sollen die fluide Intelligenz erfassen, also das von Bildungseinflüssen relativ freie schlussfolgernde Denken. Andere Tests sind so konzipiert, dass sie etwa nur den Wortschatz (als Indikator für erworbenes Wissen oder kristallisierte Intelligenz) prüfen. Der CFT 3 enthält einen solchen Zusatztest. Im CFT wird ein weiterer wichtiger Aspekt der Intelligenzmessung realisiert: Die Messung frei oder absichtlich nicht frei von Bildungseinflüssen. Manchmal macht es keinen Sinn, einen Test einzusetzen, dessen Ergebnis von der (Schul-) Bildung oder der Beherrschung der deutschen Sprache abhängt. Wenn der Proband die deutsche Sprache nicht hinreichend beherrscht oder aus einer anderen Kultur kommt, wäre es unfair, seine Intelligenz mit einem Test zu messen, in dem z. B. nach dem Namen des deutschen Bundespräsidenten oder nach der Bedeutung des Wortes »Katakombe« gefragt wird. In vielen Fällen ist es diagnostisch aufschlussreich, gesonderte Informationen über die fluide und die kristallisierte Intelligenz zu haben. Zielgruppe: – bestimmter Altersbereich – bestimmter Intelligenzbereich – Gesamtbevölkerung oder spezielle Personengruppe Durchführungsbedingungen: – Einzel- oder Gruppentestung – Speed- oder Powertest – Papier-und-Bleistift oder Computertest – Dauer der Testdurchführung Messintention: – allgemeine Intelligenz (g) oder eine bestimmte Intelligenzkomponente – ein Globalmaß oder (auch) Intelligenzstruktur bzw. mehrere Komponenten – Intelligenz sprachfrei/kulturfair oder bildungsabhängig messen Testmerkmal . Tabelle 3.5. Wichtige Merkmale zur Einordnung von Intelligenztests Kapitel 3 · Diagnostische Verfahren Strukturtests 202 6 Dem stehen kaum Nachteile gegenüber. Unter bestimmten Umständen kann die computerunterstützte Diagnostik zu Mehrkosten gegenüber der Papier-und-Bleistift Version führen. Dies ist der Fall, wenn Tests so selten eingesetzt werden, dass sich die Anschaffung eines Computers und der Testsoftware nicht lohnt. Früher wurde die Frage, ob die Computerversion der Papier-und-Bleistift Version äquivalent ist, eher kritisch diskutiert. Ältere Untersuchung zur Äquivalenz (vgl. Mead & Drasgow, 1993) hatten noch deutliche Unterschiede zwischen beiden Testversionen aufgedeckt, wenn es sich um tempobetonte Leistungstests handelte. Inzwischen sind die Benutzeroberfläche und die Bildschirme deutlich verbessert wor- Im Zuge der fortschreitenden technischen Möglichkeiten sind heute viele ursprünglich als Papier-und-Bleistift Verfahren entwickelte Tests auch als Computerversion erhältlich. Mittlerweile werden zahlreiche Tests von Anfang an als computerbasierte Verfahren entwickelt. Die Gründe dafür sind unterschiedlich. Beispielsweise sollen Reaktionszeiten gemessen, sich verändernde Reize dargeboten, komplexes Problemlöseverhalten durch die Darbietung computersimulierter Szenarien erfasst (s. dazu Kersting, 1999a), adaptives Testen ermöglicht oder die Akzeptanz bei den Anwendern erhöht werden. Viele Vorteile computergestützter Diagnostik liegen auf der Hand: 4 Durchführung hoch standardisiert 4 Entlastung für den Testleiter (kann während der Testdurchführung andere Aufgaben erledigen) 4 Auswertung völlig standardisiert und nicht fehleranfällig 4 Auswertung sehr ökonomisch (keine Arbeitszeit erforderlich) 4 Ergebnisse sofort verfügbar 4 Bei Bedarf exakte Erfassung von Einzelreaktionen inklusive der zugehörigen Zeit 4 Bei Bedarf Darbietung von sich bewegenden Reizen oder von Videosequenzen 4 Adaptives Testen möglich 4 Verwendung von komplexen Problemlöseszenarien möglich Computerbasierte Tests Exkurs strengung erkämpft wurde, ist anders zu werten als der gleiche IQ, der mit geringer Motivation oder einem unkonzentrierten Arbeitsstil »entstanden« ist. Bei den meisten Intelligenztests ist die Bearbeitungszeit knapp bemessen; es kommt also bei der Bearbeitung auch auf Schnelligkeit an. Für manche Probanden stellt Zeitdruck eine ungerechtfertigte Benachteiligung dar. Beispielsweise können manche Testteilnehmer aufgrund von Seh- oder Sprachschwierigkeiten nur verlangsamt lesen; andere können motorisch beeinträchtigt sein, was beim Ankreuzen von Items oder bei der Betätigung von Tasten bei einer computerbasierten Testung zusätzliche Zeit beansprucht. Auch eine Verlangsamung von Denkprozessen durch bestimmte Erkrankungen (insbesondere Depression) oder bestimmte Medikamente ist möglich. Schließlich kann in manchen Fällen Zeitdruck in Kombination mit einer starken Testangst zu einer Leistungsbeeinträchtigung führen. In diesen Fällen ist der Einsatz von Tests ohne (starke) Zeitbegrenzung (Powertests) sinnvoll. Dabei steigt die Schwierigkeit von Item zu Item derart, dass die letzten Aufgaben selbst von sehr fähigen Probanden kaum noch zu lösen sind. 3.1 · Leistungstests 3 Frage der Äquivalenz Vorteile Speed- und Powertests 203 3 Unterschiede in der Normierung Gründliche Messung oder Screening . Abb. 3.4. Touch Panel für das Hogrefe Testsystem (Quelle: http://www.apparatezentrum.de/) Verfügung stehen. Ein Blick in die Normtabellen der Tests offenbart, dass sich die Tests diesbezüglich unterscheiden. Die Vergleichsgruppe muss hinreichend groß und oft auch repräsentativ für die Gesamtbevölkerung sein. Bei einigen Tests liegen für bestimmte Altersgruppen, meist sind es die unteren und oberen Ränder der Altersverteilung, nur sehr kleine Eichstichproben vor. Besonders im Schulbereich sind zusätzliche Normen für einzelne Schultypen hilfreich, sodass man beispielsweise feststellen kann, wie begabt ein Proband im Vergleich zu altersgleichen Gymnasiasten ist. Viele Zielgruppe. Für viele Fragestellungen ist es unerlässlich, dass geeignete Normen zur Die Durchführungszeit stellt in der Praxis ein wichtiges Kriterium für die Testauswahl dar. Gerade wenn für eine umfangreiche diagnostische Untersuchung verschiedene Verfahren notwendig sind, kann das Zeitargument in den Vordergrund treten. In der Regel müssen eine höhere Reliabilität und eine größere »Breite« des Tests bei der Messung der allgemeinen Intelligenz mit mehr Items und Subtests und damit mit mehr Zeit »bezahlt« werden. Deshalb ist zu bedenken, welchen Zwecken der Einsatz des Intelligenztests dienen soll. Wird nur ein Screeningverfahren gesucht oder kommt dem Testergebnis eine große Bedeutung zu? Insbesondere adaptive Testverfahren können helfen, die Durchführungszeit zu verkürzen. den, und die Probanden sind meist im Umgang mit dem Computer geübter. Klinck (2002) hat in einer großen und sorgfältig geplanten Studie im psychologischen Dienst der Arbeitsämter zeigen können, dass die beiden verwendeten Versionen zu den gleichen Ergebnissen führen, die computerbasierte Testung zu keinen Akzeptanzproblemen führt und eine Benachteiligung bestimmter Personengruppen nicht zu befürchten ist. Als Eingabemedium findet heute nicht nur die Computertastatur Verwendung. Für viele Tests können auch spezielle Probandentastaturen mit einigen wenigen Antworttasten, Lichtgriffel oder auch ein Touchscreen (. Abb. 3.4) eingesetzt werden. Kapitel 3 · Diagnostische Verfahren Eingabemedien 204 Die Wechsler Intelligenztests HAWIE und HAWIK bzw. ihre revidierten Nachfolger nehmen in den Befragungen von Steck (1997) und Schorr (1995) die ersten Plätze bei den Leistungstests ein (. Tab. 3.4). Die ersten vier Buchstaben des Testnamens stehen für Hamburg (den Ort, an dem die erste Eindeutschung erfolgte) Wechsler (den Autor) Intelligenztest; der letzte Buchstabe bezeichnet die Erwachsenen- bzw. die Kinderversion. Zusätze wie -R oder -III kennzeichnen die Version des Tests. Die Wechsler-Tests liefern ein Maß für die allgemeine Intelligenz sowie weitere Angaben zu einzelnen Fähigkeiten oder Bündeln von Fähigkeiten. Sie werden mit der Testperson in einer Einzelsitzung in Form eines weitgehend standardisierten Dialogs durchgeführt. Die Wechsler-Tests stellen eine ganze Familie von Tests dar, die für Erwachsene, Kinder und Vorschulkinder entwickelt und inzwischen mehrfach überarbeitet worden sind (. Abb. 3.5). Die heutigen Tests gehen auf die Wechsler-Bellevue Intelligence Scales von 1939 zurück. David Wechsler (. Abb. 3.6; für eine Kurzbiografie s. http://www.indiana.edu/ ~intell/wechsler.shtml) hatte den Test am Bellevue Hospital in New York erstellt. Er wollte keinen völlig neuen Test entwickeln, sondern suchte nur ganz pragmatisch in den vorhandenen Tests nach brauchbaren Aufgaben. Als Vorbilder dienten insbesondere der Test von Binet und die Army-Alpha und -Beta Tests. Aus diesen beiden ArmeeTests hat er Dutzende von Items »übernommen«. Viele dieser Items finden sich heute noch in den aktuellen Versionen der Wechsler Tests (Gregory, 1992, S. 177). Der Erwachsenentest erfuhr mehrfache Revisionen. Später kamen Tests für Schulkinder und dann auch für Vorschulkinder hinzu, die ebenfalls Revisionen unterworfen wurden. Das Geheimnis des großen Erfolgs der Wechsler-Tests lautet Konstanz. Der Erfolg ist nicht nur daran abzulesen, dass die Tests in viele Sprachen übersetzt und adaptiert worden sind, so auch ins Deutsche (. Abb. 3.5), sondern auch am Preis. Heute kostet beispielsweise der WISC-IV ohne Koffer und Software zur Auswertung bei Harcourt 825.– Dollar. Zu den Kinder- und Erwachsenentests WAIS bzw. WISC lassen sich heute jeweils über 5.000 Publikationen nachweisen (Literaturrecherche mit PsycINFO, Stand: Mai 2005). Die Wechsler-Tests 3.1.2.2 Ausgewählte Intelligenztests Bei der Auswahl der nachfolgend ausführlicher dargestellten Tests spielte die Bedeutsamkeit in der Praxis (. Tab. 3.1) eine Rolle, aber auch die Unterschiedlichkeit der Tests. Mit der Beschränkung auf nur drei Tests ist es unmöglich, etwa das ganze Spektrum der Intelligentests abzudecken. Das Ziel besteht darin, die Verschiedenheit deutlich zu machen. Im Anschluss an die Beschreibung eines Tests kommen deshalb auch Alternativen zu dem vorgestellten Verfahren kurz zur Sprache. Tests sind aufgrund der Zusammensetzung der Normierungsstichprobe für den unteren oder oberen Intelligenzbereich nicht oder wenig geeignet. Beispielsweise empfehlen die Autoren des HAWIK III im Manual, den Test auch zur Feststellung von Hochbegabung einzusetzen – aber nur im Sinne eines Screenings, weil der Test im oberen Bereich nicht gut differenziert. Für Forschungszwecke oder in der Personalauswahl sind Normen nicht unbedingt erforderlich. Hier spielt die Akzeptanz oft eine erhebliche Rolle. Eine für die Zielgruppe angemessene Aufgabenschwierigkeit sowie Iteminhalte, die möglichst aus dem Lebensbereich der Probanden stammen, sind dafür entscheidend. 3.1 · Leistungstests 3 Erfolg durch Konstanz Pragmatische Testkonstruktion Familie von Tests Standardisierter Dialog Sehr verbreitet Akzeptanz beachten Differenzierung im unteren oder oberen Bereich 205 Durchführung. Die einzelnen Subtests (. Tab. 3.6) werden in fester Reihenfolge in Form eines standardisierten Dialogs vorgegeben. Subtests aus dem Handlungs- und Verbalteil wechseln einander dabei ab. In Abhängigkeit vom Alter des Kindes wird teilweise gleich mit einer etwas schwierigeren Aufgabe innerhalb eines Untertests begonnen; die Punkte für die davor liegenden Items werden dem Probanden gutgeschrieben, wenn er die schwierigere Aufgabe gelöst hat. Der Testleiter muss bei einigen Untertests (z. B. Allgemeines Wissen) die Antworten gleich bewerten, weil nach einer bestimmten Anzahl von Handlungsteil und den Verbalteil verteilen. In . Tab. 3.6 sind die Subtests mit kurzen Erläuterungen aufgeführt. HAWIK-III: Hamburg-Wechsler-Intelligenztest für Kinder – 3. Aufl. Testaufbau und Gliederung. Der HAWIK-III enthält 13 Subtests, die sich auf den prinzipiell noch von dem Wissen profitieren, das sie einmal im Studium erworben haben. Bei den Revisionen achteten die Konstrukteure auf Konstanz, soweit dies möglich war. Einzelne Items wurden ausgetauscht, wenn sie nicht mehr zeitgemäß waren (. Abb. 3.7). Der Aufbau und die Auswertung der Wechsler Tests sollen am Beispiel des HAWIK-III (Tewes, Rossmann, & Schallberger, 1999) erläutert werden. 3.1 · Leistungstests 3 . Abb. 3.7. Item aus dem HAWIK-R (Subtest Bilderergänzen). Auf dem Bild fehlt das Kabel am Mikrofon. Seit sich schnurlose Mikrofone durchgesetzt haben, ist dieses Item nicht mehr zeitgemäß, und es fehlt in der Nachfolgeversion HAWIK-III Antworten gleich bewerten Einstiegsaufgaben teils altersabhängig Nicht mehr zeitgemäße Items ersetzt . Abb. 3.6. David Wechsler. Courtesy of the National Library of Medicine 207 3 Teils Bearbeitungszeit messen Linie vom Zentrum zum Ausgang eines Labyrinths ziehen Labyrinthtest b LA falschen oder fehlenden Antworten der Untertests vorzeitig beendet wird. Beim Wortschatz-Test sehen die Bewertungsrichtlinien für die gültigen Antworten je nach ihrer Qualität einen oder zwei Punkte vor. Bei anderen Untertests misst der Testleiter mit einer Stoppuhr die Zeit, weil je nach Lösungszeit unterschiedlich viele Punkte gegeben werden (z. B. beim Mosaik-Test) oder weil eine feste Bearbeitungszeit vorgeschrieben ist (beim Zahlen-Symbol Test). Der Test stellt also erhebliche Anforderungen an den Testleiter. Eine gründliche Einarbeitung und Übung sind vor dem ersten »richtigen« Einsatz erforderlich. Die Durchführung der zehn Standardtests dauert etwa 50 bis 70 min, für die optionalen Zusatztests sind etwa 10 bis 15 min zu veranschlagen. Anmerkung. a Items mit Antwortbeispielen und deren Bewertung (0 oder 1 Punkt möglich, manchmal 2). b Subtest kann wahlweise durchgeführt werden. Zerschnittene Figuren („Puzzle“) zusammen fügen Zwei Gruppen von Symbolen vorgegeben, ankreuzen, ob ein Symbol in beiden Gruppen enthalten ist Symbolsuche b zweifarbiges Muster mit 2, 4 bzw. 8 Klötzchen nachlegen (Flächen rot, weiß und rot/weiß) Bilder sind in die richtige Reihenfolge zu bringen Figurenlegen Mosaik-Test MO SS Bilderordnen BO Umwandlungstabelle mit Zahlen und Symbolen (z. B. +) Symbole in Felder unter Zahlen eintragen FL Zahlen-Symbol-Test Bilder ergänzen ZS BE Was fehlt auf dem Bild? Fehlendes Detail benennen oder zeigen 3-4-1-7 (nachsprechen) Zahlen nachsprechenb ZN Handlungsteil Warum haben Autos Sicherheitsgurte? Das ist eine Vorschrift (1 Punkt) Allgemeines Verständnis Was ist ein Brot?Mag ich nicht (0 Punkte) Franz liest 3 Seiten in 5 min. Wie viele Minuten braucht er für 24 Seiten? (max. 75 s Zeit) Wortschatz-Test Rechnerisches Denken RD Was ist das Gemeinsame an Hemd und Schuh? Kleidungsstücke (1 Punkt) AV Gemeinsamkeiten finden GF In welcher Himmelsrichtung geht die Sonne unter?Westen (1 Punkt) Aufgabenbeschreibung bzw. Itembeispiela WT Allgemeines Wissen Subtest AW Verbalteil Abkürz. . Tabelle 3.6. Aufbau des HAWIK-III Kapitel 3 · Diagnostische Verfahren Bei Wortschatz-Test 1 oder 2 Punkte 208 Auswertung. Nachdem jede Aufgabe bewertet worden ist, werden die Rohpunkte addiert. Auf dem Protokollbogen stehen dann für jeden Subtest Punkte. Diese können anhand von Tabellen in Wertpunkte umgewandelt werden. Ein Auswertungsprogramm steht zur Verfügung, das alle Transformationen einschließlich der IQ-Bestimmung vornimmt. Man muss lediglich für jeden Subtest die Punktzahl eingeben. Die Ergebnisse lassen sich auch grafisch als Profil darstellen (. Abb. 3.8). Die grau unterlegte Fläche gibt den Bereich durchschnittlicher Leistungen an (Mittelwert +/– eine SD). Auf der linken Seite sieht man die Ergebnisse in den einzelnen Untertests (zur Bedeutung der Abkürzungen . Tab. 3.3) in Wertpunkten (M = 10, SD = 3). Rechts daneben finden sich die Angaben zum Verbal-IQ (VIQ), Handlungs-IQ (HIQ) und Gesamt-IQ (IQ). Die Höhe der IQ-Werte kann rechts am Rand abgelesen werden. Rechts sind bestimmte Untertestkombinationen aufgeführt. Das Sprachliche Verständnis (SV) wird über die Untertests AW, GF, WT und AV bestimmt. Der Wert für die Wahrnehmungsorganisation (WO) errechnet sich aus den Untertests BE, BO, MT und FL. Die Summen aus den Untertests RD und ZN bzw. ZS und SS liefern Punkwerte für Unablenkbarkeit (UA) bzw. Arbeitsgeschwindigkeit (AG). Bei der Interpretation liefern die Verhaltensbeobachtungen ergänzende Informationen. Im Manual finden sich differenzierte Hinweise auf Faktoren, die bei jedem Untertest die Leistung beeinflussen können. Beispielsweise kommen für schlechte Ergebnisse im Rechnerischen Denken mangelnde Rechenfähigkeit, Konzentrationsstörungen und ein schlechtes Gedächtnis in Frage. Da die Einflussfaktoren mit den Untertests variieren, bietet sich die Kombination von mehreren Untertests zu einem Kennwert an (7 oben). Insgesamt ist die Informationsausschöpfung im HAWIK-III groß. Der Test liefert neben der Information über die allgemeine Intelligenz des Probanden auch Angaben zu den Teilbereichen Handlungs- und Verbalintelligenz und zu den Leistungen in den einzelnen Untertests. Letztere können, einzelfallstatistisch abgesi- 3.1 · Leistungstests 3 . Abb. 3.8. Teil der Ergebnisdarstellung bei Verwendung des Auswertungsprogramms zum HAWIK-III (Hogrefe). Interpretationshinweise für niedrige Subtestergebnisse Verhaltensbeobachtung wichtig Kombination von Subtests Rohpunkte in Wertpunkte transformieren 209 3 Große Informationsausbeute Nützliches Verfahren Normen für 6;0 bis 16;11 Jahre Im Manual wenige Angaben zur Validität Subtests weniger reliabel Gesamtwert hoch reliabel Bewertung. Einen Test, der in jeder Hinsicht perfekt ist, wird es wohl nie geben. Der HAWIK-III stellt trotz einiger kleiner Unzulänglichkeiten, auf die oben bereits hingewiesen wurde, ein brauchbares und nützliches Intelligenztestverfahren für Kinder und Jugendliche dar. Die Informationsausbeute ist groß. Der Test liefert neben dem IQ viele Informationen über Stärken und Schwächen des Probanden. Ein großer Vorteil des Verfahrens liegt darin, dass es national wie international intensiv beforscht wird und damit laufend neue Erkenntnisse anfallen, die auch für die Interpretation der Tester- men. Der Test wurde an insgesamt 1570 deutschen, österreichischen und schweizerischen Kindern und Jugendlichen im Alter von 6;0 bis 16;11 Jahren normiert. Die Unterteilung in die Altersgruppen ist relativ fein; die Gruppen unterscheiden sich im Alter jeweils um vier Monate. Die Stichprobenumfänge variieren zwischen 35 und 60 Personen. Dass in einigen Altersgruppen der Anteil an Sonderschülern nicht perfekt ausbalanciert ist (Renner & Fricke, 2001) muss als kleine Unzulänglichkeit gewertet werden. Über die Frage, welcher Anteil an Gymnasiasten jeweils angemessen ist, lässt sich diskutieren (Schallberger et al., 2001). Normen. Ein Test für Kinder und Jugendliche verlangt nach fein gestuften Altersnor- Validität. Die Angaben zur Validität im Manual sind nur spärlich. Insbesondere fehlen Angaben zur Korrelation mit anderen Intelligenztests. Es ist nicht zu bezweifeln, dass mit dem HAWIK-III Intelligenz gemessen wird – aber die Frage, wie sich die mit dem HAWIK-III gemessene Intelligenz zu der Intelligenz verhält, die mit Tests ermittelt wird, die auf anderen Intelligenzmodellen basieren, verlangt nach einer Antwort. Die Autoren belegen, dass die Testleistungen in Abhängigkeit von Schultyp in die erwartete Richtung variieren. Sonderschüler weisen beispielsweise deutlich niedrigere IQ-Werte auf als gleichaltrige Grundschüler (M = 75 versus 103). Die Angaben zur faktoriellen Struktur des Tests decken sich nicht völlig mit der Verrechung der Subskalen; der Untertest Unablenkbarkeit ist »kaum zu identifizieren« (Renner & Fricke, 2001, S. 466). Es ist richtig, dass die Wechsler-Tests nicht faktorenanalytisch konstruiert wurden (Schallberger, Tewes & Rossmann, 2001) – wenn jedoch Subtests zu einem Skalenwert verrechnet werden, so sollten die Faktorenladungen dieser Subtests die gemeinsame Verrechnung stützen. Reliabilität. Das Manual weist für den Gesamt-IQ mit .96 (split-half) einen hohen Wert aus. Die durchschnittliche Reliabilität des Verbal-IQs liegt mit .95 im gleichen Bereich, die des Handlungs-IQs mit .91 darunter. Bei den einzelnen Subtests schwanken die Reliabilitäten erheblich. Im Mittel beträgt die Reliabilität zwischen .68 (Figurenlegen) und .88 (Wortschatztest, Mosaiktest). Bemängelt wurde, dass sich im Manual keine Angaben zur Retestreliabilität finden (Renner & Fricke, 2001). rungsrichtlinien komplex sind und der Testleiter sich dem Kind gegenüber von Fall zu Fall nicht immer gleich verhalten kann und auch nicht soll. Zur Auswertungsobjektivität wurde angemerkt, dass die Richtlinien zu den Untertests Wortschatz und Allgemeines Wissen einige Unklarheiten aufweisen (Renner & Fricke, 2001). Objektivität. Die Durchführungsobjektivität wird nicht perfekt sein, da die Durchfüh- chert, Hinweise auf spezifische Störungen liefern. Dem Manual zu Folge können zudem durch Kombination von Subtestergebnissen bis zu 22 Kennwerte berechnet werden, die jedoch zum Teil nicht gut empirisch abgesichert sind. Kapitel 3 · Diagnostische Verfahren Objektivität nicht perfekt 210 Kaufman, Kaufman, Melchers & Preuß, 2001) stellt ein eigenständiges, nicht an die Wechsler-Tests angelehntes Verfahren dar. Die K-ABC umfasst 16 Untertests, von denen jedoch in Abhängigkeit vom Alter des Probanden nur maximal 13 eingesetzt werden. Die wesentlichen Unterschiede zum HAWIK-III werden im Folgenden dargelegt: 4 Beim K-ABC wird strikt zwischen Intelligenz im Sinne einer kognitiven Leistungsfähigkeit (als Potenzial zu verstehen) und erworbenen Fertigkeiten unterschieden. K-ABC. Die K-ABC (Kaufman-Assessment Battery for Children, deutsche Version von AID 2. Das Adaptive Intelligenz Diagnostikum 2 (AID 2) von Kubinger und Wurst (2000) ist konzeptuell eng an die Wechsler-Tests angelehnt. Die Aufgabentypen des HAWIK finden auch im AID 2 Verwendung; die Subtests tragen aber andere Namen. So entspricht Subtest Realitätssicherheit des AID 2 dem Bilderergänzen des HAWIK. Einige der 11 obligatorischen und drei fakultativen Subtests stellen jedoch eine Erweiterung gegenüber dem HAWIK dar. Das Verfahren hebt sich vom HAWIK (und in den beiden ersten Punkten auch von vielen anderen Intelligenztests) vor allem durch drei Besonderheiten ab: 4 Die Messung erfolgt bei den meisten Subtests »adaptiv«, also orientiert an dem jeweiligen Fähigkeitsniveau eines Probanden. D. h., die Auswahl der Aufgaben (-gruppen), die einer Testperson vorzugeben sind, richtet sich nach den Leistungen dieser Person in vorangegangenen Aufgaben. Der Vorteil eines derartigen »branched-testing« besteht darin, dass durch die Auswahl jener Aufgaben, die für eine Testperson ungefähr den Schwierigkeitsgrad p = .50 aufweisen, der größte Zuwachs an Information über das jeweilige Fähigkeitsniveau ermöglicht wird und damit potentiell eine besondere Messgenauigkeit erzielbar ist. Weil auf viele (individuell) zu leichte bzw. zu schwere Items verzichtet wird, ergibt sich zudem eine besondere Ökonomie, die je nach Ziel der Testvorgabe in eine verkürzte Testzeit oder eine besondere Messgenauigkeit umgesetzt werden kann. Das adaptive Vorgehen erfordert die sofortige Bewertung der gelieferten Antworten als »richtig« oder »falsch«; bei einigen Subtests sind zudem Grenzwerte für die Bearbeitungszeit für die einzelnen Aufgaben zu beachten. Das Prinzip der Testvorgabe ist in . Abb. 3.9 veranschaulicht. 4 Die Items wurden nach ihrer Verträglichkeit mit dem Rasch-Modell ausgewählt; die Skalen sind somit eindimensional. 4 Die Autoren lehnen die Berechnung eines Intelligenzquotienten als Maß der allgemeinen kognitiven Leistungsfähigkeit ab und betonen stattdessen den Nutzen des Leistungsprofils für eine förderungsorientierte Diagnostik. Vorrangiges Ziel ist die Erfassung von Teilleistungsstörungen oder -schwächen. Mit der deutschen Version der Kaufman Assessment Battery for Children (K-ABC; Kaufman, Kaufman, Melchers & Preuß, 2001) und dem Adaptiven Intelligenz Diagnosticum 2 (AID 2; Kubinger und Wurst, 2001) liegen zwei ähnlich konzipierte Testverfahren vor. Auch sie werden in Einzelsitzungen durchgeführt und bestehen aus zahlreichen unterschiedlichen kindgerechten Untertests. Für eine vergleichende Bewertung der Tests sei auf Preusche und Leiss (2003) verwiesen. Die Rezensentinnen stellen keine allgemeine Überlegenheit einer der drei Tests fest, sondern arbeiten die Unterschiede heraus, die bei einer konkreten Fragestellung hilfreich für die Testauswahl sein können. Alternativen zum HAWIK-III gebnisse nützlich sind. Es ist zu hoffen, dass der Forschungsstand bei einer Revision des Testmanuals besser dokumentiert wird. 3.1 · Leistungstests 3 Fähigkeit-Fertigkeiten Eigenständige Entwicklung Kein IQ Rasch-skaliert »Branched testing« Ähnlichkeiten mit HAWIK 211 3 Ab 2;5 Jahre So werden etwa ein Untertest zum Wortschatz und ein weiterer zum Rechnen nicht zur Intelligenzmessung herangezogen, sondern nur für die Skala »Fertigkeiten« verrechnet. 4 Das Intelligenzkonzept unterscheidet sich von dem sehr pragmatischen Ansatz Wechslers. Die Autoren knüpfen an Grundlagen der Neuropsychologie und der kognitiven Psychologie an und betonen die Vorgehensweise bei der Informationsverarbeitung als wesentliches Merkmal der Intelligenz. Intelligenz wird definiert als »die Art und Weise, in der ein Individuum Probleme löst und Informationen verarbeitet« (Kaufman et al., S. 7). Sie unterscheiden dabei zwei Qualitäten des Denkens, die sie als »einzelheitlich« und »ganzheitlich« bezeichnen. Die Aufgaben zur Erfassung des einzelheitlichen Denkens verlangen die Lösung von Problemen durch folgerichtiges oder serielles Denken (Beispiel: Zahlenreihen nachsprechen). Ganzheitliches Denken wird mit Aufgaben erfasst, die eine gleichzeitige Integration von Reizen verlangen, beispielsweise beim Erkennen von Gestalten anhand von unvollständigen Informationen. So soll beim Subtest »Zauberfenster« ein Objekt erkannt und benannt werden, das nur partiell zu sehen ist. Dazu wird ein Bild in einer Drehbewegung so hinter einem Schlitz gezeigt, dass immer nur ein Teil zu sehen ist. Die sieben Untertests zum ganzheitlichen und die drei zum einzelheitlichen Denken werden zu einer Fähigkeitsskala (Intelligenz) zusammengefasst. 4 Die K-ABC kann bereits im Vorschulalter eingesetzt werden; der Altersbereich reicht von 2;5 bis 12;5 Jahren. 4 Für Kinder, die aufgrund einer Hörbehinderung oder wegen Zuwanderung in den deutschen Sprachraum geringe Sprachkenntnisse haben, stehen vier Untertests zur . Abb. 3.9. Prinzip des »branched-testing« bei AID. Beim Untertest 8 erhalten alle Probanden unabhängig von ihrem Alter zuerst die Aufgabengruppe 1 (bei anderen Untertests hängt die Einstiegsaufgabe zum Teil vom Alter ab). Erzielt der Proband 0–3 Punkte, folgt die Aufgabengruppe 2; bei 4–6 Punkten dagegen die Aufgabengruppe 5. Welche Aufgabengruppe nun folgt, richtet sich wieder nach den erreichten Punkten (die Lösungszeit wird dabei berücksichtigt). Beispielsweise gibt der Testleiter bei 0–1 Punkten in Aufgabengruppe 5 die (leichtere) Aufgabegruppe 3 vor. Aus Kubinger & Wurst (2000, S. 42). Kapitel 3 · Diagnostische Verfahren »Einzelheitliches« und »ganzheitliches« Denken 212 Theoretischer Hintergrund und Gliederung. Mit den beiden Tests IST-2000 und IST2000-R wollen die Autoren nicht nur die Schwachstelle überalterter Normen beheben, sondern vor allem das Testkonzept erweitern und den im Zuge der modernen Intelligenzforschung aufgetretenen Konvergenzen inhaltlicher und struktureller Art Rechnung tragen. Der Test liegt in zwei Formen vor; Form B ist als Paralleltest zu Form A exakt gleich aufgebaut und misst die gleichen Fähigkeiten. Was das Inhaltliche angeht, so sollen mit dem Test fünf der sieben Primärfaktoren von Thurstone getroffen werden, nämlich verbale, numerische und figurale Intelligenz, dazu Merkfähigkeit und – mit etwas höherer Generalität und als Summenscore der drei erstgenannten Faktoren – Reasoning (schlussfolgerndes Denken). Zur Erfassung des verbalen, numerischen und figuralen Bereichs dienen jeweils drei verschiedene Untertests, die zu »Skalen« zusammengefügt werden. Zur Messung der Merkfähigkeit stehen Vorbemerkung. Der IST-2000-R basiert auf einem Test, der in der Vergangenheit eine herausragende Bedeutung hatte. Er stellt eine Weiterentwicklung des in Deutschland bisher mit Abstand am häufigsten angewandten Intelligenztests, dem IST-70, dar. Die erste Ausgabe des Intelligenz-Struktur-Tests erschien 1953, eine geringfügig überarbeitete Fassung 1970. In diesen beiden Versionen zählte der IST zu den am meisten eingesetzten Leistungstests (. Tab. 3.4). Bereits im Manual von 1970 ist die Rede von bis dahin nicht weniger als 1,5 Mio. Anwendungen. Die Normen waren seit der Auflage von 1970 nicht mehr aktualisiert worden. Die vom Autor vehement propagierte Profilauswertung erwies sich empirisch als ungeeignet zur Prognose von Ausbildungserfolg (Schmidt-Atzert & Deter, 1993). Bei einigen Subtests wurden psychometrische Mängel aufgedeckt und der Test galt als revisionsbedürftig (Schmidt-Atzert, Hommers & Hess, 1995). Obwohl sich der Autor bei der Testentwicklung offenbar an Thurstones Intelligenzmodell angelehnt hatte, war die verbale Fähigkeit mit insgesamt vier von neun Untertests stark überrepräsentiert. In dem 1999 erschienenen IST-2000 wurden sechs der neun »alten« Untertests nach mehr oder weniger starken Modifikationen (bei zwei Subtests wurde nur die Itemabfolge verändert) übernommen. Zwei weitere Untertests (Rechenaufgaben und verbale Merkfähigkeit) wurden mit neuen Items ausgestattet und ein alter Untertest entfiel ganz. Dafür ergänzten die Autoren das »Grundmodul« (7 unten) um zwei neue Aufgabengruppen und erweiterten die bislang nur verbalen Aufgaben des Untertests Merkfähigkeit um figurale Aufgaben. Völlig neu war auch ein Erweiterungsmodul, das Wissen prüft. Der IST-2000-R unterscheidet sich im Wesentlichen vom IST-2000 nur hinsichtlich der nun sehr viel größeren Normierungsstichprobe sowie einiger Verbesserungen eher technischer Art. Der Wissenstest im IST-2000-R wurde gegenüber der Vorgängerversion stark überarbeitet. Amthauer, R.; Brocke, B.; Liepmann, D. & Beauducel, A. (2001). Göttingen: Hogrefe Intelligenz-Struktur-Test 2000-R (IST-2000-R) Verfügung, die sprachfrei durchgeführt und beantwortet werden können. Die vier Untertests werden zu einer Skala verrechnet, die es erlaubt, die Intelligenz dieser Kinder zu beurteilen. 4 Die Normen der K-ABC sind inzwischen veraltet. Die Normierung für die erste Aufl. 1991 fand zwischen 1986 und 1989 statt. In einer Kritik zur 5. Aufl., die 2001 erschien, bemängelt Horn (2003), dass trotz einiger (meist kleiner) Änderungen an den Items keine Neunormierung vorgenommen wurde. 3.1 · Leistungstests 3 5 der 7 Primärfaktoren von Thurstone Zusätzlich Wissenstests 2 neue Subtests Teile des IST-70 übernommen Vorgänger IST-70 Alte Normen 213 3 . Abb. 3.10. Die mit dem IST-2000-R erfasste Fähigkeitsstruktur. (Nach Amthauer et al., 2001, S. 13) Auspartialisierung »fremder« Anteile Hierarchisches Modell zwei Aufgabengruppen zur Verfügung (mit verbalem bzw. figuralem Material). Diese Batterie bildet das sog. »Grundmodul«. Demgegenüber berücksichtigt das sog. »Erweiterungsmodul« die strukturellen Aspekte insofern, als hier zwei Generalfaktoren vorgesehen sind, und zwar fluide und kristallisierte Intelligenz im Sinne von Horn und Cattell (1966). Diesen Autoren zufolge spiegelt fluide Intelligenz mehr die Fähigkeit wider, neuen Problemen oder Situationen gerecht zu werden, ohne dass es dazu im wesentlichen Ausmaß früherer Lernerfahrungen bedarf; hingegen vereinigt kristallisierte Intelligenz solche kognitiven Fertigkeiten, in denen sich die kumulierten Effekte vorangegangenen Lernens verfestigt haben. Im IST-2000-R errechnet sich der individuelle Punktwert für die fluide Komponente als die Summe von verbaler, numerischer und figuraler Intelligenz, derjenige für kristallisierte Intelligenz als die Summe von insgesamt 84 Wissensfragen verbaler, numerischer und figuraler Art aus den Gebieten Geographie/Geschichte, Kunst/Kultur, Naturwissenschaften und Mathematik. . Abbildung 3.10 gibt in schematischer Form die skizzierte Gesamtstruktur wieder. Daraus ist der hierarchische Aufbau von den basalen Aufgaben über Primär- zu Sekundärfaktoren erkennbar. Die durchgezogenen Linien stehen jeweils für einen positiven Zusammenhang, die gestrichelten Linien für die statistische Auspartialisierung von Fähigkeitskomponenten. Amthauer et al. (2001, S. 12–13) vertreten die Auffassung, dass die Auspartialisierung der Wissensvarianz aus dem Maß für schlussfolgerndes Denken zu einem optimalen Indikator für fluide Intelligenz und die Auspartialisierung von schlussfolgerndem Denken aus dem Wissen zu einem optimalen Indikator für kristallisierte Intelligenz führt. Die jeweils »bereinigten« Komponenten erhalten die Notationen gf bzw. gc. Die Anordnung der beiden Sekundärfaktoren mit und ohne Kapitel 3 · Diagnostische Verfahren Fluide und kristallisierte Intelligenz 214 VW Verbales Wissen NW Numerisches Wissen FW Figurales Wissen W W W 28 28 28 40 .84 .82 .83 .93 6 Satzergänzung: Unvollständige Sätze sollen durch eine von 5 vorgegebenen Lösungsmöglichkeiten ergänzt werden. Beispielaufgaben aus dem IST-2000-R Beispiel Auspartialisierung auf dem Kontinuum der Akkulturation soll auch das Ausmaß veranschaulichen, in dem die wechselseitige »Bereinigung« wirksam wird. . Tabelle 3.7 zeigt, welche Untertests jeweils miteinander verrechnet werden und macht weitere Angaben zu Umfang und Reliabilität von Subtests und Modulen. Beispielaufgaben für die Module 7 Beispiel. Anmerkung. Bearbeitungszeiten ohne Instruktionen und Übungsbeispiele; bei der Merkfähigkeit sind die Zeiten für Einprägen und Reproduktion aufgeführt. Im Erweiterungsmodul sind die verbalen, numerischen und figuralen Aufgaben gemischt, und die Bearbeitungszeit gilt für alle Aufgaben zusammen. Reliabilitätsschätzungen für Form A, Cronbachs α. Aus SchmidtAtzert (im Druck). a V = verbale, N = numerische, F = figurale Intelligenz, M = Merkfähigkeit, W = Wissen. VW NW FW Erweiterungsmodul Wissen 1+2 1+3 .95 10 13 .94 .90 M M M M Merkfähigkeit verbal Merkfähigkeit figural Merkfähigkeit (v, f) 7 9 10 .87 20 20 20 .77 .80 .71 F F F FA WÜ MA Figurenauswahl Würfelaufgaben Matrizen Figurale Intelligenz: FA, WÜ, MA 10 10 10 .84 .91 .86 20 20 20 RE ZR RZ Rechenaufgaben Zahlenreihen Rechenzeichen .95 Numerische Intelligenz: RE, ZR, FA N N N .69 .74 .76 Satzergänzen Analogien Gemeinsamkeiten SE AN GE Reliabilität .88 6 7 8 Zeit Verbale Intelligenz: SE, AN, GE 20 20 20 Items .96 V V V Bereich a Schlussfolgerndes Denken: SE bis MA Grundmodul Untertest . Tabelle 3.7. Übersicht über den IST-2000-R 3.1 · Leistungstests 215 3 3 6 Matrizen: Es werden Anordnungen von Figuren vorgegeben, die nach einer bestimmten Regel aufgebaut sind. Aus vorgegebenen Auswahlfiguren soll jeweils die regelkonforme herausgefunden werden (. Abb. 3.13). Würfelaufgaben (. Abb. 3.12): Figurenauswahl (7 Abb. 3.11): Rechenzeichen: Die Aufgaben bestehen aus Gleichungen im Bereich der rationalen Zahlen, bei denen die Verknüpfungen weggelassen sind. Das Lösen erfordert das Einsetzen von Rechenzeichen der vier Grundrechenarten. Beispiel: 6 ? 2 ? 3 = 5 Zahlenreihen: Nach einer bestimmten Regel aufgebaute Zahlenreihen sollen um eine weitere Zahl fortgesetzt werden. Beispiel: 9 7 10 8 11 9 12 ? Rechenaufgaben: Die Aufgaben verlangen Rechenoperationen im Bereich der reellen Zahlen. Um den sprachlichen Anteil beim Lösen zurückzudrängen, werden sie nicht verbal (»eingekleidet«) vorgegeben. Beispiel: 60 – 10 = ? Gemeinsamkeiten: Aus 6 vorgegebenen Wörtern sollen die beiden mit einem gemeinsamen Oberbegriff gewählt werden. Beispiel: a) Messer b) Butter c) Zeitung d) Brot e) Zigarre f ) Armband Analogien: Bei 3 Wörtern besteht zwischen den ersten beiden eine Beziehung. Aus 5 Wörtern ist dasjenige Wort zu finden, das zu dem 3. Wort in ähnlicher Beziehung steht wie das zweite zum ersten. Beispiel: Wald : Bäume=Wiese : ? a) Gräser b) Heu c) Futter d) Grün e) Weide Beispiel: Ein Kaninchen hat am meisten Ähnlichkeit mit einem (einer) …? a) Katze b) Eichhörnchen c) Hasen d) Fuchs e) Igel Kapitel 3 · Diagnostische Verfahren . Abb. 3.11. Zerschnittene Figuren sind 5 unzerschnittenen geometrischen Figuren zuzuordnen 216 15 Jahren) und Erwachsene, die auch als Einzeltests vorgegeben werden können. Es liegen zwei Parallelformen A und B vor, die jedoch identische Aufgaben enthalten, allerdings in veränderter Reihung und ggf. anderer Anordnung der Distraktoren; wegen der identischen Aufgabensubstanz ist von einer kurzfristig wiederholten Testanwendung dieser beiden »unechten« Parallelformen abzuraten. Die Antworten werden in separate Lösungsblätter übertragen. Übungsaufgaben führen in die Aufgabenart wie in die Übertragung der Aufgabenlösungen ein. Die Testzeit beträgt für das Grundmodul ca. 2 h (darin enthalten: 10 min Pause und 12 min für die Bearbeitung der Merkaufgaben). Für das Erweiterungsmodul mit den Wissenstests sind zusätzlich knapp 40 min erforderlich. Durchführung. IST-2000 und IST-2000-R sind Gruppentests für Jugendliche (ab etwa Wissenstest: Es werden Fragen zu verschiedenen Wissensgebieten vorgelegt. Die richtige Lösung muss aus 5 angebotenen Antworten gefunden werden. Beispiel: Zu welcher Völkergruppe gehörten die Wotumanen ? a) Wikinger b) Germanen c) Ostgoten d) Asiaten f ) Markomannen Merkfähigkeit (figural): Während der Lernphase werden Figurenpaare eingeprägt. Die Prüfung erfolgt durch Vorgabe eines der Elemente und der Frage, welches andere von 5 angebotenen Elementen damit gemeinsam vorgegeben war. Merkfähigkeit (verbal): Während der Lernphase müssen vorgegebene Wörter zu Oberbegriffen eingeprägt werden. Die Prüfung erfolgt durch Vorgabe eines Anfangsbuchstabens und der Frage, zu welchem Oberbegriff das betreffende Wort gehört. 3.1 · Leistungstests 3 Testdauer: 2 h für Grundmodul, 40 min für Wissenstests Zwei Parallelformen . Abb. 3.13. Aufgabentyp »Matrizen« aus dem IST2000. (Nach Amthauer et al., Grundmodul, 1999, S. 19) . Abb. 3.12. Der Proband soll erkennen, welchem von 5 Auswahlwürfeln ein vorgegebener Würfel gleicht. Der Würfel kann gekippt, gedreht oder gekippt und gedreht sein 217 3 Korrelation mit Ausbildungserfolg Korrelationen mit Schulnoten Korrelation mit CFT 20 Drei Faktoren Von Profilinterpretation abzuraten Validität. Faktorenanalysen auf der Basis der Aufgabengruppen (unter Fortlassung der Subskalen zur Erfassung der Merkfähigkeit, die insofern theoretisch etwas isoliert sind) bestätigten die Dreifaktorenstruktur (verbal, numerisch und figural). Zur Binnenstruktur des Erweiterungsmoduls wurden multidimensionale Ähnlichkeitsskalierungen durchgeführt. In konfirmatorischen Faktorenanalysen befand sich die facetten-theoretische Struktur von fluider und kristallisierter Intelligenz in besserer Übereinstimmung mit den Daten als ein hierarchisches Modell (Beauducel, Brocke & Liepmann, 2001). Darüber hinaus werden Korrelationen mit anderen Tests berichtet. Demzufolge korreliert beispielsweise Reasoning (Gesamtwert) zu .63 mit dem CFT 20 Matrizen-Test von Weiß (1997). Die Faktorwerte für fluide und kristallisierte Intelligenz korrelieren mit den CFT 20 Matrizen zu .58 bzw. .24, mit einem Wortschatztest zu .16 bzw. .54, was insofern ein erwartungskonformes Muster widerspiegelt. Es finden sich auch Angaben zu Korrelationen mit Schulnoten. Reasoning korreliert mit den Schulnoten in Deutsch zu –.14, in Mathematik zu –.45 (dies stellt den höchsten Zusammenhang dar) und in Physik zu –.38. Bislang liegt lediglich eine Untersuchung zu anderen Außenkriterien vor (Steinmayer & Amelang, 2005). In dieser Studie bearbeitete eine Stichprobe von insgesamt N = 219 Personen beiderlei Geschlechts im Alter von durchschnittlich 34 Jahren das Grund- und Erweiterungsmodul (GM bzw. EM) des IST-2000-R (IST, Amthauer et al., 2001). Auf siebenfach abgestuften Skalen beurteilten jeweils drei Bekannte, Freunde oder Verwandte jede der an der Untersuchung teilnehmenden Personen hinsichtlich ihres Allgemeinen Wissens sowie ihrer verbalen, numerischen und figuralen Fähigkeiten als Facetten der Allgemeinen Intelligenz; als weitere externe Kriterien lagen Maße für das Ausbildungsniveau und die ausgeübte Berufstätigkeit vor. Die höchsten Korrelationen des IST bestanden mit Koeffizienten um r = .60 gegenüber dem Kriterium »Ausbildungserfolg«; in ähnlicher Größenordnung korrelierte der IST mit der fremdeingeschätzten Allgemeinen Intelligenz. Mit »Sozialer Status« der ausgeübten Berufstätigkeit bestanden Korrelationen um .50. In hierarchischen Regressionen erwies sich die numerische Skala des EM als der beste Einzel-Prädiktor. Die Faktorwerte für fluide und kristallisierte Intelligenz korrelieren zu .48, die Skalen für schlussfolgerndes Denken und Wissen zu .70. beträgt .96 (Cronbachs α). Der Wissenstest weist eine Reliabilität von .93 auf. Die Koeffizienten für die jeweiligen Aufgabengruppen innerhalb der Skalen verbal, numerisch und figural liegen zum Teil deutlich darunter (. Tab. 3.7). Deshalb und aus zwei weiteren Gründen ist von einer Profilinterpretation für einzelne Aufgabengruppen im diagnostischen Anwendungsfall abzuraten: (1) Nur die Skalen (nicht aber die Aufgabengruppen) sind theoretisch begründet; (2) die Interkorrelationen zwischen den Aufgabengruppen liegt in einer Größenordnung von etwa .40. Wegen der spezifischen Gegebenheiten bei der Erfassung der Merkfähigkeit ist hier die Konsistenz mit Werten um .95 besonders hoch. Für die Faktorwerte von fluider und kristallisierter Intelligenz betragen die minderungskorrigierten Spearman-Brown-Koeffizienten für eine Stichprobe von 661 Probanden .96 bzw. .91. Zur Reteststabilität liegen zunächst keine Daten vor. Ausgehend von den Erfahrungen mit den Vorläuferversionen darf davon ausgegangen werden, dass diese eine befriedigende Höhe erreicht. Reliabilität. Die innere Konsistenz des Grundmodul-Gesamtwertes im IST-2000-R Auswertung. Die mit Schablone ermittelten Rohpunktsummen für die einzelnen Untertests werden in Standardwerte (M = 100, SD = 10) umgewandelt und daraus unter Rückgriff auf Beta-Gewichte getrennte Faktorwerte für fluide und kristallisierte Intelligenz ermittelt. Kapitel 3 · Diagnostische Verfahren Hohe interne Konsistenz der Gesamtwerte 218 Fazit. Beim IST-2000 bzw. IST-2000-R handelt es sich um ein sehr sorgfältig konstruiertes Instrument, das sich zur reliablen Erfassung von fünf Primärfaktoren der Intelligenz sowie der beiden Sekundärfaktoren fluide und kristallisierte Intelligenz eignet. Mit der Hinwendung zu diesen beiden Faktoren erfolgte nicht nur eine notwendige theoretische Neuorientierung, sondern durch die konsequente Aggregation über verbale, numerische und figurale Materialien gelang auch deren inhaltsunabhängige Erfassung. Das dem Test zugrunde gelegte »hierarchische Rahmen- bzw. Protomodell der Intelligenzstrukturforschung« sollte jedoch theoretisch besser begründet werden. Die Relevanz von fluider und kristallisierter Intelligenz für schulische Kontexte ist erwiesen; die Validität gegenüber nichtschulischen Anforderungen muss noch empirisch unter Beweis gestellt werden. Das gilt auch für die Notwendigkeit einer Verbreiterung der Normierungsbasis. Sobald diese Arbeiten geleistet sind, kann dem Verfahren wegen seines ansprechenden Testkonzeptes, seiner Überschaubarkeit und Anwendungsfreundlichkeit ein ähnlicher Erfolg am Markt vorhergesagt werden wie seinen unmittelbaren Vorläuferversionen. Normierung. Die Normen (Standard- und IQ-Werte sowie Prozentränge) stützen sich auf die Vorgabe des Grundmoduls an eine Stichprobe von insgesamt N = 3.484 Probanden im Alter zwischen 15 und über 51 Jahren. Davon besuchten nicht weniger als ca. 54% das Gymnasium bzw. haben einen Gymnasialabschluss. Über die Verteilung der Geschlechter und ggf. bestehende Mittelwerts- oder Streuungsunterschiede wird nichts mitgeteilt. Da die Rohwerte altersabhängig sind, werden bei den Normen der Gymnasiasten acht Altersgruppen unterschieden (15–16, 17–18, 19–20, 21–25, 26–30, 31–40, 41–50 und >50). Die Nichtgymnasiasten werden nur in fünf Gruppen unterteilt. Um die hinsichtlich der Bildung bestehende Repräsentativitätsverletzung zu korrigieren, wurde für die Ermittlung des Gesamt-(Grundmodul-)Punktwertes durch Zufallseliminierung einiger Probanden eine Verteilung von 40% Gymnasiasten zu 60% Nichtgymnasiasten (für die ersten beiden Altersgruppen) bzw. 30 zu 70% (für die drei weiteren) hergestellt. Für das Erweiterungsmodul (= Wissenstest) dienten N = 661 Probanden im Alter zwischen 15 und 60 Jahren nicht nur als Konstruktions-, sondern auch als Normierungsstichprobe. (Wegen potentieller Reihungs- und Übungseffekte bei solchen Items, die im Zuge der Entwicklungsarbeiten letztlich ausgeschieden werden, kann diese aus Ökonomie-Erwägungen mitunter gewählte Lösung nicht voll zufrieden stellen.) Während die beiden Geschlechter darin in etwa gleich häufig vertreten waren, wiesen hier gar 72% der Probanden Hoch- oder Fachhochschulreife auf. Für die Ermittlung der Normen war deshalb die Gewichtung von Teilstichproben unumgänglich. Das führte letztlich für den Wissenstest zu Normen für drei Altersgruppen (15–25, 26–35, 36–60), für Nichtgymnasiasten und Gymnasiasten sowie für die Gesamtgruppe. Für dieselben Gruppen liegen auch Normen vor für die »bereinigten« Faktoren fluider und kristallisierter Intelligenz (gf und gc). Der Umstand, dass für Grund- und Erweiterungsmodul unterschiedliche Stichproben herangezogen wurden und außerdem zwar das Grundmodul, nicht aber das Erweiterungsmodul bei IST-2000 und IST-2000-R identisch sind, führt das Prozessuale moderner Testentwicklungen deutlich vor Augen. Obwohl gegenüber dem IST-2000 ein deutlicher Fortschritt zu vermerken ist, kann auch beim IST-2000-R die Zusammensetzung der Normierungsstichprobe hinsichtlich Alter und Bildung noch immer nicht befriedigen; damit ist ausgerechnet eine der mit der Neuentwicklung verbundenen Zielvorgaben verfehlt worden. Es ist allerdings damit zu rechnen, dass dieses Defizit in absehbarer Zukunft behoben und ein Instrument vorgelegt wird, das den Status einer »Werkausgabe«, wie er momentan insbesondere für das Erweiterungsmodul gilt, deutlich übertrifft. 3.1 · Leistungstests 3 Theoretisches Modell besser begründen Sorgfältig konstruieren Zusammensetzung der Normierungsstichprobe noch nicht optimal Unterschiedliche Normierungsstichproben für Grundmodul und Wissenstests 219 3 Gründlich revidiert und neu normiert für Schüler Kurzform des LPS Variante für ältere Personen Einige Subtests bedürfen der Erläuterung, da sie in anderen hier vorgestellten Intelligenztests (zumindest in dieser Form) nicht vorkommen. Im Subtest Allgemeinwissen ist in Wörtern aus verschiedenen Wissensbereichen (z. B. KRAIDE) jeweils ein falscher 1. Allgemeinwissen – PSB-R 4-6: (a) Natur/Mensch, (b) Erdkunde, (c) Kultur/Kunst/Musik, (d) Sprache/Medien. – PSB-R 6-13: (a) Biologie/Medizin/Psychologie, (b) Mathematik/Chemie/Physik, (c) Geographie/Astronomie, (d) Musik/Kultur/Kunst, (e) Sprache/Medien/Kommunikation/Dichtung 2. Zahlreihen (Reasoning 1) 3. Buchstabenreihen (Reasoning 2) 4. Figurale Reihen (Reasoning 3) 5. Wortflüssigkeit 6. Gliederungsfähigkeit (nur im PSB 4-6) 7. Raumvorstellung 8. Gemeinsamkeiten finden 9. Zahlenaddition (Konzentration 1) 10. Zahlenvergleich (Wahrnehmungstempo bzw. Konzentration 2) Die Untertests der revidierten PSB-Versionen: PSB-R 4-6 und PSB-R 6-13. Beim Prüfsystem für Schul- und Bildungsberatung PSB von Horn (1969) handelt es sich um einen Klassiker unter den Intelligenztests. Das PSB ist eine gekürzte Fassung des Leistungsprüfsystems LPS (Horn, 1962), die jene 10 von 15 Untertests vereinigt, die sich am besten zur Trennung von Schülern nach den drei Schularten (Haupt-, Realsschule, Gymnasium) eignen. Nun liegen mit dem PSB-R 4-6 (Horn, Lukesch, Kormann & Mayrhofer, 2002) und PSB-R 6-13 (Horn, Lukesch, Mayrhofer & Kormann, 2003) zwei gründlich revidierte und neu normierte Nachfolgeverfahren für die 4. bis 6. und 6. bis 13. Klasse vor. Beide Tests liegen in Parallelformen (A und B) mit jeweils separaten Normen vor, da sich A und B nicht als völlig äquivalent erwiesen hatten. bzw. dessen zweite, erweiterte und verbesserte Aufl. von 1983 bei den Testanwendern einer gewissen Beliebtheit (. Tab. 3.4). Die 15 Untertests sollen die Thurstone-Faktoren verbal comprehension (Tests 1, 2, 5, 6, 12), reasoning (3, 4), word fluency (5, 6), closure (10, 11), space (8, 9, 10), perceptual speed (13, 14) und number (Arbeitskurve) erfassen. Das Verfahren dürfte aber bald nur noch historisch bedeutsam sein, wenn keine Aktualisierung und Neunormierung erfolgt. Eine Neubearbeitung wurde 1993 unter der Bezeichnung LPS 50+ für Probanden im Alter von 50 bis 90 Jahren vorgelegt (Sturm, Willmes & Horn, 1993). Die Items wurden unverändert übernommen, jedoch auf die doppelte Größe gebracht und sorgfältig nach dem Schwierigkeitsgrad gruppiert. Auf den Untertest 8 und die Arbeitskurve des LPS wurde verzichtet. Andere »breite« Intelligenztests LPS. In der Vergangenheit erfreute sich das Leistungsprüfsystem LPS von Horn (1962) Eine ausführliche Rezension haben Kersting (1999b) und Schmidt-Atzert (2002) vorgenommen. Kapitel 3 · Diagnostische Verfahren Am Thurstone-Modell orientiert 220 3 »Operationen« und »Inhalte« cel (1997) liegt mit dem »Berliner Intelligenzstrukturmodell« (. Abb. 3.14) ein Strukturmodell zugrunde, das sich deutlich von dem anderer Tests unterscheidet. Die Autoren gehen davon aus, dass an jeder Intelligenzleistung alle intellektuellen Komponenten oder Faktoren beteiligt sind, allerdings mit unterschiedlichen Gewichtungen und Mischungsverhältnissen. An der Spitze der Fähigkeitshierarchie ist als Integral aller Fähigkeiten die »Allgemeine Intelligenz« (AI als BIS-spezifische Operationalisierung von »g«) zu sehen. Das Rautenmodell dient als Rahmen zur Einordnung von Intelligenzaufgaben oder Subtests. Die Autoren unterscheiden vier Arten von »Operationen«, die jeweils mit drei unterschiedlichen »Inhalten« kombinierbar sind. So kann etwa die Merkfähigkeit mit numerischen, verbalen und mit figuralen Aufgaben gemessen werden. Die Anordnung der Operationen im Modell soll übrigens keine Hierarchie ausdrücken. Die rautenförmige Anordnung symbolisiert, dass die Operationen und Inhalte nicht orthogonal zueinander stehen, sondern Gemeinsamkeiten aufweisen. Deshalb wird bei der Auswertung über Inhalte und über Operationen aggregiert. Beispielsweise ergibt sich die Bearbeitungsgeschwindigkeit einer Person als BIS-4. Dem Berliner Intelligenzstruktur-Test (Form 4; BIS-4) von Jäger, Süß & Beaudu- Anmerkung. 1) gegenüber dem »alten« WIT kaum verändert; 2) gegenüber dem »alten« WIT deutlich modifiziert; 3) vollständige Neuentwicklung; 4) als separates Modul: 35 Min., als Ergänzung (nur Zahlenreihen) zu den sprachlich und rechnerischen Aufgaben: 14 Min. zusätzlich; 5) zwischen Einprägen und Wiedergabe wird eine andere Testaufgabe im Umfang von 18 min bearbeitet (Quelle: Kersting, persönliche Mitteilung, Juli 2005). 17 Min. ca. 150 Min. Gesamttestzeit (falls alle Module eingesetzt werden sollen) 5 Min. 5 Min. Nach ca. 90 min Testung erfolgt eine Pause im Umfang von ca. 20 Wissen Informationstechnologie3 Wissen Informationstechnologie 19 Min. 20 Min. 20 9 Min.5 14 Min. oder 35 Min. 4 22 Min. 27 Min. 12 Min. Zeitbedarf (Instruktion & Laufzeit) Die allgemeine Instruktion / Testeinführung dauert ca. 42 21 Merkfähigkeit3 Merkfähigkeit E-Mails 60 (1) Analogien2, (2) Abwicklungen1, (3) Zahlenreihen1 Schlussfolgerndes Denken Wissen Wirtschaft3 40 (1) Abwicklungen1, (2) Spiegelbilder1 räumliches Denken Arbeitseffizienz 40 (1) Grundrechnen2, (2) Eingekleidete Rechenaufg.2 rechnerisches Denken Wissen Wirtschaft 40 (1) Analogien2, (2) Gleiche Wortbedeutungen2 sprachliches Denken bearbeiten3 Itemzahl Testaufgaben Dimension (jede Dimension kann separat erfasst werden) . Tabelle 3.8. Aufbau des WIT-2 Kapitel 3 · Diagnostische Verfahren Hierarchisches Modell mit »g« an der Spitze 222 Beim CFT 20 (von »Culture Fair Test«) handelt es sich um ein Mitglied einer ganzen »Testfamilie« zur sprachfreien Messung der fluiden Intelligenz nach Cattell (. Tab. 3.9). Cattell stellte den ersten Test dieser Art bereits 1940 vor. Der ursprüngliche Anspruch, die Intelligenz »kulturfrei«, also unabhängig von Einflüssen des sozio-kulturellen, schulischen und erziehungsspezifischen Erfahrungshintergrunds zu messen, erwies sich als Grundintelligenztest Skala 2 (CFT 20) mit Wortschatztest (WS) und Zahlenfolgentest (ZF) Weiß (1998). 4., überarbeitete Aufl. Mittelwert ihrer Testleistungen in allen figuralen, verbalen und numerischen Aufgaben zur Bearbeitungsgeschwindigkeit. Und die numerischen Fähigkeiten können als Aggregat aller Testleistungen mit numerischen Aufgaben aus den Bereichen Bearbeitungsgeschwindigkeit, Merkfähigkeit, Einfallsreichtum und Verarbeitungskapazität bestimmt werden. Folglich liefert der Test für jeden Probanden neben einem Maß der allgemeinen Intelligenz sieben Kennwerte: Figurale, verbale, numerische Fähigkeiten, Verarbeitungskapazität, Einfallsreichtum, Merkfähigkeit und Bearbeitungsgeschwindigkeit. Jeder der 45 Subtests kann in einer der 12 Zellen verortet werden. So gehört der Subtest Buchstaben-Durchstreichen in die Zelle links oben (Bearbeitungsgeschwindigkeit, figural). Anzumerken bleibt, dass die Aufgaben zur Verarbeitungskapazität weitgehend denen anderer Intelligenztests zum schlussfolgernden Denken entsprechen. Das Instrument dient der differenzierten Diagnostik der Intelligenz, und zwar (vorerst) derjenigen von Jugendlichen und jüngeren Erwachsenen, weil primär an diesen Personengruppen die Entwicklungsarbeiten durchgeführt wurden und nur dafür auch Normen vorliegen. 3.1 · Leistungstests 3 Sprachfreie Messung der fluiden Intelligenz Allgemeine Intelligenz plus sieben Teilfähigkeiten . Abb. 3.14. Berliner Intelligenzstrukturmodell. (Nach Jäger et al., 1997, S. 5) 223 3 Zwei zusätzliche Tests zur kristallisierten Intelligenz Kurz- und Langform Vier Subtests Testbezeichnung CFT 20 x x – Matrizen CFT 3 Substitutionen Labyrinthe Ähnlichkeiten 1997 (5. Aufl.) 1976 (6078) und 1995 (1200) Adaptation des amerikanischen CFT 1 – Sonstige Erscheinungsjahr, Aufl. Normen: Erhebungsjahr und (N) Anmerkungen Erschwerte Version des CFT 2 1963 bis 1971 (3476) setzt, Figuren klassifiziert, Figurenmatrizen vervollständigt und topologische Schlussfolgerungen gezogen werden sollen (7 Beispiele in . Abb. 3.15). Die insgesamt 92 Items sind innerhalb der Subtests nach Schwierigkeit angeordnet. Der Test gliedert sich ferner in zwei gleichartig aufgebaute Teile mit je 46 Items. Teil 1 kann als Kurzform verwendet werden, die Langform setzt sich aus Teil 1 und 2 zusammen. Bei Probanden, die testunerfahren sind und/oder Schwierigkeiten im Instruktionsverständnis haben, kann Teil 1 als eine Art Lerntestprozedur angesehen und Teil 2 zur eigentlichen Intelligenzmessung verwendet werden. Dieser kulturfaire Teil wird um zwei fakultative Tests zur kristallisierten Intelligenz ergänzt, für die ein separates Manual vorliegt. Beim Wortschatztest ist bei jeder der 30 Aufgaben zu einem vorgegebenen Wort (z. B. Acker) unter mehreren Auswahlwörtern Gliederung. Das Verfahren besteht aus vier Subtests, bei denen Figurenreihen fortge- überhöht, und die ursprüngliche Testbezeichung »culture free« (Cattell, 1940) wurde später zu »culture fair« abgeschwächt. Um dem Anspruch der kulturfairen Messung wenigstens konzeptuell gerecht zu werden, sind die Items sprachfrei, d. h. sie enthalten nicht jenes Element, das spezifisch für Kulturen ist, nämlich die jeweilige Sprache. Die 1998 erschienene 4., überarbeitete Aufl. enthält die gleichen Testmaterialien wie zuvor; die Überarbeitung betrifft lediglich das Testmanual. Inzwischen ist auch eine Computerversion im Rahmen des Hogrefe Testsystems (HTS) erhältlich. Anmerkung. Der CFT 2 wurde seit 1977 nicht mehr verändert. a Diese Tests sind unabhängig vom CFT 20 und liefern ergänzende Informationen; Normen für den Altersbereich 8;7 bis 15;6. Nachfolger des CFT 2 1977 (5730) 1998 (4. Aufl.) 1971 (3. Aufl.) Teil 1 auch als Powerversion Wortschatza, Zahlenfolgena x x x x x 14-19 – Topologische Schlussfolgerungen x x x 8;7 bis 60 – Klassifikationen 5;3 bis 9;5 CFT 1 – Reihen fortsetzen Aufbau (Subtests) Altersbereich (Jahre) Testmerkmal . Tabelle 3.9. Die »Culture Fair Tests« Kapitel 3 · Diagnostische Verfahren »Kulturfair« 224 Reliabilität. Die Halbierungszuverlässigkeit der beiden Testteile beträgt .90 bzw. .91, für den Gesamttest sogar .95. Diese Werte resultieren allerdings aus einer Untersuchung mit Probanden aller Altersgruppen. In altershomogenen Gruppen würden sie zwangsläufig niedriger ausfallen. In einer Wiederholungsuntersuchung an 13–15jährigen Schülern mit einem Intervall von zwei Wochen ergab sich ein Stabilitätskoeffizient von rtt = .77. worten auf dem Antwortbogen, die zu einem Gesamtwert addiert und in T-, IQ- und Prozentrangwerte transformiert werden. Auswertung. Schablonen ermöglichen eine rasche und objektive Auswertung der Ant- baren Verfahrens liegt zwischen 8;7 und 60 Jahren. Übungsaufgaben führen in die Eigenart jedes Subtests sowie in die Technik der Übertragung der Antworten in ein Antwortblatt ein. Die Bearbeitung der beiden Testhälften dauert bei Gruppenuntersuchungen etwa 60 min einschließlich Instruktion und Übungsaufgaben. Bei Verwendung der Kurzform (Teil 1) verkürzt sich die Zeit auf ca. 37 min. Für die fakultativen Wortschatzund Zahlenfolgentests sind weitere 45 min zu veranschlagen. Durchführung. Der Einsatzbereich des als Individual- wie als Gruppentest durchführ- (z. B. (a) Pferd, (b) Traktor, (c) Landwirt, (d) Feld, (e) Kartoffel) das ähnlichste herauszufinden. Der Zahlenfolgentest besteht aus 21 Zahlenreihen, die fortzusetzen sind (z. B. 2 1 3 2 4 3 ? ). Sämtliche Tests liegen in den Parallelformen A und B vor, die sich jedoch nur in der Lokalisation der Auswahlantworten unterscheiden. Damit kann bei Gruppenuntersuchungen Abschreiben entgegengewirkt werden. d c b a 3.1 · Leistungstests 3 Hohe Konsistenz und Stabilität Für Altersbereich 8;7 bis 60 Jahre Zwei Parallelformen . Abb. 3.15a–d. a Es ist die Figur zu suchen, die die Reihe richtig fortsetzt (a). b Es ist die Figur zu finden, die nicht in die Reihe passt (d). c Gesucht ist die das Muster richtig ergänzende Figur (c). d Zu finden ist die Figur, in der der Punkt ähnlich wie im Beispiel (im Kreis, aber außerhalb des Quadrats) gesetzt werden kann (c) 225 3 CPM: aktuelle Normen Mehrere Varianten Intellektuelles Potenzial messen Alte Normen Ravens Progressive Matrizen. Unter dem Überbegriff Ravens Progressive Matrizen lassen sich drei Tests zusammenführen, die dem gleichen Konstruktionsprinzip folgen, sich aber in ihrer Schwierigkeit und ihrem Einsatzbereich unterscheiden: Die Standard Progressive Matrices (SPM) sind deutlich leichter als die Advanced Progressive Matrices (APM), im Gegensatz zu diesen beiden Versionen decken die Coloured Progressive Matrices (CPM) den Altersbereich von 3;9 bis 11;8 Jahren ab. Letztere stellen gleichzeitig die Variante mit den aktuellsten deutschen Normen dar (Raven, Bulheller & Häcker, Wenn ein Kind im Altersbereich von 5;3 bis 9;5 Jahren untersucht werden soll, bietet sich aus der gleichen Testfamilie der CFT 1 an (. Tab. 3.9). Den Anspruch, die Intelligenz weitgehend sprachfrei und bildungsunabhängig messen zu können, erheben aber auch andere Testverfahren. Wenn bei einem Kind eine Einzeltestung vorgesehen ist, kommen z. B. auch sprachfreie Untertests der K-ABC (7 oben) in Frage. Darüber hinaus stehen im deutschen Sprachraum zwei weitere Verfahren – nicht nur zum Einsatz an Kindern – zur Verfügung, die nun kurz mit dem CFT 20 kontrastiert werden. Alternativen zum CFT 20 tuelle Leistungsfähigkeit im Sinne der fluiden Intelligenz relativ unabhängig von kulturbzw. schichtspezifischen Einflüssen und Schulkenntnissen prüfen zu können. Dadurch ist es weniger ein Instrument zur Prognose von Schulleistungen, sondern eher zur Untersuchung der Intelligenz von sprachretardierten und Ausländerkindern. Die Ergebnisse im CFT 20 können im Einzelfall helfen, das intellektuelle Potenzial von Probanden mit niedrigen Testwerten in bildungsabhängigen Intelligenztests und/oder schlechten Schulleistungen einzuschätzen. Ob die beiden Zusatztests (Wortschatz- und Zahlenfolgentest) eine sinnvolle Ergänzung zur Erfassung der kristallisierten Intelligenz darstellen, kann bezweifelt werden. Die Stärke des CFT 20 liegt darin, dass vier unterschiedliche Aufgabentypen eingesetzt werden, um eine Fähigkeit zu messen. Den Zusatztests liegt dieses Prinzip nicht zugrunde. Die verbale und numerische Intelligenz werden mit jeweils nur einem einzigen Test abgedeckt. Eine Testrezension, die sich noch auf die 3. Aufl. des CFT 20 bezieht, hat Heller (1997) verfasst. Lesenswert ist auch die Replik darauf von Weiß (1997). Bewertung. Der eigentliche Wert des Verfahrens liegt darin, die grundlegende intellek- die im Jahre ihrer Erstellung (1977) von hinreichender Repräsentativität gewesen sein dürften. Für die Kurzform (1. Teil) liegen auch Normen für 20-70jährige vor (N = 1.330). Die Normierung des Wortschatz- und des Zahlenfolgentests erfolgte 1985 und 1986 an ca. 2.700 Schülern vom 3. bis 9. Schuljahr. Normierung. An insgesamt 4400 Schülern wurden Alters- und Schulnormen ermittelt, Validität. Die Korrelationen zur Mathematiknote, also einem Indikator für nichtsprachliche Leistungen, liegen bei .50, (die zur Deutschnote nur bei .29), was den Erwartungen insofern entspricht, als im Deutschunterricht per definitionem stark die Sprache als ein spezifisches Kulturelement im Vordergrund steht, diese im Test aber keine vordergründige Rolle spielt. Insgesamt sind die Beziehungen zu konstruktnahen Variablen (z. B. Raven-Test) höher als diejenigen zu konstruktfernen (wie z. B. Rechtschreib- und Wortschatztests). Wortschatz- und Zahlenfolgetest interkorrelieren zu r = .35; ihr Zusammenhang mit dem sprachfreien Teil des CFT 20 beträgt .48 bzw. .57. Der Wortschatztest korreliert durchschnittlich zu .50 mit der Deutschnote und der Zahlenfolgentest zu .60 mit der Mathematiknote. Kapitel 3 · Diagnostische Verfahren Korrelationen mit Mathematik- und Deutschnote 226 3 Entwicklungsstand geistig retardierter Erwachsener bestimmbar Intelligenztests auch zur Entwicklungsdiagnostik verwendbar Entwicklungsretardierungen erkennen Beurteilung der Motorik in verschiedenen Anwendungsbereichen nützlich Entwicklungstests Entwicklungstests sind Verfahren, die den Leistungsstand eines Kindes in Relation zu seinem Lebensalter erfassen wollen. Ihr Ziel ist es, durch Vergleich der individuellen Ergebnisse mit den Normwerten Gleichaltriger rechtzeitig Hinweise auf behandlungsbedürftige Entwicklungsretardierungen zu erhalten. Diese Anwendung setzt voraus, dass die eingesetzten Verfahren nicht nur für ein bestimmtes Lebensalter normiert sind, sondern auch Normwerte für längere Entwicklungsperioden bereitstellen. Allgemeine Entwicklungstests versuchen dabei die ganze Breite des kindlichen Entwicklungsstandes zu erfassen, spezielle Entwicklungstests dagegen nur einen Ausschnitt. Intelligenztests für Kinder, die bereits in 7 Abschn. 3.1.2.2 behandelt wurden, können grundsätzlich auch zur Entwicklungsdiagnostik eingesetzt werden, wenn die allgemeine kognitive Entwicklung oder die Entwicklung von intellektuellen Teilfähigkeiten zu beurteilen ist. Selbst der Entwicklungsstand von geistig retardierten Erwachsenen, älteren Kindern und Jugendlichen kann mit Tests eingeschätzt werden, die nur für (jüngere) Kinder entwickelt und normiert sind. Davon sollte nur Gebrauch gemacht werden, wenn 3.1.4 Motorik. Neben dem Bereich der kognitiven Fähigkeiten, der mit Carrolls Modell aufgespannt wird, steht der Bereich der (Psycho-) Motorik. Für bestimmte diagnostische Fragestellungen ist eine Beurteilung von motorischen Fähigkeiten und Fertigkeiten wichtig. Beispielsweise stellt sich in der Förderdiagnostik manchmal die Frage, wie gravierend sich eine körperliche Behinderung auf die motorische Leistungsfähigkeit auswirkt. In der Neuropsychologie soll manchmal die motorische Beeinträchtigung quantifiziert werden, die ein Patient etwa durch eine Schädel-Hirn-Verletzung erlitten hat. In der beruflichen Eignungsdiagnostik und in der Sportpsychologie können Anforderungsanalysen auf die Notwendigkeit hinweisen, bestimmte fein- und grobmotorische Fähigkeiten zu prüfen. Für solche Zwecke stehen zahlreiche Testverfahren zur Verfügung, die so unterschiedliche Aspekte der Motorik wie Tremor, Zweihandkoordination oder Körperkoordination messen. Aus Platzgründen ist es nicht möglich, hier eine Übersicht über diese Verfahren zu geben oder einzelne Tests vorzustellen. Stattdessen wird auf das von Bös (2001) herausgegebene, umfangreiche Handbuch verwiesen. Bewertung. Beim LGT 3 handelt es sich um ein Verfahren, das Lernleistungen und mittelfristige Gedächtnisleistungen hinreichend reliabel zu erfassen erlaubt. Mit sechs verbalen und figuralen Aufgaben erfolgt die Messung relativ breit. Normierung. Der Test wurde an 1.150 Gymnasiasten, Inspektorenanwärtern und Studenten standardisiert. Validität. Faktorenanalysen stützen die Berechnung eines Gesamtindexes wie die eines Verbal- und eines Figuralfaktors. Die Korrelationen mit Schulnoten und mit Intelligenz sind moderat. Reliabilität. Die Split-half-Reliabilitäten der einzelnen Untertests liegen zwischen .57 und .78, ihre Paralleltestkoeffizienten zwischen .51 und .69. Die Retestreliabilität für einen Zeitraum von 1–2 Wochen variiert zwischen .72 und .85, für 3–4 Wochen zwischen .47 und .71, und für den Gesamtwert beträgt sie .89 bzw. .71. Kapitel 3 · Diagnostische Verfahren Breite Messung 232 6 Nachfolgend werden Aufgabenbeispiele zu Griffiths Entwicklungstest aufgeführt (in Klammern die normale Variationsbreite des Alters, definiert als Bereich zwischen dem 5. und 95. Perzentil, sowie der Median). Die Aufgabennummer informiert über die Position des Items in der Skala. Aufgaben mit zwei Nummern (z. B. A 31/32) werden mit 2 Punkten bewertet. Beispiel Gliederung. Die insgesamt 208 Aufgaben erlauben die Untersuchung der Bereiche Motorik, sozialer Kontakt, Hören und Sprechen, Auge-Hand-Koordination und kognitive Entwicklung (7 Beispiel). Jede der fünf Skalen misst einen eigenen Entwicklungsbereich und kann auch alleine durchgeführt werden. Brandt, I. & Sticker, E.J. (2001). Göttingen: Beltz Test Die GES stellen den einzigen Entwicklungstest für die ersten beiden Lebensjahre dar, der an deutschen Kindern standardisiert ist (Brandt & Sticker, 2001). Die Skalen gehen auf Griffiths Mental Development Scale zurück, erstmalig 1954 unter dem Titel »The Ability of Babies« veröffentlicht (Griffiths, 1954). Diese Version kam in Deutschland zwischen 1967 und 1979 im Rahmen einer Längsschnittstudie zur Entwicklung von Frühgeborenen und Reifgeborenen zum Einsatz. Neben den 257 Items der Originalversion wurden 102 Zusatzaufgaben erprobt. Die Ergebnisse dieser Studie lagen der 1983 erschienenen ersten deutschen Version zugrunde. Dabei fanden auch die Kürzungen Berücksichtigung, die Griffiths in einer 1970 erschienen Überarbeitung des Tests vorgenommen hatte. Die Autorinnen der deutschen Fassung bemühten sich um eine möglichst enge Anlehnung an die englische Originalfassung und nahmen nur unbedingt erforderliche Änderungen vor. GES: Griffiths Entwicklungsskalen zur Beurteilung der Entwicklung in den ersten beiden Lebensjahren, deutsche Bearbeitug (2., überarbeitete und erweiterte Aufl.). Einige Entwicklungstests dienen als Breitbanddiagnostikum und erfassen mit ihren Subtests mehrere Entwicklungsbereiche. Allgemeine Entwicklungstests Ein 17jähriger erreicht in einem Intelligenztest für Kinder 65 Punkte. Der Diagnostiker sucht die Normtabelle, in der ein IQ von 100 bei 65 Punkten zuerkannt wird. Er stellt fest, dass dies in der Altersgruppe 9;0 bis 10;0 Jahre der Fall ist. Die Schlussfolgerung lautet, dass der Proband in diesem Test den Leistungsstand eines durchschnittlichen 9jährigen erreicht hat. Sein »Intelligenzalter« beträgt somit 9 Jahre. Beispiel keine altersgerechten Verfahren zur Verfügung stehen. Dazu wird in den Normtabellen nachgesehen, in welcher Altersgruppe der ermittelte Testrohwert des Probanden zu einem genau durchschnittlichen Normwert (bei IQ-Werten also 100) führen würde. Das Alter der Normgruppe, in welcher der Testrohwert exakt einer durchschnittlichen Testleistung entspricht, kennzeichnet den aktuellen Entwicklungsstand des Probanden. 3.1 · Leistungstests Fünf Skalen Enge Anlehnung an englisches Original Für die ersten beiden Lebensjahre Entwicklungsstand bestimmen 233 3 3 Lediglich Entwicklungsprofile behinderter Kinder Entwicklungsquotient Entwicklungsalter feststellen Überspringen von Aufgaben zulässig zwischen 1967 und 1979 an 102 Kindern statt, die zunächst in Monatsintervallen, später in größeren Abständen wiederholt untersucht wurden. Normen in dem Sinne, dass Normierung. Die deutsche Normierung fand im Rahmen einer Längsschnittstudie Validität. Im Manual wird lediglich auf die Entwicklungsprofile verschiedener behinderter Kinder verwiesen, die den Erwartungen entsprechen. Reliabilität. Die Reteststabilität des Gesamtentwicklungsquotienten variiert bei einer Testwiederholung nach drei Monaten zwischen .49 (Alter bei der ersten Messung 3 Monate) und .81 (Alter 15 Monate). Im Durchschnitt liegen die Koeffizienten im zweiten Lebensjahr mit .80 höher als im ersten (.62). Auswertung. Eine Aufgabe gilt als gelöst, wenn die Bewertungskriterien erfüllt sind. Für einige Aufgaben werden zwei Punkte vergeben. Die Skalen sind so aufgebaut, dass für jeden Lebensmonat zwei Aufgaben bzw. eine mit zwei Punkten bewertete Aufgabe vorliegen. Das Entwicklungsalter eines Kindes lässt sich daher relativ einfach feststellen, indem die erreichte Punktzahl durch 2 dividiert wird. Für den Gesamttest (fünf Bereiche) ist die Summe der gelösten Aufgaben durch 10 zu dividieren. Erreicht ein Kind beispielsweise insgesamt 125 Punkte, hat es ein Entwicklungsalter von 12,5 Monaten. Das Entwicklungsalter ist in Relation zum Lebensalter (z. B. 18 Monate) zu sehen. Ein Entwicklungsquotient kann berechnet werden, indem das Entwicklungsalter durch das Lebensalter dividiert und das Ergebnis mit 100 multipliziert wird. Im Beispiel: (12,5/18) × 100 = 69. Durchführung. Das Verfahren ist ein Individualtest für die ersten beiden Lebensjahre und soll in Gegenwart einer vertrauten Person durchgeführt werden, die notfalls den Testleiter unterstützen kann. Für die Durchführung wird standardisiertes Testmaterial (z. B. ein kleiner, rotlackierter runder Holzstab, eine Schachtel mit 12 Spielsachen) benötigt. Die Untersuchung beginnt bei nicht retardierten Kindern mit Aufgaben, die etwa zwei Monate unter dem Lebensalter des Kindes liegen und wird beendet, wenn mehr als zwei aufeinander folgende Aufgaben in jedem Untertest nicht mehr gelöst werden. Wenn aus der Beobachtung des Kindes bekannt ist, dass es eine bestimmte Aufgabe lösen kann, braucht diese nicht durchgeführt werden. Bei den Aufgaben mit Testmaterial finden sich genaue Anweisungen zum Vorgehen. Die reine Durchführungszeit ist bei gesunden Kindern im ersten Lebensjahr mit 20-30 min zu veranschlagen, bei älteren Kindern mit etwa 45 min. Motorik: A 14 Sitzt frei, mindestens 1 Minute (6–10 Monate; Md = 7,3); A 31/32 Kann rückwärts gehen (14–19 Monate; Md = 15,4). Persönlich-Sozial: B 3 Lächelt (1–3 Monate; Md = 2,0); B 14 Unterscheidet Fremde von Bekannten (5–9 Monate; Md = 7,0). Hören und Sprechen: C 12 Reagiert, wenn es gerufen wird (4-8 Monate; Md = 6,0); C 17/18 Sagt Mama oder Papa klar bzw. ein anderes Wort (7–15 Monate; Md = 9,0). Auge und Hand: D 7 Nimmt den Ring, den man ihm reicht (2–5 Monate; Md = 3,5); D19 Vollständiger Pinzettengriff (9–12 Monate; Md = 10,1). Leistungen: E 6 Hält den runden Holzstab für einige Sekunden (1–5 Monate; Md = 3,2); E21 Findet das versteckte Spielzeug unter der Tasse (7–13 Monate; Md = 9,7). Kapitel 3 · Diagnostische Verfahren Standardisiertes Testmaterial 234 Objektivität und Reliabilität. Bei den meisten Subtests ist die richtige Lösung anhand des Manuals eindeutig feststellbar. Die verbalen Subtests und das Nachzeichnen lassen Auswertung. Nach den Auswertungsrichtlinien des Manuals wird jedes richtig gelöste Item mit einem Punkt bewertet; lediglich beim Subtest Wörter sind auch zwei Punkte für eine Antwort möglich. Anhand von altersspezifischen Normtabellen transformiert der Auswerter für jeden Subtest die Summe der Punkte in einen C-Wert. In ein Profilblatt eingetragen ergeben die C-Werte das so genannte Entwicklungsprofil. Fakultativ kann ein Gesamtwert (»Gesamtentwicklungsscore«) berechnet werden, indem der Mittelwert aller C-Werte ohne den Elternfragebogen bestimmt und anhand einer Tabelle in einen Standardwert transformiert wird. Durchführung. Der WET wird in einer Einzelsitzung durchgeführt. Die Durchführung nimmt bei Kindern bis 3;6 Jahren etwa 90 min in Anspruch, bei älteren Kindern etwa 75 min. Dabei kommen standardisierte Testmaterialien, wie etwa ein Lernbär oder ein Schatzkästchen zur Anwendung. Gliederung. Zu jedem der fünf Entwicklungsbereiche liegen zwei bis vier Subtests vor (. Tab. 3.10). Eine Sonderstellung nimmt der Elternfragebogen ein, der keinen Leistungstestcharakter hat. Wiener Entwicklungstest WET von Kastner-Koller und Deimann (1998). Göttingen: Hogrefe Der Test soll bei Vorschulkindern (Alter von 3;0 bis 5;11 Jahre) den Entwicklungsstand in sechs Funktionsbereichen (Motorik, visuelle Wahrnehmung/Visumotorik, Lernen und Gedächtnis, kognitive Entwicklung, Sprache sowie sozial-emotionale Entwicklung) überprüfen. Bei der Entwicklung und Auswahl der Subtests legten die Autorinnen besonderen Wert auf eine Verankerung der Aufgabeninhalte im konkreten Lebensraum 3–6jähriger Kinder und eine spielerische Gestaltung der Testsituation. Die verwendeten Aufgabentypen hatten sich bereits in vorliegenden Entwicklungstests bewährt; zum Teil handelt es sich auch um Neuentwicklungen. Die Entwicklung der Skalen erfolgte auf Grundlage der probabilistischen Testtheorie. Der WET liegt nun in einer überarbeiteten, 2002 erschienenen Form vor. Verlagsangaben zufolge wurden die Durchführungs- und Auswertungsanweisungen präzisiert. Modifikationen bei den Testmaterialien betreffen Layout und Materialgestaltung ohne Einfluss auf die Iteminhalte. Sorgfältig konstruiert Bewertung. Bei den GES handelt es sich um ein sehr sorgfältig konstruiertes Verfahren. Bedauerlich ist, dass im Manual das Thema Validität sehr stiefmütterlich behandelt wird, zumal internationale Forschungsergebnisse zu dem inzwischen in mehreren Sprachen vorliegenden Test vorliegen. Die Autorinnen berichten über Studien, denen zufolge sich die Testleistungen, anders als bei der Intelligenz, nicht im Laufe der Jahre verändert haben. Dennoch erscheint eine umfangreichere deutsche Nacheichung sowie die Ermittlung eigener Werte zur Abklärung der Validität der deutschen Version geboten. Entwicklungsprofil und Gesamtwert Standardisiertes Testmaterial Kindgerechte Aufgaben Für Altersbereich 3–6 Jahre Nacheichung wünschenswert Validitätshinweise fehlen im Manual Keine Transformation in Normwerte 235 Testrohwerte in Standardwerte transformiert werden, existieren nicht. Die Erhebung diente dazu, für jede Aufgabe das Alter zu ermitteln, indem 50% der Kinder sie lösten. Mit der oben beschriebenen Auswertungsprozedur wird die individuelle Testleistung mit den Leistungen der Normgruppe verglichen. 3.1 · Leistungstests 3 3 236 22 9 13 10 11 15 10 10 10 24 10 4 10 Itemzahl »Mein Kind zieht sich ohne Hilfe aus.« Foto einer Person; Gefühl (»Freude«) benennen. Der Hund beißt den Vater, der das Mädchen festhält« mit Spielmaterial darstellen Das Wort »zeichnen« ist zu erklären. »Warum sollte man nicht so viele Süßigkeiten essen wie man gerne möchte?« Der Satz »Der Würfel ist eckig, der Ball ist…« ist (mit dem Wort »rund«) zu ergänzen. Matrizenaufgaben: Aus jeweils fünf vorgegebenen Lösungsmöglichkeiten soll das Element bestimmt werden, das eine 3–3-Matrix sinnvoll ergänzt. Nach Vorlagen Muster mit Mosaiksteinen nachlegen. vorgesprochene Zahlenfolgen (2 bis maximal 6 Zahlen) sollen unmittelbar nachgesprochen werden. Nach max. 10 Lerndurchgängen unmittelbar danach und 20 min später 6 verschiedene, in Schubladen versteckte Spielgegenstände wieder finden. Einzelne Kärtchen auf einer Bildtafel mit sechs Feldern zum Thema Meer ordnen. Ein Kreuz von einer Vorlage abzeichnen. Am Teddybär mit einer Kordel (als Halsband) einen Knoten binden. Einbeiniges, freihändiges Stehen mit geschlossenen Augen für mindestens 3 s. Items bzw. Itembeispiel Anmerkung. a Funktionsbereiche: M = Motorik, V = Visuelle Wahrnehmung/Visumotorik, LG = Lernen und Gedächtnis, K = Kognitive Entwicklung, S = Sprache, SE = Sozial-emotionale Entwicklung. Selbstständigkeitsentwicklung des Kindes Verständnis mimischer Gefühlsausdrücke SE: Fotoalbum SE: ElternFragebogen Verständnis grammatischer Strukturformen S: Puppenspiel Sprachliche Begriffsbildung Analoges Denken K: Gegensätze S: Wörter Erklären Induktives Denken (Kreuzklassifikationen) K: Bunte Formen Orientierung in der Lebenswelt Räumliches Denken (2-D) K: Muster Legen K: Quiz Phonologische Speicherkapazität Visuell-räumliche Speicherkapazität Differenzierte RaumLage-Wahrnehmung LG: Zahlen Merken LG: Schatzkästchen V: Bilderlotto Visumotorische Koordination (Graphomotorik) Feinmotorische Fähigkeiten M: Lernbär V: Nachzeichnen Grobmotorische Fähigkeiten Messgegenstand M: Turnen Funktionsbereicha und Subtest . Tabelle 3.10. Subtests des Wiener Entwicklungstests Kapitel 3 · Diagnostische Verfahren Bei der Erfassung eines mehr oder weniger eng umschriebenen Entwicklungsbereichs kommen sog. spezielle Entwicklungstests zum Einsatz. Unter diesen nehmen Tests zur Untersuchung des kognitiven Entwicklungsstandes quantitativ eine dominante Rolle ein. Im Abschnitt Intelligenztests wurden bereits einige Tests vorgestellt, die für das Vorschul- und Schulalter geeignet sind. Wenn speziell die Kreativität diagnostisch relevant ist, kann der Kreativitätstest für Vorschul- und Schulkinder für die psychologische Anwendungspraxis (KVS-P) von Krampen (1996) eingesetzt werden. Als Beispiel für einen Test zur Untersuchung des motorischen Entwicklungsstandes sei exemplarisch die Lincoln-Oseretzky-Skala LOS KF 18 von Eggert (1974) genannt. Dieser Test enthält Aufgaben wie z. B. mit geschlossenen Augen die Nasenspitze berühren, mit offenen Augen 10 s auf einem Bein stehen und Streichhölzer mit einer Hand sortieren. Über weitere Motoriktests informiert das Handbuch von Bös (2001). Spezielle Entwicklungstests Test zur motorischen Entwicklung Validitätsbelege fehlen Einziges Breitbandverfahren im deutschen Sprachraum stände in mehreren Bereichen liefern kann. Kein anderes im deutschen Sprachraum verfügbares Verfahren kann diesen Anspruch erheben. Das Testmaterial und die Aufgaben selbst sind sehr kindgerecht. Von einem mehrdimensionalen Verfahren ist zu verlangen, dass zu jeder separat ausgewerteten Skala Validitätsbelege vorliegen. Davon ist der WET noch weit entfernt. Deshalb ist anzuraten, den Test als Screeninginstrument einzusetzen und bei auffällig niedrigen Skalenwerten mit anderen Verfahren diesen Bereich näher zu untersuchen. Bewertung. Der WET ist ein Breitbandverfahren, das Hinweise auf Entwicklungsrück- 3 Repräsentative Normstichprobe Faktorielle Struktur deckt sich nicht mit Funktionsbereichen 237 Normierung. Der ersten Aufl. liegt noch eine Normierungsstichprobe von 274 Kindern zugrunde, die nach verschiedenen Kriterien für Österreich repräsentativ ist. Nach Angaben des Verlags liegen mit der neuen Aufl. nun repräsentative Normen für deutsche und österreichische Kinder (N > 1.200) vor. Validität. Die Autorinnen werten die Zunahme der Subtestleistungen mit dem Alter als Validitätsbeleg. Faktorenanalysen sprechen dafür, dass der Test verschiedene Aspekte der Entwicklung erfasst. Die Faktoren passen allerdings nicht bei allen Subtests zu den a priori angenommenen Funktionsbereichen. Beispielsweise bilden die beiden Motoriktests keinen gemeinsamen Faktor; sie korrelieren auch nur zu .22 miteinander. Wohl aus diesem Grund erfolgt auch keine Zusammenfassung von Subtestergebnissen zu Entwicklungsbereichen. einen gewissen Spielraum bei der Bewertung. Im Manual der 1. Aufl. (S. 20) findet sich der etwas vage Hinweis, dass »die Interrater-Übereinstimmung über .80 liegt«. Zur Reliabilität liegen Ergebnisse von Konsistenzanalysen sowie zum Subtest Zahlen Merken Retestergebnisse vor (rtt = .67). Cronbachs α variiert zwischen .66 (Lernbär) und .90 (Bilderlotto, Quiz und Elternfragebogen). Zumindest in der 1. Aufl. findet sich kein Hinweis auf Umfang und Zusammensetzung der Stichprobe. Für den Fall, dass sich die Reliabilitätsangaben im Manual auf die Gesamtstichprobe beziehen, wird die Reliabilität des Tests in der Altersgruppe, auf die sich die einzelne Anwendung notwendigerweise bezieht, weit überschätzt. 3.1 · Leistungstests 3 Validität wegen hoher Grundrate nicht ausreichend Hohe Reliabilität Aufgabentypen Schultests Die sicherste Methode zur Schuleingangsdiagnose ist die Einschulung aller Schüler mit der Möglichkeit, sich im Kriterium bewähren zu können. Als Frühindikatoren für potentielle Schulprobleme, auf die die Schule rechtzeitig mit gezielten Fördermaßnahmen zu reagieren hätte, sind Schuleingangstests aber durchaus nützlich. Fazit Reliabilitätskoeffizienten um .90 belegen die hohe Zuverlässigkeit der Verfahren, Korrelationen um .60 zwischen Testergebnis und dem Schulerfolg nach einem Jahr eine befriedigende Validität. Nur das Kieler Einschulungsverfahren KEV (Fröse et al., 1986) und der Weilburger Test für Schulanfänger (Hetzer & Tent, 1971) können mit r = .71 bzw. .70 eine überdurchschnittliche Validität vorweisen. Vor dem Hintergrund einer Schulerfolgsrate von 90% bei Einschulung aller Schüler können aber auch derart valide Verfahren nach Berechnungen von Tiedemann (1974) die Trefferquote der Grundrate nicht übertreffen. 3.1.5.1 Schuleingangstests Sie sind auch als Schulreifetests bekannt und haben die Aufgabe zu prüfen, ob ein schulpflichtiges Kind den Anforderungen der Schule gewachsen ist. Durch ihren Einsatz bereits vor Schuleintritt soll verhindert werden, dass noch nicht schulfähige Kinder überfordert und dadurch psychisch geschädigt werden. Ihre Schwierigkeit besteht darin, dass ein Verhalten vorhergesagt werden soll, das zu praktizieren Kinder bisher kaum Gelegenheit hatten. Sie versuchen dies, indem sie in einfacher und kindgemäßer Form jene Grundfertigkeiten stichprobenmäßig erfassen, die Kinder im ersten Schuljahr erlernen und rudimentär bereits besitzen sollen. Die Fähigkeit zur Formerfassung wird dabei als Voraussetzung zum Erlernen der grafischen Symbole, die Auffassung von Mengen bis 5 als Basis für erfolgreiche Teilnahme am Mathematikunterricht angesehen. Grafomotorische Aufgaben sollen grundlegende schreibmotorische Fertigkeiten diagnostizieren. Viele Schulreifetests verlangen das Nachzeichnen von Formen und Zeichnen eines Menschen. Der Schwerpunkt der Aufgaben liegt eindeutig im kognitiven Bereich. Nach Langfeldt und Tent (1999, S. 140) finden folgende Aufgabentypen in 9 analysierten Schulreifetests am häufigsten Verwendung (in Klammern die Anzahl der Tests mit diesem Aufgabentyp): 4 Nachmalen von Formen (Figuren, Ziffern, Buchstaben und Kombinationen (8) 4 Mann-Zeichnungen (5) 4 Abstrakte Figuren (Zaun, Muster) wiederholt zeichnen (5) 4 Malen bzw. Legen vorgegebener oder kurz exponierter Mengen (4) 4 Identische Figuren aus ähnlichen heraussuchen und markieren (4) 4 Markieren von Bildern nach Sprachverständnis für Einzelsituationen (4) Schultests unterscheiden sich nicht grundsätzlich von Entwicklungstests, die häufig an Schulleistungen validiert werden, sondern vor allem hinsichtlich der Spezifität ihrer Anforderungen. Während Entwicklungstests eher allgemeinere Fähigkeiten zu erfassen trachten, wollen Schultests speziellere Fähigkeiten und Fertigkeiten ermitteln. Folgende Gruppen lassen sich unterscheiden: 4 Schuleingangstests, 4 Übertrittstests, 4 Schulleistungstests. 3.1.5 Kapitel 3 · Diagnostische Verfahren Schulreife feststellen 238 3.1.5.3 Schulleistungstests Bei ihnen handelt es sich um Verfahren, die zur Objektivierung der schulischen Leistungsbeurteilung konstruiert werden, da Lehrer Schülerleistungen häufig nur innerhalb der Klassenrangordnung hinreichend objektiv einzustufen vermögen. Der Vergleich mit überörtlichen Standards gelingt meist nur dann, wenn vergleichende Aufgabensammlungen vorliegen. Solche stehen aber nur selten zur Verfügung. Diese Lücke wollen Schulleistungstests schließen. Es gibt sie vor allem für die Fächer Deutsch und Mathematik der ersten 6 Schuljahre. Beispielsweise liegt eine Serie von Diagnostischen Rechtschreibtests vor, die für die 1. bis 5. Klasse konzipiert sind (DRT 1, DRT 2, DRT 3, DRT 4 und DRT 5). Einige mit dem Attribut »diagnostisch« versehene Verfahren wollen nicht nur eine summarische Leistungsbeurteilung zur Objektivierung der Notengebung ermöglichen, sondern darüber hinaus auch Hinweise auf spezifische Lernprobleme und Teilleistungsschwächen (Legasthenie, Dyskalkulie oder Rechenschwäche) geben. Diese Funktion erfüllen besonders Lese-, Rechtschreib- und Rechentests. Die derzeit veröffentlichten Schulleistungstests können durchweg als sehr reliabel und im Verhältnis zu Entwicklungstests als überdurchschnittlich valide eingestuft werden. Das verwundert nicht, sind sie doch auf die curricularen Anforderungen überregionaler Lehrpläne zugeschnitten und somit logisch valide. Schulleistungen eines Schülers oder einer ganzen Klasse werden auf diese Weise mit überregionalen Standards vergleichbar. Hierin liegt aber auch ihre Schwäche. Überregionale Gültigkeit ist häufig nur durch Vernachlässigung regionaler oder örtlicher Spezifika zu erreichen. Dadurch finden Lehrer u. U. die Kriterien ihrer besonderen Curricula nicht hinreichend repräsentiert. Das mag neben der Kostenfrage ein Grund dafür sein, dass Schultests in Schulen relativ selten eingesetzt werden. Sie sind deswegen nicht überflüssig, geben sie doch Psychologen in Beratungsstellen die Möglichkeit, die Angemessenheit schulischer Leistungsbeurteilungen wenigstens ungefähr überprüfen zu können. Bei größeren Diskrepanzen ist eine angemessene Lernerfolgsmessung nur in Kenntnis der konkreten Anforderun- Insgesamt gesehen ist die prognostische Validität der Übertrittstests zu gering, um individuelle Entscheidungen allein von ihren Ergebnissen abhängig zu machen. Die Erkenntnis, dass künftige Schulleistungen am besten durch den bisherigen Leistungstand prognostizierbar sind, erfordert die Einbeziehung von Schulleistungstests in die Übertrittsdiagnostik. Fazit 3.1.5.2 Übertrittstests Dies sind Verfahren, die das Misserfolgsrisiko für den Übertritt auf weiterführende Schulen, besonders des Gymnasiums, abschätzen helfen sollen. Bei ihnen handelt es sich um Gruppentests, die sich von den bereits angesprochenen Entwicklungstests vor allem durch ihre Beschränkung auf diese spezielle Aufgabe und den Einsatz in der 4.–5. Schulklasse unterscheiden. Zu ihnen gehören der Test Aufgaben zum Nachdenken AZN (Hylla & Kraak, 1976) und der Bildungsberatungstest für 4. bis 6. Klassen BBT 4-6 (Ingenkamp et al., 1977). Die prognostische Validität dieser speziellen Verfahren liegt bei bis zu 40% aufgeklärter Varianz im kurz- und mittelfristigen Bereich (Rüdiger et al., 1985) zwar etwas höher als bei den vorgestellten Entwicklungstests, langfristige Prognosen sind aber nach Heller et al. (1978) bei Korrelationen von .24 zur Deutschnote und .32 zur Mathematikzensur auch mit den AZN gewagt und mit dem BBT 4-6 überhaupt noch nicht erprobt. 3.1 · Leistungstests 3 Hilfe in Beratungsfällen Reliabel und vergleichsweise valide Tests sollen Benotung objektivieren Probleme bei langfristigen Prognosen 239 3 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.2.6 3.2.7 Persönlichkeit und Temperament Persönlichkeit und Temperament – 240 Allgemeines zu Fragebogen – 241 Persönlichkeitstestsysteme – 250 Verfahren zur Erfassung aktueller Zustände – 288 Verfahren zur Erfassung von Interessen – 294 Verfahren zur Erfassung der Motivation – 297 Handlungskontrolle (Volition) – 300 Persönlichkeitsfragebogen Autoren wie Eysenck (1953) und Guilford (1964) definieren Persönlichkeit in einem umfassenden Sinne, der außer den Charakter- und Temperamentsunterschieden auch Traits für Bedürfnisse sowie Interessen und sogar morphologische und physische Wesenszüge einschließt. Der Leistungsbereich wurde im vorangegangenen Abschnitt behandelt. Die Verfahren, die im vorliegenden Kapitel erörtert werden sollen, verstehen sich als solche zur Erfassung von Persönlichkeitsmerkmalen »im engeren Sinne«. Darunter fallen gewöhnlich Faktoren des emotionalen, motivationalen und sozialen Verhaltens. Von Bedeutung ist nicht, wie gut jemand etwas tut, sondern die Richtung sowie die Art und Weise, in der dieses geschieht. Ängstlichkeit und Neurotizismus, Extraver- 3.2.1 3.2 Weiterführende Literatur Über Entwicklungstests im Vorschulalter informieren ausführlich Rennen-Allhoff und Allhoff (1987), »Entwicklungstests für das Säuglings-, Kleinkind- und Vorschulalter«. Informationen und Besprechungen zu Entwicklungs- und Schultests bietet die Jahrbuchreihe von Ingenkamp u. a. (1981 ff.) Tests und Trends. Die Serie wird seit 2000 von Hasselhorn, Schneider und Marx weitergeführt. Bisher sind Themenbände zur Diagnostik von Lese-Rechtschreibschwierigkeiten, Motivation und Selbstkonzept, Konzentration und Aufmerksamkeit sowie von Mathematikleistungen erschienen. Einen breiten und fundierten Überblick über angewandte Fragen der pädagogisch-psychologische Diagnostik geben Langfeldt und Tent (1999). Aktuelle Auskünfte über lehrzielorientierte Tests sind bei Schulbuchverlagen zu erhalten, die für ihre Lehrwerke entsprechende Verfahren bereitstellen. Schulleistungstests sind in der Regel sehr valide normorientierte Indikatoren der Schulleistungen und erlauben Vergleiche der Individualleistung mit überregionalen Normen. Bei größeren Diskrepanzen zwischen örtlichen und überregionalen Standards ist der Einsatz lehrzielorientierter Tests erforderlich. Fazit gen zu leisten. An die Stelle der genannten normorientierten Schulleistungstests müssen lehrzielorientierte Tests treten (7 Abschn. 2.1.3), die sich eng an den jeweiligen Curricula orientieren. Kapitel 3 · Diagnostische Verfahren Erfassung von emotionalem, motivationalem und sozialem Verhalten 240 Allgemeines zu Fragebogen Eine Voraussetzung dieser Technik besteht allerdings darin, dass die Betreffenden sich selbst überhaupt kennen und zu beobachten imstande sind. Von besonderen Umständen, wie psychiatrischen Erkrankungen oder geistiger Behinderung einmal abgesehen, darf das im Regelfall unterstellt werden. Einige Testautoren raten explizit vom Einsatz ihres Persönlichkeitsfragebogens ab, wenn der Proband nicht über ein näher spezifi- Selbsteinsicht In vielen Verhaltensbereichen besteht der naheliegende Zugang, etwas über eine Person zu erfahren, darin, diese zu beobachten, und zwar möglichst lange und in verschiedenem Kontext. Abgesehen davon, dass die Anwesenheit eines Beobachters dem Beobachteten nicht immer verborgen gehalten werden kann und dadurch der Akteur in seinem Auftreten, dem Aktionsradius und den spezifischen Handlungen beeinflusst werden mag, stößt ein solcher Ansatz sehr rasch an die oft engen Grenzen zeitlicher, sachlicher und personeller Ressourcen. Eine auf das beobachtbare Verhalten gerichtete Befragung stellt hier eine äußerst ökonomische Variante dar. Wenn sie nicht in einem mehr oder weniger freien Gespräch oder Interview durchgeführt wird, sondern sich vorformulierter Fragen oder Feststellungen und gebundener Antworten bedient, gewährleistet sie zudem hohe Objektivität in der Durchführung und schafft die Voraussetzung für eine objekitve Auswertung und Interpretation. Eine solche Befragung ist darüber hinaus in Bezug auf Einstellungen, innere Zustände, Erlebnisweisen und Kognitionen oftmals die einzige in Betracht kommende Methode, etwa weil die interessierenden Phänomene entweder gar nicht »von außen« oder nur mit äußersten Schwierigkeiten und Fehlerquellen zu beobachten wären. Daher ist weder die Notwendigkeit noch die Zweckmäßigkeit des Ansatzes bestreitbar, durch direkte Befragung etwas über die Empfindungen und Emotionen, Erlebnisse, Präferenzen und Motive von Personen in Erfahrung zu bringen. 3.2.2 sion-Introversion, Dominanz-Submission und Aggressivität sind geläufige Dimensionen für Eigenschaften einer derartigen Provenienz. Davon abgehoben werden mehr und mehr Unterschiede des Temperaments als einer Ebene, die der Persönlichkeit zugrunde liegt und stärker genetisch determiniert ist. Temperament bezieht sich auf »formale, relativ stabile Verhaltenseigenschaften, die sich in der energetischen Ebene des Verhaltens und in Zeitcharakteristika von Reaktionen niederschlagen« (Strelau, 1986, S. 201). Überdauernde Veränderungen durch Umwelteinflüsse sind allenfalls bei langdauernder und massiver Einwirkung zu gewärtigen. Beispiele für Temperamentseigenschaften sind Aktivität (Intensität oder Häufigkeit, mit der Personen Handlungen ausführen oder Aufgaben in Angriff nehmen) und Reaktivität (Intensität und Häufigkeit der individuellen charakteristischen Reaktionen) mit den Polen von extremer Beständigkeit (als Äquivalent der »Stärke des Nervensystems«) und extremer Sensibilität. Aus der Vielzahl der in Frage kommenden Verfahren zur Erfassung verschiedener Persönlichkeitsbereiche und Eigenschaftsdimensionen werden nachfolgend angesprochen: 4 Persönlichkeitstestsysteme (»breite« Erfassung der Persönlichkeit), 4 Fragebogen zur Erfassung der Motivation, 4 Fragebogen zur Erfassung von Interessen, 4 Fragebogen zur Erfassung aktueller Zustände. 3.2 · Persönlichkeitsfragebogen Selbstbeobachtung der Probanden als Voraussetzung Vorteile von Fragebogen Temperament als zugrunde liegende Ebene 241 3 3 Fragebogen sind »subjektive Verfahren« Relativierung an Mitmenschen Erinnerungen an eigene Verhaltensstichproben ziertes Mindestmaß an Intelligenz verfügt. Damit wird zugleich auch sichergestellt, dass die Probanden den Sinn der Fragen verstehen. Freilich sollten die Schwierigkeiten, diese Selbstbeobachtung vorzunehmen, nicht unterschätzt werden, und – mehr noch – ein Urteil darüber abzugeben, wie oft bzw. intensiv die erfragten Sachverhalte auftreten oder in der Vergangenheit (wie weit soll diese zurückreichen?) aufgetreten sind. Die besagten Urteile sind hinsichtlich ihrer Komplexität sicher höchst verschieden: Der einfachste Fall beinhaltet lediglich ein mehr oder weniger intensives Nachdenken darüber, ob ein bestimmtes Phänomen oder Ereignis bereits vorkam oder nicht (z. B. »Haben Sie schon einmal Sachen an sich genommen, die Ihnen nicht gehörten?«). Hingegen setzt bereits eine Antwort auf die Frage: »Morgens nach dem Aufwachen bin ich häufig noch eine ganze Weile müde und kaputt« einen vielschichtigen Entscheidungsprozess voraus, bei dem u. a. berücksichtigt werden muss, welche Prozesse zu Müdigkeit zählen und was unter »häufig« zu verstehen ist. Gezielten Untersuchungen zufolge verstehen verschiedene Personen nämlich durchaus Unterschiedliches unter Begriffen wie »gewöhnlich«, »häufig«, oder »selten«, und selbst »nie« bedeutet keineswegs durchgängig die Auftretenswahrscheinlichkeit Null. Zudem hängt dieses Verständnis von der Art des Ereignisses (»häufiger Kinobesuch« ist etwas anderes als »häufiger Kopfschmerz«) ab. Noch schwieriger dürfte es sein, etwa auf das Item: »Übernehmen Sie bei gemeinsamen Aktionen gern die Führung?« eine angemessene Antwort zu geben. Dabei muss zunächst an alle Unternehmungen gedacht werden, die in die fragliche Kategorie fallen und die ganz verschiedene Implikationen für die Befragung haben können (je nachdem nämlich, ob es für die Erfüllung des Tatbestandes »gemeinsam« ausreicht, wenn eine weitere Person, etwa die Partnerin, mit von der Partie ist oder ob an größere Gruppen gedacht ist, die Aktion eine solche aus eigenen Stücken oder durch externe Zwänge bestimmt ist, sich auf soziale, sportliche, ökonomische oder ökologische Ziele richtet, in die berufliche Tätigkeit oder die Freizeit fällt usw.). Den höchsten Komplexitätsgrad erreichen schließlich Beurteilungen, die unmittelbar eine Einstufung auf der entsprechenden Eigenschaftsdimension erfordern (z. B. »Im großen und ganzen bin ich ein ehrlicher Mensch«). Hier müssen aus dem Gedächtnisspeicher ganze Serien von situativen und temporären Verhaltensstichproben abgerufen und ein integraler Wert gebildet werden, der nicht nur die Häufigkeit und Schwere ggf. unaufrichtigen Verhaltens beinhaltet, sondern auch noch Inferenzen über die durchschnittliche Ehrlichkeit anderer. Die Stärke eigener Merkmalsausprägungen erfährt nämlich in Ermangelung von absoluten Anhaltspunkten eine Relativierung durch die bei den Mitmenschen wahrgenommene (oder nur vermutete) Eigenschaftsausprägung (zu den Prozessen bei der Abgabe von Eigenschaftsurteilen s. Amelang, 1994). Die Standardisierung von Fragebogen durch die Invarianz der einmal gewählten Itemformulierung und das weitestgehende Ausblenden von Interaktionen mit dem Testleiter gewährleisten eine fast vollständige Objektivität. Doch es bleibt den Probanden selbst überlassen, an welche Ereignisse und Zustände sie im einzelnen bei der Konfrontation mit dem sprachlichen Stimulus des jeweiligen Items denken und wie sie dies intern kategorisieren oder »verrechnen«. Unter dieser Perspektive handelt es sich bei Fragebogen gewiss um »subjektive« Verfahren (s. a. Mittenecker, 1971, S. 461), die aber wegen ihrer psychometrischen Objektivität eine Sonderstellung innehaben. Diese Subjektivität stellt vermutlich einen der Gründe dafür dar, dass Persönlichkeitsfragebogen in der Validität meist hinter den einhellig als »objektiv« angesehenen Leistungstests zurückbleiben. Weitere Unterscheidungsmerkmale zwischen Tests aus dem Persönlichkeits- und Fähigkeitsbereich haben Fiske und Butler (1963) herausgestellt (. Tab. 3.11). Kapitel 3 · Diagnostische Verfahren Komplexe Urteilsprozesse nötig 242 Gewöhnlich eindeutig. Richtig und Falsch im logisch eindeutigen Sinn. Die Probanden wissen, was von ihnen erwartet wird. Gewöhnlich hoch. Der Untersuchungsleiter verlangt maximale Leistung der Probanden. Aufgaben Antworten Einstellung Motivation der Probanden Ziele Der Untersuchungsleiter ist gewöhnlich interessiert am modalen oder typischen Verhalten der Probanden. Große Unterschiede, je nach Untersuchungsbereich, Probanden, Situation und dergleichen. Die Probanden kennen häufig nicht die Erwartungen des Untersuchungsleiters Kein Richtig oder Falsch im logisch eindeutigen Sinn; nur subjektive Stimmigkeit. Zwischen mehr- und eindeutig. Die Probanden werden gebeten, aufrichtig zu sein. Persönlichkeitsbereich Mit einem Persönlichkeitsfragebogen wird zunächst einmal erfasst, wie jemand sich selbst sieht oder beurteilt. Es stellt sich die Frage, was diese standardisierte Selbstbeschreibung mit der »Wirklichkeit« zu tun hat. Vor allem aber ist wiederholt beklagt worden, dass die Validität nur selten die Barriere von rtc = .30 übersteige, die Mischel (1968) als typisch für »personality coefficients« bezeichnet hat. Dieser Wert sei zwar signifikant bei ausreichend großen Stichproben, aber unbrauchbar für die individuelle Prognose bei Problemen von praktischem Belang. Die Frage nach der Kriteriumsvalidität von Persönlichkeitsfragebogen führt zu dem Kriterium Berufserfolg. Jedenfalls liegen dazu so viele Untersuchungen vor, dass inzwischen zahlreiche Metaanalysen über diese Studien durchgeführt wurden. Barrick, Mount und Judge (2001) haben diese Metaanalysen wiederum ausgewertet. Die Ergebnisse sind in . Tab. 3.12 aufgeführt. Die angegebenen korrigierten Korrelationen stellen Hochrechnungen dar, wobei Validität Hand in Hand mit diesen konzeptuellen Unterschieden geht eine gewisse Defizienz der Persönlichkeitsfragebogen im Vergleich zu den Leistungstests: Die internen Konsistenzen liegen oftmals nur zwischen .60 und .80 (was freilich durch Hinzufügen homogener Items oder Einengen des Konstruktbereiches leicht behoben werden kann), die Stabilitäten erreichen oft nur Werte zwischen .50 und .70. Schuerger, Zarrella und Hotz (1989) ermittelten in einer Metaanalyse über 89 unabhängige Stichproben für Neurotizismusskalen eine mittlere Stabilität von .70 nach einem Jahr und von .57 nach 1–5 Jahren. Für Extraversion fallen die Stabilitätskoeffizienten mit .80 bzw. .63 höher aus. Nach Janke (1973, S. 44 ff.) bleibt es unbekannt, ob diese Stabilitätskoeffizienten für konstantes Urteilsverhalten, für Gedächtniseffekte oder tatsächliche Konstanz der erfassten Merkmale stehen. Reliabilität Den Probanden wird aufgetragen, ihr Bestes zu geben. Instruktionen Fähigkeitsbereich . Tabelle 3.11. Unterschiede zwischen Fähigkeits- und Persönlichkeitstests. (Aus Amelang & Bartussek, 1990, S. 540) 3.2 · Persönlichkeitsfragebogen Metaanalysen mit Berufserfolg als Kriterium »Barriere« bei r = .30 Problematik der Validierung an verwandten Skalen Integritätstests haben höhere Validitäten 38.817 39.432 36.210 48.100 23.225 N 224 222 206 239 143 K .12 .12 .10 .23 .05 rkorr. rkorr.max. .20 .23 .27 .26 .24 Teamarbeit Ausbildungserfolg Ausbildungserfolg Vorgesetztenurteil Ausbildungserfolg Kriterium eine messfehlerfreie Abbildung des Kriteriums Berufserfolg angenommen wird. Barrick et al. (2001) haben die Untersuchungen zusätzlich nach verschiedenen Kriterien für Berufserfolg unterteilt (Vorgesetztenbeurteilung, objektive Leistungsmaße, Ausbildungserfolg und Teamarbeit). Die höchsten Korrelationen sind in der Tabelle rechts aufgeführt. Mit Hilfe der großen fünf Persönlichkeitsmerkmale, gemessen mit Fragebogen, kann man offensichtlich Berufserfolg nur zu einem sehr kleinen Teil erklären. Zumindest Gewissenhaftigkeit und Extraversion haben einen Bezug zum Arbeitsverhalten, Extraversion über die Aktivitätskomponente. Die große Zahl der Untersuchungen spiegelt vermutlich auch die Erwartung wider, einen Zusammenhang zwischen Persönlichkeit und Berufserfolg zu finden. Die Resultate sind sehr ernüchternd und bestätigen die Existenz der magischen Grenze von .30 für einen wichtigen Anwendungsbereich. Gegen diese Studien lässt sich einwenden, dass globale Persönlichkeitsskalen zu »grobe« Prädiktoren für Berufserfolg sind. Möglicherweise führt die Aufspaltung der großen Dimensionen in Einzelfacetten zu valideren Prädiktoren. Immerhin sind die Validitätsbefunde zu »Integrität« sehr ermutigend. Zwischen Integritätstests und Ausbildungs- und Berufserfolg bestehen (korrigierte) Korrelationen von .38 bzw. .41 (Schmidt & Hunter, 1998). Zur Ermittlung der Konstruktvalidität werden die Skalen eines Persönlichkeitsfragebogens oft mit den Skalen anderer Inventare korreliert. Wenn dann eine Neurotizismusskala hoch mit einer anderen korreliert, wird das als Beleg für die Konstruktvalidität der Skala gewertet. Dieses Vorgehen kann problematisch sein, wenn die Items der Skala lediglich nach dem Prinzip zusammengetragen wurden, »was sich bewährt hat, wird schon gut sein«. Testautoren benutzen andere Fragebogen manchmal als »Steinbruch«, aus dem sie geeignete Items übernehmen und eventuell noch leicht modifizieren. Auch wenn sie einige eigene Items erfinden und hinzufügen, wird die Ähnlichkeit zu den übernommenen groß sein, weil unähnliche Items nach einer Itemanalyse eliminiert werden. Dieses Vorgehen führt dazu, dass nicht wirklich neue Skalen entstehen. Die Korrelation mit anderen Skalen zeigt, was man ohnehin schon weiß, nämlich dass die Skalen einander ähnlich sind. In der unten angeführten Übersicht wird diese Problematik anhand eines fiktiven Beispiels (»Der Steinbruch-Test zur Aggressivität«) veranschaulicht. Die Items stammen aus unterschiedlichen Fragebogen – und passen dennoch inhaltlich gut zusammen. Anmerkung. Zusammengefasste Ergebnisse aus mehreren Metaanalysen, gemittelt über alle Kriterien (Barrick et al., 2001). N = Anzahl der Probanden, K = Anzahl unabhängiger Untersuchungen (keine Überlappung), rkorr. = geschätzte wahre Korrelation auf Skalenebene, rkorr.max. = höchste Korrelation mit einem spezifischen Kriterium. Emotionale Stabilität Extraversion Verträglichkeit Gewissenhaftigkeit Offenheit Skala . Tabelle 3.12. Persönlichkeitsskalen und Berufserfolg Kapitel 3 · Diagnostische Verfahren Stabilität von Neurotizismus und Extraversion 3 244 Korrelationen unter r = .30 3 Reliabilität niedriger als bei Leistungstests 243 nein ja 6 Wichtige Entscheidungen des alltäglichen oder beruflichen Lebens basieren auf der Einschätzung von Persönlichkeitsmerkmalen bei uns selbst oder anderen: Ob wir uns bestimmte Leistungen zutrauen oder eine Tätigkeit unseren Neigungen entspricht, mit welchen Personen wir gern zusammen sind, bei wem wir Rat suchen und wem wir vertrauen, wer als neuer Mitarbeiter ausgewählt wird und wen wir für eine berufliche Position als geeignet erachten – all diese Fragen und viele andere mehr beinhalten Urteile über die Ausprägung von Persönlichkeitsmerkmalen bei der eigenen Person, bei Bekannten oder Fremden. Sinnvoll ist ein Bezug auf die besagten Einschätzungen und die darauf aufbauenden Entscheidungen allerdings nur dann, wenn diese wenigstens ein Mindestmaß an Gültigkeit aufweisen, also valide sind. Von daher kommt dem Problem der Validität von Persönlichkeitseinschätzungen eine überragende Bedeutung zu. Selbstberichte über Emotionen und Ziele, Verhaltensweisen und Eigenschaften bilden fraglos einen sehr differenzierten und gleichsam besonders intimen diagnostischen Zugang zur Persönlichkeit: Nur die eigene Person ist in den unterschiedlichen Abschnitten und vielfältigen Situationen des Lebens die Konstante, während mit den unterschiedlichen Kontextbedingungen (z. B. Familie, Beruf, Freizeit usw.) die Personen unseres sozialen Umfeldes jeweils andere sein mögen. Von daher dürften die Informationen, die einem über die eigene Person zur Verfügung stehen, be- Zur diagnostischen Brauchbarkeit von Selbst- und Fremdeinschätzungen Exkurs Angemessene Kriterien zur Konstruktvalidierung sind Fremdeinschätzungen von Bekannten, Verwandten oder Freunden auf »homologen«, also dem Testkonstrukt verwandten Dimensionen. Diese Informationen weisen dazu einen »Status« auf (7 Abschn. 2.3.1.3), der sie als echtes Kriterium qualifiziert. Wird darüber hinaus – und das betrifft die konstruktorisch-technische Seite – Sorge dafür getragen, dass auf die psychometrischen Güteeigenschaften dieser Kriterien ebensoviel Sorgfalt verwendet wird wie für den Test (dazu Wittman & Schmidt, 1983), so sind Validitäten erzielbar, die durchaus an diejenigen von Leistungstests heranreichen (was im Einzelnen zu belegen sein wird). Anmerkung. Je zwei Items aus folgenden Skalen: Aggressivität der PRF Form KA, Durchsetzungsstärke des BIP, Aggressivität des FPI-R. 1. Ich werde leichter ärgerlich als die meisten anderen Leute 2. Ich streite mich oft mit anderen Leuten 3. Es macht mir wenig aus, mich bei anderen unbeliebt zu machen, um etwas Neues durchzusetzen 4. Ich lasse mir nichts gefallen 5. Wenn jemand meinem Freund etwas Böses tut, bin ich dabei, wenn es heimgezahlt wird 6. Wenn mich jemand anschreit, schreie ich zurück Der Steinbruch-Test zur Aggressivität 3.2 · Persönlichkeitsfragebogen 3 Konstanz der Persönlichkeit Urteile über die Persönlichkeit in Beruf und Alltag wichtig Fremdbeurteilungen als bevorzugte Kriterien 245 3 Übereinstimmung bedeutet nicht Richtigkeit der Urteile Übereinstimmung zwischen Selbst- und Fremdurteilen variiert Selbstberichte sind anfällig für Verfälschung 6 sonders zahlreich und repräsentativ sein; ihre Reliabilität und zeitliche Stabilität ist zahlreichen Untersuchungen zufolge gewährleistet (z. B. Amelang & Borkenau, 1982). Demgegenüber können unsere Partner, Verwandten und Bekannten nur einen mehr oder weniger großen Ausschnitt unseres Erlebnis- oder Verhaltensrepertoires kennen lernen und dann einschätzen. Diese nur partielle wechselseitige Überlappung von Verhaltensbereichen und den daraus bezogenen Informationen ist dafür verantwortlich, dass Selbstberichte nicht vollständig mit den Einschätzungen von Bekannten übereinstimmen können. Als Problem der Selbstberichte kommt hinzu, dass sich in der Wahrnehmung der eigenen Person vielleicht Täuschungen niederschlagen oder die Angaben über die erlebten Begebenheiten, die ablaufenden Prozesse oder die Merkmalsausprägungen mehr oder weniger absichtlich verfälscht werden. Wegen dieser inhaltlichen und methodischen Fehlerquellen vertreten Autoren wie Hofstee (1994) die Auffassung, dass die beste Schätzung der Persönlichkeitsausprägung in den gemittelten Urteilen einer Gruppe von guten Bekannten über eine Person besteht. Derartigen Überlegungen folgend werden die gemittelten Einschätzungen von Verwandten, Freunden und Bekannten oft als Kriterien zur Validierung der Selbstberichte herangezogen, wie die Darstellung verschiedener diagnostischer Verfahren im nächsten Abschnitt zeigen wird. Als wichtiger Hinweis auf die Angemessenheit oder Akkuratheit der Fremdeinschätzungen gilt dabei gewöhnlich die Übereinstimmung zwischen den Urteilen der Einschätzer (= »Konsens« im Sinne von Funder & West, 1993). Beispielsweise ermittelte Becker (2003) bei der Validierung des TIPI (7 Abschn. 3.2.3) Koeffizienten für die Interrater-Reliabilität zwischen r = .31 und .78, und die Übereinstimmung zwischen den Selbst- und Bekannteneinschätzungen (= Validität) war eine direkte Funktion dieser Beurteiler-Übereinstimmung. Auch in anderen Untersuchungen kovariierten Konsens und Selbst-Andere-Übereinstimmungen; mehr oder weniger sind es dieselben Eigenschaftsbereiche, für die sich die höchsten Übereinstimmungen für Konsens und auch den Vergleich Selbst-Andere fanden (Funder & Colvin, 1988; Funder & Dobroth, 1987). Für sich genommen liefern Konsens oder die Beurteiler-Übereinstimmung freilich noch keinen zwingenden Beweis für die Richtigkeit der Urteile, da sich die Beurteiler etwa in gleicher Weise von Stereotypien leiten lassen oder anderweitigen Beobachtungs- und Urteilsfehlern unterliegen mögen. Verschiedene Zusatzbefunde im Zusammenhang mit der Beurteilerübereinstimmung vermitteln jedoch eine Reihe von Evidenzen, die das Vertrauen in die Verlässlichkeit von Fremdeinschätzungen als Kriteriumsvariable rechtfertigen: So ist vielfach festgestellt worden, dass die Beurteilerübereinstimmung eine Funktion der Dauer der Bekanntschaft ist (z. B. Norman & Goldberg, 1966; Paunonen, 1989). Dieser in Erhebungen ermittelte Befund konnte von Spinath (1999) als lineare Funktion auch in experimentellen Analysen gesichert werden. Darüber hinaus hängt die Beurteiler-Übereinstimmung auch von der Beobachtbarkeit der einzuschätzenden Merkmale ab (Kenrick & Stringfield, 1980); diese ist für Komponenten des sozialen Verhaltens und der Extraversion größer als für solche der emotionalen Stabilität (Funder & Dobroth, 1987). Ferner sprechen einige Hinweise dafür, dass die Beurteiler-Übereinstimmung vom Ausmaß der selbsteingeschätzten transsituativen Stabilität im Sinne von Bem und Allen (1974) abhängt; in Kapitel 3 · Diagnostische Verfahren Fremdbeurteilungen können nur einen Teil der Persönlichkeit erfassen 246 Unter dem Begriff Antwortstil versteht man die Tendenz, Items aus einem Fragebogen nicht (nur) nach dem Wahrheits-, sondern nach einem anderen Prinzip zu beantworten, das nicht der Intention der Testautoren entspricht. Unsystematische Beantwortung von Fragen kann aus unterschiedlichen Gründen vorkommen. Beispielsweise will ein Proband durch wahlloses Ankreuzen verhindern, dass er etwas über sich selbst preisgibt. Oder er versteht die Fragen nicht richtig und versucht, durch Raten die »richtige« Antwort zu finden. Deshalb ist es wichtig, ein solches Verhalten zu erkennen. Jedes Item hat eine bestimmte Schwierigkeit, und extrem »schwere« Items werden per Definition nur von wenigen Probanden angekreuzt. Bei einem wahllosen Ankreuzen sollten also auch ungewöhnlich viele seltene Antworten gegeben werden (Ankreuzen von »schweren« Items). Bei einigen Fragebogen, beispielsweise dem MMPI-2 oder dem 16-PF-R gibt es eine Skala für seltene Antworten. Hohe Skalenwerte sind nicht zwingend Ausdruck von unsystematischem Antworten. Sie können auch auf andere Ursachen hinweisen, etwa das Vortäuschen einer Störung oder das Vorliegen bestimmter psychischer Störungen, insbesondere Schizophrenie. Ein anderer Antwortstil, der in der Vergangenheit umfangreiche Forschung angeregt hatte, ist die Ja-Sage-Tendenz (Akquieszenz). Hinter der Tendenz, im Zweifelsfall zuzustimmen, wurde ein stabiles Persönlichkeitsmerkmal vermutet (s. Messick, 1991). Am Besten wird bereits bei der Fragebogenkonstruktion Vorbeuge getroffen, dass die Ergebnisse nicht durch eine Ja-Sage-Tendenz verzerrt werden. Ein Teil der Items sollte so formuliert sein, dass eine Ablehnung als Indikator für das Merkmal zählt (also statt »ich gehe gerne aus« etwa »ich bleibe am liebsten zu Hause«). Allerdings verändert sich bei einer nachträglichen Invertierung leicht die Bedeutung einer Aussage und die Items fallen nach einer Itemanalyse heraus. Antwortstile einer Erhebung an N = 173 Probanden am Heidelberger Institut betrug die Beurteiler-Übereinstimmung zwischen je drei Bekannten .61 für jene Zielpersonen, die sich als relativ transsituativ stabil bezeichnet hatten, im Unterschied zu .50 (Differenz signifikant) bei den transsituativ eher variablen Personen (Amelang, 1988). Gleichsinnige Beobachtungen stammen von Malloy, Agatstein, Yarlas und Albright (1997). All diese Befunde sprechen dafür, dass es sinnvoll ist, sich bei der Validierung von Selbstberichten am Kriterium von gemittelten Fremdeinschätzungen zu orientieren. Allerdings ist, wie Colvin und Funder (1991) dargelegt haben, die Beziehung zwischen einerseits Übereinstimmungsmaßen im Sinne von Konsens oder Selbst-Anderen-Vergleichen und andererseits der Akkuratheit unidirektional, d. h. die Übereinstimmungen stellen nur eine notwendige, nicht aber eine hinreichende Bedingung für Akkuratheit dar. Um diese Akkuratheit von Selbsturteilen (und auch diejenige von Bekannten-Einschätzungen!) letztlich zweifelsfrei bestimmen zu können, bedarf es »real existierender Merkmale der eingeschätzten Person« (Funder & West, 1993), also Variablen, die den wahren Ausprägungsgrad des einzuschätzenden Merkmals widerspiegeln. Diese liegen kaum jemals vor; auch die Heranziehung von Verhaltensmaßen (z. B. Funder, Block & Block, 1983) stellt keinen befriedigenden Ersatz dar. Insofern ist der Rückgriff auf gemittelte Fremdeinschätzungen nur eine Approximation der eigentlich angestrebten Informationen, doch ist diese Näherung auf der Basis der oben dargelegten Anhaltspunkte – die sich zu einem sinnvollen Netzwerk fügen – empirisch gerechtfertigt. 3.2 · Persönlichkeitsfragebogen Vorbeugen durch invertierte Items Wahlloses Ankreuzen erkennbar Reale Merkmale der Person als Kriterien kaum verfügbar Gemittelte Fremdeinschätzungen als geeignetes Kriterium 247 3 3 Gegenmaßnahmen: geeignete Instruktionen und forced choice Antwortformat Zwei Komponenten der sozialen Erwünschtheit Problem: Veränderung der Konstruktvalidität Die Items der meisten Persönlichkeitsfragebogen sind durchschaubar in dem Sinne, dass ein durchschnittlich intelligenter Mensch erkennen kann, ob eine zustimmende oder ablehnende Antwort für ihn vorteilhaft ist. Damit besteht bei vielen Untersuchungsanlässen die Gefahr, dass der Proband absichtlich versucht, einen schlechten oder einen guten Eindruck zu erwecken. Eine Übertreibung von Symptomen kann im Interesse eines Klienten liegen, der sich eine Therapie wünscht und zuvor im Auftrag der Krankenkasse begutachtet wird. Eine typische Situation, die zu einer positiven Selbstdarstellung verführt, ist eine eignungsdiagnostische Untersuchung im Rahmen der Personalauswahl. Aber auch beim Einsatz eines Fragebogens zu Beratungszwecken kann es zu einer beschönigenden Selbstdarstellung kommen. Probanden können einen Persönlichkeitsfragebogen komplett sozial erwünscht beantworten. Dadurch ändert sich die Konstruktvalidität; Skalen, die normalerweise kaum Gemeinsamkeiten aufweisen, korrelieren nun moderat bis hoch miteinander (Pauls & Crost, 2005). Sie können aber auch gezielt auf spezifische Anforderungen reagieren und ihr Persönlichkeitsprofil so darstellen, dass sie z. B. als Krankenschwester oder als Manager geeignet erscheinen (Pauls & Crost, 2005). Paulhus (1984) hat zwei Komponenten von sozial erwünschtem Antworten unterschieden, nämlich: vor anderen einen guten Eindruck machen (impression management) und vor sich selbst gut dastehen wollen (self-deception). Verständlicherweise gestehen sich viele Menschen ihre Schwächen nicht gerne ein. Es stellt sich die Frage, wie man beim Einsatz von Persönlichkeitsfragebogen am besten mit dem Problem der Verfälschbarkeit umgeht. Drei Lösungswege sind vorgeschlagen worden: Verhindern, kontrollieren oder ignorieren. Zur Verhinderung einer sozial erwünschten Selbstdarstellung stehen zwei praktikable Maßnahmen zur Verfügung. In der Instruktion wird darauf hingewiesen, dass man ehrlich antworten möge. Es gebe keine richtigen und falschen Antworten, sondern jeder solle sich so beschreiben, wie er wirklich ist. Auch der Hinweis, unehrliche Antworten würden erkannt, kann hilfreich sein. Selbstverständlich sind solche Anweisungen nur zulässig, wenn sie zur Standardinstruktion gehören. Ansonsten würde die Durchführungsobjektivität verletzt. Die zweite Alternative ist ein forced choice Antwortformat. Die Probanden wählen nicht zwischen ja und nein oder geben den Grad ihre Zustimmung an, sondern entscheiden sich zwischen ähnlich sozial erwünschten Antwortalternativen. Martin, Bowen und Hunt (2002) haben den Ocupational Personality Questionnaire OPQ in einer forced choice und Rating-Version eingesetzt. Versuchspersonen bearbeiteten die beiden Fragebogen unter einer Standard- (ehrlich) oder einer faking good Bedingung (versuchen, einen guten Eindruck zu machen). Für die Auswertung berechneten die Autoren, wie weit die Antworten von »Idealantworten« für den Job abwichen, die sie zusätzlich erhoben hatten. Bei Verwendung des Rating-Formats lagen die Antworten der Versuchspersonen unter der faking good Verfälschung Der Begriff »Antwortstil« wurde hier auf formale Merkmale des Antwortverhaltens begrenzt. In der älteren englischsprachigen Fachliteratur spielte die Differenzierung von response sets und response styles lange Zeit eine Rolle, wobei die Begriffe nicht immer einheitlich verwendet wurden (vgl. Messick, 1991). Hier wurde der Begriff Stil verwendet, um ein formal, unabhängig vom Iteminhalt, definiertes Antwortverhalten zu bezeichnen. Das im nächsten Abschnitt behandelte Antwortverhalten wird in der Literatur meist auch unter dem Begriff response style behandelt. Es setzt aber immer eine Auseinandersetzung mit dem Iteminhalt voraus. Kapitel 3 · Diagnostische Verfahren Vorteile durch positivere und negativere Selbstdarstellung 248 Bedingung deutlich dichter an den Idealantworten als unter der Standardbedingung. Beim forced choice Format trat dagegen kein signifikanter Unterschied zwischen diesen beiden Versuchsbedingungen auf. Durch das forced choice Format konnte also eine Verfälschung erfolgreich verhindert werden. Wenig Erfolg versprechend ist eine Begrenzung der Antwortzeit. Eine Verkürzung der zur Verfügung stehenden Antwortzeiten bei computergestützter Testdurchführung erwies sich als ineffektiv zur Verhinderung von Verfälschung. Vor allem trat ein äußerst unerwünschter Nebeneffekt auf. Die Validität der Skalen (Korrelation mit Beurteilung durch Bekannte) verringerte sich in der Standardbedingung (ehrlich antworten) zum Teil erheblich (Holden, Wood & Tomashewski, 2001). Schon die implizite Annahme, dass Verfälschung längeres Nachdenken erfordert als ehrliches Antworten, ist problematisch. Mehrere Untersuchungen galten den Antwortzeiten auf Items unter einer Verfälschungsbedingung im Vergleich zu einer Standardbedingung. Die Befunde sind widersprüchlich; sowohl kürzere als auch längere Antwortzeiten wurden beobachtet (s. Holden et al., 2001). Zur Kontrolle von verfälschenden Angaben stehen eine Reihe von Kontrollskalen zur Verfügung, die in unterschiedlichem Maße Selbsttäuschung und impression management erfassen (Paulhus, 1991). Gibt man solche Skalen mit der Anweisung vor, beim Ausfüllen einen guten Eindruck zu machen (faking good), fallen die Testwerte deutlich höher aus als unter einer Standardbedingung. Pauls und Crost (2004) fanden für eine bekannte impression managment Skala einen Anstieg der Testwerte, der 26 Standardwert-Punkten entspricht. Dies ist ein deutlicher Validitätsbeleg für diese Skala. Allerdings stiegen auch bei einer Skala zur Selbsttäuschung die Werte um umgerechnet 20 Standardwert-Punkte an. Dies spricht dafür, dass diese Skala nicht nur Selbsttäuschung, sondern auch impression managment erfasst. Eine sehr bekannte Kontrollskala ist die Marlowe-Crowne Skala zur sozialen Erwünschtheit, die auch als deutsche Version verfügbar ist (Lück & Timaeus, 1969). Die 23 Items (Beispiel: »Ich bin immer höflich, auch zu unangenehmen Leuten«) sind durch Ankreuzen mit »richtig« oder »falsch« zu beantworten. Einige Fragebogen (z. B. MMPI-2 und FPI-R) enthalten Kontrollskalen, die der Marlowe-Crowne Skala ähnlich sind. Ein erhöhter Wert auf einer Kontrollskala kann als Warnhinweis verstanden werden; wer hier hohe Werte aufweist, hat möglicherweise den ganzen Fragebogen nicht ehrlich ausgefüllt. Dabei ist zu beachten, dass es auch andere Gründe für erhöhte Werte auf einer Erwünschtheitsskala geben kann. Menschen, die sich stark an moralischen Standards orientieren, verhalten sich vielleicht wirklich so, wie sie es im Fragebogen angeben. Sie nutzen keine Gelegenheit aus, um umsonst mit der Straßenbahn zu fahren, halten sich streng an Verabredungen, fluchen nicht etc. Bei ihnen versagt das Messprinzip der Erwünschtheitsskalen. Sie werden zu Unrecht als Lügner oder Uneinsichtige verdächtigt. Deshalb sollten erhöhte Werte auf einer solchen Skala als Warnhinweis und nicht als Beweis verstanden werden. Der Vorschlag, das Problem der Verfälschbarkeit von Persönlichkeitsfragebogen zu ignorieren, basiert auf empirischen Befunden zur Kriteriumsvalidität von Skalen zur Sozialen Erwünschtheit, die in der Tat verblüffend sind. Ones, Viswesvaran und Reiss (1996) haben in einer Metaanalyse folgende Fakten zusammengetragen: Erstens korreliert soziale Erwünschtheit mit emotionaler Stabilität und mit Gewissenhaftigkeit minderungskorrigiert zu .37 und .20. Auch wenn die beiden Persönlichkeitsmerkmale durch Bekannte beurteilt werden, korrelieren sie mit sozialer Erwünschtheit (rkorr. = .18 und .13). Zweitens korreliert soziale Erwünschtheit positiv mit Ausbildungserfolg (rkorr.=.22). Das heißt, je sozial erwünschter sich jemand im Fragebogen darstellt, desto erfolgreicher wird er seine Ausbildung abschließen. Drittens ändert sich die Korrelation 3.2 · Persönlichkeitsfragebogen 3 Kriteriumsvalidität kann trotz Verfälschungen gegeben sein Gefahr der Fehlinterpretation Kontrollskalen für sozial erwünschtes Antworten Verlängerte Antwortzeiten als Indikator für Verfälschung? 249 3 Beispiele Aus der großen Zahl verfügbarer Testbatterien werden hier exemplarisch nur bestimmte Inventare herausgegriffen. Bei dem Minnesota Multiphasic Personality Inventory MMPI handelt es sich um das weltweit gebräuchlichste überhaupt. So erscheinen pro Jahr allein ca. 1000 Forschungsuntersuchungen, die sich mit Einsatzmöglichkeiten und Erfahrungen beschäftigen, und zwar insbesondere an klinisch auffälligen Gruppen. Das MMPI ist zudem der einzige Persönlichkeitstest von Rang, der nach externalen Prinzipien konzipiert wurde. Das zweite Verfahren, das Freiburger Persönlichkeitsinventar FPI, stellt das im deutschen Sprachraum am häufigsten verwendete Verfahren dar. Das dritte, der 16-Persönlichkeits-Faktoren-Test 16 PF, basiert auf einer umfassenderen Persönlichkeitstheorie. Das gilt auch für die Deutsche Personality Research Form D-PRF, die darüber hinaus einen anderen Gültigkeitsbereich aufweist und mit einer Reihe von ambitionierten Besonderheiten bei der Konstruktion aufwartet. In einem weiteren, dem Neo-Fünf-Faktoren-Inventar NEO-FFI, konvergieren – stärker als in den zuvor genannten Testsystemen – mehrere aktuelle internationale Forschungsaktivitäten. Das NEOPersönlichkeitsinventar nach Costa und McCrae, revidierte Fassung (NEOPI-R), steht in der Tradition des NEO-FFI und wird dieses vermutlich in weiten Berei- 3.2.3 Persönlichkeitstestsysteme Persönlichkeitsfragebogen erfassen nicht irgendwelche »wirklichen« Persönlichkeitseigenschaften, sondern die von einer Person bevorzugte Wahrnehmung und Darstellung ihrer selbst: Fragebogen als »eigentlich besterprobte subjektive Messmittel der Persönlichkeit aus der Sicht des Individuums selbst« (Mummendey, 1987, S. 20). Deshalb sind Persönlichkeitstestwerte vor dem Hintergrund der Messmethode zu interpretieren, und Verzerrungen bei der Selbstbeobachtung und -beurteilung, der Beantwortung der Items und der absichtsvollen Selbstdarstellung sollten in Erwägung gezogen werden. Die überwiegend niedrigen Kriteriumsvaliditäten zeigen die Grenzen der Fragebogenmethode auf. Fazit zwischen den großen fünf Persönlichkeitsmerkmalen und Berufserfolg (Vorgesetztenbeurteilung) nicht, wenn man die soziale Erwünschtheit auspartialisiert. Der beste Prädiktor ist die Gewissenhaftigkeit (rkorr. = .23); nach Auspartialisierung der sozialen Erwünschtheit bleibt der Zusammenhang exakt gleich (rkorr. = .23). Diese Befunde können dahingehend interpretiert werden, dass Skalen zur sozialen Erwünschtheit Aspekte der Persönlichkeit miterfassen, die für den beruflichen Erfolg nützlich sind (emotionale Stabilität und Gewissenhaftigkeit). Nimmt man die soziale Erwünschtheit durch Auspartialisierung aus der Vorhersage heraus, um die wahren Ausprägungen der Persönlichkeitsmerkmale als Prädiktor zu verwenden, entfernt man zugleich nützliche Varianzanteile. Dennoch bleibt ein tiefes Unbehagen, wenn Bewerber einen Persönlichkeitsfragebogen bearbeiten und der Diagnostiker im Einzelfall nicht wissen kann, ob beispielsweise der hohe Gewissenhaftigkeitswert Ausdruck einer hohen Gewissenhaftigkeit ist oder einer geschickten Selbstdarstellung. Handelt es sich um einen unzuverlässigen, unordentlichen Bewerber, der erkannt hat, dass es auf Gewissenhaftigkeit ankommt und sich entsprechend darstellt? Oder hat der Bewerber, ohne zu übertreiben, einen hohen Wert für Gewissenhaftigkeit erreicht? Für eine vertiefende Diskussion dieses Themas sei auf Markus (2003) und Kanning (2003) verwiesen. Kapitel 3 · Diagnostische Verfahren Bedeutung positiver Selbstbeschreibungen unklar 250 ner Liste von 1000 Items, die sich auf allgemeine Gesundheit, familiäre und eheliche Beziehungen, sexuelle und religiöse Einstellungen sowie emotionale Zustände bezogen und letztlich psychopathologische Symptome erfassen sollten. Später kamen Items zu Geschlechtsrollencharakteristika und abwehrender Selbstdarstellung dazu. Gruppen von klinisch auffälligen Personen, die von Psychiatern als Schizophrene, Hysteriker, Hypochonder usw. diagnostiziert worden waren, bearbeiteten die Items ebenso wie »unauffällig-normale« Kontrollpersonen (Einwohner von Minnesota, Bewerber um einen Studienplatz, Besucher des Krankenhauses). Jene 566 Items wurden schließlich in Skalen zusammengestellt, die die Patienten von den Kontrollpersonen signifikant diskriminierten. Von daher eignet sich das Verfahren vorrangig zur Entscheidungsfindung über die Zuordnung von Probanden zu entweder psychiatrischen Kategorien oder zur unauffälligen »Normal«-Population. Weil zahlreiche Fragen zugleich mehrere der Patientengruppen von den »Normalen« unterschieden, sind diese dementsprechend Bestandteil auch mehrerer Skalen. Das heißt die einmalige Antwort zu einem Item, wie »Ich schlafe unruhig und werde oft wach« (Ja/Nein) wird mehrfach verrechnet (in diesem Fall unter den Skalen Hypochondrie, Depression und Hysterie; zu den Skalen 7 unten). Ein solcher Item-Overlap treibt die Interkorrelationen zwischen den Skalen in die Höhe. Damit aber werden gerade die Voraussetzungen für jene Ziele gemindert, die mit dem MMPI besonders häufig verfolgt werden, nämlich ein individuelles Testprofil mit demjenigen psychopathologisch auffälliger Personen zu vergleichen, weil Profilinterpretationen an hohe Reliabilitäten und niedrige Interkorrelationen gebunden sind. Bei der Revision zum MMPI-2 erfolgten Änderungen an den Items. Einige »alte« Items (z. B. zu sexuellen Gewohnheiten, religiösen Einstellungen) waren unangemessen, andere nicht mehr zeitgemäß (bestimmte Freizeitbeschäftigungen nicht mehr aktuell). Einige Items mussten sprachlich revidiert werden (z. B. waren Redewendung nicht mehr gebräuchlich). Die Forschungsversion enthielt zusätzlich 154 neue Items, die auch neue Inhaltsbereiche wie Essstörungen, Arbeitsstörungen und den familiären Bereich abdecken. Bei der Revision sollte sowohl die Kontinuität gewahrt bleiben, als auch eine Modernisierung erreicht werden. Die 567 Items der revidierten Form setzen sich aus 459 »alten« und 108 neuen Items zusammen. Bei der deutschen Fassung des MMPI-2 handelt es sich um eine Übersetzung des amerikanischen Originals, wobei sich die Autoren bei den »alten« Items an die alte deutsche Testversion von Spreen (1963) hielten. Konstruktionsansatz. Am Anfang aller Entwicklungsarbeiten stand die Anlegung ei- Hathaway, S. R., McKinley, J. C., Engel, R. R. (2000). MMPI-2. Bern: Huber Minnesota-Multiphasic-Personality-Inventory-MMPI-2 chen der diagnostischen Praxis einmal ablösen. Das Trierer Integrierte Persönlichkeitsinventar TIPI lehnt sich mit seinen Superfaktoren zu Neurotizismus und Extraversionen an, schließt aber darüber hinaus auch die Erfassung mehrerer Facetten seelischer Gesundheit ein. Der Stressverarbeitungsfragebogen SVF schließlich konzentriert sich auf spezifische Reaktionsweisen in genauer umrissenen Situationen und hebt damit z. T. auf aktuelle Zustände ab, die im nächsten Abschnitt dann gesondert zur Sprache kommen. Abgesehen vom MMPI und ungeachtet wesentlicher Besonderheiten im einzelnen ist allen diesen Tests die induktiv-faktorenanalytische Skalenkonstruktion gemeinsam sowie der Umstand, dass mit den jeweiligen Subskalen ein insgesamt sehr weites Spektrum von Erlebnis- und Verhaltensweisen im Bereich des Unauffällig-Normalen abgedeckt wird. 3.2 · Persönlichkeitsfragebogen 3 MMPI-2 mit vielen neuen Items »Item-Overlap« Trennung zwischen Patienten und Gesunden Erfassung psychopathologischer Symptome Inventare meist für den »Normalbereich« entwickelt 251 3 Zahlreiche Interpretationshinweise zu den Validitätsskalen Auch Items mit geringer Augenscheinvalidität Die ausgewählten Items sind typisch für die zu messenden Merkmale. Bei anderen Items ist dagegen kaum nachzuvollziehen, warum sie das Merkmal indizieren. Beispielsweise spricht die Verneinung des Items »Ich lese gern Zeitungsartikel über Gerichts- und Kriminalfälle« für Hysterie, und wer bei »Mein Sexualleben ist zufrieden stellend« Falsch ankreuzt, bekommt dafür einen Punkt auf der Psychopathieskala. Hohe Punktwerte in einer der Validitätsskalen, erst recht in mehreren oder allen davon, gebieten, wie es in schöner Regelmäßigkeit in den Handanweisungen heißt, Zurückhaltung oder Vorsicht bei der Interpretation der Inhaltsskalen, was immer auch dies bedeuten mag. Im Manual zum MMPI-2 (Hathaway, McKinley & Engel, 2000) finden sich zu den Validitätsskalen zahlreiche Interpretationshinweise (. Tab. 3.13 zur Weiß nicht-Skala (Anzahl nicht oder ungültig beantworteter Items) Lügenskala (15 Items) »Manchmal möchte ich am liebsten fluchen« (Richtig) Seltenheitsskala (60 Items) »Ich leide unter Anfällen von Übelkeit und Erbrechen« (Richtig) Korrekturskala (30 Items) »Zuweilen möchte ich am liebsten etwas kaputtschlagen« (Richtig) Hypochondrie (32 Items) »Ich leide unter Anfällen von Übelkeit und Erbrechen« (Richtig) Depression (57 Items) »Ich habe einen guten Appetit« (Falsch) Hysterie, Konversionsstörung (60) »Ich habe häufig das Gefühl, als ob ich einen Kloß im Halse hätte« (Richtig) Psychopathie, Soziopathie, antisoziale Persönlichkeitsstörung (50 Items) »Manchmal habe ich sehr gewünscht, von zu Hause fortzugehen« (Richtig) Maskulinität/Femininität (56 Items) »Ich lese gern Liebesgeschichten« (Richtig=feminine Interessen) Paranoia (40 Items) »Niemand scheint mich zu verstehen« (Richtig) Psychasthenie (48 Items) »Ich habe sicherlich zu wenig Selbstvertrauen« (Richtig) Schizophrenie (78 Items) »Ich habe Angst, den Verstand zu verlieren« (Richtig) Hypomanie (46 Items) »Manchmal habe ich Lach- oder Weinanfälle, die ich nicht beherrschen kann« (Richtig) Si – Social Introversion »Ich gehe gern zu Parties und anderen Gelegenheiten, bei denen es laut und lustig zugeht« (Falsch) – – – F – – K – – Hd – – D – – Hy – – Pp – – Mf – – Pa – – Pt – – Sc – – Ma – – ? L Skalen des MMPI-2 mit Beispielitems Gliederung. Das MMPI wie auch die revidierte Form MMPI-2 umfasst vier Validitätsskalen (?, L, F, K) und 13 Basisskalen. Darüber hinaus können aus den Items zahlreiche Zusatzskalen gebildet werden (z. B. Soziale Verantwortlichkeit, Posttraumatische Belastungsstörung, Suchtgefährdung). Kapitel 3 · Diagnostische Verfahren 4 Validitätsskalen 252 Wahrscheinlich ungültig Gültigkeit fraglich Wahrscheinlich gültig Gültig Möglicherweise Simulation Sehr hoch (über 79) Hoch (70–79) Erhöht (60–69) Mittel (50–59) Niedrig (unter 50) Zustimmungstendenz Aufmerksamkeitserheischung Typische, normale Einstellung gegenüber dem Test Abwehrende Untersuchungshaltung Zufällige Beantwortung Leugnen von Fehlern Dissimulation Mögliche Ursachen Überbetonung von Krankheitssymptomen Selbstbewusst und unabhängig Zynisch, sarkastisch Keine Probleme mit dem eigenen Selbstbild Konventionell und konformistisch Absolut tugendhaft Verwirrtheit Mangelnde Einsicht Verdrängung Widerstand gegen den Test oder Naivität Mögliche Interpretation Interpretation. Zuerst wird anhand der Validitätsskalen geprüft, ob das Protokoll gültig ist. Die Basisskalen können einzeln interpretiert werden. Dazu stehen im Manual Interpretationshinweise nach dem in . Tabelle 3.13 gezeigten Schema zur Verfügung. duellen Rohwerte werden direkt in ein Profilblatt für Frauen oder Männer eingetragen. Darin sind die Rohwerte bei jeder Skala grafisch so angeordnet, dass praktisch eine Transformation in T-Werte erfolgt. Bei einigen Skalen sind zuvor die Rohwerte um eine bestimmte Punktzahl zu erhöhen. Bei dieser so genannten K-Korrektur wird der Rohwert einer Basisskala für mangelnde Offenheit des Probanden, die sich aus der K-Skala ablesen lässt, nach oben korrigiert. Dazu wird der Punktwert der K-Skala mit dem angegebenen Faktor, z. B. 0.4, multipliziert. Der resultierende Korrekturwert wird zum Rohwert der Basisskala addiert. Die mühsame manuelle Auswertung lässt sich bei Nutzung des kostenpflichtigen Fax-Services umgehen. Das Antwortblatt wird an die angegebene Adresse gefaxt und nach wenigen Minuten kommt die komplette Auswertung zurück. Als nicht wirklich attraktive Alternative bietet sich ein Auswertungsprogramm an, bei dem die Items eingegeben werden müssen. Sehr komfortabel ist dagegen die Computerversion des MMPI-2, bei der die Auswertung per Mausklick zu haben ist. Auswertung. Die Rohwerte werden skalenweise mit Schablonen ermittelt. Die indivi- den. Die Bearbeitung dauert gut 1 h, bei Patienten etwas länger. Der Proband kreuzt auf einem separaten Auswertungsblatt für jedes Item Richtig oder Falsch an. Durchführung. Das MMPI-2 kann in Einzel- und Gruppensituation durchgeführt wer- L-Skala). Die Festlegung der jeweiligen Grenzwerte (z. B. 50–59, 60–69) erfolgte vermutlich nach dem Dafürhalten der Autoren. Gültigkeit des Profils T-Wert-Niveau . Tabelle 3.13. L-(Lügen-)Skala: Interpretation der Skalenwerte. (Aus Hathaway, 2000, S. 24-26) 3.2 · Persönlichkeitsfragebogen Interpretation der Basisskalen Auswertung per Fax-Service möglich K-Korrektur 253 3 3 Bezug zu ICD-10 und DSM-IV fehlt 4 Faktoren Repräsentative Normstichprobe; 18–70 Jahre (7., überarbeitete und neu normierte Aufl. 2001). Fahrenberg, J. et al., 2001). Göttingen: Hogrefe Zu unterscheiden ist in den letzten Aufl. zwischen den Formen FPI-A1 als neu normierte und sprachlich z. T. modifizierte Fortführung der ursprünglichen Version sowie der revidierten Fassung FPI-R, die z. T. andere Dimensionen aufweist. Da das FPI-R die vorangegangenen Versionen ablösen soll, wird hier aus Platz- und Übersichtsgründen nur darauf eingegangen. Freiburger Persönlichkeitsinventar FPI, Revidierte Fassung FPI-R Bewertung. Es ist sehr zu begrüßen, dass ein so bewährtes und gut erforschtes Verfahren wie das MMPI nun auch in der aktualisierten Form (MMPI-2) in deutscher Sprache vorliegt. Positiv zu werten ist die extrem große Informationsausbeute durch die vielen klinischen Skalen, Validitätsskalen und Zusatzskalen. Zur fehleranfälligen und zeitraubenden Auswertung mit Schablonen stehen attraktive Alternativen zur Verfügung. Am Manual ist zu bemängeln, dass Angaben zur Profilreliabiltät fehlen und die zur Validität dürftig sind. Ein grundsätzliches Problem des MMPI ist, dass das Verfahren auf veralteten diagnostischen Kriterien basiert und eine klinische Diagnostik nach ICD-10 oder DSM-IV nicht unterstützt. Wegen der Itemüberlappung sind die Ergebnisse der Faktorenanalysen mit Vorsicht zu bewerten. Validität. Im Testmanual werden lediglich Faktorenanalysen der Skalen berichtet. Es fanden sich ähnliche Strukturen für Männer und Frauen sowie gute Übereinstimmung mit US-Ergebnissen. Die vier Faktoren sind: 4 F1: Psychotische Gedankeninhalte (Sc, Pp, Pa, F) 4 F2: Neurotische Verhaltensweisen (Hy, L, K) 4 F3: Introversion (Si, D) 4 F4: Geschlechtsrollenidentifikation (Mf) Reliabilität. Die Retestreliabilität nach 10 Tagen der Skalen wird im Manual mit .66 (Ma) bis .90 (D) bei Männern (N = 49) und .71 (Ma) bis .92 (Sc) bei Frauen (N = 56) angegeben. Normierung. Die Eichstichprobe (N = 958) zur Normierung des deutschen MMPI-2 ist bezüglich Alter, Geschlecht und geographischer Herkunft repräsentativ für die 18– 70jährige deutsche Bevölkerung. Bei der Erbhebung entstand ein gewisser Schwund dadurch, dass immerhin 192 Personen die Bearbeitung des MMPI ablehnten und Protokolle wegen extrem hoher F-Werte oder zu vielen unbeantworteten Items eliminiert werden mussten. Beispielsweise sollen sehr hohe Werte (T > 75) auf der Paranoia-Skala für Denkstörung, irrige Ansichten, Beziehungsideen, Rachsüchtigkeit und Grübeln und/oder Handeln infolge von Wahnvorstellungen sprechen. Bei Bedarf können bestimmte Zusatzskalen ausgewertet und interpretiert werden. Die »Krönung« stellt die Profilauswertung dar. Dazu werden die Nummern der drei Skalen mit den höchsten T-Werten notiert. In entsprechenden Handbüchern finden sich Erläuterungen und Fallbeispiele für die jeweiligen Punktcodes. Kapitel 3 · Diagnostische Verfahren Profilauswertung 254 Gliederung. Der Test besteht aus 138 Feststellungen in der Form »Ich (bin, fühle, würde usw.)…«, die mit »stimmt« oder »stimmt nicht« zu beantworten sind. Das erste Item »Ich habe die Anleitung gelesen und bin bereit, jeden Satz offen zu beantworten« gehört zu keiner Skala. Der Rest verteilt sich auf 10 aus je 12 Items bestehenden Standardskalen sowie 2 Zusatzskalen (Extraversion und Emotionalität im Sinne von Eysenck) mit je 14 Aufgeführt sind jeweils die pro Skala trennschärfsten Statements unter Angabe des Koeffizienten rit. 1. Lebenszufriedenheit: »Alles in allem bin ich ausgesprochen zufrieden mit meinem bisherigen Leben.« (.70) 2. Soziale Orientierung: »Da der Staat schon für Sozialhilfe sorgt, brauche ich im Einzelnen nicht zu helfen.« (–.57) 3. Leistungsorientierung: »Ich habe gern mit Aufgaben zu tun, die schnelles Handeln verlangen.« (.61) 4. Gehemmtheit: »Ich werde ziemlich leicht verlegen.« (.58) 5. Erregbarkeit: »Oft rege ich mich zu rasch über jemanden auf.« (.57) 6. Aggressivität: »Wenn ich Zuflucht zu körperlicher Gewalt nehmen muss, um meine Rechte zu verteidigen, so tue ich es.« (.54) 7. Beanspruchung: »Ich habe häufig das Gefühl, im Stress zu sein.« (.73) 8. Körperliche Beschwerden: »Ich habe manchmal ein Gefühl erstickender Enge in der Brust.« (.61) 9. Gesundheitssorgen: »Ich vermeide Zugluft, weil man sich zu leicht erkälten kann.« (.61) 10. Offenheit: »Ich bin hin und wieder ein wenig schadenfroh.« (.59) E. Extraversion: »Ich kann in eine ziemlich langweilige Gesellschaft schnell Leben bringen.« (.68) N. Emotionalität: »Ich bin oft nervös, weil zu viel auf mich einströmt.« (.62) Dimensionen und Beispielitems aus dem FPI-R Konstruktionsprinzipien. Die Entwicklung des Verfahrens orientierte sich nicht an einer spezifischen Persönlichkeitstheorie, sondern den Interessen der Autoren an bestimmten Dimensionen des Verhaltens, und zwar teils im Hinblick auf die theoretischen Grundlagen (insbesondere Extraversion und Neurotizismus), teils im Hinblick auf deren Implikationen für das soziale Zusammenleben (z. B. Aggressivität) und das subjektive Wohlbefinden oder Zurechtkommen mit Anforderungen (z. B. Lebenszufriedenheit, Beanspruchung). Die Skalenkonstruktion bzw. die Auswahl der Items geschah teils nach faktorenanalytischen, teils nach Trennschärfeprinzipien; daneben spielten inhaltliche und praktische Erwägungen eine Rolle. 3.2 · Persönlichkeitsfragebogen 3 10 Skalen; 2 Zusatzskalen Keine theoriegeleitete Testkonstruktion 255 3 Stabilität zufriedenstellend Validität. Unter »Validitätshinweise« finden sich im Manual (6. Aufl.) zahlreiche Zusammenhänge zwischen den Skalen des FPI-R und weiteren Daten, die von der Normstichprobe geliefert wurden. So korreliert beispielsweise die Skala FPI-8 (»körperliche Beschwerden«) mit »schlechtem Gesundheitszustand« zu r = .51 oder FPI-R1 (»Lebenszu- Reliabilität. Die im Manual (der 6. Aufl.) aufgeführten Konsistenzkoeffizienten variieren für die einzelnen Skalen zwischen .71 und .84 (Mdn = .77). Sie werden von den Autoren im Hinblick auf die Breite der psychologischen Konstrukte und die relative Kürze der Skalen als »befriedigend« bezeichnet. Zum Vergleich wurden 10 Zufallsskalen von je 12 Items gebildet; die mittlere Konsistenz dieser 10 Random-Skalen betrug α = .26. Darin schlägt sich nach Auffassung der Autoren nicht der Effekt eines zugrunde liegenden Generalfaktors, sondern unspezifische Methodenvarianz in der Größenordnung von 26% der Gesamtvarianz nieder, da der Itempool »zehn relativ unabhängige Konstrukte (repräsentiere)«. Mit dem Argument der Unabhängigkeit nicht ganz verträglich ist der Umstand, dass allein die Primärskalen untereinander im Mittel von ungefähr .20 interkorrelieren. (Dies ermöglichte auch die Ableitung von 3 Sekundärskalen »Gestörtes Allgemeinbefinden«, »Aggressive Erregbarkeit« und »Selbstsichere Aktivität«, doch erachten die Autoren die Sekundäranalysen selbst als fragwürdig.) Analysen nach logistischen Prinzipien (7 Abschn. 2.1.2) ergaben Miniskalen, die im Vergleich zu den Standardskalen niedrigere Konsistenzen aufwiesen. In einer Bewertung dieser Ergebnisse gelangen die Autoren zu dem »Eindruck, dass das logistische Grundmodell hier auch als Heuristik unergiebig und für die facettenreichen Konstrukte der Eigenschaftstheorie tatsächlich inadäquat ist« (Fahrenberg et al., 1994, S. 34). Stabilitätskoeffizienten liegen inzwischen für eine Gruppe von Kreislaufpatienten vor. Die Testungen erfolgten zu Beginn und am Ende einer ca. 4wöchigen Kur. Trotz der Homogenität dieser Stichprobe und des Treatments im Retestintervall fielen die Koeffizienten mit Werten zwischen rtt = .69 (soziale Orientierung) und .85 (Gehemmtheit) sehr zufriedenstellend aus (im Mittel .73). Befriedigende Reliabilitäten Unabhängige Konstrukte? Normierung. Zur 7. Aufl. wurde 1999 eine bevölkerungsrepräsentative Stichprobe von 3740 Einwohnern der alten und der neuen Bundesländer erhoben. Die Skalen des FPIR und das Testformular blieben unverändert. Die Rohwerte werden getrennt für die beiden Geschlechter und jeweils 7 Altersgruppen in Stanine-Werte transformiert. Repräsentative Stichprobe; 7 Altersgruppen Auswertung. Mittels Schablone. Aus ihr wird deutlich, dass die allermeisten Items positiv (im Sinne des Merkmals ist »stimmt« die richtige Antwort) gescort sind (Einfluss von Akquieszenz?). Durchführung. Die Instruktion findet sich schriftlich und in leicht verständlicher Weise auf dem Fragebogen. Ein Teil der Anweisungen richtet sich darauf, nicht lange bei jedem Item nachzudenken, sondern die Antwort zu geben, die unmittelbar in den Sinn kommt. Ob das zweckmäßig ist, muss offen bleiben. Wegen der Kürze der Instruktion und der selbständigen Bearbeitung durch den Probanden spielen Testleitereffekte nur eine minimale Rolle. In der Handanweisung werden zusätzliche Empfehlungen gegeben, wie den häufigsten Rückfragen und Einwänden von Seiten der Probanden zu begegnen ist. Die Dauer der Bearbeitung beträgt zwischen 10 und 30 min. Items (von denen insgesamt 11 auch für die Standardskalen Verwendung finden; Bezeichnung der Skalen und Beispielitems 7 Beispiel). Kapitel 3 · Diagnostische Verfahren Kurze Instruktion und selbständige Bearbeitung durch den Probanden 256 Anmerkung. a Ladungen ≥.60 sind fett gedruckt Neurotizismus Extraversion Offenheit für Erfahrung Verträglichkeit Gewissenhaftigkeit NEO-Fünf-Faktoren-Inventar Extraversion Neurotizismus Eysenck Persönlichkeitsinventar Lebenszufriedenheit Soziale Orientierung Leistungsorientierung Gehemmtheit Erregbarkeit Aggressivität Beanspruchung Körperliche Beschwerden Geundheitssorgen Freiburger Persönlichkeitsinventar Leistungsdaten Geselligkeit Aggressivität Dominanzstreben Ausdauer Bedürfnis nach Beachtung Risikomeidung Impulsivität Hilfsbereitschaft Ordnungsstreben Spielerische Grundhaltung Soziales Anerkennungsbedürfnis Anlehnungsbedürfnis Allgemeine Interessiertheit Personality Research Form Skala .79 –.05 .16 .01 –.17 .02 .89 –.61 .28 –.15 .39 .70 .24 .69 .72 .25 .08 .01 .30 –.19 –.24 .00 .25 .26 .25 –.05 –.01 .38 .56 .00 I Faktorena –.10 .80 .02 –.09 –.02 .86 –.07 .23 .11 .40 –.59 .18 .31 .03 –.11 –.17 .06 .72 .40 .52 –.13 .76 –.46 .41 .29 –.03 .72 .39 .24 –.03 II .08 –.08 .74 –.21 –.35 .03 .04 –.27 .33 .06 –.19 –.12 .00 .04 –.04 –.38 .23 –.25 .06 .16 .12 .19 –.44 .30 .00 –.45 –.03 –.47 –.25 .75 III .07 .12 –.07 .75 .09 –.18 .01 .13 .66 –.18 .11 –.16 –.66 .03 .04 –.09 .12 .33 –.68 –.44 .08 –.5 .24 –.11 .65 .10 –.13 .10 .28 .03 IV –.27 .10 –.07 –.06 .75 –.11 –.16 .27 .13 .63 –.24 –.11 –.03 .18 –.03 .27 .77 .05 –.07 .42 .74 –.01 .10 –.57 .27 .62 –.37 .17 –.33 .19 V . Tabelle 3.14. Rotierte Ladungsmatrix einer Simultanfaktorisierung von PRF, FPI, EPI und NEO-FFI. (Aus Borkenau & Ostendorf, 1993, S. 19) friedenheit«) mit »Zufriedenheit mit familiärer Situation« zu r = .46. Da es sich aber jeweils um Daten aus ein und derselben Quelle (Selbstberichte) handelt, sind solche Beziehungen nur von geringer Beweiskraft. In abgeschwächtem Maße gilt dies auch für die Simultanfaktorisierung mehrerer Testsysteme (. Tab. 3.14). Daraus wird ersichtlich, dass nicht weniger als 4 FPI-Skalen (Lebenszufriedenheit, Erregbarkeit, Beanspruchung und körperliche Beschwerden) gemeinsam auf einem Neurotizismusfaktor laden, Ge- 3.2 · Persönlichkeitsfragebogen 257 3 3 Soziale Erwünschtheit hat geringen Einfluss In der Handanweisung kommen die diagnostische Zielsetzung, die theoretischen Grundlagen und – in Verbindung damit – auch die Vergleichbarkeit mit anderen Verfahren etwas zu kurz (in diesem Sinne Hollmann, 1988, S. 284). Trotzdem handelt es sich beim FPI-R um ein Verfahren, dessen Konstrukte teils erwiesenermaßen (z. B. Extraversion und Emotionalität, Erregbarkeit, Aggressivität), teils nach Dafürhalten und Berichten in der Literatur (z. B. soziale Orientierung, Gesundheitssorgen, Leistungsorientierung) von erheblicher Bedeutung, auf jeden Fall von aktuellem Interesse für die Beschreibung interindividueller Unterschiede sind. Die große Verbreitung – in der Umfrage von Schorr (1995) rangiert das FPI unangefochten auf Platz 1 der Liste »Die zwanzig am häufigsten verwendeten Testverfahren« – spricht dafür, dass das FPI für die Praxis eine nützliche Auswahl von Skalen bietet. Die Messgenauigkeit reicht für gruppenstatistische Untersuchungen aus. Die Validität gegenüber Fremdeinschätzungen reicht in einigen Skalen an die hier üblicherweise beobachteten oberen Grenzen heran. Bei kaum einem anderen Verfahren im deutschsprachigen Raum wird die »Pflege« (Aktualisierung und Nachnormierung) derart intensiv betrieben (nicht weniger als ca. 500 Einzelpublikationen zu den Eigenschaften des Verfahrens), sodass der Benutzer zuversichtlich sein kann, ein dem »Stand der Kunst« entsprechendes Instrument anwenden zu können. Fazit hemmtheit (mit negativem Vorzeichen) relativ hoch mit Extraversion korreliert und die soziale Orientierung sowie Aggressivität (negativ) mit Verträglichkeit in Beziehung stehen. Solche Resultate sprechen für eine eher mittlere Bandbreite des FPI-R. Härtere Evidenzen vermitteln die Übereinstimmungen in einer Größenordnung von .45, die in früheren Untersuchungen zwischen Skalen des FPI und Fremdeinschätzungen auf konstruktnahen Dimensionen gefunden wurden (Amelang & Borkenau, 1982; Burisch, 1984). Für die Skalen des FPI-R berichten Schmidt und König (1986) eine mittlere Selbst-Fremd-Einschätzungskorrelation von rtc = .38 (rtc = .45 bei relativ hohem, .30 bei relativ niedrigem Bekanntheitsgrad). Für die in das FPI-R neu aufgenommenen Skalen betragen die Validitäten .52 (Lebenszufriedenheit), .39 (soziale Orientierung), .40 (Leistungsorientierung), .42 (Beanspruchung) und .31 (Gesundheitssorgen; Koeffizienten jeweils für die Gruppe mit relativ hoher Bekanntheit zwischen Beurteiler und Beurteiltem). Ausgehend von Eysencks (1967) Persönlichkeitstheorie war als Teil der Konstruktvalidierung von »emotionaler Labilität« eine Korrelation dieser Skala zu psychophysischen Aktivierungsprozessen und/oder relativ überdauernden psychophysischen Reaktivitätsunterschieden zu erwarten. Die Anwendungsversuche in dieser Hinsicht müssen aber insgesamt als empirisch falsifiziert gelten. Das spricht in diesem Falle nicht gegen die Skala, sondern eher gegen die behauptete Verankerung des Merkmals »Neurotizismus« in psychophysiologischen Strukturen. Der Versuch, durch Anwendung der Factor Deletion Technique die Varianzkomponenten im Sinne sozialer Erwünschtheit (SE) zu eliminieren und dadurch die Validität gegenüber Fremdeinschätzungen zu erhöhen, verminderte sowohl die externe Validität als auch die Inhaltssättigung der FPIFragebogenfaktoren (Borkenau & Amelang, 1986). Das kann als Hinweis darauf gewertet werden, dass SE-Einflüsse bei der Bearbeitung in Forschungssituationen nur eine vergleichsweise geringe Rolle spielen. Allerdings handelt es sich auch nach Meinung der Autoren bei der potentiellen Verfälschungsmöglichkeit um eines der schwerwiegendsten Methodenprobleme bei Fragebogen. Kapitel 3 · Diagnostische Verfahren Übereinstimmung zwischen Selbst- und Fremdeinschätzung hoch 258 Durchführung. Die Bearbeitung der insgesamt 60 Items erfolgt in einem vierseitigen Aufgabenheft, dem die leicht verständliche Instruktion vorangestellt ist. Für die Ant- Typs: »Ich (bin, habe, fühle u.ä.)…« konstituieren die faktorenanalytisch ermittelten Skalen Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit (zur Erläuterung der Skalen und Beispielitems 7 Beispiel). Mit diesen Dimensionen hoffen die Autoren, ein Breitbandverfahren kreiert zu haben, das »einen groben aber vollständigen Überblick über die Ausprägung der Probanden auf den wichtigsten Dimensionen individueller Persönlichkeitsunterschiede (eröffnet)« (Borkenau & Ostendorf, 1993, S. 8), nämlich jenen Faktoren, die in Selbst- und Bekanntenbeurteilungen von den Probanden (noch) unterscheidbar sind. Gliederung. Je 12 Items (man beachte die Übereinstimmung mit FPI und 16 PF!) des Borkenau, P. & Ostendorf, F. (1993). Göttingen: Hogrefe Bei dem Test handelt es sich um eine deutschsprachige Übersetzung und Adaptation des »NEO Five-Factor Inventory NEO-FFI« von Costa und McCrae (1992). In ihm konvergieren gleichsam all jene internationalen und in der jüngeren Vergangenheit besonders intensiv betriebenen Forschungen, die sich mit dem Problem beschäftigen, welches denn die »richtige« Zahl von Faktoren zur Beschreibung der Persönlichkeit sei. Sie gelangen zu dem Ergebnis, dass fünf die angemessene Mischung zwischen Varianzmächtigkeit und Ökonomie auf der einen sowie Differenzierungsgrad auf der anderen Seite sei. Neo-Fünf-Faktoren-Inventar NEO-FFI Die D-PRF ist ein in mehrfacher Hinsicht beachtenswertes Instrument: Zum Einen begründet die Theorie einen Gültigkeitsbereich, der nur eine teilweise Überlappung mit anderen verfügbaren Fragebogensystemen aufweist. Zum Anderen kann die Kombination von rationalen und empirischen Elementen bei der Konstruktion des Tests als absolut vorbildlich gelten. Daraus mag sich die Beliebtheit des Tests namentlich in Forschungsuntersuchungen erklären. Für die Individualdiagnostik wäre aber ein Mehr an Reliabilität wünschbar. Auch bleibt die Höhe der Validitäten gegenüber externen Kriterien etwas hinter den Erwartungen zurück, zumal ein Ziel der Autoren gerade darin bestand, alltägliche Verhaltensweisen (und damit solche, die Beurteiler kennen und deshalb treffsicher einschätzen können) diagnostizieren zu wollen. Vor allem aber wäre eine Aktualisierung der Normen und auch einiger Itemformulierungen wünschenswert. Fazit Koeffizienten deutlich höher als die letzteren (um .60 bzw. um .40). Vergleichsweise niedrig ist offenkundig die Validität gegenüber Fremdeinschätzungen von Risikomeidung, Impulsivität und Hilfsbereitschaft, vergleichsweise hoch diejenige von Dominanz, Ordnungsstreben und spielerischer Grundhaltung. Im Mittel von 9 Skalen betrugen die Validitäten rtc = .56 gegenüber den Fremdeinschätzungen von jeweils 2 Bekannten in der Erhebung von Amelang, Schäfer und Yousfi (2001; mehr zu dieser Studie 7 Abschn. 3.3.2). Riemann und Schumann (1996) berichten für einige Skalen der DPRF Validitäten größer als .20 bei der Vorhersage des Verkaufserfolges von 86 Außendienstmitarbeitern einer großen Versicherungsgesellschaft; erwartungswidrig stellten sich jedoch keine Moderatoreffekte der Infrequenzskala ein. 3.2 · Persönlichkeitsfragebogen Breitbandverfahren 5 Skalen »Big Five« Modell Korrelation mit Selbst- und Fremdeinschätzungen 269 3 3 Keine Normen Auswertung und Normierung. Die individuellen Punktwerte werden mit Hilfe einer Schablone ermittelt. Die erhaltenen Rohwerte können mit den Mittelwerten und Standardabweichungen verglichen werden, die sich für eine Gesamtstichprobe von N = 2112 Probanden und getrennt für die beiden Geschlechter im Manual finden. Daraus lassen sich auch Z-Werte oder Prozentränge ermitteln. Explizit wollten die Autoren darauf verzichten, Normen zu veröffentlichen, weil es bis dato nicht möglich war, den Test einer hinreichend repräsentativen Bevölkerungsstichprobe vorzugeben. Bei den bislang vorliegenden Erhebungen kann aber die Bereitschaft zur Teilnahme mit den erfassten Merkmalen, insbesondere »Offenheit für Erfahrung« korreliert sein, sodass die Normen keinen korrekten Maßstab bilden müssen. Skalen des NEO-FFI, beschrieben mit Formulierungen aus dem Manual und Beispielitems, ausgewählt nach der Höhe von Ladungszahlen Neurotizismus: Tendenz, nervös, ängstlich, traurig, unsicher und verlegen zu sein, sich Sorgen um die Gesundheit zu machen, unrealistische Ideen zu verfolgen. Unfähigkeit, die Bedürfnisse zu kontrollieren und auf Stressreaktionen angemessen zu reagieren. 4 »Ich fühle mich oft angespannt und nervös« (.67), 4 »Ich fühle mich oft hilflos und wünsche mir eine Person, die meine Probleme löst« (.67). Extraversion: Probanden mit hohen Werten sind gesellig, aktiv, gesprächig, sozial, herzlich, optimistisch; sie suchen Anregungen und Aufregungen. 4 »Ich habe gern viele Leute um mich herum« (.69), 4 »Ich bin ein fröhlicher, gut gelaunter Mensch« (.67). Offenheit für Erfahrung: Wertschätzungen für neue Erfahrungen, Bevorzugung von Abwechslung; Probanden mit hohen Werten sind wissbegierig, kreativ, phantasievoll und unabhängig in ihrem Urteil. (In der einschlägigen Literatur wird dieser Faktor auch als »Intellekt« oder »culture« bezeichnet.) 4 »Ich finde philosophische Diskussionen langweilig« (–.60), 4 »Poesie beeindruckt mich wenig oder gar nicht » (–.61). Verträglichkeit: Neigung, altruistisch, mitfühlend, verständnisvoll und wohlwollend zu sein, zwischenmenschliches Vertrauen, Kooperativität und Nachgiebigkeit zu zeigen; Harmoniebedürfnis. 4 »Manche Leute halten mich für selbstsüchtig und selbstgefällig« (–.62), 4 »Manche Leute halten mich für kalt und berechnend« (–.65). Gewissenhaftigkeit: Die Skala unterscheidet ordentliche, zuverlässige, disziplinierte, ehrgeizige, pünktliche, penible, hart arbeitende Personen von nachlässigen und gleichgültigen. 4 »Ich bin eine tüchtige Person, die ihre Arbeit immer erledigt« (.70), 4 »Ich arbeite hart, um meine Ziele zu erreichen« (.67). Beispiel worten steht eine 5fach abgestufte Skala von »starke Ablehnung« über »Ablehnung«, »neutral« und »Zustimmung« bis »starke Zustimmung« zur Verfügung. Die Durchführungszeit beträgt etwa 10 min. Kapitel 3 · Diagnostische Verfahren Schnell durchzuführen 270 Durchführung und Auswertung. Die 240 Items sind auf einer fünfstufigen Skala, die identisch ist mit der des NEO-FFI (7 oben) zu beantworten. Es liegen zwei unterschiedliche Testhefte vor, die entweder ein Ankreuzen im Testheft oder auf einem Gliederung. Jede der fünf globalen Persönlichkeitsdimensionen wird durch sechs Teilskalen mit je acht Items näher beschrieben. Das NEO-PI-R besteht damit aus 30 Subskalen (Facetten) und fünf Hauptskalen mit insgesamt 240 Items. Ostendorf & Angleitner (2004) Inzwischen liegt mit dem NEO-PI-R ein Verfahren vor, das weiterhin dem Big-Five Ansatz verpflichtet ist, aber zusätzlich Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit in Facetten unterteilt. Das Verfahren ist eng an das amerikanische Original angelehnt. Die Autoren legten dabei Wert auf eine sinngemäße und nicht wörtliche Übersetzung der Items. Das Verfahren liegt als Selbstbeurteilungs- und Fremdbeurteilungsversion (Form S und F) vor. NEO-Persönlichkeitsinventar nach Costa und McCrae, revidierte Fassung (NEO-PI-R) Das NEO-FFI spiegelt den aktuellen Stand der faktorenanalytischen Grundlagenforschung in der differentiellen Psychologie wider. Auf sehr ökonomische Weise werden 5 relativ varianzstarke Persönlichkeitsfaktoren erfasst, und zwar mit einer Reliabilität und Gültigkeit, die im Vergleich mit anderen Instrumenten als sehr ordentlich bezeichnet werden können. Fazit struktur; Extraversion und Neurotizismus interkorrelieren erwartungsgemäß negativ (um –.35), desgleichen Neurotizismus und Gewissenhaftigkeit (um –.30). In einer gemeinsamem Faktorenanalyse von Personality Research Form PRF (Stumpf et al., 1985), dem FPI, dem Eysenck Personality Inventory EPI und dem NEOFFI ergab sich die in . Tab. 3.14 wiedergegebene Ladungsmatrix. Daraus wird die engere Affinität von Neurotizismus und Extraversion zu den »klassischen« Skalen Eysencks ebenso deutlich wie der Umstand, dass Verträglichkeit kein Aspekt von Extraversion darstellt und »Offenheit für Erfahrung« ein recht eigenständiger Faktor ist, der in anderen Inventaren kaum eine Entsprechung findet. Gegenüber Fremdeinschätzungen bestanden für die 5 Skalen Korrelationen von .27, .43, .23, .30 und .45. Die Autoren vermuten, dass die Koeffizienten etwas zu niedrig ausgefallen sind, und zwar deshalb, weil die Testpersonen nicht immer ihre nächsten Bekannten und Verwandten in die Universität mitbringen konnten. Dort wurden die Untersuchungen in Anwesenheit und unter Kontrolle der Versuchsleiter durchgeführt. In anderen Erhebungen (postalische Befragung, leicht geändertes Itemformat) lagen die Validitäten mit Ausnahme von Verträglichkeit um .60. Validität. Die Skalen bzw. Itemladungen fügen sich in die angenommene Fünffaktoren- Reliabilität. Die α-Koeffizienten für Neurotizismus, Extraversion und Gewissenhaftigkeit liegen bei über .80, diejenigen für die beiden anderen Skalen um .70 und damit auf vergleichbarem Niveau wie das FPI und über den mittleren Konsistenzen des 16 PF. An einer Teilstichprobe von N = 146 Probanden konnten im Abstand von etwa 2 Jahren Wiederholungserhebungen durchgeführt werden. Dabei lagen die Stabilitäten um .80; lediglich für Verträglichkeit ergab sich ein niedrigerer Koeffizient (rtt = .65). 3.2 · Persönlichkeitsfragebogen 3 5 Globalskalen mit je 6 Teilskalen Eng an amerikanisches Original angelehnt Niedrige bis moderate Korrelationen mit Fremdeinschätzungen Faktorenstruktur bestätigt Hohe Reteststabilität 271 3 Computerauswertung empfohlen separaten Antwortbogen vorsehen. Die Durchführung dauert etwa 30 bis 40 min. Die Fremdbeurteilungsversion gleicht der Selbstbeurteilungsversion weitgehend. Die Items unterscheiden sich nur darin, dass sich die Aussage auf eine andere Person bezieht (z. B. statt »Ich bin leicht zu erschrecken« »Er/Sie ist leicht zu erschrecken«). Bei den Fragebogenformen mit integriertem Antwortmodus empfehlen die Autoren, die Itembeantwortungen in einen PC einzugeben und durch ein Computerprogramm auszuwerten (im Anhang befindet sich eine Anweisung für die Auswertung mit SPSS). Bei Verwendung der Testvariante mit separatem Antwortblatt mit Durchschreibform sind die Antworten mit einem Zahlenwert für die angekreuzte Antwortalternative zu gewichten und aufzusummieren. Die Transformation in Normwerte geschieht, indem auf einem zum 4 Neurotizismus – Ängstlichkeit – Reizbarkeit – Depression – Soziale Befangenheit – Impulsivität – Verletzlichkeit 4 Extraversion – Herzlichkeit – Geselligkeit – Durchsetzungsfähigkeit – Aktivität – Erlebnishunger – Frohsinn 4 Offenheit für Erfahrungen – Offenheit für Phantasie – Offenheit für Ästhetik – Offenheit für Gefühle – Offenheit für Handlungen – Offenheit für Ideen – Offenheit des Normen- und Wertesystems 4 Verträglichkeit – Vertrauen – Freimütigkeit – Altruismus – Entgegenkommen – Bescheidenheit – Gutherzigkeit 4 Gewissenhaftigkeit – Kompetenz – Ordnungsliebe – Pflichtbewusstsein – Leistungsstreben – Selbstdisziplin – Besonnenheit Hauptskalen und Facetten des NEO-PI-R Kapitel 3 · Diagnostische Verfahren Selbst- und Fremdbeurteilungsversion 272 umfasst 11.724 Probanden, die an einer der zahlreichen Studien in den Jahren 1999 und 2000 teilgenommen hatten. Daraus wurde zusätzlich nach den Angaben im Statistischen Jahrbuch für das Jahr 2001 eine sekundäre Quotenstichprobe (n = 871) gezogen, die hinsichtlich Alter, Geschlecht und Bildungsstand als repräsentativ für Deutschland gelten kann. Für folgende Gruppen liegen Normen sowie separate Profilblätter vor: Gesamtstichprobe, repräsentative Gesamtstichprobe, jeweils für Männer und Frauen von 16–20, von 21–24, von 25–29, von 30–49 und von über 49 Jahren, repräsentative Stichprobe von Männern und Frauen. Für den Bereich Offenheit stehen zusätzlich Normtabellen für Männer und Frauen zweier Altersgruppen und hohem versus niedrigem Bildungsstand zur Verfügung. Die Normierung der Fremdbeurteilungsversion Normierung. Die Normierungsstichprobe für die Selbstbeurteilungsversion (Form S) Validität. Die Ausführungen im Manual zur Konstruktvalidität umfassen 37 Seiten und weitere sieben Seiten zur Faktorenstruktur. Von den zahlreichen Befunden kann hier nur über einige besonders erwähnenswerte berichtet werden. Die Faktorenstrukturen der 30 Skalen korrespondieren sehr gut zwischen der Selbst- und Fremdbeurteilungsform sowie zwischen Männern und Frauen und auch zwischen verschiedenen Altersgruppen. Die Zuordnung der Facetten zu den Hauptskalen wird durch Faktorenanalysen der Skalen überwiegend gut bestätigt. In einigen wenigen Fällen scheint jedoch Nachbesserungsbedarf bei der Zusammensetzung der Facettenskalen zu bestehen. So läd die Impulsivitätsskala höher auf dem Extraversionsfaktor als auf dem Neurotizismusfaktor. Einige wenige Skalen (insbesondere Durchsetzungsfähigkeit) weisen beträchtliche Nebenladungen auf anderen Faktoren auf. Selbst- und Fremdberichte (gemittelte Beurteilung durch zwei Bekannte) korrelieren im Durchschnitt .54 (Globalskalen) bzw. .47 (Facetten). Gemeinsame Faktorenanalysen der Globalskalen mit den Skalen anderer deutscher Persönlichkeitsinventare (u. a. Gießen-Test, FPI-R, BIP) sprechen für die richtige Einordnung dieser Skalen in das Modell der Big-Five. Reliabilität. Die internen Konsistenzen der Facetten-Skalen liegen im Durchschnitt nur bei α = .73 (.53 für Offenheit für Werte bis .85 für Depression). Die Items können jedoch auch über die Facetten hinweg zu den fünf Globalskalen verrechnet werden. Die großen Itemzahlen führen dazu, dass die internen Konsistenzen der Globalskalen sehr hoch ausfallen (α =.87 bis .92). Die Retestreliabilitäten der Hauptskalen liegen bei kurzen Zeitabständen (1–2 Monate) zwischen .82 und .91 (Median = .90) und bei längeren (5 Jahre) zwischen .74 und .78 (Median = .75). Für die Facetten fallen die Koeffizienten erwartungsgemäß etwas niedriger aus (Median = .82 bzw. .68). Alter und Geschlecht des Probanden passenden Profilblatt lediglich die Rohwerte markiert werden. Die Rohwerte sind skalenweise so angeordnet, dass die Höhe des Wertes auf dem Profilblatt direkt dem Normwert entspricht. Die am Rand des Profilblattes stehenden T-, Stanine- und Prozentrangwerte erlauben bei Bedarf eine Transformation in einen der Normwerte. Zur Interpretation der Skalenwerte steht ein Beiheft mit dem Namen »Persönlichkeitsbild« zur Verfügung. Darin finden sich in verständlicher Sprache Erläuterungen zu den Hauptskalen und den Facetten. Beispielsweise ist zur Skala Vertrauen zu lesen: »Personen mit hohen Punktwerten neigen dazu, andere Menschen generell für ehrlich zu halten und ihnen gute Absichten zu unterstellen. Personen mit niedrigen Punktwerten beschreiben sich als eher skeptisch und misstrauisch anderen Menschen gegenüber. Sie unterstellen anderen schneller unredliche Absichten«. 3.2 · Persönlichkeitsfragebogen 3 Alters- und Geschlechtsnormen Große, repräsentative Normstichprobe Einordnung in Big-Five Modell bestätigt Faktorielle Struktur überwiegend bestätigt Hohe interne Konsistenzen der Globalskalen Umfangreiche Interpretationshilfen Profilblatt 273 3 »Big Four plus X« Modell Erfassung der »normalen« und der gestörten Persönlichkeit Sehr sorgfältige Konstruktion und Normierung International verbreitet Differenzierte, theoriegeleitete Messung der Persönlichkeit Becker, P. (2003). Göttingen: Hogrefe Das TIPI stellt den vorläufigen Endpunkt von langjährigen Konstruktions- und Entwicklungsarbeiten dar, in deren Rahmen Becker sich um die Bereitstellung von Persönlichkeitstests bemüht hat, die dem jeweils aktuellen Erkenntnisstand entsprechen und zentrale Bereiche der Persönlichkeit erfassen sollen. Bei dem TIPI handele es sich um das »erste nach dem eindimensionalen ordinalen Rasch-Modell konstruierte Inventar (…), das eine facettenreiche Erfassung von Eigenschaften und Dimensionen sowohl der ›normalen‹ als auch der ›gestörten‹ Persönlichkeit« gewährleiste (Becker, 2003, S. 3; alle weiteren Zitate ebenfalls aus dem Manual). Die für das TIPI ins Auge gefassten Einsatzgebiete sind äußerst vielfältig und decken die klassischen Felder in Forschung und Anwendung weitestgehend ab. So spricht der Autor u.a. von einer besonders guten Eignung des TIPI für klinische und verhaltensmedizinische Fragestellungen oder solche aus der forensischen und ABO-Psychologie. Theoretischer Hintergrund des TIPI ist eine hierarchische Struktur der Persönlichkeit von Verhaltensweisen über Persönlichkeitseigenschaften (= Skalen oder Facetten) zu Persönlichkeitsdimensionen (= Faktoren erster Ordnung). Zur letzteren, also der höchsten Ebene, gehören die international intensiv beforschten »Big Five«. Weil Becker (2003) davon den Faktor »Offenheit für Erfahrung« nicht in hinreichender Weise als repliziert ansieht, geht er stattdessen von seinem Modell »Big Four plus X« (4PX) aus; dessen Kern entsprechen die vier Globalskalen des TIPI, denen einzelne Facetten als Eigenschaften zugeordnet werden. Im Bestreben, eine umfassendere Beschreibung der Persönlichkeit zu ermöglichen als dieses mit den Vorläuferversionen in Gestalt des »Trierer Persönlichkeitsfragebogens« und des »Trierer Inventars zur Verhaltenskontrolle« der Fall war, defi- Trierer Integriertes Persönlichkeitsinventar TIPI Bewertung. Das NEO-PI-R weist gegenüber dem NEO-FFI mehrere Vorteile auf. Erstens erlaubt es, die großen fünf Persönlichkeitsdimensionen wesentlich zuverlässiger zu messen. Zweitens erlauben die Subskalen eine wesentlich differenziertere Beschreibung der Persönlichkeit als dies mit den fünf globalen Skalen möglich ist. Es besteht zudem die Hoffnung, für die Teilfacetten höhere Kriteriumsvaliditäten zu finden als für die »groben« Globalskalen. Drittens steht auch eine Fremdbeurteilungsversion zur Verfügung, die alleine oder in Kombination mit der Selbstbeurteilungsversion eingesetzt werden kann und viele neue Anwendungsmöglichkeiten erschließt (z. B. Vergleich von Selbst- und Fremdbeurteilung). Viertens ist das NEO-PI-R besser normiert (aktuellere und repräsentative Normen). Das NEO-FFI kann lediglich einen Vorteil verbuchen: Es ist kürzer und damit ökonomischer. Das NEO-PI-R ist international weit verbreitet; die amerikanische Originalversion wurde bislang in über 30 Sprachen übersetzt (Ostendorf & Angleitner, 2004). Damit eröffnet sich die Chance, Forschungsarbeiten mit der deutschen Version international zu publizieren, was wiederum Forscher anregen wird, mit diesem Verfahren zu arbeiten. Zugleich profitieren deutsche Anwender von den nationalen und internationalen Forschungsarbeiten. Insgesamt ist das NEO-PI-R als ein theoretisch sehr gut fundiertes Verfahren zu bewerten. Zwischen der Übersetzung der Items und der Publikation des Verfahrens liegen 13 Jahre. Die Autoren haben die Zeit für eine sorgfältige Konstruktion, Evaluierung und Normierung genutzt. Dieses umsichtige Vorgehen hat Vorbildcharakter! (Form F) erfolgte an 1.547 Personen. Hier wird zwischen vier Teilgruppen unterschieden, die nach Geschlecht und Alter (16–29 sowie 30 und älter) gebildet wurden. Kapitel 3 · Diagnostische Verfahren Normen auch für Fremdbeurteilungsversion 274 3 Messintentionen und Konstruktionshintergrund. Mit dem BIP soll jenen Fragebogen, die häufig genug einen klinisch-psychologischen Hintergrund aufweisen, »eine anforderungsnähere und vor dem Hintergrund der sozialen Validität tragfähige Alternative« hinzugefügt werden (Hossiep & Paschen, 1998, S. 4; alle weiteren Zitate, soweit nur durch Seitenangaben kenntlich gemacht, ebenfalls aus dem Manual). Im Unterschied zu den meisten anderen Testsystemen, die gewöhnlich auf einer mehr oder weniger differenzierten Persönlichkeitstheorie beruhen, stand hier am Ausgangspunkt der Entwicklung ein intensiver »Austausch mit in der Personalarbeit tätigen Psychologen und weiteren Experten, um deren Auffassungen bezüglich erfolgsrelevanter psychologischer Verhaltensdispositionen in Erfahrung zu bringen« (S. 10). Hinzu kam selbstverständlich eine eingehende Literaturrecherche, um einen Überblick zu gewinnen, »welche psychologischen Dimensionen sich im Rahmen bisheriger Validitätsbefunde als besonders vorhersagefähig für beruflichen Erfolg erwiesen haben« (S. 10). Ziel war es somit, ein für Eignungs- und Platzierungsentscheidungen brauchbares Instrument zu entwickeln; konkret sollte damit »die standardisierte Erfassung des Selbstbildes eines Testkandidaten im Hinblick auf relevante Beschreibungsdimensionen aus dem Berufsleben« (S. 12) geleistet werden, im Weiteren auch »dasjenige Selbstbild, welches der Testteilnehmer gegenüber der testenden Institution vermitteln möchte« (S. 11). Wenngleich bei einer derartigen Genese bzw. Zielbestimmung auch Erkenntnisse der differentiellen Psychologie und solche der Motivationsforschung integriert werden mögen, interessierte doch mehr pragmatisch die Funktionalität für berufsdiagnostische Fragestellungen; aus diesem Grunde liegt dem BIP »keine alle Dimensionen umfassende theoretische Ausgangsposition zugrunde« (S. 10). Die Anwendungsschwerpunkte des BIP liegen nach Auffassung seiner Autoren in Situationen, die der Einschätzung einer Person im Hinblick auf bestimmte berufliche Anforderungen dienen sollen; dazu »ge- Hossiep, R. & Paschen, M. (1998). Göttingen: Hogrefe Das Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung BIP Mit dem TIPI liegt ein mehrdimensionaler Persönlichkeitstest vor, der im Hinblick auf Reliabilität und Validität gute (aber keine überragenden) Gütemerkmale aufweist. Die hohe Korrelation zwischen Skalenscores und Personenparametern wirft die Frage auf, welchen Gewinn die serielle Konstruktion nach probabilistischer und klassischer Testtheorie jenseits theoretischer Erwägungen für die praktische Anwendung bedeutet. Die Globalfaktoren, wenngleich hier mehrheitlich mit Doppelnamen belegt und im Fall von »Unverträglichkeit« gegenüber der gewohnten Übung gespiegelt, orientieren sich partiell an der internationalen Literatur. Hingegen erklärt sich die Genese von vielen der Primärfaktoren, die eine differenziertere Beschreibung der Persönlichkeit gewährleisten sollen, eher idiosynkratisch aus den Vorläuferversionen und den Auffassungen oder Interessen des Testautors. Das TIPI leistet offensichtlich weitgehend Ähnliches wie vorliegende Verfahren mit gleichem Gültigkeitsanspruch; sieht man von der Zahl und dem Inhalt der Facetten ab, ist aber bislang nicht überzeugend belegt, was das TIPI besser kann, worin dessen spezifischer Nutzen und die eigenständige Validität liegt. Das ist angesichts des Umstandes, dass der Test noch sehr jung ist, zu verstehen; man darf deshalb zuversichtlich sein, dass zu diesen Fragen die zukünftige Forschung aufschlussreiche Beiträge liefern wird. Fazit Kapitel 3 · Diagnostische Verfahren Anwendungsschwerpunkte: Platzierungsentscheidungen, Training, Coaching und Beratung 278 Persönliche Eignungsvoraussetzungen Gliederung. Die Auswahl der mit dem BIP zu erfassenden Konstrukte richtete sich nach vorliegenden Validitätshinweisen zu Persönlichkeitskonstrukten und den »Anforderungen der diagnostischen Praxis« (S. 18) – was immer darunter auch verstanden werden mag. Darüber hinaus lieferten Personalexperten Hinweise auf die Relevanz von Persönlichkeitsattributen, »vorrangig bezogen auf Fach- und Führungskräfte in der Wirtschaft« (S. 19). Letztlich resultierten daraus 14 Dimensionen, die sich auf die vier Bereiche Berufliche Orientierung, Arbeitsverhalten, Persönliche Kompetenzen und Psychische Konstitution verteilen, wie in . Abb. 3.20 veranschaulicht. Diese Bereiche spielen allerdings weder bei der Auswertung noch der Interpretation eine Rolle. Jede der Skalen, denen eine Mischstrategie aus rationalen und induktiven Entwicklungsschritten zugrunde liegt, umfasst zwischen 12 und 16 Items in Form von Selbstbeschreibungen (. Tab. 3.16). Insgesamt enthält der Fragebogen 210 Items, die in sechsfach abgestufter Form von »trifft voll zu« bis »trifft überhaupt nicht zu« zu beantworten sind. Hinzu kommen noch vier »Zusatzindices« zu Kontrollerleben, Wettbewerbsorientierung, Mobilität und Freizeitorientierung, die vorerst nur die Ausgangsbasis für weitergehende Untersuchungen bilden sollen und für die keine Normen vorliegen. Die Dimensionen des BIP sind zusammen mit Erläuterungen und Itembeispielen sowie den Reliabilitäten in . Tab. 3.16 zusammengestellt. hören neben Platzierungsentscheidungen auch Training, Coaching und Beratung« (S. 41). An anderer Stelle raten die Autoren jedoch nachhaltig davon ab, das BIP als Vorauswahlinstrument oder als alleiniges Platzierungs- und Entscheidungsinstrument einzusetzen. Als Fragebogeninstrument könne es insbesondere eine Grundlage für eine hypothesengeleitete, tiefere Exploration liefern. Die große Akzeptanz des Verfahrens am Markt belegt, dass seriöse Verfahren mit einem derartigen Verwendungszweck einem dringenden Bedarf gerecht werden. 3.2 · Persönlichkeitsfragebogen 3 . Abb. 3.20. Die Dimensionen des BIP. (Nach Hossiep & Paschen, 1998, S. 19) 4 »Zusatzindices« Mischung aus rationalen und induktiven Konstruktionsprinzipien 14 Dimensionen Große Akzeptanz am Markt 279 3 280 Itembeispiel mit Trennschärfekoeffizient Ich bin mit mir erst dann zufrieden, wenn ich außergewöhnliche Leistungen vollbringe. Cronbach-α-Koeffizient Leistungsmotivation .90 .80 .71 Ich brauche eine Weile, bis ich Bekanntschaften schließe. Kontaktfähigkeit Ausgeprägte Fähigkeit und Präferenz des Zugehens auf bekannte und unbekannte Menschen und des Aufbaus sowie der Pflege von Beziehungen; aktiver Aufbau und Pflege von beruflichen wie privaten Netzwerken .85 Ich bemerke mit großer Sicherheit, wie sich mein Gegenüber fühlt. .71 Ich kann mich auf die unterschiedlichsten Menschen sehr gut einstellen. Sensitivität Gutes Gespür auch für schwache Signale in sozialen Situationen; großes Einfühlungsvermögen, sichere Interpretation und Zuordnung der Verhaltensweisen anderer .75 .86 Wenn ich viele Aufgaben zu erledigen habe, weiß ich manchmal gar nicht, womit ich anfangen soll. Handlungsorientierung Fähigkeit und Wille zur raschen Umsetzung einer Entscheidung in zielgerichtete Aktivität sowie zur Abschirmung einer gewählten Handlungsalternative gegenüber weiteren Entwürfen .73 .87 Wenn ich vor völlig unerwarteten Situationen stehe, fühle ich mich richtig in meinem Element. Flexibilität Hohe Bereitschaft und Fähigkeit, sich auf neue oder unvorhergesehene Situationen einzustellen und Ungewissheit zu tolerieren; Offenheit für neue Perspektiven und Methoden; hohe Veränderungsbereitschaft .72 .83 Ich nehme die Dinge ganz genau. Gewissenhaftigkeit Sorgfältiger Arbeitsstil; hohe Zuverlässigkeit; detailorientierte Arbeitsweise; hohe Wertschätzung konzeptionellen Arbeitens; Hang zum Perfektionismus .73 .88 Eine Spezialistentätigkeit ist mir lieber als eine Führungsaufgabe. Führungsmotivation Ausgeprägtes Motiv zur sozialen Einflussnahme; Präferierung von Führungs- und Steuerungsaufgaben; Selbsteinschätzung als Autorität und Orientierungsmaßstab für andere Personen .64 .75 Für einige bin ich ein unbequemer Querdenker. Gestaltungsmotivation Ausgeprägtes Motiv, subjektiv erlebte Missstände zu verändern und Prozesse und Strukturen nach eigenen Vorstellungen gestalten zu wollen; ausgeprägte Bereitschaft zur Einflussnahme und zur Verfolgung eigener Auffassungen .69 .81 Bereitschaft zur Auseinandersetzung mit einem hohen Gütemaßstab; Motiv, hohe Anforderungen an die eigene Leistung zu stellen; große Anstrengungsbereitschaft, Motiv zur fortwährenden Steigerung der eigenen Leistungen Konzeptualisierung Dimension und Reliabilität . Tabelle 3.16. Die mit dem BIP erfassten Konstrukte (Bezeichnung der Dimensionen, Bedeutung hoher Skalenausprägung und trennschärfstes Item mit Trennschärfekoeffizient). (Nach Hossiep & Paschen, 1998, S. 20-21 und 214-227) Kapitel 3 · Diagnostische Verfahren (Emotionale) Unabhängigkeit von den Urteilen anderer; hohe Selbstwirksamkeitsüberzeugung; großes Selbstvertrauen bezüglich der eigenen Fähigkeiten und Leistungsvoraussetzungen Selbsteinschätzung als (physisch) hoch widerstandsfähig und robust; starke Bereitschaft, sich auch außergewöhnlichen Belastungen auszusetzen und diesen nicht auszuweichen Ausgeglichene und wenig sprunghafte emotionale Reaktionen; rasche Überwindung von Rückschlägen und Misserfolgen; ausgeprägte Fähigkeit zur Kontrolle eigener emotionaler Reaktionen Tendenz zur Dominanz in sozialen Situationen; Bestreben, die eigenen Ziele auch gegen Widerstände nachhaltig zu verfolgen; hohe Konfliktbereitschaft Hohe Wertschätzung von Teamarbeit und Kooperation; Bereitschaft zur aktiven Unterstützung von Teamprozessen; bereitwillige Zurücknahme eigener Profilierungsmöglichkeiten zugunsten der Arbeitsgruppe Ausgeprägte Präferenz für Sozialverhalten, welches von Freundlichkeit und Rücksichtnahme geprägt ist; Großzügigkeit in Bezug auf Schwächen der Interaktionspartner; ausgeprägter Wunsch nach einem harmonischen Miteinander 281 .71 Fremdeinschätzungsbogen Vor Begegnungen mit wichtigen Personen werde ich nervös. .79 Bei gleichzeitigen Anforderungen von mehreren Seiten werde ich nervös. .73 Mich wirft so leicht nichts aus der Bahn. .70 Bei Auseinandersetzungen gewinne ich andere leicht für meine Position. .84 Ich ziehe es vor, allein zu arbeiten. .84 Ich ziehe es vor, allein zu arbeiten. Itembeispiel mit Trennschärfekoeffizient Konzeptualisierung Komplettiert wird das Instrumentarium durch 42 Items eines Fremdeinschätzungsbogens, und zwar je drei für jede der 14 Dimensionen. Diese enthalten Aussagen nach dem Muster »Die von mir einzuschätzende Person... ist motiviert, die eigene Arbeit kontinuierlich zu verbessern« oder »… ist bestrebt, Missstände zu beseitigen«. Hierbei muss der »Ausprägungsgrad des Verhaltens« in 9facher Abstufung von »deutlich unterdurchschnittlich« über »durchschnittlich« bis zu »deutlich überdurchschnittlich« beurteilt werden. Bei dem Fremdeinschätzungsbogen handelt es sich zunächst um ein heuristisches Hilfsmittel, dessen Einsatz in der diagnostischen Praxis »nur mit einer gewissen Vorsicht erfolgen« (S. 85) sollte. Gedacht ist primär an einen Einsatz in Assessment Centern, in Teamtrainings, als Stütze bei der Vermittlung von systematischem Feedback von Mitarbeitern an ihre Vorgesetzten und in Forschungsarbeiten. .85 Selbstbewusstsein .92 Belastbarkeit .89 Emotionale Stabilität .85 Durchsetzungsstärke .89 Teamorientierung .75 Soziabilität Cronbach-α-Koeffizient Dimension und Reliabilität . Tabelle 3.16 (Fortsetzung) 3.2 · Persönlichkeitsfragebogen 3 3 Verlässlichkeit der Normen fraglich Leichte Verfälschbarkeit im Sinne sozialer Erwünschtheit Gesonderte Normen für verschiedene Geschlechts-, Altersund Berufsgruppen Unbefriedigende Korrelationen zwischen Selbst- und Fremdeinschätzung Keine Untersuchungen zur Konstruktvalidität Kriteriumsvalidität weitgehend gering Inkrementelle Validität nicht belegt 4-Faktoren-Struktur: »Motivation«, »Stabilität/Belastbarkeit«, »Soziabilität«, »Gewissenhaftigkeit« Gute interne Konsistenzen und Reteststabilitäten nicht alle Vorzüge oder Problembereiche hier behandelt werden; diesbezüglich sei beispielsweise auf die ausführlichen Rezensionen von Heilmann (1999) und Wolff (2000) verwiesen. Die eingangs gegebene Beschreibung von Konstruktionsprinzipien und Anwendungsschwerpunkten hat aber wohl anklingen lassen, dass selbst die Autoren im Spannungsfeld zwischen ihrem Anspruch bzw. den Erwartungen einerseits und den faktischen Gegebenheiten andererseits etwas »taktieren«. Letztlich wollte man ein im Personalbereich valides Instrument, doch steht dem die prinzipiell leichte Verfälschbarkeit von allen Persönlichkeitsfragebogen im Sinne sozialer Erwünschtheit entgegen, die immer ins Spiel kommt, wenn es um Situationen mit mehr oder weniger Ernstcharakter geht. In welchem Ausmaß diese empirisch belegt gerade beim BIP auch eine Rolle spielt, lässt sich nur schwer ermessen. Im Zusammenhang damit stellt sich auch die Frage der Verlässlichkeit der Normen, die weithin in Forschungssituationen ermittelt wurden. Das Manual »tut des Guten zuviel« und ist überfrachtet mit zu vielen Informationen, die der Anwender nicht benötigt. Das BIP stellt ein für den Personalbereich konzipiertes Instrumentarium dar, mit dessen Hilfe sich die Testpersonen hinsichtlich berufsrelevanter Dimensionen selbst Bewertung. Aus konzeptuellen Gründen und wegen des beschränkten Platzes können beiderlei Geschlechts und eines weiten Alters- und Berufsbereiches und sind getrennt für wesentlich erachtete Gruppen (z. B. Absolventen verschiedener Schultypen, Angehörige bestimmter Berufsgruppen) im Manual ausgewiesen. Normen. Die Normen (Sten und Stanine) stützen sich auf insgesamt N = 5354 Personen Schablonen sind Durchführungs- und Auswertungsobjektivität gegeben. Die Skalen sind intern konsistent (7 die Cronbach-α -Koeffizienten in . Tab. 3.16) in einer Größenordnung um .85. Auf demselben Niveau liegen die Reteststabilitäten. Die Skalen interkorrelieren im Mittel um ca. .40; eine vom Verfasser durchgeführte Faktorenanalyse der im Manual mitgeteilten Interkorrelationen zeigte eine recht klare 4-FaktorenStruktur (»Motivation«, »Stabilität/Belastbarkeit«, »Soziabilität« und »Gewissenhaftigkeit«). Was die Validität angeht, so verweisen die Autoren im Manual eingangs darauf, dass Persönlichkeitstests relativ zu Leistungstests ein Validitätsinkrement aufweisen, also in einer Batterie von Prädiktoren eigenständige Beiträge zur Aufklärung der Kriteriumsvarianz einbringen könnten. Genau danach sucht man im Manual allerdings vergebens; dort werden im Wesentlichen nur numerisch völlig unbedeutende multiple Regressionskoeffizienten für die Aufklärung von Abiturnoten oder Kriterien für die Leistung im ersten Studienabschnitt an Hochschulen und Ähnlichem mitgeteilt. Mit dem beruflichen Entgelt korrelieren die Skalen zu R = .40 (adjustiertes R2 = .15). Ähnlich sind die Koeffizienten mit anderen Kriterien, wobei einzelne Skalen mitunter um .30 mit den Außenkriterien korrelieren. Insgesamt sind somit die Überlappungen mit relevant erscheinenden Kriteriumsinformationen relativ gering, wobei allerdings die herangezogenen Stichproben aus naheliegenden Gründen nicht »bevölkerungsrepräsentativ« sein konnten (und es auch nicht sein sollten). Untersuchungen zur Konstruktvalidität der einzelnen Skalen fehlen. An zwei größeren Stichproben korrelierten Selbst- und Fremdeinschätzungsbogen im Mittel der Skalen zu .33 und .40, wenn die Fremdeinschätzer die Zielpersonen aus dem beruflichen bzw. aus dem privaten Bereich her kannten. Weder die Höhe des ersteren Koeffizienten noch die Richtung des Unterschiedes zum letzteren können angesichts des Anspruchs des Verfahrens befriedigen. Psychometrische Gütekriterien. Bei Fragebogen mit ausführlicher Instruktion und Kapitel 3 · Diagnostische Verfahren Durchführungsund Auswertungsobjektivität gegeben 282 Gliederung. In der Version des SVF 120 sind 20 Subtests mit je 6 Feststellungen der Art enthalten, für die in . Tab. 3.17 jeweils ein Beispiel mit der höchsten Trennschärfe zur Janke, W. & Erdmann, G. & Boucsein, W. (Erstaufl. des SVF, 1985, Revision zum SVF 120 1997, 3., erweiterte Aufl. 2002 von W. Janke, G. Erdmann und K. W. Kallus). Göttingen: Hogrefe Mit dem SVF liegt ein Instrument vor, das einem spezifischen Erlebnis der Gegenwart von nachgerade endemischem Charakter Rechnung trägt: Dem von »jedermann« beklagten Stress, genauer: Der Art und Weise, wie darauf reagiert und damit fertig zu werden versucht wird (»coping«), und zwar mit Hilfe psychischer Prozesse, die beim Auftreten von Belastungssituationen mehr oder weniger gezielt und mehr oder weniger bewusst in Gang gesetzt werden, um diesen Zustand zu reduzieren. Unter Stress verstehen die Autoren einen psychischen und somatischen Zustand, »der als eine längerdauernde und/oder stärkere Abweichung von dem zu einem bestimmten Zeitpunkt (oder Zeitabschnitt) normalerweise gegebenen Erregungsniveau zu kennzeichnen ist« (Janke et al., 1985, S. 7). Die Abweichungen in somatischen Parametern zeigen sich in Veränderungen des Vegetativums und Endokrinums und in psychischen Veränderungen emotionaler und kognitiver Art, wie etwa Gefühlen erhöhter Erregtheit und Angespanntheit, und manifestieren sich auf der Verhaltensebene in einer veränderten Handlungs- und Aktivitätsbereitschaft. Bei der Entwicklung des Verfahrens standen u. a. die theoretischen Annahmen Pate, dass die individuell verwendeten Stressverarbeitungsmaßnahmen als eine Art habitueller Persönlichkeitsmerkmale aufgefasst werden können (»Zeitkonstanz«), die ein Individuum relativ unabhängig von der Art der Belastungssituation (»Situationskonstanz«), sowie der Art der Belastungsreaktion (»Reaktionskonstanz«) kennzeichnen. Gewiss ist insbesondere die Annahme der Situationskonstanz diskussionswürdig; die Autoren halten sie aber zumindest für verbal berichtete Verarbeitungsmaßnahmen in vorgestellten (nicht aber tatsächlichen) Belastungssituationen für vertretbar. Gemeint ist damit die relative und nicht die absolute Situationskonstanz, die von den Autoren auch nur für verbal berichtete Verarbeitungsmaßnahmen in vorgestellten (nicht aber in tatsächlichen) Belastungssituationen postuliert wird und dafür empirisch (anhand korrelativer Befunde mit situationsbezogener Erfragung von Bewältigungspositionen) belegt wird. Von daher schien ihnen auch die Ausklammerung des situativen Aspektes bei der Formulierung der Items gerechtfertigt zu sein. Deren Vorspann lautet demgemäß invariant: »Wenn ich durch irgend etwas oder irgendjemanden beeinträchtigt, innerlich erregt oder aus dem Gleichgewicht gebracht worden bin…«. Die Itemgenerierung erfolgte teils theorie-, teils empiriebezogen; bei der Zusammenstellung zu Subskalen kamen konsistenz- und faktorenanalytische Prinzipien zur Anwendung. Stressverarbeitungsfragebogen SVF 120 beschreiben. Die Items bilden intern konsistente und über die Zeit hinreichend stabile Skalen, deren Punktwerte in mittlerer Höhe miteinander und auch mit den zugeordneten Fremdeinschätzungen korrelieren. Die Validität gegenüber externen Kriterien übersteigt auf Skalenniveau kaum die .30er-Grenze und erreicht bei Vornahme der notwendigen Korrekturen auch bei Linearkombinationen numerisch nur bescheidene Werte. Insgesamt stellt das Verfahren eine gute Grundlage für Exploration und Beratungs- sowie Rückmeldegespräche dar. 3.2 · Persönlichkeitsfragebogen 3 20 Subtests mit je 6 Feststellungen Itemgenerierung Annahme der Situationskonstanz diskussionswürdig Theoretische Annahmen: Zeit-, Situations- und Reaktionskonstanz Definition und Ausdruck von Stress Coping = Verarbeitung SVF 120 283 3 Traits und States Kurzform SVF 78 mit 13 Skalen Normierungsstichprobe nicht sehr umfangreich Geringe Beziehungen zu physiologischen Maßen Gute »differentielle« Validität« Verfahren zur Erfassung aktueller Zustände Die bisher vorgestellten Instrumente dienten der Erfassung von individuellen Unterschieden in habituellen Eigenschaften, also relativ breiten und zeitlich stabilen Dispositionen zu bestimmten Verhaltensweisen, die konsistent in verschiedenen Situationen auftreten (s. Graumann, 1960, S. 146). Von diesen Traits sind bekanntlich die zeitlich viel stärker fluktuierenden States oder Zustände zu unterscheiden. States entsprechen 3.2.4 Anmerkung. Janke und Erdmann haben 2002 eine SVF 78 genannte Kurzform des SVF 120 veröffentlicht. Sie enthält nur 13 der 20 Subtests des SVF 120 (weggelassen: Selbstbestätigung, Entspannung, Soziale Abkapselung, Selbstbemitleidung, Aggression und Pharmakaeinnahme). Die Anzahl der Items pro Subtest blieb unverändert. Ziel der Autoren war es, für bestimmte Anwendungszwecke eine ökonomischere Version zur Verfügung zu stellen, ohne grundlegende Merkmale des SVF 120 wie die faktorielle Struktur, die Differenzierung von positiven und negativen Stressverarbeitungsstrategien und die Kennwerte der Skalen zu verändern. Fazit Mit 20 Dimensionen liefert der SVF 120 ein sehr differenziertes Beschreibungssystem zu habituellen Reaktionsformen bei auftretendem Stress. In der Mehrzahl sind die Subskalen reliabel und auch zeitstabil. In empirischen und experimentellen Untersuchungen haben sie eine inkrementelle Validität gegenüber Maßen der emotionalen Labilität gezeigt, was ihre Nützlichkeit nachhaltig belegt. den beiderlei Geschlechts im Alter zwischen 20 und 64 Jahren sowie einer Zusatzgruppe von 96 Personen im Alter von 65 bis 79 Jahren, für die jeweils gesondert (Roh-) Mittelwerte und Standardabweichungen mitgeteilt werden. Diese »Normen« sind zwar aktuell, doch wäre auf lange Sicht eine zahlenmäßig breitere Basis wünschenswert. Normierung. Die Standardisierungsstichprobe für den SVF 120 besteht aus 288 Proban- Validität. In Bezug darauf enthalten die Manuale in absolut vorbildlicher Weise die Ergebnisse sehr vieler und verschiedener Untersuchungsansätze, von denen hier nur ein unzureichender Ausschnitt referiert werden kann. Die Positiv-Strategien sind untereinander in mittlerer Höhe interkorreliert, aber orthogonal zu den Negativ-Strategien; diese wiederum korrelieren mit dem Syndrom von Emotionaler Labilität. Einzelne Skalen trennten erfolgreich kranke von gesunden Personen und auch verschiedene Krankheitsgruppen voneinander (»differentielle« Validität). Im Zuge experimenteller Validierungen sprachen die Resultate dafür, dass die positiven Strategien um –.20, die negativen um +.50 mit subjektiven Stressreaktionen, erfasst durch Befindensmaße, korrelierten; diese Korrelationen sinken zwar bei Herauspartialisierung von emotionaler Labilität, bleiben aber namentlich im Falle der Negativ-Strategien auf signifikantem Niveau. (Aufschlussreich wäre eine Prüfung der Frage, ob sich ähnliche Effekte auch bei einer Herauspartialisierung von aktuellen Befindlichkeitsunterschieden sensu EWL einstellen, zu denen gleichfalls Korrelationen bestehen.) Umgekehrt zeigte sich auch bei einer Kombination von emotionaler Labilität und den Negativ-Strategien ein eigenständiger Prädiktionsbeitrag der SVF-Variablen. Sehr viel niedriger liegen die Beziehungen zu objektiven physiologischen Maßen. Kapitel 3 · Diagnostische Verfahren Große Zahl an Validitätsansätzen 286 in grober Annäherung dem umgangssprachlichen Stimmungsbegriff. Es handelt sich hierbei um temporäre Zustände von Aktivation, Entspannung, guter Stimmung usw. Gleichsam aus der Summation von Stateeinheiten resultieren die Traits, weshalb die Übergänge zwischen aktuellen und habituellen Zuständen fließend sind und die Grenzziehung in gewisser Weise willkürlich ist (Allen & Potkay, 1981). Deutlich wird diese auch, wenn man von Traits als den relativ stabilen und überdauernden, von States hingegen als den relativ temporären Charakteristika spricht. Die notwendigen Unterscheidungen auf dem unterstellten Kontinuum geraten noch problematischer, wenn auch änderungssensitive Traits konzediert werden oder – wie es Janke und Hüppe (1991) explizit tun – zwischen Stimmungen als zeitlich ausgedehnten Gefühlen und den langfristigen Merkmalen der Emotionalität »mittelfristige Zustände« vorgesehen werden (wie z. B. depressive Verstimmungen). Von dort ist es nur noch ein kleiner Schritt zu der Auffassung, dass jedes psychologische Attribut sowohl State- als auch Traitkomponenten aufweist. Steyer et al. (1992) vertreten diese Position und haben Rechenmodelle zur Analyse der besagten Anteile vorgestellt. Für die Erfassung von States, die intraindividuell als die situations- oder zeitbedingten Unterschiede im Erleben oder Verhalten einer Person definiert werden, sind verschiedene Instrumente entwickelt worden, die spezifische Charakteristika aufweisen. Gewöhnlich handelt es sich dabei um Listen von Eigenschaftswörtern oder kurzen Erlebnisbeschreibungen (»Ich bin …«, »Ich fühle mich …«), zu denen Stellung genommen werden muss, ob und ggf. inwieweit sie den momentanen Zustand treffend kennzeichnen. Die Messintention von States zu erfassen, würde verlangen, dass solche Variablen einen gemeinsamen Faktor oder eine Skala konstituieren, die über Messzeitpunkte oder Situationen hinweg miteinander korrelieren. Diese Faktoren würden dann nur für die betreffende Person bzw. – sofern die Daten vorher über Probanden aggregiert wurden – für eine fiktive Durchschnittsperson gelten. Reliabilität müsste als ein Maß dafür aufgefasst werden, inwieweit intraindividuelle Unterschiede bei erneuter Realisation der Situation reproduzierbar sind (Köhler, 1979). Dabei stellt sich u. a. das Problem, nach welchen Gesichtspunkten die Stichprobe der Situationen gezogen werden soll, weil eine entsprechende Situation/ Population kaum zu definieren ist. Solche Vorgaben erfordern generell Längsschnittstudien oder Untersuchungen in verschiedenen Situationen, mit daran ansetzenden P-Analysen (= Korrelation zwischen Variablen einer Person über Situationen; z. B. die Registrierung von Puls und Atemfrequenz bei der Vorgabe verschieden stark angstauslösender Bilder). Von ganz wenigen Ausnahmen abgesehen basieren die allermeisten Statetests aber auf Querschnittsanalysen und auf nur einmaliger Vorgabe der Items mit nachgeschalteten R-Analysen, also der Korrelation zwischen Variablen über Probanden. Dies ist ein Ansatz, der Faktoren nach der Kovariation der Variablen über die Personen bestimmt. Damit werden die stabilen interindividuellen Unterschiede zu Lasten intraindividueller Veränderungen kontraproduktiv maximiert. Obwohl diese Prinzipien allgemein bekannt sind, wurden sie doch nur selten umgesetzt. Im deutschen Sprachraum hat Gräser (1979) die 96 Items des Eight State Questionnaire von Curran und Cattell (1970) übersetzt und es von 7 Probanden an 28 aufeinanderfolgenden Tagen bearbeiten lassen. Becker (1988) gab 10 Probanden die Eigenschaftswörterliste (EWL) von Janke und Debus (1978) mit der Instruktion vor, an etwa 100 aufeinanderfolgenden Tagen die aktuelle Befindlichkeit einzuschätzen (s. auch Becker et al.,1989). Mit Hilfe von P-Analysen wurden 28 Items identifiziert, die sich zu den 3 Faktoren »Aktiviertheit«, »gedrückte vs. gehobene Stimmung« und »Gereiztheit« gruppieren. Die später zu besprechenden Verfahren, das State-Trait-Angst-Inventar 3.2 · Persönlichkeitsfragebogen 3 Beispiele für Längsschnittstudien Selten Umsetzung der Prinzipien Tests basieren auf Querschnittsanalysen Vorgaben erfordern Längsschnittstudien Listen zur Zustandsbeschreibung Hat jedes Attribut State- und Traitkomponenten? Mittelfristige Zustände Fließende Übergänge aufgrund des willkürlichen Charakters einer Grenzziehung 287 3 2 Skalen mit je 20 Items STAI Befindensmaße werden nicht normiert Abgrenzung zu Situations-ResponseFragebogen matierung »Ich bin ruhig« oder »Mir ist zum Weinen zumute«, auf die in 4fach abgestufter Weise mit »überhaupt nicht/ein wenig/ziemlich/sehr« (State) bzw. »fast nie/ Gliederung. Das STAI enthält 2 Skalen mit je 20 (teilweise identischen) Items der For- Laux, L. et al. (1981). Weinheim: Beltz Das Verfahren stellt die deutschsprachige Adaptation des von Spielberger et al. (1970) entwickelten »State-Trait-Anxiety Inventory« dar. Für die Stateskala der amerikanischen Originalversion hatten sich solche Items qualifiziert, die neben einer zufriedenstellenden Trennschärfe höhere Mittelwerte in einer vorgestellten Prüfungssituation als unter einer neutralen Situation aufwiesen. Das State-Trait-Angst-Inventar-STAI Wenn mehrfach bei Statetests von einem stärkeren Einfluss situativer Bedingungen gesprochen wurde, so bleibt das Attribut »situationsspezifisch« doch zur Kennzeichnung jener ganz anderen Kategorie von Verfahren reserviert, in denen Instruktion und/oder Itemtext einen direkten Bezug auf Situationen nehmen, wie das in den sog. Situations-Response-(S-R-)Fragebogen üblich ist (z. B. »Stellen Sie sich vor, Sie gehen allein durch einen dunklen Wald …«). Weil das momentane Befinden immer von der Situation abhängt, in der sich die Person gerade befindet, und es keine einheitliche »Standardsituation« gibt, werden Befindensmaße nicht normiert. Eine Normierung wäre nur für spezifische Situationen sinnvoll, die sowohl relativ invariant sind als auch hinreichend viele Menschen betreffen. STAI von Laux et al. (1981) und die Eigenschaftswörterliste EWL von Janke und Debus (1978), die im Unterschied zu den vorgenannten Verfahrensentwicklungen eine sehr verbreitete Anwendung gefunden haben, fußen hingegen auf Querschnittplänen – mit allen daraus resultierenden prinzipiell bedingten Defiziten (auf die dann nicht noch einmal gesondert eingegangen zu werden braucht). Ob die im interindividuellen Vergleich ermittelten Resultate denen aus intraindividuellen Analysen entsprechen, ist in methodisch befriedigender Weise nicht leicht zu beantworten. Watson (1988) ließ 80 Probanden während 6–8 Wochen täglich ihre negativen und positiven Gefühle einstufen. Beschwerden sowie Stress korrelierten nur mit negativer, soziale Aktivitäten und körperliche Bewegung nur mit positiver Stimmung. Ein ähnliches Muster ergab sich auch für die intraindividuellen Veränderungen. Muss man mit den Beschränkungen von querschnittlichen Erhebungen auskommen, richtet sich das Augenmerk i. Allg. darauf, ob (wenigstens) die folgenden Anforderungen erfüllt sind: 1. Im Hinblick auf die bei Statetests gewünschte Änderungssensitivität wird erwartet, dass sie gegenüber einer Variation des situativen Kontextes (z. B. Instruktionsvarianten; Vorstellen verschieden bedrohlicher Situationen) mit unterschiedlichen Mittelwerten reagieren. Das heißt, solche Tests lassen die relative Invarianz der Mittelwerte, wie sie von Traittests verlangt wird, gerade nicht erkennen. 2. Des Weiteren darf oder soll sogar die Retestreliabilität niedriger liegen als bei Traittests. Allerdings muss die interne Konsistenz hoch sein, weil anderenfalls die niedrige Stabilität als Ausdruck von Fehlervarianz gelten könnte. 3. Die Korrelationen zwischen Traittests zu ein und demselben Konstrukt sowie zwischen Statetests mit gleichem Gültigkeitsanspruch müssen höher sein als diejenigen zwischen State- und Traittests zum gleichen Bereich. Kapitel 3 · Diagnostische Verfahren Anforderungen an Statetests 288 Validität. Die mitgeteilten Hinweise auf die Gültigkeit sind mannigfaltig, was für die große Umsicht bei der Überprüfung des Verfahrens spricht. Sowohl in der State- als auch der Traitskala weisen Frauen etwas höhere Mittelwerte auf als Männer, ein Trend, der sich mit zunehmendem Alter verstärkt. Klinische Gruppen (Neurotiker, Alkoholiker und Schizophrene) zeigten durchschnittlich höhere Trait-Angst-Werte als »unauffällig-normale« Kontrollpersonen. Besonders hohe Mittelwerte finden sich, was ebenfalls den Erwartungen entspricht, bei Patienten mit spezifischen Phobien und solchen mit generalisierten Ängsten. Darüber hinaus variierten die Mittelwerte der Traitskala zwischen neutralen und Klausursituationen nur unbedeutend, während die Stateskala erhebliche Schwankungen erkennen ließ. State- und Traitskala korrelieren miteinander um .60. Trait-Angst steht mit Skalen eines ähnlichen Gültigkeitsanspruches in Beziehung (z. B. EPI-Neurotizismus r = .77, FPI-Nervosität r = .74, FPI-Depressivität r = .72, FPI-Gelassenheit r = –.77, FPI-Gehemmtheit r = .67, FPI-emotionale Labilität r = .70). Bei einer Bearbeitung des STAI und der Eigenschaftswörterliste EWL von Janke und Debus (1978; 7 unten) durch eine Stichprobe von N = 136 Probanden lagen die Korrelationen der Statescores mit den Skalen der EWL, von einer Ausnahme abgesehen, jeweils über denen der Traitwerte. Erwartungsgemäß bestanden die engsten Beziehungen zu den EWL-Skalen Ängstlichkeit (.62), Depressivität (.68), Ärger (.66), Erregtheit (.69) und Selbstsicherheit (–.65). Reliabilität. Sowohl für die State- als auch die Traitskala liegen die Konsistenzen bei .90 und leicht darüber (in der Gesamtstichprobe und allen Normierungssubgruppen; eine Ausnahme bilden lediglich die 15- bis 29jährigen Männer mit rtt= .89). An 2 unterschiedlichen Stichproben von Studierenden lagen in wiederholten Retestungen zu allen Messzeitpunkten (längstes Intervall 73 Tage) die Stabilitäten für die Stateskala jeweils deutlich niedriger als diejenigen der Traitskala (arithmetische Mittel rtt = .43 bzw. .86). Das Niveau und die Gesamtkonfiguration dieser Werte können damit als gut bezeichnet werden. Normierung. Da Alters- und Geschlechtseffekte bestehen, sind getrennte Normen (T-Werte; M = 50, s = 10) für je 3 Altersgruppen von Männern und Frauen vorgesehen. Die Normierungsstichprobe bestand aus insgesamt N = 2385 repräsentativ ausgewählten Personen. Für die Stateskala liegen keine Normen vor. Durchführung und Auswertung. Bei gemeinsamer Anwendung der Skalen soll die State- stets vor der Traitvariante bearbeitet werden. Die Instruktion für den Stateteil verlangt von den Probanden, so zu antworten, »wie Sie sich jetzt, d. h. in diesem Moment fühlen … (und) diejenige Antwort auszuwählen, die Ihren augenblicklichen Gefühlszustand am besten beschreibt.« Die entsprechenden Passagen in der Traitinstruktion lauten, so anzukreuzen, »wie Sie sich im allgemeinen fühlen«. Die Bearbeitung und auch die mit einer Schablone vorgenommene Auswertung dauern nur wenige Minuten. manchmal/oft/fast immer« (Trait) geantwortet werden muss. Ein Teil der Items ist in Richtung Angst, ein anderer in Richtung auf Angstfreiheit formuliert. Innerhalb der Traitskala weisen die Items »Ich bin ausgelassen« (.61; Männer) und »Ich neige dazu, alles schwer zu nehmen« (.68; Frauen) die höchsten Trennschärfen auf; in der Stateskala sind dies »Ich fühle mich wohl« (.66; Männer) und »Ich bin nervös« (.68; Frauen, jeweils Eichstichprobe). 3.2 · Persönlichkeitsfragebogen 3 Validierung der Trait-Angst-Skala Höhere Trait-AngstWerte für klinische Gruppen Höhere Mittelwerte für Frauen Insgesamt gute Reliabilität 3 Altersgruppen, getrennte Normen für Männer und Frauen Auswertung mittels Schablone Bearbeitungsreihenfolge erst State, dann Trait 289 3 15 Befindlichkeitsbereiche Normal- und Kurzversion 161 Items, eine kürzere (EWL-K) mit einer Teilmenge der Attribute aus der längeren Form beinhaltet 123 Adjektive. Sie ist hauptsächlich für den Einsatz bei Patienten vorgesehen. Nachfolgend wird nur die EWL-N vorgestellt. Sie zielt auf die Erfassung von 15 Befindlichkeitsbereichen, von denen jeder durch eine gesonderte Skala abgedeckt ist. Gliederung. Die EWL liegt in 2 Formen vor: Die »Normalversion« (EWL-N) enthält Janke, W. & Debus, G. (1978). Göttingen: Hogrefe Bei der EWL handelt es sich um ein mehrdimensionales Verfahren zur quantitativen Beschreibung des aktuellen Befindens. Die Eigenschaftswörterliste EWL Fazit Ob an einem gesonderten Test für habituelle Ängstlichkeit angesichts der gerade dazu zahlreich vorhandenen Skalen ein besonderer Bedarf besteht, muss hier nicht beurteilt werden. Fraglos aber herrscht ein gewisser Mangel an Verfahren zur Abschätzung aktueller Zustände. Die beiden Skalen des STAI entstammen einer international sehr anerkannten Angst- und Ängstlichkeitstheorie, und sie sind von bemerkenswerter Ökonomie sowie Messgenauigkeit. Das Angstkonzept von Spielberger et al. (1970) darf nicht mit der umgangssprachlichen Bedeutung von Angst gleichgesetzt werden. Nicht nur Laien ist schwer zu vermitteln, dass Angst auch durch das Fehlen von positiven Gefühlen gemessen werden soll (dass trennschärfste Item für Männer lautet »Ich fühle mich wohl« – die Abwesenheit von positiven Gefühle ist auch für andere negative Zustände wie Ärger, Ekel oder Scham charakteristisch). Die Items der Ängstlichkeitsskala (trennschärfste Items: »Ich neige dazu, alles schwer zu nehmen«, »Unwichtige Gedanken gehen mir durch den Kopf und bedrücken mich«) könnten ebenso in einem Depressions- oder Neurotizismusfragebogen stehen. Entsprechend hoch fallen die Korrelationen mit solchen Fragebogen aus (7 oben). Vor dem Hintergrund des prinzipiell suboptimalen Ansatzes bei der Konstruktion der Stateskala kann die nachgewiesene Änderungssensitivität gegenüber unterschiedlich angsteinflößenden Situationen durchaus als respektabel angesehen werden. Ob die interindividuellen Unterschiede im Ausmaß aktueller Ängste in jeder der Situationen allerdings valide prognostiziert werden, bleibt vorerst offen. In einigen Untersuchungen erwies sich die Trait- (aber nicht die State-)angst als wirksamer Prädiktor (Krohne & Hindel, 1988; Schwenkmezger & Laux, 1986) für differentielle Reaktionen in bewertenden Situationen. Andererseits haben Steyer et al. (1989) eine klare Trennung von State- und Traitvariablen gefunden, wobei die Statevariablen hohe Spezifitäts- und Konsistenzkoeffizienten zeigten, wohingegen die Traitvariablen nur hohe Konsistenzen, aber sehr niedrige Spezifitäten aufwiesen. Glanzmann (1985, S. 171) äußert die Vermutung, dass die retrospektiv erfasste Zustandsangst »weniger als Indikator eines abstrakten Angstniveaus zu interpretieren ist, sondern eher als Ausdruck unterschiedlicher Verarbeitungsreaktionen Hoch- und Niedrigängstlicher anzusehen ist.« Vertiefende Bemerkungen zur Theorie und Messung von Ängstlichkeit finden sich bei Laux und Glanzmann (1996). Studien zu Fremdeinschätzungen und solchen unter Einbezug physiologischer Indikatoren fehlen im Manual. Kapitel 3 · Diagnostische Verfahren Klare Trennung von State- und Traitvariablen 290 3 292 O Verträumtheit N Deprimiertheit M Ängstlichkeit L Ärger K Empfindlichkeit J Erregtheit I Gehobene Stimmung H Selbstsicherheit G Introvertiertheit F Extravertiertheit E Benommenheit D Müdigkeit C Desaktiviertheit beklommen schreckhaft traurig sorgenvoll tiefsinnig gedankenverloren aufgeregt kribbelig erregbar verletzbar ungehalten gereizt unbekümmert sorgenfrei heiter gesprächig offen ungesellig wortkarg 10 20 7 7 4 15 16 8 8 .81 .93 .77 .78 .75 .88 .94 .81 .86 .81 .76 9 9 .87 .91 7 16 .78 6 energielos lahm schläfrig erschöpft dösig schlaftrunken .93 19 energischa tatkräftig aufmerksam wachsam Reliabilitätb Itemzahl Beispielwörter Verfahren zur Erfassung von Interessen Interessentests dienen vor allem der Beratung bei der Berufswahl. Früher in der Praxis gerne verwendete und sorgfältig konstruierte Fragebogen wie der Differentielle Interessentest DIT (Todt, 1971) oder der Berufsinteressentest BIT-II (Irle & Allehoff, 1984) sind heute wegen ihrer zum Teil nicht mehr ganz zeitgemäßen Items und der alten Normen für Beratungszwecke kaum noch brauchbar. Diese Fragebogen funktionieren nach zwei Prinzipien: Die Probanden stufen ein, wie gerne sie bestimmte Tätigkeiten ausüben (z. B. die Entstehung von Meeresströmungen erforschen – ein Item zur Inte- 3.2.5 Anmerkung: a Zu den Beispielwörtern zählt stets auch die Adjektivform der Skalenbezeichnung, bei Aktiviertheit also aktiv usw., doch sind diese Wörter zur Vermeidung von Redundanzen hier nicht aufgeführt. b Aus der Analysenstichprobe II: N = 937 unausgelesene männliche und weibliche Personen aller Bildungsstufen im Alter von 18-65 Jahren. Angst Emotionale Gereiztheit Allgemeines Wohlbefinden Extraversion/Introversion Allgemeine Desaktivität A Aktiviertheit Leistungsbezogene Aktivität B Konzentriertheit Subskala Bereich . Tabelle 3.18. Merkmalsbereiche und Skalenbezeichnungen der EWL Kapitel 3 · Diagnostische Verfahren Realistisch, handwerklichtechnisch Intellektuell, untersuchendforschend Kreativ, künstlerisch, sprachlich, gestalterisch Sozial, erziehend-pflegend Unternehmerisch, führendorganisierend-verkaufend Konventionell, ordnendverwaltend R (Realistic) I (Investigative) A (Artistic) S (Social) E (Enterprising) C (Conventional) Anmerkung. Nach Jörin et al. (2004, S. 12 f.). Charakterisierung Typ Anpassung, gesellschaftliche Normen Finanzieller Erfolg, Verantwortung Helfen, Beziehungen Künstlerischer Ausdruck, Kultur Wissen/Lernen Gesunder Menschenverstand Werte, Ziele . Tabelle 3.19. Die RIASEC-Typen der Berufwahltheorie von Holland Kaufmännischer Angestellter, Kassierer Verkäufer, Politiker Lehrer, Psychotherapeut Musiker, Schauspieler Physiker, Forscher Zimmermann, Landwirt Berufsbeispiele Deutschsprachige Adaptation und Weiterentwicklung des Self-Directed Search (SDS) nach John Holland. S. Jörin, F. Stoll, C. Bergmann und F. Eder (2004). Bern: Huber. EXPLORIX wurde zur Unterstützung bei der Berufswahl und der Laufbahnplanung entwickelt. Eine Besonderheit ist, dass der Fragebogen auch online zur Selbsttestung mit anschließendem Ergebnisbericht angeboten wird. Theoretischer Hintergrund ist die Berufswahltheorie von John Holland, die erstmals 1959 vorgestellt und seitdem bis zur letzten Fassung von 1997 weiterentwickelt worden ist. Die Testautoren geben an, dass international über 500 Studien zu dieser Theorie vorliegen. Holland postuliert, dass sich sechs Interessen- bzw. Persönlichkeitstypen unterscheiden lassen und analog dazu sechs Typen von Arbeitsumgebungen existieren, weil die Umwelten von den Menschen geprägt werden, die in ihnen tätig sind. In . Tab. 3.19 werden die sechs Typen kurz charakterisiert. EXPLORIX – das Werkzeug zur Berufswahl und Laufbahnplanung ressenrichtung Technik und Naturwissenschaften aus dem DIT) oder bestimmte Bücher oder Zeitschriften lesen würden. Im BIT-II kommen zusätzlich Items mit dem Forced-Choice Antwortformat zum Einsatz; die Probanden haben immer bei vier zur Auswahl stehenden Tätigkeiten zu entscheiden, welche ihnen am besten (+) und welche am wenigsten (–) gefällt. Anstelle von verbalen Items können auch Bilder zur Messung von Interessen verwendet werden. Bei der Foto-Interessentest – Serie FIT (Toggweiler, Jungo & Stoll, 2003) sortieren die Probanden Fotos, die Menschen bei einer beruflichen Tätigkeit zeigen, in drei Kategorien: Tätigkeit interessiert mich – stößt mich eher ab – ist mir gleichgültig. Im Folgenden wird ein Interessentest neueren Datums vorgestellt, der durch eine gute theoretische Fundierung und einen breiten Messansatz besticht. 3.2 · Persönlichkeitsfragebogen 3 6 Interessenstypen Hintergrund: Berufswahltheorie von Holland Verbale Beschreibungen oder Bilder Ratings oder ForcedChoice Items 293 3 Typen-Skalen relativ unabhängig voneinander Hohe Reliabilitäten Hinweis auf passende Berufe »Holland-Code« Test kann selbstständig durchgeführt und ausgewertet werden Validität. Die sechs Typen-Skalen sind relativ unabhängig voneinander (höchste Korrelation: rS–A = .48). Faktorenanalysen mit schiefwinkliger Rotation der 24 Subskalen (Tätigkeiten, Berufe, Selbsteinschätzung und Fähigkeiten für R, I, A, S, E und C) ergeben sechs schwach korrelierte Faktoren, die den sechs Typen entsprechen. Erwar- im Durchschnitt bei .89; den niedrigsten Wert erreicht Typ C mit .86, die höchsten mit .90 die Typen S und E. Für eine Kurzform bestehend aus den Skalen Tätigkeiten und Fähigkeiten beträgt die Retestreliabilität bei einem Zeitintervall von 15 bis 18 Monaten im Durchschnitt .80 (von .63 für C bis .87 für A). Für die vier Subtests werden durchschnittliche Konsistenzen von .77 (Tätigkeiten) bis .80 (Berufe) berichtet. Reliabilität. Die Internen Konsistenzen (Cronbachs α) für die sechs Typen liegen Durchführung und Auswertung. EXPLORIX kann selbstständig durchgeführt werden. Auch eine Gruppenuntersuchung ist möglich. Der Proband wertet den Test im Regelfall selbst aus. Für jeden Interessenstyp zählt er die zustimmenden Antworten aus. Dabei ist die blockweise Anordnung der Items hilfreich. Bei den Selbsteinschätzungen überträgt er lediglich die Skalenwerte auf das Auswertungsblatt. Schließlich bildet er für jeden Interessenstyp die Summe über alle Subtests. Der höchste, zweithöchste und dritthöchste Wert ergibt den Holland-Code (Beispiel: R = 40, I = 35, A = 20, S = 25, E = 30, C = 20 = RIE). In einem länderspezifischen Berufsregister, das für Deutschland 1086 Berufe und Funktionen umfasst, sind für alle Holland-Codes passende Berufe mit Angabe des notwendigen Bildungsweges aufgeführt (für RIE ca. 40 Berufe von Biolandwirt/in bis Werkstoffingenieur/in). Die Autoren raten, für alle sechs Permutationen des Dreiercodes (im Beispiel also auch REI, IER, IRE, EIR, ERI) die Berufe nachzuschlagen. Wenn bereits ein Berufswunsch geäußert wurde, kann der Holland-Code für diesen Beruf mit dem Code des Probanden verglichen werden. Die Beantwortung der 218 Items und die anschließende Auswertung nehmen jeweils ca. 20 min in Anspruch. 4 Tätigkeiten (11 Items pro Typ). Wie gern würde der Proband Tätigkeiten wie »aus Holz ein Büchergestell zimmern« (R) oder »kunstvolle Fotos machen« (A) ausführen? 4 Fähigkeiten (11 Items pro Typ). Welche Tätigkeiten wie »gut vor Leuten sprechen« (E) oder »mit großer Ausdauer sorgfältig arbeiten« (C) kann der Proband gut oder kompetent ausführen? 4 Berufe (14 Items pro Typ). Welche Berufe wie »Wissenschaftsjournalist/in« (I) oder »Gerichtsbeamter/-beamtin« (C) interessieren den Probanden oder sprechen ihn an? 4 Selbsteinschätzung (2 Items pro Typ). Wie schätzt der Proband seine Fähigkeiten wie »Verkaufsgeschick« (E) oder »Einfühlungsvermögen« (S) ein. Gliederung. Im Anschluss an einige Fragen mit freier Beantwortung, darunter eine Auflistung von Berufen, die der Proband schon in Betracht gezogen hat (»Berufsträume, Wünsche und Ideen«), folgen vier Untertests, in denen die Items blockweise nach den Holland-Typen aufgeführt sind (in Klammern die Zuordnung zum Typ; Erläuterung der Abkürzungen in . Tab. 3.19): Kapitel 3 · Diagnostische Verfahren 4 Untertests 294 Verfahren zur Erfassung der Motivation Von den zahlreichen Motiven, die postuliert wurden, hat das Leistungsmotiv in der Forschung und bei der Entwicklung von Messinstrumenten mit Abstand die größte Aufmerksamkeit gefunden. Zur Leistungsmotivation liegen im deutschen Sprachraum drei normierte Fragebogen vor: Der Leistungs Motivations Test LMT von Hermans, Petermann und Zielinski (1978) mit vier Skalen (Leistungsstreben, Ausdauer und Fleiß, Leistungsfördernde Prüfungsangst und Leistungshemmende Prüfungsangst), der Leistungsmotivationstest für Jugendliche LMT-J von Hermans (1976) mit ebenfalls vier Skalen (Leistungs- und Erfolgsstreben, Positive Erfolgsbesorgtheit, Negative Erfolgsbesorgtheit sowie Soziale Erwünschtheit) und das Leistungsmotivationsinventar LMI (Schuler & Prochaska, 2001). Das LMI soll als das neuste und auch differenzierteste Verfahren ausführlich vorgestellt werden (7 unten). 3.2.6 und viel versprechende Innovation dar. Das Verfahren ist theoretisch gut fundiert und empirisch bereits relativ gut untersucht. Die Skalen messen mit hoher Zuverlässigkeit sechs gut unterscheidbare Interessenstypen. Das Testheft mit den Interpretationshilfen und Tipps zum weiteren Vorgehen bei der Berufswahl ist sehr benutzerfreundlich. Befunde zur Kriteriumsvalidität fehlen jedoch noch; die von den Autoren berichteten Korrelationen mit einem anderen Interessentest und dem NEO-FFI gehören lediglich zur Konstruktvalidität. Wünschenswert ist der Nachweis, dass eine Beratung unter Zuhilfenahme von EXPLORIX zu einer größeren späteren Berufszufriedenheit führt als eine Beratung ohne dieses Instrument. Ferner sollten zufriedene Stelleninhaber häufiger den zu ihrem Beruf passenden Holland-Code aufweisen als unzufriedene. Die empirische Grundlage für den Verzicht auf Normen überzeugt nicht; von gleichen Mittelwerten und Streuungen der sechs Skalen ist, wie bereits erwähnt, nicht auszugehen. Bei einer Revision des Verfahrens könnten die Skalen durch eine veränderte Itemauswahl und/oder Ergänzung um weitere Items auf gleiche Mittelwerte und Streuungen eingestellt werden. Bewertung. EXPLORIX stellt auf dem deutschsprachigen Testmarkt eine interessante 3 Leistungsmotivationsfragebogen Verzicht auf Normen problematisch Kriteriumsvalidität? Auswertung mit Schablonen mühsam 17 Skalen plus Kurzform 17 Dimensionen »Zwiebelmodell« Benutzerfreundlich 3 Durchführung und Auswertung. Das LMI kann einzeln oder in Gruppensitzungen durchgeführt werden. Die Bearbeitung der 170 Items, die auf einer Skala von 1 (trifft gar nicht zu) bis 7 (trifft vollständig zu) zu beantworten sind, nimmt etwa 30 – 40 min in Anspruch; für die Kurzform genügen etwa 10 min. Die Auswertung der Langform mit Schablonen ist außerordentlich mühsam, weil zehn Seiten des Testhefts durchzusehen, bei einigen Items Invertierungen vorzunehmen, die 170 Zahlenwerte auf einem Auswertungsbogen einzutragen und zu addieren sind. Gliederung. Das LMI umfasst 17 Skalen mit je zehn Items (. Tab. 3.20). Die Items können jedoch auch zu einem Gesamtwert verrechnet werden. Anwender, die nicht an einem differenzierten Persönlichkeitsbild ihrer Probanden interessiert sind, sondern nur »die« Leistungsmotivation messen wollen, können die Kurzskala mit 30 Items einsetzen. Die Items wurden nach ihren Trennschärfen für den Gesamtwert aus der Langform herausgefiltert. Schuler, H. & Prochaska, M (2001). Göttingen: Hogrefe Die Autoren verfolgten bei der Entwicklung des LMI das Ziel, ein Verfahren zur »breiten« Messung der berufsbezogenen Leistungsmotivation bereit zu stellen. Sie kamen bei ihren Vorarbeiten zu der Erkenntnis, dass es sich bei der Leistungsmotivation um ein breites Konzept ohne scharfe Grenzen zu handeln scheint. Diesen Zustand charakterisieren sie durch ihr »Zwiebelmodell«: Einige Merkmale sind zentral für die Leistungsmotivation und bilden die »Kernfacette«. Dazu gehören etwa Beharrlichkeit und Erfolgshoffnung. Andere wie z. B. Selbstständigkeit und Statusorientierung liegen weiter in der Peripherie (»Randfacetten«). Noch weiter in der Peripherie liegen Merkmale wie etwa Selbstvertrauen und Kontrollüberzeugung, die der Leistungsmotivation zumindest theoretisch verbunden sind. Im äußeren Randbereich schließlich sind Merkmale wie Gewissenhaftigkeit und Neurotizismus angesiedelt, die als »Hintergrundmerkmale« einen Einfluss auf die Leistungsmotivation ausüben. Vor dem Hintergrund dieser Konzeption ist es nicht verwunderlich, dass die Autoren insgesamt 728 Items in die Vorauswahl nahmen. Diese Zahl reduzierte sich allerdings in mehreren Auswahlschritten. Die Autoren beschreiben ihr Vorgehen als »Wechsel von phänomenologischrationaler und empirischer Strategie« (S. 12). Am Ende sahen sie 17 Dimensionen als angemessen zur Beschreibung der beruflichen Leistungsmotivation an. Leistungsmotivationsinventar LMI Auch einige der bereits vorgestellten Persönlichkeitsinventare (7 Abschn. 3.2.3) enthalten Skalen zur Leistungsmotivation. Im Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung BIP kommen neben einer Skala Leistungsmotivation drei weitere Skalen vor, die einen Bezug zur Leistungsthematik aufweisen und mindestens zu .50 mit der Leistungsmotivationsskala des BIP korrelieren: Gestaltungsmotivation, Führungsmotivation und Belastbarkeit. Die deutsche Personality Research Form PRF basiert auf Murrays Persönlichkeitstheorie und erfasst daher auch grundlegende Bedürfnisse (Motive). Neben der Skala Leistungsstreben hat auch die Skala Ausdauer einen engen Bezug zur Leistungsthematik. Die PRF bietet sich auch zur Messung anderer Motive an. Schließlich ist das Freiburger Persönlichkeitsinventar FPI-R mit seiner Skala Leistungsorientierung zu nennen. Über weitere Fragebogen zur Leistungsmotivation und zu verwandten Konzepten, die in deutscher Übersetzung und Bearbeitung vorliegen, ohne normiert zu sein, informiert Rheinberg (2004). Kapitel 3 · Diagnostische Verfahren Leistungsmotivation in Persönlichkeitsinventaren 296 Berufsbezogene Leistungsmotivation 3 Theoretisch fundiert Verzicht auf Normen Normen. Die Interpretation basiert ausschließlich auf Rohwerten. Die Autoren argu- mentieren, dass die sechs Typen-Skalen ungefähr gleich attraktiv seien; die Mittelwerte lägen bei etwa 25 Punkten. Dem Anhang (S. 75) ist zu entnehmen, dass die Mittelwerte tatsächlich aber zwischen 21.6 (R) und 28.1 (S) liegen und die Streuungen ebenfalls uneinheitlich ausfallen (SD = 7.6 bis 10.8). Korrelationen mit Big Five Skalen Geschlechtsunterschiede 295 tungsgemäß treten erhebliche Geschlechtsunterschiede auf; Realistic ist eine typische »Männerdimension«; Männer weisen hier höhere Werte auf als Frauen (M = 29 versus 18). Social und Artistic stellen dagegen »Frauendimensionen« dar (M = 29 und 30 versus 21). Mit den Skalen des NEO-FFI finden sich einige plausible Zusammenhänge. So korreliert Offenheit mit Artistic und Investigative zu .47 bzw. .37, Extraversion mit Enterprising zu .44 und Gewissenhaftigkeit mit Enterprising und Conventional zu .32 bzw. .27. Das subjektive Feedback der Probanden, die EXPLORIX bearbeitet haben, spricht für eine gute Akzeptanz und Zufriedenheit; 76% geben an, den passenden Beruf und/oder eine Bestätigung für ihre bisherigen Pläne gefunden zu haben. 3.2 · Persönlichkeitsfragebogen .53 .74 .59 Wettbewerbsorientierung Zielsetzung Reliabilität. Die interne Konsistenz (α) der Skalen liegt überwiegend im Bereich von .80. Solche Werte sind für eng umschriebene Merkmale bei 10 Items pro Skala völlig angemessen. Für die Kurzversion mit 30 Items beträgt α =. 94. Die Retestreliabität nach einem Intervall von etwa drei Monaten wird mit .66 (Flow) bis .82 (Furchtlosigkeit und Statusorientierung) (Kurzform: .78) angegeben. Offenbar erfasst das LMI stabile Merkmale. Hohe interne Konsistenz und Retestreliabilität Anmerkung. Items mit hohen Trennschärfen als Beispiele ausgewählt (– : Item wird invertiert). a Ladungen ab .50 in der gemeinsamen Faktorisierung von NEO-PI-R und LMI (Ostendorf & Angleitner, 2004, S. 153). Faktorenbezeichnungen: N = Neurotizismus, E = Extraversion, O = Offenheit für Erfahrungen, V = Verträglichkeit, G = Gewissenhaftigkeit; – bedeutet negative Ladungen der LMI-Skalen auf dem Faktor. Im Allgemeinen bin ich stark auf die Zukunft ausgerichtet. Der Wunsch, besser zu sein als andere, ist ein großer Ansporn für mich. Es ist mir sehr wichtig, eine verantwortungsvolle Position zu erreichen. Manchmal ist es mir lieber, anderen die Entscheidung zu überlassen (–). .79 .87 Einen großen Teil meiner Zeit verbringe ich damit, Neues zu lernen. Schwierige Probleme reizen mich mehr als einfache. Statusorientierung .60 Häufig verschiebe ich Dinge auf morgen, die ich besser heute erledigen sollte (–). .53 Für meine Selbstachtung ist es sehr wichtig, was ich geleistet habe. Selbstkontrolle Selbstständigkeit Schwierigkeitspräferenz Lernbereitschaft .78 .60 .51 Wenn ich fürchte, Fehler zu machen, strenge ich mich besonders an. Leistungsstolz Wie weit man es beruflich bringt, ist zu einem guten Teil Glückssache (–). Wenn ich vor anderen etwas vorführen soll, habe ich Angst, mich zu blamieren. Kompensatorische Anstrengung .82 Internalität Furchtlosigkeit Es bereitet mir Freude, mich ganz in eine Aufgabe zu vertiefen. Um etwas Neues auszuprobieren, gehe ich schon einmal ein Risiko ein. .72 Flow Flexibilität Wenn ich mit anderen zusammenarbeite, übernehme ich gewöhnlich die Initiative. Es fällt mir schwer, mich lange zu konzentrieren, ohne müde zu werden. Itembeispiel Auch wenn ich vor schwierigen Aufgaben stehe, bin ich immer guten Mutes. .69 .56 G Ich arbeite mehr als die meisten anderen Leute, die ich kenne. .64 V- .60 .76 O Erfolgszuversicht .50 Dominanz E 297 Engagement .57 N- Ladung auf Faktora Beharrlichkeit Skala . Tabelle 3.20. Skalen des Leistungsmotivationsinventars LMI 3.2 · Persönlichkeitsfragebogen 3 3 Volition vs. Motivation Handlungskontrolle HAKEMP 90 17 Dimensionen als Chance und Problem Heterogene Normierungsstichprobe Befunde zur Kriteriumvalidität unübersichtlich Theoretischer Hintergrund. Der HAKEMP 90 dient der Erfassung dreier unterschiedlicher Aspekte von Handlungskontrolle. Damit sind all jene Vorgänge gemeint, die zur Umsetzung einer bereits gefassten Absicht beitragen (Initiierung, Aufrechterhaltung trotz Störfaktoren, Beenden). Diese Prozesse werden unter dem Begriff der »Volition« zusammengefasst, in Abgrenzung zur »Motivation«, die den Prozessen der Absichtsentstehung gilt. Kuhl, V. J. (1990) Der Fragebogen zur Erfassung von Handlungskontrolle nach Erfolg, Misserfolg und prospektiv HAKEMP 90 3.2.7 Verfahren zur Erfassung von Handlungskontrolle (Volition) Bewertung. Das LMI ist ein objektives und hinreichend reliables Verfahren zur Messung der Leistungsmotivation. Die Kriteriumsvalidität in den vorgesehenen Anwendungsbereichen Personalauswahl und -entwicklung, Schul-, Studien- und Berufsberatung sowie Sportpsychologie ist noch umfassender zu belegen. »Die starke Differenzierung in 17 Dimensionen erweist sich zugleich als Chance und Problem« (Schmidt-Atzert, 2001, S. 144). Die vielen Skalen eröffnen die Chance, in bestimmten Anwendungsfeldern gute Einzelprädiktoren beispielsweise für berufliche Leistungen zu finden. Für eine Profilauswertung ist die große Zahl von zum Teil erheblich korrelierten Skalen hinderlich. (N = 259), Berufsschüler in kaufmännischen Ausbildungsberufen (N = 1008), Schüler eines Wirtschaftsgymnasiums (N = 160), Berufstätige in Finanzdienstleistungsunternehmen (N = 166) und Hochleistungssportler (N = 78) vor. Daraus konstruieren die Autoren zusätzlich eine nicht repräsentative »Gesamtnorm« (auch getrennt für Männer und Frauen). Normen. Es liegen (zum Teil geschlechtsspezifische) Normen für Wirtschaftsstudenten Validität. Bei einem Persönlichkeitsfragebogen mit 17 Skalen stellt sich die Frage nach der faktoriellen Struktur. Die Autoren berichten Korrelationen zu den fünf Skalen des NEO-FFI. Inzwischen liegt eine Untersuchung an 121 Sportstudenten vor, in der die Skalen des LMI zusammen mit denen des NEO-PI-R (7 Abschn. 3.2.3) faktorisiert wurden (Ostendorf & Angleitner, 2004). Die Ergebnisse sind in . Tab. 3.20 aufgeführt. Sie belegen, dass sich die LMI-Skalen sehr gut in das »Big-Five«-Modell einordnen lassen, also offenbar verschiedene Facetten von Neurotizismus, Extraversion etc. erfassen. Vor diesem Hintergrund interessiert die Korrelation der Gesamtskala, die ein Konglomerat der 17 Skalen darstellt, mit den großen Persönlichkeitsfaktoren. Schuler und Prochaska (2001) berichten signifikante Korrelationen von .57 mit Gewissenhaftigkeit, –.40 mit Neurotizismus und .23 mit Extraversion. Die Befunde zur Kriteriumsvalidität sind relativ unübersichtlich, weil die Autoren zahlreiche Korrelationen mit unterschiedlichen Leistungsindikatoren wie Abiturnoten, Note des Ausbildungsabschlusses und Jahresgehalt berichten. Viele Korrelationen sind insignifikant und nur wenige liegen über .30. Einzelne herausragend hohe Korrelationen erscheinen nachträglich plausibel, so die zwischen Dominanz und Stellung in der Hierarchie (r = .43) oder die zwischen Lernbereitschaft und Bildungsniveau (r = .35). Kapitel 3 · Diagnostische Verfahren Einordnung in »Big-Five« Modell 298 3 VCC zu Bewusstseinsinhalten und Verhaltensweisen Schwierigkeit adäquater Fremdeinschätzungen 3.3.1 3.3.2 Nichtsprachliche Persönlichkeitstests – 305 Objektive Persönlichkeitstests – 308 Nichtsprachliche und Objektive Persönlichkeitstests Die Messung von Persönlichkeitsmerkmalen mit Fragebogen ist mit diversen Problemen behaftet (vgl. 7 Abschn. 3.2.2). Wie ein Proband auf ein Item reagiert, hängt von seiner sprachlichen Kompetenz ab, aber auch davon, wie er die Iteminhalte versteht und interpretiert. In vielen Anwendungsbereichen ist damit zu rechnen, dass sich die Probanden so darstellen, wie es ihnen vorteilhaft erscheint und nicht wie sie sich selbst wirklich sehen. Zur Lösung beider Probleme liegen Konzepte vor. Mit nichtsprachlichen Tests soll die Abhängigkeit vom Sprachverstehen reduziert werden, objektive Tests sollen verfälschungssicher sein. 3.3 Weitere Entwicklungen. In Ergänzung des HAKEMP 90 haben Kuhl und Fuhrmann (1995) eine »Volitional Components Checklist VCC« konzipiert, die mit 161 Items die Erfassung von Bewusstseinsinhalten (Gedanken, Gefühle, Empfindungen) und Verhaltensweisen erlauben soll, wie sie in Alltagssituationen auftreten, die den Willen beanspruchen. Auch hier wurden drei volitionale Konstrukte separat erfasst, nämlich Selbstregulation als optimale Nutzung volitionaler Kompetenz, passive Zielfixierung und lageorientierte Rigidisierung; daraus sind nicht weniger als 20 Dimensionen ableitbar. In ersten Faktorenanalysen wiesen HAKEMP 90 und VCC-Skalen gemeinsam Ladungen auf den extrahierten Dimensionen auf. Weitere Validierungsuntersuchungen sind im Gang; eine seriöse Beurteilung ist erst zu einem späteren Zeitpunkt möglich. Der HAKEMP 90 basiert auf einer differenzierten Theorie zur Handlungssteuerung; diese theoretische Verankerung im Allgemeinen, dazu der angestrebte sehr spezifische Gültigkeitsbereich im Besonderen sorgen für eine Sonderstellung des Verfahrens. Eine befriedigende Reliabilität sowie verschiedene Validitätsbelege sprechen für die Eigenständigkeit der erfassten Konstrukte; die hohe Nützlichkeit der Skalen hat sich vorerst in einer Vielzahl von Forschungsuntersuchungen erwiesen. nungen, in denen teils Selbsteinschätzungen von Kognitionen und Emotionen, teils die objektiven Leistungsunterschiede zwischen Handlungs- und Lageorientierten geprüft wurde. Nicht alle, aber doch beeindruckend viele der dabei zugrunde gelegten Hypothesen erfuhren eine Bestätigung. In der Untersuchung von Dahme et al. (1992) fanden sich zwar keine eindeutigen Belege dafür, dass Handlungsorientierte ihre Absichten zügiger in Handlungen umsetzten als Lageorientierte, doch widersprechen derartige Befunde nicht der Theorie, da auf deren Basis keine Haupteffekte zu erwarten sind, sondern nur Interaktionen mit den situativen Bedingungen, z. B. keine vs. aufgetretene Belastung, etwa durch unerledigte Absichten oder nicht verwirklichte Ziele (Skala »Zögern«) bzw. selbstwertbedrohliche Ereignisse (Skala »Präokkupation«). Von daher dürften auch Fremdeinschätzer bei der Abgabe von entsprechenden Urteilen größere Schwierigkeiten haben, ihre Bekannten oder Freunde adäquat einzuschätzen. Kapitel 3 · Diagnostische Verfahren Experimentelle Validitätsbelege 302 Nichtsprachliche Persönlichkeitstests a b Im Leistungsbereich haben nichtverbale Verfahren eine längere Tradition, etwa in Form der Skalen Bilderordnen, Bilderergänzen, Mosaiktest und Figurenlegen des WechslerTests, im Weiteren der Guilford-Skalen zur Prüfung sozialer Intelligenz (s. O’Sullivan et al., 1965) oder auch der Aufgaben zur Gestaltbildung im LPS (Horn, 1983). Hingegen sind analoge Entwicklungen zur Erfassung von Persönlichkeitsmerkmalen eher neueren Datums. Vorrangig sind hier Paunonen et al. (1990) zu nennen, die eine Bilderserie mit 136 Items vorgestellt haben, mit deren Hilfe 16 »need constructs« gemessen werden sollen, die auch in der (verbalen) Personality Research Form (PRF, 7 Abschn. 3.2.3.) vorkommen. Zwei Beispiele für die Formatierung der Items sind in . Abb. 3.21 gegeben. A gehört zur Skala Abenteuersuche, B zu Hilfsbereitschaft. Die Testperson soll bei diesem Nonverbal Personality Questionnaire (NPQ) auf einer 7-stufigen Antwortskala die Wahrscheinlichkeit angeben, mit der sie das Verhalten der Person mit den schwarzen Haaren zeigen würde. Auf diese Weise beschreiben die Items das in ihnen jeweils thematisierte Verhalten bildlich, also nichtverbal. Allerdings sind die Prozesse, aufgrund deren eine Testperson zu ihren Wahrscheinlichkeitsaussagen gelangt, noch nicht im Einzelnen bekannt, und es mögen dabei verbale Transformationen oder Vermittlungen eine Rolle spielen. (Da es auch bei dieser Technik für die Probanden darauf ankommt, sich selbst einzuschätzen, gehört sie ebenfalls zu den «subjektiven« Methoden, wird aber aus Gründen der inhaltlichen Argumentationsstringenz hier dargestellt.) Untersuchungen an nordamerikanischen, polnischen, finnischen und deutschen Probanden (Paunonen et al., 1992; Spinath & Angleitner, 1995) haben trotz der geringen Zahl von nur 8 Items pro Skala mit Werten um α = .70 zufriedenstellende interne Konsistenzen ergeben. Die Korrelationen der nichtverbalen Skalen des NPQ mit den »homologen« Skalen der PRF betragen im Durchschnitt etwa .50, d. h. die betreffenden Skalen von PRF auf der einen und diejenigen des NPQ auf der anderen Seite können nicht als Paralleltests zueinander gelten. Eben dieses zu erwarten wäre freilich unbillig, weil die Items des PRF andere Verhaltensweisen zum Inhalt haben als diejenigen des NPQ; der Umstand, dass keine direkten wechselseitigen Zuordnungen auf Itemebene möglich sind, wird schon aus der unterschiedlichen Zahl der Items pro Skala deutlich (16 im PRF, nur 8 im NPQ). Insofern wird der Anspruch, Gleiches zu messen, dafür aber unterschiedliche Präsentationsmodalitäten zu benutzen, nur auf Konstruktebene erhoben. Um diesem Problem 3.3.1 3.3 · Nichtsprachliche und Objektive Persönlichkeitstests 3 . Abb. 3.21a, b. Beispielitems aus dem nichtsprachlichen Persönlichkeitsfragebogen von Paunonen & Jackson (1988) Korellation der NPQ- mit PRF-Skalen um .50 Zufriedenstellende interne Konsistenzen 16 »need constructs« entsprechend PRF 303 3 6 1. Es handelt sich um die bislang einzige Studie, in der ein und dieselbe Stichprobe von Personen nicht nur das nichtverbale Instrument (also den NPQ), sondern auch das »dazugehörige« verbale Pendant (die PRF) bearbeitete, und zwar zweimal im Abstand von einer Woche. Hinsichtlich interner Konsistenz (.71 bzw. .70 für NPQ und PRF im Mittel aller vorgegebenen Skalen), Reteststabilität (durchschnittlich .73 bzw. .74) und auch der Validität gegenüber Fremdeinschätzungen (.52 bzw. .56) bestanden zwischen den Tests keine gravierenden Unterschiede. 2. Der Einfluss von sozialer Erwünschtheit (SE) wurde in zweierlei Hinsicht untersucht, nämlich zum einen empirisch (in Form der Korrelationen der individuellen Punktwerte in NPQ und PRF mit den Punktwerten in einer Skala zur Erfassung der Antworttendenzen im Sinne sozialer Erwünschtheit, also einer sog. «Lügenskala), und zum anderen experimentell (im Vergleich zu einer Kontrollbedingung sollten sich die Probanden eine Bewerbungssituation vorstellen und entsprechend ihre Antworten danach geben, sich also verstellen). In Bezug auf das bildliche Material bestand die Erwartung, dass hier die behaviorale Bedeutung der Items – ähnlich zu projektiven Tests – mehr implizit als explizit ist, die Testperson also den Bedeutungsgehalt erst erschließen muss und deshalb unsicherer ist, was die soziale Erwünschtheit des Dargestellten angeht. Von daher war generell bei den nichtverbalen Items ein geringerer Einfluss von sozialer Erwünschtheit zu vermuten als bei den verbalen. Design und Ergebnisse einer Untersuchung an N = 190 Personen beiderlei Geschlechts zu den psychometrischen Merkmalen des Nonverbal Personality Questionnaire. (Aus Amelang, Schäfer & Yousfi, 2001) abzuhelfen, formulierte Brackmann (2000) zu jedem Item des NPQ eine die dargestellte Szene beschreibende verbale Form. Für die in . Abb. 3.21b wiedergegebene Szene lautete die sprachliche Version »Ich gebe einem blinden Bettler eine großzügige Geldspende«. Erwartungsgemäß waren unter diesen Gegebenheiten die Korrelationen zwischen den nunmehr einander sehr viel mehr entsprechenden Skalen sehr viel höher und lagen im Bereich von Paralleltests. Die Validität gegenüber Fremdeinschätzungen belief sich in der Studie von Paunonen et al. (1990) beim höchsten Ausmaß an selbsteingeschätzter Bekanntschaft zwischen Beurteilern und Beurteilten auf Werte um rtc = .40, und zwar gleichermaßen für die verbale und die nichtverbale Testversion. Dies kann angesichts der geringen Itemzahl pro Skala mehr als befriedigen. Bei einer Verdoppelung der Skalenlänge und unter der Annahme einer Reliabilität von .70 für sowohl die Selbst- als auch die Fremdeinschätzung lässt sich eine Validität von rtc = .47 erwarten und damit ein Wert, der im Persönlichkeitsbereich fast als eine Art Schallgrenze gilt. Eine über alle Skalen gemittelte Validität von rtc = .43 (höchster Wert rtc = .61 für Aggression) war auch in den Untersuchungen von Spinath und Angleitner (1995) zu registrieren. Noch etwas höher, nämlich um .52, liegen die Validitätskoeffizienten dann, wenn für Selbst- und Fremdeinschätzungen vollständig gleiche Formate benutzt werden, die Fremdeinschätzer also den NPQ so ausfüllen müssen, wie das ihrer Auffassung nach die Zielpersonen für sich tun (s. dazu Amelang, Schäfer & Yousfi, 2001). Die letztgenannte Arbeit verdient noch aus mehreren anderen Gründen besonderes Interesse (7 Übersicht). Kapitel 3 · Diagnostische Verfahren Befriedigende Validität gegenüber Fremdeinschätzungen 304 Die so weit dargelegten Resultate lassen erkennen, dass die nichtsprachliche Präsentation von Verhaltensmerkmalen gewiss eine vielversprechende Alternative zu der üblichen Vorgabe von Items in sprachlicher Form darstellt. Damit wird zugleich eine ausgezeichnete Option für interkulturelle Vergleiche oder Untersuchungen an Personen eröffnet, die des Lesens nicht kundig sind. Die Dimensionalität des NPQ korrespondiert im Übrigen recht gut mit dem Modell der Big Five (7 oben: NEO-FFI). Dies stellt einen weiteren Hinweis darauf dar, dass die semantische Ähnlichkeitsinterpretation der Beantwortung von Persönlichkeitsitems nicht haltbar ist (s. dazu Paunonen et al., 1992) – und damit der schwerwiegendste Einwand gegen die Benutzung des verbalen Mediums gegenstandslos. Mit dem nichtsprachlichen Persönlichkeitsfragebogen liegt ein Instrument vor, dessen nichtverbale Items einen fast universellen Einsatz gegenüber Gruppen unterschiedlicher kultureller Zugehörigkeit erlauben. Schon gleichsam im »ersten Zugriff« konnten befriedigende psychometrische Eigenschaften erzielt werden. Die faktorielle Struktur entspricht offenkundig derjenigen der »big five« aus sprachgebundenen Verfahren. Allerdings beschränkt sich der Messbereich auf solche Erlebnisse und Empfindungen, die zeichnerisch darstellbar sind. Diese Hypothese der geringeren Verfälschbarkeit nichtverbaler im Vergleich zu verbalen Skalen bestätigte sich jedoch nicht: Erneut waren die Unterschiede zwischen NPQ und PRF nur gering: Im Mittel korrelierten die Skalen des NPQ mit der «Lügenskala« zu .21, diejenigen der PRF damit zu .27. Die Veränderungen durch die «Fake-good-Instruktion« betrugen .36 bzw. .37 Einheiten von Effektstärke (vgl. 7 Abschn. 10.6.1), wiesen also ebenfalls keine überzufälligen Abweichungen voneinander auf. Auch wenn aus den individuellen Skalenpunktwerten (also den Self Reports) die Fremdeinschätzungen (als Indikator für die wahren Merkmalsunterschiede) herauspartialisiert wurden, fielen die Korrelationen zwischen Selbsteinschätzung und Lügenskala mit .17 und .21 für NPQ bzw. PRF etwa gleich aus, d. h. die Unterschiede im »Bias« zu Lasten sozialer Erwünschtheit liegen zwar in erwarteter Richtung (= nichtverbale Items sind weniger »SE-lastig« als verbale), sind aber geringer, als ursprünglich vermutet. 3. Unter der »Fake-good-Instruktion« sank zwar im Vergleich zur Normalinstruktion die Validität etwas ab, blieb aber mit Koeffizienten von .43 (NPQ) und .44 (PRF) noch immer signifikant und numerisch in erstaunlicher Höhe. Durch die Instruktion zur positiven Selbstdarstellung ändern sich somit im Vergleich zur üblichen Instruktion die Rangreihen der Messwertträger nicht in grundlegender Weise. Oder mit anderen Worten: Selbst bei intendierter Verstellung sind die individuellen Testwerte noch valide! 4. Ein Nebenbefund, der generell für Persönlichkeitstests von Bedeutung ist: Die Punktwerte in der Lügenskala korrelierten mit den Fremdeinschätzungen zu r = .35, d. h. die individuelle Tendenz, Antworten im Sinne sozialer Erwünschtheit zu geben, ist nicht nur ein Antwortstil bei der Bearbeitung von Persönlichkeitsfragebogen, sondern weist offensichtlich Verhaltenskorrelate auf! Das mag erklären, warum die naheliegende Hypothese, wonach Lügenskalen ein Moderator (vgl. 7 Abschn. 7.2) für die Validität von Persönlichkeitstests sein müssten (in dem Sinne, dass hohe Lügenwerte mit einer geringen Validität einhergehen, niedrige mit einer hohen), in der Literatur nur vereinzelt positiv bestätigt werden konnte (z. B. Amelang & Borkenau, 1981b). 3.3 · Nichtsprachliche und Objektive Persönlichkeitstests 3 NPQ geeignet für interkulturelle Vergleiche oder Untersuchungen an Analphabeten 305 3 50 Subtests, 21 Faktoren OA-TB 75 Objektive Persönlichkeitstests Darüber hinaus finden sich auch Faktoren, die bekanntere Dimensionen betreffen, wie z. B. Extraversion/Introversion, Angst, Realismus, Impulsivität. Beispiele für einige Items sind im Folgenden aufgeführt. zusammengestellt. Ihre Auswahl erfolgte u. a. unter Ökonomie- und Kulturspezifitätsgesichtspunkten und teils danach, inwieweit sich ein Faktor in früheren Untersuchungen im anglo-amerikanischen Raum als replizierbar erwiesen hatte. Die Tests sollen insgesamt 21 Faktoren treffen wie u. a. 4 »Stärke gegen mangelnde Selbstbehauptung«, 4 »Inhibition gegen Vertrauensseligkeit«, 4 »Lebhaftigkeit gegen Passivität«, 4 »Kulturelle Konformität gegen Objektivität«, 4 »Kortikale Wachheit gegen Gefühlsbetontheit«, 4 »Skeptische Zurückhaltung gegen Engagiertheit«, 4 »Negativistische Asthenie gegen rauhe Selbstsicherheit«, 4 »Ganzheitliches Verständnis gegen Willensschwäche«, 4 »Bestürztheit gegen zuversichtliches Gleichgewicht«. Gliederung. 50 Subtests, die zum Teil Leistungscharakter aufweisen, sind im Testheft Häcker, H. et al. (1975). Weinheim: Beltz Die Autoren verstehen die von ihnen vorgelegten Versionen nicht als »Endprodukt einer im herkömmlichen Sinne verstandenen Testkonstruktion (…), sondern als experimentelle Version, auf deren Basis eine standardisierte Testbatterie erstellt wird.« (Häcker et al., 1975, S. 9). OA-TB75. Objektive Testbatterie Cattell (s. Hundelby et al., 1965; Cattell & Warburton, 1967) ist zwar nicht der einzige oder erste, der sich solcher Techniken bedient, aber gewiss derjenige, der den Ansatz am konsequentesten verfolgt hat (s. Fahrenberg, 1964 und insbesondere die Sammeldarstellung von Häcker, 1982). An seinen Arbeiten orientieren sich die deutschsprachigen Adaptationen von Häcker et al. (1975). »Objektive Tests (T-Daten) zur Messung der Persönlichkeit und Motivation sind Verfahren, die unmittelbar das Verhalten eines Individuums in einer standardisierten Situation erfassen, ohne dass dieses sich in der Regel selbst beurteilen muss. Die Verfahren sollen für den Probanden keine mit der Messintention übereinstimmende Augenscheinvalidität haben. Das kann durch die Aufgabenauswahl oder bestimmte Auswertungsmethoden erreicht werden. Um als Test zu gelten, müssen auch die Objektiven Verfahren den üblichen Gütekriterien psychologischer Tests genügen.« Eine andere Variante, das verbale Element und die damit potentiell verbundenen Beeinträchtigungen zurückzudrängen, besteht in der Konzipierung solcher Leistungsprüfverfahren, die persönlichkeitsspezifisch ausgewertet werden. Oder aber es werden Fragebogen entwickelt, deren Messintention den Probanden mit der Absicht verborgen bleibt, dadurch Verfälschungstendenzen einen Riegel vorzuschieben. Die damit gegebenen sog. «Objektiven Tests« definiert Schmidt (1975, S. 19) wie folgt: 3.3.2 Kapitel 3 · Diagnostische Verfahren Verborgene Messintention 306 Kubinger, K. D. & Ebenhöh, J. (1996). Frankfurt/M.: Swets Die Testautoren orientierten sich bei der Konstruktion der kurzen Testbatterie zur Erfassung von Arbeitshaltungen eng an der Objektiven Testbatterie OA-TB75. Dazu wurden 3 Skalen der OA-TB75 in modifizierter Form auf dem Computer implemen- Arbeitshaltungen: Anspruchsniveau, Frustrationstoleranz, Leistungsmotivation, Impulivität/Reflexivität In einer Studie von Häcker et al. (1979) wurde der Verfälschbarkeit dadurch nachgegangen, dass teils die Instruktion variiert (Normalanweisung vs. Anweisung, im Sinne sozialer Erwünschtheit zu reagieren), teils eine reale Auslese- mit einer Forschungssituation verglichen wurde. Den Ergebnissen zufolge ist die geforderte Undurchschaubarkeit der Messintention nur bei einem Teil der objektiven Persönlichkeitstests gegeben, und zwar vornehmlich solchen mit Leistungscharakter. Umgekehrt betrafen Verfälschungen vor allem solche Testvariablen, die sich von herkömmlichen Fragebogen formal nur wenig unterscheiden und auf Faktorenebene die Dimensionen »kulturelle Konformität vs. Objektivität« und »Angst« markieren. Die OA-TB 75 findet in der diagnostischen Praxis keine Verwendung, da sie nicht normiert ist und, sieht man von einer Studie von Schmidt et al. (1985) ab, keine Validitätsbelege vorliegen. Deshalb wird darauf verzichtet, Durchführung, Auswertung und Gütekriterien zu beschreiben. Die OA-TB 75 hat aus heutiger Sicht Modellcharakter, indem sie Anregungen dafür gibt, wie man Objektive Persönlichkeitstests entwickeln kann. Mit dem Einzug von leistungsfähigen Computern in die Diagnostik haben sich völlig neue Möglichkeiten für die Konstruktion von Objektiven Persönlichkeitstests ergeben. Zwei Verfahren, die sich dieser Möglichkeiten bedienen, werden im Folgenden vorgestellt. T 43 Geschichten Die Versuchspersonen müssen die 2 Sätze »Als der Fahrer die Herrschaft über das Auto verlor…«, »Es war Herbst, und die Blätter fielen von den Bäumen…«, zu möglichst langen Geschichten fortsetzen. Dafür steht jeweils 1 min zur Verfügung. Gemessen wird die Zahl der geschriebenen Wörter. T 45 Beurteilung der Längen von Linien Jeweils 2 waagerechte oder etwas schräg nebeneinander stehende Linien werden vorgegeben und zwar insgesamt 42. Die Versuchsperson muss ankreuzen, ob a) die linke Linie länger ist als die rechte, b) beide Linien gleich lang sind, c) die rechte Linie länger als die linke ist. Abhängige Variable ist die Zahl der in der verfügbaren Zeit bearbeiteten Aufgaben. Beispielaufgaben aus der OA-TB75 T 197 Was würden Sie lieber machen? a) Mit anderen Bekannten einen Wettlauf machen, b) Alleine laufen. Ausgewertet wird, ob Wettbewerbssituationen aufgesucht oder gemieden werden. Beispiel 3.3 · Nichtsprachliche und Objektive Persönlichkeitstests 3 Orientierung an OA-TB 75 Computertest Kaum Validitätsbelege Keine Normen 307 3 Ermittlung verschiedener Kennwerte Bearbeitungsdauer hängt von Testperson ab »Figuren unterscheiden« »Symbole kodieren« »Figuren vergleichen« Auswertung. Die Auswertung erfolgt automatisch. Es werden folgende Kennwerte ermittelt: 4 Figuren vergleichen 1. Exaktheit (Anteil richtiger Antworten) 2. Entschlussfreudigkeit (Anzahl der Antworten) 3. Impulsivität vs. Reflexivität (Fehler*10.000 – Richtig*100 + Weiß nicht*1) 4 Symbole kodieren 1. Frustrationstoleranz: (Differenz zwischen 5. und 2. Prognose)/(2. Prognose) 2. Anspruchsniveau: (1. Prognoseleistung im 2. Durchgang)/(Leistung im 2. Durchgang) 3. Leistungsniveau: Richtige Kodierungen im 2. Durchgang 4. Zeitpunkt der Leistungsspitze: Bester Durchgang 5. Zieldiskrepanz: Mittlere Abweichung zwischen Prognose und darauffolgender Leistung. 4 Figuren unterscheiden 1. Leistungsmotivation: Anzahl der bearbeiteten Items. Durchführung. Alle Instruktionen werden am Bildschirm präsentiert, sodass der Aufwand für den Testleiter minimal ist. Die Eingabe erfolgt grundsätzlich mit der Maus, wobei entweder die fraglichen Figuren und Symbole oder beschriftete Buttons anzuklicken sind. Da die Bearbeitungsdauer beim letzten Untertest lediglich von der Ausdauer der Testperson abhängt, variiert die für die Durchführung benötigte Zeit zwischen 20 und 45 min. Gliederung. Im Untertest »Figuren vergleichen« soll die Testperson (Tp) wiederholt beurteilen, welche von zwei unregelmäßig verlaufenden Linien eine größere Fläche umschließt. In 30 s werden dabei maximal 20 Items präsentiert. Beim Untertest »Symbole kodieren« erfolgt in 5 Durchgängen à 50 s fortlaufend die Exposition von je einer von vier abstrakten Schwarz-weiß-Figuren. Jede dieser Figuren ist einer anderen ebenfalls abstrakten, aber farbigen Figur fest zugeordnet. Diese farbige Figur muss mit der Maus angeklickt werden. Die Zuordnung von farbigen zu Schwarz-weiß-Figuren ist dabei ständig in der oberen Hälfte des Bildschirms als Legende dargestellt. Nach jedem Durchgang erhält die Tp Rückmeldung über ihre Leistung; anknüpfend daran soll sie einschätzen, wie viele Symbole sie im nächsten Durchgang richtig bearbeiten wird. Außer bei der ersten Rückmeldung wird der Tp zusätzlich mitgeteilt, dass andere Personen durchschnittlich um 10% besser sind. Beim Untertest »Figuren unterscheiden« gilt es, aus jeweils vier geometrischen Figuren die unpassende herauszufinden. Die Tp erhält wiederholt und in Abhängigkeit von Bearbeitungsfehlern Rückmeldung. Der Test dauert so lange an, bis die Person mit »Abbruch« eine Schaltfläche aktiviert. tiert. Aus der Bearbeitung dieser drei Skalen durch die Testpersonen leiten sich zahlreiche Kennwerte ab, die »Arbeitstugenden« in Form von kognitiven Stilen und motivationalen Konzepten erfassen sollen. Diese Kennwerte basieren auf einer Faktorisierung der Daten von (nur) 60 Probanden, wo sie jeweils einen Faktor markierten. Für fünf der Kennwerte wird zudem »Konstruktvalidität im Hinblick auf die mittlerweile berühmten »Big Five« (Kubinger & Ebenhöh, 1996, S. 16) beansprucht. Alle Tests haben Leistungscharakter, die berechneten Kennwerte sollen jedoch Persönlichkeitseigenschaften erfassen. Kapitel 3 · Diagnostische Verfahren Leistungsaufgaben 308 6 Die »Arbeitshaltungen« sind ein gutes Beispiel dafür, wie die Erfüllung der herkömmlichen psychometrischen Gütekriterien doch deutlich hinter den ebenso attraktiven wie faszinierenden Darbietungs- und Auswertungsmöglichkeiten computerbasierter Tests zurückbleibt. Vielleicht wäre es ratsamer gewesen, dem Zug der Zeit zur mediumsgerechten Nutzung der Computer noch etwas zu widerstehen und Sorge zu tragen dafür, dass die hohen Standards, denen sich die Testautoren explizit Fazit Validität. Die Testautoren beanspruchen für die erhobenen Kennwerte nicht nur Inhaltsvalidität bei der Erfassung von kognitiven Stilen und motivationalen Variablen, sondern auch Konstruktvalidität hinsichtlich der »Big Five« (E = Impulsivität vs. Reflexivität, N = Anspruchsniveau, O = Zieldiskrepanz, V = Frustrationstoleranz, G = Leistungsmotivation; vgl. Abschn. NEO-FFI). Die Inhaltsvalidität der Skalen ist jedoch fraglich, da sie nur lose mit Theorien zu kognitiven Stilen und der Leistungsmotivation in Verbindung stehen und für die Berechnung der einzelnen Kennwerte theoretische Begründungen fehlen; der Verweis auf explorative Faktorenanalysen mit sehr kleinen Stichproben ist dafür kein Ersatz. Impulsivität vs. Reflexivität sowie die anderen Kennwerte aus dem Test »Figuren vergleichen« sind alle mit der räumlichen Wahrnehmungsfähigkeit konfundiert. Da sich die Testautoren explizit auf die Theorie von Atkinson beziehen, bleibt unklar, ob mit Leistungsmotivation der Wunsch nach Erfolg, die Furcht vor Misserfolg oder die Differenzierung zwischen Erfolgs- und Misserfolgsmotivierten gemeint ist. Angaben über die Korrelationen zwischen den einzelnen Kennwerten sowie mit den »Big Five« fehlen. Was die Kriteriumsvalidität angeht, so verweisen die Testautoren auf zwei eigene Studien, in denen erfolgreiche von nicht erfolgreichen Mitarbeitern signifikant diskriminiert wurden. Eine der Erhebungen stützte sich allerdings nur auf eine Vorversion in Papier-Bleistift-Form. Zudem waren die Umfänge der erhobenen Gruppen recht klein und zum Teil mit Psychologie-Studenten überbesetzt. Nur für einige der Kennwerte wurden Zusammenhänge mit dem Erfolgs-Kriterium gefunden, deren Richtung je nach Validierungsstichprobe und -kriterium variierte, sodass post-hoc Interpretationen notwendig wurden. Keine Angaben zur Konstruktvalidität Fragliche Kriteriumsvalidität Fragliche Inhaltsvalidität Reliabilitätsbestimmung nicht möglich Reliabilität. Die Testautoren führen für jeden der berechneten Kennwerte bestimmte Gründe an, die einer empirischen Überprüfung der Reliabilität entgegenstehen (z. B. verhindern Ein-Punkt-Messungen die Bestimmung der internen Konsistenz; massive Übungs- und Gedächtniseffekte beeinträchtigen Reteststabilitäten; die relativen Differenzwerte zeigen die für Veränderungsmessungen generellen Reliabilitätsmängel usw.). »Indem also die Bestimmung eines Standardmessfehlers für die Arbeitshaltungen (…) nicht möglich bzw. sinnvoll ist, kann auch der Messfehler im Einzelfall nicht mittels Konfidenzintervall abgeschätzt werden; eine Interpretation über eine Grobklassifizierung hinaus scheint daher aus Vorsichtsgründen nicht angebracht!« (Kubinger & Ebenhöh, 1996, S. 16). Dieses Eingeständnis beschreibt eine denkbar unbefriedigende Situation. 3 Vorläufige Normwerte 309 Normierung. Bislang liegen vorläufige Normwerte von N = 314 Personen vor. Die Normdaten stammen aus mehreren Untersuchungen und wurden vor allem an Psychologiestudenten erhoben. 3.3 · Nichtsprachliche und Objektive Persönlichkeitstests 3 . Abb. 3.22. Aufgabe im OLMT. Bereits zurückgelegte Felder werden grau markiert. Der Proband muss hier noch fünfmal die linke, rote Taste drücken, dann die rechte, grüne, etc. In jedem Durchgang (10 s) können maximal 100 Felder zurückgelegt werden Forschungsergebnisse zur Leistungsmotivation umgesetzt Schnelligkeit und Ausdauer gefordert 30 Durchgänge Schmidt-Atzert, L. (2004). Mödling: Schuhfried Der Objektive Leistungsmotivations Test OLMT soll, wie der Subtest Figuren Unterscheiden der Arbeitshaltungen (7 oben), die Leistungsmotivation über eine kognitiv wenig anspruchsvolle Aufgabe messen. Die Aufgabe der Probanden besteht darin, durch Drücken von zwei Tasten eine »Straße« auf dem Bildschirm abzufahren (. Abb. 3.22). Die 100 Felder lange Straße führt abwechselnd nach rechts und links. Drückt der Proband die richtige Taste (rot für links und grün für rechts), legt er immer ein weiteres Feld zurück. Betätigt er die falsche Taste, erfolgt eine optische und akustische Warnung, ohne dass ein Feld vorgerückt wird. Die Bearbeitungszeit ist im Gegensatz zum Figuren Unterscheiden fixiert; sie beträgt für jeden der insgesamt 30 Durchgänge genau 10 s. Erfasst wird die Schnelligkeit bzw. die Anzahl der zurückgelegten Felder, die exakt der Schnelligkeit des Tastendrückens entspricht, wenn keine Fehler gemacht werden. Die Ausdauer spielt insofern eine Rolle, als 30 mal die gleiche Aufgabe zu bewältigen ist, was bei maximaler Testleistung (alle 100 Felder zurückgelegt) immerhin 3.000 Tastendrücken entspricht. Je mehr sich ein Proband anstrengt, desto mehr Felder wird er zurücklegen. Bei der Testkonstruktion fanden relevante Befunde der Leistungsmotivationsforschung Berücksichtigung. Leistungsmotiviertes Verhalten setzt voraus, dass der Proband eine klare Zielsetzung hat (wird durch die Aufgabenstellung realisiert, möglichst viele Felder in 10 s zurückzulegen), alleine für das Ergebnis verantwortlich ist (wie viele Felder er zurücklegt, liegt alleine an ihm) und Feedback über die erzielte Leistung erhält. Feedback erfolgt sowohl kontinuierlich (zurückgelegte Felder färben sich grau) als auch jeweils schriftlich am Ende eines Durchgangs (z.B. »Sie haben 67 Felder zurückgelegt«). Da die individuelle Leistungsmotivation durch Ziele, die man sich selbst setzt, sowie durch Konkurrenz angeregt werden kann, wurden zwei Subtests konzipiert, die erfassen sollen, wie stark ein Proband auf diese Anreizbedingungen anspricht. Objektiver Leistungsmotivations Test OLMT verpflichtet fühlen, auch im konkreten Fall eines neuen Tests eingehalten werden. Bevor nicht sehr viel mehr an Erfahrungen zur Reliabilität und Validität vorliegen, kann das Verfahren nicht ernsthaft zum Einsatz (für welche Fragestellungen eigentlich? Im Manual finden sich dazu keine Hinweise) empfohlen werden. Kapitel 3 · Diagnostische Verfahren Aufgabe: per Tastendruck »Straße« abfahren 310 eigenes Ziel eigenes Ziel Leistung des Gegners 2 a) Motivation durch Ziele b) Anspruchsniveau 3) Motivation durch Konkurrenz Anzahl zurückgelegter Felder in Subtest 3 im Vgl. zu Subtest 1 Anzahl zurückgelegter Felder in Subtest 2 im Vgl. zu Subtest 1 Zielsetzung im Vgl. zur Anzahl tatsächlich zurückgelegter Felder in Subtest 2 Anzahl zurückgelegter Felder in Subtest 1, Durchgang 8–10 Operationalisierung .88–.92 .83–.94 .88–.92 .95–.96 α Anmerkung. Jeder Subtest besteht aus 10 Durchgängen von je 10 s. Angaben zu α für die drei Altersgruppen der Normierungsstichprobe (n = 170, 72 und 124). Aufgabe selbst Motivat. Anreiz 1) Aufgabenbezogene Anstrengung Nummer Subtest und Kennwert . Tabelle 3.21. Subtests und Hauptkennwerte des OLMT Gliederung. Der OLMT besteht aus drei Subtests. Gemessen wird immer, wie viele Felder der Proband zurücklegt. Der erste Subtest Aufgabenbezogene Anstrengung erfasst die Leistung ohne andere Anreize als die Testaufgabe selbst. Allerdings wird nur der achte bis zehnte Durchgang ausgewertet, weil die Leistung normalerweise, vermutlich durch Übung bedingt, in den ersten Durchgängen ansteigt. Im Subtest Motivation durch Ziele wird eine extra Anreizbedingung eingeführt: Der Proband soll vor jedem Durchgang angeben, wie viele Felder er nun schaffen will. Auf dem Bildschirm erscheint die Angabe, wie viele Felder er zuletzt zurückgelegt hat. Er soll über die Tastatur eingeben, wie viele Felder er jetzt erreichen will. Erfasst wird hier nicht nur die Leistungsveränderung gegenüber Subtest 1, sondern auch das Anspruchsniveau, das aus der Abweichung der Ziele von den tatsächlichen Leistungen errechnet wird. Mit diesem Subtest soll erfasst werden, wie stark der Proband dadurch motiviert wird, dass er sich selbst Ziele für seine Arbeitsergebnisse setzt, und wie hoch sein Anspruchsniveau ist. Im dritten Subtest Motivation durch Konkurrenz »kämpft« der Proband gegen einen Konkurrenten, der eine Straße parallel zu seiner eigenen durchläuft. Der Konkurrent wurde angeblich vom Computer passend zum Probanden ausgewählt. Tatsächlich richtet sich dessen Leistung auch nach der des Probanden; allerdings ist er immer 10% schneller als der Proband in den letzen drei Durchgängen. Damit soll gemessen werden, wie stark der Proband dadurch motiviert wird, dass er seine Leistungen mit denen eines Konkurrenten vergleicht. In . Tab. 3.21 sind die Subtests mit ihren Kennwerten sowie Angaben zur Reliabilität aufgeführt. Neben den Hauptkennwerten (. Tab. 3.21) werden für jeden Subtest Fehlerquoten und die intraindividuelle Streuung (SD) der Leistungen berechnet und der Leistungsverlauf über die drei Subtests wird grafisch dargestellt. Die Hilfskennwerte dienen lediglich der Beurteilung der Hauptkennwerte. Beispielsweise kann eine große Leistungsschwankung auf Störungen oder Probleme während der Durchführung hinweisen. Eine hohe Fehlerrate spricht für große Anstrengung (die Fehlerrate korreliert um .30 mit der Anzahl zurückgelegter Felder. 3.3 · Nichtsprachliche und Objektive Persönlichkeitstests 3 Fehlerquoten und intraindividuelle Streuungen als Hilfskennwerte Gegen einen Konkurrent »kämpfen« Eigene Ziele setzen Testaufgabe als Anreiz 311 3 sich bei der Konstruktion von Objektiven Persönlichkeitstests an? ferenzen auf nichtverbale Art zu erfassen. Dafür bieten sich etwa nichtverbale «Persönlichkeitsfragebogen«, biografische Informationen oder physiologische Indikatoren an. Eine weitere Möglichkeit besteht in der Konstruktion eines objektiven Tests im Sinne von Cattell (T-Daten). Dazu zählen Leistungsprüfverfahren, die persönlichkeitsspezifisch ! Ad 1. Objektive Persönlichkeitstests versuchen, interindividuelle Dif- Bewertung. In einer Testrezension schreibt Brandstätter (2005): »Es handelt sich um einen interessanten Versuch objektiver Messung der Leistungsmotivation, der eine nützliche Ergänzung der bisherigen Zugänge über projektive Verfahren oder Fragebogen verspricht. … Die Möglichkeiten der Computerpräsentation werden voll genutzt und machen die Testteilnahme interessant und anregend« (S. 136) »Der im Wiener Testsystem verfügbare OLMT ist als interessanter und entwicklungsfähiger Versuch der objektiven Messung von Leistungsmotivation zu werten, der allerdings noch weitere Untersuchungen zur Konstruktvalidität ... einschließen sollte« (S. 137). Normierung. Der OLMT wurde an einer nach Alter und Bildungsniveau repräsentativen Stichprobe normiert. Wegen der Altersabhängigkeit der Kennwerte wurden drei Altersgruppen gebildet: 18–49;11 (N = 170), 50–64;11 (N = 72) und 65–80 Jahre (N = 124); für die Seniorenstichprobe besteht kein Anspruch auf Repräsentativität. ? 1. Welche Varianten bieten (zu Abschn. 3.3.2) Übungsfragen »Interessanter und entwicklungsfähiger Versuch« Normen für 3 Altersgruppen Verfälschung nach oben gelingt nicht Korrelationen mit Fragebogen Korrelationen mit diversen Leistungsmaßen Validität. Positive Zusammenhänge in der Größenordnung um r = .30 fanden sich in mehreren Untersuchungen zwischen den Kennwerten des OLMT und Leistungen in verschiedenen kognitiven Leistungstests und Abiturnoten. Korrelationen in dieser Höhe bestehen nicht nur mit Speedtests, sondern auch mit einem Intelligenztest (SPM plus), der ohne Zeitbegrenzung bearbeitet wird. Meist erwies sich die Aufgabenbezogene Anstrengung als der Kennwert mit der höchsten Validität. In einer prospektiven Studie korrelierte dieser Kennwert zu –.24 mit der durchschnittlichen Vordiplomnote von Psychologiestudenten und wies sogar eine inkrementelle Validität zur Abiturnote auf (Schmidt-Atzert, 2005). Mit Leistungsmotivationsfragebogen (Bochumer Inventar zur Berufsbezogenen Persönlichkeit BIP) konnte nur ein schwacher Zusammenhang festgestellt werden (Anspruchsniveau und Skala Leistungsmotivation bzw. Wettbewerbsorientierung: r = .29 bzw. .21). In einer experimentellen Untersuchung zur Verfälschbarkeit des Tests sollten die Probanden ihr Testergebnis nach oben bzw. nach unten verfälschen (Ziegler, SchmidtAtzert & Bühner, eingereicht). Eine Verfälschung nach oben gelang nicht, wie der Vergleich mit einer neutralen Kontrollgruppe ergab. Die Probanden konnten eine niedrige Leistung vortäuschen, indem sie langsamer arbeiteten. Allerdings waren die Ergebnisse meist so schlecht, dass eine Verfälschungen nach unten erkannt werden konnte. Objektivität und Reliabilität. Die Durchführungsobjektivität ist durch die standardisierte Instruktion und Testvorgabe gegeben. Die Auswertungsobjektivität wird durch die automatische Berechnung der Testergebnisse gewährleistet. Die Interpretationsobjektivität ist gegeben, weil es sich um ein normiertes Testverfahren handelt und das Manual präzise Hinweise zur Interpretation der Kennwerte enthält. Die interne Konsistenz (. Tab. 3.21) liegt in einem Bereich, der eher für Leistungstests typisch ist. Kapitel 3 · Diagnostische Verfahren Hohe interne Konsistenz 312 Projektive Verfahren Da man dem Testverhalten selbst nicht ansehen kann, wie es zustande gekommen ist und auf welcher Ebene es demzufolge interpretiert werden kann, bedarf es zusätzlicher In seiner Wunschprobe verfolge Wilde (1950) die Absicht, die Soseins-Wünsche und damit die Dimensionen der charakterologischen Dynamik zu erfassen. Dabei stelle sich aber die Frage nach der Ebene des in der Wunschprobe erscheinenden Verhaltens: »Wenn jemand ein Tiger sein möchte, weil der so schön beißen kann – heißt das, dass die Versuchsperson aggressiv ist und aggressiv sein will, oder dass sie nicht aggressiv ist, aber aggressiv sein möchte, oder dass sie nicht aggressiv ist, auch bewusst nicht aggressiv sein möchte, ihre unbewussten Wünsche nach Aggressiv-Sein aber hier projiziert, oder dass sie aggressiv ist, aber bewusst nicht aggressiv sein möchte und deshalb hier ihr Aggressiv-Sein-Wollen projiziert? – dass der Stimulus ›Tiger‹ hier die Dimension Aggressivität anspricht und nicht etwa die Dimension Ästhetik (so schön gefleckt) weist zwar darauf hin, dass Aggressivität für die Versuchsperson eine Rolle spielt – aber welche?« (Hörmann, 1971, S. 94). Beispiel 313 3 Interpretation auf welcher Ebene? Klassifikation projektiver Verfahren Begriff der Projektion ausgewertet werden oder solche Fragebogen, in denen den Probanden die Messintention verborgen bleibt, die also keine »Augenscheinvalidität« besitzen. Ad 2. Sie variierten die Testinstruktion (Normal- vs. SE-Anweisung) und verglichen eine reale Auslese- mit einer Forschungssituation. Den Ergebnissen zufolge ist die geforderte Undurchschaubarkeit der Messintention nur bei einem Teil der Objektiven Persönlichkeitstests gegeben, vornehmlich bei solchen mit Leistungscharakter. Zu den wohl umstrittensten diagnostischen Verfahren gehören die sog. projektiven Tests. Der Begriff der Projektion geht auf Freud zurück und meint die Verlegung einer Eigenschaft, die das Ich bedroht und an der eigenen Person nicht wahrgenommen wird, auf eine Person der Außenwelt. Diese Projektionen sollen durch mehrdeutige Reize provoziert werden und Auskunft über nichtbewusste Aspekte der Persönlichkeit geben. Die projektiven Verfahren werden somit klassifiziert nach der Theorie, auf deren Basis sie in ihrer diagnostischen Funktion interpretiert werden. Das stellt einen ganz ungewöhnlichen Kategorisierungsgesichtspunkt dar, denn üblicherweise erfolgt die Gruppierung nach dem Messbereich (z. B. Intelligenz, Konzentration, Persönlichkeit) oder äußeren formalen Kriterien (z. B. Papier- und Bleistift-Test, Einzel- oder Gruppentest usw.). Die Bereichsbildung nach »der« (einen) Theorie ist jedoch problematisch, weil es sehr divergierende Darstellungen darüber gibt, was genau eine Projektion sei und welche Variante im konkreten Fall vorliegt. Damit hängt u. a. das Problem zusammen, wie das Verhältnis zwischen Index und Indiziertem beschaffen ist, auf das Hörmann (1971, S. 93/94) in seiner glänzenden Analyse mit einem sehr instruktiven Beispiel verweist. 3.4 2. Wie war die Vorgehensweise und welchen Schluss zogen Häcker et al. (1979) aus ihrer Studie bezüglich der Verfälschbarkeit von Objektiven Persönlichkeitstests? 3.4 · Projektive Verfahren 3 Bestimmung der Reliabilität schwierig Problematische Objektivität Auswertungsgesichtspunkte Schwierige Signierung Formdeutetest Der Rorschach-Test (Rorschach, o.J. 11. Aufl. 1992) ist ein Formdeuteverfahren, bei dem die Testpersonen nacheinander 10 Klecksbilder (. Abb. 3.23) mit der Aufforderung vorgelegt bekommen zu sagen, was das sein könnte. Die Tafeln dürfen gedreht werden, die Zahl der Antworten ist beliebig. Jede Antwort wird protokolliert und anschließend nach bestimmten Kategorien mehrfach signiert. Die klassische Auswertungsmethode von Rorschach sieht vier Gesichtspunkte vor: Erfassungsmodus (Ganzoder Detaildeutung), Determinanten (Form, Farbe, Bewegung), Inhalt und Grad der Originalität. Weitere Indikatoren für das »Psychogramm« sind die Antwortzahlen, die Reaktionszeiten, die Sukzession der Erfassungsmodi, der Erfassungs- und Erlebnistyp und verschiedene Prozentwerte (Menschen, Tier-, Anatomiedeutungen usw.). Ist schon die Signierung der Antworten nicht einfach, so bedarf deren Interpretation eingehender Schulung und langjähriger Erfahrung, weil die Ergebniskategorien nur im Zusammenhang bewertet werden sollen. Damit ergeben sich sowohl für die Durchführungs- als auch für die Auswertungsobjektivität erhebliche Probleme. So korrelieren einige Kategorien deutlich mit der nicht festgelegten Antwortzahl, und die Übereinstimmung zwischen verschiedenen Auswertern variiert bei unterschiedlichen Stichproben und Kategorien zwischen 52 und 98%. Auch die Reliabilitätsbestimmung ist problematisch. Ein Halbierungskoeffizient lässt sich kaum berechnen, weil die 10 Testtafeln sehr unterschiedlich sind. Die Bestimmung einer Paralleltestreliabilität scheitert am Fehlen einer Parallelform. Aber Der Rorschach-Test (RT) Im ersteren Fall sind eher positive Validitäten zu gewärtigen. Funktioniert hingegen ein Test bei verschiedenen Probanden auf unterschiedlichen Ebenen (was für projektive Tests und die Unbestimmtheit ihrer Reizvorlagen sehr wahrscheinlich ist), dürften die Validitätskoeffizienten kaum die obere Grenze von rtc ~ .25 überschreiten (und noch niedriger liegen, wenn etwa bei der Wiederholung der Testung bei verschiedenen Probanden die Ebenen in unterschiedlicher Weise gewechselt werden). Ungeachtet solcher und weiterer Schwierigkeiten üben seit jeher projektive Verfahren eine besondere Faszination aus, weil sie für die Probanden undurchschaubar sind und dem Testleiter einen Zugang zu den nicht- oder vorbewussten Ebenen (»Tiefen« der Persönlichkeit) versprechen. Jeder diagnostisch tätige Psychologe sollte jedoch sehr kritisch prüfen, ob sich die benötigten diagnostischen Daten nicht (auch) durch andere als projektive Verfahren erheben lassen, deren psychometrische Gütekriterien in besserem Maße erfüllt sind. Zu den am häufigsten verwendeten projektiven Verfahren gehören der RorschachTest und der Thematische Apperzeptionstest TAT. Im Folgenden werden exemplarisch vorgestellt: 4 Der Rorschach-Test RT, 4 der Thematische Apperzeptionstest TAT, 4 der Children’s Apperception Test CAT, 4 der Leistungsmotivations-TAT LM-TAT. Informationen etwa der folgenden Art: Aufgrund empirischer Untersuchungen muss in Erfahrung gebracht werden oder ist bereits bekannt, dass 4 ein bestimmter Test immer auf einer Ebene »funktioniert«, 4 ein bestimmter Proband immer auf einer Ebene »funktioniert«, 4 ein bestimmter Proband in dem bestimmten Test auf einer bestimmten Ebene »funktioniert«. Kapitel 3 · Diagnostische Verfahren Faszination der projektiven Verfahren 314 auch die Ermittlung einer Retestreliabilität ist schwierig, da die gegebenen Antworten leicht erinnert werden können und häufig zu Kontrastreaktionen bei der Testwiederholung führen. Um die mit der Erinnerung verbundenen Effekte zu minimieren, hat bereits vor geraumer Zeit Griffith (1951) eine Wiederholungsuntersuchung mit Korsakoff-Patienten durchgeführt, die sich wegen ihrer Gedächtnisstörungen an die erste Testung nicht erinnern konnten. Dabei wurden zwar recht positive Stabilitäten beobachtet, aber die Stichprobe der Testpersonen war nur sehr klein und gewiss weit entfernt von jeglicher »Repräsentativität«. Am umstrittensten ist jedoch die Frage der Validität. Da Rorschach seinen Test ausdrücklich als Wahrnehmungstest konstruierte, fehlt dem Verfahren eine theoretische Grundlage für seine derzeit vorherrschende Anwendung im klinischen Bereich. Die dem Verfahren nachträglich unterlegte psychoanalytische Fundierung erscheint nicht schlüssig und ist ungeeignet, die Beziehung zwischen den Deutungen und dem indizierten Konstrukt plausibel zu machen. Dadurch ist eine Konstruktvalidierung des Verfahrens, die eine akzeptable Theorie voraussetzt, nur schwer zu leisten. Einen sehr originellen Ansatz in dieser Hinsicht beinhaltet beispielsweise die Studie von Horn und Bona (1969), in der gesunde Kinder mit solchen verglichen wurden, die an angeborenen oder krankheitsbedingten Beeinträchtigungen des Bewegungsapparates (Lähmungen) litten. Den Erwartungen entsprechend zeigten die klinisch auffälligen Kinder zwar in der Tat signifikant weniger Bewegungsdeutungen, aber weder die Durchführung noch Auswertung erfolgte »blind« gegenüber der Gruppenzugehörigkeit der Probanden – ein Fehler im übrigen, der sehr häufig zu bemängeln ist. Versuche, über Gruppenvergleiche diskriminierende Testindizes ausfindig zu machen, waren zwar in Einzelfällen durchaus erfolgreich. Mit der Zahl der Untersuchungen, deren Ergebnisse inzwischen ganze Nachschlagewerke füllen, stieg aber auch die Anzahl diskrepanter Befunde. Dafür ist sicher nicht nur die fehlende theoretische Fundierung des Verfahrens und seiner Anwendung verantwortlich. Die mangelnde Vergleichbarkeit der Kriterien, die häufig von Klinik zu Klinik 3.4 · Projektive Verfahren Originelle Studie mit Mängeln Umstrittene Validität Zufriedenstellende Stabilität bei psychiatrisch auffälligen Probanden . Abb. 3.23. Tafel aus dem Rorschach-Test 315 3 3 . Abb. 3.24. Tafel aus dem TAT zweimal 1 h 20 mehrdeutige Bilder Comprehensive System mit Normen Der TAT (Murray, 1936), der den Probanden als Phantasietest vorgestellt wird, soll es dem geübten Diagnostiker ermöglichen, einige der vorherrschenden Triebe, Gefühle, Gesinnungen, Komplexe und Konflikte auf Seiten des Probanden zu erkennen, und zwar insbesondere solche verdrängter oder hintergründiger Art. Er besteht aus Bildtafeln, die grundlegende menschliche Problemsituationen ansprechen und zu denen möglichst dramatische Geschichten erfunden werden sollen (. Abb. 3.24). Die Bilder sind bewusst etwas unscharf gehalten, um die Geschichten nicht zu sehr zu determinieren; eine Tafel ist völlig weiß, also ohne jedes Bild. Der Testleiter hat die Antworten zu protokollieren und bei Bedarf an die Instruktion zu erinnern. Der Test wird in 2 etwa Der Thematische Apperzeptionstest (TAT) Einen Beitrag zur Verbesserung dieser Situation liefern die Inkblot-Techniques (Holtzman et al., 1961), die durch ein größeres Tafelangebot bei Limitierung der Antwortzahl und strengere Signierungsregeln eine objektivere Testdurchführung und -auswertung gewährleisten. Diese Veränderungen schlagen sich in deutlich verbesserten Auswerterübereinstimmungen nieder. Ob sie an der Validitätsproblematik etwas zu ändern vermögen, ist derzeit nicht abzusehen (Spitznagel, 1982b). In den USA steht mit dem Comprehensive System von John Exner (4. Aufl., 2003) ein Handbuch für den Rorschachtest zur Verfügung, das detaillierte Anweisungen für die Durchführung und Auswertung sowie Normen für Kinder und Erwachsene enthält. Für eine kritische Auseinandersetzung mit dem Rorschachtest auf Basis des Comprehensive System sei auf den Beitrag von Lilienfeld, Wood und Garb (2000) verwiesen, der allerdings noch nicht die neuste Auflage des Handbuchs berücksichtigen konnte. Der Rorschach-Test kann nicht als objektives, reliables und/oder valides Testverfahren bezeichnet werden. Fazit stark differieren, im Zusammenhang damit das Fehlen von Normen im strengen Sinne, darüber hinaus die starke Abhängigkeit der Ergebnisse von Erfahrung und Verhalten des Testleiters tun ein Übriges, die Problematik dieses Verfahrens zu vergrößern. Kapitel 3 · Diagnostische Verfahren Alternative: Inkblot-Techniques 316 Der Einwand, dass sich diagnostisch relevante Informationen durch direkte Befragungen einfacher erheben lassen als durch projektive Techniken, trifft sicher für die Grup- Der TAT ist kein Verfahren, das – darin den meisten projektiven Verfahren gleich – den klassischen Testgütekriterien genügt. Revers und Widauer (1985), die mit dem Thematischen Gestaltungstest eine modifizierte Version des TAT mit moderneren Bildern publiziert haben, wollen ihr Verfahren auch eher als Kommunikationsmedium zur Bearbeitung biografischer Grundsituationen, als explorative Technik zur Erfassung von Kognitionen und Emotionen aufgefasst wissen denn als Test. Die mangelnden Testeigenschaften wären zu verschmerzen, wenn sich auf diese Weise Informationen gewinnen ließen, die sonst nicht zu erlangen sind. Da den Versuchspersonen aber offensichtlich die relevanten Inhalte bewusst sind, stellt sich die Frage, ob diese nicht durch direkte Befragung einfacher zu erheben sind. Fazit einstündigen Sitzungen appliziert, in denen je 10 Tafeln vorgelegt werden, die je nach Alter und Geschlecht der untersuchten Person auszuwählen sind. Die Auswertung der Geschichten soll die angesprochenen Themen und Konflikte, deren Vorgeschichte sowie ihre weitere Entwicklung herausarbeiten (Revers & Taeuber, 1968). Für Murray stand eine Satz-für-Satz-Auswertung im Mittelpunkt, die nach den Kräften und Aktivitäten fragte, die entweder von »Helden« der Geschichte ausgehen oder auf diesen wirken (»needs« bzw. »presses«). Es gibt jedoch verschiedene Auswertungsmethoden, deren Verwendung von der verfügbaren Zeit, dem Quantifizierungsanspruch des Testleiters, den unterlegten Persönlichkeitstheorien, Rahmenbedingungen und anderen Faktoren abhängt. Ist die Objektivität der Testdurchführung schon wegen der nicht eindeutigen Instruktion in Frage gestellt, so birgt die für die Testperson ungewohnte Aufgabenstellung und die Enge des Kontakts die Gefahr, dass der Proband versucht, aus dem verbalen und nonverbalen Verhalten des Testleiters Hinweise für seine Antworten zu erlangen. Dadurch kann der Testleitereffekt verstärkt werden. Da darüber hinaus die Auswertungsvorschriften relativ vage sind, ist auch die Objektivität der Testauswertung erheblich eingeschränkt. Für die Berechnung der Reliabilität ergeben sich infolge der Heterogenität der Tafeln und wegen des Fehlens einer Parallelserie ganz ähnliche Probleme wie beim Rorschach-Test. Das Gleiche gilt auch für die Erinnerungseinflüsse bei einer Testwiederholung. Die Validität der verbalisierten Themen und Konflikte scheint dagegen auf den ersten Blick leichter überprüfbar als die der Deutungen abstrakter Klecksfiguren. Die Frage, welchen Stellenwert die angesprochenen Themen haben, ist jedoch nach wie vor ungeklärt. Belege dafür, dass es sich dabei um die Projektion unbewusster Probleme handelt, sind naturgemäß schwer zu erbringen. Es gibt vielmehr Hinweise darauf, dass sich die Befragten ihrer Äußerungen wohl bewusst sind und deren Preisgabe kontrollieren können. Nicht vorhersagbar ist auch, ob das verbalisierte Merkmal repräsentativ für das offen gezeigte Verhalten einer Person ist, ob es nur in ihrer Vorstellung existiert oder sich an Standards der sozialen Erwünschtheit orientiert. Nachbefragungen zu den einzelnen Geschichten sollen hier Klarheit bringen. Der Erfolg dieser Befragung dürfte aber ebenso von der Äußerungsbereitschaft der Testperson abhängen wie von dem exploratorischen Geschick des Untersuchers, ganz abgesehen davon, dass derartige Nachbefragungen die Ökonomie des Verfahrens weiter beeinträchtigen. 3.4 · Projektive Verfahren Unklare Bedeutung der Antworten Schwer berechenbare Reliabilität Problematische Objektivität Satz-für-Satz-Auswertung; daneben weitere Methoden 317 3 3.5.1 3.5.2 3.5.3 Arten systematischer Verhaltensbeobachtung – 323 Arten der Datenregistrierung – 324 Gütekriterien von Beobachtungsverfahren – 326 Verhaltensbeobachtung Arten systematischer Verhaltensbeobachtung Nach Mees (1977) lassen sich Unterscheidungen treffen nach dem Ort der Beobachtung, dem Grad der Teilnahme des Beobachters und dem Ausmaß der technischen Vermittlung. Nach dem Ort lässt sich Beobachtung im natürlichen Umfeld der beobachteten Person von derjenigen unter Laborbedingungen abheben. Feldbeobachtungen haben den Vorteil, dass sie das Verhalten im Kontext der natürlichen Bedingungen erfassen können, haben aber nur eingeschränkte Kontrollmöglichkeiten. Laborbeobachtungen erlauben dagegen zwar ein höheres Maß an Kontrolliertheit, müssen aber dafür eine gewisse Künstlichkeit der Bedingungen in Kauf nehmen, die einer Generalisierbarkeit der Ergebnisse Grenzen setzt. Nach dem Grad der Teilnahme des Beobachters lassen sich aktive und passive Teilnahme von Nichtteilnahme unterscheiden. Aktive Teilnahme ist immer dann erforderlich, wenn der Beobachter nur in dieser Rolle Zugang zu einer ansonsten nach außen abgeschlossenen Gruppe erhält (. Abb. 3.27). Bei passiver Teilnahme hat der Beobachter zwar die Möglichkeit zu sofortiger Protokollierung, kann aber durch seine Anwesenheit das zu beobachtende Verhalten mit beeinflussen. Die Vorzüge beider Beobachtungsformen vereinigt die nichtteilnehmende Beobachtung, bei der der Beobachter unsichtbar bleibt und somit die Situation nicht beeinflusst. Während aktive und passive Teilnahme ohne technische Hilfsmittel auskommen, ist nichtteilnehmende Beobachtung an das Vorhandensein von Einwegscheiben, Tonoder Videoaufzeichnungsanlagen gebunden. Durch sie bleibt der Beobachter unsichtbar und kann seine Beobachtungen ungestört registrieren. Allerdings bleiben technische Hilfsmittel den Beobachteten nicht immer verborgen, sodass Reaktionen darauf nicht auszuschließen sind. Aller Erfahrung nach geht der Einfluss dieser Störungen nach kurzer Gewöhnungszeit bald wieder zurück. Eine Übersicht über die Arten der Beobachtung gibt . Abb. 3.28. 3.5.1 Die Verhaltensbeobachtung ist eine Methode zur Gewinnung diagnostisch relevanter Daten, die sich immer dann einsetzen lässt, wenn Verhalten zwar wahrnehmbar ist, spezielle formelle Verfahren aber nicht zur Verfügung stehen. Sie kann unsystematisch, d. h. mehr oder minder zufällig, oder systematisch in Form eines gezielten, geplanten und kontrollierten Handelns erfolgen. Als wissenschaftlich kann allerdings nur die zweite Form bezeichnet werden. Auf sie sind daher die folgenden Ausführungen beschränkt. 3.5 3.5 · Verhaltensbeobachtung 3 Nichtteilnahme Passive Teilnahme Aktive Teilnahme Unter natürlichen oder Laborbedingungen Einsatz beim Fehlen formeller Verfahren 321 3 Isomorphe Deskription . Abb. 3.28. Arten systematischer Verhaltensbeobachtung (aus Mees, 1977) Arten der Datenregistrierung Von der Wahrnehmung des beobachteten Verhaltens ist seine Registrierung zu trennen. Nach dem Vollständigkeitsgrad dieses Vorgangs unterscheidet Mees (1977) zwischen isomorpher und reduktiver Deskription. Isomorphe Deskription verlangt die vollständige Erfassung des zu beobachtenden Verhaltens. War diese Forderung früher nur durch eine aufwändige Verhaltensbe- 3.5.2 Kapitel 3 · Diagnostische Verfahren . Abb. 3.27. Bei aktiver Teilnahme versucht sich der Beobachter gewöhnlich in solchen Situationen einzubringen, die für die Beobachteten »normal« sind 322 Sie wollen den gesamten Verhaltensstrom erfassen. Da dies ohne technische Hilfen nicht möglich ist, wird die Vielfalt der Verhaltensweisen auf eine begrenzte Zahl von Kategorien reduziert. Wie viele Kategorien ein System enthält, hängt zum einen vom Untersuchungszweck, zum anderen aber auch von der kognitiven Kapazität der Beobachter und deren Geübtheit ab. Fieguth (1977) sieht die Obergrenze bei etwa 30 Kategorien erreicht. In der Praxis wird man meist mit weniger Kategorien arbeiten, um die Beobachter nicht zu überfordern. Unabdingbare Voraussetzung für ein Kategoriensystem ist die Überschneidungsfreiheit der einzelnen Klassen, damit die einzelne Beobachtung jeweils nur in eine Kategorie fällt. Welche das im Einzelnen ist, bestimmt der Untersuchungszweck. Um eindeutige Zuordnungen treffen zu können, sollte jede Kategorie klar definiert sein. Kategoriensysteme Bei ihnen geht es darum, ausgewählte Verhaltensweisen zu registrieren. Dabei stellt sich allerdings die Frage, wie groß die Beobachtungseinheiten gewählt werden sollen, die als Zeichen zu interpretieren sind, ob beispielsweise eine einzelne Bewegung oder besser eine vollständige Handlung die angemessenere Einheit ist. So unterscheidet Faßnacht (1979) allein 19 verschiedene Klassen von Einheiten. Diese Frage kann jedoch nicht generell beantwortet werden. Welche Größe angemessen ist, lässt sich allein aus dem Zweck der Untersuchung und den dahinter stehenden theoretischen Annahmen ableiten. Das Auftreten eines definierten Zeichens kann in Form einfacher Strichlisten festgehalten werden. Aus der Häufigkeit der Eintragungen wird auf die Intensität des beobachteten Verhaltens rückgeschlossen. Wie lange das registrierte Verhalten andauerte, ist der Strichliste aber nicht zu entnehmen. Wird der Beobachter angehalten, seine Beobachtung in bestimmten Abständen wiederholt zu markieren, lässt sich auch eine Abschätzung der Dauer des Verhaltens vornehmen, vorausgesetzt, die Zeitintervalle sind kurz genug. In der Praxis werden häufig Zeitintervalle um 10 s verwendet. Mit Hilfe eines akustischen Signals in einem Kopfhörer kann dem Beobachter das Zeichen zur Registrierung unauffällig übermittelt werden. Sollen kurzfristiger wechselnde Verhaltensweisen erfasst werden, sind auch kürzere Intervalle möglich. Der Vorzug von Zeichensystemen besteht darin, dass aus den registrierten Markierungen eindeutig auf das beobachtete Verhalten zurückgeschlossen werden kann. Zeichensysteme schreibung zu erfüllen, die schnell an die physischen Grenzen der Beobachter stieß, so ermöglichen heute Tonband- und Videoaufzeichnungen isomorphe Deskriptionen in größerem Umfang. Sie bieten zusätzlich den Vorteil, den Beobachtungsvorgang zu Auswertungszwecken beliebig oft wiederholen zu können. Reduktive Deskription ist erforderlich, wenn die genannten technischen Hilfsmittel nicht zur Verfügung stehen. Sie soll die Menge der anfallenden Daten auf ein zu bewältigendes Maß zurückführen. Eine Reduktion ist auf verschiedene Weise möglich. Sie kann einmal dadurch erreicht werden, dass nur ein bestimmter, ausgewählter Teil des Verhaltens erfasst wird. Dann spricht man von einem Zeichensystem. Zum Andern ist Datenreduktion durch Zuordnung aller wesentlichen Details des Verhaltensstromes zu einer begrenzten und damit überschaubaren Zahl von Oberbegriffen zu erzielen. In diesem Fall wird von Kategoriensystemen gesprochen. Eine dritte Gruppe stellen die Ratingverfahren oder Einschätzungsverfahren dar, die weiter unten beschrieben werden. 3.5 · Verhaltensbeobachtung 3 Kategorienzahl je nach Zweck und kognitiver Kapazität Verhaltensstrom erfassen Eindeutiger Rückschluss auf beobachtetes Verhalten möglich Zeitintervalle Schluss von Häufigkeit auf Intensität Größe der Beobachtungseinheiten je nach Zweck und theoretischem Hintergrund Zeichen- und Kategoriensysteme Reduktive Deskription 323 3 Beobachterübereinstimmung bei Zeichensystemen am größten Objektivität problematisch Verschiedene Skalentypen Geeignet für komplexes Verhalten Gütekriterien von Beobachtungsverfahren Der Haupteinwand gegen Beobachtungsverfahren richtet sich gegen deren angeblich zu geringe Objektivität. Unter Objektivität der Beobachtung ist die Unabhängigkeit des Ergebnisses von der Person des Beobachters zu verstehen. Da bei jeder Beobachtung nicht nur das Beobachtungssystem als Instrument, sondern auch die Person des Beobachters involviert ist, müssen sich dessen Unvollkommenheiten und Fehler auf das Beobachtungsergebnis auswirken. Da mit anderen Beobachtern wieder neue Fehler entstehen, haben Beobachtungssysteme ihre Objektivität bei jeder Untersuchung erneut zu belegen. Dies geschieht bei Zeichen- und Kategoriensystemen durch Ermittlung der Übereinstimmung der Registrierungen. Eine Konkordanz der Summenwerte allein reicht jedoch nicht aus. Sie muss auch punktuell gegeben sein. 90%ige Übereinstimmung gilt als Grenzwert, dessen Unterschreitung eine Beobachterschulung erforderlich macht. Der höchste Grad an Übereinstimmung ist bei Zeichensystemen zu erzielen, bei denen eine eindeutige Beziehung zwischen dem Auftreten eines Verhaltens und der dazugehörigen Markierung besteht. Bei Kategoriensystemen können die von den Beobachtern zu treffenden Entscheidungen, in welche Kategorie ein bestimmtes Verhalten gehört, zu unterschiedlichen Ergebnissen und damit zur Beeinträchtigung 3.5.3 Das höchste Maß an Datenreduktion wird mit sog. Ratingverfahren erreicht, bei denen das interessierende Verhalten von den Beobachtern in seiner Auftretenshäufigkeit nachträglich einzuschätzen ist. Da die lästige Registrierung während des Beobachtungsvorganges entfällt, eignet sich dieses Verfahren für Beobachtungen, bei denen eine Protokollierung mit Schwierigkeiten verbunden wäre oder stören würde. Auch dort, wo komplexes Verhalten, das schwer in seine Teilkomponenten zu zerlegen ist, beobachtet werden soll, bietet sich das Ratingverfahren an. Der Beobachter hat dabei die Aufgabe, seine Verhaltenseinschätzung auf einer Skala zu markieren, die mehrfach abgestuft ist. Beliebt sind 5- bis 7stufige numerische Skalen, weil sie eine genügend große Differenzierung besitzen und eine direkte Quantifizierung erlauben. Bei grafischen Skalen muss der Beurteiler einen ihm geeignet erscheinenden Punkt auf einer Geraden markieren, dessen Wertigkeit erst durch einen entsprechenden Maßstab zu ermitteln ist. Der Wert einer Skala steht und fällt mit der Eindeutigkeit der Definition der einzelnen Skalenpunkte. Aber erst eingehende Schulung kann sicherstellen, dass verschiedene Beurteiler zu einigermaßen übereinstimmenden Ergebnissen kommen. Je globaler das einzuschätzende Verhaltensmerkmal ist, desto schwieriger wird es, zwischen verschiedenen Beurteilern Übereinstimmung zu erzielen. Das den Schätzurteilen zugrunde liegende konkrete Verhalten ist aus den Ergebnissen von Ratingskalen nicht mehr rekonstruierbar. Rating- oder Einschätzungsverfahren Vorübungen anhand von Videofilmen und Feldbeobachtungen sind erforderlich, um die Brauchbarkeit eines Beobachtungssystems zu überprüfen und die künftigen Beobachter zu schulen. Die einzelnen Schritte bei der Entwicklung eines Kategoriensystems sind in dem Beitrag von Fieguth (1977) anschaulich dargestellt. Am Ende der Entwicklung steht ein Beobachtungsbogen, der die einzelnen Kategorien und Raum für den Eintrag der Markierungen enthält. Wie bei Zeichensystemen kann das bloße Auftreten eines Verhaltens registriert, oder durch Zeitintervallmarkierung auch dessen Dauer festgehalten werden. Kapitel 3 · Diagnostische Verfahren Nachträgliche Registrierung 324 der Objektivität führen. Ganz allgemein scheint die Beobachtungsgenauigkeit auch vom Wissen, kontrolliert zu werden, beeinflusst zu werden (Taplin & Reid, 1972; Kent et al., 1979). Am problematischsten ist die Objektivität von Ratingverfahren. Da sowohl kategoriale Zuordnungen als auch Häufigkeitseinschätzungen durch die Person des Beurteilers zu leisten sind, ergeben sich mehr Fehlermöglichkeiten. Am häufigsten genannt wird der sog. Haloeffekt, auch als Hofeffekt bezeichnet, der sich in überdurchschnittlich hohen Korrelationen der Urteile eines Beobachters zwischen verschiedenen Merkmalen einer Person äußert. Er soll dadurch zustande kommen, dass das Urteil über ein herausragendes Merkmal die Beurteilungen anderer Merkmale einer Person »überstrahlt«. Abschwächen lässt sich dieser Effekt, indem man nicht alle Merkmale einer einzelnen Person beurteilen lässt, sondern zunächst nur den Ausprägungsgrad eines einzelnen Merkmals bei allen einzuschätzenden Personen erhebt. Ebenfalls durch abweichende Interkorrelationen fällt der sog. logische Fehler auf. Bei ihm dominiert nicht ein vorherrschendes Merkmal die restlichen Urteile, sondern die implizite Annahme über die logische Zusammengehörigkeit bestimmter Merkmale. Anstatt den Ausprägungsgrad einzelner Verhaltensweisen unabhängig einzuschätzen, wird er aufgrund impliziter Zusammenhangsannahmen erschlossen. Dadurch kann es geschehen, dass Beurteilungen mehr die impliziten Persönlichkeitstheorien der Urteiler widerspiegeln als Unterschiede zwischen den beobachteten Personen (Hofer, 1969). Ein Mildefehler wird darin sichtbar, dass ein Beobachter insgesamt bessere Urteile abgibt und deshalb höhere Mittelwerte erzielt als andere Beobachter (. Abb. 3.29a). Hier soll eine gewisse Furcht davor, negative Urteile abzugeben, eine Rolle spielen. Ein Strengefehler ist dagegen an einer Tendenz zu unterdurchschnittlichen Urteilen im Vergleich zu anderen Beobachtern erkennbar (. Abb. 3.29b). Beide Fehlerarten sollten zur Nachschulung oder ggf. zum Ausschluss dieser Beobachter führen. 3.5 · Verhaltensbeobachtung 3 . Abb. 3.29a–d. Illustration einiger Beurteilungsfehler bei der Einschätzung von Eigenschaftsausprägungen oder Verhaltenstendenzen Milde- und Strengefehler Logische Fehler Halo- oder Hofeffekt Kontrolle beeinflusst Genauigkeit 325 3 Validität: meist inhaltlich Reliabilität selten bestimmt Tendenz zu Extremurteilen Weiterführende Literatur Eine gut lesbare Einführung ist die Arbeit von Mees und Selg (Hrsg.) (1977). Umfangreicher und systematischer ist das Taschenbuch von Faßnacht (1979) über systematische Verhaltensbeobachtung. Hasemann (1983) handelt das Thema als Handbuchbeitrag in der Enzyklopädie der Psychologie, Band 4: Verhaltensdiagnostik ab (hrsg. von Groffmann & Michel, S. 434-488). Eine gute Übersicht zur systematischen Beobachtung in Familie, Schule und Klinik bietet ein Kompendium von Manns et al. (1987). Eine aktuelle und systematische Darstellung, die nicht nur für den eignungsdiagnostischen Anwendungsbereich relevant ist, gibt das von mehreren Autoren verfasste Kapitel »Verhaltensbeobachtung und Verhaltensbeurteilung« in Westhoff et al. (2004). Die Verhaltensbeobachtung ist eine Methode, diagnostisch relevante Informationen auch dort zu erheben, wo keine formellen Testverfahren zur Verfügung stehen. Ihre Objektivität ist um so größer, je konkreter die zu registrierenden Verhaltensweisen sind und je geringer das Ausmaß der vom Beobachter zu leistenden Urteilsprozesse ist. Danach sind Zeichensysteme mit eindeutig zu identifizierendem Verhalten, das in kurzen Intervallen registriert wird, Kategoriensystemen vorzuziehen. Letztere haben ihre Berechtigung dort, wo statt einzelner Verhaltensweisen Verhaltenssequenzen erfasst werden sollen. Dieser Vorzug wird durch eine Unschärfe auf der Verhaltensebene und durch eingeschränkte Objektivität erkauft. Am problematischsten sind Ratingverfahren. Ihre auf den ersten Blick leichte Handhabbarkeit wird durch die bei ihnen leichter auftretenden Beurteilungsfehler und ihre damit zusammenhängende mangelnde Objektivität aufgewogen. Sie haben ihre Existenzberechtigung bei der Untersuchung komplexer Phänomene und dort, wo es sich, wie in Pilotstudien, um erste Annäherungen an eine noch nicht klar strukturierte Fragestellung handelt. Fazit Eine zentrale Tendenz, d. h. eine Bevorzugung mittlerer Skalenpositionen, lässt sich statistisch durch eine gegenüber Vergleichsbeurteilern eingeschränkte Varianz der Urteile eines Beobachters nachweisen (. Abb. 3.29c). Durch Verwendung gradzahliger Skalen ohne erkennbaren Mittelwert kann diese Tendenz etwas gemildert werden. Bei einer Tendenz zu Extremurteilen ergibt sich dagegen eine erhöhte Varianz der Urteile (. Abb. 3.29d). Außer der Objektivität ließe sich im Prinzip auch die Reliabilität eines Beobachtungsverfahrens bestimmen. Allerdings existieren Parallelverfahren in der Regel nicht. Auch Konsistenzanalysen werden kaum berichtet. Von Bedeutung sind Retestanalysen, da sie Auskunft über die Stabilität des beobachteten Verhaltens geben können. Deren Berechnung hat sich im Gegensatz zu Testverfahren jedoch nicht eingebürgert. Allenfalls grafische Darstellungen des beobachteten Ausprägungsgrades bestimmter Verhaltensweisen zur Demonstration von Baseline-Werten und Effekten in verhaltenstherapeutischen Experimenten thematisieren diesen Aspekt. Validitätsangaben zu Verhaltensbeobachtungen werden dagegen häufiger mitgeteilt (Hofer, 1981). Beziehen sich Beobachtungen auf konkretes Verhalten und beanspruchen sie nur für dieses Gültigkeit, so sind sie inhaltsvalide und bedürfen keiner statistischen Absicherung. Ihre Ergebnisse sind allerdings wegen der Personengebundenheit der Beobachtungsverfahren und der Situationsabhängigkeit der Beobachtungen selbst nur begrenzt generalisierbar. Kapitel 3 · Diagnostische Verfahren Zentrale Tendenz 326 3.6.2 3.6.3 3.6.1 327 3 Standardisierte Interviews – 331 3.6.1.1 Klinische Interviews – 331 3.6.1.2 Interviews zur Eignungsdiagnostik – 335 Interviews selbst konstruieren – 338 Techniken der Gesprächsführung – 341 Diagnostisches Interview Interview als Oberbegriff Erhebung von Informationen mittels Gespräch tensweise; Kategoriensysteme: durch Zuordnung ähnlicher Verhaltensweisen in eine begrenzte Zahl von Klassen; Ratingverfahren: durch Schätzung von Ausprägungsgrad und/oder Häufigkeit von Verhaltensweisen auf einer begrenzten Zahl von Ratingkategorien. Ad 4. Halo- oder Hofeffekte und logische Fehler durch Interkorrelation von Beobachtungen; Milde- und Strengefehler durch Abweichungen vom Mittelwert der übrigen Beobachter; zentrale Tendenz und die Neigung zu Extremurteilen durch Vergleich der Urteilsstreuungen. Ad 3. Zeichensysteme: durch Selektion der zu beobachtenden Verhal- ren. Ad 2. a) Zeichensysteme, b) Kategoriensysteme und c) Ratingverfah- Ausmaß der Teilnahme, d) nach dem Grad der Vermittlung. ! Ad 1. a) nach dem Grad der Systematik, b) nach dem Ort, c) nach dem Interviews dienen generell der Erhebung von Informationen mittels Gespräch. Interviews werden beispielsweise von Journalisten eingesetzt, um politische Standpunkte in Erfahrung zu bringen oder etwa von Marktforschern, um Einstellungen gegenüber bestimmten Produkten zu erkunden. In anderen Kontexten nennt man Interviews beispielsweise Verhör oder Zeugenbefragung. Der Zusatz »diagnostisches« Interview macht klar, dass es sich um ein Interview zu diagnostischen Zwecken handelt. Damit wird ein ganz bestimmter Verwendungszweck impliziert. Innerhalb der psychologischen Diagnostik sollte der Begriff »diagnostisches Interview« als Oberbegriff für alle Methoden zur Erhebung von diagnostisch relevanten Informationen mittels Gespräch verstanden werden. Je nach Art der zu erhebenden Informationen können diagnostische Interviews zusätzlich spezifiziert werden. Unter einer Anamnese oder einer Anamneseerhebung wird in Anlehnung an den Sprachgebrauch der Medizin die gesprächsweise Erkundung der Vorgeschichte einer Erkrankung oder Störung verstanden. Der Begriff Exploration stammt ursprünglich aus der Psychiatrie und bezeichnet die Erkundung des subjektiven Lebensraums eines Probanden (vgl. Trost, 1996). Anamnese und Exploration können daher Bestandteil, in bestimmten Fällen auch alleiniger Bestandteil, eines diagnostischen Interviews sein. 3.6 4. Welche Arten von Beobachtungsfehlern können bei Ratingverfahren auftreten und woran sind sie zu erkennen? sen sich Verhaltensbeobachtungen klassifizieren? 2. Welche Arten der Datenregistrierung können unterschieden werden? 3. Auf welche Weise reduzieren die verschiedenen Registrierungsverfahren die Datenmenge? ? 1. Nach welchen Aspekten las- (zu Abschn. 3.5) Übungsfragen 3.6 · Diagnostisches Interview 3 Verwertung der Antworten nach festen Regeln Standardisierte Auswertung »Strukturiert« = systematischer Aufbau Interviews sind in unterschiedlichem Ausmaß standardisiert. Völlig unstandardisiert ist ein Interview, wenn nur dessen Zweck feststeht (etwa eine klinische Diagnose stellen) und sich die Fragen im Laufe des Gesprächs erst ergeben. Zwei unstandardisierte Interviews könnten sich daher selbst bei identischer Fragestellung sehr stark voneinander unterscheiden. Völlig standardisiert ist ein Interview, wenn jede Frage vorher genau festgelegt und immer im gleichen Wortlaut vorzutragen ist. Dazwischen sind viele Abstufungen denkbar. Mit dem Begriff halbstandardisiert wird meist zum Ausdruck gebracht, dass eine Standardisierung angestrebt wird, eine Festlegung auf exakte Wortlaute und Abfolgen von Fragen aber nicht gewollt oder nicht möglich ist. Die Vorlage für ein halbstandardisiertes Interview kann etwa aus einer Liste von Themen mit stichpunktartig charakterisierten Fragen bestehen. In der Klinischen Psychologie ist weithin auch der Begriff strukturiertes Interview üblich. Allerdings werden die Begriffe »standardisiert« und »strukturiert« nicht einheitlich verwendet. Ein Interview sollte als »strukturiert« bezeichnet werden, wenn es systematisch aufgebaut ist, also vorab festgelegt wird, welche Fragen wann und unter welchen Umständen (je nach den Antworten auf vorhergegangene Fragen) zu stellen sind. Damit ist bereits eine wesentliche Forderung der Standardisierung erfüllt. Man kann sich auch ein Interview vorstellen, das aus einer unsystematischen, unstrukturierten Ansammlung von Fragen besteht, die aber immerhin in ihrer Abfolge und im Wortlaut genau festgelegt sind. In diesem Fall wäre das Interview zwar standardisiert, aber nicht strukturiert. Die Auswertung eines Interviews kann ebenfalls unterschiedlich stark standardisiert sein. So wie bei Tests die Durchführungsobjektivität und die Auswertungsobjektivität separat beurteilt werden, ist auch beim Interview zwischen beiden Gütekriterien zu unterscheiden. Eine standardisierte Durchführung ist kein Garant für eine standardisierte Auswertung. Ein völlig standardisiert durchgeführtes Interview kann unstandardisiert ausgewertet werden. Dies wäre etwa der Fall, wenn am Ende eines Einstellungsgesprächs mit festgelegten Fragen »aus dem Bauch heraus« entschieden würde, ob der Bewerber nun geeignet ist oder nicht. Standardisierung der Auswertung bedeutet, dass die Antworten nach festen Regeln verwertet werden. Meist muss der Interviewer entscheiden, in welche der vorgegebenen Kategorien die Antwort passt. Beispielsweise könnten zu der Frage nach Übernahme von Führungsaufgaben während der Schulzeit die Antwortkategorien lauten: a) ja, belegt durch konkrete Funktionsbezeichnung (Schülersprecher, Lei- Diagnostisches Interview ist der Überbegriff für Methoden zur Erhebung von diagnostisch relevanten Informationen mittels Gespräch. Mit Begriffen wie Anamnese, Exploration, Einstellungsgespräch oder Auswahlgespräch kann der Verwendungszweck oder die Zielsetzung eines diagnostischen Interviews näher bestimmt werden. Diagnostische Interviews unterscheiden sich durch den Grad ihrer Standardisierung. Definition Diagnostische Interviews können aber auch Funktionen übernehmen, die nicht unter die Begriffe Anamnese und Exploration fallen, etwa die Erhebung von Informationen zur Eignung eines Probanden für einen bestimmten Beruf oder für ein bestimmtes Studium. Nach dem primären Verwendungszweck kann das diagnostische Interview dann auch näher als Einstellungsgespräch oder Auswahlgespräch bezeichnet werden. Kapitel 3 · Diagnostische Verfahren Unterschiedliche Grade der Standardisierung 328 Standardisierte Interviews 3.6.1.1 Klinische Interviews Klinisch tätige Psychologen werden häufig mit Fragestellungen konfrontiert, zu deren Beantwortung eine Befragung der Patienten nötig ist. An erster Stelle ist die Frage nach Standardisierte Interviews kommen vor allem im klinischen Bereich und in der Eignungsdiagnostik zum Einsatz. Verfahren aus diesen beiden Bereichen werden deshalb ausführlich dargestellt. Generell ist der Einsatz von standardisierten Interviews immer dann zu erwägen, wenn sich eine Fragestellung oft wiederholt, und wenn die Ergebnisse mit denen anderer Probanden verglichen werden sollen. 3.6.1 tung von Jugendgruppen im Verein etc.), b) ja, aber ohne formale Funktion (z. B. eine Klassenfahrt organisiert) und c) nein, keine Führungsaufgabe benannt. Auch die Verrechnung kann vorher festgelegt sein. Meist werden für die Antworten auf eine Frage Punkte vergeben und diese zur Ermittlung eines Gesamtwertes über alle Fragen addiert. Dabei sind Gewichtungen der einzelnen Antwortalternativen möglich. Im Beispiel könnten etwa zwei Punkte für Antwort a und ein Punkt für Antwort b vorgesehen sein. Der Prozess der Informationsgewinnung im Interview wird in . Abb. 3.30 veranschaulicht. Vom »wahren« Sachverhalt im Leben des Befragten bis zu dessen Verwertung im Interview finden Transformationen statt, die anfällig für Verzerrungen sind. Durch ein standardisiertes Vorgehen beim Interview sollen die Verzerrungen seitens des Interviewers minimiert werden. 3.6 · Diagnostisches Interview 3 . Abb. 3.30. Stationen der Informationsverarbeitung beim Interview (aus Keßler, 1988) Haupteinsatzgebiete: Klinischer Bereich und Eignungsdiagnostik Prozess der Informationsgewinnung Punkte für »passende« Antworten 329 3 Weitere Funktionen klinischer Interviews Weitere standardisierte klinische Interviews Verzweigungsregeln verkürzen das Interview Beispiel SKID Standardisiertes Vorgehen wichtig Klinische Diagnosen stellen der Art der Störung zu nennen. Viele diagnostische Kriterien im ICD-10 und DSM-IV (7 Abschn. 10.2) sind ohne Mitwirkung der Patienten kaum feststellbar. Wie will man anders als durch (schriftliche oder mündliche) Befragung feststellen, ob jemand ausgeprägte Ängste vor einer Gewichtszunahme hat, unter Schmerzen oder etwa unter Mundtrockenheit leidet oder Halluzinationen hat. Andere klinische Symptome äußern sich im Verhalten und sind damit grundsätzlich auch einer Verhaltensbeobachtung zugänglich. Dennoch wird in den meisten Fällen eine Befragung wesentlich ökonomischer sein. Ein diagnostisches Interview kann dazu dienen, klinische Diagnosen anhand von vorliegenden Symptomen zu stellen. Beispielsweise lautet eines von mehreren Kriterien für das Vorliegen einer Episode einer Major Depression im DSM-IV »Deutlich vermindertes Interesse oder Freude an allen oder fast allen Aktivitäten, an fast allen Tagen, für die meiste Zeit des Tages (entweder nach subjektivem Ermessen oder von anderen beobachtet)« (Saß, Wittchen, Zaudig & Houben, 1998, S. 150). Nun könnte man fragen: »Haben Sie längere Zeit keine Lust gehabt, die Dinge zu tun, die Ihnen sonst Spaß machen?«. Ein anderer Kliniker würde vielleicht lieber fragen: »Hatten Sie die Freude an Dingen verloren, die Sie früher gerne gemacht haben?«. Persönliche Präferenzen im Sprachgebrauch und die Anpassung an das sprachliche Niveau der Patienten führen dazu, dass die Formulierungen unterschiedlich ausfallen können. Damit wird jedoch die Durchführungsobjektivität eines diagnostischen Interviews verletzt. Die offensichtlichste Konsequenz ist, dass die Antworten je nach Formulierung der entscheidenden Fragen unterschiedlich ausfallen. Da von den Antworten letztlich die Diagnose abhängt, ist es nahe liegend, die Fragen zu standardisieren, also immer auf die gleiche Weise zu stellen. Genau das leisten standardisierte klinische Interviews. Alle Diagnostiker, die das Strukturierte Klinische Interview für DSM-IV (SKID) von Wittchen, Zaudig und Fydrich (1997) durchführen, stellen die Frage (A2) so: »Während der letzten 4 Wochen: Haben Sie das Interesse oder die Freude an fast allen Aktivitäten verloren, die Ihnen gewöhnlich Freude machen?«. Im SKID sind zudem bestimmte Nachfragen und Kategorien zur Bewertung der Antwort vorgegeben. Der Diagnostiker kreuzt zum Beispiel anhand der Antwort an, dass ein erheblicher Verlust von Interesse oder Freude an allen oder fast allen Aktivitäten fast jeden Tag »sicher vorhanden & kriteriumsgemäß ausgeprägt« ist. Im SKID sind die Fragen nach Störungen gruppiert. Bei dem einzelnen Patienten müssen nicht alle Fragen gestellt werden. Verzweigungsregeln bestimmen, mit welchen Fragen in Abhängigkeit von seinen Antworten zu einem Fragenkomplex weiter gemacht wird. Neben dem SKID erfüllen einige wenige andere standardisierte klinische Interviews die Aufgabe, das ganze Spektrum psychischer Störungen abzudecken. Hier ist besonders das Diagnostische Interview bei psychischen Störungen (DIPS) von Margraf, Schneider und Ehlers (1991; Schneider, In-Albon & Margraf, 2006) zu nennen. Zu diesem Interviewverfahren liegt mit dem MINI-DIPS auch eine Kurzform vor (Margraf, 1994) sowie von Unnewehr, Schneider und Margraf (1994) eine Version für Kinder (Kinder-DIPS). Andere standardisierte Interviews haben dagegen nur bestimmte Bereiche von Störungen, beispielsweise Essstörungen, zum Gegenstand. Standardisierte klinische Interviews können auch andere Funktionen haben als Diagnosen zu stellen. Beispielsweise mögen sie dazu dienen, den Verlauf oder das Ergebnis einer Therapie zu evaluieren oder die Ätiologie einer Störung abzuklären. Informationen über ein breites Spektrum von klinischen Interviews findet man in dem Kompendium von Strauß und Schuhmacher (2005). Kapitel 3 · Diagnostische Verfahren Mitwirkung der Patienten erforderlich 330 Wie stark hängt das Ergebnis (die Diagnose) davon ab, wer das Interview führt und wer die Antworten auswertet? Diese Frage richtet sich auf die Durchführungs- und Auswertungsobjektivität von strukturierten klinischen Interviews. Segal, Hersen und van Hasselt (1994) haben sich in einer Übersichtsarbeit mit der Auswertungsobjektivität (Übereinstimmung zwischen zwei oder mehr Auswertern) und zusätzlich auch mit der Retestreliabilität des SKID (das sich damals noch auf das DSM-III-R bezog) befasst. Die überwiegende Zahl der Studien galt der Übereinstimmung zwischen den Auswertern von Interviews, also der Auswertungsobjektivität. Der Prozentsatz an übereinstimmenden Urteilen ist wenig aussagekräftig. Die prozentuale Übereinstimmung wird bei seltenen Diagnosen zwangsläufig hoch ausfallen, weil die Erkenntnis, dass diese Störung nicht vorliegt, bei dem anderen Urteiler häufig mit der gleichen Erkenntnis zusammentrifft. Deshalb wird meist der Kappa-Koeffizient (oder bei sehr kleinen Grundwahrscheinlichkeiten der Störung besser Yules Y-Koeffizient) berechnet, der die Wahrscheinlichkeit des zufälligen Aufeinandertreffens von gleichen Urteilen rechnerisch kontrolliert. Als erstes fällt auf, dass die Urteilerübereinstimmung sehr stark von den Diagnosen abhängt. Eine Auszählung ergibt, dass bei den Persönlichkeitsstörungen (Achse II) jeweils etwa ein Drittel der Kappa-Koeffizienten in die Bereiche unter .70, .70 bis .80 und über .80 fällt. Bei den Störungen auf Achse I sind Werte unter .70 eher selten (17% der Werte) und der große Rest verteilt sich etwa gleich auf den mittleren und oberen Bereich. Direkte und gezielte Überprüfungen der Durchführungsobjektivität sind extrem selten. Üblicherweise wird das Interview von einem anderen Interviewer nach wenigen Tagen erneut durchgeführt. So gewinnt man Informationen über die Retestreliabilität. Unterschiede in den Ergebnissen der beiden Interviewer können hierbei allerdings darauf zurückzuführen sein, dass die Interviews unterschiedlich geführt und/oder unterschiedlich ausgewertet wurden. Zusätzlich kann sich die untersuchte Störung verändert haben, was bei kurzen Zeitintervallen aber relativ unwahrscheinlich ist. Darüber hinaus mögen die Patienten den beiden Interviewern unterschiedliche Informationen gegeben haben. Die Wiederholungsmethode mit zwei verschiedenen Interviewern bildet die klinische Praxis sehr gut ab. Normalerweise wird das Ergebnis davon abhängen, wer das Interview führt (Merkmale wie Alter, Aussehen und Geschlecht des Interviewers wirken sich möglicherweise auf das Auskunftsverhalten des Patienten aus), wie der Interviewer das Gespräch führt (Interviewerverhalten) und wie der Interviewer die Antworten verwertet (Auswertungsobjektivität). Segal et al. (1994) stützten sich auf eine große Retest-Untersuchung über ein breites Spektrum an Störungen (auf Achse I). An einer Stichprobe von 390 Patienten resultierte über alle 21 Störungen ein mittleres Kappa von .61 Die Retestreliabilität lag damit im Vergleich zu anderen Studien erwartungsgemäß niedriger als die Auswerterübersteinstimmung. Bei den ebenfalls untersuchten 202 Nichtpatienten kamen 16 verschiedene Diagnosen vor, wobei Kappa durchschnittlich nur .37 betrug. Die Reliabilität variierte sehr stark in Abhängigkeit von den Diagnosen. Sie reichte bei den Patienten immerhin von .40 bis .86. Für die in der Patientengruppe häufiger vorkommenden Störungen (Basisrate über 10%) lagen die Kappa-Werte im Bereich von .64 bis leicht über .84 (Major Depression: .64, bipolare Störung: .84, Schizophrenie: .65, Drogenabhängigkeit oder -missbrauch: .84). Die Ergebnisse zur Retestreliabilität besagen, dass die Diagnose, die ein Interviewer aufgrund der Angaben des Patienten im Interview stellt, in erheblichem Ausmaß davon abhängt, wer das Interview führt und auswertet. Es gibt keine allgemein anerkannten Regeln dafür, wie ein Kappa-Koeffizient zu bewerten ist. Segal et al. (1994) vertreten die Ansicht, dass Werte über .70 als Hinweis auf eine gute Übereinstimmung gelten kön- 3.6 · Diagnostisches Interview Diagnose hängt mit vom Interviewer ab Retestreliabilität variiert stark in Abhängigkeit von der Diagnose Wiederholung des Interviews durch anderen Interviewer Urteilerübereinstimmung hängt von den Diagnosen ab Durchführungs- und Auswertungsobjektivität strukturierter klinischer Interviews 331 3 3 Kaum externe Validitätskriterien vorhanden Klarheit der diagnostischen Kriterien beeinflusst Übereinstimmung Diagnose »Angststörung« Interviewer 2 Ja 87 22 Nein 07 85 Die im Beispiel vorgelegten Zahlen bedeuten, dass beide Interviewer bei 87 der 201 Patienten übereinstimmend die Diagnose »Angststörung« gestellt und bei 85 weiteren Patienten übereinstimmend festegestellt haben, dass diese Patienten keine Angststörung aufweisen. Bei sieben Patienten war Interviewer 1 der Meinung, dass diese eine Angststörung haben, während der andere Interviewer hier keine Angststörung festgestellt hat. Interviewer 2 diagnostizierte allerdings bei 22 anderen Patienten eine Angststörung, während hier Interviewer 1 nicht zu einer solchen Diagnose gelangte. Für diese sieben plus 22 Patienten (immerhin 14% der Patientengruppe) bedeuten derartige Nichtübereinstimmungen, dass die Diagnose »Angststörung« davon abhing, welcher Interviewer sie befragt hat. Für die Praxis klinischer Arbeit impliziert dieses weitreichende Konsequenzen, etwa der Art, ob ein Patient die ihm zustehende Behandlung erhält oder nicht und ob eine Person ohne klinische Störung oder mit einer ganz anderen Störung zunächst als Angstpatient behandelt wird. Angenommen, anstelle von Angststörung würde hier Blinddarmentzündung stehen: Die Konsequenzen einer Behandlung (Operation) oder Nichtbehandlung (Gefahr, an einer unbehandelten Blinddarmentzündung zu sterben) wären ungleich größer! Bei der Beurteilung von Übereinstimmungsmaßen bei klinischen Interviews ist auch zu bedenken, dass die Auswertungsobjektivität nicht nur von der Person des Auswerters abhängt, sondern auch von der Klarheit der diagnostischen Kriterien im DSM. Die Validität strukturierter klinischer Interviews ist schwer zu beurteilen, und zwar deshalb, weil die Interviews in der klinischen Praxis als die beste verfügbare Methode zur Diagnosefindung gelten, sie also das erste in Betracht kommende Kriterium darstellen. Von daher stünden für Validitätsuntersuchungen nur weniger zulängliche Validitätskriterien zur Verfügung. Die Ergebnisse würden deshalb mehr über die Validität der anderen Verfahren als über die des Interviews aussagen. Deshalb wird an dieser Stelle auf die Darstellung von Ergebnissen verzichtet. Anmerkung. Zahlen aus Margraf, Schneider und Ehlers (1994, S. 22). Es handelt sich im vorliegenden Fall nur um Primärdiagnosen (also vorherrschende Störungen bei einem Patienten) und um Oberklassendiagnosen (keine Differenzierung zwischen verschiedenen Formen von Angststörungen). Ja Nein Diagnose »Angststörung« Interviewer 1 Zahlenbeispiel für die Retestreliabilität; DIPS-Diagnose »Angststörungen«, Kappa = .71 Beispiel nen. Diese Auffassung mag auch dafür stehen, dass sich die Untersucher bei klinischen Diagnosen mit wenig zufrieden geben. Ein Beispiel soll zeigen, was sich hinter solchen Zahlen verbirgt. Kapitel 3 · Diagnostische Verfahren Auch bei »guter« Urteilerübereinstimmung relativ viele »Fehldiagnosen« 332 6 1. Gesprächsbeginn. Kurze, informelle Unterhaltung, deren Hauptfunktion der Aufbau einer Atmosphäre der Offenheit und Freundlichkeit ist. Skizzierung des Verfahrensablaufs. Keine Beurteilung in diesem Teil. 2. Selbstvorstellung des Bewerbers. In freier Form berichtet der Bewerber/die Bewerberin über seinen/ihren persönlichen und beruflichen Hintergrund. Der Interviewer kann dabei auffordern, den Schwerpunkt entweder auf die vorangegangene berufliche Erfahrung oder auf die Ausbildung zu legen, hier wie dort aber auch die Berufswahl und die berufsbezogenen Erwartungen zu thematisieren. Die Beurteilung erfolgt hinsichtlich dreier formaler (z. B. »Ausdruck«) und dreier inhaltlicher (z. B. »Einstellung zur Arbeit«) Urteilsaspekte auf je dreistufigen Skalen. Aufbau, Funktion und Auswertung des multimodalen Einstellungsinterviews (nach Schuler, 1992, und Schuler & Moser, 1995) 3.6.1.2 Interviews zur Eignungsdiagnostik In der Personalauswahl sind Vorstellungsgespräche bzw. Einstellungsinterviews nach der Sichtung von Bewerbungsunterlagen die am weitesten verbreitete Methode (Schuler, Frier & Kauffmann, 1993). Dieses hat nicht zuletzt damit zu tun, dass sowohl Auswählende als auch Bewerber das Interview im Vergleich zu anderen Auswahlinstrumenten wie Arbeitsproben, Zeugnisnoten, psychologischen Eignungstests und Lebenslaufdaten am meisten schätzen (Fruhner, Schuler, Funke & Moser, 1991). Im Hinblick darauf sind denn auch Auswahlgespräche als Teil des besonderen Auswahlverfahrens bei der Vergabe von Studienplätzen im Hochschulrahmengesetz (Siebtes Gesetz zur Änderung des HRG vom 28.8.2004) explizit vorgesehen. Allerdings sind die Ergebnisse zur prognostischen Validität von Auswahlgesprächen nicht sehr ermutigend. Bei der Auswahl von Medizinstudenten zeigte sich, dass die per Interview ausgewählten Studierenden schlechtere Leistungen in der Zwischenprüfung aufwiesen als diejenigen, die nach einem Test oder einer Kombination von Test und Abiturnote ausgewählt worden waren (Nauels & Klieme, 1994). Bei einem breiten Einsatz von standardisierten Auswahlgesprächen ist zu bedenken, dass die Fragen schnell bekannt werden und damit eine gezielte Vorbereitung auf das Interview ermöglichen. Eine für die diagnostische Praxis von Auswahlgesprächen an Hochschulen äußerst wertvolle Handreichung haben Trost und van Hayn (2001) vorgelegt. Um die häufig genug bestehende Kluft zwischen der Beliebtheit des Interviews (resultierend aus dessen Augenschein-, »Face-« oder gar »Faith-Validität«) und den mäßigen psychometrischen Güteeigenschaften zu schließen, lag es nahe, geeignete Formen von Interviews zu entwickeln, in denen die Vorzüge des standardisierten Vorgehens genutzt werden, ohne dessen Nachteile hinzunehmen. Schuler (1992) hat diesbezüglich mit dem so genannten »Multimodalen Einstellungsinterview« einen wichtigen Beitrag geleistet. Darauf wird nachfolgend im Detail eingegangen, weil damit zum Einen konkrete diagnostische Schritte verbunden sind, zum Anderen bereits reichhaltige und positive Erfahrungen zur Validität des gesamten Prozedere vorliegen. Das Attribut »multimodal« soll darauf hinweisen, dass dem Interview unterschiedliche Methoden und Konstruktionsprinzipien zugrunde liegen. Im Einzelnen sieht der Aufbau aus wie unten dargelegt. 3.6 · Diagnostisches Interview 3 Multimodales Einstellungsinterview Auswahlgespräche bei der Hochschulzulassung problematisch Einstellungsinterviews in der Praxis beliebt 333 3 Metaanalysen zur Validität Beurteilerübereinstimmung bei strukturierten Interviews höher Wie ersichtlich, finden sich als »Herzstücke« Verhaltensbeschreibungen ebenso wie die situativen Fragen, erstere in den Schritten (2) und (5), letztere in (7). Die Autoren des multimodalen Interviews stützten sich bei ihren Konstruktionsarbeiten unter anderem auf eine detaillierte Anforderungsanalyse innerhalb eines bestimmten Arbeitsbereichs (hier: des Bankenverbandes), die zu einer größeren Zahl »kritischer Ereignisse« führte. Daraus wurden in mehreren Stufen die letztlich resultierenden Fragen abgeleitet. Die Dimensionen der Arbeitsanalyse lagen auch der Auswahl bzw. Formulierung der biografischen Fragen zugrunde. Das multimodale Interview stellt lediglich ein Konstruktionsprinzip dar, eine Leitlinie zum Aufbau eines Einstellungsgesprächs. Die inhaltliche Ausgestaltung variiert in Abhängigkeit von der Stelle, die zu besetzen ist. Deshalb sind die folgenden Angaben zur Objektivität, die Schuler (1992) berichtet, nur bedingt auf andere multimodale Interviews generalisierbar. Für zwei Untersuchungen an 305 bzw. 69 Probanden berichtet Schuler (1992) für das Gesamtinterview Übereinstimmungen zwischen jeweils zwei Beurteilern von .71 bzw. .83. McDaniel, Whetzel, Schmidt und Maurer (1994) haben in einer Metaanalyse von insgesamt 187 Koeffizienten eine durchschnittliche Auswerterübereinstimmung für strukturierte Interviews zur Personalauswahl von .84 und von .68 für unstrukturierte Interviews gefunden. Anders als im klinischen Bereich hat der verbreitete Einsatz von diagnostischen Interviews im Bereich der Personalauswahl sehr viele Publikationen zur Validität angeregt, also zu dem Problem, wie die im Interview ermittelten Informationen mit Kriteriumsmaßen zusammenhängen. Diese sind in Metaanalysen zusammenfassend dargestellt worden. . Tab. 3.22 informiert über die wichtigsten Ergebnisse. Die in Tabelle 3.22 aufgeführten Ergebnisse erlauben einige Schlussfolgerungen. Erstens kann die Validität von Interviews nicht damit erklärt werden, dass die Validierung an subjektiven Kriterien (meist Vorgesetztenbeurteilungen) erfolgt. Der Zusam- 3. Berufsinteressen und Berufswahl. Es werden vier standardisierte Fragen zu Berufswahl, Berufsinteressen, zur Organisations- bzw. Institutionsauswahl und zur Bewerbung gestellt. Antwortbeurteilung auf dreistufigen verhaltensverankerten Skalen. 4. Freies Gespräch. Dient zur Auflockerung. Interviewer stellt offene Fragen in Anknüpfung an Selbstvorstellung und Bewerbungsunterlagen. Summarische Eindrucksbeurteilung. 5. Biografiebezogene Fragen. Biografische oder »Erfahrungsfragen« werden aus Anforderungsanalysen abgeleitet oder anforderungsbezogen aus biografischen Fragebogen übernommen. Je nach Komplexität der Fragen erfolgt die Bewertung auf drei- oder fünfstufigen, verhaltensverankerten Skalen. 6. Realistische Tätigkeitsinformation. Positive Seiten oder Erwartungen sowie auch die Probleme der Institution und des Arbeitsalltags werden vermittelt. Überleitung zu situativen Fragen. 7. Situative Fragen. Knappe Schilderung von mehreren erfolgskritischen Situationen (auf Critical-Incident-Basis entwickelt) und Frage nach dem Verhalten des Kandidaten in dieser Situation. Bewertung auf fünfstufigen Skalen. 8. Gesprächsabschluss. Die Bewerber erhalten Gelegenheit, ihrerseits Fragen zu stellen und verbliebene Unklarheiten zu erörtern. Zusammenfassung: Weitere Vereinbarungen. Kapitel 3 · Diagnostische Verfahren Hoher Stellenwert von Verhaltensbeschreibungen und von situativen Fragen 334 31 23 12 160 106 39 75 26 30 90 54 32 22 Marchese und Muchinski (1993) McDaniel et al. (1994) Huffcutt, Conway, Roth und Klehe (2004) Situative Interviews Verhaltensbeschreibende Int. .43 .51 .37 .44 .33 .36 .34 .36 .43 .32 Kriterium Berufserfolg Strukturierte Interviews Unstrukturierte Interviews Kriterium Trainingserfolg Strukturierte Interviews Unstrukturierte Interviews Berufserfolg, ein Interviewer Berufserfolg, Interviewerteam 25.244 12.847 9.330 59.844 3.576 47.576 11.393 11.915 2.815 2.721 .38 .37 .39 Validitäta Kriterium Berufserfolg Subjektive Kriterien Objektive Kriterien Spezifikation 3.960 2.290 1.875 N menhang mit objektiven Kriterien des Berufserfolgs ist mindestens genauso hoch wie der mit subjektiven Kriterien. Zweitens sind strukturierte Interviews unstrukturierten überlegen; beim Kriterium Trainingserfolg fand sich allerdings kein Unterschied. Drittens fallen die Validitäten niedriger aus, wenn mehrere Interviewer beteiligt waren. Die Überlegenheit des Einzelinterviews ist übrigens bei strukturierten Interviews besonders ausgeprägt (McDaniel et al., 1994). Viertens erwiesen sich verhaltensbeschreibende Interviews den situativen als überlegen. Beide werden in der Regel anforderungsbezogen konstruiert. Beim situativen Interview werden Fragen zu hypothetischen Situationen gestellt. Der Bewerber soll angeben, wie er sich in den genannten Situationen verhalten würde. In verhaltensbeschreibenden Interviews wird dagegen erfragt, wie sich der Bewerber in zurückliegenden realen Situationen verhalten hat. Neben den genannten Moderatorvariablen haben sicherlich weitere Faktoren einen Einfluss auf die Validität von Interviews. Die Beurteilung, die ein Bewerber erfährt, kann ferner durch verschiedene Störfaktoren beeinflusst werden. Eine Übersicht über die Forschung zu Einfluss- oder Störfaktoren wie etwa die äußere Erscheinung des Bewerbers geben Posthuma, Morgeson und Campion (2002). Eine ganz andere Frage ist die nach der Konstruktvalidität von Einstellungsinterviews. Sie sagt etwas darüber aus, ob die Beurteilung im Interview beispielsweise mit der Intelligenz oder bestimmten Persönlichkeitseigenschaften der Interviewten zusammenhängt. Salgado und Moscoso (2002) haben in einer Metaanalyse die vorliegenden Untersuchungen danach eingeteilt, ob es sich eher um ein konventionelles Interview handelte oder eher um ein verhaltensbezogenes. Beide Interviewtypen weisen Gemeinsamkeiten auf; die wesentlichen Unterschiede liegen darin, dass in den als »verhaltensbezogen« definierten Interviews überwiegend nach früheren Aktivitäten und Erfahrungen sowie nach konkretem Verhalten in früheren oder auch in fiktiven Situationen gefragt wurde und weniger nach Selbstbeurteilungen. Für konventionelle Interviews fanden die Autoren moderate Zusammenhänge (korrigierte Korrelationen) mit Intelligenz (r = .41), emotionaler Stabilität (r = .38) und sozialen Fertigkeiten (r = .46). Die Anmerkung. k = Anzahl der Studien, N = Anzahl der Personen in den Studien insgesamt. a Korrigierte Validität (Korrekturfaktoren zwischen den Metaanalysen leicht verschieden). k Metaanalyse . Tabelle 3.22. Ergebnisse von Metaanalysen zur Validität eignungsdiagnostischer Interviews 3.6 · Diagnostisches Interview 3 Konventionelle Interviews: Zusammenhang mit Intelligenz und emotionaler Stabilität Metaanalyse zur Konstruktvalidität Verhaltensbeschreibende Interviews sind valider als situative Strukturierte Interviews sind valider als unstrukturierte (Berufserfolg) 335 3 Anforderungsanalysen nutzen Fragen generieren Unbedingt einen Leitfaden erstellen Inkrementelle Validität von Interviews bei Vorhersage von Berufserfolg Soziale Fertigkeiten als Anforderungsmerkmal Interviews selbst konstruieren Bei den meisten Fragestellungen können Diagnostiker nicht auf ausgearbeitete Interviews zurückgreifen. So wurden im Bereich der Berufseignungsdiagnostik zwar zahlreiche standardisierte Interviews entwickelt, diese sind jedoch meist für Anwender aus anderen Betrieben nicht frei verfügbar. Wenn man sich nicht mit einem unstandardisierten Gespräch begnügen will, das bekanntlich viele Nachteile aufweist, muss man selbst ein Interview konstruieren. Dabei gilt es, einige Empfehlungen zu beachten. Die wichtigste und zugleich grundlegendste Empfehlung ist die, einen Leitfaden für das Interview auszuarbeiten. Hinweise zum Aufbau finden sich etwa bei Kici und Westhoff (2000) sowie ausführlicher bei Westhoff und Kluck (2003). Um einen guten Leitfaden zu erstellen, sind drei Aufgaben zu erledigen: Fragen finden, Grobaufbau des Leitfadens festlegen, Ausarbeitungen im Detail vornehmen (Feinaufbau des Leitfadens). Welche Fragen zu stellen sind, richtet sich in erster Linie nach der Fragestellung. Soll die Eignung für einen bestimmten Beruf oder ein bestimmtes Studium festgestellt, das Vorliegen einer bestimmten Störung überprüft, die Kausalität für ein Schulversagen eruiert werden oder interessiert eine Prognose etwa dahingehend, ob ein früherer Trunkenheitsfahrer künftig nüchtern am Steuer sitzen wird? Um die richtigen Fragen zu finden, ist Wissen über den Messgegenstand erforderlich. Wenn die Eignung für einen Beruf oder ein Studium ermittelt werden soll, bedarf es eingehender Kenntnisse über die Anforderungen des Berufs beziehungsweise des Studiums. Entweder ist dafür 3.6.2 Beurteilungen in verhaltensbezogenen Interviews korrelierten niedriger mit Intelligenz (r = .28) und emotionaler Stabilität (r = .08), aber deutlich höher mit sozialen Fertigkeiten (r = .65) und einigen anderen Variablen (insbesondere mit Berufserfahrung: r = .71). Drei Schlussfolgerungen können aus dieser Metaanalyse gezogen werden. Erstens unterscheiden sich die beiden Interviewtypen nicht nur in der Art der Fragen, die gestellt werden, sondern auch in dem, was sie (mit)erfassen. Zweitens hängt das Eignungsurteil auf der Basis des Interviews relativ eng mit den sozialen Fertigkeiten der Interviewten zusammen. Je stärker diese Fähigkeiten ausgeprägt sind, desto positiver werden sie beurteilt. Leider fehlen in der Publikation nähere Angaben dazu, wie soziale Fertigkeiten in den Untersuchungen operationalisiert wurden. Es lässt sich nicht feststellen, ob das Interviewergebnis durch die sozialen Fertigkeiten der Bewerber beeinflusst oder gar verfälscht wird. In manchen Berufen (Verkäufer, Manager etc.) gehören soziale Fertigkeiten zum Anforderungsprofil, stellen also ein Eignungsmerkmal dar. Die Funktion der sozialen Fertigkeiten und ihr Beitrag zur Vorhersage von Berufs- und Ausbildungserfolg muss daher durch weitere Untersuchungen geklärt werden. Drittens ist der Zusammenhang mit Intelligenz nicht hoch. Dieses Ergebnis ist für die Berufseignungsdiagnostik sehr erfreulich. Intelligenz ist ein sehr guter Prädiktor für Ausbildungs- und Berufserfolg. Damit besteht die Chance, dass Interviews eine inkrementelle Validität über die Intelligenz hinaus haben. Würden die Interviewergebnisse hoch mit Intelligenz korrelieren, könnte man die Interviews durch einen Intelligenztest ersetzen. Schmidt und Hunter (1998) kommen in ihrer Metaanalyse zu folgenden Schätzungen für die inkrementelle Validität: Beim Kriterium Berufserfolg steigt die Validität von .51 (nur Intelligenz) auf .63 (plus strukturiertes Interview). Bei der Vorhersage von Ausbildungserfolg hingegen steigt die Validität der Intelligenztests in Kombination mit einem Interview nur geringfügig von .56 auf .59. Kapitel 3 · Diagnostische Verfahren Verhaltensbezogene Interviews: enger Zusammenhang mit sozialen Fertigkeiten 336 3 3 diagnostische Ansätze Spezielle Tests Verbindung zwischen Diagnostik und Intervention 3.7.1 3.7.2 3.7.3 Paardiagnostik – 347 Familiendiagnostik – 357 Teamdiagnostik – 364 Gruppendiagnostik (Interaktionsdiagnostik) Die eindeutige Zuordnung vorliegender Verfahren zu einer der genannten Kategorien mag nicht immer leicht fallen, weil die Kategoriengrenzen nicht hinreichend scharf konturiert sind. Immerhin bereitet die Unterscheidung zwischen subjektiven (= inter- Bei den bislang besprochenen Verfahren handelt es sich ausnahmslos um solche, bei denen das Erleben und Verhalten einzelner Personen diagnostiziert werden soll. Damit wird zwar ein durchaus wichtiges, aber doch eben nur ein Element der komplexen Person-Umwelt-Interaktion erfasst, und zu dieser Umwelt gehören nicht zuletzt auch andere Personen, mit denen wir mehr oder weniger kontinuierlich in Kontakt stehen. Daraus ergeben sich, weil davon jeweils mehrere Personen betroffen sind, soziale Konstellationen. Unter diesen nehmen Paare und Familien sowie Gruppen am Arbeitsplatz (Teams) einen herausragenden Stellenwert ein. Angesichts der Bedeutung, die Partnerschaft und Familie sowie das soziale Umfeld am Arbeitsplatz nicht nur für Staat, Wirtschaft und Gesellschaft, sondern mehr noch für die seelische Gesundheit und Lebenszufriedenheit der darin agierenden Personen aufweist, sind Verfahren von eminenter Wichtigkeit, die sich auf die soziale Interaktion in derartigen Gruppen bzw. die daraus resultierenden spezifischen Phänomene richten. Hier ist die Verbindung zwischen Diagnostik und Intervention besonders augenfällig, weil im Regelfall erst Störungen des harmonischen Miteinander in Partnerschaft oder Familie für die Akteure den Anlass für die Erstellung einer psychologischen Diagnose liefern; an dieser setzt eine geeignete Intervention in Form von Beratungsgesprächen oder einer formellen Psychotherapie an, deren Erfolg wiederum durch eine erneute Diagnostik objektiviert werden muss. Im wirtschaftlichen und administrativen Bereich mag sich die Frage auftun, wie das Betriebsklima verbessert und die Effizienz der Arbeit gesteigert werden können, was im Prinzip die gleichen Schritte erfordert wie bei den »klinischen« Fällen. Es ist evident, dass es dazu gesonderter Tests mit eigenen Konstruktionsprinzipien und Gütekriterien bedarf. Grundsätzlich lassen sich innerhalb der Interaktionsdiagnostik die folgenden drei diagnostischen Untersuchungs- bzw. Forschungsansätze unterscheiden (nach Fiedler, 2001): 1. Kognizierte interpersonelle Merkmale einer oder mehrerer Personen: Vorstellungen, Wahrnehmungen und Emotionen über Beziehungen zu anderen (tatsächlichen oder fiktiven) Personen, mithin interne Repräsentationen. 2. Interaktionelle Merkmale mehrerer Personen in einer sozialen Situation oder in einer zwischenmenschlichen Handlungsepisode: Beobachtung und Analyse konkreter Interaktionen in natürlichen Interaktionen oder in experimentellen Settings (etwa bei der gemeinsamen Lösung einer vorgegebenen Aufgabe). 3. Interpersonelle Eigenschaften einer Person: Persongebundene Interaktionsmerkmale, die von Persönlichkeitsmerkmalen (wie Extraversion oder Dominanz) über Interaktionsstile (z. B. dependenter Interaktionsstil) bis zu konkreten Verhaltensmustern (wie z. B. querulatorisches Verhalten) reichen können. 3.7 Kapitel 3 · Diagnostische Verfahren Bedeutung sozialer Konstellationen 344 Paardiagnostik soll auf die letzte verzichtet werden, und zwar aufgrund faktorenanalytischer Befunde des Selbstbildes (!), da sich in verschiedenen Stichproben nur jeweils fünf »stabile« (also replizierbare) Faktoren fanden (s. Brähler & Beckmann, 1981, S. 118). Die Reliabilitäten (Cronbachs α) für die einzelnen Skalen liegen mit Werten um .60 für Selbst- und Fremdbilder in etwa derselben Größenordnung. Etwas darüber (um .70) rangieren die Test-Retest-Korrelationen, obwohl es sich dabei nicht um Stabilitätskoeffizienten im klassischen Sinne handeln kann, weil zwischen Erst- und Zweiterhebung (von einer Stichprobe abgesehen) jeweils Interventionen stattgefunden haben (Sterilisation der Frau, Paarkurztherapie, Magenoperation). Das verweist zum Einen auf eine nur mäßige interne Konsistenz der Skalen und zum Anderen auf eine erstaunliche Stabilität trotz In den Übereinstimmungen oder Differenzen zwischen den Beurteilungen liegt somit das Informationsinkrement gegenüber den üblichen Verfahren zur Erfassung individueller (nichtinteraktiver) Merkmalsausprägungen. Von daher interessieren vor allem Forschungsbefunde zu deren psychometrischen Güteeigenschaften. Von den ursprünglich 6 Skalen 4 »Soziale Resonanz«(negativ sozial resonant – positiv sozial resonant), 4 »Dominanz« (dominant – gefügig), 4 »Kontrolle« (unkontrolliert – zwanghaft), 4 »Grundstimmung« (hypomanisch – depressiv), 4 »Durchlässigkeit« (durchlässig – retentiv) und 4 »Soziale Potenz« (Itembeispiele 7 Abschn. 10.3.5.2) Brähler, E. und Brähler, Ch., (1993). Paardiagnostik mit dem Gießen-Test. Bern: Huber Bei dem GT handelt es sich um ein relativ gut eingeführtes Verfahren, das auch unter 7 Abschn. 10.3.5.2 kurz vorgestellt wird. Hier sollen deshalb primär die für die Paardiagnostik spezifischen Charakteristika im Vordergrund stehen. Das betrifft in erster Linie das in der Paardiagnostik ganz allgemein häufig angewendete Prinzip, dass jede Testperson über sich eine Selbst- und über ihren Partner eine Fremdbeschreibung liefert (auf insgesamt 40 Items mit 7facher Antwortstufung). Auf diese Weise lassen sich Übereinstimmungen bzw. Differenzen zwischen den insgesamt vier »Bildern« bestimmen, nämlich 4 Selbstbild des Mannes, mm; 4 Selbstbild der Frau, ww; 4 Urteil des Mannes über die Frau, mw; 4 Urteil der Frau über den Mann, wm. Der Gießen-Test GT 3.7.1 nal repräsentierten) und objektiven (= extern beobachtbaren) Beziehungen keine Probleme. Zu den ersteren sind aus Gründen der Erfassungsökonomie die weitaus meisten Beiträge geleistet worden, und zwar wiederum wegen der Praktikabilität in Form von Fragebogen. Ausschließlich diesen gilt die nachfolgende Darstellung. Dabei geschieht die Reihung nach aufsteigendem Komplexitätsgrad, der sich an der Zahl der Personen in den Gruppen orientiert: Paare beinhalten definitionsgemäß immer nur zwei Personen, Familien mindestens drei und Arbeitsteams gewöhnlich 5 bis 15 Personen. 3.7 · Gruppendiagnostik (Interaktionsdiagnostik) 3 5 replizierbare Faktoren 6 Skalen Informationsinkrement durch Übereinstimmungen und Differenzen Selbst- und Partnerbeschreibung Spezifische Charakteristika für Paardiagnostik 345 3 16 Obertypen Anwendung vorrangig im klinischen Bereich und in der Psychotherapie zwischenzeitlicher Intervention – »andersherum« wäre es im Zweifelsfall günstiger gewesen. Als »sehr erstaunlich« bezeichnen es selbst die Autoren, »dass die Test-RetestKorrelationen der Differenzen (zwischen Selbst- und Fremdbildern; d. Verf.) teilweise höher sind als die der Einzelwerte, d. h. dass Veränderungen von beiden Partnern sehr genau eingeschätzt werden können und auch sehr genau gemessen werden können« (Brähler & Brähler, 1993, S. 23), nämlich in einer Größenordnung von ca. .70 (bei einem großen Variationsbereich der Koeffizienten). Um es zu explizieren: Beispielsweise belaufen sich die Stabilitäten der Differenz von Selbstbild und Bild über den Partner (mm-mw und ww-wm) in der Skala »Soziale Resonanz« auf .76 bzw. .74 (gemittelt für zwei Stichproben). Den angestellten Beobachtungen zufolge sind »normale Ehen« im Mittel weder symmetrisch noch komplementär. So lagen die Korrelationen der Selbstbilder (Selbstbild des Mannes/Selbstbild der Frau, rmm/ww) ebenso um Null wie diejenigen der Fremdbilder (rwm/mw). Lediglich für die Skala Dominanz ergab sich mit rwm/mw = –.18 ein signifikant negativer (Komplementarität anzeigender) Koeffizient. Um .30 liegen für die Skala sozialer Resonanz und Kontrolle die Werte für »identifikatorische Projektion« (rmm/mw und rww/wm), sonst um 0. Ansonsten ist »Bestätigung der Position« die Regel (rww/mw bzw. rmm/wm in allen Skalen um .35; alle Befunde aus Brähler & Brähler, 1993). Für die Selbst- und Fremdbildwahrnehmungsdifferenzen geben die Autoren Mittelwerte und Streuungen an, und zwar für alle möglichen Vergleiche zwischen den Einzelbildern (mm-ww, wm-mw, mm-wm, ww-mw, mm-mw und ww-wm), das Ganze basierend auf den Daten von 197 Ehepaaren einer repräsentativen Erhebung aus dem Jahre 1975. Die numerisch geringsten Differenzen finden sich in der Skala »Durchlässigkeit«, die höchsten in »Grundstimmung«, und zwar jeweils mit einem Mittelwert von –3,3 bei wm-mw, d. h. die Männer attribuieren bei den Frauen eine negativere Grundstimmung als die Frauen bzw. die Männer bei sich selbst. Da die Skalen vorrangig für Untersuchungen im klinischen Bereich und der Psychotherapie vorgesehen sind, belegen die Autoren anhand individueller und gruppentypischer Profile bzw. den darin beobachtbaren Intrapaar-Differenzen, wie sich spezifische Störungen in den Testergebnissen manifestieren. In einer Metaanalyse von 2953 Paaren aus 53 Stichproben resultierten in einem gestuften Clusterungsprozess 16 Obertypen oder Typen 2. Ordnung, die wie folgt benannt wurden: 4 die aktive, verleugnende Harmoniebeziehung, 4 die misstrauisch-resignative Paarbeziehung, 4 die sadomasochistische Paarbeziehung, 4 das aggressive, leidende Paar, 4 Angstbewältigungskollusion, 4 Verantwortung der Frau, 4 die paranoide Gemeinschaft, 4 traditionelle Rollenteilung, 4 verdeckte Kampfbeziehung, 4 angestrengte Frauen und selbstunsichere Männer, 4 verzweifelt-aggressive Männer, 4 konflikthafte traditionelle Rollenteilung, 4 anale Beziehungsmodi, 4 misstrauisch-selbstunsichere Männer, 4 starke Frauen – selbstunsichere Männer, 4 Scheinmaskulinität. Kapitel 3 · Diagnostische Verfahren Wahrnehmungsdifferenzen in Selbstund Fremdbild 346 347 . Abb. 3.31. Obertypus »Verdeckte Kampfbeziehung«. (Nach Brähler & Brähler, 1993, S. 154). NR negativ sozial resonant, PR positiv sozial resonant, DO dominant, GE gefügig, UK unkontrolliert, ZW zwanghaft, HM hypomanisch, DE depressiv, DU durchlässig, RE retentiv Brähler und Brähler (1993, S. 154) beschreiben den Typ wie folgt (. Abb. 3.31): Die Besonderheit dieses Paartypus liegt in den extremen Gegensätzen der Partner in der Grundstimmung (Skala 4): Die Frauen sind besonders depressiv, die Männer besonders hypomanisch. Die Beurteilungsgegensätze auf Skala 2 lassen Dominanzkonflikte erkennen. Beide Partner beschreiben sich ähnlich eigensinnig, doch die Männer halten ihre Frauen für sehr viel dominanter als diese sich im Selbstbild darstellen und die Frauen nehmen den Durchsetzungswillen ihrer Männer nicht wahr. Die angstfreien (Skala 4), unterkontrollierten (Skala 3) und eher etwas resignativen (Skala 5) Männer scheinen mehr soziale Anerkennung zu genießen als die Frauen (Skala 1), doch innerhalb der Beziehung werden sie von ihren Frauen dominiert (Skala 2). Mittelwerte von Paaren der Kategorie »Verdeckte Kampfbeziehung« in den fünf Skalen des GT (aus Brähler & Brähler, 1993, S. 154) Dem Typ gehören fünf Typen erster Ordnung an, und zwar 4 Schwangere, 4 Eltern von Risikokindern, 4 Verdacht auf Mammakarzinom und Kontrollgruppe, 4 Paare mit Vasektomiewunsch des Mannes, 4 Paare mit Refertilisierungswunsch des Mannes. Beispiel Exemplarisch ist der Typ »verdeckte Kampfbeziehung« dargestellt (7 Beispiel). 3.7 · Gruppendiagnostik (Interaktionsdiagnostik) 3 3 Skalenzuordnung einiger Items nachträglich geändert 3 Fragebogen zur Partnerschaftsdiagnostik Änderungssensitivität fraglich Hahlweg, K. (1996). Fragebogen zur Partnerschaftsdiagnostik. Göttingen: Hogrefe Als Instrumente für die Eheberatung und die psychotherapeutische Behandlung von psychischen Störungen (wie Depressionen, Ängste, psychosomatische Störungen u. a.) unter Hinzuziehung des Partners hat Hahlweg (1996) drei Fragebogen zur Partnerschaftsdiagnostik entwickelt: Fragebogen zur Partnerschaftsdiagnostik dessen Beliebtheit wahrscheinlich damit zusammenhängt, dass nicht nur eine Selbstbeschreibung im Hinblick auf psychoanalytisch fundierte Persönlichkeitsdimensionen verlangt wird, sondern auch damit, dass die gleichen Items zur Beschreibung des jeweiligen Partners oder der jeweiligen Partnerin herangezogen werden. Damit drängte sich die Möglichkeit, die Selbstwahrnehmung einer Person mit der Wahrnehmung durch den Partner zu vergleichen, nachgerade auf. Solche Vergleiche entsprechen durchaus einer in der Partnerschaftsforschung häufig verfolgten Untersuchungsstrategie. »Da nur Aussagen über die Ähnlichkeit der jeweiligen Selbst- und Fremdwahrnehmungen gemacht werden können, ist der GT allerdings kein Verfahren der Paar- bzw. Beziehungsdiagnostik im eigentlichen Sinne« (Heil, 1998). Oder mit anderen Worten: Die Theorie, die dem Verfahren zugrunde liegt, wird – zumindest in der zentralen Publikation – mit keinem Wort umrissen; sie besteht offenbar nur in der Möglichkeit zu den besagten Vergleichen. Irreführend, wenn nicht ärgerlich, ist der Umstand, dass die gegenüber einer früheren Lösung aufgrund faktorenanalytischer Studien geänderte Zuordnung einiger Items zu den Skalen (»alte« und »neue« Lösung bei Brähler & Beckmann, 1981, S. 118) später kurzerhand als eine »Zuordnung für die Paardiagnostik« (Brähler & Brähler, 1993, S. 10) bezeichnet wird, ohne dass dementsprechende Analysen vorgenommen worden wären. Was die Bezeichnungen der Skalen in der Abbildung (. Abb. 3.31 bedeuten, muss der Leser selbst erschließen. Mit 40 Items, die je 4mal beantwortet werden müssen, ist der GT ein in Durchführung und Auswertung durchaus ökonomisches Paardiagnostikum, dessen Entwicklung von Projekten zur Erfassung von Gegenübertragungsfaktoren bei psychoanalytischer Diagnostik ausging. Als sehr positiv anzumerken sind die großen Fallzahlen der zumeist klinischen Untersuchungsstichproben. Die beträchtlichen Test-Retest-Korrelationen selbst bei Stichproben, die zwischenzeitlich therapiert wurden oder bei denen eine anderweitige Intervention vorlag, deuten allerdings auf eine gewisse Insensibilität gegenüber Änderungen hin (oder die Interventionen hatten keine Auswirkungen auf die 5 Dimensionen des Tests). Jedenfalls fehlen Untersuchungen, in denen sich erwiesene Besserungen in Partnerschaften auch in den Skalen signifikant niedergeschlagen hätten. Forschungsdefizite bestehen noch im Hinblick auf die Korrelate der IntrapaarÄhnlichkeiten mit Faktoren wie Stabilität der Partnerschaft, Glück und Zufriedenheit sowie seelische und körperliche Gesundheit der Partner. Fragwürdige Theorie Ökonomisch Kritik. Eigentlich handelt es sich beim GT um ein Instrument der Individualdiagnostik, Berechnung der Ähnlichkeit eines individuellen Paarprofils Kapitel 3 · Diagnostische Verfahren Leider fehlen zu den Gruppenmittelwerten der einzelnen Typen die dazugehörigen Streuungen, sodass nicht abzuschätzen ist, wie groß die Variationsbreite innerhalb der Typen ist (oder wie typisch die Mittelwerte sind). Aus diesem Grunde kann zwar mit Hilfe der von Kubinger, Wagner und Alexandrowicz (1998) vorgeschlagenen Berechnungsmethode die Ähnlichkeit eines individuellen Paarprofils mit den oben erwähnten 16 Paartypen quantitativ bestimmt, aber nicht dessen inferenzstatistische Absicherung geleistet werden. 348 Familiendiagnostik Verlangt schon die Paar- im Vergleich zur Individualdiagnostik neue Theorien und grundsätzlich andere Erfassungsmodi, so sollte dieses erst recht für Verfahren zur quantitativen Bestimmung von Merkmalen der gesamten Familie gelten, weil hier durch das Hinzukommen weiterer Personen das Beziehungsgeflecht komplexer und die Perspektiven zahlreicher sind. Wie ein Blick in die einschlägige Literatur allerdings lehrt (s. dazu Cierpka, 1987, 1996), sind die einflussreichsten Autoren den sich stellenden Problemen meist mit der Anwendung herkömmlicher Prinzipien begegnet, sofern sie sich mit der Erfassung von Kognitionen – gewöhnlich mit Fragebogen – begnügt haben. Nach- 3.7.2 Das TPI basiert auf konzisen Überlegungen zu den Handlungsorientierungen von Partnern in interaktiven Beziehungen. Folgerichtig bilden konkrete Aktivitäten den Erhebungsgegenstand, genauer gesagt, deren Kognitionen bei sich selbst und dem Partner sowie die Vermutung, wie der Partner das Verhalten einschätzt. Die Einbettung der Verhaltensweisen in spezifische Kontexte trägt zudem den Erkenntnissen zur Bereichsspezifität Rechnung. Die bislang vorliegenden Befunde sprechen für die Validität des Verfahrens, das eine hervorragende Ausgangsbasis für die bei unzufriedenen Paaren einzuleitenden Interventionen bietet. Fazit sich dem Partner gegenüber positiver zu verhalten als dieser sich ihnen gegenüber verhält. »Mit diesen Ergebnissen wird eine der zentralen Konstruktionsüberlegungen des TPI untermauert: In beeinträchtigten Partnerschaften divergieren Wahrnehmungen und Deutungen des gleichen Verhaltens stärker als in unbeeinträchtigten« (S. B6). Weitere Untersuchungen (s. Heil, 1998) galten Paaren, die aus verschiedenen Gründen als »belastet« gelten können (z. B. durch Alkohol- oder Angstprobleme). Auch dabei ergaben sich charakteristische Muster, was für die Validität des Verfahrens spricht. Das gilt im Weiteren auch für die erwartungskonformen, numerisch eher niedrigen Korrelationen mit anderen Partnerschaftsinventaren. Nach Normen sucht man allerdings vergebens im Manual. Da die paarinternen Wahrnehmungs- und Deutungsgewohnheiten zentraler Erhebungsgegenstand sind, würde eine Normierung im eigentlichen Sinn den Konstruktionsüberlegungen des TPI zuwiderlaufen. Wichtigster Bezugspunkt für jeden TPIWert sind zunächst der das gleiche Verhalten betreffende Partnerwert und darüber hinaus die Gesamtkonfiguration aller TPI-Werte eines Paares (S. 13). Von daher erscheinen Normen in der Tat für die Diagnostik mit einzelnen Paaren weitgehend als verzichtbar. Im Mittelpunkt der Verwendung des TPI im Rahmen von Partnerschaftsberatung und -therapie steht die Besprechung der paarspezifischen TPIErgebnisse, die mit Hilfe eines komfortablen Computerprogramms ermittelt werden können. Die Besprechung der Positivität einzelner Wahrnehmungen und eventueller Diskrepanzen sollte dabei ergänzt werden durch den Austausch über konkrete Interaktionsepisoden und mögliche Verhaltensalternativen; dazu regen insbesondere die alltagssprachlich formulierten Items des TPI an. Vom Berater/Therapeuten erfordert dies die Fähigkeit, einen bevormundungsfreien Austausch der Partner über ihre wechselseitigen Wahrnehmungen initiieren und anleiten zu können. 3.7 · Gruppendiagnostik (Interaktionsdiagnostik) Komplexes Beziehungsgeflecht Anwendungsbereich: Partnerschaftsberatung und -therapie Validität bestätigt 355 3 3 Adaptation der Originalskalen 6 (umzupolende Items sind mit einem Minuszeichen markiert) Beziehungsskalen Skala A: Zusammenhalt: Ausmaß, in dem die Familienmitglieder zusammenhalten, sich gegenseitig unterstützen und füreinander da sind (»Familiensolidarität«) 4 »In unserer Familie haben wir das Gefühl, dass wir zusammengehören und füreinander da sind.« 4 »Wenn zu Hause etwas gemacht werden soll, versucht sich fast jeder zu drücken.« (–) 4 »In unserer Familie hat jeder das Gefühl, dass man ihm zuhört und auf ihn eingeht.« Dimensionen der Familienklimaskalen, mit Itembeispielen für die ersten drei Skalen (aus Schneewind, 1987a, 238-241) Beispiel Schneewind, K. A. (1987a) in Cierpka, M. (1987). Familiendiagnostik. Berlin: Springer Mitte der 70er Jahre hat Moos (1974a, b) damit begonnen, die verschiedenen Aspekte menschlicher Umwelten, darunter auch die Familie, mit Hilfe von Fragebogen zu erfassen. Eine der im Zuge dieser Bemühungen entstandene Skala, die »Family Environment Scale (FES)«, ist von Schneewind (1987a) für den deutschen Sprachraum adaptiert und in wesentlicher Weise weiterentwickelt worden. Generell gelten die Iteminhalte bestimmten Attributen der konkreten Familie einer Person, ohne dass einzelne Familienmitglieder besonders herausgehoben werden (was aber prinzipiell möglich wäre). Damit soll gewährleistet werden, dass mit den Antworten der Befragungspersonen der Erhebungsgegenstand als Ganzes getroffen wird: Das Interaktionsgeschehen in der gesamten Familie. Für dessen qualitative Aspekte stehen verschiedene Dimensionen, für die quantitativen die interindividuell unterschiedlichen Antworten zu den einzelnen Items jeder Dimension. Die Art des Familienverbundes erfährt keine nähere Spezifikation; für die Bearbeitung des Fragebogens ist es unerheblich, ob ein Proband dabei an seine Interaktionen mit einem alleinerziehenden Elternteil denkt oder er in einer Großfamilie lebt, d. h. das Instrument macht eine dementsprechende Differenzierung nicht notwendig. Die erhaltenen Punktwerte können individuell oder auch als Aggregate (z. B. in Form der Mittelwerte der Eltern oder der Kinder) betrachtet werden. In Anlehnung an die Originalskalen erfolgten die Adaptationsarbeiten nach Prinzipien, in denen sich rationale mit empirischen Schritten abwechselten. Letztlich resultierten 10 Skalen mit jeweils 6 bis 15 Items. Infolge der etwas unterschiedlichen Itemkennwerte für die Väter, Mütter und Kinder der 570 »Familieneinheiten«, die den Kern der Analysestichproben bildeten, mussten für diese drei Gruppen gesonderte Skalen (mit gleichem Bedeutungsgehalt) zusammengestellt werden. Die Bezeichnungen der Skalen sind mit Itembeispielen unten zusammengestellt. Familienklimaskalen FKS folgend werden aus diesem Bereich exemplarisch nur drei Instrumente vorgestellt; weitere methodische Zugänge und laufende Entwicklungen finden sich anderswo (s. a. Fiedler, 2001). Kapitel 3 · Diagnostische Verfahren Familiäres Interaktionsgeschehen 356 Die internen Konsistenzen der Skalen liegen um .70, mit einer Tendenz zu niedrigeren Werten für die Kinderskalen. Bei Schülern lagen die Reteststabilitäten in einem 3-JahresZeitraum zwischen .40 und .60. Für die Originalskalen konnte auch eine beträchtliche Stabilität des Profilverlaufes gezeigt werden. Eine Faktorisierung der Skalen führte zu drei Sekundärfaktoren, die Schneewind (1987a) mit »Positiv-emotionales Klima« (bestimmt durch die ersten drei Skalen sowie Organisation), »Anregendes Klima« (markiert durch F und G) sowie »Normativ-autoritäres Klima« (E, H, I und J) benannt hat. Die Handhabbarkeit und einzelfalldiagnostische Tauglichkeit der FKS demonstriert Schneewind (1987a) an einigen Beispielen. Zur Validität allerdings fehlen empirische Belege. Ausgehend von Erfahrungen mit anderen Instrumenten kann allerdings ange- Systemerhaltungsdimensionen Skala I: Organisation: Ordnung, Planung und die eindeutige Regelung von Verantwortlichkeiten Skala J: Kontrolle: Verbindlichkeit von familieninternen Regeln; rigide und dogmatische Handhabung vs. Großzügigkeit und Toleranz Persönlichkeitsreifungsskalen Skala D: Selbständigkeit: Ausmaß, in dem sich die einzelnen Familienmitglieder bei der Realisierung ihrer eigenen Wünsche frei fühlen dürfen und sich weder durch die Verpflichtung zur Rücksichtnahme noch durch die antizipierten Verstimmungen der anderen Familienmitglieder eingeengt finden Skala E: Leistungsorientierung: Wettbewerbsdenken und Leistungsorientierung Skala F: Kulturelle Orientierung: Aufgeschlossenheit für kulturelle und intellektuelle Inhalte Skala G: Aktive Freizeitgestaltung: Aktive und vielseitige Nutzung der Freizeit durch interessengeleitete Tätigkeiten und Sozialkontakte Skala H: Religiöse Orientierung: Praktizierung der von der Kirche nahegelegten öffentlichen Verhaltensnormen; verinnerlichte Form christlicher Gläubigkeit Skala C: Konfliktneigung: Häufigkeit von Streit, Reibereien und Nörgeleien; ärgerliche Expression bis hin zur Destruktion von Sachen und körperlicher Aggression; Bemühen um eine sachliche Schlichtung von Meinungsverschiedenheiten 4 »In unserer Familie gibt es viel Streit.« 4 »Wenn wir uns streiten, kommt es schon mal vor, dass einem von uns die Hand ausrutscht.« 4 »Streitigkeiten werden bei uns nicht mit Schimpfen und Schreien ausgetragen.« Skala B: Offenheit: Ausmaß an Offenheit im Ausdruck von Gefühlen, Spontaneität und Ausgelassenheit, Kommunikationsbereitschaft und unsanktionierte Äußerung von Kritik 4 »In unserer Familie ist es eher so, dass man seine Gefühle nicht zeigt.« (-) 4 »Wenn wir mal gerade Lust zu einer Sache haben, überlegen wir nie lange, sondern fangen gleich damit an.« 4 »Wir sprechen miteinander über unsere persönlichen Probleme.« 4 »Wenn bei uns mal einer Dampf ablässt, regt sich bestimmt jemand darüber auf.« (–) 3.7 · Gruppendiagnostik (Interaktionsdiagnostik) 3 Keine Validitätsbelege 3 Sekundärfaktoren Befriedigende interne Konsistenzen und Reteststabilitäten 357 3 Modularer Aufbau Selbsteinschätzungsbogen Zweierbeziehungsbogen Allgemeiner Familienbogen Systemischer Anspruch Zahlreiche Anwendungs- und Forschungsmöglichkeiten Mäßig bis sehr gute Reliabilität, fehlende Validitätsbelege Verschiedene Gruppennormen Elterlicher Erziehungsstil Cierpka, M. und Frevert, G. (1994) Die Familienbogen. Ein Inventar zur Einschätzung von Familienfunktionen. Göttingen: Hogrefe Die »Familienbogen«greifen insofern Elemente der FKS und des FDTS auf, als sie einerseits mit dem Allgemeinen Familienbogen (FB-A) die Familie als Ganzes zum Gegenstand der Erhebung machen und andererseits mit dem Zweierbeziehungsbogen (FB-Z) auf die Beziehungen zwischen bestimmten Dyaden innerhalb der Familie abheben (die im Einzelnen spezifiziert werden müssen); darüber hinaus aber wird im Selbsteinschätzungsbogen (FB-S) auch nach der Funktion des einzelnen Familienmitgliedes in der Familie gefragt. Das Verfahren ist modular aufgebaut, sodass je nach Fragestellung die einzelnen Teile gesondert verwendet werden können. Die Familienbogen FB Schneewind, K.A. (1987b) in Cierpka, M. (1987). Berlin: Springer Die oben besprochenen FKS wurden von Schneewind (1987b) in ein »Familiendiagnostisches Testsystem« integriert. Dabei handelt es sich um einen modular aufgebauten Satz von insgesamt 29 Einzeltests, mit deren Hilfe die dyadischen Beziehungen in der Kernfamilie erfasst werden sollen, also die Konstellationen Mutter-Sohn, MutterTochter, Vater-Sohn, Vater-Tochter und Mutter-Vater. Als ein wichtiger Beziehungsaspekt zwischen Eltern und Kindern wird im FDTS der elterliche Erziehungsstil erfragt, und zwar mit den Komponenten Erziehungseinstellungen, -ziele und -praktiken. In jedem dieser Aspekte erfolgt die Erhebung sowohl in Gestalt von Selbst- als auch Fremdperzeptionen. Für das Verhältnis, das die Eltern zueinander haben, liefern die Urteile des männlichen und weiblichen Ehepartners die Grundlage. Die abgegebenen Einschätzungen können individuell-personbezogen oder auch auf unterschiedlich aggregiertem Niveau (Dyaden, gesamter Familienverband) verarbeitet werden. Für die individuelle Ebene stehen Normen aus der 570 Familien umfassenden Analysestichprobe zur Verfügung (an der auch die FKS entwickelt wurden), und zwar in Form von Sten-Werten, getrennt für drei Altersgruppen der Kinder, Geschlecht der Kinder und drei Stufen von Schichtzugehörigkeit der Eltern. Die mitgeteilten Reliabilitäten reichen von mäßig bis sehr gut. Für Validitäten gilt dasselbe wie für die FKS. Von den zahlreichen von Schneewind (1987b) selbst dargelegten Anwendungs- und Forschungsmöglichkeiten mit den Skalen des FDTS wurden bislang nur wenige realisiert. Ein Grund dafür liegt vielleicht in dem Umstand, dass die Skalen nur als »graue Literatur« vorliegen und deshalb nicht so leicht allgemein verfügbar sind wie andere Publikationen. Auch räumt der Autor ein, dass seine Batterie hinter dem systemischen Anspruch (mehrere Ebenen, also Individual-, Subsystem- und Systemebene; Multivariablenperspektive, also die Berücksichtigung mehrerer qualitativ unterscheidbarer und quantitativ variierender Merkmale; Multimethodenansatz) insofern zurückbleibt, als das FDTS nur aus Fragebogen besteht, die je nach Fragestellung durch beobachtungsorientierte, projektive oder bildhaft-metaphorische Verfahren ergänzt werden müssten. Das Familiendiagnostische Testsystem FDTS nommen werden, dass sich Familien mit Störungen wie Alkoholismus, Kriminalität und psychischen Abnormitäten einzelner Mitglieder von unauffällig-»normalen« unterscheiden; gleichwohl wäre es vorteilhaft, dieses auch aufzuzeigen, des Weiteren, wie es der Autor selbst anregt, auf der Basis von Reihenuntersuchungen zur Kontinuität und Veränderung des Familienklimas im Familienlebenszyklus empirisch fundierte Präventions- und Interventionsmaßnahmen zu entwickeln, die einem »gesunden« Wachstum der Familie und ihrer Mitglieder zuträglich sind. Kapitel 3 · Diagnostische Verfahren 29 Einzeltests 358 3 Adaptation des englischsprachigen Originals Teamdiagnostik Theoretischer Hintergrund und Aufbau. Ausgehend von dem englischen Original des Team Climate Inventory von Anderson und West (1994) hat Brodbeck zusammen mit diesen Autoren deutschsprachige Adaptationsarbeiten vorgenommen. Der Fragebogen Brodbeck, F., Anderson, N. & West, M. (2000). Göttingen: Hogrefe Teamklima-Inventar TKI 3.7.3 Die Familienbogen erfassen drei wichtige Perspektiven (individuell, dyadisch, gesamtfamiliär) von Wahrnehmung und Einstellung; damit liefern sie in standardisierter Form wertvolle Informationen für beratende und therapeutische Funktionen. Die nahegelegten Profilvergleiche stoßen auf Schwierigkeiten angesichts der vereinzelt niedrigen Reliabilität der Skalen und deren durchweg mittelhohen Interkorrelationen. Ungeachtet dessen gefallen der Bezug auf ein theoretisches Modell und das Vorliegen von Normen für verschiedene Lebensabschnitte, in denen sich oft genug die familiären Probleme ganz andersartig darstellen. Fazit Augenfällig ist die Zunahme der Werte in Familien mit älteren Kindern besonders in den Skalen Rollenverteilung und Kommunikation, auf Seiten der Väter zusätzlich noch in Aufgabenerfüllung und Kontrolle. Kapitel 3 · Diagnostische Verfahren . Abb. 3.34. Rohwertprofile im Allgemeinen Fragebogen (FB-A) für Mütter und Väter mit jüngeren Kindern (Phase 3) und einem mindestens 12jährigen Kind (Phase 4). (Nach Cierpka & Frevert, 1994, S. 35) 362 6 4 Skala Vision – Subskala Klarheit – »Wie genau sind Sie sich im Klaren über die Ziele Ihres Teams?« – »Was denken Sie, inwieweit sind die Ziele Ihres Teams den anderen Teammitgliedern klar und deutlich gegenwärtig?« – Subskala Wertschätzung – »Was denken Sie, inwieweit sind diese Ziele nützlich und angemessen?« – Subskala Einigkeit – »Inwieweit stimmen Sie mit diesen Zielen überein?« – »Was denken Sie, inwieweit fühlen sich die Mitglieder Ihres Teams diesen Zielen verpflichtet?« – Subskala Erreichbarkeit – »Was denken Sie, inwieweit sind diese Ziele realistisch und erreichbar?« Einige Itembeispiele für die Skalen und Subskalen des TKI (aus Brodbeck Anderson & West, 2000, S. 22/23) Beispiel enthält 44 Items und zielt auf die Arbeitsatmosphäre oder das Klima in Arbeitsgruppen. Darunter verstehen Brodbeck et al. (2000, S. 8; alle weiteren Zitate, die nur mit Seitenangaben kenntlich gemacht sind, ebenso daraus) die »subjektive Wahrnehmung von Individuen über ihre soziale Umgebung in Organisationen oder Arbeitsgruppen, die mehr oder weniger sozial geteilt sind«. Den theoretischen Rahmen stellt eine 4-Faktoren-Theorie dar, der zufolge sich bei der Teameffektivität und Innovation die beiden Aspekte Qualität und Quantität von Innovationen unterscheiden lassen. »Qualität bezieht sich auf die Neuartigkeit von Ideen, deren Bedeutsamkeit, gemessen an den jeweils relevanten Kriterien, und deren Nutzen. Quantität bezieht sich auf die Anzahl neuer Ideen, die vorgeschlagen und umgesetzt werden« (S. 10). Für die Qualität sind die beiden Faktoren »Vision« und »Aufgabenorientierung«, für die Quantität »partizipative Sicherheit« und »Unterstützung für Innovationen« maßgeblich. Diese vier Faktoren sollen mit insgesamt 13 Skalen gemessen werden, zu denen noch zwei kurze Skalen zur sozialen Erwünschtheit kommen. Die Zugehörigkeit der einzelnen Skalen zu den Faktoren ist aus . Abb. 3.35 ersichtlich, zur Bedeutung der Faktoren . Itembeispiele. 3.7 · Gruppendiagnostik (Interaktionsdiagnostik) 3 . Abb. 3.35. Dimension und Subskalen des Teamklima-Inventars. (Nach Brodbeck et al., 2000, S. 9) 13 inhaltliche Skalen und 2 SE-Skalen 4-Faktoren-Theorie 44 Items zur Erfassung der Arbeitsatmosphäre 363 3 Überprüfung der Validität auf Teamebene Wie aus den Itemtexten ersichtlich, zielen manche Formulierungen auf individuelle Einstellungen, unter selbst- oder auf das Team bezogener Perspektive, andere verlangen eine Einschätzung der atmosphärischen Gegebenheiten im Team, und einige Fragen erfordern ein gedankliches Hineinversetzen in andere Mitglieder des Teams. Das Klima eines Teams ergibt sich aus der Mitteilung der (gewöhnlich anonym abgelieferten) individuellen Punktwerte. Konstruktionsprinzipien und psychometrische Kennwerte. 810 Personen aus 149 Teams stellten die Analyse- (und auch Normierungs-) Stichprobe dar. Obwohl die Autoren betonen, dass das TKI »zur Messung von Merkmalen auf Teamebene konstruiert« worden sei (S. 39), wurden die internen Konsistenzen doch anhand der individuellen Daten ermittelt (die Cronbach-α-Werte liegen für die vier Skalen zwischen .84 und .89, für die Subskalen zwischen .61 und .82). Desgleichen beruhen die recht hohen Interkorrelationen zwischen den Skalen (um .60) auf individuellen Werten, im Weiteren auch die konfirmatorischen Faktorenanalysen, die die 4-Faktoren-Struktur bestätigen. Die Überprüfung der Validität allerdings erfolgte auf der Aggregatebene des Teams insofern, als hier auf das Team bezogene Fremdeinschätzungen von Projektmanagern und Teammoderatoren als Kriterien herangezogen wurden und die ermittelten Korrelationskoeffizienten auf den Messwerten für die Teams beruhten. Mit 4 Skala Aufgabenorientierung – Subskala Hohe Standards – »Ist es den Teammitgliedern ein echtes Anliegen, dass das Team den höchstmöglichen Leistungsstandard erreicht?« – Subskala Reflexion – »Sind die Teammitglieder bereit, die Grundlagen der eigenen Arbeit in Frage zu stellen?« – Subskala Synergie – »Bauen die Teammitglieder gegenseitig auf ihren Ideen auf, um das bestmögliche Ergebnis zu erhalten?« 4 Skala Partizipative Sicherheit – Subskala Informationsverteilung – »Wir halten uns über arbeitsrelevante Themen gegenseitig auf dem laufenden.« – Subskala Sicherheit – »Die Teammitglieder fühlen sich gegenseitig akzeptiert und verstanden.« – Subskala Einfluss – »Jede Ansicht wird angehört, auch wenn es die Meinung einer Minderheit ist.« – Subskala Kontaktpflege – »Wir stehen in häufigem, gegenseitigem Austausch.« 4 Skala Unterstützung für Innovation – Subskala Bereitschaft (artikulierte Normen) – »Das Team ist Veränderungen gegenüber aufgeschlossen und empfänglich.« – Subskala Umsetzung (im Handeln erkennbare Normen) – »In unserem Team nehmen wir uns die Zeit, die wir brauchen, um neue Ideen zu entwickeln.« Kapitel 3 · Diagnostische Verfahren Gute interne Konsistenzen und hohe Skaleninterkorrelationen 364 2. Welche Formen der Interaktionsdiagnostik lassen sich voneinander unterscheiden? den Verfahren zur Interaktionsdiagnostik? ? 1. Was ist das Besondere an (zu Abschn. 3.7) Übungsfragen 365 3 Form einer Dyade (Paar) oder größerer Gruppen (Familien oder Arbeitsteams). Die erhaltenen Messwerte können sich auf die (individuellen) Mitglieder der jeweiligen Gruppe beziehen und diese in verschiedener Weise zueinander in Beziehung setzen. Sie können aber auch das Aggregat als Ganzes beschreiben. Ad 2. Die Verfahren können abheben auf kognizierte interpersonelle Merkmale einer oder mehrerer Personen, auf interaktionelle Merkmale mehrerer Personen oder auf interpersonelle Eigenschaften von Personen. Gewöhnlich handelt es sich um Mischformen aus diesen drei Bereichen. ! Ad 1. Gegenstand der Diagnostik ist eine soziale Konstellation in Das TKI ist ein theoretisch verankertes und sehr ökonomisches Instrument, mit dem das in der Gruppe herrschende Arbeitsklima durch Mittelung der individuellen Teammitglieder-Scores erfasst wird. Auf individueller Ebene sind die Skalen intern konsistent; auf Aggregatebene (Team als Messwert) ließ sich die Validität gegenüber fremdeingeschätzten Maßen für Innovation demonstrieren. Insgesamt handelt es sich um ein für die Personalentwicklung (7 Kap. 8: Diagnostik im ABO-Bereich) sehr nützliches Instrument. Fazit fremdeingeschätzter Innovation korrelierte die TKI-Dimension »Vision« zu rtc = .64, »Unterstützung für Innovation« zu rtc = .62; die Korrelationen für »Aufgabenorientierung« und »Partizipative Sicherheit« lauteten .32 bzw. .48 (alle Werte bis auf den vorletzten hoch signifikant; jeweils N = 29 Teams). Darüber hinaus ließ sich zeigen, dass die konsensuale Validität der TKI, also die Übereinstimmung zwischen den Mitgliedern eines Teams, mit Werten über .90 sehr hoch ist und das Verfahren zwischen verschiedenen Teams (Industrie, Pflege, Entwicklung und Planspiel) signifikant diskriminiert (wobei aber der letztgenannte Vergleich erneut auf Individualdaten beruht, was nicht ganz der Logik des Verfahrens entspricht). 3.7 · Gruppendiagnostik (Interaktionsdiagnostik) (S.373-377) Messung von Veränderungen und Unterschieden (S.371-372) Unimodale vs. multimodale Datenerfassung Erhebungsstrategien Unimodale vs. multimodale Datenerfassung Bei ausschließlicher Verwendung nur je eines der bisher besprochenen diagnostischen Verfahren würde man von unimodaler oder unimethodaler Datenerfassung sprechen. Der Gebrauch dieser Begriffe ist nach Fahrenberg (1987) zur Zeit noch uneinheitlich. Situationen, in denen derart singuläre Diagnostik zur Anwendung gelangt, sind nicht sehr zahlreich. Sie findet sich allenfalls bei der institutionellen Diagnostik grosser Bewerbergruppen, bei der die Zahl der mit weiteren Verfahren zu diagnostizierenden Personen durch Einsatz eines Filtertests reduziert werden soll. Aber bereits bei den Eignungsuntersuchungen für medizinische Studiengänge wurden die Testergebnisse mit der Durchschnittsnote im Abitur, also einer weiteren Datenquelle kombiniert. Bei der individuellen Diagnostik der klinischen und Beratungspraxis wird kaum ein Diagnostiker sein Urteil auf ein einziges Verfahren stützen wollen und deshalb mehrere diagnostische Verfahren einsetzen. Selbst dort, wo auf den ersten Blick nur eine diagnostische Methode, wie z. B. das Gespräch, angewandt wird, erfolgt in der Regel eine Kombination der Selbstbeurteilung des Klienten mit der Fremdbeurteilung durch den Diagnostiker. Somit ist unimethodale Datenerhebung in der Praxis die Ausnahme, multimethodale Diagnostik dagegen die Regel (. Abb. 4.2). Dieses Thema wurde in den letzten Jahren deshalb intensiv diskutiert, weil sich das Interesse der Persönlichkeitsforschung zunehmend auf die teilweise nur mäßige Übereinstimmung zwischen den Ergebnissen verschiedener Methoden und die dafür maßgeblichen Ursachen gerichtet hat. Bereits Cattell (1966) rekurriert bei der Gewinnung seiner Persönlichkeitsdimensionen auf Selbstbeurteilungen in Fragebogen, Fremdbeurteilungen, objektive Tests und physiologische Daten. Die dabei zutage getretene unbefriedigende Konkordanz der aus verschiedenen Quellen stammenden Befunde beschäftigt die Differentielle Psychologie bis heute. Einige Erfolge waren ihr bei der Suche nach Verbesserungsmöglichkeiten beschieden. So ist die Übereinstimmung zwischen Selbstbeurteilungen in Fragebogen und Fremdbeurteilungen grösser, wenn Messwerte über mehrere Messzeitpunkte hinweg aggregiert werden (Epstein, 1979). Eine weitere Erhöhung der Übereinstimmung gelang Wittmann (1987) durch die zusätzliche Aggregierung von Daten aus verschiedenen Kriteriumsbereichen. Borkenau und Amelang 4.3 wie eine Vigilanzuntersuchung unter entspannten Bedingungen für die Tätigkeit eines Fluglotsen. Der Gegensatz zwischen den beiden Gestaltungsprinzipien für die diagnostische Situation geht auf die in 7 Kap. 1 angesprochenen unterschiedlichen diagnostischen Zielsetzungen zurück. Die Selektion von Personen für bestimmte Tätigkeiten verlangt in der Tat die Berücksichtigung der Anforderungen in der Bewährungssituation, die deshalb vor Beginn der eigentlichen diagnostischen Untersuchung sorgfältig zu ermitteln sind. Testaufgaben wie externe Bedingungen sollten den im Kriterium herrschenden Anforderungen entsprechen, um aus dem Testverhalten valide Vorhersagen auf das Kriteriumsverhalten machen zu können. Die Selektion von Bedingungen, unter denen eine bestimmte Person ihr bestmögliches Ergebnis erzielen kann, erfordert dagegen die Schaffung einer optimalen Untersuchungssituation. Bei einer Berufsberatung, bei der die individuellen Fähigkeiten des Bewerbers zu ermitteln und zu berücksichtigen sind, ist dagegen eine Kombination beider Strategien geboten, um zu prüfen, welches die optimalen Bedingungen sind, unter denen ein Bewerber erfolgreich sein könnte, falls er den Anforderungen eines bestimmten Bewährungskriteriums nicht genügt. 4.3 · Unimodale vs. multimodale Datenerfassung 4 Aggregation über Messzeitpunke Möglichkeiten der Verbesserung: Mäßige Konkordanz von Daten aus verschiedenen Quellen Individuelle Diagnostik: Meist multimodal Institutionelle Diagnostik: Meist unimodal Diagnostische Zielsetzung leitet Gestaltung 371 4 Umgang mit den divergierenden Befunden Befunde durch mindestens 2 Methoden absichern Regressionsanalytische Kombination Aggregation über Kriteriumsbereiche (1985) ermittelten eine Zunahme der Konkordanz zwischen Selbst- und Fremdbeurteilung bei Items, die von den Versuchspersonen als zu ihrer Beurteilung angemessen eingeschätzt wurden. In der Klinischen Psychologie, wo multimodale Diagnostik nach Seidenstücker und Baumann (1987) zum Standard gehört, beklagen die Autoren dagegen, dass diese Problematik noch zu wenig gesehen und empirisch geprüft wird. Bei der systematischen Personalauslese, bei der viele Daten anfallen, wird das Problem der variierenden Übereinstimmung von Ergebnissen verschiedener diagnostischer Methoden mit der Fremdbeurteilung des Kriteriumsverhaltens schon länger thematisiert, wie die von Schuler und Schmitt (1987) zitierten Metaanalysen zeigen. Die differentielle Validität der verschiedenen Methoden bei unterschiedlichen Kriterien legt für die beiden Verfasser eine regressionsanalytische Kombination von Methoden mit je nach Kriterium jeweils anderer Gewichtung als Lösungsmöglichkeit nahe. Diese Lösung ist dem in der individuellen Diagnostik tätigen Psychologen verwehrt, hat er es doch meist mit sehr spezifischen Problemstellungen zu tun, für die es keine Regressionsanalysen gibt. Er muss die Ergebnisse verschiedener Methoden ohne statistische Hilfe integrieren. Als Leitsatz hierbei hat nach allgemeiner Auffassung zu gelten, dass ein Befund erst dann als gesichert anzusehen ist, wenn er durch mindestens 2 verschiedene Methoden möglichst unterschiedlicher Art bestätigt wird. Besondere Schwierigkeiten machen auch hier die divergierenden Befunde. Im Gegensatz zu Großserienuntersuchungen hat der Diagnostiker aber bei Individualuntersuchungen die Möglichkeit, den Ursachen von Diskrepanzen durch Gespräche mit dem Klienten, Analyse der verwendeten Methoden und beobachteten Prozesse oder Hinzuziehung weiterer Informationen nachzugehen. Wie Psychologen ihre Daten zu einem Befund integrieren und wie sie schließlich zu einem diagnostischen Urteil gelangen, wird in 7 Kap. 5 angesprochen. Kapitel 4 · Erhebungsstrategien . Abb. 4.2. Bei Assessment Centern zur beruflichen Eignungsdiagnostik werden die Ergebnisse der verschiedenen (multimodalen) »Übungen« für jeden Teilnehmer in einer »Beobachterkonferenz« zusammengetragen und diskutiert 372 Einstufige vs. mehrstufige Datenerhebung Messung von Veränderungen und Unterschieden Ein Spezialfall von mehrstufiger Datenerhebung liegt dann vor, wenn ein- und dieselbe Messung zu wiederholten Zeitpunkten vorgenommen wird, um etwa das Ausmaß der zwischen den Messungen eingetretenen Veränderungen und deren Stabilität abschätzen zu können (= indirekte im Unterschied der auf Einmalerhebungen beruhenden direkten Veränderungsmessung). Derartige Veränderungen mögen als Folge einer gezielten Intervention (Training, Unterweisung, Therapie) intendiert oder auch bloß der Ausdruck »zufälliger« Merkmalsoszillationen sein; denkbar sind auch Veränderungen infolge von Regressionseffekten oder solche, die durch eine Testung selbst hervorgerufen werden. Nachfolgend soll nur auf einige allgemeine Prinzipien eingegangen werden; die Spezialliteratur ist umfangreich (s. dazu insbesondere den »Klassiker« Harris, 1963, im Weiteren Petermann, 1978, und das Themenheft der diagnostica von 1986). Die besonderen Fragestellungen hauptsächlich innerhalb der Klinischen Diagnostik und Intervention finden im letzten Abschnitt dieses Buches detaillierter Erwähnung (s. dazu auch Baumann, Fähndrich, Stieglitz & Woggon, 1990). Allgemein stellt sich bei der wiederholten Vorgabe ein- und desselben Tests an einzelnen Personen vor der inhaltlichen Interpretation eventuell aufgetretener Differenzen (etwa im obigen Sinne) zunächst die methodische Frage nach deren statistischer Bedeutsamkeit. Darauf wurde in 7 Abschn. 2.1.1.5. bereits eingegangen. Darüber hinaus 4.5 Ob eine diagnostische Untersuchung in einer einzigen Sitzung durchgeführt werden soll oder besser auf mehrere, zeitlich voneinander getrennte Termine aufzuteilen ist, wird häufig unter dem Zwang äußerer Bedingungen entschieden. Ist z. B. dem Probanden aus technischen oder ökonomischen Gründen ein mehrfaches Erscheinen nicht zuzumuten, muss die Untersuchung in einer Sitzung abgeschlossen werden. Soll die Untersuchung Hinweise auf die Belastungsfähigkeit eines Probanden in der Bewährungssituation ergeben, wäre es unter dem Aspekt der Repräsentativität der Testsituation für das Kriterium sogar unverzichtbar, eine mehrstündige Untersuchung anzusetzen. Andererseits sprechen plausible Gründe durchaus für eine mehrstufige Datenerhebung. So sind, wie schon weiter oben ausgeführt, zur angemessenen Gestaltung der Testsituation genaue Kenntnisse von Fragestellung und Bewährungssituation erforderlich, die erst in einem einleitenden Gespräch in Erfahrung gebracht und u. U. nicht sofort methodisch umgesetzt werden können. Das weitere diagnostische Vorgehen kann häufig erst dann optimal erfolgen, wenn die Ergebnisse von Verfahren zur Groborientierung vorliegen. Eine aufgrund vorliegender Teilbefunde getroffene Methodenauswahl vermeidet überflüssigen Verfahrensaufwand und trägt somit zur Verringerung von Kosten bei. Bei sehr speziellen Fragestellungen bietet eine Bedenkzeit zwischen zwei Sitzungen die Möglichkeit, zusätzliche Informationen einzuholen. Ferner verstärken wiederholte Kontakte die Vertrauensbasis zwischen Diagnostiker und Proband und verbessern so die motivationalen Bedingungen für eine Untersuchung unter optimierten Umständen. Des Weiteren gibt eine Datenerhebung zu unterschiedlichen Zeitpunkten dem Diagnostiker Gelegenheit, Informationen über Konstanz und situationale Variabilität von Verhaltensweisen seines Klienten zu sammeln. Schließlich haben Cronbach und Gleser (1965) die Vorzüge einer sequentiellen Strategie unter entscheidungstheoretischem Aspekt herausgestellt (7 Kap. 6). 4.4 4.5 · Messung von Veränderungen und Unterschieden 4 Statistische Bedeutsamkeit der Differenzen Indirekte Veränderungsmessung Argumente für eine mehrstufige Erhebung Argumente für eine einstufige Erhebung 373 4 »ReliabilitätsValiditäts-Dilemma« r11 − r12 1 − r12 (4.1) Die Reliabilität der Differenzwerte würde sich bei diesen Gegebenheiten also nur auf .60 belaufen; individuelle Unterschiede wären bei einer derart niedrigen Reliabilität kaum als Grundlage für eine inhaltliche Interpretation geeignet. r(1−2 )(1−2 ) = .90 − .75 1− .75 .15 = .25 = .60 Ein Fragebogen zur habituellen Ängstlichkeit habe eine Reliabilität (interne Konsistenz) von rtt = .90. Die Wiederholungsstabilität (= Korrelation zwischen zwei Testungen) bei einem Intervall von 6 Monaten betrage rtt = .75. Wie hoch ist die Reliabilität der Differenzwerte? In Formel (4.1) eingesetzt erhalten wir: Beispiel Hierbei wird unterstellt, dass die Streuung und Reliabilität der erhobenen Rohwerte zu den beiden Vergleichszeitpunkten identisch sind. Aus der Formel geht hervor, dass die Reliabilität von Testwertdifferenzen immer dann unter derjenigen der originalen Testwerte liegt, wenn die Korrelation zwischen den Zeitpunkten positiv und grösser als Null ist; mit zunehmender Korrelation zwischen den beiden Testadministrationen wird die Reliabilität der Differenzen immer niedriger ausfallen, weil die Testungen 1 und 2 dann immer mehr an wahrer Varianz gemeinsam haben und deshalb die Differenz primär Fehleranteile widerspiegelt. Im Extremfall einer sehr hohen Korrelation zwischen den beiden Testungen (wie sie etwa bei Paralleltests angestrebt wird) bestehen die auftretenden Differenzen praktisch nur aus Zufalls- oder Fehlergrößen. Umgekehrt bedeutet eine nur niedrige Korrelation zwischen den beiden Testzeitpunkten, dass die Messungen zu den verschiedenen Zeitpunkten nicht das Gleiche bedeuten können; hier wäre zwar eine hohe Reliabilität der Differenzen gewährleistet, aber für Testscores von fragwürdiger Validität (weil deren Reliabilität nicht gegeben ist; »Reliabilitäts-Validitäts-Dilemma«). Damit ist eines der vorrangigen Ziele der Klassischen Testtheorie (KTT), nämlich höchstmögliche Reliabilität zu jedem von möglichen (Einzel-)Zeitpunkten zu erzielen, unvereinbar mit einer hohen Zuverlässigkeit der bestimmbaren Differenzwerte. Oder mit anderen Worten: Die KTT führt zu dem Paradoxon, dass die Reliabilität von Differenzwerten immer geringer wird, je höher die Reliabilität der Ausgangswerte ist; wegen der oft genug nur niedrigen Reliabilität der Differenzen sind diese für individuelle Interpretationen meistens unbrauchbar. Ein Beispiel möge diese Prinzipien veranschaulichen (7 Beispiel). r(1–2)(1–2) = Reliabilität der Differenz zwischen 2 Testwerten r11 = Reliabilität der Rohwerte, ausgedrückt als Anteil der wahren Varianz an der Gesamtvarianz r12 = Korrelation zwischen den beiden Testwerten r(1−2)(1−2) = interessiert, welche Zuverlässigkeit die ermittelten Differenzwerte aufweisen. Die Reliabilität von Veränderungswerten bemisst sich nach folgendem Ausdruck (Notation nach Lienert & Raatz, 1994, S. 215): Kapitel 4 · Erhebungsstrategien Reliabilität von Veränderungswerten 374 = Reliabilität von Test 1 = Reliabilität von Test 2 = Streuung von Test 1 = Streuung von Test 2 s12 r11 + s22 r22 − 2r12s1s2 s12 + s22 − 2r12s1s2 s12 = Varianz von Test 1 s22 = Varianz von Test 2 (4.2) r11 + r22 − 2r12 2(1 − r12 ) (4.3) Dieser Ausdruck ist von vorrangiger Bedeutung bei der Interpretation von individuellen Profildifferenzen, also von Werten zwischen Skalen innerhalb von Testsystemen wie dem IST-2000, HAWIK-R und MMPI, FPI oder 16 PF-R, bei denen die Untertests alle dieselbe Streuung aufweisen. Auftretende Profildifferenzen sind also dann eher reliabel, r(1−2)(1−2) = Die Formel ist auch angemessen für solche Konstellationen, bei denen ein- und derselbe Test zweimal angewendet wird, wo aber zu den beiden Zeitpunkten die Streuung und die Reliabilität verschieden sind. Solche Gegebenheiten mögen vorliegen, wenn zwischen der Erst- und Zweitdurchführung ein Trainingsprogramm oder eine psychotherapeutische Intervention stattgefunden haben und sich dadurch die Unterschiede zwischen den Probanden ebenso veränderten wie die Reliabilitäten. Weisen die beiden Tests identische Streuungen auf, vereinfacht sich Formel (4.2) zu dem nachfolgenden Ausdruck: Die Differenzen weisen in dem Beispiel eine Reliabilität von .80 auf und können deshalb interpretiert werden. r(1−2 )(1−2 ) = 100 ⋅ .90 + 225 ⋅ .85 − 2 ⋅ .35 ⋅10 ⋅15 100 + 225 − 2 ⋅ .35 ⋅10 ⋅15 176.25 = 220 = .80 Eine Skala zur Erfassung rechnerischen Denkens sei auf die Streuung s = 10 normiert und weise eine Reliabilität von rtt =. 90 auf; für eine andere Skala zu Wortschatz lauten die entsprechenden Daten für Streuung und Reliabilität s = 15 und rtt = .85. Die Interkorrelation zwischen beiden Tests betrage .35. Wie hoch ist die Reliabilität der individuell bestimmbaren Differenzwerte? Eingesetzt in die obige Formel erhalten wir: Beispiel Wie ersichtlich, ist hier eine Generalisierung auf verschiedene (anstelle ein und desselben) Tests vorgenommen werden. Damit lassen sich Fragestellungen etwa der Art bearbeiten, wie reliabel die Differenzen zwischen verschiedenen Leistungs- oder Persönlichkeitsmerkmalen sind. Auch dazu sei ein Beispiel gegeben (7 Beispiel). r11 r22 s1 s2 r(1−2)(1−2) = Die Verallgemeinerung der obigen Formel für die Reliabilität von Veränderungsscores lautet (s. O’Connor, 1972, S. 91): 4.5 · Messung von Veränderungen und Unterschieden 4 Interpretation von individuellen Profildifferenzen Berechnung der Reliabilität von Differenzen zwischen verschiedenen Leistungs- und Persönlichkeitsmerkmalen Verallgemeinerung der Formel 375 4 Ausgangswertgesetz Regression zur Mitte »Effekt-« und »Reliabilitätsfunktion« Verschiedene Indices für die Änderungssensitivität von Verfahren rtt − rst 1 − rst (4.4) Um die Unzulänglichkeiten der KTT zur Lösung des Konstanz-Variabilitäts-Problems zu überwinden, hat es verschiedene Ansätze gegeben, spezifische Indices für die Änderungssensibilität von Verfahren zu formulieren und Skalen danach zu konzipieren. Einer der grundlegenden Gedanken geht dahin, in der Kombination von hoher interner Konsistenz einerseits mit geringer Reteststabilität andererseits Voraussetzungen für Änderungssensitivität zu sehen. Davon ausgehend hat Tack (1986) einen Lösungsvorschlag unterbreitet, der unter Verzicht auf zwei Kernannahmen der KTT (Konstanz der wahren Werte und Unkorreliertheit der Fehler) eine »Effektfunktion« (Korrelation zwischen den wahren Werten zu zwei verschiedenen Zeitpunkten) und eine »Reliabilitätsfunktion« (zeitabhängige Korrelation zwischen Messfehlern) vorsieht. Aber auch in seinem System von Annahmen und Konzepten könne »eine Differenzen-Reliabilität nie für ein Verfahren generell, sondern nur für ein Verfahren in Kombination mit einer bestimmten Intervention und damit zusammenhängenden situativen Änderungen und Restriktionen angegeben werden« (Tack, 1986, S. 63). Da es im Einzelfall schwer fällt, die für die erwähnten Funktionen notwendigen Parameter in hinlänglich präziser Weise zu quantifizieren, haben diese Gedanken bislang keinen Eingang in die Praxis psychologischer Diagnostik gefunden. Neben der fragwürdigen Reliabilität von Differenzwerten gibt es weitere Problembereiche, die eine Interpretation von Veränderungsscores zu einer diffizilen Aufgabe machen: Zum Einen ist das auf unzureichenden Reliabilitäten beruhende Phänomen der Regression zur Mitte zu nennen. Bei der wiederholten Messung psychologischer Merkmale weist – sofern keine Übungs- oder Gedächtniseffekte auftreten – die Verteilung aller Messwerte als Ganzes zwar dieselbe Gestalt auf, doch sind die anfänglich extrem hohen oder extrem niedrigen Messwerte bei der zweiten Messung etwas zur Mitte regrediert; ihren ursprünglicher Platz in der Verteilung haben andere Messwerte eingenommen. Ursächlich dafür ist, dass die Extremität unter anderem durch die ungewöhnliche Kombination vieler förderlicher bzw. hinderlicher Fehlerfaktoren bewirkt wird, die in dieser spezifischen Konstellation kaum wieder auftritt. Vermeintlich eindeutige und statistisch signifikante Verminderungen von anfänglich hohen Ängstlichkeitstestwerten nach einer mehrwöchigen Intervention, wie sie in der Studie von Wieczerkowski et al. (1969) beobachtet wurden, beruhen deshalb höchstwahrscheinlich nur auf diesem statistischen Artefakt und dürften deshalb – entgegen der Auffassung der Autoren – nicht auf die angstreduzierende Wirkung der Intervention zurückgeführt werden. Auswirkungen haben diese Prinzipien auch auf das Ausgangswertgesetz, demzufolge die Höhe eines Anfangswertes negativ mit dem Zuwachs korreliert. Dafür sind – je nach Sachverhalt – teils biologische Faktoren verantwortlich, teils auch Limitierungen wobei – rtt = arithmetisches Mittel aller Reliabilitätskoeffizienten aller k-Tests eines Profils und –r = arithmetisches Mittel der Interkorrelationen aller k-Tests. st prof rtt = wenn die Subtests für sich eine hohe Reliabilität aufweisen, die Skalen untereinander aber nur niedrig (im besten Falle: Zu Null) miteinander korrelieren. Geht es nicht nur um die Reliabilität der Differenz zwischen zwei Testwerten, sondern um diejenige zwischen den Werten einer Batterie oder eines Testprofils, also um die Profilreliabilität, gilt die Verallgemeinerung von (4.1): Kapitel 4 · Erhebungsstrategien Konstanz-VariabilitätsProblem 376 4. Welche Gründe lassen sich für eine einstufige, welche für eine mehrstufige Entscheidungsprozedur anführen? suchungen sprechen ihre Vertraulichkeit, die Möglichkeit zu Beobachtungen, die Vermeidung von Störungen durch andere. Befunde aus verschiedenen Datenquellen. Durch Gespräche mit dem Klienten, Analyse der verwendeten Methoden und der beobachteten Prozesse oder durch Hinzuziehung weiterer Informationen muss der Diagnostiker versuchen, diesen Dissens aufzuklären. Ad 4. Für einstufige Datenerhebung sprechen in erster Linie zeitökonomische Gründe. Für eine mehrstufige Erhebung sprechen mehrere Gründe. So sind zur angemessenen Gestaltung der Testsituation genaue Kenntnisse von Fragestellung und Bewährungssituation erforderlich, die oft erst in einem einleitenden Gespräch in Erfahrung gebracht und nicht sofort methodisch umgesetzt werden können. Das weitere diagnostische Vorgehen kann häufig erst dann optimal erfolgen, wenn die Ergebnisse von Verfahren zur ersten Groborientierung vorliegen. Bei sehr speziellen Fragestellungen bietet eine Bedenkzeit die Möglichkeit, zusätzliche Informationen einzuholen. Eine aufgrund vorliegen- Ad 3. Das Hauptproblem multimodaler Diagnostik sind diskrepante Ad 2. Optimalbedingungen zu schaffen ist sinnvoll, wenn für den Klienten eine Bedingungsoptimierung intendiert ist. Zu Selektionszwecken ist eine Orientierung an der Bewährungssituation geboten. ! Ad 1. Gruppenuntersuchungen sind ökonomischer. Für Einzelunter- 4 suchungen in Einzelsitzungen oder besser in Gruppen erfolgen? 2. Was spricht für die Schaffung von Optimalbedingungen in der Testsituation, was dagegen? 3. Welche Probleme ergeben sich bei multimodaler Diagnostik? »Physicalism-subjectivism-dilemma« 377 ? 1. Sollen diagnostische Unter- Übungsfragen von Seiten der vorgegebenen Skalen, im Weiteren aber auch unzureichende Reliabilitäten. Vergegenwärtigen lassen sich die dafür maßgeblichen Überlegungen sehr gut am Würfeln als einer »Messung«, die nur auf Zufall beruht. Bei einer 6 im ersten Wurf ist die Wahrscheinlichkeit für eine erneute 6 in einem zweiten Wurf nur 1/6; entsprechend liegt die Wahrscheinlichkeit für eine niedrigere Ziffer als 6 bei 5/6. Umgekehrt verhält es sich bei einer 1 im ersten Wurf. In diesen Fällen korrelieren die »Zuwächse« (= Veränderungen) negativ mit dem Ausgangswert. Mehrfach ist deshalb vorgeschlagen worden, die Werte der Anfangsmessung aus denen der Endmessung herauszupartialisieren; die erhaltenen Residualwerte seien dann »basefree measures of change« (Tucker, Damarin & Messick, 1966). Kritisch daran sind u. a. erneut die fragwürdigen Reliabilitäten von Residuen, vor allem bei kleinen Stichprobenumfängen, und das Problem, ob die Linearitätsannahme regressionsanalytischer Prinzipien immer gerechtfertigt ist. Ein grundsätzliches Problem zum Schluss: Es betrifft die Frage, ob numerisch identische Veränderungen auf den verschiedenen Abschnitten des Messwertekontinuums Gleiches bedeuten (»physicalism-subjectivism-dilemma«, Bereiter, 1963). Das Intervallskalenniveau, das im Regelfall bei den herkömmlichen Leistungs- und Persönlichkeitstests angenommen wird, ist bekanntlich durch eben diese Eigenschaft definiert, aber dennoch scheint einer trainingsbedingten Leistungssteigerung von, um nur ein Beispiel zu geben, 10 IQ-Punkten bei extrem niedriger oder extrem hoher Intelligenz eine andere Bedeutung zuzukommen als einer numerisch identischen Veränderung im Mittelbereich. Gleiche Veränderungswerte stehen deshalb nicht zweifelsfrei für gleiche psychologische Veränderungen. 4.5 · Messung von Veränderungen und Unterschieden (S.385-388) Das diagnostische Gutachten (S.381-383) Das diagnostische Urteil (S.380-381) Modellvorstellungen Der diagnostische Prozess 5 Auswertung der Ergebnisse Planung der Untersuchung Operationalisierbarkeit Generierung von Hypothesen Fragestellung leitet Diagnostik Anliegen wird zu psychologischem Auftrag Modellvorstellungen War früher die Gewinnung eines umfassenden Persönlichkeitsbildes die wichtigste Aufgabe psychologischer Diagnostik (Fahrenberg, 1987), so setzte sich Mitte der 60er Jahre die Erkenntnis durch, dass alle derartigen Versuche immer selektiv bleiben. Wenn aber Selektivität schon nicht zu vermeiden sei, so sollte sie zumindest im Sinne der praktischen Fragestellung des Auftraggebers erfolgen (Holzkamp, 1966), die der Diagnostiker folglich vor Beginn der eigentlichen Untersuchung kennen muss. Entweder der Klient selbst oder eine die Untersuchung anordnende Person oder Institution können dabei als Auftraggeber fungieren. Dieser trägt die Fragestellung der Untersuchung an den Diagnostiker heran, der das in der Regel nur laienhaft formulierte Anliegen allerdings erst in seine psychologische Fachsprache übersetzen und meist weiter ausdifferenzieren muss. Mit der Fragestellung steht die Bewährungssituation für das Urteil des Diagnostikers in engem Zusammenhang (Holzkamp, 1966). Die dort herangezogenen Bewährungskriterien bilden auf der einen Seite die Grundlage für die Gestaltung der Testsituation und markieren andererseits als Zielkriterien den Punkt, an dem eine Intervention als erfolgreich angesehen werden kann. Sie sind daher zusammen mit der Fragestellung detailliert zu eruieren. Dies geschieht in der Regel im einleitenden diagnostischen Gespräch. Nach dem Modell von Jäger (1982; . Abb. 5.1) muss der Diagnostiker aufgrund der dabei ermittelten Informationen entscheiden, ob sich die Fragestellung in psychologische Hypothesen übersetzen lässt, und im negativen Fall versuchen, die Fragestellung zu modifizieren. Im positiven Fall sollte der Diagnostiker nicht nur in der Lage sein, Hypothesen über das Zustandekommen eines Problemverhaltens zu formulieren, sondern auch Annahmen darüber, durch welche Interventionsmaßnahmen ein problematischer Ist-Zustand in einen erwünschten Soll-Zustand überführt werden kann. Nach Formulierung der Untersuchungshypothesen stellt sich die Frage nach deren Operationalisierbarkeit. Erscheint diese aus technischen oder in der Person des Diagnostikers liegenden Gründen nicht möglich, ist der Klient darüber aufzuklären und ggf. an eine kompetentere Adresse zu verweisen. Während die formulierten Hypothesen den Inhalt der diagnostischen Untersuchung, die strategische Planung, bestimmen (Kaminski, 1970), dreht sich die taktische Planung um die mehr technische Frage, mit Hilfe welcher Verfahren die inhaltlichen Ziele zu erreichen sind. Dabei bestimmen Fragen der Repräsentativität der Testsituation für die Bewährungssituation sowohl die Testauswahl als auch die im vorangegangenen Kapitel diskutierten Erhebungsstrategien. Die erste Auswertung der Untersuchungsergebnisse ermöglicht nur in seltenen Fällen eine direkte Antwort auf die gestellte Frage. Meist müssen Hypothesen zusätzlich abgesichert oder sich neu ergebende operationalisiert und überprüft werden. Als diagnostischer Prozess wird die Abfolge von Maßnahmen zur Gewinnung diagnostisch relevanter Informationen bezeichnet. Definition Der diagnostische Prozess beginnt nicht erst mit der diagnostischen Untersuchung selbst, sondern bereits mit der ersten Kontaktnahme des Diagnostikers mit dem Auftraggeber der Untersuchung. 5.1 Kapitel 5 · Der diagnostische Prozess Persönlichkeitsbilder sind immer selektiv 380 nein zusätzliche Hypothesen Datenauswertung Untersuchungsplanung und Durchführung der Untersuchung ja Operationalisierbarkeit Hypothesenformulierung ja Umsetzbarkeit in psychologische Hypothesen Ausarbeitung einer differenzierten Fragestellung Rückgabe des Auftrags gegebenenfalls Umformulierung der Fragestellung nein Absicherung der Hypothesen ja Fragestellung nein nein nein Auftraggeber Das diagnostische Urteil Von den Teilaspekten des diagnostischen Prozesses wurde in der Literatur besonders jener problematisiert, der sich mit dem Zustandekommen des diagnostischen Urteils als Grundlage der Beantwortung der Fragestellung des Auftraggebers befasst. Nach einer Klassifikation von Meehl (1954) und Sawyer (1966) lassen sich 2 gegensätzliche Strategien der diagnostischen Urteilsbildung unterscheiden, eine statistische und eine klinische Form. Bei der statistischen Form wird die Datenintegration mit Hilfe statistischer Gleichungen vorgenommen, bei der klinischen kombiniert der Diagnostiker die Einzeldaten zu einem diagnostischen Urteil. Zu den gängigsten Verfahren der statistischen Datenintegration gehören Regressions- und Diskriminanzanalysen. Nach den Analysen von Meehl und Sawyer erwiesen sich statistische Verfahren der Datenintegration 5.2 Die . Abb. 5.1 versucht, diesen iterativen Prozess mit Hilfe eines Flussschemas zu veranschaulichen. ! Der diagnostische Prozess ist somit keine Einbahnstraße, sondern eher ein Geschehen, bei dem der Diagnostiker sich u. U. erst nach mehreren Durchgängen dem Ziel, der Beantwortung der Fragestellung, nähert. Beantwortung der Fragestellung Ausarbeitung einer Fragestellung 5.2 · Das diagnostische Urteil Statistische Urteilsbildung Beantwortung der Fragestellung . Abb. 5.1. Der diagnostische Prozess. (Aus Jäger, 1982) 381 5 5 In einer Metaanalyse haben Grove, Zald, Lebow, Snitz und Nelson (2000) die vorliegenden Untersuchungen zur mechanischen (statistischen) und klinischen (menschlichen) Urteilsbildung einer vergleichenden Bewertung unterzogen. Sie nahmen 136 Untersuchungen in ihre Analyse auf, die sich mit der Genauigkeit von Urteilen aus dem psychologischen und medizinischen Bereich befassten; Studien zur Vorhersage von Börsenkursen, Pferderennen oder etwa dem Wetter blieben unberücksichtigt. Insgesamt erwies sich die mechanische Vorhersage der klinischen als überlegen. Die mittlere Effektstärke ist mit d = .089 aber sehr klein. Die große Streuung der Effektstärken veranlasste die Autoren, nach Moderatorvariablen zu suchen. So prüften sie, ob der Unterschied zwischen den beiden Methoden der Urteilsbildung von der verwendeten Definition der Effektstärke, dem Publikationsjahr, der Stichprobengröße, dem vorhergesagten Kriterium, von Training oder Erfahrung der Urteiler, der Informationsmenge und von der Informationsart abhängt. Lediglich bei zwei Variablen – dem vorhergesagten Kriterium und der Informationsart – entdeckten sie einen Effekt. Die mechanische Urteilsbildung scheint der klinischen besonders dann überlegen zu sein, wenn medizinische und forensische Kriterien vorherzusagen sind, und wenn die Informationen in Form von Interviewdaten vorliegen. Warum erreichen menschliche Urteile nicht die Genauigkeit, die bei Anwendung von mechanischen Urteilsmodellen möglich ist? Grove et al. (2000) vermuten, dass die Anfälligkeit für bestimmte Urteilsfehler dafür verantwortlich ist. Verschiedene Untersuchungen belegen, dass Menschen oft die Basisrate ignorieren (also zu oft Diagnosen stellen, die statistisch selten und damit unwahrscheinlich sind), Informationen falsch gewichten, indem sie etwa leicht verfügbare Informationen übergewichten (availability Heuristik), oder die Regression zur Mitte vernachlässigen. Trotz ihrer offensichtlichen Überlegenheit ist auch Kritik an der mechanischen Vorhersage angebracht. Ein statistisches Urteilsmodell kann nur mit Informationen konstruiert werden, die für alle Probanden vorliegen. Zudem sind große Fallzahlen bei einer einheitlichen Fragestellung erforderlich. In der Forschung fand zudem oft eine (unrealistische) Beschränkung auf einen Test statt. Ein bekanntes statistisches Urteilsmodell ist der Goldberg-Index (Goldberg (1965), mit dessen Hilfe anhand von MMPI-Testergebnissen (zum MMPI 7 Abschn. 3.2.3) festgestellt werden kann, ob ein Patient psychotisch ist oder nicht. Fünf Skalenwerte (T-Werte) werden nach der Formel L+Pa+Sc–Hy–Pt verrechnet. Liegt der Index über 45, gilt der Patient als psychotisch. Klinische Urteilsbildung bedeutet, dass klinische Experten anhand der gleichen Informationen beurteilen, ob ein Patient psychotisch ist oder nicht. Sie verlassen sich dabei auf ihre klinische Erfahrung und brauchen ihr Urteil nicht zu begründen. In einem Vergleich erwies sich die statistische Methode der klinischen als überlegen (Goldberg, 1965). Als Kriterium für die »wahre« Diagnose dienten Psychiaterurteile über die gleichen Patienten. Betrachten wir nur die Fälle, in denen ein Patient nach Einschätzung des Psychiaters entweder psychotisch oder neurotisch ist, so erzielten die Klinker eine Trefferquote von 68%, während die Anwendung des Goldberg-Index in 74%der Fälle zu richtigen Urteilen führte. Beispiel der klinischen Urteilsbildung in der Prognosegenauigkeit überlegen, unabhängig davon, ob die Daten durch klinische Methoden, Testverfahren oder kombiniert erhoben wurden (Sawyer, 1966). Kapitel 5 · Der diagnostische Prozess Höhere Prognosegenauigkeit 382 In der diagnostischen Praxis gilt es, die Vorteile und Chancen beider Urteilsmodelle zu nutzen. Der Diagnostiker sollte mechanische Vorhersagemodelle kennen und bei seiner Diagnose oder Prognose nutzen – aber ohne ihnen blind zu vertrauen. In begründeten Fällen sollte er die mechanische Vorhersage korrigieren oder ganz durch eine klinische ersetzen, z. B. wenn er Zweifel daran hat, dass das Vorhersagemodell für seinen Probanden angemessen ist. Für die Korrektur kann der Diagnostiker zusätzliche Informationen nutzen, die im mechanischen Modell nicht berücksichtigt wurden. Die meisten statistischen Urteilsmodelle verwerten nur lineare Zusammenhänge zwischen Prädiktoren und Kriterien und sind »blind« für die Wirkungsmechanismen, die der Beziehung beider Variablen zugrunde liegen. Mit den Künstlichen Neuronalen Netzen stehen statistische Auswertungsprogramme zur Verfügung, die auch komplexe, nichtlineare Verknüpfungen mehrerer Prädiktoren mit einem Kriterium entdecken und für die Vorhersage nutzen. Häusler und Sommer (im Druck) gelang es mit diesem Ansatz, die Vorhersage von Ausbildungserfolg mit Leistungstests als Prädiktoren gegenüber einer linearen Vorhersage zu verbessern. Statistische Modelle beschreiben Zusammenhänge, indem sie viele möglicherweise relevante Randbedingungen ignorieren. Sie verleiten den Diagnostiker dazu, einen Zusammenhang als allgemeingültig anzusehen und auf den Einzelfall zu übertragen, ohne dabei zu wissen, ob dieser Schritt angemessen ist. Durch eine gründliche Erforschung moderierender Faktoren wird der Geltungsbereich eines statistischen Vorhersagemodells eingeengt und die Vorhersage verbessert. Ein gutes Beispiel ist die Prognose, ob ein Patient, der wegen Gewalttätigkeit in einer psychiatrischen Einrichtung untergebracht wurde, nach seiner Entlassung wieder gewalttätig wird. Rückfälle hängen von einer Reihe von Randbedingungen ab, darunter dem sozialen Umfeld des Patienten nach seiner Entlassung. Eine kriminelle Nachbarschaft erhöht das Risiko erneuter Gewalt. Die Kriminalitätsrate in der Nachbarschaft erklärt sogar den bekannten Zusammenhang zwischen Rasse und Gewalt (Monahan, 2003). Ohne dieses Wissen hätte ein Farbiger in den USA eine schlechte Rückfallprognose. Wird die nun bekannte Moderatorvariable berücksichtigt, fällt die Prognose im Einzelfall oft anders aus als nach dem »alten« Modell. Nicht die Hautfarbe, sondern das soziale Umfeld nach der Entlassung ist ein Risikofaktor. Damit individuelle Diagnostik nicht zur esoterischen Kleinkunst verkommt, muss sie wissenschaftliche Kriterien erfüllen. Fasst man die diagnostische Untersuchung als psychologisches Experiment auf, so gehören zu ihren wesentlichen Bestimmungsstücken die Explizierung der Untersuchungshypothesen und die Kontrolle der Untersuchungsbedingungen, die eine Wiederholung und einen Vergleich mit anderen Untersuchungen erst ermöglichen. Darüber hinaus sind besonders die Explikation der Entscheidungsregeln und die Erfassung der Prognosegenauigkeit, der Validität der Diagnose, wichtig. Das Ausgehen von Untersuchungshypothesen fordern bereits die Modelle von Kaminski (1970) und Jäger (1986). Probleme auf dieser diagnostischen Stufe bestehen in einer eingeschränkten Wissensbasis, die zur Formulierung weniger Alternativhypothesen führt, und in einer mangelhaften Dokumentation dieser Annahmen, die eine spätere Korrektur erschwert. Die systematische Kontrolle der Untersuchungsbedingungen ist zwar für einen methodisch gut ausgebildeten Psychologen eine Selbstverständlichkeit, ihre Dokumentation sollte aber ebenfalls selbstverständlich werden. Das zentrale Problem der diagnostischen Urteilsbildung stellen die Entscheidungsregeln dar, die häufig mehr oder minder implizit angewendet werden. Wie diese nachträglich ermittelt und explizit gemacht werden können, haben Wottawa und Hossiep (1987; . Abb. 5.2) beschrieben. 5.2 · Das diagnostische Urteil 5 Zentrales Problem: Die Entscheidungsregeln Probleme der klinischen Urteilsbildung Forderungen an die klinische Urteilsbildung 383 Das diagnostische Gutachten Demzufolge stellt das Gutachten eine wissenschaftlich begründete Entscheidungshilfe bei einem gegebenen Problem dar. Im Mittelpunkt der Betrachtung steht dabei lediglich ein bestimmter Ausschnitt aus dem Verhalten einer Person und nicht die »ganze Persönlichkeit«. Gewöhnlich wird das Gutachten schriftlich fixiert; verschiedentlich erfolgt aber auch eine Erstattung oder auch (nur zusätzliche) Erläuterung in mündlicher Form. Die Übernahme von Gutachten versetzt den Diagnostiker gewöhnlich in ein komplexes Feld, das durch eine Vielzahl rechtlicher Bestimmungen vorstrukturiert wird (s. dazu insbesondere Zuschlag, 1992). Bedeutsame ethische Limitierungen werden besonders dann salient, wenn es sich bei der Interaktion von diagnostizierenden Psychologen und begutachteten Klienten nicht um einen »freien« Kontrakt (wie z. B. in Form eines Privatgutachtens), sondern um einen solchen handelt, der allenfalls »bedingt frei« oder definitiv »aufgezwungen« ist (s. zu dieser Unterscheidung Lang, 1978). Der letztere Fall liegt beispielsweise vor, wenn festgestellt werden soll, ob ein Zeuge aufgrund seiner intellektuellen Leistungsfähigkeit oder wegen aktueller Affekte in der Lage war, das Geschehen »objektiv« wahrzunehmen. Zu den »bedingt freien« Kontrakten zählen die meisten Untersuchungen im Gefolge von Sorge- und Umgangsrechtsstreitigkeiten; häufig ist es dabei so, dass die Eltern für sich keine einvernehmliche »Psychodiagnostische Gutachten für (meist fachfremde) Dritte als selbständige (in sich geschlossene) zusammenfassende Darstellung der psychodiagnostischen Vorgehensweise, der Befunde und Schlussfolgerungen in Bezug auf eine hinsichtlich einer konkreten Fragestellung zu begutachtende Person, Institution oder Situation, basierend auf einem der Fragestellung gemäßen, angemessen komplexen diagnostischen Prozess für einen Gutachtenempfänger (Auftraggeber). Mit Hilfe des Gutachtens soll sein Empfänger Entscheidungen in seinem System (seinem diagnostischen Prozess) fundierter treffen können.« Definition Die Fragestellung und der Untersuchungsplan zur Erhebung psychodiagnostischer Informationen, die eingesetzten Verfahren, die ermittelten Daten sowie die daraus gezogenen Schlussfolgerungen werden häufig in Form eines Gutachtens zusammengestellt. Schmidt (1995, S. 468) definiert: 5.3 der Therapeut nichts erfährt. Bei Klassifikationsempfehlungen, bei denen die Erfolgsquote aller Behandlungsalternativen ermittelt werden kann, ist eine Rückmeldung dagegen prinzipiell möglich. Sie muss aber auch systematisch angestrebt werden. Dort, wo der Diagnostiker auch die Intervention durchführt, hat er am ehesten die Möglichkeit, die Güte seiner Diagnosen zu evaluieren und ggf. Korrekturen vorzunehmen. Die Lokalität für erforderliche Verbesserungen lässt sich um so leichter bestimmen, je genauer Hypothesen, Untersuchungsbedingungen und Entscheidungsregeln expliziert wurden. Diese Form individueller Diagnostik wird von Petermann (1987) treffend mit dem Begriff kontrollierte Praxis umschrieben und sollte für den Diagnostiker, der den Anspruch hat, wissenschaftlich fundierte Diagnostik zu betreiben, zur selbstverständlichen Routine werden. 5.3 · Das diagnostische Gutachten 5 Rechtliche Vorschriften und ethische Fragen Kontrollierte Praxis 385 5 Nach Westhoff und Kluck (1998) besteht die Erstellung eines psychologischen Gutachtens aus einer Serie von Entscheidungen, die vom Psychologen zu treffen sind. Nachfolgend sind die einzelnen Schritte des diagnostischen Entscheidungsprozesses aufgelistet und in Anlehnung an Westhoff und Kluck erläutert: 1. Fragestellung, 2. Annahmen, 3. Anforderungsprofil, 4. psychologische Fragen (= Hypothesen), 5. Untersuchungsplan, 6. Durchführen der diagnostischen Untersuchung, 7. Darstellen der Ergebnisse, 8. Befund: Beantworten der psychologischen Fragen und damit der Fragestellung, 9. Vorschläge bzw. Empfehlungen zum weiteren Vorgehen. In einem ersten Schritt ist u. a. zu klären, ob die Fragestellung, mit der ein Auftraggeber an den Psychologen herantritt, überhaupt ethisch vertretbar sowie grundsätzlich zu beantworten ist. Danach muss entschieden werden, ob ein Psychologe vom Fachwissen her Schritte des diagnostischen Entscheidungsprozesses Voraussetzungen für die Übernahme eines Gutachtens Lösung finden können und dafür mit Unterstützung eines Gerichtes Vorschläge von einem Sachverständigen erwarten, dem dann aber in aller Regel aus dem Wunsch heraus, etwas zu behalten oder zu bekommen (nämlich das Besuchs- oder Sorgerecht), die Arbeit häufig durch selektive Informationsüberlassung nicht sonderlich erleichtert wird. Um der besonderen Verantwortung von Psychologen Rechnung zu tragen, hat die Föderation der Deutschen Psychologenvereinigungen (1998) im Rahmen ihrer Ethischen Richtlinien verbindliche Kriterien für Gutachten und Untersuchungsberichte formuliert: 1. Sorgfaltspflicht: Allgemein gilt, dass die Erstellung und Verwendung von Gutachten und Untersuchungsberichten von Psychologen größtmögliche sachliche und wissenschaftliche Fundiertheit, Sorgfalt und Gewissenhaftigkeit erfordern. Gutachten und Untersuchungsberichte sind frist- und formgerecht anzufertigen. Die föderativen Richtlinien für die Erstellung von Gutachten sind zu beachten. 2. Transparenz: Gutachten und Untersuchungsberichte müssen für die Adressaten inhaltlich nachvollziehbar sein. 3. Einsichtnahme: a) Sind Auftraggeber und Begutachtete nicht identisch, kann das Gutachten bzw. der Untersuchungsbericht nur mit Einwilligung des Auftraggebers den Begutachteten zugänglich gemacht werden. b) Psychologen sind gehalten, darauf einzuwirken, dass die Begutachteten ihr Gutachten bzw. den Untersuchungsbericht auf Wunsch einsehen können, sofern für sie kein gesundheitlicher Schaden zu befürchten ist. c) Falls der Auftrag eine Einsichtnahme von vornherein ausschließt, müssen die Begutachteten vorab davon in Kenntnis gesetzt werden. 4. Gefälligkeitsgutachten: Gefälligkeitsgutachten sind nicht zulässig, ebensowenig die Abgabe von Gutachten, die Psychologen durch Dritte ohne eigene Mitwirkung erstellen lassen. 5. Stellungnahme zu Gutachten von Kollegen: Stellungnahmen zu Gutachten von Kollegen sind zulässig, wobei der Abschnitt B.II. (1) dieser Ethischen Richtlinien (Kollegiales Verhalten) besonders zu beachten ist. Kapitel 5 · Der diagnostische Prozess Verbindliche Kriterien für Gutachten und Untersuchungsberichte 386 Danach ist Verhalten eine Funktion folgender (nichtpsychologischer und psychologischer ) Variablengruppen: 4 Umgebungsvariablen (U; äußere Lebensbedingungen, z. B. Wohnsituation, finanzielle Situation), 4 Organismusvariablen (O; körperliche Bedingungen, z. B. Krankheiten, Behinderungen), 4 kognitive Variablen (K; Leistungsfähigkeit und Inhalte des Wahrnehmens, Lernens und Denkens, z. B. Allgemeine Intelligenz, Intelligenzstruktur, Konzentration), 4 emotionale Variablen (E; z. B. emotionale Belastbarkeit, Umgang mit Gefühlen und Belastungen), 4 motivationale Variablen (M; z. B. Leistungs- und Machtmotiv, Interessen, Werte), V= f1(U, O, K, E, M, S) hierfür zuständig ist bzw. ob prinzipiell genügend Wissen zur Bearbeitung vorliegt. Schließlich muss für die Übernahme einer Fragestellung diese eindeutig formuliert sein. Maßgeblich für den diagnostischen Entscheidungsprozess sind darüber hinaus die grundlegenden Annahmen des Psychologen über menschliches Verhalten. So lässt sich beispielsweise individuelles Verhalten lediglich dann beschreiben, erklären, vorhersagen und beeinflussen, wenn man von regelhaften und gesetzmäßigen Zusammenhängen zwischen Merkmalen von Situation und Verhaltensweisen sowie zwischen den Verhaltensweisen selber ausgehen kann. Wie bereits erwähnt, besteht das Ziel jedes diagnostischen Prozesses in der Bereitstellung von Entscheidungshilfen bei wichtigen Fragen, wie z. B. ob jemand für einen bestimmten Beruf geeignet ist oder welche Therapieform bei einer vorliegenden Störung die größte Aussicht auf Erfolg hat. Um zwischen verschiedenen Alternativen (z. B. Beruf, Therapieform) entscheiden zu können, müssen Kriterien bzw. Anforderungen vorliegen, die den Verhaltensmerkmalen und Eigenschaften der beurteilten Person gegenüber zu stellen sind. So kann man beispielsweise die Anforderungen des Berufs Diplom-Sozialarbeiter mit dem Leistungs- und Persönlichkeitsprofil einer Person vergleichen, um die Frage zu beantworten, ob sie für diese Tätigkeit geeignet ist. In Anlehnung an arbeitspsychologische Fragestellungen wird die Summe der jeweiligen Anforderungen als Anforderungsprofil bezeichnet; diesen Begriff übertragen Westhoff und Kluck auch auf den klinischen, pädagogisch-psychologischen und forensischen Bereich. Dabei lassen sich kompensatorische von nichtkompensatorischen sowie stabile von instabilen Anforderungen unterscheiden (Westhoff & Kluck, 1998, S. 18 f.). Generell müssen die Anforderungen möglichst verhaltensorientiert definiert sein, um sie exakt beurteilen zu können. Da die Fragestellung meistens in einer sehr globalen Form vorliegt, wird sie in psychologische Fragen (= Hypothesen) übersetzt. Demzufolge werden ausgehend von der Fragestellung Variablen ausgewählt, anhand derer man das relevante Verhalten erklären oder vorhersagen kann. Diese Vorgehensweise dient einerseits zur Strukturierung und Gliederung des diagnostischen Prozesses und andererseits zur Erhöhung der Transparenz und Prüfbarkeit des Gutachtens und wirkt sich somit positiv auf die Verständlichkeit für die (meist psychologisch nicht geschulten) Leser aus. Die Auswahl geeigneter Variablen zur Überprüfung der psychologischen Fragen erfolgt nach Westhoff und Kluck (1998, S. 25 f.) u. a. durch Zuhilfenahme der Verhaltensgleichung. Diese Formel fasst alle relevanten Variablen zusammen, die zur Erklärung, Vorhersage und Beeinflussung individuellen Verhaltens bedeutsam sind: 5.3 · Das diagnostische Gutachten 5 Nichtpsychologische und psychologische Variablengruppen Verhaltensgleichung Anforderungsprofil Diagnostik als Entscheidungshilfe Psychologische Annahmen über Verhalten 387 5 Fragestellungen für Gutachten Befund Untersuchungsdurchführung U und O sind damit nichtpsychologische Variablengruppen, K, E, M und S gehören zu den psychologischen Variablengruppen. Im Rahmen des diagnostischen Prozesses kann durch die Verwendung der Verhaltensgleichung sichergestellt werden, dass keine relevanten Variablen unberücksichtigt bleiben. Damit für die Leser des Gutachtens nachvollziehbar ist, auf welche Weise die Erhebung der relevanten Variablen erfolgt, werden die hierzu verwendeten Verfahren und sonstigen Informationsquellen im Untersuchungsplan beschrieben. Nach Westhoff und Kluck (1998) soll als übergeordnetes Kriterium für die Auswahl von Informationsquellen stets das Verhältnis von Kosten und Nutzen bei deren Einsatz herangezogen werden. Weitere Kriterien für die Auswahl von beispielsweise standardisierten diagnostischen Verfahren sind u. a. die jeweiligen testtheoretischen Gütekriterien (Objektivität, Reliabilität, Validität) sowie die Verfügbarkeit über entsprechende Normen. Nach diesen Vorbereitungen kann die Durchführung der diagnostischen Untersuchung stattfinden. Die eingesetzten Verfahren und die damit gewonnenen Ergebnisse, Resultate aus Fragebögen, Tests, Gesprächen sowie anderen Informationsquellen, werden in allgemeinverständlicher Form dargestellt. Der diagnostische Prozess endet damit, dass die Untersuchungsergebnisse im Befund so integriert werden, dass sie die zuvor formulierten psychologischen Fragen beantworten.Die Stellungnahme gibt schließlich eine Antwort auf die zu bearbeitende Fragestellung des Gutachtens. Daran können sich Vorschläge und Empfehlungen in Bezug auf das weitere Vorgehen anschließen. Die Fragestellungen, Arbeitsfelder und Aufgabenbereiche für psychodiagnostische Gutachten sind zahlreich, wie der nachfolgenden Auflistung zu entnehmen ist (nach Föderation Deutscher Psychologenvereinigungen, 1988): 4 Schule (Schulfähigkeit, Lernfähigkeit; Lern-/Leistungsstörungen; Verhaltensauffälligkeiten; Schullaufbahnberatung), 4 Universität/Hochschule (Zulassung zum Studium, z. B. Härtefälle; Wechsel des Studienortes/-faches; Zulassung zum Zweitstudium/ Doppelstudium), 4 Versicherungsträger (Rentenfragen, Berufsunfähigkeit, Begründung psychotherapeutischer Interventionen, Rehabilitationsmaßnahmen mit beruflichen Einsatzmöglichkeiten usw.), 4 Gesundheitswesen (im Falle klinisch-psychologischer Interventionen, bei psychiatrischen Fragestellungen, z. B. als Zusatzgutachten; bei Fragen der psychologischen Vorbereitung und Begleitung medizinischer Interventionen, z. B. Operationsvorbereitung, Vorbereitung auf schmerzhafte diagnostische Behandlungen usw.; bei Fragen der psychologischen Nachsorge nach medizinischen Interventionen, z. B. nach entstellenden Operationen oder dauerhaften Funktionseinschränkungen; bei Entscheidungen über ausgewählte medizinische Eingriffe, z. B. Sterilisation, Geschlechtsumwandlung, Schönheitsoperation), 4 öffentliche Verwaltung (Städteplanung, Medien, Namensänderung), 4 Arbeitsamt (Berufseignung, Berufslaufbahn, Beratung), 4 Verkehrsbehörden (insbesondere Fahreignungsuntersuchungen), 4 Kreiswehrersatzamt (Wehrdiensttauglichkeit; Gewissensüberprüfung bei Kriegsdienstverweigerung), 4 und deren Wechselwirkungen (Subskript I). deren«) 4 soziale Variablen (S; soziale Intelligenz, Normen, Einflüsse von »bedeutsamen An- Kapitel 5 · Der diagnostische Prozess Auswahl von Informationsquellen 388 (S.410-415) Nutzenerwägungen (S.408-409) Festsetzung von Testtrennwerten (S.404-408) Entscheidungsfehler (S.401-404) Einstufige vs. mehrstufige Entscheidungsstrategien (S.399-401) Kompensatorische und konjunktive Entscheidungsstrategien (S.396-399) Arten diagnostischer Entscheidungen Zuordnungs- und Klassifikationsstrategien 6 Institutionelle Entscheidung Entscheidungen setzen Alternativen voraus Arten diagnostischer Entscheidungen 1. 2. 3. 4. 5. 6. Nutzen der Entscheidungen geht zugunsten Annahme Behandlungen Möglichkeit von Ablehnungen Informationsdimensionen Entscheidungen Institution festgelegt singulär ja univariat terminal vs. vs. vs. vs. vs. vs. Individuum variabel multipel nein multivariat investigatorisch . Tabelle 6.1. Arten diagnostischer Entscheidungen. (Nach Cronbach & Gleser, 1965, S. 16) Es ist bereits mehrfach darauf hingewiesen worden, dass moderne Diagnostik einen Finalitätscharakter besitzt, d. h. mit einer konkreten Zielvorstellung vorgenommen wird, die über die Beschreibung eines bestimmten Zustandes hinausgeht. Auf der Basis der erhobenen diagnostischen Informationen müssen Entscheidungen über anstehende Fragen gefällt werden, etwa der Art, ob ein Bewerber die ausgeschriebene Stelle erhält, welche Schüler zweckmäßigerweise welchen Unterrichtseinheiten zugeordnet werden, ob bei einem Klienten eine Gesprächs- oder Verhaltenstherapie angemessen ist usw. In einem allgemeinen Sinn gehören die Arbeitsstelle, Unterrichtseinheiten und therapeutische Eingriffe in die Kategorie von Interventionen, d. h. Maßnahmen, die aus den verschiedensten Gründen eingeleitet werden. Sie setzen an diagnostischen Feststellungen an, mit dem Ziel, Veränderungen auf organisatorischer oder individueller Ebene herbeizuführen. Im angloamerikanischen Raum ist dafür der Terminus »treatment«, also Behandlung, gebräuchlich. Die intendierten Effekte sind erwartungsgemäß dann besonders positiv, wenn die Passung zwischen Diagnose und Intervention in optimaler Weise ausfällt. Nachfolgend sollen die Probleme, Fehler und Lösungsmöglichkeiten erörtert werden, die sich bei der Zuordnung von diagnostischen Daten zu Interventionen ergeben. Die für jede Zuordnung notwendigen Entscheidungen setzen voraus, dass mindestens 2 Alternativen vorhanden sind (z. B. Annahme oder Ablehnung). Sofern nicht von einer vollständigen Gültigkeit des diagnostischen Instrumentariums für das anstehende Problem ausgegangen werden kann, sind die Entscheidungen mit Unsicherheit oder dem Risiko des Irrens behaftet. Klassifiziert werden diagnostische Entscheidungen nach einem Raster, das auf das nachgerade epochale Buch von Cronbach und Gleser (1965) zurückgeht (. Tab. 6.1). Aus der Kombination aller Klassifikationskriterien mit allen anderen resultieren 26 = 64 verschiedene Arten von diagnostischen Entscheidungen. Viele davon haben in der Praxis jedoch nur eine untergeordnete Bedeutung, so dass in diesem Abschnitt eine Beschränkung auf die häufiger vorkommenden Konstellationen erfolgen kann. Eine Entscheidung ist von institutioneller Art, wenn eine Organisation (z. B. ein Betrieb oder eine Fortbildungsanstalt) nach einem standardisierten Vorgehen alle Personen in der gleichen Weise einem Verfahren unterzieht. So müssen z. B. alle Personen ein und denselben Test bearbeiten oder an einem Vorstellungsgespräch teilnehmen, dessen Ergebnisse dann für die »Behandlung« relevant sind. In solchen Fällen wird eine Entscheidungsregel gesucht, die den Nutzen vieler (gleichartiger) Entscheidungen über alle Entscheidungssituationen hinweg für die Institution maximiert, die die Eignungsprüfungen organisiert, weil sie ein Interesse daran hat, die bestgeeigneten Personen für Arbeit, Training oder Unterweisung heranzuziehen. 6.1 Kapitel 6 · Zuordnungs- und Klassifikationsstrategien Diagnose und Intervention 396 a C Score y1 B A Zuordnung Zuordnung Zuordnung zu zu zu Behandlung Behandlung Behandlung Score y1 Ablehnung Annahme b Ganz anders gelagert sind dagegen die Verhältnisse, wenn ein Individuum auf einen Diagnostiker oder eine Institution zugeht (z. B. um Rat über die anstehende Berufswahl oder eine Therapieform einzuholen) und dort je nach Biographie, Vorkenntnissen oder Beschwerden ein spezifisches Untersuchungsprogramm mit dem Ziel zusammengestellt wird, die beste Handlungsalternative für die nachfragende Person herauszufinden. Hierbei interessiert allein der individuelle Nutzen (der sich über alle Personen hinweg auch als institutioneller Nutzen, z. B. für den gesamten Gesellschaftsverband, begreifen lässt). Um festgelegte Annahmequoten handelt es sich dann, wenn z. B. nur eine bestimmte Zahl von Therapie- oder Ausbildungsplätzen zur Verfügung steht, denen die Interessenten oder Bewerber zugeordnet werden müssen. Übersteigt die Zahl der Personen diejenige der vorhandenen Plätze, kann diese Zuordnung nur dann rational erfolgen, wenn von allen Personen die diagnostischen Daten vorliegen. Die Entscheidungen über einzelne Personen erfolgen dann aber nicht unabhängig voneinander, weil ein Votum zugunsten bestimmter Personen implizit zu Lasten anderer geschieht und jedenfalls auf einem Vergleich von zumindest einer Ordinalrelation beruht. Hingegen ist bei nichtfestgelegten oder variablen Annahmequoten wechselseitige Unabhängigkeit der Entscheidungen über die einzelnen Probanden gegeben. Dies trifft beispielsweise zu, wenn die Eltern aller Kinder, die im 7. Lebensjahr noch einnässen, einer psychologischen Exploration unterzogen werden. Unter Behandlung werden allgemein höchst unterschiedliche Interventionen subsumiert. Es mag sich dabei um eine eng umschriebene Maßnahme handeln (wie z. B. die Therapie eines Klienten) oder um eine Kombination vieler einzelner »treatments« (wie z. B. den Einbezug der Familie oder der Arbeitskollegen in den Behandlungsplan). Hauptsächlich denken Cronbach und Gleser (1965, S. 16) aber, wie Erläuterungen erkennen lassen, an die Unterscheidung zwischen einstufigen und mehrstufigen (sequentiellen) Testungen. Im ersten Fall erfolgt die Zuordnung auf der Basis einer punktuell-einmaligen Diagnose, im letzten als Resultat eines gestuften Vorgehens in mehreren Schritten (mehr dazu 7 unten). Sind Ablehnungen aufgrund von Testungen möglich, liegt die klassische Struktur von Selektionsparadigmen vor. Verbleiben hingegen alle Probanden im System und werden infolge der Diagnoseerstellung nur horizontal oder vertikal zu spezifischen Interventionen »verschoben«, spricht man von Platzierung (. Abb. 6.1a und b). Platzierungen federn gleichsam die harschen Schnitte einfacher Selektionen insofern ab, als niemand von einer (positiven) Intervention ausgeschlossen wird. Für eine Selektion ist nicht notwendig, dass – wie in der . Abb. 6.1 dargestellt – 2 Variablen vorliegen; vielmehr genügt dazu bereits ein Prädiktor. Damit wird zu einem weiteren Punkt übergeleitet: Die diagnostische Information kann sich auf eine Dimension beschränken (z. B. Allgemeine Intelligenz oder die Abiturnote), also univariat vorliegen, oder aus mehreren Dimensionen stammen und somit multivariat beschaf- 6.1 · Arten diagnostischer Entscheidungen Score y2 6 . Abb. 6.1. a Platzierung; b Selektion (Aus Cronbach & Gleser, 1965, S. 13) Univariate vs. multivariate Informationen Einstufige vs. mehrstufige Testungen Behandlung Variable Annahmequoten Festgelegte Annahmequoten Individuelle Entscheidung 397 6 Zielsetzung und Strategie Regelkreismodell Terminale vs. investigatorische Entscheidung C B A Test 1 fen sein. Meist werden zur Erhöhung der Validität und damit auch der Entscheidungssicherheit mehrere Prädiktoren herangezogen, weil damit verschiedene Facetten des Kriteriums abgedeckt werden können. Zudem erlauben nur multivariate Ansätze die Vornahme einer Klassifikation, d. h. der Zuweisung von Probanden entsprechend einer ermittelten Merkmalskonfiguration, wie sie in . Abb. 6.2 am Beispiel einer Zuordnung zu einem von mindestens 3 Treatments dargestellt ist. Der Begriff »Klassifikation« steht hier also für eine ganz bestimmte Art von Klassenzuweisung, nämlich einer nach Maßgabe der Merkmalsstruktur. Wie Janke (1982) deutlich gemacht hat, wird der Term in der Literatur zum Teil auch in anderer Bedeutung gebraucht, so z. B. für die Methoden zur Bildung von Klassen (Typenbildung, Gruppierung, Clusteranalyse) und solche zur Trennung der Klassen voneinander (z. B. Diskriminanzanalyse). Zur Differenzierung der verschiedenen Arten von Klassen selbst sei auf die Darstellung von Kallus und Janke (1992) verwiesen. Wird auf der Basis der diagnostischen Information ein Proband einer Behandlung zugeführt, in der er mehr oder weniger lange verbleibt (z. B. einer Sonder- anstelle der Grundschule, Übertragung einer neuen Verantwortung, Aufnahme in ein Ausbildungsprogramm), handelt es sich um eine terminale Entscheidung. Mit der Zuweisung ist die diagnostische Aufgabe abgeschlossen. Soll die Maßnahme, der eine Person als Ergebnis diagnostischer Datensammlung zugeordnet wird, hingegen nur vorläufigen, weil weiter erkundenden Charakter haben (wie z. B. eine Anstellung auf Probe, um die Bewährung an konkret anfallenden Anforderungen abschätzen zu können; eine spezifische Medikation, um zu sehen, wie der Patient »darauf anspricht« usw.), sprechen wir von einer investigatorischen Entscheidung. Somit ist das Ergebnis einer investigatorischen Entscheidung eine neue Frage oder ein ganzer Satz von neuen Fragen. Tack (1976) hat verschiedene Komponenten des diagnostischen Entscheidungsprozesses, darunter die terminalen und investigatorischen Entscheidungen, in einer Art Regelkreismodell zusammengestellt (. Abb. 6.3), dessen Grundaufbau auf Cronbach und Gleser (1965, S. 18) zurückgeht. Neu darin ist die Zielsetzung. Sie spielt eine wesentliche Rolle für die im Verlauf des diagnostischen Prozesses überhaupt in Betracht kommenden Einzelentscheidungen. So sind etwa die potentiellen Behandlungen bei Eheleuten, die wegen Partnerschaftsschwierigkeiten um Rat fragen, grundsätzlich andere als diejenigen bei depressiven Klienten oder verhaltensauffälligen Kindern. Die Einweisung in eine von mehreren freien Stellen folgt völlig anderen Prinzipien als die Beratung über mögliche berufliche Optionen. Insofern wirkt die jeweilige Zielsetzung auch auf eine Strategie, die im Zentrum des Modells steht. Strategien sind Regeln, um zu Entscheidungen zu Test 2 Kapitel 6 · Zuordnungs- und Klassifikationsstrategien . Abb. 6.2. Klassifikation, d. h. Zuweisung zu einer von 3 verschiedenen Maßnahmen auf der Basis von 2 Prädiktoren. (Nach Cronbach & Gleser, 1965, S. 12) 398 Frage C Frage B Frage A terminale Entscheidung Ergebnis investigatorische Entscheidung Strategie Zielsetzung Behandlung C Behandlung B Behandlung A Kompensatorische und konjunktive Entscheidungsstrategien Die lineare Kombination von Prädiktionswerten zu einem Rechenmaß, das eine maximale (multiple) Korrelation mit dem jeweiligen Kriterium gewährleistet, impliziert ein sog. kompensatorisches Modell. Das heißt, ein und derselbe (globale) Prädiktionswert kann durch ganz verschiedene Merkmalskonfigurationen in den Einzeltests erreicht werden, oder mit anderen Worten: Niedrige Leistungen in einigen Prädiktoren können durch hohe in anderen wettgemacht werden. Eine solche Kompensation gelingt dann besonders leicht, wenn hohe Scores in jenen Tests erzielt werden, die innerhalb der Batterie hohe β-Gewichte aufweisen. Kompensatorische Modelle liegen der diagnostischen Praxis sehr häufig zugrunde. Etwa kann das Ziel der Versetzung in die nächste Schulklasse auch bei starken Defiziten in bestimmten Fächern erreicht werden, wenn diese durch besonders gute Leistungen in anderen ausgeglichen werden (eine Fünf in einem Nebenfach ist durch eine Zwei in einem anderen kompensierbar, hingegen bedarf es bei einer Fünf in einem Hauptfach guter Noten in mehreren anderen Fächern usw.). Ein ordentlicher Verkäufer mag eine Qualifikation erreichen, indem er mit bestechender Sachkenntnis seine holprigen Umgangsformen überspielt usw. 6.2 gelangen, oder, wie es Tack (1976, S. 105) formuliert: »Darunter verstehen wir ein (normatives) System von Regeln, die angewandt auf vorliegende Informationen unter Berücksichtigung der jeweiligen Zielsetzung zu einer bestimmten Entscheidung führen.« Die wichtigsten Grundmuster derartiger Strategien sollen nachfolgend vorgestellt werden. ••• Informationen über eine Person Problemstellung 6.2 · Kompensatorische und konjunktive Entscheidungsstrategien ••• 6 Prädiktionswerte durch unterschiedliche Merkmalskonfigurationen . Abb. 6.3. Schematische Darstellung des diagnostischen Entscheidungsprozesses. (Aus Tack, 1976, S. 105) 399 6 . Abb. 6.4a,b. Entscheidungsstrategien: a kompensatorische, b konjunktive. (Aus Wieczerkowski & Oeveste, 1982, S. 931) Trennwerte »Und-Konzept« Abweisung -3 -2 -1 0 1 2 3 (Z1) a Kompensatorisches Modell -3 -2 0 1 2 2 2 Zulassung Abweisung 3 -3 -2 -1 1 b Konjunktives Modell -3 -2 0 -1 0 1 -1 2 Zŷ = -1 1 (Z 2) 3 Zulassung 2 (Z 2) 3 3 (Z1) Nur ein kleiner Schritt ist es von der kombinatorisch-kompensatorischen Strategie zu einem »Oder-Konzept«. Dort ist es nicht notwendig, die Summe aus Teilkompetenzen zu bilden, sondern es genügen entsprechend hohe Punktwerte in einem der Prädiktoren. Eine solche Auswahlstrategie liegt dann nahe, wenn die durch das Kriterium geforderte Leistung entweder auf die eine oder andere Weise erbracht werden kann, dass also für beide Prädiktoren Mindestanforderungen gestellt werden, aber ein Bewerber nur die Mindestanforderung in einem Prädiktor erfüllen muss, um zugelassen zu werden. Gute Leistungen in der Schule können beispielsweise durch Fleiß oder Begabung erreicht werden. Ein guter Lehrer mag sich für seinen Beruf durch große Fähigkeit in Mathematik oder in Geschichte empfehlen usw. Kompensatorische Strategien sind immer dort dysfunktional, wo in jedem Teilbereich bestimmte Mindestleistungen unabdingbar vorliegen müssen, um eine Tätigkeit erfolgreich ausführen zu können. Beispielsweise kann ein Chirurg nicht mangelnde feinmotorische Kompetenz durch Intelligenz kompensieren, ein Pilot nicht fehlende Sehtüchtigkeit durch gute räumliche Orientierung, ein Systemüberwacher nicht Ausfälle der Daueraufmerksamkeit durch kognitive Flexibilität usw. Hier besteht also die Forderung nach Leistungen in dem einen und dem anderen Bereich, weshalb diese Modelle auch konjunktive bzw. »Und-Strategien« heißen. Ein kompensatorisches und ein konjunktives Modell sind in . Abb. 6.4a und b für den Fall graphisch veranschaulicht, dass der für die Zulassung kritische Testtrennwert mit zŷ = –1 festgelegt worden wäre. Nach der kompensatorischen Strategie (. Abb. 6.4a) fallen alle Probanden in die Kategorie »Zulassung«, bei denen die Kombination aus z1 und z2 mindestens den Wert zŷ = –1 ergibt (also z1 = +2, z2 = –3; z1 = +1, z2 = –2 usw.). Da ein z-Wert von –1 einem Prozentrang von 16 entspricht, gehören 84% aller Probanden in die Kategorie »Zulassung«, deren Grenze durch die schräge Gerade in . Abb. 6.4a markiert wird. Dem konjunktiven Modell (. Abb. 6.4b) zufolge ist der kritische Trennwert in jeder der beiden Variablen bei z = –1 angesetzt worden. Daraus resultiert ein insgesamt konservativeres Vorgehen, d. h. die Anforderungen sind höher, um in die Kategorie der Zugelassenen zu gelangen. Dementsprechend fallen nunmehr die mit 1 und 2 bezeichneten Segmente – im Gegensatz zur kompensatorischen Strategie – unter die Abgelehnten. Gleichwohl gäbe es auch einige Probanden, die unter den gegebenen Randbedingungen unter der konjunktiven, aber nicht unter der kompensatorischen Strategie zugelassen werden. Sie sind mit 3 gekennzeichnet. Sofern die Aufnahmequoten fest vorgegeben sind, führen die kombinatorische (kompensatorische bzw. Oder-Strategie) sowie die konjunktive Und-Strategie zu unterschiedlichen Trennwerten, wie aus . Abb. 6.5 hervorgeht. Kapitel 6 · Zuordnungs- und Klassifikationsstrategien »Oder-Konzept« 400 1T2 Oder-Strategie x X1 Einstufige vs. mehrstufige Entscheidungsstrategien 1 x1T Kombinatorische (kompensatorische) Strategie Und - Strategie Persönliche Entscheidungen erfolgen meist als Elemente einer langen Endloskette. So trifft ein Abiturient vielleicht die Entscheidung zugunsten eines bestimmten Studiums. Nach dem ersten Semester stellt er fest, dass ihn die Materie weit weniger interessiert, als er zuvor angenommen hat und wechselt deshalb zu einem anderen Fach. Dort fühlt er sich überfordert und wendet sich wieder seiner ursprünglichen Wahl zu, diesmal jedoch mit anderen Schwerpunkten. Nach dem Examen geht er in die freie Wirtschaft, gründet später selbst eine Firma, die aber nach einigen Jahren wegen starker Konkurrenz eingeht, was eine erneute Umorientierung nötig macht usw. Ähnliches gilt für institutionelle Entscheidungen: Zu Vorprüfungen in einigen Studiengängen wird nur zugelassen, wer die notwendigen Leistungsnachweise in einzelnen Lehrveranstaltungen erbracht hat (. Abb. 6.6). Wiederholtes Nichtbestehen der Zwischenprüfungen führt zum Ausschluss aus dem System (d. h. dem Studiengang). Aber auch nach dem Ablegen der Zwischenprüfungen muss in weiteren Lehrveranstaltungen und Prüfungen unter Beweis gestellt werden, dass man vom Angebot des Treatments »Lehre« in hinreichender Weise profitiert hat. Das heißt, die Institution Universität sammelt im Sinne investigatorischen Vorgehens fortwährend diagnostische Informationen über den Leistungs- (und Motivations-)stand jedes Studierenden. Ganz ähnlich geht es in Behörden, Betrieben und auch im Bereich des sportlichen Wettkampfes zu. Setzt man Tests an die Stelle der Tätigkeiten, so wird klar, dass definitiv »terminale« Entscheidungen selten oder auf jene Fälle beschränkt sind, in denen eine institutionelle Entscheidungsinstanz eine Person aus ihrem System entlässt und damit keine weiteren Informationen mehr über sie erhebt. Umgekehrt ist sequentielles Vorgehen in der Lebenswirklichkeit offenkundig die Regel. 6.3 1 x2T 2 x2T X2 6.3 · Einstufige vs. mehrstufige Entscheidungsstrategien 6 »Terminale« Entscheidungen sind selten Institutionelle Entscheidungen Persönliche Entscheidungen . Abb. 6.5. Festlegung der Trennwerte (T1 und T2) in 2 Prädiktoren (X1 und X2) bei festen Selektionsraten und unterschiedlichen Auswahlstrategien 401 6 . Abb. 6.7a-e. Zwei nichtsequentielle (a und b) und 3 sequentielle (c–e) Auswahlstrategien. (Aus Cronbach & Gleser, 1965, S. 73) Sequentielles Vorgehen Einstufiges Vorgehen IV c Vorauswahl I III I II III II I IV III II e Vollständige sequentielle Strategie b Einzelteststrategie d Vorentscheidung I a Nichtsequentielle Batterie IV III Innerhalb des sequentiellen Vorgehens sind die folgenden 3 Grundmuster möglich: 4 Vorauswahl-(Pre-reject-)Strategie (. Abb. 6.7c): Nach einem ersten Test werden alle Probanden, die einen bestimmten Score nicht erreichen, von weiteren Untersu- In der diagnostischen Praxis kommt aus Zeit- und Kostengründen das einstufige Vorgehen recht häufig vor. Hier unterscheidet man die 4 »nichtsequentielle Batterie« (. Abb. 6.7a): Die gesamte Batterie wird an alle Probanden vorgegeben, und es werden diejenigen ausgewählt (III), die in dem optimal gewichteten Summenwert die höchsten Scores erzielen, und den 4 »single screen« (. Abb. 6.7b): Auf einem Test allein (Annahmebereich = II) fußen alle weiteren Entscheidungen. Kapitel 6 · Zuordnungs- und Klassifikationsstrategien . Abb. 6.6. Zu universitären Zwischen- und Abschlussprüfungen werden oft nur diejenigen Studierenden zugelassen, die bestimmte Leistungsnachweise erbracht haben 402 Das Auswahlverfahren der »Studienstiftung des Deutschen Volkes« ähnelt sehr stark der Vorauswahlstrategie: Nur mit jenen Kandidaten wird sich eingehender befasst, die aufgrund ihrer schulischen oder akademischen Leistungen aus dem Gros der Mitschüler bzw. Kommilitonen herausragen und deshalb als Kandidaten der Stiftung gegenüber nominiert werden. Unter ihnen wird mit Hilfe eines Verfahrens, das seinerseits sequentiell strukturiert ist (Gruppentestung, später Interviews mit den Testbesten), nach den vermutlich geeignetsten Personen gesucht (. Abb. 6.8). Hingegen wies die Zulassung zum Medizinstudium bis 1996/97 einige Elemente der Vorentscheidungsstrategie auf: Hier wurde ein bestimmtes Kontingent der Plätze für die nach Schulnoten Besten reserviert, des Weiteren ein Kontingent für die Besten unter denjenigen, die sich dem mehrstündigen TMS (7 Abschn. 1.6) unterzogen hatten. Für die restlichen Bewerber galt ein Zulassungsschlüssel, in den die Schulnoten und Testergebnisse mit unterschiedlichen Gewichtszahlen eingingen. Die relative Überlegenheit von sequentiellen zu nichtsequentiellen Strategien ist bei institutionellen Entscheidungen an Nutzenüberlegungen (7 dazu Abschn. 6.6) gekoppelt, d. h. die Gewinne, die eine Organisation daraus erwirtschaftet, dass auf der Basis von diagnostischen Untersuchungen die Bestgeeigneten identifiziert werden, im Vergleich zu den Kosten, die eben diese Testungen verursachen (. Abb. 6.7a–e). Dabei spielen, wie noch zu zeigen sein wird, vor allem die Validität und der Prozentanteil auszuwählender Bewerber eine wichtige Rolle. Ungeachtet der dadurch notwendigen Differenzierungen sind sequentielle Strategien den einstufigen Vorgehensweisen generell überlegen, doch verschwindet diese Überlegenheit bei extremen Selektionsraten (Cronbach & Gleser, 1965, S. 77 ff.). chungen ausgeschlossen und zurückgewiesen (I). Die verbleibenden Probanden absolvieren weitere Verfahren. Die Entscheidung über Annahme (III) vs. Ablehnung (IV) wird aus der Kombination zwischen Erst- und Folgetests getroffen. 4 Vorentscheidungs-(Pre-accept-)Strategie (. Abb. 6.7d): Nach einem ersten Teil werden alle Probanden, die einen bestimmten Trennwert überschreiten, bereits (terminal) akzeptiert (II). Mit den verbleibenden Probanden wird analog zur Vorauswahlstrategie verfahren. 4 Vollständige sequentielle Strategie (. Abb. 6.7e): Kombination der beiden vorgenannten Vorgehensweisen. Nach Maßgabe der Punktwerte in einem Test erfolgt eine Aufteilung aller Probanden in 3 Gruppen, eine, die (terminal) akzeptiert (II), eine andere, die definitiv abgewiesen (I) und eine dritte, die mit einem Folgetest untersucht wird. 6.3 · Einstufige vs. mehrstufige Entscheidungsstrategien 6 . Abb. 6.8. Beispiel für eine Pre-reject-Strategie: Zur praktischen Fahrprüfung werden nur diejenigen Bewerber zugelassen, die bereits die theoretische Prüfung bestanden haben Überlegenheit der sequentiellen Strategien Beispiel für Pre-accept Beispiel für Pre-reject 403 6 Entscheidungsfehler Risiko: 1 – α ^ ) p(KA– Risiko: α ^ ) p(KA+ ^ ^ ^ p(K A− ∩ K A − ) TN Ⳏ p(K A − ) FN + TN : Prädiktiver Wert einer negativen Zuordnung (Anteil der richtig diagnostizierten Gesunden in der Gruppe der als gesund diagnostizierten Personen) Prädiktiver Wert einer positiven Zuordnung (Anteil der richtig diagnostizierten Kranken an allen als krank diagnostizierten Personen) ^ ^ p(K A+ ∩ K A+ ) TP Ⳏ p(K A+ ) TP + FP : ^ ^ Spezifität der Zuordnungsregel (Anteil der richtig diagnostizierten Gesunden in der Gruppe der Gesunden) 1 p(KA–) p(K A− ∩ K A− ) TN Ⳏ p(K A− ) FP + TN : ^ p( TN) = p(K A − ∩ K A− ) p(FP ) = p(K A + ∩ K A− ) ^ Richtige Zuordnung (–; –) TN (wahre Negative) richtig als gesund identifizierte Gesunde Risiko: β falsche Zuordnung Typ 1 (+; –) FP (falsche Positive) fälschlich als krank bezeichnete Gesunde Risiko: 1 – β p(KA+) Sensitivität der Zuordnungsregel (Anteil der richtig diagnostizierten Kranken in der Gruppe der Kranken) KA(gesund) ^ p(FN) = p(K A− ∩ K A+ ) p( TP) = p(K A + ∩ K A+ ) ^ falsche Zuordnung Typ 2 (–; +) FN (falsche Negative) fälschlich als gesund bezeichnete Kranke richtige Zuordnung (+; +) TP (wahre Positive) richtig als krank identifizierte Kranke Grundrate K– (Diagnose »gesund«) p(K A+ ∩ K A+ ) TP Ⳏ p(K A+ ) TP + FN : Tatsächliche Zugehörigkeit KA+ (krank) Grundrate KÂ+ (Diagnose »krank«) Zuordnung aufgrund des Prädiktors . Tabelle 6.2. Arten richtiger und falscher Klassenzuordnung, zusammen mit den Zuordnungsregeln und Risiken für Fehlentscheidungen bei der statistischen Hypothesentestung. (Überarbeitet nach Kallus & Janke, 1992, S. 175 und 178) Die zentrale Aufgabe von Zuordnungsstrategien besteht darin, Fehler bei der Klassenzuordnung zu vermeiden. Derartige Fehler liegen immer dann vor, wenn die Zuordnung aufgrund der Prädiktorvariablen nicht mit der tatsächlichen Klassenzugehörigkeit übereinstimmt. Für den Fall von 2 Klassen sind in . Tab. 6.2 die 4 möglichen Kombinationen von Übereinstimmung/ Nichtübereinstimmung der Vorhersagen des 6.4 Sequentielle Entscheidungen lassen sich stets auf eine Folge einstufiger Klassenzuordnungen reduzieren. Deshalb genügt es, nachfolgend einige grundlegende Probleme nur für einstufige Strategien zu besprechen. Kapitel 6 · Zuordnungs- und Klassifikationsstrategien Fehler bei der Klassenzuordnung vermeiden 404 Sensitivität und Spezifität lassen sich unabhängig von den Grundraten oder der Prävalenz bestimmen; hingegen unterliegen die Prädiktions- oder Vorhersagewerte sehr stark deren Einfluss. Das wird sogleich deutlich, wenn man sich den Grundlagen der Selektion und dort insbesondere den Bemühungen von Taylor und Russell (1939) um eine Verbesserung der Effizienz von Auswahlentscheidungen zuwendet. Beide Autoren haben erstmals gezeigt (und dafür ausführliche Tabellenwerke erstellt), dass es auch bei Tests mit einer nur mäßigen Validität möglich ist, hochgradig effizient auszuwählen, d. h. weitgehend nur diejenigen Bewerber, die später auch erfolgreich sein werden. Voraussetzungen dafür sind allerdings hohe Grundraten der ohne Testung Erfolgreichen und eine niedrige Selektionsrate. Die Prinzipien sind schematisch in . Abb. 6.9 veranschaulicht. (Test und Kriterium sind hier – dem Regelfall entsprechend – positiv gepolt, d. h. höhere Werte stehen jeweils für höhere Leistungen im Test und höheren »Erfolg« im Kriterium. Um die Gegebenheiten aus . Tab. 6.2, wo es um die Identifikation von Krankheiten ging, darauf zu übertragen, müssten höhere Werte in T und K mit größerer Wahrscheinlichkeit von »Krankheit« gleichgesetzt werden, was durchaus Sinn macht, wenn man etwa Skalen für Krankheitsdisponiertheit einsetzt; die Erfüllung des Kriteriums »Krankheit« wäre in diesem Sinne der Vorhersage gemäß ein »Erfolg«, obwohl Krankheit als solche üblicherweise damit nicht gleichgesetzt wird.) Das Verhältnis der im Kriterium erfolgreichen Probanden zur Gesamtzahl aller Meßwertträger, also der Quotient (TP+FN)/N definiert die Basisrate; dafür ist auch die Bezeichnung »natürlicher Eignungsquotient« geläufig (»Success without use of test«). Die Effizienz der Auslese bemisst sich nach dem Anteil der Geeigneten an allen Ausgewählten, also gemäss TP/(TP+FP). Dieser Term heißt »selektiver Eignungsquotient«, und er ist, wie ein vergleichender Blick auf Tab. 6.2 lehrt, identisch mit dem dort aufgeführten »positiven Prädiktionswert«. Verändert man den Testtrennwert, der über Annahme oder Ablehnung entscheidet, von x1 zu x′1, so stellt sich ein positiver Prädik- Im Anschluss an . Tab. 6.2 sind die Gütekriterien aufgeführt, die zur Beschreibung einer Entscheidungsstrategie errechnet werden können (nach Noack & Petermann, 1992, S. 299): 4 Sensitivität: die Wahrscheinlichkeit, mit der ein vorliegender positiver Zustand als solcher erkannt wird. 4 Spezifität: die Wahrscheinlichkeit, mit der ein vorliegender negativer Zustand als solcher erkannt wird. 4 Positiver Prädiktionswert: die Wahrscheinlichkeit, mit der eine positive Diagnose zutreffend ist. 4 Negativer Prädiktionswert: die Wahrscheinlichkeit, mit der eine negative Diagnose zutreffend ist. Prädiktors mit der »wahren« Kategorienzugehörigkeit zusammengestellt, und zwar der besseren Anschaulichkeit halber mit den aus der klinischen Diagnostik dafür gebräuchlichen Begriffen. KA+ bzw. KA– bezeichnen die Kategorien der klinisch Kranken und Gesunden. KÂ+ und K– stehen für die aufgrund der Prädiktoren geschätzte Klassenzugehörigkeit. Demnach sind 2 Arten von Zuordnungsfehlern zu unterscheiden: 4 Fehler erster Art: FP = falsche Positive, d. h. Personen werden als krank bezeichnet, obwohl sie gesund sind. 4 Fehler zweiter Art: FN = falsche Negative, d. h. Personen werden als gesund diagnostiziert, obwohl sie der Krankengruppe angehören. 6.4 · Entscheidungsfehler Selektiver Eignungsquotient Effizienz der Entscheidungen Taylor-Russell-Tafeln Gütekriterien einer Entscheidungsstrategie Fehler 1. und 2. Art 405 6 6 Entscheidungsregeln Bedingte Fehlerzuordnungswahrscheinlichkeiten Bedeutung der Fehlerarten unterschiedlich TN FN x1 FP TP x1' x1'' T tionswert von 1,0 ein (d. h. alle durch den Test Ausgewählten sind auch tatsächlich erfolgreich). Dieser ist allerdings auch abhängig von der Grundrate, denn wenn diese anstelle von y1 durch den Kriteriumstrennwert y′1 definiert wäre, würde ein Trennwert x′1 noch einen kleinen Teil von FP mit auswählen (in der Abbildung andersfarbig schraffiert gekennzeichnet). Deshalb bedürfte es eines noch weiter hinausgeschobenen Testtrennwertes x″1, um auch bei der niedrigeren Rate natürlicher Eignung einen höchstmöglichen positiven Prädiktionswert zu gewährleisten. Es fällt also leichter, bei einer hohen Grundrate geeigneter Probanden effektiv im Sinne dieser Konzeption zu arbeiten, oder mit anderen Worten: Die Güte des Zuordnungsverfahrens hängt stark von der Grundrate ab. Was diese Güte angeht, so wird sie allgemein in dem Sinne definiert, dass eine Regel »zulässig« ist, wenn es keine andere gibt, die besser ist. »Besser« bedeutet mindestens so gute Trefferraten in jeder der Klassen und Überlegenheit in mindestens einer weiteren. Dabei können Nutzenerwägungen eine Rolle spielen, die Abhebung von Zufallstreffern oder eine besondere Gewichtung spezifischer Kategorien. So kann beispielsweise die Zuordnung zur Kategorie KÂ+ in . Tab. 6.2 als eine Entscheidung mit der größeren Bedeutung (»Alternativhypothese«) angesehen werden, weil nur dies die Einleitung einer Behandlung sicherstellt. Deshalb kommt es darauf an, die Wahrscheinlichkeit einer fälschlichen Nicht-Zuordnung zu dieser Klasse (also die Annahme der Nullhypothese bei gültiger Alternativhypothese) zu minimieren (= Fehler zweiter Art, FN, β-Fehler). Damit sind die Prinzipien der statistischen Hypothesenprüfung angesprochen. Um diese anwenden zu können, müssen die bedingten Fehlerzuordnungswahrscheinlichkeiten herangezogen werden. Das heißt, die in den Feldern von . Tab. 6.2 eingetragenen absoluten Wahrscheinlichkeiten müssen auf die jeweiligen Grundraten relativiert werden (woraus sich die Formeln im unteren Teil der Tabelle ergeben). Um die Fehler bei Zuordnungsverfahren gering zu halten, bieten sich mehrere Arten von Entscheidungsregeln an (nach Kallus & Janke, 1992, S. 179): y1 y1' K Kapitel 6 · Zuordnungs- und Klassifikationsstrategien . Abb. 6.9. Anteile von: Richtig klassifiziert Positiven (TP), falsch klassifiziert Positiven (FP), falsch klassifiziert Negativen (FN) und richtig klassifiziert Negativen (TN). Im Fall von FP lautet die Diagnose aufgrund des Tests »erfolgreich«, obwohl die Probanden im Kriterium nicht erfolgreich sind, im Fall von FN »nicht erfolgreich«, obwohl Erfolg tatsächlich vorliegt 406 p(x i /K A + ) >c p(x i /K A − ) (6.1) Wird c = 1 gesetzt, ergibt sich die Zuordnung nach dem Prinzip der maximalen Gruppenzugehörigkeitswahrscheinlichkeit. Durch Einsetzen anderer Werte für c lässt sich die Sensitivität zu Lasten der Spezifität und vice versa beeinflussen. Desgleichen können Multiplikatoren von c herangezogen werden, um Kosten-NutzenÜberlegungen mit einzubinden. Bei einer Berücksichtigung der Grundraten muss der Likelihood-Quotient anhand der empirischen Wahrscheinlichkeiten errechnet werden. 4 Regressionstechniken: Durch Einsetzen der individuellen Prädiktionswerte in die für das anstehende Problem ermittelte Regressionsgleichung werden individuelle Kriteriumswerte ermittelt. Die Zuordnung zu den Kategorien erfolgt durch Differenzbildung mit kritischen Kriteriumswerten. xi = Vektor aller Prädiktoren eines Individuums i. L(x i ) = Je nach diagnostischer Fragestellung ist einer der vorgenannten Regeln der Vorzug zu geben. Die Analyse von Zuordnungsfehlern setzt voraus, dass zuvor eine Zuordnung bereits stattgefunden hat. Diese kann sich verschiedener Methoden bedienen: 4 Zugehörigkeitswahrscheinlichkeiten: Auf der Basis von Wahrscheinlichkeitstafeln, wie sie Taylor und Russell (1939) erarbeitet haben, erfolgt die Zuordnung zu derjenigen Klasse, der das Individuum nach Maßgabe der Ausprägung im Prädiktor mit der größten Wahrscheinlichkeit angehört. Dafür wird der Likelihood-Quotient herangezogen: Likelihood-Quotient Zuordnungsmethoden Minimum-Loss Minimax 6 ROC-Kurve: Unabhängige Bestimmung von Spezifität und Sensitivität Cattellsche Formel Euklidische Distanz Kapitel 6 · Zuordnungs- und Klassifikationsstrategien 2 ⋅ χ 0,5( k )2σ 2 − D2 2 ⋅ χ 0,5( k )2σ 2 + D2 (6.3) Festsetzung von Testtrennwerten Je nachdem, zu welchem der Gruppenvergleichsprofile die größere Ähnlichkeit bzw. geringere Distanz besteht, geschieht die Zuordnung des Einzelfalles. Allerdings setzt die Berechnung der Distanz D die Unabhängigkeit der Prädiktoren voraus, die nur in den wenigsten Fällen vorliegen dürfte. Die Mahalanobis-Distanz als Verallgemeinerung der Euklidischen Distanz verlangt diese Voraussetzung nicht (zu den Details und Einschränkungen s. Kallus & Janke, 1992). k = Anzahl der Freiheitsgrade, σ = Standardabweichung der Profilnormen. ri = Desgleichen ist die von Lienert (1989) adaptierte Cattellsche Formel gebräuchlich: Aus der Beschäftigung mit den positiven Prädiktions- oder Vorhersagewerten bzw. dem selektiven Eignungsquotienten im vorangegangenen Abschnitt ist bekannt, dass sich diese Größen durch Verschiebung des Trennwertes vergleichsweise einfach verändern lassen: Je weiter der kritische Cut-off in Richtung auf das zu identifizierende Merkmal (z. B. Krankheit oder Eignung) hin angehoben wird, um so höher fallen die besagten Quotienten aus. Allerdings wird damit nur der Fehler einer falsch positiven Entscheidung (FP, . Abb. 6.9) ins Kalkül gezogen, nicht aber derjenige der falsch negativen. Zudem sind für die Festlegung des Testtrennwertes die Grundrate bzw. der natürliche Eignungsquotient von Bedeutung. Mit Hilfe der sog. ROC-Kurve (von Receiver-Operating Characteristic aus der Signal-Entdeckungs-Theorie; s. Schäfer, 1989) lassen sich simultan Spezifität und Sensitivität unabhängig von den Basisraten für verschiedene Testtrennwerte bestimmen, sofern aufgrund empirischer Untersuchungen die Verteilungskennwerte der unterschiedlichen Gruppen ermittelt werden konnten. In 6.5 (6.2) dj = Profildifferenz von 2 Probanden (oder Gruppen von Merkmalsträgern) in einem Test. D = ∑d j 2 gleichbar, nur noch einfacher. Denn durch Einsetzen der individuellen Testwerte in die Diskriminanzfunktion resultiert ein Wert, der entweder größer, gleich oder kleiner ist als der kritische Diskriminationswert, der die Klassen voneinander trennt. Entsprechend kann anhand des individuellen Diskriminationswertes unmittelbar die Zuordnung zu einer der Gruppen vorgenommen werden. 4 Ähnlichkeits- bzw. Distanzmaße: Häufig wird ein individuelles Testwerteprofil mit dem durchschnittlichen Profil verschiedener Gruppen von Personen (z. B. Schülern des sprachlichen oder mathematischen Zweiges; Angehörigen verschiedener Berufe; erfolgreichen und nichterfolgreichen Stelleninhabern usw.) verglichen. Dafür stehen verschiedene Maße zur Verfügung, z. B. das Ähnlichkeitsmaß (Euklidische Distanz) von Osgood und Suci (1952): Verschiebung des Entscheidungskriteriums 408 4 Diskriminanzanalyse: Das Verfahren ist demjenigen der multiplen Regression ver- 6 entscheidungen in die Klassenzuordnungsunterscheidung mit einzubeziehen. Sein Prinzip besteht darin, das Modell der statistischen Hypothesenprüfung auf die Klassenzuordnungsentscheidung anzuwenden. In Analogie zur Festlegung des kritischen Wertes der Teststatistik bei der Hypothesenprüfung wird das Entscheidungskriterium so verschoben, dass das Risiko für den Fehler erster Art unterhalb eines frei bestimmbaren Wertes liegt (z. B. α < 0,05 oder 0,01 usw.). Allerdings wächst mit der Reduzierung des Fehlers erster Art derjenige zweiter Art, und zwar in einem unbekannten Ausmaß. Deshalb ist ein solches Modell nur in Situationen sinnvoll, in denen Fehlentscheidungen zweiter Art vergleichsweise unbedeutend sind. In der klinischen Diagnostik dürften solche Fehler aber gravierendere Ausmaße aufweisen als diejenigen erster Art (weil die Vorenthaltung einer Behandlung im Zweifelsfall die Gefahr größerer Fehlentwicklungen beinhaltet als die Vornahme einer überflüssigen Behandlung und die damit möglicherweise einhergehende Stigmatisierung). 4 Nach dem Minimax-Kriterium wird der maximale Zuordnungsfehler (betrachtet in allen Klassen) möglichst klein gehalten. Der Betrag des größten Zuordnungsfehlers aller Klassen/Kategorien/Gruppen ist am geringsten. 4 Das Minimum-Loss-Kriterium minimiert die Zuordnungsfehler über alle Klassen hinweg. Dies kann im Vergleich zum Minimax-Kriterium bedeuten, dass eine Konstellation gewählt wird, bei der ein Zuordnungsfehler einer Kategorie/Klasse/Gruppe im Vergleich zu allen anderen relativ hoch ist. 407 4 Das Neyman-Pearson-Kriterium erlaubt es, unterschiedliche Risiken von Fehl- 6.4 · Entscheidungsfehler x2 x3 Testwert z. B. IQ mögliche Cut-off-Werte x1 Verteilung der positiven bzw. geeigneten Personen 1,0 0,0 b x3 x2 x1 ROC- Kurve 409 Die engen Beziehungen zur Fairness-Problematik liegen auf der Hand (7 Abschn. 2.3.2.2). »Die Festsetzung kritischer Trennwerte stellt somit ein Problem dar, für das es eine eindeutige Lösung nicht gibt, weil sie zugleich ein Werturteil erfordert, das nicht allein wissenschaftlich begründbar ist, sondern stets auch auf persönlichen, sozialen und ökonomischen Werten sowie auf praktischen Erwägungen beruht« (Wieczerkowski & Oeveste, 1982, S. 929f.). . Abb. 6.10a und b ist dafür ein Beispiel gegeben. Auf der Abszisse ist nicht die Spezifität, sondern die Rate Falsch-Positiver (=1-Spezifität) abgetragen. Wie ersichtlich, geht mit der Heraufsetzung des Testtrennwertes von X1 über X2 nach X3 ein Rückgang der Fehlerrate vom Typ 1, FP (d. h. eine Zunahme an Spezifität) sowie eine Zunahme der Fehler vom Typ 2, FN (d. h. eine Abnahme der Sensitivität) einher. Damit sind die betreffenden Kennwerte zwar »unter einen Hut gebracht«, doch bedarf es auch in solchen Fällen einer zusätzlichen Bewertung der einzelnen Ausgänge und Fehlermöglichkeiten, die völlig unabhängig von methodischen Zugängen ist. Wieczerkowski und Oeveste (1982, S. 929) zitieren ein Beispiel aus der Literatur zum Zusammenhang zwischen einem Prädiktor und dem Erfolg im Studium. Zwingen etwa die Kosten für die Ausbildung und knappe öffentliche Gelder dazu, das Risiko des Scheiterns möglichst niedrig zu halten, würden nur Bewerber zugelassen, bei denen die Wahrscheinlichkeit für Erfolg bei – sagen wir – 75% liegt; das hätte einen Trennwert von 112 zur Folge. Sprächen aber gesellschaftliche Werte und pädagogisch relevante Gründe dafür, den Schülern eine möglichst große Wahlfreiheit einzuräumen, könnte man sich auch mit einer nur ca. 25%igen Erfolgsaussicht zufrieden geben, was einem Trennwert von 82 entspräche. Im ersten Entscheidungsfall würde die Zahl fälschlich zugelassener Schüler verringert, aber der Anteil fälschlich abgewiesener erhöht, im zweiten der Anteil fälschlich abgewiesener vermindert und die größere Rate fälschlich zugelassener in Kauf genommen. 1,0 6 Kritische Trennwerte beinhalten Werturteile Zusätzliche Bewertung der möglichen Ausgänge Komplementäre Veränderung der Fehler Fehlerrate = 1 - Spezifität . Abb. 6.10a,b. Verteilungen von 2 Gruppen unterschiedlicher Eignung (a) für die eingetragenen Optionen möglicher Trennwerte (b) und ROC-Kurve (Aus Noack & Petermann, 1992, S. 300) a Verteilung der negativen bzw. ungeeigneten Personen 6.5 · Festsetzung von Testtrennwerten Sensitivität 6 Strategiematrix Nutzenfunktionen Nutzenerwägungen 1 > xiTe 0 0 ≤ xiTe 1 ≤ 2,5 1 0 0 0 0 0 1 0 .05 .90 .00 .80 .95 .05 .20 .10 – probabilistisch + !d +b –c alternativ Entscheidungen t > 2,5 Informationsklassen r Anmerkung. a Hohe Schulnoten stehen hier für gute Leistungen. b + = Akzeptieren (terminal). c - = Ablehnen (terminal) d ! = weitere Informationen einholen (investigatorisch). e x = Testtrennwert. iT Intelligenzquotient Schulnoten a Informationsquelle .00 .05 .80 .10 ! . Tabelle 6.3. Strategiematrix für zwei unterschiedliche Informationsquellen und dichotome bzw. kontinuierlich abgestufte Entscheidungswahrscheinlichkeiten Institutionelle und individuelle Entscheidungen werden getroffen, weil sich die jeweiligen Organisationen bzw. Personen im Fall richtiger Entscheidungen etwas davon versprechen, nicht zuletzt positive ökonomische Auswirkungen, also Gewinne, während bei falschen Entscheidungen die Gefahr von Verlusten droht. So mögen sich für ein Unternehmen die erheblichen Investitionen für das Auffinden, Abwerben und Einstellen einer fähigen Führungskraft um ein Vielfaches wieder auszahlen, wenn es die richtige Wahl war. Umgekehrt kann eine krasse Fehlbesetzung an wichtiger Stelle den Konzern an den Rand des Ruins bringen, wie viele Beispiele aus der Gegenwart anschaulich vor Augen führen. Auch individuelle Entscheidungen für Ausbildung und Beruf können sich in »Mark und Pfennig« bemerkbar machen, weil bei richtigen Entscheidungen unter sonst gleichen Voraussetzungen ein vergleichsweise höherer Erfolg als bei falschen zu erwarten steht. Cronbach und Gleser (1965) haben diese ökonomische Dimension bei institutionellen Entscheidungen formalisiert und Nutzenfunktionen entwickelt, mit deren Hilfe sich der Gesamtnutzen einer Entscheidungsstrategie bestimmen lässt. Dafür ist eine sog. Strategiematrix unabdingbare Voraussetzung. In ihr sind die Regeln festgehalten, nach denen auf der Basis von diagnostischen Informationen Entscheidungen getroffen werden sollen. Die Werte einer solchen Matrix geben die Wahrscheinlichkeit an, mit der ein Proband, von dem die Information xr vorliegt, der Behandlung t zugeführt wird: p(t|xr). In . Tab. 6.3 ist ein Beispiel für eine solche Strategiematrix wiedergegeben. Wie ersichtlich, verlangt die Strategie in der diskreten Formulierung, dass bei überdurchschnittlichen Schulnoten der Proband akzeptiert, bei unterdurchschnittlichen dagegen weiter untersucht wird. Im Fall der IQ-Testung ist eine solche investigatorische Entscheidung nicht vorgesehen. Anstelle der imperativen 0/1-Regel sind auch probabilistische Verknüpfungen möglich, wie sie im rechten Teil der Tabelle angegeben sind. 6.6 Kapitel 6 · Zuordnungs- und Klassifikationsstrategien Gewinne bei richtigen Entscheidungen 410 p(1/2t) >xiTe ≤xiTe p(2/2t) p(2/1t) .35 .15 .20 p(3/2t) p(3/1t) .30 .25 .05 nicht erfolgreich (3) 1.00 .50 .50 Summe U ec = Utility, = Nutzen der Kriteriumsleistung c, II III U = N∑p(x r )∑p(t|x r )∑p(c|x r ,t )ec − N∑p(x r ) ⋅ cr r t c r IV I (6.4) Darüber hinaus bedarf es einer Verknüpfung zwischen den vorgenommenen Behandlungen und deren Ergebnis, gleichsam dem Erfolg im Kriterium. Diese Verknüpfung wird festgehalten in der sog. Validitätsmatrix. Deren Einträge geben die Wahrscheinlichkeit dafür an, dass ein Proband mit xr und der Behandlung t den Kriteriumswert cr erlangt: p(c|xr,t). Die Kriteriumswerte können im einfachsten Fall dichotome Kategorien (erfolgreich/nicht erfolgreich; gesund/krank) bilden; möglich sind auch kontinuierliche Abstufungen. . Tabelle 6.4 gibt ein Beispiel für eine Validitätsmatrix. Analoge Matrizen müssten auch für die beiden anderen Behandlungen in . Tab. 6.3 angefertigt werden. (Daraus werden bereits die empirischen Schwierigkeiten deutlich, denn die Abgelehnten kommen möglicherweise auf einem anderen Weg, z. B. in einer anderen Schule, doch zum Erfolg.) Schließlich ist es erforderlich, jeder Kriteriumsklasse C einen Nutzenvektor ec und jeder Informationsklasse einen Kostenvektor cc zuzuordnen. Der Nutzen ist der Wert, der sich bei jeder Stufe des Kriteriums für die auslesende Institution ergibt; die Kosten gelten den Aufwendungen, die zur Gewinnung der jeweiligen Information notwendig sind. Eine erfolgreiche Führungskraft, eingestellt im Alter von 45 Jahren, kann dem Unternehmen vielleicht 500.000 € wert sein (jährliches Gehalt von 100 000 € mal 20 absehbare Berufsjahre. Vermutlich stellt dieser Ansatz jedoch eine Unterschätzung dar, weil der Mitarbeiter angeworben wurde, um den Profit des Unternehmens zu mehren, er also »mehr wert« ist, als es seinem Gehalt entspricht) und eine mäßig erfolgreiche Kraft vielleicht nur die Hälfte, während ein Versager mit einem Minusbetrag von angenommen 500.000 € zu Buche schlägt. Wichtig ist, dass Nutzen und Kosten auf derselben Skala abgetragen sein und mindestens Intervallniveau aufweisen müssen. Für monetäre Einheiten, also Geld, sind diese Erfordernisse erfüllt. Gestützt auf die Eintragungen in der Strategiematrix und den Validitätsmatrizen sowie die Werte des Nutzen- und Kostenvektors lässt sich die folgende nichtparametrische Nutzenfunktion aufstellen (nach Crombach & Gleser, 1965, S. 24): .35 .10 .25 p(1/1t) Testwerte weniger erfolgreich (2) Kriteriumsklassen C erfolgreich (1) Informationsklassen . Tabelle 6.4. Beispiel einer Validitätsmatrix für die Behandlung tA (Annahme), zwei Informations- und drei Kriteriumsklassen. In den Feldern der Matrix bedingte Wahrscheinlichkeiten für das Eintreten der Ereignisse 6.6 · Nutzenerwägungen Voraussetzungen: Intervall-Skalen-Niveau Vektoren für Nutzen und Kosten Validitätsmatrix 411 6 6 Netto-Nutzen A-priori-Nutzen Nutzenmodell von Brodgen = Wert aus der Validitätsmatrix für die Behandlung t, = Wert aus der Strategiematrix, = Wahrscheinlichkeit der Informationsklasse r, = Kosten für die Einholung der Information r, = Anzahl der Probanden, auf die die Strategie angewendet wird, = erwarteter Nutzen eines Individuums im Kriterium, wenn es sich in Informationsklasse r befindet und es der Behandlung t zugeführt wird, = erwarteter Nutzen eines Individuums in der Informationsklasse r, = erwarteter Nutzen eines Individuums (= Mittelwert über Kriteriumsklassen, Behandlungen und Informationsklassen), = erwartete Kosten zur Informationseinholung über einen Probanden. = durchschnittlicher Nutzen, den ein Proband bei Treatment A (Annahme) der Institution bringt, = Streuung der erwarteten Nutzenwerte, = Korrelation zwischen Prädiktor und (Nutzenunterschieden im) Kriterium, et(A), se, rxe müssen vor der Testanwendung in der Grundgesamtheit bestimmt werden, = Ordinate der Standardnormalverteilung im (standardisierten) Testtrennwert xiT, = Selektionsrate beim Trennwert xiT, = Kosten. (6.5) (6.6) (6.7) Geteilt durch die Zahl der getesteten Probanden, erhält man den Nettonutzen »per man tested« (Cronbach & Gleser, 1965, S. 308), also pro untersuchte Person. Wie aus den Gleichungen hervorgeht, spielen die Validität des Tests, die Variabilität der Nutzen und die Selektionsquote für den Nutzen eine Rolle; wenn beispielsweise die Selektionsquote extrem hoch oder niedrig ist, kann auch der Einsatz eines hochvaliden Tests keinen Nutzen bringen. U − U o = N ⋅ s e ⋅ rxe ⋅ V( xiT) − NC x Der Nutzen durch Anwendung des Tests (Nettonutzen) an N Probanden bemisst sich deshalb als U o = Nφ( xiT) e t ( A ) Der A-priori-Nutzen ist jener, der daraus resultiert, wenn N · φ(xiT) Personen aus der Grundgesamtheit durch Zufall ausgewählt werden: φ(xiT) C V(xiT) se rxe et(A) U = N ⋅ s e ⋅ rxe V( xiT) + N ⋅ φ( xiT) e t ( A ) − NC x Wenn Nutzen und Kosten mit der Zahl der untersuchten Probanden multipliziert werden, so ergibt die Formel den erwarteten Nettonutzen einer Strategie, insoweit diese auf eine Gruppe von N Individuen angewendet wird. Werden für die Informations- und Kriteriumskategorien Kontinuitätsannahmen gemacht, konstante Kosten für alle Probanden unterstellt und eine lineare Beziehung zwischen Testwerten und Nutzen angenommen, dann geht das Modell in dasjenige von Brogden (1949) über. Dessen zentrale Formel lautet: IV II III p(c|xr,t) p(t|xr) p(xr) cr N I Kapitel 6 · Zuordnungs- und Klassifikationsstrategien Nettonutzen einer Strategie 412 Zwischenzeitlich sind die geschilderten Modelle unter anderem durch die Berücksichtigung des Zeitfaktors und des Kalkulationszinsfußes sowie den Einfluss der Gewinnsteuern und die Diskontierung für sofort anfallende Kosten präzisiert worden (s. die Übersicht bei Boudreau, 1991). Auch sind wesentliche Fortschritte erzielt worden bei der Methodik zur Bestimmung der Leistungsstreuung. Die Voraussetzung des linearen Zusammenhanges zwischen Prädiktor und Nutzen wird vielfach nicht erfüllt sein. Etwa ist denkbar, dass an Probanden gewisse Mindestanforderungen gestellt werden müssen, d. h. erst ab einem bestimmten Testwert steigt die Regressionsgerade sprunghaft an. Auch sind Gegebenheiten leicht vorstellbar, bei denen eine umgekehrt U-förmige Regressionslinie besteht, weil vielleicht die im Test besonders leistungsfähigen Probanden durch die auszuführende Tätigkeit unterfordert werden und deshalb mäßigere Kriteriumsleistungen erbringen. Abgesehen von diesen spezifischen Gesichtspunkten bereitet es größte Schwierigkeiten, die Werte für die Validitätsmatrizen zu erhalten, denn es darf für deren Bestimmung keine vorherige Selektion gemäß der Entscheidungsstrategie vorgenommen worden sein, oder mit anderen Worten: Die in Betracht kommenden Personen hätten (nach Zufall) auf die vorhandenen Treatments aufgeteilt und längsschnittlich begleitet werden müssen, um die Erfolgsraten adäquat ermitteln zu können. Neben diesem Grundsatzproblem stellt sich die Bestimmung der Geldwertäquivalente als vergleichsweise einfach dar. Zumindest die Kosten scheinen hier auf den ersten Blick in den Griff zu bekommen sein (. Abb. 6.11), weil leicht zu eruieren ist, was man für den Test selbst sowie für dessen Administration und Auswertung bezahlen muss. Korrekterweise müssten allerdings auch die Aufwendungen für die Entwicklung eines Verfahrens und die Ausbildung des Diagnostikers umgelegt werden. Schwerer zu beziffern ist dagegen der Verlust, der bei (richtiger oder fälschlicher) Abweisung entsteht. Cronbach und Gleser (1965, S. 36 ff.) stellen im Hinblick darauf lapidar fest: 6.6 · Nutzenerwägungen 6 . Abb. 6.11. Die praktischen und finanziellen Konsequenzen einer »Fehlbesetzung« von verantwortungsvollen Positionen können beträchtlich sein Bestimmung der Geldwertäquivalente Linearität des Zusammenhanges 413 6 Kalkulation der Nutzenwerte Kostensenkung durch Psychotherapie Dies ist ein sehr einfacher Ansatz, der der bisherigen Praxis in Institutionen allerdings wohl noch am besten gerecht wird. Betriebswirtschaftlich müsste man von Opportunitätskosten sprechen im Sinne eines dadurch entgangenen Gewinns, dass ein geeigneter Bewerber fälschlicherweise nicht angenommen worden ist. Für den Bildungsbereich und auch für therapeutische Zwecke ist eine direkte Übertragung eines solchen Ansatzes, der die institutionelle Perspektive verfolgt, nicht prinzipiell ausgeschlossen, selbst wenn weiterhin eine angemessene Berücksichtigung auch der individuellen Kosten und Nutzen in den Modellen nicht geleistet wird. In gewissen Grenzen müssen zudem individuelle Verluste als gesellschaftliche Kosten verstanden werden, weil in einem Sozialstaat der Einzelne nicht einfach seinem Schicksal überlassen bleibt, auch wenn er von einer oder mehreren Institutionen abgewiesen wurde. In einem solchen Sinne und unter Heranziehung von Anhaltspunkten über die Effektivität eines Trainings bzw. die relative Wirksamkeit einer Behandlung konnte gezeigt werden, dass sich durch psychotherapeutische Intervention bei Alkoholismus, bei Asthma bronchiale, Angst- und Panikattacken sowie psychosomatischen Störungen die Kosten, die anderenfalls durch Inanspruchnahme von stationären medizinischen Diensten, Arbeitsunfähigkeit und Frühberentung entstanden wären, in ganz erheblicher Weise senken ließen (7 die Übersicht bei Amelang, 1999). Die Kalkulation der Nutzenwerte ist bei elementaren Leistungen (wie z. B. Stückzahlen im Akkord oder am Fließband) noch vergleichsweise einfach, bereitet aber auch bei komplexeren Tätigkeiten keine unüberwindlichen Schwierigkeiten. So war in der Studie von Brandstätter (1970) die durchschnittliche Gesamtleistung der nach Schulzeugnis und psychologischen Tests ausgewählten Rechtspfleger um ca. 16.000 DM nützlicher als die Durchschnittsleistung der nur nach dem Schulzeugnis ausgewählten Bewerber - doch orientierte sich die Untersuchung am Erfolg in der Ausbildung und nicht demjenigen in der beruflichen Praxis. Gösslbauer (1981) beziffert den Nutzen der Auswahl für Studienplätze auf den negativen Betrag von U = –115.700.000 DM. Demgegenüber erzielte ein biographischer Fragebogen, der zur Auswahl von Mitarbeitern einer Versicherungsgesellschaft benutzt wurde und eine inkrementelle Validität von nur r = .18 im Vergleich zu den Daten aus den Bewerbungsunterlagen und Erstgesprächen aufwies, für 3 Anwendungsperioden und 4 Jahre Wirkung einer Anwendung einen Netto-Barwert-Nutzen von nicht weniger als einer halben Million DM; das Verhältnis von Kosten zu Erträgen lag bei 1:5 (s. Barthel & Schuler, 1989). Für ein neues Auswahlverfahren in Forschung und Entwicklung ermittelten Schuler, Funke, Moser und Donat (1995) selbst unter der Annahme ungünstigster Bedingungen (Durchführung nur eines Assessment Centers pro Jahr mit 10 Bewerbern, von denen die Hälfte angenommen würde; inkrementelle Validität r = .20) noch einen Gewinn von nahezu 100.000 DM für das Unternehmen. Weitere Anwendungsbeispiele finden sich bei Weinstein und Fineberg (1980). Hunter und Schmidt (1992) haben die beträchtlichen Auswirkungen auf die Produktivität einer ganzen Nation herausgestellt, wenn die Arbeitsplätze auf den unterschiedlichen Ebenen der Beschäftigungshierarchien nach Gesichtspunkten einer optimierten Platzierung vergeben werden. Ein anderer Ansatz zur Schätzung des Nutzens bezieht sich nicht auf die Parameter der Cronbach- und Gleser-Gleichungen, sondern geht von einer durchschnittlichen volkswirtschaftlichen Wertschöpfung jedes unselbstständig Beschäftigten von ca. »Die Entscheidung, einen Bewerber zurückzuweisen, bedeutet meist, dass er keinen weiteren Kontakt mit der Institution hat. Wir können daher das Ergebnis einer solchen Entscheidung so betrachten, als habe es einen Wert von Null.« Kapitel 6 · Zuordnungs- und Klassifikationsstrategien Individuelle und gesellschaftliche Kosten und Nutzen 414 Abschließende Bemerkungen Entscheidungstheoretische Prinzipien haben in der psychologischen Praxis bislang keine breite Anwendung erfahren. Das liegt unter anderem daran, dass beispielsweise im klinisch-therapeutischen Alltag, z. T. aber auch im Bildungswesen - abgesehen von Grobkategorien wie Gesprächs- oder Verhaltenstherapie, ambulant oder stationär vorgenommene Behandlungen usw. - keine klar abgrenzbaren Treatments vorliegen. Die einzelnen Behandlungen können zudem in der Interaktion von Therapeut und Klient individuell abgewandelt werden, so dass es eine unüberschaubare Zahl von Interventionsmöglichkeiten gibt, für die die Erfolgschancen im einzelnen unmöglich ermittelt werden können. Gleiches gilt für die noch vorgeordnete Problematik einer Quantifizierung bedingter Wahrscheinlichkeiten für die Zugehörigkeit zu einzelnen Klassen. Angesichts dieser grundsätzlichen Probleme verlassen sich viele Praktiker bei der Bewältigung der einzelnen Fälle auf ihre »Erfahrung« und verschreiben sich somit mehr den sog. klinischen als den statistischen Verfahrensweisen. Ein Ansatz, dabei wenigstens Nutzenerwägungen praktisch umsetzen zu können, besteht in der sog. MAUT-Technik (Multi-Attributive Utility-Technique; s. Slovic et al., 1977). Dabei werden alle bedeutsam erscheinenden Aspekte von Nutzen (und nicht nur der ökonomische) zunächst generiert und im Hinblick auf ihre Wichtigkeit eingeschätzt. Das Produkt aus relativer Wichtigkeit eines Aspektes und aus dem Nutzen der Alternativen für diesen Aspekt wird für jede Behandlungsalternative errechnet. Der höchste Wert gibt den Ausschlag dafür, welche Intervention angewendet wird. 6.7 Insgesamt handelt es sich bei den Nutzenfunktionen um einen eminent wichtigen Beitrag, der die psychologische Diagnostik um die ökonomische Dimension erweitert. Sie wird in einer Zeit zunehmenden Wettbewerbes in allen Bereichen menschlichen Handelns eine weiter wachsende Bedeutung erfahren. So überzeugend die vorgetragenen Überlegungen und Modelle auch sind, wirft die konkrete Ermittlung der relevanten Parameter doch schwierige Fragen auf. Deren Beantwortung geschieht in weitem Maße auf höchst unsicherer Grundlage, so dass es sich bei dem Gewinn an Präzision durch Anwendung der Formeln partiell um eine nur scheinbare Genauigkeit handelt. Davon abgesehen lenken die Modelle von Cronbach und Gleser (1965) den Blick auf die Notwendigkeit, dass sich psychologische Diagnostik im weitesten Sinne auch »rechnen« lassen muss. Dabei ist es aber dringend geboten, die institutionelle Perspektive durch die individuelle zu ergänzen. Fazit 60.000 DM aus. Nimmt man nur eine Leistungssteigerung von 5% durch den Einsatz psychologischer Diagnostik an (eine Marge, die unschwer zu erreichen sein dürfte), so ergibt sich daraus ein Nutzen von 3.000 DM pro Besetzungsentscheidung und Jahr oder – für den Fall einer 10jährigen Verweildauer auf der neuen Position – von 30.000 DM für jeden psychodiagnostisch ausgewählten Mitarbeiter. Davon müssen zwar die Investitionen und die Kapitalverzinsung eines Unternehmens für die Anstellung eines Psychologen sowie die für dessen Arbeit notwendigen zusätzlichen Ressourcen abgezogen werden, doch verbleibt immer noch ein Netto-Überschuss in zweistelliger Milliardenhöhe für die Volkswirtschaft durch psychodiagnostische Eignungsauswahl (Wottawa, 1997). 6.7 · Abschließende Bemerkungen 6 MAUT-Technik Entscheidungstheoretische Prinzipien bisher kaum angewandt Erwiesener Nutzen von psychodiagnostischer Eignungsauswahl für Volkswirtschaft 415 (S.432-438) Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression (S.427-430) Moderation: Identifikation von Personengruppen mit einer besonders hohen Vorhersagbarkeit (S.420-427) Kontextuelle Faktoren und technische Verbesserungen Probleme und Differenzierungen von Prognosen 7 Beispiel: Extravertiertes Verhalten unter hohem vs. niedrigem situativem Druck Auslesesituation: Konformes Verhalten angeregt Projektive Tests: Individuelles Verhalten angeregt Kontextuale Faktoren und technische Verbesserungen Bei projektiven Tests, wie den Klecksbildern von Rorschach (o.J.), den Bildern des Thematischen Apperzeptionstests von Murray (1936) oder den Aufnahmen des FotoHandtests von Belschner (1970), sind bereits die Wahrnehmungsvorlagen unbestimmt oder unscharf, um auf diese Weise den Probanden einen höchstmöglichen Spielraum für ihre persönlichkeitseigene »Deutung« einzuräumen. Umgekehrt üben Konkurrenz- und Auslesesituationen für die Beantwortung von Persönlichkeitsfragebogen offenkundig einen so massiven Druck im Hinblick auf die Abgabe sozial erwünschter Antworten aus, dass die Testwerte für die ins Auge gefassten Ziele unbrauchbar sind. (In dieser Hinsicht sind Leistungstests den Persönlichkeitsfragebogen grundsätzlich überlegen: Man kann darin nicht »nach oben« schwindeln, d. h. einen fähigeren Eindruck erwecken, als es aufgrund der individuellen Kompetenzen möglich ist.) Monson et al. (1982) sind diesem Aspekt gezielt nachgegangen. In 2 experimentell realisierten Bedingungen bestand für die Versuchspersonen ein hoher situativer Druck in Richtung auf extravertiertes bzw. introvertiertes Verhalten; eine dritte Situation war diesbezüglich neutral. Mit der von unabhängigen Beurteilern eingeschätzten Gesprächigkeit der Versuchspersonen während der experimentellen Aufgabe korrelierten die präexperimentell (also unter diagnostischen Standardbedingungen) erhobenen Extraversionswerte numerisch nur unter jener Situation befriedigend und signifikant (r=.56 gegenüber .18 und .38), die für die Versuchspersonen unbestimmt und mehrdeutig war. Dieser Effekt war, wie nicht anders zu erwarten, hauptsächlich durch die zwangsbedingt verminderte Streuung der Kriteriumswerte verursacht. In einer zweiten Studie der Autoren fungierten insgesamt 4 Papier- und Bleistiftszenarien als Kriterien, zu denen die Versuchspersonen ihre wahrscheinlichste Verhaltensweise angeben mussten. So sollten sich die Probanden vorstellen, an ihrer Universität, an der sie gerade neu eingeschrieben ten zu zeigen, schwinden traitgeleitete individuelle Verhaltensunterschiede. ! Besteht in einer gegebenen Situation ein hoher Druck, ein bestimmtes Verhal- Bestimmte Situationen engen den Verhaltensspielraum in einem Maße ein, dass interindividuelle Unterschiede nahezu verschwinden. Damit aber droht der Ansatz sinnfrei zu werden, auf der Basis von Eigenschaftsmaßen Vorhersagen und Varianzaufklärung vornehmen zu wollen. So stellt z. B. Rotlicht bei Verkehrsampeln für alle Kraftfahrer einen »starken« Stimulus mit hohem Uniformitätsdruck dar. Ähnlich verhält es sich mit dem Erscheinen des Pfarrers in der Kirche oder dem Heben des Taktstocks durch den Dirigenten, was i. Allg. alle Unterhaltungen binnen kurzem verstummen lässt. Diese Erwartung konformer Verhaltensweisen kann auch zum Konzept von prototypischen Situationen gewendet bzw. verallgemeinert werden (s. Schutte et al., 1985), die ganz spezifische Verhaltensmuster nahelegen bzw. mit unterschiedlich starkem Nachdruck verlangen (. Abb. 7.1a–c). Wenn dabei allerdings der situative Druck soweit geht, traitgeleitete Unterschiede in Handlungstendenzen obsolet zu machen (Stagner, 1977), schwindet die individuelle Variabilität und damit die Aussicht, diese durch Testmaße aufklären zu können. Vielmehr verlangt der eigenschaftstheoretische Ansatz außerhalb des Leistungsbereiches zwingend solche Situationen, die eher schwach oder uneindeutig strukturiert sind und für verschiedene Individuen eine unterschiedliche Bedeutung aufweisen. Diese Forderung gilt gleichermaßen für die Erhebung von Prädiktor- wie von Kriteriumsmaßen. 7.1.1 Verhaltensvariabilität 7.1 Kapitel 7 · Probleme und Differenzierungen von Prognosen Situativer Druck führt zu Verhaltenskonformität 420 c a b 7.1 · Kontextuale Faktoren und technische Verbesserungen 7 . Abb. 7.1a–c. Intraindividuelle Variabilität erklärt sich häufig als Folge veränderter situativer Anforderungen(a, b). Mitunter verlangt der situative Kontext interindividuelle Uniformität des Verhaltens (c) 421 7 . Abb. 7.2. Mittlere Korrelation zwischen einem Punktwert im Verhaltensprätest und (selbstberichteten) »Kriteriumsmaßen« als Funktion des Kriteriumsumfanges (1, 2, 3 oder 4 Szenarien) und der Wahrscheinlichkeit, eine vorhersagbare (nicht durch Druck gekennzeichnete) Situation zu enthalten 1 2 3 4 Alle Kriterien Kriterien, die mindestens eine vorhersagbare Situation enthalten Umfang des Kriteriums (aggregierte Verhaltensszenarien) Kriterien, die keine vorhersagbare Situation enthalten .00 0.1 0.2 0.3 0.4 0.5 seien, wäre eine »get acquainted-party« für den Samstagabend anberaumt worden. Sie hätten bis dahin noch kaum eine Gelegenheit gehabt, die Bekanntschaft anderer Leute zu machen, und diese Veranstaltung böte die Chance, gleich viele auf einmal kennenzulernen. Druck in Richtung auf extra- und introvertiertes Verhalten wurde dadurch erzeugt, dass Zusatzinformationen gegeben wurden wie: die meisten anderen Kommilitonen würden einen ermutigt haben, zur Party zu gehen, der nach wie vor begehrte Ex-Partner würde die Veranstaltung ebenfalls besuchen, bzw. dass der Besuch der Party mit den Verpflichtungen des Studiums kollidieren oder die Wahrnehmung eines Teilzeitjobs unmöglich machen würde. Im Mittel der 4 Szenarios korrelierten die unbeeinflusst erhobenen Extraversionstestwerte mit dem Verhalten unter schwachem Druck zu r = .42, mit dem unter starkem Druck geäußerten (Kriteriums-)Verhalten zu r = .12, was insofern die früheren Resultate bestätigte bzw. weiter differenzierte. Zusätzlich bedeutsam war die Frage, wie die Kombination der Szenarios zu unterschiedlich großen »Aggregaten« (7 7.1.3) die Validität beeinflussen würde. Die Resultate sind in . Abb. 7.2 zusammengestellt. Wie die Resultate lehren, beeinflusst die Zahl der situativen Zusatzinformationen mit den jeweils gewählten Verhaltensweisen, die in ein Kriterium eingehen, nicht wesentlich die Korrelation (»Validität«), wenn die Wahrscheinlichkeit konstant gehalten wird, dass im Kriterium eine vorhersagbare und damit nicht durch Druck gekennzeichnete Situation enthalten ist. Sofern die Wahrscheinlichkeit für das Vorhandensein einer Kapitel 7 · Probleme und Differenzierungen von Prognosen Einfluss des Kriteriumsumfanges auf die Validität von Verhaltenstests 422 Durchschnittliche Korrelationen In einer zwischenzeitlich sehr bekannt gewordenen Untersuchung haben Pryor et al. (1977) das Ausmaß von selbstzentrierter Aufmerksamkeit dadurch erhöht, dass ein Teil der Probanden beim Ausfüllen von inhaltsvaliden Tests zur Soziabilität einen Spiegel vor sich auf dem Tisch stehen hatte (. Abb. 7.3). Gegenüber einem wenige Tage später erhobenen Verhaltensmaß zur Soziabilität (Kombination aus Fremdrating und Zahl von Worten in einer Wartesituation) korrelierten die unter den üblichen Bedingungen gelieferten Fragebogenpunktwerte nur gering (r = .16). Hingegen war die Korrelation für die Probanden hoch (r = .62; Differenz signifikant), die während der ersten Sitzung mit einem Spiegel konfrontiert waren. »Die Induktion selbstzentrierter Aufmerksamkeit scheint also bei einem inhaltsvaliden Messverfahren ein Instrument zu sein, die Vorhersagevalidität eines Selbstberichtes zu erhöhen« (Wicklund, 1977, S. 402). Weitere Experimente haben entsprechende Resultate auch zu anderen Eigenschaftsdimensionen erbracht (u. a. Wicklund, 1982). Solche Befunde nähren den Verdacht, dass die üblicherweise für Fragebogen gegebene Instruktion, bei der Beantwortung »nicht lange nachzudenken«, einen folgenschweren Missgriff darstellt. Damit hoffen Testautoren implizit, Überlegungen auf Seiten der Probanden, welche Antwort sie in einem günstigeren Licht erscheinen lassen würde, abzukürzen. Aber vieles spricht da- 7.1.2 Aktuelle Selbstaufmerksamkeit Sofern es nicht um Leistungen geht, müssen die kontextualen Rahmenbedingungen sowohl bei der Erhebung der Prädiktor- als auch derjenigen der Kriterienwerte von einer Art sein, die individuelle Unterschiede in der Häufigkeit, der Intensität und dem Stil des Verhaltens hervortreten lässt. Nur unter diesen Voraussetzungen ist es sinnvoll, mit Hilfe des eigenschaftstheoretischen Ansatzes Varianzaufklärung bzw. Verhaltensvorhersagen vornehmen zu wollen. Hilfreich ist die zusätzliche Erfassung der subjektiven Besonderheiten bei der Wahrnehmung und Verarbeitung der Informationen über die Anforderungsmerkmale einer Situation. Fazit vorhersagbaren Situation 1.0 beträgt (7 obere Linie in Abb. 7.2), verändert sich die Korrelation nicht bedeutsam mit einer Zunahme im Umfang des Kriteriums. Gleiches gilt, wenn die besagte Wahrscheinlichkeit .00 beträgt (untere Linie), das Verhalten also in allen Szenarien durch hohen situativen Druck beeinflusst wird. Variiert jedoch die Wahrscheinlichkeit für vorhersagbare Situationen, stellt sich die typische Beziehung zwischen Höhe der Korrelation und Umfang des Kriteriums ein. Aber auch stark einengende Situationsfaktoren mögen individuell verschieden aufgenommen und interpretiert werden. Deshalb ist eine Berücksichtigung der als Mediatoren zwischen Persönlichkeitseigenschaften und konkreten Verhaltensweisen fungierenden individuellen Perzeptionen und Kognitionen zweckmässig. Mischel (1977) hat vorgeschlagen, das individuelle Kategorisierungsverhalten von Situationen festzuhalten, ferner die Erwartungen, die durch bestimmte Situationen geweckt und im Hinblick auf antizipierte Handlungsfolgen gehegt werden. Soweit hier allgemeinere Strategien für Klassen von Situationen ausfindig gemacht werden könnten, ist eine Operationalisierung vergleichbar mit derjenigen zu den generalisierten Erwartungen Rotters (1954) (internale vs. externale Bekräftigungsüberzeugung, zwischenmenschliches Vertrauen) naheliegend. 7.1 · Kontextuale Faktoren und technische Verbesserungen 7 Bedenkzeit bei Fragebogen durchaus sinnvoll Selbstaufmerksamkeit erhöht Validität von Selbstberichten Berücksichtigung individueller Perzeptionen und Kognitionen 423 7 Aggregation von Kriteriumsverhalten Reliabilitätsverbesserung auf Prädiktorenseite Die Prinzipien der Reliabilitätsverbesserung durch Verlängerung von Skalen sind seit Spearman-Brown (7 2.1.1.4) allgemein bekannt. Sie wurden auf die verschiedensten Prädiktoren ganz selbstverständlich immer wieder angewendet. Es bedurfte jedoch des Beitrages von Epstein (1979), um deren Effektivität auch auf der Seite der Kriterien drastisch vor Augen zu führen: Wurde die Stabilität des vorherzusagenden Verhaltens durch Aggregation (d. h. durch Mittelung prinzipiell ein und desselben Verhaltens über mehrere Beobachtungszeitpunkte) auf ein akzeptables Niveau gehoben, stellten sich bei einigen Skalen Test-Kriteriums-Korrelationen um rtc = .40 bis .50 ein – aber nur unter eben den besagten Bedingungen (= Reliabilitätserhöhung durch Aggregation über »occasions« mit indirekten Auswirkungen auf die Validität). Eine substantielle 7.1.3 Aggregation von Maßen ! Die Validität von Selbstbeschreibungen kann durch Induktion erhöhter Selbstaufmerksamkeit während der Testsituation gesteigert werden. für, dass gerade Antworten im Sinne sozialer Erwünschtheit sehr rasch gegeben werden können, sodass im Zweifelsfall durch die Tempobetonung eher reflektive Gedanken über die eigene Persönlichkeit unterbunden werden, was die Validität der Selbstbeschreibung beeinträchtigen müsste. Auch wenn bislang bei einer Variation der Instruktion »spontanes Antworten« vs. »genaues Überlegen« nur Mittelwertsunterschiede, aber keine Validitätsdifferenzen gefunden wurden (s. Krämer & Schneider, 1987, deren Stichprobenumfänge allerdings für die zufallskritische Absicherung von Korrelationsunterschieden viel zu klein waren), kann für die psychodiagnostische Praxis eine sinnvolle Empfehlung nur darin bestehen, durch geeignete Massnahmen, wie z. B. ein einführendes Gespräch oder eine ausführlichere Exploration, situative Rahmenbedingungen dafür zu schaffen, dass die Testperson sich selbst in möglichst adäquater Weise beschreiben kann. Kapitel 7 · Probleme und Differenzierungen von Prognosen . Abb. 7.3. Eine erhöhte Selbstaufmerksamkeit kann die Validität von Selbstbeschreibungen erhöhen 424 1 Geleitet von verschiedenen Techniken der Validitätserhöhung und der dabei erzielten Erfolge sind noch folgende Wendungen in der Literatur gebraucht worden: »Predicting more of the people more of the time« (Bem & Funder, 1978), »On predicting most of the people much of the time« (Epstein, 1979), »Vorhersagen für einige Personen in vielen Merkmalen« (Amelang & Borkenau, 1981a) und »Vorhersagen für einige Personen in einigen Dimensionen« (Borkenau & Amelang, 1983), doch ein Beitrag etwa des Inhalts »Predicting all of the people all of the time« ist noch in Vorbereitung (Bem & Funder, 1978). Ein durchgängiger Argumentationsstrang der bisherigen Ausführungen ging dahin, dass durch Erhöhung der Reliabilität im Prädiktor und/oder Kriterium im Regelfall auch Validitätsgewinne zu erwarten sind, und zwar unbeschadet der Prinzipien des sog. »Verdünnungsparadoxons« (zur Wechselbeziehung zwischen Reliabilität und Validität 7.1.4 Validität ohne Stabilität ! Reliabilitätserhöhungen durch Aggregation über Beobachtungszeitpunkte, Verhaltensweisen und Situationen können zu einer substantiellen Erhöhung der Validität führen. Erhöhung der Validität lässt sich auch erzielen, wenn auf seiten der Prädiktoren und/ oder Kriterien über »modes« aggregiert wird. So fasste beispielsweise Moskowitz (1982) Verhaltensweisen wie Kommandieren, Nahelegen, Drohen u. Ä. zu »multiple referents« für Dominanz als der einen Dimension und Hilfesuchen, Berühren, Aufmerksamkeit heischen etc. für Abhängigkeit als einer anderen Dimension zusammen. Mit diesen durch mehrere Indikatoren repräsentierten Traitmaßen korrelierten die Einzelindizes wesentlich höher als paarweise untereinander. Im Grunde entspricht das einer Berechnung von Trennschärfekoeffizienten bzw. Iteminterkorrelationen. Dabei ist im vorliegenden Fall die für Persönlichkeitsfragebogen (also: selbstberichtetes Verhalten) wiederkehrend angestellte Beobachtung auch auf fremdbeobachtetes Verhalten übertragbar: Sogenannte »single acts« in Form einzelner Verhaltensweisen, selbst- oder fremdeingeschätzt, korrelieren infolge ihrer geringen Stabilität und hohen Spezifität nur relativ niedrig miteinander, hingegen vergleichsweise hoch mit dem »Aggregat« oder »Konglomerat« anderer für das Konstrukt einschlägiger Verhaltensweisen. Die Summierung über verschiedene Verhaltensweisen bewirkt nicht nur eine Erhöhung der Reliabilität, sondern auch eine solche der Heterogenität und inhaltlichen Breite, mit der Folge höherer Validitäten und transsituativer Verhaltenskonsistenzen. Diese Regeln standen auch bei der Entwicklung der Multiple Act Criteria (Fishbein & Ajzen, 1974) sowie einer Multiple Act Criterion Scale (Jaccard, 1974) Pate. Schließlich kommt noch die Aggregation über Situationen in Betracht. Bei einer Klumpung von Verhaltensstichproben aus verschiedenen Situationen konnte Moskowitz (1982) die transsituative Konsistenz der Maße für Dominanz beträchtlich erhöhen. »The strategy used in this study (provided) average predictions of moderate accuracy for many people« bemerkt Moskowitz (1982, S. 765) in Abwandlung des bekannten Titels der Arbeit von Bem und Allen (1974): »On predicting some of the people some of the time.«1) Wie Schwenkmezger (1984) allerdings feststellt, ist die Aggregation über Situationen nur sinnvoll, wenn das Durchschnittsverhalten in einer Klasse von ähnlichen Situationen interessiert; hier kann durch Reduktion des Messfehlers die Vorhersagegenauigkeit erhöht werden. Steht hingegen die Reaktion von Individuen in ganz spezifischen Situationen im Vordergrund des Interesses, verdeckt eine solche Aggregation eher die situationsspezifischen Varianzanteile. 7.1 · Kontextuale Faktoren und technische Verbesserungen 7 Aggregation über Situationen Erhöhung von Reliabilität, Heterogenität und inhaltlicher Breite Validitätserhöhung durch multipel repräsentierte TraitDimensionen 425 7 . Abb. 7.4. Schwankungen der Messwerte von 4 hypothetischen Probanden um einen gemeinsamen Mittelwert. ----/––– denkbare Schwellen (Aus Wottawa & Hossiep, 1987, S. 14) Andere Indizes zur Reliabilitätsbestimmung 6 Die referierten Untersuchungen belegen an inhaltlichen Beispielen die Prinzipien, die bereits in allgemeiner Form unter den methodischen Gesichtspunkten (7 oben die Ausführungen zur Reliabilität) behandelt wurden. Sie zeigen, dass für eine Reliabilitätserhöhung primär eine Aggregation von (ein und demselben) Verhalten über Fazit 7 Abschn. 2.3.3). Nun sind aber Fälle denkbar, für die hohe Reliabilitätsanforderungen im Sinne von Reteststabilitäten dysfunktional oder abwegig sind, weil diese dem spezifischen Anspruch, sensitiv auf Änderungen anzusprechen, nachgerade entgegenstehen. Dieses trifft auf die Verfahren zur Erfassung von States zu. Gerade weil sich die aktuellen Zustände durch eine gewisse Flüchtigkeit, also Instabilität auszeichnen, kann hier die Retestung kein angemessener Zugang zur Abschätzung der Stabilität sein. Generell gilt das für alle Fälle, in denen der wahre Wert nennenswerte Oszillationen aufweist, wie es z. B. auch für Schwankungen der Aufmerksamkeit unterstellt werden kann. Wottawa und Hossiep (1987) haben dies, wie es in . Abb. 7.4 zu sehen ist, veranschaulicht. Das Beispiel ist so gewählt, dass die 4 Probanden zwar denselben Mittelwert aufweisen, aber mit unterschiedlicher Wellenlänge um das mittlere Niveau oszillieren. Es ergibt sich eine Nullstabilität, wenn 2 beliebige Zeitpunkte herausgegriffen und miteinander in korrelative Beziehung gesetzt werden, obwohl die Muster der Schwankungen für sich idealtypisch stabil sind. In solchen Fällen, in denen also die herkömmlichen Reliabilitätsschätzungen als Anteil der wahren an der Messwertevarianz versagen, müssen andere Indizes gewählt werden. Einfach wäre es, für das in der Abbildung gewählte Beispiel die jeweils höchste Amplitude während eines längeren Beobachtungsausschnittes zu wählen (was zu 2 unterschiedlichen Scores führt) und 2 derartige Messstrecken miteinander zu vergleichen. Aufwändiger sind Verfahren wie die Fourier-Analysen, bei denen die beobachtbaren Schwankungen spektralanalytisch, d. h. in Anteile von Frequenzbändern zerlegt werden, was in der EEG-Forschung eine der Standardtechniken darstellt. Eine Übersicht der Kennwerte zur Charakterisierung derartiger Modelle gibt u. a. Sammer (1994). Kapitel 7 · Probleme und Differenzierungen von Prognosen Änderungssensitivität bei der Erfassung von States 426 427 7 Moderation: Identifikation von Personengruppen mit einer besonders hohen Vorhersagbarkeit Moderatorvariablen: Einfluss auf die Validität Leistungsbereichs nach Testsituationen, die eher schwach oder uneindeutig strukturiert sind und durch verschiedene Individuen mit verschiedenen Bedeutungen ausgefüllt werden. Werden traitgeleitete Unterschiede in Handlungstendenzen durch situativen Druck obsolet gemacht, sinkt die individuelle Variabilität und damit die Vorhersagemöglichkeit durch einen Testwert. Ad 2. Pryor et al. (1977) stellten einem Teil der Probanden (Versuchsgruppe) beim Ausfüllen eines inhaltsvaliden Fragebogens zur Soziabilität einen Spiegel auf den Tisch, in dem sie sich selber sehen konnten. Gegenüber einem wenige Tage später erhobenen Verhaltensmaß zur Soziabilität erwies sich die Vorhersagevalidität (Korrelation der Fragebogenwerte mit dem Verhaltensmaß) in der Versuchsgruppe als sehr viel höher als in der Kontrollgruppe, deren Selbstaufmerksamkeit nicht gezielt erhöht worden war. Ad 3. Wenn das Durchschnittsverhalten von Individuen in einer Klasse von ähnlichen Situationen interessiert; nicht jedoch, wenn die Reaktion von Individuen in ganz spezifischen Situationen im Vordergrund steht. ! Ad 1. Der eigenschaftstheoretische Ansatz verlangt außerhalb des Erstmals ist es Ghiselli (1963) gelungen, ein gesondertes Testverfahren zu konstruieren, nach dessen Punktwert entschieden werden konnte, für welche Probanden in einer Stichprobe von Taxifahrern (aus deren Punktwerten in Leistungstests) Vorhersagen über das Ausmaß der allgemeinen Fahrtauglichkeit möglich waren und für welche nicht. Der fragliche Teil war damit ein Test zur individuellen Prognostizierbarkeit, weil er mit der Differenz zwischen den jeweils standardisierten Leistungspunktwerten und den Kriteriumswerten für Fahreignung oder, was dasselbe ist: Mit dem Zusammenhang zwischen diesen beiden Messwertreihen korrelierte. Seitdem hat es an Bemühungen zum Auffinden solcher Moderatorskalen, die also mit der Validität korrelieren, nicht gefehlt. Häufig waren die Befunde jedoch nicht replizierbar, was u. a. daran liegt, dass teils die Suche nach Moderatoren vorwiegend 7.2 3. Wann ist die Aggregation von Verhaltensweisen über Situationen zur Erhöhung der Validität sinnvoll? sind an Testsituationen zu stellen, wenn mit Hilfe des eigenschaftstheoretischen Ansatzes Verhaltensvorhersagen gemacht werden sollen? 2. Wodurch wurde in der Untersuchung von Pryor et al. (1977) selbstzentrierte Aufmerksamkeit erzeugt und welche Auswirkungen hatte sie auf die Vorhersagevalidität? ? 1. Welche Anforderungen Übungsfragen (zu Abschn. 7.1) verschiedene Zeitpunkte ein probates Mittel darstellt. Teils als Konsequenz davon, teils durch die zusätzliche Aufnahme anderer Verhaltensweisen im Prädiktor sowie im Kriterium bietet die Aggregation über Modes die Aussicht auf eine zusätzliche Steigerung der Validität. Erfolgt zudem eine Aggregation über Situationen, so wird dieses die Validität gegenüber einem breiten Spektrum möglicher Kontextbedingungen allgemein positiv beeinflussen, und zwar zu Lasten von einzelnen (im Vergleich zu vielen und verschiedenen) Kriterien. 7.2 · Moderation: Identifikation von Personengruppen 7 Die einfachste und deshalb in der Literatur am häufigsten verwendete Methode bei der Suche nach Moderatorfunktionen besteht darin, die Gesamtstichprobe nach Maßgabe einer theoretisch belangvollen Variablen in (meist 2–3) homogenere Subgruppen aufzuteilen und für jede dieser Untergruppen getrennt die Test-Kriteriums-Korrelationen zu ermitteln. Unterscheiden sich diese Validitätskoeffizienten signifikant voneinander, so übt die Teilungsvariable einen bedeutsamen Moderatoreffekt aus. Im Falle der Untersuchung von Todt (1966; 7 Beispiel) trifft dies auf die Differenz R = .11 und R = .63 Frederiksen und Melville (1954) hatten herausgefunden, dass sich relativ zwanghafte Studenten in allen Lehrfächern nahezu gleichmäßig einsetzten, und zwar ungeachtet ihrer jeweiligen Interessensschwerpunkte, während sich nichtzwanghafte Personen nur gemäß ihrer Neigungen engagierten. Das legt die Hypothese nahe, dass sich akademische Leistungen nichtzwanghafter Studenten aus Interessentests viel besser vorhersagen lassen als diejenigen ihrer zwanghaften Kommilitonen – was auch der Fall war. An dieser Beobachtung knüpft Todt (1966) an. Seinen Erhebungen zufolge war die mittlere Schulnote von Schülern ein Jahr vor dem Abitur aus ganz unterschiedlichen Prädiktorenkombinationen vorhersagbar, je nachdem, ob es sich um Besucher des sprachlichen oder naturwissenschaftlichen Zweiges handelte. Bei den Sprachlern ergab die optimale Gewichtung von 6 Skalen des Differentiellen Interessentests (7 3.2.5) mit einer Subskala aus dem Differentiellen Kenntnistest und dem Intelligenztest von Wilde (s. Jäger & Todt, 1964) eine multiple Korrelation von R = .44; hingegen bestand die optimale Prädiktorenkombination bei den Naturwissenschaftlern aus 3 Intelligenz- und 4 Kenntnissubskalen, die zu R = .38 mit dem Kriterium korrelierten. Daraus ließ sich unter Bezugnahme auf die Befunde aus den USA die Hypothese ableiten, dass Zwanghaftigkeit nur bei den Sprachlern die Validität der Prognosebatterie (die fast nur aus Interessentests bestand) moderieren würde, nicht aber bei den Naturwissenschaftlern, weil deren Interessen für die Vorhersage des Schulerfolges praktisch ohne Belang waren. Als Diagnostikum der Zwanghaftigkeit stand die Skala Rigidität von Brengelmann und Brengelmann (1960) zur Verfügung. In der Tat errechnete sich für die relativ rigiden Schüler aus dem sprachlichen Zweig ein R = .11, hingegen für die relativ flexiblen ein R = .63. In der Gruppe der Naturwissenschaftler lauteten die Koeffizienten R = .44 bzw. .51 – was die Hypothese in überzeugender Weise bestätigte. Innerhalb der Sprachler wiesen somit zwar Interessen den besten Vorhersagewert auf, und zwar im deutlichen Unterschied zu den Naturwissenschaftlern, doch waren diese für flexible Schüler von wesentlich größerer Bedeutung als für rigide. Diese Studie belegt nachdrücklich, dass es innerhalb von größeren Personengruppen Substichproben mit ganz unterschiedlicher Vorhersagbarkeit gibt. Sie wirft aber auch die Frage auf, welche Instrumente bei den nur mäßig prognostizierbaren Personen erfolgreich angewendet werden können. Die Vorhersage des Schulerfolges bei rigiden und flexiblen Schülern Beispiel »blind-analytisch« vor sich ging, teils einige methodische Probleme bei der Verwendung von Moderatorvariablen ausser acht gelassen wurden (s. Zedeck, 1971). Einiges spricht dafür, dass positive Resultate dann zu erwarten sind, wenn theoriegeleitet geforscht wird (7 Beispiel). Kapitel 7 · Probleme und Differenzierungen von Prognosen Suche nach Moderatoreffekten 428 Saunders (1956) hat deshalb ein Modell vorgeschlagen, mit dem die eben geschilderten Unzulänglichkeiten regressionsanalytisch umgangen werden. Zentral darin ist der Gedanke, die Steigung der einfachen linearen Regression eines Kriteriums auf einen Prädiktor mit Hilfe einer weiteren Variablen, dem Moderator, zu beschreiben. Das Modell ist für diesen einfachsten Fall in . Abb. 7.5 grafisch veranschaulicht. ! Zur Identifikation einer Moderatorvariablen ist die Fraktionierung einer Stichprobe dann sinnvoll, wenn die zu prüfende Variable alternativ oder mehrklassig diskret ist. Ist die Variable kontinuierlich-quantitativ abgestuft, ist ein regressionsanalytisches Modell besser geeignet. zu, die auf dem 5%-Niveau signifikant ist. Dementsprechend stellt die Rigiditätsskala eine Moderatorvariable dar. Die Methode einer solchen Fraktionierung von Gruppen ist immer dann angemessen, wenn die auf ihre potentielle Moderatorfunktion geprüfte Variable alternativ (z. B. Geschlecht: männlich/weiblich) oder mehrklassig diskret ist (z. B. ethnische Herkunft: kaukasoid/negroid/ mongolid; Körperbau: pyknisch/leptosom/athletisch). Handelt es sich bei der Unterteilungsvariablen aber um eine Skala mit kontinuierlich-quantitativen Abstufungen (so z. B. der Rigiditätstest in der Todtschen Studie), weist die Fraktionierungsmethode einige Nachteile auf. Vorrangig ist diesbezüglich die Vergrößerung des Stichprobenfehlers zu nennen, die es nach Halbierung oder Drittelung der Gesamtstichprobe reichlich erschwert, Unterschiede zwischen den dann relativ kleinen Substichproben zufallskritisch abzusichern. Zudem erfolgt die Trennung am Median bzw. an Perzentilwerten in gewisser Weise willkürlich, jedenfalls nicht nach psychologisch plausiblen Ableitungen. Es kann nämlich kaum davon ausgegangen werden, dass sich mit der Überschreitung beispielsweise des Medians in einer Verteilung kontinuierlich abgestufter Werte die zugrundeliegenden Prozesse in einem qualitativen Sprung ändern. Darüber hinaus hängt der jeweilige Trennungspunkt davon ab, welche Probanden mit welchen Merkmalsausprägungen jeweils Eingang in die Untersuchungsstichprobe gefunden haben. Ferner erlaubt eine Zwei- oder Dreiteilung nicht die Beschreibung der Moderatorfunktion in Art einer mathematischen Funktion, ganz abgesehen von den Problemen, die sich daraus ergeben mögen, dass die potentielle Moderatorvariable vielleicht selbst mit dem Kriterium und/oder den Prädiktoren korreliert. 7.2 · Moderation: Identifikation von Personengruppen 7 . Abb. 7.5. Räumliche Darstellung einer moderierten Regression des Kriteriums Y auf den Prädiktor X bei linearer Moderatorfunktion der Variablen Z: Die Steigungskoeffizienten der Regressionsgeraden AB, CD, EF, GH, IJ, KL und MN stellen eine lineare Funktion von Z dar. (Aus Bartussek, 1970, S. 59) Regressionsanalytisches Modell Fraktionierung von Stichproben 429 7 Prüfung quadratischer Moderatorfunktionen Vorhersage mit Prädiktor- und Moderatorvariablen Lineare Regressionsgleichung (7.1) b = d + fZ (7.2) a = c + eZ (7.3) (7.5) (7.4) Die Formel (7.5) entspricht einer herkömmlichen Regressionsgleichung für die Vorhersage des Kriteriums Y auf der Basis von 3 Prädiktoren. Neben X und Z sind die individuellen Kreuzpunkte zwischen X und Z als dritter Prädiktor hinzugekommen. Durch die Multiplikation der X- und Z-Werte trägt dieser Prädiktor jenen Anteil zur Vorhersage des Kriteriums bei, der sich analog zu den varianzanalytischen Wechselwirkungen experimenteller Versuchspläne interpretieren lässt. Sofern die multiple Korrelation zur Vorhersage des Kriteriums Y aus X und Z durch Hinzunahme des Terms XZ signifikant ansteigt, liegt mit der Skala Z ein bedeutsamer Moderator vor. Bartussek (1970) hat dieses Modell auf die Prüfung quadratischer (also U- bzw. umgekehrt U-förmiger) Moderatorfunktionen erweitert. Inhaltlich bedeutet das die Hypothese einer unterschiedlichen Prognostizierbarkeit der Probanden, die auf der Moderatorvariablen extrem niedrig oder hoch scoren im Vergleich zu denjenigen im Mittelbereich. Solche Gegebenheiten liegen etwa im Fall des Antwortstils Akquieszenz bei der Bearbeitung von Fragebogen vor: Die ausgeprägten »Ja-Sager« sind den notorischen »Nein-Sagern« (»Yeah-« vs. »Nay-Sayer«) insofern ähnlich, als sie vom Iteminhalt offenkundig keine rechte Notiz nehmen und statt dessen in stereotyper Weise nur mit einer individuell präferierten Antwortkategorie reagieren. Von daher wäre für Ŷ = c + dX + eZ + fXZ Nach Auflösen der Klammern und Umstellen der Formel erhält man Ŷ = (c + eZ) + (d + fZ)X Die Formel (7.3) beschreibt die unterschiedlichen Schnittstellen der Regressionen Y auf Z mit der Regressionsfläche Y auf X (die Geraden AM, OP, QR, ST und BN in . Abb. 7.5). Setzt man (7.2) für b und (7.3) für a in (7.1) ein, so ergibt sich: Z Eine Änderung des b in (7.2) aufgrund der linearen Abhängigkeit von Z hat eine Änderung von a in (7.1) zur Folge, da sich durch die Drehung der Regressionslinie für jeden Z-Wert andere Schnittpunkte der Regressionsgeraden mit Y ergeben müssen. Auf diese Weise entspricht jedem Zb ein bestimmtes Za, sodass gilt: f = Ausmaß der Änderung von Zb mit Z, d = Zb für Z = 0. Z Die Steigung b dieser Regressionsgeraden soll nun eine lineare Funktion des Moderators Z sein, sodass sich auf jeder Stufe von Z eine andere Steigung Zb ergibt: Ŷ = a + bX. Die Steigungskoeffizienten der Regressionsgeraden AB, CD, EF usw. bis MN stellen eine lineare Funktion von Z dar (aus Bartussek, 1970, S. 59). Für die Prüfung der Frage, ob in Gestalt der Variablen Z ein potentieller Moderator vorliegt (d. h. eine Variable, von der der Steigungskoeffizient byx linear abhängt), sind folgende Erwägungen bzw. Ableitungen anzustellen: Die lineare Form einer Regression von Y auf X lautet bekanntlich (7 S. 57 ff.): Kapitel 7 · Probleme und Differenzierungen von Prognosen Lineare Moderatorfunktion 430 7 Suppression Paradoxe Qualität von Prädiktoren Validitätsverbesserung durch mehrere Prädiktoren Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression Ad 2. Zentral ist der Gedanke, die Steigung der einfachen linearen Regression eines Kriteriums auf einem Prädiktor mit Hilfe einer weiteren Variablen, dem Moderator, zu beschreiben. theoretisch belangvollen Variablen in homogene Subgruppen aufzuteilen bzw. zu fraktionieren und für jede dieser Gruppen getrennt die Test-Kriteriums-Korrelationen zu ermitteln. ! Ad 1. Sie besteht darin, die Gesamtstichprobe nach Maßgabe einer 6 Eines der ersten empirischen Beispiele für Suppression berichtet Horst (1966) aus den Versuchen, im Zweiten Weltkrieg den Erfolg von Ausbildungsprogrammen für Piloten vorherzusagen. In einer dieser Studien bestand die Testbatterie aus 4 Mechanical ability (M), 4 Numerical ability (N), Validitätsgewinn durch Unterdrückung irrelevanter Prädiktorenvarianz Beispiel Die Kombination von verschiedenen Prädiktoren führt bekanntlich dann zu besonders markanten Zuwächsen an Validität, wenn jede einzelne der herangezogenen Skalen bereits für sich selbst möglichst hoch mit dem Kriterium und möglichst niedrig mit den anderen Prädiktoren korreliert. In einem solchen Fall deckt jeder Prädiktor einen anderen Aspekt des Kriteriums ab, was sich für die Validität der Testbatterie als Ganzes sehr positiv auswirkt. Ähnliche Konsequenzen ergeben sich aber auch dann, wenn die Rahmenbedingungen gegenteiliger Art sind, nämlich Variablen in eine Testbatterie zusätzlich aufgenommen werden, die mit dem Kriterium niedrig, aber möglichst hoch mit den anderen Prädiktoren korrelieren. Weil die Validitätserhöhung in einer derartigen Konstellation trotz (oder, wie noch zu zeigen sein wird, gerade wegen) der Nullkorrelation mit dem Kriterium auftritt, handelt es sich gleichsam um eine paradoxe Qualität. Sie kommt dadurch zustande, dass aufgrund der hohen Korrelation einer oder mehrerer zusätzlicher Variablen mit den übrigen Prädiktoren deren kriteriumsirrelevante Varianzanteile gebunden oder unterdrückt werden; dementsprechend heisst die Bezeichnung für dieses Phänomen der Validitätssteigerung »Suppression«. 7.3 Methode bei der Suche nach Moderatorfunktionen, wenn die auf die Moderatorfunktion geprüfte Variable alternativ oder mehrklassig diskret ist? 2. Welches ist der zentrale Gedanke in Saunders’ Modell (1956) für Skalen mit kontinuierlich-quantitativen Abstufungen? ? 1. Welches ist die einfachste (zu Abschn. 7.2) schen Verfahren, die gerade das Letztere leisten, ist bislang allerdings ein empfindlicher Mangel zu beklagen. Kapitel 7 · Probleme und Differenzierungen von Prognosen Übungsfragen 432 nc n x + nc ⋅ n y + nc (7.7) 7 = .44. 9+7 ⋅ 9+7 Wenn 8 der 9 für die Vorhersage des Kriteriums durch p irrelevanten Elemente durch den Suppressor erklärt werden (p–s), der für sich selbst keinerlei Überlappung mit dem Kriterium aufweist, lauten die Korrelationen wie folgt: rpc = Im Beispiel von . Abb. 7.6 besteht das Kriterium c aus insgesamt 16 Elementen, von denen 7 mit dem Prädiktor gemeinsam sind (c–p). Der Prädiktor setzt sich gleichfalls aus 16 Elementen zusammen, von denen 9 für das Kriterium irrelevant sind (8×(p–s) + 1p). Gemäß (7.7) errechnet sich daraus die Korrelation nx = Zahl der Elemente spezifisch für x, ny = Zahl der Elemente spezifisch für y, nc = Schnittmenge der Elemente aus x und y. rxy = Das Zustandekommen von Suppressionseffekten kann auf methodische Weise mit Hilfe eines Scheibchendiagramms und durch Rückgriff auf die Interpretation von Korrelationen als Folge gemeinsamer Elemente (McNemar, 1962) veranschaulicht werden (. Abb. 7.6). Die allgemeine Formel für die »Common-elements-Korrelation« lautet: Die ersten 3 Faktoren korrelierten positiv mit dem Kriterium. Verbales Geschick stand mit dem Kriterium nicht in Beziehung, korrelierte aber mit den anderen Skalen. Trotz der Nullkorrelation zwischen verbalen Leistungen und dem Trainingserfolg verbesserte die Hinzunahme von Verbal ability die Validität der Batterie erheblich. Horst interpretierte diesen Effekt psychologisch, indem er feststellte, dass die verbalen Fähigkeiten zwar mit dem Ergebnis des Flugtrainings nichts zu tun haben mochten, wohl aber eine hohe Ausprägung in V den Erhalt hoher Punktwerte in den übrigen Prädiktoren begünstigte, und zwar vermutlich über das bessere Verständnis der Testinstruktion und der allgemeinen Prinzipien zum Lösen der Aufgaben. Von daher kam es darauf an, eben jene durch V »verursachten« Varianzanteile zu eliminieren bzw. von der sonstigen Prädiktionsvarianz abzuziehen. Denn für den Flugtrainingserfolg war es wichtig, hohe Punktwerte in erster Linie in den Skalen M, N und S zu erzielen, weil damit Komponenten abgedeckt werden, die für die Steuerung eines Flugzeuges unabdingbar sind. Hingegen war es eher irrelevant für die Vorhersage, wenn Probanden hohe Punktwerte in der Batterie hauptsächlich durch ihre verbalen Fähigkeiten erreichten. In der Tat führte der Abzug der Varianz zu Lasten von V, d. h. ein negatives β-Gewicht in der Linearkombination der Prädiktoren, zu einer bedeutsamen Validitätsverbesserung der Gesamtbatterie. 4 Spatial ability (S) und 4 Verbal ability (V). 7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression Prädiktor-Kriterium Common-elementsKorrelation Methodische Veranschaulichung des Suppressoreffekts 433 7 7 Klassischer Fall: Suppressorvariable wird abgezogen Erhöhte Validität durch Suppressoreffekt Suppressor-Kriterium Prädiktor-Suppressor c c c c c c-p c-p c-p c-p c-p c c-p c-p p s 7 = .62. 1+ 7 ⋅ 9 + 7 Bei der Ermittlung der Regressionsgleichung auf der Basis der bivariaten Korrelationen zeigen die Vorzeichen der Regressionsgewichte (0,66p–0,50s), dass die gewichtete s-Variable von den Prädiktorwerten abgezogen werden muss, um die kriteriumsirrelevante Varianz zu entfernen. Das stellt den »klassischen Fall« des Suppressionsparadigmas dar. Eine Quelle möglicher Konfusionen tut sich aber auf, wenn alle Variablen mit negativen β-Gewichten in Prädiktionskombinationen als »negative Suppressoren« bezeichnet werden. Lubin (1957) und Darlington (1968) verfahren so und belegen mit diesem Begriff solche Variablen, die positiv mit dem Kriterium, aber negativ mit anderen Prädiktoren korrelieren. Das mag deshalb zu Missverständnissen führen, weil zahlreiche Dimensionen außerhalb des Leistungsbereiches bipolarer Art sind, wie an Skalen zur Erfassung von Einstellungen oder Persönlichkeitsmerkmalen sowie kognitiven Stilen zu erkennen ist, deren Scorungsrichtung und positive Bewertung innerhalb gewisser Grenzen von willkürlichen Festlegungen abhängt. Auf diese Weise aber könnte ein Prädiktor (wie z. B. Extraversion oder Flexibilität) durch einfache Reflektion zu einem Suppressor (Introversion bzw. Rigidität) konvertiert werden. Zur Vermeidung solcher konzeptueller Unschärfen soll hier an der restriktiven Definition eines Suppressors festgehalten werden, in der die Nullkorrelation mit dem Kriterium eine entscheidende Rolle einnimmt. rpc = Weil es bei der Korrelation zwischen s und c keine gemeinsamen Elemente gibt, steht im Zähler der Common-elements-Korrelation zwischen Suppressor- und Kriteriumsvariablen Null, deshalb: rsc = 0,00. Nun lässt die Betrachtung von . Abb. 7.6 erkennen, dass es trotz der Irrelevanz von s für c nützlich ist, die »frei schwebenden« Elemente in p, d. h. jene, die keine Kommunalität mit c zeigen, durch s zu »binden«. In einem solchen Fall weist p nur noch 8 andere Elemente auf (1p sowie 7c–p), und die Prädiktor-Kriteriums-Korrelation beläuft sich dann auf suppressor (s) p-s p-sp-s p-s p-s p-s p-s p-s 8 = .67. 8 + 8 ⋅ 1+ 8 criterion (c) c rps = c c predictor (p) Kapitel 7 · Probleme und Differenzierungen von Prognosen . Abb. 7.6. Veranschaulichung der Korrelation zwischen je einer Prädiktor-, Suppressor- und KriteriumsVariablen als Folge gemeinsamer Elemente. (Aus Conger & Jackson, 1972, S. 582) 434 1− rps 2 rcp − rcsrps (7.8) rcp 1− rps 2 (7.9) 2 1− rcs rcp − rcs ⋅ rps 1− rps 2 (7.10) 6 Unter idealen Suppressorbedingungen vereinfacht sich (7.10) ebenfalls zu (7.9). Bei suboptimalen Gegebenheiten muss der resultierende Koeffizient etwas höher ausfallen als (7.8), weil im Vergleich zum Partkoeffizienten im Nenner rcs zusätzlich berücksichtigt wird. rc( p ⋅ s ) = Die Formel (7.9) besagt, dass der Partkoeffizient immer dann höher als rcp (= die Validität) ausfällt, wenn rps ungleich Null ist. Soll der Einfluss einer Drittvariablen aus 2 anderen Variablen herausgezogen werden (z. B. der Suppressor gleichermaßen aus dem Prädiktor und dem Kriterium), ist die Partialkorrelation angemessen, also rc( p ⋅ s ) = Falls die Korrelation zwischen s und c Null beträgt (= ideale Suppressorvoraussetzung), vereinfacht sich (7.8) zu c = Kriterium, p = Prädiktor, s = Suppressor (oder Variable, die eine kleinere Korrelation mit c aufweist als p). rc( p ⋅ s ) = Die Formel für die Partkorrelation lautet: Wie Conger und Jackson (1972) deutlich gemacht haben, bestehen enge Beziehungen zwischen dem Suppressionskonzept und der Part- bzw. Partialkorrelation: Wird nämlich der Einfluss einer Variablen von einer anderen eliminiert und mit einer dritten Variablen korreliert, liegt eine Konstellation vor, in der eine Partkorrelation angemessen ist (. Abb. 7.7). Genau das ist auch das Rationale für Suppressoreffekte. Zur Beziehung der Suppression zu Part- und Partialkorrelation Exkurs 7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression 7 . Abb. 7.7. Konstellation für eine Partkorrelation sowie einen Suppressoreffekt. P = Prädiktor, C = Kriterium, S = Suppressor Partialkorrelation Partkorrelation 435 7 . Abb. 7.8. Zunahmen an Validität (Ordinate) als Funktion der Korrelationen zwischen Suppressor und Prädiktor (rps; Abszisse) sowie der originalen Test-Kriteriums-Validitäten (Linienschwarm) Ausmaß der Validitätssteigerung 1− rps 2 rcp 2 + rcs 2 − 2rcprcsrps (7.11) 0,00 0,20 0,40 0,60 0,80 1,00 0,20 0,98 0,95 -1– 0,40 0,92 δ = rcp ((1-r 2sp ) 2 -1) 0,995 δ = r'c·sp - rcp 0,87 0,60 0,80 0,70 0,80 0,60 0,50 0,40 0,30 1,00 0,20 0,10 rps Das Ausmaß der möglichen Validitätssteigerung durch einen Suppressor hängt nicht nur von der Enge der Korrelation zu den anderen Prädiktoren der Batterie ab, sondern auch von der originalen Prädiktor-Kriteriums-Validität. Die dafür maßgeblichen Funktionen sind aus . Abb. 7.8 ersichtlich. Wenn die Validität beispielsweise mit rcp = .40 gleich hoch ist wie die Interkorrelation rps, bedeutet das einen Zugewinn um rund 0,04 Einheiten oder ca. 10%. Erst bei sehr hohen Werten für rps fallen die Validitätszunahmen ernsthaft ins Gewicht. Eben diese Voraussetzung aber war in den bislang durchgeführten empirischen Untersuchungen nicht erfüllt (s. die Zusammenstellung bei Holling, 1981), weshalb die Resultate insgesamt höchst unbefriedigend ausgefallen sind. Um dafür ein Beispiel zu geben: In einer äußerst aufwändigen Studie prüfte Vagt (1974) die Hypothese, ob Aspekte der Testangst und Testmotivation als Suppressoren wirken. Zusätzlich zu vorliegenden Skalen entwickelte er eigens Fragebogen u. a. zur Erfassung von Angst vor der R = rc( p⋅s ) = Bei Verletzung der idealen Suppressorbedingungen liefert, wie bei einem Vergleich der beiden Formeln deutlich wird, die multiple Korrelation den höheren Validitätskoeffizienten: Kapitel 7 · Probleme und Differenzierungen von Prognosen Mulitiple Korrelation 436 rcq 2 rcp + rcq 2 2 (7.13) (7.12) Das bedeutet nichts Anderes, als dass die Suppressorvarianz 4mal soviel Varianz im Prädiktor wie der zweite Prädiktor an Varianz im Kriterium erklären muss, um den gleichen Effekt in Bezug auf die Validitätssteigerung zu erzielen. rps 2 = Werden die Zuwächse miteinander gleichgesetzt, so gilt: p = 1. Prädiktor, q = 2. Prädiktor (und potentieller Suppressor). δ p = rc⋅pq − rcp ⋅ rcp2 + rcq 2 − rcp Testsituation und den Testkonsequenzen, vor Psychologen und unangenehmer Selbsterkenntnis bzw. Tests zur Feststellung der Wichtigkeit von Psychologie für das Bedürfnis nach Selbsterkenntnis und des Vertrauens in die Gültigkeit von Prüfungen u. Ä. Diese Skalen wurden zusammen mit Intelligenztests in einer Situation vorgegeben, deren ernster, bedrohlicher Charakter durch verschiedene Maßnahmen betont wurde. Das Kriterium bestand aus einem Maß für sprachliche Ausdrucksfähigkeit, das aus 2 Aufsätzen gewonnen wurde, die freiwillig und in einer entspannten Atmosphäre geschrieben worden waren. Die Validität des Intelligenztests für dieses Kriterium betrug an N = 253 Schülern rcp=.66. Die Korrelationen zwischen einer der Suppressorskalen und dem Kriterium lagen ganz überwiegend bei Null (höchste Koeffizienten rcs = –.25, .14, und .12). Allerdings korrelierten die Suppressorvariablen auch mit dem Prädiktor bestenfalls zu rps = –.25 (Angst vor Psychologen und der Psychologie) und rps = .23 (Leistungsmotivation), sodass von daher kaum Aussicht auf einen nennenswerten Validitätsgewinn durch Suppression bestand. Die einzige signifikante Erhöhung der Validität war im Falle der Wichtigkeit von Psychologie mit rcs = .12 und rps = .04 weniger eine Folge von Suppression als vielmehr eine solche der Hinzunahme eines weiteren unabhängigen Prädiktors. Desgleichen mussten die Bemühungen von Goldberg et al. (1970), verschiedene Antwortstilskalen auf ihre Suppressionseffekte gegenüber dem California Psychological Inventory zu untersuchen, schon im Ansatz als aussichtslos angesehen werden, weil Antwortstile mit den inhaltlichen Skalen nicht in einem Ausmaß korrelieren, das für eine substantielle Validitätserhöhung Voraussetzung ist. Um aber die bestechende Brillanz des Suppressionskonzeptes praktisch nutzen zu können, bedarf es auch einer hohen Korrelation rps mit den Prädiktoren, die im Regelfall leichter zu erzielen ist als eine entsprechende Validität (rcp). Allerdings gibt es einen Grund, warum entsprechende Bemühungen nicht mit dem zu erwartenden Nachdruck entfaltet wurden: Im Vergleich zu dem Validitätsgewinn durch einen Suppressor, wie er sich in . Abb. 7.6 als Formel für δ eingetragen findet, beträgt der Zugewinn im Falle eines weiteren Prädiktors 7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression 7 Weiterer Prädiktor effektiver als Suppressor Validitätsgewinn durch zusätzlichen Prädiktor Beispiel: Antwortstil als Suppressor Beispiel: Testangst und Testmotivation als Suppressoren 437 7 der Suppression? ditätserhöhung beitragen können, obwohl sie mit dem Kriterium nicht oder nur gering korrelieren. Aufgrund der hohen Korrelationen der zusätzlichen Variablen mit den übrigen Prädiktoren werden deren kriteriumsirrelevante Varianzanteile gebunden oder unterdrückt. ! Ad 1. Suppression bezeichnet die Feststellung, dass Variablen zur Vali- Conger, 1974; Holling, 1981. Weiterführende Literatur ? 1. Was bezeichnet der Begriff (zu Abschn. 7.3) Fazit Insgesamt zeigen die Forschungen zum Suppressorkonzept, dass es neben der direkten Erhöhung der Validität durch Einsatz von weiteren Prädiktoren auch die Möglichkeit gibt, Variablen zu erheben, die keinen oder einen nur sehr geringen Zusammenhang zum Kriterium aufweisen. Die Brillanz des Suppressionskonzeptes liegt darin, irrelevante Varianzanteile der Prädiktoren zu binden oder zu unterdrücken. Kapitel 7 · Probleme und Differenzierungen von Prognosen Übungsfragen 438 (S.472-473) Diagnostik und Intervention bei Gruppen (S.468-471) Tätigkeitsbezogene Diagnostik und Intervention (S.444-447, 449-451, 453-455, 458-465) Personalbeurteilung (S.440-443) Diagnostik und Entwicklung von Organisationen Diagnostik in der Arbeits-, Betriebsund Organisationspsychologie 8 Strukturdiagnostik Aufgaben der Organisationsdiagnostik Bereiche der Diagnostik und Intervention Diagnostik und Entwicklung von Organisationen Eine so verstandene Organisationsdiagnostik stellt allerdings »eher ein Programm als eine Sozialtechnologie« (von Rosenstiel, 1992, S. 358) dar, denn es gibt kaum genormte Verfahrensweisen in diesem Bereich (. Abb. 8.1). Allgemein lassen sich 2 grundlegende Muster voneinander unterscheiden, nämlich die Strukturdiagnostik und die Prozessdiagnostik. 4 Die Strukturdiagnostik stellt das Mittel der Wahl in der vergleichenden Organisationsforschung dar, die dem sog. Kontingenzansatz verpflichtet ist. »Damit wird die Annahme gekennzeichnet, dass Unterschiede zwischen Organisationsstrukturen »Die psychologische Organisationsdiagnose dient dazu, die psychologischen Aspekte des Erlebens und Verhaltens von Mitgliedern in Organisationen zu diagnostizieren, um Regelhaftigkeiten im Erleben, im Verhalten und in den Interaktionen zu beschreiben, zu erklären und zu prognostizieren« (Büssing 1993, S. 445). Definition Im Gegensatz zu den mehr betriebswirtschaftlich ausgerichteten Organisationsanalysen, in denen es um »die systematische Untersuchung des gegebenen Gesamtzustandes einzelner Organisationen mit dem Ziel der Aufdeckung vorhandener Organisationsprobleme und die Vorbereitung von Organisationsänderungen zum Zwecke der Verringerung oder Beseitigung dieser Probleme« (Klages, 1980, zit. nach Büssing, 1993, S. 446) geht, ist die Aufgabe der psychologisch ausgerichteten Organisationsdiagnostik mehr am Verhalten und Erleben der Mitglieder in Organisationen ausgerichtet: 8.1.1 Organisationsdiagnostik Dabei gelten Organisationsdiagnostik und -entwicklung als Felder, in denen der Versuch einer Integration der 3 anderen Bereiche unternommen wird. Im Hinblick auf den sich daraus ergebenden Überordnungsstatus soll nachfolgend zuerst darauf eingegangen werden. Vier Bereiche sind es vor allem, innerhalb derer Diagnostik und Intervention einen wichtigen Stellenwert einnehmen (s. von Rosenstiel, 1992; Bungard & Antoni, 1993): 4 Individuen, 4 Aufgaben, 4 Gruppen (darin auch Konflikte zwischen Personen) und 4 Organisationen. 8.1 Von Anfang an waren Diagnostik und Intervention in der ABO-Psychologie sehr eng auf die praktischen Bedürfnisse von Organisationen (und zwar vor allem im industriellen Bereich) bezogen. Zu ihren Anwendungsfeldern zählen auf einer mehr abstrakten Ebene die Diagnostik und Entwicklung von Organisationen, und auf etwas konkreterem Niveau einerseits die am Individuum ausgerichtete Beurteilung und Entwicklung von Personal sowie andererseits die an den Arbeitsbedingungen ansetzende Analyse und psychologische Gestaltung der Arbeit. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Diagnostik und Entwicklung von Organisationen, Personal- und Arbeitsbedingungen 440 Angesichts der Verschiedenheit der Anforderungen, die in den einzelnen Anwendungsbereichen an die psychologische Diagnostik gestellt werden, ist evident, dass eine übergreifende und hinreichend kohärente Organisationsdiagnostik nur sehr schwer zu operationalisieren ist. Ein Versuch in diese Richtung stellt das Organisationsanalyseinstrumentarium OAI von van de Ven und Ferry dar (1980, zit. nach Büssing, 1993). Fünf verschiedene »Module«, zu denen jeweils Fragebogen vorliegen, sollen den komplexen Anforderungen organisatorischen Geschehens gerecht werden: 1. Macroorganizational module: Dient der Messung der Gesamtstruktur der Organisation, 2. Interunit relations module: Hebt auf die Messung der Koordination zwischen organisationalen Einheiten ab, auf Unterschiede in den Situationen zurückzuführen sind, in denen sich die jeweiligen Organisationen befinden« (Büssing, 1993, S. 452). Solche »Situationen« können z. B. bestimmte Technologien oder die Größe der Unternehmen sein, die dann innerhalb der Strukturdiagnose erfasst werden. 4 Die Prozessdiagnostik geht demgegenüber davon aus, dass »eine Vielzahl von Merkmalen und Bedingungen in Organisationen einer fortwährenden Veränderung unterliegt« (Büssing, 1993, S. 453). Organisationsdiagnostik kann sich bei einer solchen Sichtweise im Gegensatz zu strukturdiagnostischen Vorgehensweisen nicht in einer einmaligen Datengewinnung erschöpfen, sondern muss einen mehrstufigen Vorgang bilden. Sie wird besonders häufig angewandt bei der Diagnose von 5 organisationalen Veränderungen, 5 sozialer Interaktion und Kommunikation innerhalb von Organisationen und 5 Wechselwirkungen zwischen Strukturmerkmalen, situativen Faktoren und dem Erleben/Verhalten in Organisationen. 8.1 · Diagnostik und Entwicklung von Organisationen 8 Organisationsanalyseinstrumentarium OAI Prozessdiagnostik . Abb. 8.1. Auch die Raumgestaltung in Organisationen kann Hinweise auf die Unternehmenskultur liefern 441 8 SORK-Paradigma Intervention in Organisationen Beispiel: Diagnose des Organisationsklimas Unter Organisationsentwicklung versteht man eine geplante, meist mehrjährige Intervention in der gesamten Organisation (also nicht nur in einzelnen Bereichen oder Gruppen). Was die Zielsetzung solcher Interventionen angeht, soll es nicht um »klassische Rationalisierungsprojekte (gehen), die ausschließlich auf eine Erhöhung der Produktivität abzielen; vielmehr steht zum einen die Forderung der Selbstverwirklichung und Autonomie der Mitarbeiter im Vordergrund, (zum anderen soll) durch die Konzipierung und Implementation geeigneter Arbeits-, Führungs- und Kooperationsformen ein hohes Maß an Commitment sowie eine hinreichende leistungsbezogene Effizienz aller Organisationsmitglieder sichergestellt werden« (. Abb. 8.2, Gebert, 1993). Beruhend auf dem S(Stimulus)-O(Organismus)-R(Reaktion)-K(Konsequenz)Paradigma unterscheidet Gebert (1993) einen personalen und einen strukturalen 8.1.2 Organisationsentwicklung Die darauf gerichteten Untersuchungen ergaben am Ende aber, dass sich das Konstrukt des Organisationsklimas, obgleich konzeptuell eigenständig, empirisch, also in der Praxis, von »Betriebsklima« und »Arbeitszufriedenheit« kaum unterscheiden lässt (s. von Rosenstiel, 1992). Auf weitere Beispiele für die Diagnostik in anderen Teilbereichen von Organisationen wird in 7 Abschn. 8.1.2 eingegangen. Vom OAI einmal abgesehen, handelt es sich bei Organisationsdiagnostik mehr um eine theoretische Fiktion denn um ein konkretes Diagnostikinstrumentarium. So ist es in der Praxis durchaus üblich, jeweils nur Teilbereiche diagnostisch zu erfassen, was am Beispiel der Messung des »Organisationsklimas« kurz dargestellt werden soll: Das Konstrukt des »Organisationsklimas« unterscheidet sich von dem mehr industriesoziologischen Ansatz des »Betriebsklimas«. Unter Letzterem wird die bewertende Beschreibung einer Organisation durch ein aggregiertes soziales Kollektiv verstanden, wohingegen das Organisationsklima für eine nichtbewertende Beschreibung der Organisation durch den Einzelnen steht. In diesem Sinne zielen Untersuchungsinstrumente zum Organisationsklima z. B. auf die folgenden, rein deskriptiv zu verstehenden Gesichtspunkte: 4 Betrieb als Ganzes, 4 Kollegen, 4 Vorgesetzte, 4 Aufbau- und Ablauforganisation, 4 Information und Mitsprache, 4 Interessenvertretung, 4 betriebliche Leistung. 3. Organizational unit module: Erfasst die Aufgaben, Strukturen und Prozesse auf verschiedenen Arbeitsebenen, 4. Job design module: Misst Merkmale einzelner Arbeitsplätze einschließlich ihrer strukturellen Anforderungen und der Einstellung sowie die Zufriedenheit der Arbeitenden, 5. Performance module: Richtet sich an die Effizienz und Effektivität auf den verschiedenen Arbeitsebenen. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Begriff »Organisationsdiagnostik« eher theoretische Fiktion 442 rung der Arbeitswelt sowie die Erhöhung von Effizienz und Commitment der Organisationsmitglieder abzielen. ! Die Organisationsentwicklung umfasst Maßnahmen, die auf die Humanisie- Das allgemeine Anliegen der Organisationsentwicklung besteht darin, solche (Rahmen-)Bedingungen in Organisationen zu schaffen, die einer Verwirklichung der oben angeführten Ziele dienlich sind. Dabei muss hauptsächlich zu Beginn von entsprechenden Maßnahmen sowohl auf Seiten des Managements als auch auf Seiten der Belegschaft viel Überzeugungsarbeit geleistet werden, um neue, partizipativere Arbeits- und Führungsstile dauerhaft verwirklichen zu können. Konkret können dafür Führungstraining und Teamfähigkeitstraining vonnöten sein, oder auch die Auswahl von Mitarbeitern, die eine besondere Schulung erfahren, um die neuen Formen der Arbeit optimal vorstellen zu können. Hand in Hand damit sollte eine Enthierarchisierung innerhalb der Organisationsstrukturen angestrebt werden, um den Mitarbeitern im Sinne der Humanisierung der Arbeitswelt mehr Mitsprachemöglichkeiten und Autonomie zu geben. Diese Beispiele sollen auf die große Zahl und Bandbreite denkbarer Organisationsentwicklungsmaßnahmen auf den unterschiedlichsten Organisationsebenen hinweisen. In der Praxis sind häufig genug ökonomische Erwägungen oder anderweitige Sachzwänge (z. B. die Einführung neuer Techniken) für die Realisierung solcher Maßnahmen entscheidend. Die in der Theorie und Programmatik gewöhnlich in den Vordergrund gerückten humanistischen Ziele stellen meist nur (durchaus willkommene) Nebeneffekte dar. Ansatz der Organisationsentwicklung. Dabei sollten im Idealfall beide Ansätze gleichzeitig verwirklicht werden: 4 Der personale Ansatz richtet sich auf die Kategorien O und R und beinhaltet beispielsweise gruppendynamische Trainings- sowie Weiterbildungsmaßnahmen. 4 Der strukturale Ansatz bezieht sich auf die Elemente S und K und beinhaltet, grob vereinfacht, die sog. »neuen Formen der Arbeitsgestaltung« (u. a. »job enrichment«) sowie die Implementierung von Gruppenarbeitsmodellen. 8.1 · Diagnostik und Entwicklung von Organisationen 8 Humanisierung der Arbeitswelt Schaffung von Rahmenbedingungen Strukturaler Ansatz Personaler Ansatz . Abb. 8.2. Besonders in der Automobilindustrie sind Beispiele für die Einrichtung »teilautonomer Arbeitsgruppen« bekannt geworden, deren Vor- und Nachteile heftig diskutiert wurden 443 8 Regelmäßige Leistungsbeurteilungen Rückmeldungen zum Arbeitsverhalten 3 Ebenen der Beurteilung Personalbeurteilung Personalbeurteilung Leistungseinschätzung, Zielsetzung 2. Ebene Leistungsbeurteilung Fähigkeitseinschätzungen, Prognosen Verhaltenssteuerung, Lernen 1. Ebene Day-to-day-Feedback 3. Eben Potentialbeurteilung Funktion Ebene Eignungsdiagnose, Assessment Center systematische Beurteilung Gespräch, Unterstützung Verfahrensweise . Tabelle 8.1. 3 Ebenen der Personalbeurteilung. (Nach Schuler & Prochaska, 1992, S. 178) Dabei lassen sich 3 Ebenen der Beurteilung unterscheiden (. Tab. 8.1). Die erste Ebene bezieht sich hauptsächlich auf das alltägliche Arbeitsverhalten. Hier hat sich gezeigt, dass Feedback, wie aus den experimentellen Laborstudien nicht anders zu erwarten, dann am wirksamsten ist, wenn dem Akteur die Kontingenzen zwischen Verhalten und dessen Konsequenzen klar vor Augen geführt werden können. Solche Rückmeldungen sind von großer Bedeutung für das Verhalten der Beurteilten, weil das fragliche Verhalten noch relativ gegenwärtig oder »greifbar« ist. Da die methodischen Ansprüche auf dieser Ebene vergleichsweise gering sind, kann meist auf ein systematisches Beurteilungsverfahren verzichtet werden. Die zweite Ebene wird markiert durch die regelmässig stattfindenden Leistungsbeurteilungen, die für Zwecke der Personalentwicklung und des Personalmanagements unentbehrlich sind (z. B. für Platzierungs- und Beförderungsentscheidungen). Die Beurteilung erfolgt meist auf der Basis eines Gespräches zwischen Vorgesetztem/ Vorgesetzter und Mitarbeiter/Mitarbeiterin, wobei dieses Gespräch aus Gründen der Objektivitätsoptimierung zumindest in halbstandardisierter Form erfolgen sollte. Neben konkret-objektiven Indikatoren wie Verkaufs- und Umsatzzahlen, den Diskrepanzen zwischen Soll- und Ist-Zuständen u. a. werden gewöhnlich auch potentielle individuelle Förderungsmassnahmen und solche zur Erhöhung der persönlichen Bewährungswahrscheinlichkeit und Einsatzbreite einen Themenschwerpunkt bilden. Wichtig ist für den Ertrag der Unterredung eine besondere Schulung des Vorgesetzten in Ge- »Leistungs- und Potentialdaten werden im organisationalen Kontext zum Zwecke der individuellen Auswahl, Beurteilung und Förderung erhoben, um Über- und Unterforderung von Mitarbeitern zu vermeiden, Entwicklungsmöglichkeiten zu sichern und gleichzeitig die Effizienz von Organisationen zu steigern« (Schuler & Prochaska, 1992, S. 158). Die auf Individuen bezogene Diagnostik lässt sich in 2 Bereiche untergliedern: 4 Im Rahmen der Eignungsdiagnostik werden Daten über die Eignung von Bewerbern für Stellen oder Funktionen erhoben. 4 Die (systematische) Personalbeurteilung schließt eignungsdiagnostische Aussagen häufig ein, geht andererseits in jenen Fällen darüber hinaus, wo es um die Abschätzung von Potentialen und die Zuführung zu Personalentwicklungsmaßnahmen geht. 8.2 Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Eignungsdiagnostik 444 Dabei sind 3 prototypische Konstellationen identifizierbar, zwischen denen aber fließende Übergänge auftreten (zit. nach von Rosenstiel, 1992): 4 Es sind mehrere freie Stellen, aber nur ein Bewerber oder eine Bewerberin vorhanden. Diese(r) soll auf jene Stelle kommen, die ihr/ihm am besten entspricht (Auswahl der bestgeeigneten Funktion oder Stelle; »Eignungsdiagnostik«). »Unter Berufseignungsdiagnostik wird die Gesamtheit aller wissenschaftlichen und wissenschaftsgeleitet-praktischen Bemühungen verstanden, die auf dem Wege über eine gedankliche Zuordnung von beruflichen Situationen zu Personen oder von Personen zu beruflichen Situationen die Ziele ›Maximierung beruflicher Zufriedenheit‹ und ›Maximierung beruflicher Leistung‹ anstreben« (Eckardt & Schuler, 1992, S. 534). Definition 8.2.1 (Berufs-)Eignungsdiagnostik sprächsführung. Hilfreich können für den Beurteiler auch Einstufungsverfahren, wie z. B. Skalen zur Verhaltensbeobachtung, sein. Von der dritten Ebene wird allgemein eine besondere prognostische Funktion erwartet, sie wird deshalb auch als Potentialbeurteilung bezeichnet und liefert die Grundlage für nachfolgende Personalentwicklungsmaßnahmen. Die methodischen Ansprüche an diese Form der Mitarbeiterbeurteilung sind hoch, sodass neben der Ergebnis- bzw. Verhaltensbeurteilung durch einen Vorgesetzten mehr und mehr Elemente der Assessment-Center-Technik zum Tragen kommen. 8.2 · Personalbeurteilung 8 3 Aufgabenstellungen möglich Potentialbeurteilung . Abb. 8.3. In Dienstleistungsberufen sollte z. B. auch »kundenorientiertes Verhalten« bei einer Personalbeurteilung berücksichtigt werden 445 8 446 In den so genannten »Leitsätzen« werden allgemeine Empfehlungen zum Vorgehen formuliert. Beispielsweise sollte zur Aufklärung über die Untersuchungssituation gehören, dass die Kandidaten erfahren, welche Personen an der Untersuchung mitwirken, 4 Für die Anbieter entsprechender Dienstleistungen (»Auftragnehmer«): Leitfaden für die Planung und Durchführung von Eignungsbeurteilungen. 4 Für die Personen und Institutionen, die Eignungsbeurteilungen durchführen lassen (»Auftraggeber«): Maßstab für die Bewertung von externen Angeboten. 4 Für die Personalverantwortlichen: Qualitätssicherung und -optimierung von Personalentscheidungen. 4 Für die Personen, deren Eignung beurteilt wird: Schutz vor unsachgemäßer oder missbräuchlicher Anwendung von Verfahren. Zweck der DIN 33430 DIN 33430 zu berufsbezogenen Eignungsbeurteilungen: Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen Zur Feststellung der berufsbezogenen Eignung wurden in der Vergangenheit häufig Verfahren mit fraglicher Validität herangezogen. Umgekehrt ist in der beruflichen Praxis die Akzeptanz für nachweislich hoch valide Verfahren gering (. Tab. 8.2). Aus der Unzufriedenheit mit der Praxis der beruflichen Eignungsdiagnostik entwickelte sich eine Initiative zur Etablierung eines Standards für eine wissenschaftlich fundierte Vorgehensweise. Der Berufsverband Deutscher Psychologinnen und Psychologen (BDP) stellte 1995 beim Deutschen Institut für Normierung e.V. (DIN e.V.) den formalen Antrag, eine Norm zur beruflichen Eignungsdiagnostik zu erarbeiten. Unterstützung fand der BDP durch die Deutsche Gesellschaft für Psychologie (DGPs). Am 9. Juni 1997 nahm ein Ausschuss des Deutschen Instituts für Normung, der mit Vertretern aus Wissenschaft und Praxis, Unternehmen, Behörden, Verbänden und Verlagen besetzt war, unter Vorsitz von Prof. Hornke die Arbeit auf (7 auch Interview mit Prof. Hornke). Das Ergebnis dieser Arbeit ist letztlich ein Konsens, der auch von Interessen der Beteiligten geprägt ist. Im Jahr 2002 erfolgte die Veröffentlichung der »Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen: DIN 33430« (Beuth-Verlag, Berlin). Auf 15 Seiten Text (der durch sieben Seiten Glossar ergänzt wird) werden Qualitätsstandards sowohl für die Personen, die als Auftragnehmer oder Mitwirkende die Eignungsbeurteilung durchführen, als auch an die dabei eingesetzten Verfahren definiert. Die DIN 33430 ist nicht rechtsverbindlich. Das Deutsche Institut für Normung ist ein privater Verein, der auf Antrag Dritter den Normerstellungsprozess koordiniert. Es steht potentiellen Anwendern frei, sich künftig nach der Norm zu richten. Allerdings darf die Norm nicht beliebig zu Werbezwecken benutzt werden; bei Missbrauch droht eine Abmahnung. Denkbar ist, dass sich Gerichte künftig bei Klagen von abgewiesenen Bewerbern an der DIN 33430 orientieren. nete Person soll ermittelt werden (»Konkurrenzauslese«). 4 Nur eine Stelle ist frei, für die sich mehrere Interessenten bewerben. Die bestgeeig- Ziel ist die wechselseitige optimale Zuordnung oder Platzierung. 4 Die Anzahl der offenen Stellen und die Anzahl der Bewerber entsprechen einander. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Anforderungsbezug Kandidaten vorab möglichst Informationen über den Arbeitsplatz geben Vorgehensweise der Vorauswahl und die Auswahlkriterien vorab festlegen Gesetzliche Vorgaben (u. a. Schweigepflicht, Datenschutz) beachten Kandidaten vorab über die Untersuchungssituation aufklären und diese angemessen gestalten. Bei den Personen, die an der Eignungsuntersuchung beteiligt sind, wird zwischen Auftraggeber, Auftragnehmer und »Mitwirkenden« unterschieden, die einzelne Verfahren durchführen und auswerten können. Auftraggeber kann z. B. ein Unternehmen sein, das freie Stellen besetzen möchte. Der eignungsdiagnostische Prozess kann von Mitarbeitern des Unternehmens in Eigenregie durchgeführt werden, es können aber auch externe Experten beauftragt werden. In beiden Fällen wären diese Personen Auftragnehmer. Der Auftragnehmer ist hauptverantwortlich für den gesamten Prozess, der von der Planung und Durchführung der Untersuchung über die Auswertung und Interpretation der Ergebnisse bis zum Bericht an den Auftraggeber reicht. Er muss die zur Verfügung stehenden Verfahren und Prozesse kennen. Dazu gehören auch Kenntnisse über die Konstrukte (z. B. Intelligenz) und über die Qualität und Einsatzvoraussetzungen der Verfahren. Bestimmte Teilprozesse, insbesondere die Durchführung und Auswertung einzelner Verfahren, kann er an »Mitwirkende« delegieren. Von den Verfahren wird verlangt, dass sie grundsätzlich einen Bezug zu den Anforderungen aufweisen. Ein Verfahren, das bei einer Fragestellung passend ist, kann bei einer anderen völlig unangemessen sein. Es werden jedoch auch allgemein gültige Auswahlkriterien genannt. So sollen in den Unterlagen zu einem Verfahren die Handhabung erklärt und Angaben gemacht werden, die zu einer kritischen Bewertung nötig sind. Konkrete Anforderungen werden an die Objektivität, Zuverlässigkeit, Gültigkeit und die Normen formuliert. In einem Anhang der DIN-Norm finden sich detaillierte Forderungen, welche Informationen über ein Verfahren verfügbar sein sollten (z. B. zur Zielsetzung, der theoretischen Grundlage, bestimmte Aspekte der Reliabilität). Nach gegenwärtigem Stand (Juli 2005) ist nur eine Lizenzierung von Personen realisiert worden. Organisiert werden die Prüfungen von der Deutschen Psychologenakademie (DPA), einer Bildungseinrichtung des BDP, die auch ein öffentlich zugängiges Register lizenzierter Personen führt. Für die Zulassung zur Prüfung ist kein bestimmter Berufs- oder Studienabschluss erforderlich, wohl aber ein Nachweis angeleiteter Praxiserfahrung. Informationen zur DIN-Prüfung, aber auch weitere aktuelle Informationen zur DIN 33430 finden sich über die Homepage des BDP (http://www.bdp-verband. org/bdp/politik/din.shtml). Das Grundwissen zur DIN 33430, das zugleich auch für die Zertifizierung nach DIN 33430 prüfungsrelevant ist, liegt in einem von Westhoff et al. (2005) herausgegebenen Band vor. 4 4 4 4 4 Leitsätze für die die Vorgehensweise bei berufsbezogenen Eignungsbeurteilungen welche Folgen eine mangelnde Kooperation haben kann und wer von den Ergebnissen der Untersuchung erfährt. 8.2 · Personalbeurteilung 447 8 Um Antworten auf jede dieser Fragestellungen zu erhalten, bedient sich die berufliche Eignungsdiagnostik nahezu der gesamten Palette verfügbarer Instrumente, vielleicht mit Ausnahme der projektiven Verfahren. Innerhalb des Entscheidungsprozesses, der zur Einstellung bzw. zur Ablehnung eines Bewerbers führt, kommt auch heute noch dem Bewerbungsgespräch die Funktion eines Eckpfeilers zu (. Tab. 8.2). Darin ist allerdings eine gewisse Gefahr insofern enthalten, als implizite Theorien auf Seiten des Gesprächsleiters eine informationssuchende und entscheidungsleitende Funktion übernehmen können, und zwar zu Lasten einer sachlichen Angemessenheit. Daher sind strukturierte Interviews gegenüber unstrukturierten wegen ihrer höheren Validität und Fairness - die Bewerber werden weitgehend gleich behandelt - zu bevorzugen. Was Tests angeht, so kommen hauptsächlich solche zur Allgemeinen Intelligenz zur Anwendung. Insbesondere der Zusammenhang der Allgemeinen Intelligenz mit der Leistungshöhe im Beruf ist durch zahllose Untersuchungen empirisch gut belegt, und zwar für nahezu alle Gruppen von beruflichen Tätigkeiten (s. Eckardt & Schuler, 1992, S. 538). Weitere Merkmale, die mittels Leistungstests erfasst werden, gehören je nach den Anforderungen der zu besetzenden Stellen zu den Bereichen der anschauungsge- Wird in Zukunft eine einheitliche europäische Norm angestrebt? Die DIN 33430 auf europäischem Parkett zu präsentieren und u. a. dort zu etablieren ist eine sinnvolle und folgerichtige Idee, aber so schwierig es war, sich national zu einigen, so schwierig wird es sein, sich europäisch zu einigen. In Österreich hat man zwischenzeitlich die DIN 33430 in eine Önorm übernommen. Vorbildlich sind zwar die Vorstellungen der British Psychological Society, die A-, B-, C-Lizenzen für Testanwender vorsehen. Aber die DIN 33430 rückt ja gerade vom Test ab und betont den gesamten Prozess der Eignungsbeurteilungsarbeit. Das ist weit mehr als Testanwenden! < Woran kann beispielsweise ein Bewerber erkennen, dass seine berufliche Eignung professionell nach den DIN-Standards beurteilt wird? Zunächst einmal daran, dass die Rückmeldung, die jemand nach der Eignungsbeurteilung erhält, die eigenen Leistungen und Neigungen angemessen widerspiegelt. Problematisch wird das naturgemäß dann, wenn Bewerber sich anders sehen als sie von Eignungsbeurteilern erlebt werden. Aber die DIN 33430 will da ja gerade helfen, Willkür in der Eignungsbeurteilung abzustellen. Was bedeutet DIN 33430 für Absolventen eines Psychologiestudiums, die in ihrem angestrebten Beruf berufliche Eignungsdiagnostik betreiben wollen? Zunächst bedeutet es, dass Absolventen der Psychologie sich auf Augenhöhe mit den Angehörigen anderer Berufsgruppen messen müssen, wenn es um Mitarbeit in der beruflichen Eignungsbeurteilung geht. Sie alle haben über solides Wissen zu verfügen und auftragsangemessen zu planen sowie eignungsbezogene Informationen zu erheben. eine Fortbildungsserie für in der Eignungsbeurteilung Tätige entwickelt (s. http://www. dpa-bdp.de/willkommen__21.html). Deshalb wurde auch eine Lizenzprüfung konzipiert und zwischenzeitlich schon über 40mal durchgeführt. Deshalb wurde ein öffentliches Register erstellt, in das sich - auch psychologiefremde - Personen nach erfolgreicher Lizenzprüfung eintragen lassen können. Deshalb wird weiter für die DIN 33430 geworben, damit aus der Normungsidee eine normierte, gute Praxis wird, bei der nicht einfach Schritte weggelassen oder vergessen werden, die für die so entscheidende Beurteilung der Eignung von Personal wesentlich sind. 8.2 · Personalbeurteilung Tests zur Allgemeinen Intelligenz Bewerbungsgespräch 449 8 8 Prognosegüteb .51 .54 .48 .51 .38 .41 .37 .35 .26 .02 Berufserfolg Einsatzhäufigkeit (%) a 3 12 5 50 51 5 12 14 32 3 Ausbildungserfolg Prognosegüteb .56 _ – .35 .35 .38 – .30 .23 – Einsatzhäufigkeit (%) a 32 20 40 55 28 10 6 11 5 0 bundenen Intelligenz (Wahrnehmungsgeschwindigkeit und -genauigkeit) sowie der Psychomotorik (Hand- und Fingergeschicklichkeit, sensomotorische Koordination). Insbesondere wird jedoch den letzteren gewöhnlich ein sehr viel geringeres Gewicht als den kognitiven Fähigkeitsfaktoren zugemessen. In . Tab. 8.2 sind unter »Leistungstests« Verfahren zusammengefasst, die berufsrelevantes Wissen erfassen. Leistungsmotivation stellt weithin verbreiteten Überzeugungen zufolge eine ganz wesentliche Voraussetzung für beruflichen Erfolg dar. Spangler (1992) führte eine Metaanalyse über insgesamt 105 empirische Untersuchungen zum Zusammenhang zwischen Leistungsmotivation und verschiedenen Leistungsmaßen durch. Die Leistungsmotivation wurde entweder durch Fragebogen (193 Korrelationen, N = 15.328) oder durch einen projektiven Test, den TAT (190 Korrelationen; N = 12.961) gemessen. Unter den analysierten Leistungsmaßen stellen reale Leistungen im Leben, bspw. Einkommen oder Verkaufserfolge, das härteste Validitätskriterium dar. Fragebogenmaße korrelierten durchschnittlich zu .13 mit realen Leistungen, TAT-Maße zu .22. Bei den Koeffizienten handelt es sich um beobachtete, unkorrigierte Werte. Die leichte Überlegenheit des projektiven Verfahrens ist möglicherweise auf eine Konfundierung mit Intelligenz zurückzuführen. Intelligentere Personen produzieren eher längere Geschichten zu den TAT-Bildern, und mit der verbalen Produktivität steigt das Motivmaß an. Eine weitere Metaanalyse (Robbins, Lauver, Le, Davis, Langley & Carlstrom, 2004) galt der Beziehung zwischen psychosozialen Faktoren, unter anderem auch von – mit Fragebogen erfasster – Leistungsmotivation und Studienerfolg. Die Autoren errechneten eine mittlere Korrelation von .26 (korrigiert .30) zwischen Leistungsmotivation und a Anmerkung. Leicht modifiziert nach Schmidt-Atzert (2005, S. 227). Ergebnisse zu ausgewählten Verfahren. Weitere Erläuterungen im Text. Einsatzhäufigkeit in deutschen Unternehmen nach Schuler, Frier und Kaufmann (1993); prozentualer Anteil der Unternehmen, die das Verfahren zur externen Personalauswahl bei Auszubildenden/(Fach-) Arbeitern, Angestellten ohne Führungsaufgaben, Trainees und Führungskräften einsetzen. Bei Interview jeweils höchste Nennungshäufigkeit aus Personalabteilung oder Fachabteilung. b nach Schmidt und Hunter (1998). c Zur Spezifizierung dieser Verfahren 7 Text. Kognitive Leistungstests Arbeitsproben Leistungstestsc Interview, strukturiert Interview, unstrukturiert Persönlichkeitstestsc Assessment Center Biograf. Fragebogen Referenzen Graphologie Verfahren . Tabelle 8.2. Einsatzhäufigkeit und Prognosegüte verschiedener Verfahren zur Vorhersage von Ausbildungs- und Berufserfolg Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Leistungsmotivation 450 6 bei der Bundeswehr« Wie viele Psychologen arbeiten bei der Bundeswehr, welche Anforderungen müssen sie bei der Einstellung erfüllen, und wie werden sie weiter für ihre Einstellung qualifiziert? Zahl der Psychologinnen und Psychologen bei der Bundeswehr: 180. Anforderungen bei der Einstellung: 4 Hauptdiplom in Psychologie einer Universität, 4 Uneingeschränkte Bereitschaft zum Einsatz im gesamten Bundesgebiet, 4 Uneingeschränkte Bereitschaft zur truppenpsychologischen Ausbildung und zur Teilnahme an Auslandseinsätzen der Bundeswehr (ggf. im Soldatenstatus), > Interview mit Dr. Dieter Hansen zum Thema »Psychodiagnostische Verfahren Studienleistungen in Form von Noten (17 Korrelationen, N = 9.330). Fazit: Trotz der plausiblen Annahme, dass berufliche Leistungen oder Studienleistungen erheblich von der Leistungsmotivation abhängen, lassen sich zwar positive, aber doch nur schwache Korrelationen finden. Zwischen den »Big-Five«-Persönlichkeitsmerkmalen und Berufserfolg besteht nur ein schwacher Zusammenhang. Barrick, Mount und Judge (2001) haben insgesamt 15 Metaanalysen dazu vorgefunden und die Ergebnisse daraus aggregiert. Der höchste Zusammenhang besteht mit einer Korrelation von .12 für Gewissenhaftigkeit (Mittelwert von 239 Studien, N = 48.000). Nach Korrektur für Varianzeinschränkung und Reliabilität entspricht dem eine Korrelation von .27 auf Konstruktebene. In Tab. 8.2 sind unter »Persönlichkeitstests« Ergebnisse zu einer speziellen Variante von Fragebögen aufgeführt, nämlich Integritätstests. Diese Verfahren wurden entwickelt, um kontraproduktives Verhalten im Unternehmen (Diebstahl, Alkohol- oder Drogenkonsum, Beschädigung oder Zerstörung von Sachen etc.) vorherzusagen. Integritätstests weisen nicht nur eine beachtliche Validität auf, sie haben zudem eine inkrementelle Validität gegenüber der Intelligenz (Schmidt & Hunter, 1998). In Deutschland finden Integritätstests kaum Verwendung. Relativ gute Validitäten erbringen biografische Fragebogen, deren Grundgedanke darin besteht, »dass vergangene Erfahrungen und deren subjektive Verarbeitung brauchbare Prädiktoren künftigen Verhaltens sein müssten« (Schuler & Prochaska, 1992, S. 171). Metaanalysen ergaben allerdings, dass die Höhe der Validitätskoeffizienten stark von der jeweiligen Gruppe abhängt, sodass z. B. akzeptable Werte bei Militärs und Wissenschaftlern, nur sehr niedrige hingegen (aus verständlichen Gründen) bei Jugendlichen zu beobachten waren (zusammenfassend s. Schuler & Prochaska, 1992). Die bei den erwähnten und weiteren Prädiktortypen als durchschnittlich ermittelten Validitätskoeffizienten sind in . Tab. 8.2 zusammengestellt. Die in der ersten Spalte aufgeführten Befragungsergebnisse zeigen, dass die Anwendungshäufigkeit eines Verfahrens mehrfach nicht mit der Validität korrespondiert. So haben sich kognitive Leistungstests, andere Leistungstests und Arbeitsproben zur Vorhersage von Berufserfolg bewährt. Den Befragungsergebnissen zufolge werden sie dennoch relativ selten eingesetzt. Eine Institution, in der Personalauswahl in großem Umfang betrieben wird, ist die Bundeswehr. Das 7 Interview mit Dr. Hansen gibt einen Einblick in die Praxis der Personalauswahl und informiert über die Anforderungen an Psychologen, die bei der Bundeswehr tätig sein wollen. 8.2 · Personalbeurteilung Biografische Fragebogen Andere Persönlichkeitsmerkmale 451 8 Ein wiederkehrendes Problem eignungsdiagnostischer Untersuchungen besteht darin, dass Testverfahren zum Einsatz gelangen, die nicht in ausreichendem Maße auf die üblichen Testgütekriterien hin überprüft wurden. Das liegt vielfach daran, dass zahlreiche Betriebe aufgrund sehr spezifischer Voraussetzungen und Anforderungen der jeweiligen Stellen zunächst eigene Testverfahren entwickeln, die dann aus Zeit- oder Geldmangel, mitunter auch weil nach einer Stellenbesetzungsphase nicht mehr die ! Eignungsdiagnostische Untersuchungen werden durchgeführt, um größtmögliche Übereinstimmung zwischen beruflichen Anforderungen und optimaler Bewerberauswahl und -zuordnung zu erreichen. Dazu bedient sie sich nahezu der gesamten Palette verfügbarer Instrumente. Besondere Bedeutung kommt dem Bewerbungsgespräch zu. In welchem Verhältnis steht nach Ihren Erfahrungen der personelle Aufwand der psychologischen Eignungsdiagnostik zu dessen Nutzen? Militärische Ausbildungsgänge sind im Allgemeinen mit hohen Kosten verbunden (z. B. kostet die Ausbildung eines Kampfpiloten 1,5 Mio Euro). Darüber hinaus können Fehlleistungen von Spezialpersonal, das fälschlicherweise ausgewählt wurde, in risikoreichen Situationen (z. B. Flugsicherheit) zu dramatischen Konsequenzen führen. Personalauswahl dient insofern nicht nur dazu, die Versagerraten in der Ausbildung auf einem vertretbar niedrigen Niveau zu halten, sondern auch der Gewährleistung der Sicherheit und Effektivität im Einsatz. Sowohl aus qualitativer als auch aus ökonomischer Sicht hat sich der Einsatz der psychologischen Eignungsdiagnostik mit dem damit verbundenen personellen Aufwand im Rahmen der Bundeswehr ausgezahlt. < Wie ist es Ihren Erfahrungen zufolge um die prognostische Validität der eingesetzten diagnostischen Verfahren bestellt? Die Erfassung der prognostischen Validität der in der Bundeswehr eingesetzten diagnostischen Verfahren bereitet erhebliche Probleme, da die Verfahren häufig geändert werden (Berücksichtigung neuer Anforderungen in der Ausbildung und im beruflichen Einsatz), und weil die Zeitspanne zwischen Testdurchführung und der Verfügbarkeit von Leistungsergebnissen aus der Ausbildung bzw. aus der beruflichen Bewährung zumeist mehrere Jahre beträgt. Einige Analysen zeigen, dass die Validitätskoeffizienten der simulationsgestützten Arbeitsproben im Mittel über .50 liegen, während Intelligenz- und Konzentrationsverfahren mittlere Werte um .40 erreichen. Weniger valide sind Interview und Gruppensituationsverfahren. Für den Laien müssten Integritätstests in einer Organisation wie der Bundeswehr eine große Bedeutung haben, stimmt das? Sog. Integritätstests finden bei der Bundeswehr keine Verwendung. Für Außenstehende kommen Fragen der Belastbarkeit eine besondere Bedeutung innerhalb militärischer Belange zu; stimmt das, und welcher Art sind die darauf gerichteten Instrumente? Das Merkmal »Belastbarkeit« ist in der Tat für die Mehrzahl der militärischen Verwendungen von besonderer Bedeutung. Belastbarkeit wird mit folgenden Instrumenten bewertet: 4 teilstandardisiertes Interview (Prüfgruppe aus Psychologen und Offizieren), 4 Verhaltensbeobachtung bei simulationsgestützten Arbeitsproben, 4 Verhaltensbeobachtung bei Gruppensituationsverfahren. 8.2 · Personalbeurteilung 8 Problem: Mangelnde Testgüte der Verfahren 453 8 Platzierung Selektion guter Eindruck vorwiegend Leistungsmerkmale nicht unbedingt erforderlich Messgegenstand Normen Welcher Proband passt am besten zu dem Beruf? Ziel des Probanden Fragestellung unbedingt erforderlich auch Interessen und Persönlichkeit realistisches Bild Welcher Beruf passt zum Eignungsprofil des Probanden? Platzierung . Tabelle 8.3. Unterschiede zwischen Selektion und Platzierung Notwendigkeit weiterer Testuntersuchungen besteht oder sich die Gegebenheiten im Umfeld ändern, keiner weiteren Überprüfung mehr unterzogen werden. Ein weiterer Problembereich liegt darin, dass Eignungsdiagnostik in aller Regel Status- und nicht Prozessdiagnostik ist. Damit bestimmt gleichsam die Tagesform der Bewerber ihre Chance, und die punktuellen Messungen eröffnen nur geringe Möglichkeiten, treffsichere Aussagen über künftige Entwicklungen der Bewerber zu machen. Um die Statusdiagnostik durch die Perspektive des Prozessualen zu erweitern, wurden u. a. die Entwicklungen des Assessment Centers (7 Abschn. 8.2.2) vorangetrieben. Bei dieser Technik werden mehrere Personen für meistens 2–3 Tage unter gleichsam »kasernierten« Bedingungen zusammengeführt. In derartigen Settings bearbeiten die Probanden nicht nur vielfältige Leistungs- und Persönlichkeitstests, sondern nehmen auch an Gruppen- und Kommunikationsübungen teil, simulieren Arbeits- und Gruppenprozesse usw. Die Ergebnisse werden i. Allg. von Führungskräften des betreffenden Konzerns und von Psychologen beurteilt. Trotz des relativ hohen Aufwandes an Kosten und Personal finden Assessment Center wegen ihrer relativ hohen Validität zunehmend mehr Anwendungsbereiche. In vielen Fällen dürfte die »Methode der Wahl« in der Realisierung einer möglichst langen Probezeit liegen. Allerdings erhalten darin nur die bereits eingestellten Bewerber die Chance, sich in der konkreten Arbeitssituation zu bewähren. Während in Unternehmen und Behörden vorrangig eine Konkurrenzauslese betrieben wird, stellt sich bei der Berufsberatung die Frage nach der richtigen Platzierung. Welcher Beruf oder welche Berufsausbildung ist für den Ratsuchenden am besten geeignet? Diese Frage wird an Psychologen der Bundesagentur für Arbeit gerichtet (7 dazu auch Interview mit Prof. Hilke). Selektion und Platzierung unterscheiden sich in mehrfacher Hinsicht (. Tab. 8.3). Bei einer Selektion genügt es, einige wenige Merkmale der Bewerber zu erfassen, die einer Anforderungsanalyse und Validitätsuntersuchungen zufolge für den einen Beruf relevant sind. Auch wenn mehrere Bewerber geeignet sind, wird nur der beste ausgewählt; die Auswahl bezieht sich auf Personen. Für eine Berufswahlentscheidung werden die Anforderungen mehrerer Berufe mit dem Eignungsprofil des Ratsuchenden abgeglichen; hier bezieht sich die Auswahl auf Berufe. In einer Auswahlsituation werden sich die Bewerber günstig darzustellen versuchen. Beim Einsatz von Fragebögen und Interviews ist deshalb mit Verfälschungen zu rechnen. Auch in einem Assessment Center besteht die Gefahr, dass sich Bewerber so präsentieren, wie es ihnen vorteilhaft erscheint. In einer Beratungssituation ist die Motivlage eine andere; der Proband wird sich eher so darstellen, wie es für ihn typisch ist. Deshalb kommen in dieser Situation auch Verfahren in Frage, die leicht verfälscht wer- Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Problem: Meist nur Statusdiagnostik 454 6 Wie viele Psychologen arbeiten bei der BA, welche Anforderungen müssen sie bei ihrer Einstellung erfüllen, und wie werden sie weiter für ihre Tätigkeit qualifiziert? Insgesamt arbeiten im PD der BA 443 Psychologinnen und Psychologen, 410 in den Agenturen, 20 in den Regionaldirektionen und 13 im BA-Servicehaus und der Zentrale. Worin unterscheiden sich die Tests, die vom Psychologischen Dienst der BA verwendet werden, von den Tests, die von den Testverlagen zum Kauf angeboten werden? Wir müssen im Rahmen von psychologischen Begutachtungen auch Aussagen machen, auf die Entscheidungen über finanzielle Leistungen der BA gestützt werden können. Wir müssen deshalb auf den Testschutz besonderen Wert legen. Dies ist der zentrale Grund für die Entwicklung BA-eigener Testverfahren. Bei der Entwicklung der Verfahren orientieren wir uns an denselben Konstruktionsprinzipien und wissenschaftlichen Kriterien wie andere Testkonstrukteure auch. Wir haben allerdings den nicht zu unterschätzenden Vorteil, Auswahl bzw. Konstruktion der Einzeltests stärker populations- und fragestellungsbezogen vornehmen zu können als ein Testautor, der für den Markt produziert. Zudem stellen wir bei den BA-eigenen computergestützten Tests durch verzweigte Testinstruktionen sicher, dass die Ratsuchenden mit dem Testmaterial vertraut sind, bevor der eigentliche Test beginnt. Für die im Rahmen der Entwicklung der Tests notwendigen empirischen Studien können wir in der Regel auf relativ große Stichproben zurückgreifen und haben damit eine gute »empirische Basis« für unsere Verfahren. scher Verfahren bei Berufseignungsuntersuchungen« Wie viele Berufseignungsuntersuchungen führt die Bundesagentur für Arbeit (BA) jedes Jahr durch und zu welchem Zweck wird von der BA Diagnostik betrieben? Eignungsurteile werden im Rahmen jeder beruflichen Beratung und bei jeder Vermittlung durch eine Vermittlungs- und Beratungsfachkraft der BA abgegeben. Es sind im Jahr etwa 240.000 solcher Untersuchungen. Wir unterscheiden fünf Arten von Begutachtungen; das Spektrum reicht von der »Begutachtung nach Aktenlage« über die »Standardisierte Eignungsuntersuchung« mit dem Berufswahltest (BWT) bis zur »Psychologischen Begutachtung von hochgradig Sinnesbeeinträchtigten«. Es geht dabei immer um Fragen der beruflichen Eignung, aber zumeist nicht um Fragen der Eignung alleine. Zum Psychologischen Dienst (PD) kommen Menschen im Alter von 14 Jahren bis über 50 Jahre, Menschen jedes Bildungsniveaus, geistig behinderte Menschen ebenso wie Akademiker und Menschen mit Behinderungen, deren berufliche Eingliederung der Agentur-Psychologe unterstützt. Er muss Eignungsaussagen zu etwa 800 Berufen machen. Eigentlich müsste ich von der Agentur-Psychologin sprechen, denn wir haben bald mehr weibliche Psychologen beschäftigt als männliche. > Interview mit Prof. Dr. Reinhard Hilke zum Thema »Anwendung diagnosti- den können. Persönlichkeitsmerkmale und (berufliche) Interessen sind für die Platzierung relevant und werden daher berücksichtigt. Da für die einzelnen Berufe Mindestanforderungen (z. B. eine mindestens durchschnittliche Intelligenz) feststehen, sind normierte Werte erforderlich. Die Verfahren müssen nicht nur normiert sein, es ist auch erforderlich, dass berufsbezogene Vergleichswerte von erfolgreichen Stelleninhabern verfügbar sind. 8.2 · Personalbeurteilung 8 Prof. Dr. Reinhard Hilke, Leiter des Psychologischen Dienstes der Bundesagentur für Arbeit 455 8 Unbestimmt bleibt in dieser Definition allerdings noch das »diagnostische Modell«: Dieses entwickelte sich aus einer Überwindung der Vorstellungen, dass es eine Art »Führungspersönlichkeit« gebe, die in der Lage sei, ein weites Spektrum von Anforderungen zu meistern und als eine Funktion stabiler Persönlichkeitsmerkmale verstanden werden müsse. Dagegen wird mittlerweile davon ausgegangen, dass es – anstelle von breit generalisierten Führungskompetenzen – individuelle Stärken und Schwächen der Mitarbeiter zu berücksichtigen gelte, die mit den speziellen Anforderungen der Führungsposition verglichen werden müssten; nur im Hinblick auf diese Anforderungen könne Führungseignung sachgerecht diagnostiziert werden. Im AC wird versucht, die zukünftigen Anforderungssituationen zu simulieren, um so individuelle Fähigkeiten im Verhalten beobachtbar (und damit diagnostizierbar) zu machen. »Ein Assessment Center ist ein umfassendes, standardisiertes Verfahren, im Rahmen dessen unterschiedlichste Beurteilungs- und Bewertungsverfahren, wie beispielsweise situative Übungen, Interviews, Unternehmungsplanspiele, Tests, Gruppendiskussionen und eine Vielzahl von Simulationen eingesetzt werden, um einzelne Mitarbeiter im Hinblick auf verschiedene Zielsetzungen zu beurteilen. Eine Anzahl ausgebildeter Beurteiler, die nicht im direkten Vorgesetztenverhältnis zu den Teilnehmern stehen sollen, verbringen 3 bis 5 Tage mit der Beobachtung der Kandidaten und bewerten sie abschließend hinsichtlich ihres Managementpotentials und ihres Weiterbildungsbedarfs. Die Beurteilungsergebnisse werden den vorgesetzten Stellen mitgeteilt und dienen dann als Grundlage personalpolitischer Entscheidungen, wie Beförderung, Versetzung und Karriereplanung. Wenn die Ergebnisse auch den Teilnehmern bekanntgegeben werden, sollen sie zur eigenen individuellen Entwicklungsplanung beitragen.« Beschreibung des AC Neues Modell der Führungseignung Diagnostische Zielsetzungen und Prinzipien: Das Assessment Center (AC) ist eine Methode der Personalauswahl und -entwicklung. Ursprünglich wurde dieses zeitlich und finanziell aufwändige Verfahren vor allem zur Auswahl von Führungskräften, Spezialisten und Trainees eingesetzt. Erst seit Mitte der 70er Jahre findet es auch als Instrument der Personalentwicklung verstärkt Anwendung. Die meisten Organisationen kombinieren heute beide Aspekte miteinander. Bemerkenswerterweise bilden in Deutschland Hochschulabsolventen die größte Zielgruppe von AC-Seminaren, sofern es um die Auswahl für Trainingsprogramme geht (s. Obermann, 1992, S. 31). Eine nähere Gegenstandsbeschreibung, die alle wesentlichen Elemente eines AC aufzeigt, stammt von Blumenfeld (1971, zit. nach Stehle, 1982, S. 50): 8.2.2 Exkurs: Assessment Center Fazit Es kann festgehalten werden, dass ein »gemischtes« Verfahren mit möglichst verschiedenen Prädiktionselementen und auch einigen Interventionsansätzen, wie es im Assessment Center praktiziert wird, die insgesamt verlässlichsten Prognosen liefern dürfte. Unabdingbare Bestandteile darin wären (zumindest halbstandardisierte) Vorstellungs- oder Bewerbungsgespräche, bewährte Leistungstests zu kognitiven Funktionen sowie Verhaltensbeobachtungen zu simulierten Arbeitsproben, die den zukünftigen Tätigkeiten möglichst weitgehend ähneln. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Zielsetzungen des AC 458 Zudem erfolgt im Anschluss an die Absolvierung des AC-Programms für jeden Teilnehmer ein Rückmeldegespräch mit individuellem Feedback in Bezug auf das konkrete Anforderungsprofil. Diese Offenheit und Transparenz führen dazu, dass die Akzeptanz des AC durch die Teilnehmer weit über derjenigen anderer eignungsdiagnostischer Methoden liegt. Steht die Optimierung einer Selektionsentscheidung im Zuge der Personalauswahl im Vordergrund, spricht man von Auswahl- oder Beurteilungsseminaren. Kommt es hingegen bei der Veränderung von Personen oder Bedingungen als Teil der Personalentwicklung auf eine Modifikationsentscheidung an, ist eine Bezeichnung als Entwicklungs- oder Förderungs-Seminar üblich (Jeserich, 1981, S. 36). Der Einsatz eines AC als Bestandteil der Personalauswahl ist nach Obermann (1992, S. 16) immer dann sinnvoll, wenn überfachliche Eigenschaften eine wesentliche Rolle für den Berufserfolg spielen. Es eignet sich dabei gleichermaßen zur Unterstützung der Selektion externer wie auch interner Bewerber. Von diesen Annahmen ausgehend ist das AC folgenden Prinzipien verpflichtet (vgl. Neubauer, 1980, S. 125): 4 Verhaltensorientierung: Nicht Persönlichkeitseigenschaften, sondern Verhaltensweisen als Indikatoren der Eignung bilden die Grundlage der Beurteilung. Zur Provokation von Verhaltensweisen bedarf es der möglichst realistischen Simulation der zukünftigen Führungsanforderungen. Die Ähnlichkeit der situativen Übungen/ Arbeitsproben mit den tatsächlichen Aufgaben bestimmt die Genauigkeit der Vorhersage (= Repräsentationsschluss der Verhaltenstheorie, 7 Abschn. 1.4 und 1.6). 4 Anforderungsbezogenheit: »Die Diagnose kann nicht besser sein als die Vorstellung darüber, wodurch sich geeignete von weniger geeigneten Mitarbeitern unterscheiden« (Jeserich, 1981, S. 53). Neubauer (1980, S. 125) spricht davon, dass Eignung sich nur durch das »geeignet wofür« bestimmen lässt. Von daher ist für jedes AC eine detaillierte Anforderungsanalyse unabdingbar notwendig. 4 Methodenvielfalt: Das Prinzip der Methodenvielfalt dient dazu, die Fehlerquellen einzelner Verfahren auszugleichen. Einzelne Anforderungskriterien müssen in Rollenübungen, Gruppendiskussionen, Simulationen usw. mehrfach und unabhängig voneinander beobachtbar sein, um Beurteilungen zuverlässig vornehmen zu können. 4 Mehrfachbeurteilung: Gewöhnlich wird jeder Teilnehmer eines AC-Seminars von mehreren Personen (in der Regel Führungskräfte des Unternehmens) beobachtet, und zwar abwechselnd in verschiedenen Einzelübungen, um etwaige Beobachtungs- und Beurteilungsfehler auszugleichen. Das Verhältnis von Teilnehmern zu Beobachtern ist meist 2:1. Die Verhaltensbeobachtung erfordert ein intensives Training und wiederholte Schulung der Führungskräfte. Diese aus dem eigenen Unternehmen für die Aufgaben innerhalb der AC-Seminare zu rekrutieren, bringt eine Reihe von Vorteilen mit sich: Kenntnis der Unternehmenskultur und damit der angestrebten »Passung« zwischen Anforderungen und Bewerbern, Möglichkeiten der Selbstdarstellung und Repräsentation des Unternehmens, Kontaktanbahnung zur kommenden Führungsgeneration u. a. 4 Transparenz: Schon bei der Konstruktion, später auch bei der Durchführung, liegen die Anforderungen und Beobachtungskriterien offen. Der Zusammenhang zwischen Verfahren und Ziel ist evident, die inhaltliche Verwandtschaft der Übungs- und Simulationselemente zur Zielfunktion und dem Soll-Zustand stellt eine Besonderheit dar, die gleichsam eine Art Gegenpol zu den projektiven Verfahren markiert. 8.2 · Personalbeurteilung 8 Auswahl- oder Entwicklungsseminare Rückmeldung Transparenz Mehrfachbeurteilung Methodenvielfalt Anforderungsbezogenheit Verhaltensorientierung Prinzipien des AC 459 8 Verfahren der Anforderungsanalyse. Eine exakte und umfassende Anforderungsmessung und der aus ihr abgeleitete Anforderungsrahmen liefern den Maßstab für die Beurteilung der Teilnehmerleistungen im AC. Die Strukturierung des Anforderungskataloges erfordert auf der höchsten Abstraktionsebene einen Satz von Kategorien, denen ein Komplex von spezifischen Verhaltensweisen bzw. Tätigkeiten (Merkmale) zugeordnet ist. Bei der Konstruktion von Übungselementen muss darauf geachtet werden, dass diese Anforderungsmerkmale für den Beurteiler im Verhalten beobachtbar sind. Durch die Gewichtung der Anforderungen entsteht das Anforderungsprofil, das in der Regel die gewünschte Mindestausprägung bzw. die Ausprägungsspanne des Merkmals für eine bestimmte Position definiert. Bei der Durchführung des AC mit Entwicklungszielsetzung sind die Anforderungen weniger eng und konkret auf eine bestimmte Position bezogen definiert. Es wird vielmehr eine breitere organisationsspezifische Vorstellung von Führungsfähigkeiten realisiert. Die Methoden der Anforderungsanalyse teilt Obermann (1992, S. 77) in 2 große Blöcke ein, die er »Bottom-up-« und »Top-down-Verfahren« nennt. Die Gruppe der »Bottom-up-Vorgehensweisen« hilft die Frage zu beantworten, wie sich gegenwärtig erfolgreiche von weniger erfolgreichen Positionsinhabern unterscheiden. Durch die Orientierung an momentan bestehenden Strukturen gerät aber der Versuch, zukünftige Veränderungen und Entwicklungen mit zu berücksichtigen, zu einem äußerst schwierigen Unterfangen. Die »Top-down-Methoden« hingegen orientieren sich nicht am Bestehenden, sondern an strategischen Unternehmungszielen, Marktentwicklungen und Werten, die das Unternehmen in Zukunft prägen sollen. Damit wird die Vorwegnahme von zukünftigen Entwicklungen zur Leitlinie für die Beurteilung von Mitarbeitern. Zwei prototypische Vertreter der »Bottom-up-Vorgehensweise« sind: Anforderungsanalyse Top-down Bottom-up Operationalisierung durch beobachtbare Verhaltensweisen Mehr Raum nehmen AC-Veranstaltungen hingegen unter der Perspektive der Personalentwicklung ein. Diesbezüglich eröffnen sich u. a. die folgenden Anwendungsmöglichkeiten (nach Obermann, 1992, S. 18 ff.): 4 Trainingsbedarfsanalysen: Diagnostizierte und präzise umschriebene Schwächen von Mitarbeitern liefern den Ansatz für individuell abgestimmte bedarfsorientierte Trainingsmaßnahmen, 4 Potentialanalyse: Insbesondere im Hinblick auf weiterführende Aufgaben, 4 Kompetenzerweiterung: Z. B. in Kommunikation oder Führung, 4 Entwicklung der Unternehmenskultur: Förderung der Identifikation der Mitarbeiter mit unternehmerischen Werten, 4 Laufbahnplanung/Ausbildungsberatung, 4 Hilfsmittel der Arbeitsplatzgestaltung: Die Ergebnisse von AC-Veranstaltungen müssen sich nicht auf Veränderungen an Personen beschränken, sondern können auch solche von bestehenden Arbeitsbedingungen mit einschließen, etwa in Form der Erweiterung von Aufgaben, Verantwortung und Herausforderung (darunter Job enlargement, Job enrichment, Job rotation, 7 Abschn. 8.4), 4 Trainingsevaluation, 4 berufliche Rehabilitation: AC-Untersuchungen an Rehabilitanden können nicht nur das Ausmaß an Einschränkung und Behinderung attestieren, sondern auch positiv aufzeigen, in welchen Bereichen welche Kompetenzen vorhanden sind (s. Schuler & Stehle, 1983, S. 40). Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie AC zur Personalentwicklung 460 6 1. Auf »Verhaltensindikatoren« gestützte Verfahren. Aus eigenschaftsorientierten Methoden wie – Intelligenztests, – allgemeinen Leistungstests, – Interessentests lassen sich nur unter Rekurs auf psychologische Theorien Vorhersagen über konkretes Verhalten ableiten. Solche Verfahren sind dem AC gemeinhin wesensfremd, doch wird – trotz ihrer geringen Transparenz und Akzeptanz – gelegentlich zu Zwecken der Grobklassifikation darauf zurückgegriffen. Kategorien der AC-Übungen nach Neubauer (1980, S. 129 ff.) Übungen des AC-Verfahrens. Zwar besteht die Möglichkeit, Standardübungen – ggf. mit Modifikationen – anzuwenden, doch spricht die Spezifität der jeweiligen Anforderungen eher dafür, gesonderte (»maßgeschneiderte«) Übungen zu konstruieren. Ungeachtet ihrer Vielfalt und Spezifität lassen sich dabei jedoch nach Neubauer (1980, S. 129 ff.) die in der 7 Übersicht dargestellten Kategorien unterscheiden. gen Strukturen (Bottom-up) oder an zukünftigen Entwicklungszielen (Topdown) einer Organisation orientieren. ! Die Methoden der Anforderungsanalyse können sich entweder an gegenwärti- Weitere Verfahren sind bei Jeserich (1981) und Obermann (1992) beschrieben, darunter auch der Fragebogen zur Arbeitsanalyse von Frieling und Hoyos (1978), der unter 7 Abschn. 8.4 kurz vorgestellt wird. 1. Die Critical Incident Technique (CIT). Die von Flanagan (1954) entwickelte CIT verlangt von den Führungskräften der Zielebene, dass sie mehr oder weniger typische Vorfälle, darunter insbesondere wichtige und plötzliche/unerwartete Ereignisse, auflisten. Der erhaltene Katalog wird Führungskräften vorgelegt, die die Zielposition kennen. Diese sollen beurteilen, mit welchen Verhaltensweisen erfolgreiche und mit welchen weniger erfolgreiche Stelleninhaber diese Vorfälle meistern. Über die Gewichtung und Systematisierung der Verhaltensweisen gelangt man zu einem Anforderungsprofil. Ein Vorteil dieser Methode besteht darin, dass aus der CIT sowohl kritische Verhaltensweisen und somit Beurteilungsdimensionen als auch Situationsaspekte und somit Bausteine für AC-Übungen abgeleitet werden können. 2. Die Repertory-Grid-Technik (REP). In einer Modifikation der auf Kelly (1955) zurückgehenden Methode werden von den Führungskräften mehrere erfolgreiche und weniger leistungsfähige Kollegen genannt. Deren Namen, auf Karten geschrieben, werden in verschiedenen Dreiergruppen Experten vorgelegt. Diese sollen die Gemeinsamkeiten von 2 Personen benennen, die diese beiden von der dritten Person unterscheiden. Ähnlichkeit bzw. Unterschiedlichkeit sollen sich auf die konkrete Funktion der Personen als Führungskräfte beziehen und in Form beobachtbaren Verhaltens beschrieben werden. Daraus resultiert eine Liste von Gegensatzpaaren, die zu einem Fragebogen zusammengefasst und mit Skalen versehen wird. Mit Hilfe dieses Fragebogens wird das Verhalten von erfolgreichen und weniger erfolgreichen Stelleninhabern eingeschätzt. 8.2 · Personalbeurteilung 8 AC-Übungen Beispiel: Benennung von Gemeinsamkeiten Beispiel: Auflistung typischer Vorfälle 461 8 Validität. In Abhängigkeit von der Zielsetzung eines AC, dessen inhaltlichen Bausteinen, der Stichprobe der daran teilnehmenden Personen und den verfügbaren Kriterien tenz und Retestung) kommt beim AC als weiterer Zugang die Prüfung der Übereinstimmung zwischen den Beurteilern hinzu. Je nachdem, ob nur einzelne Übungen oder deren Gesamtheit eingeschätzt werden und je nachdem, ob die Beurteiler unabhängig voneinander vorgehen oder nicht, schwanken die Werte für die Interraterreliabilität erheblich und liegen zwischen .50 und .90. Ähnliches gilt für Maße der internen Konsistenz. Kommen sehr verschiedene Aspekte von Leistungen zum Tragen, können die betreffenden Koeffizienten allenfalls mittlere Höhen erreichen (um .50; s. Hinrichs & Haanperä, 1976). Wiederholungsuntersuchungen fehlen wegen der damit verbundenen Kosten und auch deshalb, weil durch ein AC Veränderungen induziert werden sollen: Ein erneutes AC-Seminar mit der gleichen Zielsetzung würde nicht mehr an den gleichen personalen Voraussetzungen anknüpfen. Reliabilität. Zu den üblichen Ansätzen der Reliabilitätsabschätzung (interne Konsis- Auswertung. Grundsätzlich sollte eine strikte Trennung in die zwei Abschnitte von Beobachtung einerseits und Beurteilung andererseits stattfinden. In der ersten Phase werden lediglich Daten gesammelt, in der zweiten diese den Beurteilungskriterien zugeordnet. Die strenge Trennung soll gewährleisten, dass nicht bereits durch erste und diffuse Eindrücke die Qualität der Daten gemindert wird. Den Ergebnissen von Thornton et al. (1987) zufolge lässt sich die Auswertungsobjektivität durch die Hinzuziehung von Psychologen und Managern, die die Anforderungen gut kennen und im Hinblick darauf die gezeigten Leistungen angemessen interpretieren können, verbessern. Methodenvielfalt und Einsatz mehrerer Beobachter sind der Auswertungsobjektivität deshalb förderlich, weil sich dadurch ein Fehlerausgleich (potentiell) erzielen lässt. Trennung von Beobachtung und Beurteilung Prüfung der Beurteilerübereinstimmung Durchführung. Obgleich in der eingangs gegebenen Definition von »Standardisierung« die Rede war, ist Objektivität der Durchführung beim AC nicht gegeben, was mit den Besonderheiten situativer Übungen zu tun hat. 2. Auf »früheres Verhalten« gestützte Verfahren. Nach dem Credo der Verhaltenstheorie »The best predictor of future performance is past performance« (Wernimont & Campbell, 1968, S. 372) kommen hier in Betracht: – Hintergrundinterviews, – biographische Fragebogen. 3. Auf »aktuelles Verhalten« gestützte Verfahren. Sie bilden das Kernstück der AC-Methodologie: – schriftliche Einzelübungen (Ausarbeitungen; Postkörbe), – mündliche Einzelübungen (Vorträge und Präsentationen; Interviewsimulation und Rollenspiele). 4. Gruppendiskussionen. 5. Sonstige Verfahren. Mischformen aus den vorgenannten Verfahren; Lockerungsübungen ohne Bewertungsdruck, Peer-ratings, computersimulierte Unternehmensplanspiele. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Keine Durchführungsobjektivität 462 .37 .36 .53 .33 .35 .36 Beförderung Frühe Identifikation Auswahl Forschung .30 .46 .41 .48 Resultate – unterteilt nach Zielen des AC Leistung Potential Dimensionen Training Karriere Resultate – unterteilt nach Kriterienmaßen Gesamtresultat Validitätsmittelwert .0293 .0000 .0032 .0000 .0203 .0373 .0998 .0197 .0000 .0172 Varianz .04 bis .64 .46 bis .46 .30 bis .52 .48 bis .48 .08 bis .64 .15 bis .91 –.29 bis .95 .07 bis .63 .36 bis .36 .11 bis .63 Konfidenzintervall 65 0 9 0 43 64 77 69 0 46 P . Tabelle 8.4. Ergebnisse der Metaanalyse von Thornton et al. (1987). (Aus Obermann, 1992, S. 255) P »wahre« Varianz der Validität in den Studien ist eine erhebliche Streuung der Validitätskoeffizienten zu erwarten. In die Metaanalyse von Thornton et al. (1987) gingen 50 Einzelstudien ein, deren Validität zwischen rtc = –.25 und +.78 variierte. Bei den Kriterien handelte es sich um Einschätzungen der Arbeitsleistung, des Leistungspotentials, der Leistungen in den im AC verwendeten Dimensionen und der Leistungen in einem Managertrainingsprogramm sowie um Maße der Karriereentwicklung wie Gehaltserhöhungen und Anzahl der Beförderungen. Nach einer Artefaktkorrektur für die Stichprobenfehler aufgrund der wechselnden (und häufig nur mäßigen) Gruppengrößen der Einzelstudien, für die mangelnde Reliabilität der Kriterien und für die aufgrund der starken Vorselektion eingeschränkte Messwertestreuung (nicht aber für die Unreliabilität der Prädiktoren) betrug die mittlere prädiktive Validität rtc = .37 (. auch Tab. 8.2). Die getrennt für die einzelnen Kriterienmaße und Ziele der AC ermittelten Validitätskoeffizienten sind aus . Tab. 8.4 ersichtlich. Die Frage nach der Generalisierbarkeit der Validität kann bejaht werden, da die Berechnung des 95%-Konfidenzintervalles einen unteren Wert von rtc = .11 ergab, der auf dem 1%-Niveau von Null verschieden ist. Weitere Untersuchungen, darunter solche zur inkrementellen Validität einzelner Bausteine des AC, haben Neubauer und Volkmann (1989) zusammengestellt. Nicht alle der in der Literatur berichteten Validitätskoeffizienten sind direkt mit denjenigen herkömmlicher Tests vergleichbar, und zwar deshalb nicht, weil die Ergebnisse des AC gewöhnlich den Teilnehmern und anderen Führungskräften detailliert mitgeteilt werden. Daraus mögen Effekte im Sinne einer »self-fulfilling prophecy« resultieren, und zwar auch deshalb, weil Beförderungs- und Besetzungsentscheidungen vom Wissen der AC-Ergebnisse beeinflusst sein können, somit das Kriterium vom Prädiktor nicht unabhängig ist. Außerdem kann jemandem, dem beispielsweise in einer AC-Veranstaltung herausragende Entwicklungspotentiale zuerkannt wurden, später nur schwer völliges Versagen attestiert werden, zumal dann nicht, wenn die Beurteiler der AC-Leistungen und derjenigen aus dem regulären Arbeitsablauf teilweise dieselben 8.2 · Personalbeurteilung Mangelnde Vergleichbarkeit mit herkömmlichen Tests Erhebliche Streuung der Vailiditätskoeffizienten 463 8 8 Einengung anderer Validitätsaspekte Im Vergleich zu anderen eignungsdiagnostischen Verfahren wie Praktika, Schulnoten, Tests, biografischen Daten und graphologischen Gutachten nimmt das AC hinter dem Vorstellungsgespräch Platz 2 in Bezug auf die soziale Validität ein. Die berichteten Ergebnisse gelten allerdings ausschließlich dem AC als Selektionsinstrument; über analoge Einordnungen unter der Entwicklungsperspektive fehlen zunächst Anhaltspunkte. Mit dem hohen Ausmaß an sozialer Validität geht andererseits eine gewisse Einengung anderer Validitätsaspekte einher. So beklagt Neubauer (1980, S. 154 ff.) die Ausrichtung auf einen ganz bestimmten »Erfolgstyp«, einen »Vielredner mit eindrucksvollem Auftreten und Durchsetzungsvermögen«, des Weiteren »übungsspezifische Filtereffekte«, da das Medium aller Übungen die verbale Ausdrucksfähigkeit sei. Generell muss zudem damit gerechnet werden, dass die demotivierenden Effekte auf Seiten nichterfolgreicher Teilnehmer besonders gravierend sind. In Bezug auf jeden der Gesichtspunkte ist das AC anderen Methoden deutlich überlegen. Der Zusammenstellung von Obermann (1992, S. 269 ff.) folgend gilt: 4 das AC wird als wenig angst- und stressinduzierend erlebt, 4 es hat eine hohe Augenschein-(Face-)Validität, 4 nach Teilnahme verschiebt sich die positive Einschätzung der sozialen Validität noch mehr zugunsten des AC, hängt aber verständlicherweise auch z. T. vom Abschneiden selbst ab. Positive Beurteilung der AC Soziale Validität AC zumindest »gleichwertig« Personen sind. Von daher besteht die Gefahr einer direkten Kriterienkontamination (s. dazu Klimoski & Brickner, 1987) und artifiziell erhöhter Validitäten. Von eminent wichtiger Bedeutung ist deshalb die berühmte AT & T-Studie von Bray et al. (1974), in der die AC-Ergebnisse gegenüber Teilnehmern und Vorgesetzten geheim gehalten wurden. Dessen ungeachtet belief sich auch unter diesen Gegebenheiten die prädiktive Validität nach einem Vorhersageintervall von 8 Jahren auf rtc = .46. Angesichts solcher Befunde gelangt Hossiep (1994, S. 96) in seiner Würdigung des AC, die sich an dem Kriterienkatalog des Testkuratoriums orientiert (7 Abschn. 2.3), zu der Feststellung, »dass die AC in ihrer Vorhersagekraft für Beförderungskriterien und subjektive Leistungskriterien alternativen Prädiktoren eher überlegen, zumindest aber gleichwertig erscheinen«. Mit dem Begriff der »sozialen Validität« haben Schuler und Stehle (1983) eine Art Kontrastkonzept zur empirisch-technischen Vorhersagevalidität geschaffen. Damit werden die Reaktionen der Getesteten auf die eignungsdiagnostischen Untersuchungen in den Vordergrund von Erwägungen gerückt. Die soziale Validität betrifft den sozialen Kontext der Diagnostik und ist durch 4 Aspekte gekennzeichnet: 4 Berücksichtigung sozialpsychologischer Anforderungen (insbesondere die Information über die zur Selbstselektion relevanten Charakteristika von Arbeitsplatz und Organisation), 4 Partizipation der Betroffenen (sowohl bei der Entwicklung als auch der Durchführung von Untersuchungen), 4 Transparenz, 4 angemessene wechselseitige Kommunikation (darunter Urteilskommunikation, Feedback in rücksichtsvoller, verständlicher und nachvollziehbarer Form). Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Gefahr direkter Kriterienkontamination 464 6 Worin bestand im vorliegenden Fall Ihre Leistung? Auf der Basis umfangreicher Anforderungs- und Sollprofil- Analysen haben wir ein umfangreiches Management Assessment (MA) zusammengestellt. Dieses MA wird von den Managern der oberen Ebenen besucht. Im Rahmen der umfangreichen Verhaltensdiagnostik wird ein Stärken- und Schwächenbild der einzelnen Teilnehmer und in der Aggregation der Führungsmannschaft erstellt. Im Rahmen von Feedbacksitzungen werden aus den individuellen Ergebnisreports individuelle Entwicklungsmaßnahmen abgeleitet. Aus welchen Gründen entscheiden sich Unternehmen dafür, Ihre Dienste in Anspruch zu nehmen? Vielleicht können Sie das an einem Beispiel erläutern. Aktuell ist unsere Auftragslage durch die wirtschaftliche Situation geprägt. Fragestellungen der Verhaltens- und Leistungsdiagnostik (Management Diagnostik) in Zeiten der Reorganisation oder der Akquisition haben eine entsprechende Nachfrage. Aber es gibt auf der anderen Seite auch die Kunden, die ihre Entwicklungsprogramme weiter elaborieren. So führt aktuell ein Kunde, Marktführer im Bereich der technischen Kommunikation, eine Zusammenführung beider Fragestellung in der Art durch, dass er mit unserer Hilfe umfangreiche Potentialassessments im Top-Management umsetzt, um im Anschluss daran die Weiterentwicklung des Managements differentiell und damit gezielter gestalten zu können. Managementberatung« Herr Dries, stellen Sie doch bitte erst einmal Ihre Firma kurz vor. Wie viele Psychologen sind bei Ihnen beschäftigt und worauf haben Sie sich spezialisiert? Wir, das kölner institut für managementberatung, sind eine Unternehmensberatung, die sich auf die Kompetenzfelder Personalmanagement und Organisationsberatung spezialisiert hat. Durch die wissenschaftlich-psychologische Ausbildung unserer 15 fest angestellten Mitarbeiter und die enge Zusammenarbeit mit verschiedenen Hochschulen bearbeiten wir Fragestellungen der Praxis auf der Basis neuester wissenschaftlicher Erkenntnisse und Methoden. Insbesondere im AC Bereich gehören wir zu den führenden Anbietern in Deutschland. So vergeht kein Tag im Kalenderjahr, an dem nicht einer unserer Berater im nationalen oder internationalen Kontext ein Assessment durchführt. > Interview mit Dr. Christian Dries zum Thema »Assessment Center in der Praxis: »Das Assessment Center leistet einen wichtigen Beitrag zu Auswahlprozessen in Wirtschaft und Verwaltung... Der Trend zum Assessment Center ist... ungebrochen, da gleichermaßen eine durchgängig hohe Akzeptanz durch Unternehmen und Bewerber gegeben ist und Inhalt wie Ablauf von Gruppenauswahlverfahren als anforderungsnah erlebt werden. Anwendungsgebiete, Zielgruppen und Erfassungsbreite des Verfahrens sind denkbar groß...« (Hossiep, 1994, S. 102), die Ökonomie des Verfahrens im diametralen Gegensatz dazu äußerst gering. Von den Hauptgütekriterien kann nur die Validität zufriedenstellen, die im Einzelfall sehr stark von der Sorgfalt in Entwicklung und Durchführung abhängt. Die hohe soziale und die Augenscheinvalidität sind potentielle Hinderungsgründe für die Notwendigkeit von kontrollierten Bewährungsstudien. Fazit 8.2 · Personalbeurteilung Dipl.- Psych. Dr. Christian Dries, Geschäftsführer des kölner instituts für managementberatung. 465 8 8 . Abb. 8.4. Die Wirkung von Kontext- und ContentVariablen auf Unzufriedenheit und Zufriedenheit. (Aus von Rosenstiel, 1992, S. 77) Motivatoren und Satisfaktoren Hygienefaktoren Tätigkeitsbezogene Diagnostik und Intervention 1. Die sog. Hygienefaktoren, die die Rand- und Folgebedingungen der Arbeit betreffen: Sie werden auch als Kontextvariablen bezeichnet. Diese Art von Variablen affiziert die extrinsische Arbeitsmotivation, und sie können Unzufriedenheit abbauen, ohne deshalb Zufriedenheit zu erzeugen. Im Hinblick darauf ist auch eine Bezeichnung als »Dissatisfaktoren« gebräuchlich. Zu dieser Ebene zählen u. a. Faktoren wie 5 Führungsstil, 5 Arbeitsbedingungen, 5 interpersonale Beziehungen, 5 Gehalt. 2. Demgegenüber betreffen die Contentvariablen die intrinsische Arbeitsmotivation (deshalb auch die Bezeichnung »Motivatoren«). Bei entsprechender Ausprägung führen sie zu Zufriedenheit (»Satisfaktoren«). Dazu gehören u. a. 5 Leistung, 5 Anerkennung (der eigenen Leistung), 5 Verantwortung. Zweifaktorentheorie der Arbeitszufriedenheit von Herzberg et al. (1959) Für die Ausgestaltung tätigkeitsbezogener Maßnahmen, also jener, die an konkreten Handlungen innerhalb einer Organisation ansetzen, war die Zweifaktorentheorie der Arbeitszufriedenheit von Herzberg et al. (1959) von maßgeblichem Einfluss. Selbst wenn diese Theorie und mehr noch die daran ansetzenden Operationalisierungen während der letzten 25 Jahre mannigfaltige Kritik erfahren haben, soll sie dennoch hier vorgestellt werden. Herzberg unterscheidet zwei Ebenen, die für die Arbeitszufriedenheit verantwortlich sind (7 Übersicht). . Abbildung 8.4 veranschaulicht diese Theorie als dimensionales System. 8.4 verwandt, bei dem ein älteres Organisationsmitglied einen ihm zugeordneten jüngeren Mitarbeiter berät und unterstützt. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Zweifaktorentheorie von Herzberg 468 6 Instruktion und Beispielitems für die Bereiche Informationsaufnahme und Gefährdungsarten 1. Informationsaufnahme und Informationsverarbeitung Arbeitselemente 1.01 bis 1.66 1.1. Quellen der Arbeitsinformation Hinweise zur Einstufung der Arbeitselemente 1.01 bis 1.20 Stufen Sie die Arbeitselemente danach ein, wie häufig sie als Informationsquellen vom Stelleninhaber benutzt werden, um die Aufgaben erfolgreich erledigen zu können. Fragebogen zur Arbeitsanalyse (FAA) Beispiel Die daraus ableitbaren praktischen Implikationen sind mannigfach; zumindest einige können hier angesprochen werden: Auf der Ebene der Kontextfaktoren kommt die Optimierung von Bereichen bzw. Variablen wie Lärmpegel am Arbeitsplatz, Beleuchtungsverhältnisse (man denke an das berühmte 1939 publizierte Hawthorne-Experiment), Arbeitsmodelle (z. B. Auswirkung von Schichtarbeit auf psychische, vegetative und psychosomatische Variablen) und weitere potentielle Stressoren in Betracht. Etwa hat die Einführung der Computer am Arbeitsplatz ganz neue Probleme geschaffen. Viele der daran tätigen Menschen klagen z. B. über Kopf- und Rückenschmerzen oder Augenreizung usw. Das vorrangige Interventionsziel der Psychologie in diesem Bereich besteht dementsprechend darin, möglichst günstige Arbeitsrahmen- bzw. Arbeitsplatzbedingungen zu schaffen. Dadurch soll der Umfang an Beeinträchtigungen in erträglichem Ausmaß gehalten werden, etwa in Gestalt verbesserter Beleuchtungsverhältnisse, der Schaffung von Ruheräumen, der Bereitstellung von strahlungsarmen Bildschirmen usw. Auch die Erhebung und Umsetzung möglichst wenig belastender Schichtarbeitsmodelle gehört hierher. Vielen Untersuchungen zufolge ziehen verbesserte Arbeitsplatzbedingungen auch bessere Leistungen nach sich, sodass Maßnahmen der besagten Art auch im Interesse der Unternehmensleitung liegen, ganz abgesehen von den Vorgaben des Programms zur »Humanisierung der Arbeitswelt« (zusammenfassend s. Frieling & Sonntag, 1987). Verbesserungen in diesen Bereichen würden im Sinne der Theorie die Unzufriedenheit reduzieren, ohne Einfluss auf die Arbeitszufriedenheit zu nehmen. Hauptsächlich auf diese Ebene bezieht sich der in Deutschland weit verbreitete »Fragebogen zur Arbeitsanalyse FAA« von Frieling und Hoyos (1978), der aus dem im angloamerikanischen Raum gebräuchlichen »Position Analysis Questionnaire PAQ« (McCormick et al., 1969) hervorgegangen ist. Die annähernd 200 Items gelten Variablengruppen wie kognitiven Prozessen (u. a. Informationsaufnahme), dem Arbeitsoutput, der Beziehung zu anderen Personen, der Arbeitsumgebung u. a. (7 Beispiel). Das »Ziel des FAA ist es, explizit das Was der Tätigkeit zu analysieren« (Gebert & von Rosenstiel, 1989, S. 232). Die Beantwortung der Fragen geschieht teilweise durch Befragungen, teilweise durch Beobachtungen. Das Verfahren eignet sich hauptsächlich zur Beschreibung und Bewertung motorischer Tätigkeiten und weniger für diejenige geistiger Arbeiten. Die erhaltenen Resultate erlauben nicht zuletzt auch einen Vergleich verschiedener Tätigkeiten miteinander. 8.4 · Tätigkeitsbezogene Diagnostik und Intervention 8 FAA: Befragung und Beobachtung FFA zur Arbeitsanalyse Humanisierung der Arbeitswelt Bessere Leistungen Praktische Implikationen: Bessere Arbeitsbedingungen 469 8 Wie häufig dient Zahlenmaterial (Material, das aus Zahlen oder Beträgen besteht; z. B. numerische Angaben, Rechnungen, technische Daten oder Zahlentabellen) als Quelle der Arbeitsinformation? H 1.03 Wie häufig dient handgeschriebenes Material (z. B. Entwürfe für Briefe, Notizen, handschriftliche Anweisungen oder Stenogramme) als Quelle der Arbeitsinformation? H 1.02 Optische Quellen der Arbeitsinformation Wie häufig dient gedrucktes, maschinengeschriebenes oder in Druckschrift geschriebenes Material (z. B. Bücher, Zeitschriften, Zeitungen, Berichte, Dienstschreiben, Texte oder Briefe) als Quelle der Arbeitsinformation? H 1.01 Auf der Ebene der »Satisfaktoren« bietet sich u. a. das Verfahren der »Subjektiven Arbeitsanalyse SAA« von Udris und Alioth (1980) an, dessen 50 Items sich auf die folgenden Bereiche richten (von denen die letzten beiden mehr zu den Dissatisfaktoren gehören): Gefährdung durch Hitze bzw. Feuer H 4.19 (Der Stelleninhaber ist bei seiner Arbeit der Gefahr von Verbrennungen ausgesetzt; z. B. beim Schweißen, beim Kochen oder beim Löschen von Bränden) Gefährdung durch »Arbeit an erhöhten Plätzen« H 4.18 (Der Stelleninhaber arbeitet auf Leitern, Gerüsten, Dächern, Kaminen usw. Berücksichtigen Sie bei der Einstufung, dass die Unfallgefährdung durch die Wettereinflüsse noch gesteigert werden kann) Gefährdung durch sich bewegende oder fallende Objekte H 4.17 (Der Stelleninhaber steuert oder bedient Fahrzeuge und/oder Transportgeräte, oder er arbeitet an Transporteinrichtungen, Hebezeugen oder Hochregalen; z. B. Anschläger, Gabelstaplerfahrer, Kranführer oder Lagerist) Gefährdungsarten Gefährdung durch Werkzeuggebrauch H 4.16 (Der Stelleninhaber benutzt unfallträchtige Werkzeuge; z. B. Schnitt- und Stechwerkzeuge, Sägen oder Skalpelle) 1.1.1 Die Häufigkeit soll dabei auf die Gesamtheit aller am Arbeitsplatz auftretenden Arbeitsprozesse bezogen werden. Schlüssel (H) Häufigkeit 0 trifft nicht zu 1 sehr selten 2 selten 3 mittel 4 häufig 5 sehr häufig Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie SAA zur subjektiven Arbeitsanalyse 470 »Mit Hilfe der SAA kann die Arbeitssituation, wie sie subjektiv wahrgenommen wird, in theoretisch relevanten Aspekten erfasst werden, wobei das Verfahren den Vorteil hat, zur Analyse recht unterschiedlicher Arbeitstätigkeiten eingesetzt werden zu können« (von Rosenstiel, 1992, S. 71). Handlungsspielraum (z. B. Autonomie), Transparenz (z. B. im sozialen Bereich), Verantwortung (z. B. für eine gemeinsame Aufgabe), Qualifikation (Anforderung, Einsatz, Chance), soziale Struktur (z. B. Unterstützung durch Kollegen), Arbeitsbelastung. Die sog. »neuen Wege psychologischer Arbeitsgestaltung« beinhalten im Grunde all solche Maßnahmen, die im Sinne der Herzbergschen Theorie die intrinsische Arbeitsmotivation erhöhen können und somit den negativen Folgen der tayloristischen Vereinzelung und Entfremdung (»innere Kündigung«, höhere Fluktuation und Fehlzeiten) entgegenwirken. Des Weiteren zielen sie auch auf eine sinngebende und zufriedenstellende Arbeitssituation, eine Erhöhung der Partizipation der Arbeitenden, und sie richten sich in der Regel an den Vorgaben der »Humanisierung der Arbeitswelt« aus: Job enlargement: Erweiterungen der Aufgaben im horizontalen Sinne. Ausführung von verschiedenen Tätigkeiten an einem Arbeitsplatz, die zuvor von mehreren, stärker spezialisierten Arbeitskräften verrichtet wurden. Eine solche Form der Arbeitsumgestaltung bringt allerdings keine Autonomie oder Partizipation mit sich, sondern nur eine Vergrösserung des Tätigkeitsspielraumes. Job rotation: Geplanter Arbeitsplatztausch innerhalb eines Bereiches. Auch dieser Ansatz zielt vor allen Dingen auf eine höhere Qualifikation des Arbeitenden ab. Job enrichment: Ausweitung des Arbeitsbereiches in horizontaler und vertikaler Richtung; letzteres bedeutet Zugestehen von Autonomie- und Entscheidungsspielräumen. Konkret könnten einem Beschäftigten nicht nur zusätzliche Arbeitselemente, sondern in gewissen Grenzen auch die Planung und Endkontrolle seiner Tätigkeit übertragen werden. Der Ansatz der teilautonomen Arbeitsgruppen vereint die 3 vorgenannten Konzepte. Darunter versteht man »kleine funktionale Einheiten der regulären Organisationsstruktur (ca. 3 bis 10 Personen), die konstant zusammenarbeiten und denen die Erstellung eines kompletten (Teil-)Produkts oder einer Dienstleistung mehr oder weniger eigenverantwortlich übertragen wurde« (Bungard & Antoni, 1993, S. 391). Obwohl auch die Autonomie solcher Arbeitsgruppen im konkreten Fall recht eingeschränkt sein mag, überzeugt der Gedanke in konzeptioneller Hinsicht als eine perspektivenreiche Alternative, die Arbeitenden mehr in das Geschehen der Organisation einzubinden. Eine weitere Maßnahme auf dem Weg zu einer Erhöhung der intrinsischen Arbeitsmotivation besteht in der Implementierung von »Qualitätszirkeln«, deren Aufgabe primär darin besteht, innerhalb der eigenen Gruppe Problembereiche in moderierten Gesprächsrunden zu thematisieren und Lösungsvorschläge aufzuzeigen. Wie bereits dargelegt, dürften die »humanitären« Gesichtspunkte kaum ausschlaggebend dafür sein, sie in der Praxis umzusetzen, um damit zu einer Erhöhung der Arbeitszufriedenheit beizutragen. Vielmehr werden es eher ökonomische Überlegungen sein, die auf Seiten der Unternehmensleitung handlungsbestimmend sind. Das Motto von der Humanisierung der Arbeitswelt stellt insofern im Regelfall wohl nur eine sozial 4 4 4 4 4 4 8.4 · Tätigkeitsbezogene Diagnostik und Intervention Ökonomische Ziele handlungsbestimmend Qualitätszirkel Teilautonome Arbeitsgruppen Umfassende Ausweitung des Arbeitsbereiches Arbeitsplatztausch Tätigkeitsspielraum Erhöhung der intrinsischen Arbeitsmotivation 471 8 8 Verbesserung der Kommunikation Interpersonale Kommunikation als Problemfeld Konfliktdiagnostik Diagnostik und Intervention bei Gruppen Angesichts der zunehmenden Verwirklichung von Gruppenarbeitskonzepten (wie teilautonome Arbeitsgruppen, Qualitätszirkel u. a.) in Organisationen befasst sich neuerdings die ABO-Psychologie auch mehr und mehr mit gruppenspezifischen Diagnostikund Interventionsfragestellungen. Dabei wird allerdings fast ausschließlich auf bekannte Ansätze aus der Sozialpsychologie zurückgegriffen, sodass es genügt, hier ganz kurz einige Beispiele herauszustellen. Von zentralem Interesse ist u. a. die Konfliktdiagnostik, die etwa anhand strukturaler Organisationsmerkmale erfolgen könnte (dazu würden u. a. die Wettbewerbshaltung innerhalb von und zwischen den Gruppen gehören, des Weiteren vielleicht gleiche oder unklare Machtverhältnisse zwischen oder innerhalb der Gruppen usw.). In einem solchen Fall müsste es dem Psychologen darum gehen, die Bedingungen herauszufinden, die zur Entstehung, Aufrechterhaltung und Förderung von Konflikten führen. Diese Faktoren können auch individueller Art sein und das Verhalten der einzelnen Beschäftigten beeinflussen, wie z. B. Überbetonung der eigenen Ziele, Verheimlichung der »eigentlichen« Interessen, Hintergehen der anderen Gruppen, »mobbing« u. Ä. Aus den sozialpsychologischen Experimentalanordnungen aus dem Arbeitskreis um Sherif (Sherif et al., 1961) ist bekannt, dass konfliktuöse Situationen zur Intensivierung des Gruppenzusammenhaltes, zu einer steigenden Zielorientierung und der Bereitschaft, autoritäre Führungsstile zu akzeptieren, beitragen. Als denkbare Lösung kommt u. a. in Betracht, die Kooperation durch Konzipierung von Zielen zu fördern, die nur gemeinsam erreichbar sind. Ein weiteres Problemfeld, hauptsächlich im Verhältnis zwischen Gruppen, besteht in der interpersonalen Kommunikation. In Bezug auf diese wird die psychologische Diagnostik und Intervention vor allem zur Aufdeckung und Beseitigung von Kommunikationsfehlern eingesetzt. Die Grundfrage diagnostischen Vorgehens lautet gemäß der Laswell-Formel: »Wer sagt was zu wem auf welchem Kanal mit welchem Effekt?« (von Rosenstiel, 1992, S. 295 ff.). Ausgehend von dieser Frage lassen sich insgesamt 5 potentielle Fehlerquellen in einer Kommunikation festmachen, die dann ggf. verändert werden können. Zur Intervention sind 3 allgemeine Ratschläge von Sader (1976) zur Verbesserung der Kommunikation hilfreich: 4 Kurze Wege für den Informationsfluss (wenig Schaltstellen), 4 Berücksichtigung möglicher Informationsveränderungen [man denke an Bartletts Konzeption der Gerüchtebildung (1932)], 4 Bevorzugung der schriftlichen Form. 8.5 sische Motivationsfaktoren für die Arbeitszufriedenheit verantwortlich. Das Modell impliziert eine Reihe von Folgerungen zur Humanisierung der Arbeit, deren praktische Umsetzung in der Regel jedoch ökonomischen Notwendigkeiten untergeordnet ist. ! Dem Modell von Herzberg zufolge sind sowohl intrinsische als auch extrin- erwünschte Bemäntelung einer ökonomischen Ausnützung des Produktivitätsfaktors Gruppenarbeit dar. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Rückgriff auf die Sozialpsychologie 472 lung von Organisationen und auf konkreter Ebene einerseits die am Individuum ausgerichtete Beurteilung und Entwicklung von Personal sowie andererseits die an den Arbeitsbedingungen ansetzende Analyse und psychologische Gestaltung der Arbeit. Ad 2. Innerhalb der Personalbeurteilung unterscheidet man die Eignungsdiagnostik von der (systematischen) Personalbeurteilung. Mit der Eignungsdiagnostik werden Bemühungen umschrieben, größtmögliche Übereinstimmung zwischen beruflichem Anforderungsprofil einerseits und optimaler Bewerberauswahl und -zuordnung andererseits zu verwirklichen. Zur Erreichung dieses Ziels bedient sie sich nahezu der gesamten Palette verfügbarer Instrumente, vielleicht mit Ausnahme der projektiven Verfahren. Eine Sonderstellung nehmen die sog. Assessment Center ein. Die systematische Personalbeurteilung schließt eignungsdiagnostische Aussagen häufig ein, geht aber in jenen Fällen darüber hinaus, wo es um die Abschätzung von Potentialen und die Zuführung zu Personalentwicklungsmaßnahmen geht. Ad 3. Ein Assessment Center (AC) ist ein umfassendes, standardisiertes Verfahren, in dessen Rahmen unterschiedlichste Beurteilungs- und Bewertungsverfahren wie z. B. Tests, Interviews oder Simulationen, eingesetzt werden, um einzelne Mitarbeiter im Hinblick auf Personalauswahl oder -entwicklung zu beurteilen. Es wird dabei versucht, die zukünftigen Anforderungssituationen zu simulieren, um so individuelle Fähigkeiten im Verhalten beobachtbar und diagnostizierbar zu machen. Ad 4. Der Begriff »soziale Validität« stellt ein Kontrastkonzept zur empirisch-technischen Vorhersagevalidität dar. Sie betrifft den sozialen Kontext der Diagnostik und ist durch 4 Aspekte gekennzeichnet: Berücksichtigung sozialpsychologischer Anforderungen, Partizipation der Betroffenen, Transparenz und angemessene wechselseitige Kommunikation. 4. Was bedeutet der Begriff »soziale Validität«? 3. Was ist ein Assessment Center? 2. Welche Bereiche werden in der Personalbeurteilung unterschieden und wie lassen sie sich charakterisieren? ! Ad 1. Auf abstrakter Ebene zählen dazu die Diagnostik und Entwick- 8 zählen zur ABO-Psychologie? 473 ? 1. Welche Anwendungsfelder Übungsfragen Zur historischen Entwicklung der Diagnostik im Führungsbereich, aktuellen Modellen und der Validität von Prädiktoren für Managementpositionen s. Sarges (1994). Weiterführende Literatur Fazit Diagnostik und Intervention in der ABO-Psychologie kommen vor allem praktischen Bedürfnissen in Organisationen nach: Der Auswahl, Beurteilung und Entwicklung von Personal, der Strukturierung von Organisationen oder deren Teilen sowie der Analyse und psychologischen Gestaltung der Arbeit. Sie hat vor allem auf der Ebene des Individuums (Berufseignung, Personalentwicklung und Arbeitsanalyse) theoretische Konzepte und Instrumentarien von Bedeutung hervorgebracht. Im Bereich der Gruppendiagnostik wurden jedoch noch sehr wenige eigenständige Ansätze von Seiten der ABO-Psychologie entwickelt. 8.5 · Diagnostik und Intervention bei Gruppen (S.485-488) Hochbegabtendiagnostik (S.481-485) Diagnostik und Intervention bei der individuellen Schülerhilfe (S.476-481) Diagnostik und Intervention bei der Schullaufbahnberatung Diagnostik und Intervention in der pädagogischen Psychologie 9 Zurückstellung bei mangelnder Schulfähigkeit Bewährung ist bessere Methode Problem: Bereits hohe Grundrate Schulreife Passung von Schulanforderungen und Lernvoraussetzungen Diagnostik und Intervention bei der Schullaufbahnberatung Die Beobachtung, dass Schüler, die den Anforderungen der ersten Schulklasse nicht gewachsen waren, ein Jahr später dem Unterricht folgen konnten, ließ Kern (1951) vermuten, der Schulerfolg sei eine Funktion der Schulreife, die sich bei verschiedenen Schülern zu unterschiedlichen Zeitpunkten von selbst einstelle. Man müsse nur durch den Einsatz geeigneter Schulreifetests verhindern, dass noch nicht schulreife Kinder zu früh eingeschult würden. Der von Kern für diese Zwecke vorgeschlagene Grundleistungstest konnte die Aufgabe jedoch nur sehr unvollkommen erfüllen. Neuere Schulreifetests (7 Abschn. 3.1.5) erwiesen sich als reliabler und auch valider. Nach Berechnung von Tiedemann (1974) können Schulreifetests jedoch die Erfolgsquote von 90% bei Einschulung aller Schüler nur selten erreichen, sodass die Bewährung in der ersten Klasse die bessere diagnostische Methode ist, die überdies den Vorzug hat, konkrete Bewährungskriterien zu liefern anstelle der durch die Tests repräsentierten sehr allgemeinen Leistungsanforderungen. Aus diesen Gründen wäre es ökonomischer, auf Schuleingangstests ganz zu verzichten und das Ergebnis der schulischen Bewährung abzuwarten. Die mit einem schulischen Versagen verbundenen traumatisierenden Lernerfahrungen lassen es jedoch geboten erscheinen, einem noch nicht schulfähigen Kind möglichst bald die ständigen Überforderungserlebnisse zu ersparen. Hier können bei gegebenem Verdacht auf Schulunreife eingesetzte Schuleingangstests Hinweise geben. Die Nachteile einer Zurückstellung haben sich verringert, seit Vorklassen zurückgestellten Schulanfängern eine angemessene Lernumwelt bereitstellen. Will man diese Nachteile weiter reduzieren, müssen die Befunde von Schulreifetests durch den Einsatz weiterer Entwicklungstests abgesichert werden. Empfehlungen für einen Verbleib in der Schule sollten sich jedoch nicht nur auf die genannten Verfahren stützen, sondern auch eine Diagnose des erreichten Kenntnisstandes einbeziehen und detaillierte Ratschläge für eine gezielte Förderung enthalten. 9.1.1 Diagnostik und Intervention beim Schuleintritt Der Einsatz diagnostischer Verfahren bei der Schullaufbahnberatung wird begründet durch den Wunsch nach Optimierung der Passung zwischen Lernvoraussetzungen beim Schüler und schulischen Anforderungen sowie nach Vermeidung frustrierender Erfahrungen durch schulische Überforderungen. 9.1 Diagnostik im Rahmen der Pädagogischen Psychologie war von Anfang an auf Intervention angelegt. Zwei große Bereiche zählen zu ihren Anwendungsfeldern, die Schullaufbahnberatung und die individuumzentrierte Schülerhilfe. Während die Intervention bei der Schullaufbahnberatung sich auf Personen- und/oder Bedingungsselektion im Sinne von Pawlik (1976) beschränkt, kann bei individueller Schülerhilfe eher von Intervention im Sinne von Behandlung gesprochen werden. Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Ausrichtung auf Intervention 476 Die wohl folgenschwerste Aufgabe im Rahmen von Schullaufbahnberatungen hat die pädagogische Diagnostik bei der Überweisung von Schülern in die Sonderschule für Lernbehinderte zu leisten, da diese Maßnahme mit dem Verlust von sozialem Status und späteren Berufs- und Lebenschancen verbunden ist. Die Überweisungsmodalitäten sind in den einzelnen Bundesländern relativ ähnlich und durch Verwaltungsverordnungen geregelt. Sie setzen einen mehr als einjährigen allgemeinen Leistungsrückstand in der Grundschule voraus, der durch eine weitere Klassenwiederholung nicht zu kompensieren ist. Falls sich dieser Leistungsrückstand durch Schulleistungstests objektivieren lässt, muss als weiteres Kriterium ein Intelligenzquotient <85 gegeben sein, um eine Umschulungsempfehlung zu rechtfertigen (vgl. Kautter, 1979). Durch die Anwendung eines objektiven Schulleistungstests soll verhindert werden, dass schwache Schüler in sehr guten Klassen oder etwa bei zu strenger Benotung fälschlicherweise als lernbehindert eingestuft werden. Auch Schüler mit nur partiellen Lernschwierigkeiten sollen auf diese Weise erfasst und von einer Überweisungsprozedur ausgeschlossen werden. Die Intelligenzdiagnostik soll darüber hinaus verhindern, dass Kinder ohne kognitive Retardierungen nur aufgrund ihrer Schulleistungsdefizite in die Lernbehindertenschule abgeschoben werden. Intelligenztests wie der HAWIK-R sind wegen ihrer Sprach- und Schulleistungsabhängigkeit für diese Aufgabe allerdings weniger gut geeignet. Sie würden die Ergebnisse der Schulleistungsüberprüfung vermutlich nur bestätigen. Trotzdem gehört der HAWIK immer noch zu den bevorzugten Verfahren bei der Sonderschulauslese (Probst, 1984). Weniger sprachabhängige Verfahren wie die Tests aus der Raven- oder der CFT-Reihe sind als Verfahren zur Verhinderung vorschneller Sonderschulüberweisungen besser geeignet. Für die immer größer werdende Zahl von Ausländerkindern unter den Schulversagern stellen sie auf jeden Fall die Alternative mit der größeren Testfairness dar. Auf den ersten Blick scheinen damit genügend Sicherungen gegen eine ungerechtfertigte Sonderschulselektion in das Auswahlverfahren eingebaut zu sein. Um so erstaunlicher ist demgegenüber die Zahl der Sonderschüler mit knapp durchschnittlicher oder durchschnittlicher Intelligenz (Kautter, 1975). Eine Ursache für diese offensichtliche Missklassifikation könnte man in der Tatsache vermuten, dass die Ausleseverfahren nicht durch ausgebildete Psychologen, sondern durch Sonderschullehrer durchgeführt werden, die z. T. beharrlich an überalterten Testverfahren festhalten (Probst, 1984). Als Angehörige der aufnehmenden Institution sind sie obendrein nicht neutral. Durch ihr Ausleseergebnis haben sie Einfluss auf Bestand und Ausbau ihrer eigenen Institution. Mit dem Ausbaugrad des Sonderschulwesens erhöhte sich aber auch die Neigung der Grundschulen, Problemschüler in die dafür scheinbar besser qualifizierte Schulform abzuschieben. Weitere Sicherungen gegen eine zu großzügige Sonderschulselektion zeigt eine diagnostische Strategie von Kornmann (1977a; . Abb. 9.1) auf. In den letzten Jahren ist die Unzufriedenheit der Sonderschule mit ihrer Lückenbüßerfunktion für die Unfähigkeit der Grundschule, mit Problemschülern fertigzuwerden, wie auch an dem praktizierten Ausleseverfahren deutlich gewachsen. Nicht auslesen, sondern fördern lautete die Devise eines Symposions, das sich mit Möglichkeiten einer Förderdiagnostik befasste (Kornmann et al., 1983). Die vor allem von den Ausbildern für das Fach Sonderpädagogik ausgehenden Bestrebungen zur Veränderung der Auslesepraxis werden von Probst (1984) allerdings skeptisch bewertet. Förderungsdiagnostische Bemühungen würden von den Grundschulen zu wenig aufgenommen und kämen auch in der Regel zu spät, nämlich erst dann, wenn massive Lernrückstände 9.1.2 Diagnostik und Intervention bei der Sonderschulüberweisung 9.1 · Diagnostik und Intervention bei der Schullaufbahnberatung 9 Fördern statt auslesen Möglichkeiten einer Förderdiagnostik Viele Sonderschüler mit durchschnittlicher Intelligenz Verwendete Testverfahren Maßnahmen gegen vorschnelle Sonderschuleinweisungen Kriterien zur Sonderschulüberweisung Folgenschwere Aufgabe 477 9 Rechtzeitige Diagnose soll Lernprobleme mindern ja ja ja L I– Versuch d. Inter vention I+ KL KL KL 2.3 I– Versuch d. Regulierung I + = Intervention erfolgreich I – = Intervention erfolglos 1.4. Diskrepanz zw. schulischer u. häusl. Erzieh. 1.3. plötzl. Änd. d. Lernu. Lebensbeding. 1.2. Schulver säumnisse ja I+ KL 2.4. Persönlich keitsstörungen 2.3 Behinderung i. S. einer and. So - Schul art 2.2. Hirn schädigung L = Lernbehinderung KL = Keine Lernbehinderung Diagnostiker muss sich beraten lassen nein nein nein nein 2.1. Sozioökonom. u. soziokultur. Fakt. 2. geht nicht auf behebbare Faktoren zurück ja ja ja ja Therap. veranlassen KL weitere Unters. veranl. KL L L entstanden und mit den Mitteln der Grundschule nicht mehr zu beheben seien. Braband und Kleber (1983) versuchten daher, Sonderschullehrer als Diagnostiker und Berater bei Lernschwierigkeiten bereits in der Grundschule einzusetzen, um ein gravierendes Lernversagen erst gar nicht entstehen zu lassen, und hatten dabei gute Erfolge. Sicher wird sich auf diese Weise nur ein Teil der Lernschwierigkeiten beheben lassen. Die Zahl der Sonderschulselektionen zu verringern und auf das absolut notwendige Maß zu reduzieren, ist jedoch ein erstrebenswertes Ziel. Pädagogisch-psychologische 2. nein nein nein nein 1.1. Sinnesstörung 1. geht auf behebbare Faktoren zurück Ist der Leistungsrückstand zeitlich überdauernd und weder mit schulischen noch mit außer schulischen Maßnahmen behebbar ? Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie . Abb. 9.1. Strategie zur Sonderschulauslese. (Aus Kornmann, 1977a) 478 Die früher übliche Praxis, die Eignung von Schülern für weiterführende Schulen nur mit Hilfe von Aufnahmeprüfungen zu ermitteln, wurde schon früh kritisiert. Der Subjektivität der Aufnahmeprüfungen und der Empfehlungen der abgebenden Grundschulen sollten Testverfahren abhelfen, die weniger schulisches Wissen als die Begabung der Schüler erfassen. Die dafür verwendeten Entwicklungstests sowie die eigens zu diesem Zweck konstruierten Übertrittstests (. Abschn. 3.1.5.2) konnten allerdings die Hoffnung, langfristige Prognosen von hinreichender Gültigkeit zu erstellen, trotz Anwendung sophistizierter statistischer Methoden nicht erfüllen. Lediglich im Bereich kurz- bis mittelfristiger Vorhersagen konnten Validitätskoeffizienten bis .60 erzielt werden. In diesem Vorhersagezeitraum konkurrieren sie jedoch mit Schulleistungsergebnissen, die als Indikatoren notwendiger Vorkenntnisse wie der kognitiven Bedingungen zu ihrem Erwerb gelten. Damit käme an sich dem Urteil der abgebenden Grundschule wieder ein größeres Gewicht bei der Empfehlung zu, welche Schulart für einen Schüler am besten geeignet sei. Für eine stärkere Gewichtung der Grundschulempfehlung spricht auch die längere Beobachtung der Schüler, die eine zuverlässigere Einschätzung ermöglicht als eine einmalige Testuntersuchung. Gegen eine Dominanz der Grundschulempfehlung lässt sich allerdings die eingeschränkte Vergleichbarkeit der Schulzensuren sowie eine angesichts der drohenden Auszehrung der Hauptschule zu befürchtende Zurückhaltung mit Übertrittsempfehlungen ins Feld führen. Obendrein vermag kein noch so zuverlässiges und valides Lehrerurteil die konkreten Lernbedingungen der aufnehmenden Schule, zu denen nicht nur das Anforderungsniveau der jeweiligen Schule, sondern auch die dort unterrichtenden Lehrer gehören, hinreichend zu antizipieren. Die sicherste Methode zur Feststellung der Eignung für eine bestimmte Schulart, die auch die konkreten Anforderungen berücksichtigt, wäre somit, wie bei der Aufnahme in die Grundschule, die Bewährung in der gewählten Schulart. Da eine Aufnahme aller Schüler aus Kapazitätsgründen nicht in Betracht kommt, hat sich inzwischen in einigen Bundesländern ein Verfahren herauskristallisiert, das wichtige Komponenten vereinigt. Auf der Basis der Übertrittsempfehlungen der abgebenden Grundschule wählen die Erziehungsberechtigten kraft Elternrecht die gewünschte Schule. Aufnahmeprüfungen sind nur für den Fall vorgesehen, dass Übertrittsempfehlung und Elternwunsch differieren. An der aufnehmenden Schule ist eine zeitlich begrenzte Bewährungsphase zu durchlaufen, nach deren Abschluss die endgültige Entscheidung über Verbleib oder Umschulung getroffen wird. Was auf den ersten Blick wie eine Bankrotterklärung der pädagogisch-psychologischen Diagnostik aussieht, ist bei genauerem Hinsehen nur die Ersetzung einer unzureichenden, allein auf die Konstanz individueller Differenzen aufbauenden Statusdiagnostik durch eine auch die konkreten Kontextbedingungen einbeziehende Prozessdiagnostik. Diese sollte allerdings nicht den Lehrern allein überlassen bleiben, sondern zumindest im Problemfall auch den psychologischen Experten einbeziehen. Der hierfür zuständige schulpsychologische Dienst ist jedoch noch nicht überall zureichend ausgebaut. 9.1.3 Diagnostik beim Übertritt in weiterführende Schulen Diagnostik, die bereits im Stadium des Entstehens von Lernschwierigkeiten einsetzt und die Basis für eine gezielte Förderung schafft, könnte helfen, dieses Ziel zu erreichen (7 Abschn. 9.2). 9.1 · Diagnostik und Intervention bei der Schullaufbahnberatung 9 Prozessdiagnostik ersetzt Statusdiagnostik Lösung: Bewährungsphase in gewünschter Schulform Vor- und Nachteile der Grundschulempfehlung Nur kurz- und mittelfristige Prognosen möglich Probleme langfristiger Prognosen Probleme von Aufnahmeprüfungen 479 9 Das wirft die Frage auf, welche Fächer bzw. Fächer-Gruppen voneinander unterschieden werden müssen, um gegebenenfalls dafür gesonderte Verfahren vorzusehen. Ne- Welche Fächer bilden homogene Gruppen? Forschungsbedarf Ziel: Passung von Anforderungen und Personenmerkmalen Kombination von Abiturnoten, Tests und Interviews In der Bundesrepublik Deutschland übertrifft seit geraumer Zeit die Nachfrage nach Studienplätzen das von den Universitäten vorgehaltene Angebot um etwa den Faktor 2, d. h. es haben sich ungefähr doppelt so viele Studierende eingeschrieben, wie Plätze für sie vorhanden sind. Es steht zu befürchten, dass auch in Zukunft eine Beschränkung von Zulassungen unausweichlich ist, was die Frage aufwirft, nach welchen Gesichtspunkten das vergleichsweise rare Gut »Studienplätze« vergeben werden soll. Dieser Frage kommt eine besondere Aktualität deshalb zu, weil den Hochschulen eine stärkere Autonomie eingeräumt werden soll, in deren Rahmen es ihnen dann auch freisteht, zumindest einen Teil »ihrer« Studierenden selbst auszuwählen. Im Fach Medizin war für die Selektion der TMS (7 Abschn. 1.6) entwickelt worden, doch wurde beschlossen, ihn 1997 letztmalig einzusetzen, weil durch die Beschränkung der Niederlassungsfreiheit für Ärzte nunmehr weniger Studienbewerber in das Fach drängen, was den Aufwand nicht mehr rechtfertigen würde. Ansetzend an den positiven Erfahrungen mit einem Auswahlverfahren, in dem Tests eine Rolle spielen, und geleitet von der Absicht, das Dilemma zu überwinden, das aus der partiellen Unvereinbarkeit von Autonomie der einzelnen Hochschulen einerseits und Einheitlichkeit des Zulassungssystems andererseits resultiert, hat der Deidesheimer Kreis (1997) Empfehlungen zur Feststellung der Studieneignung erarbeitet. Zentral darin ist – neben einer Berücksichtigung der Durchschnittsnote im Abschlusszeugnis als Indikator der allgemeinen Studieneignung – die Entwicklung und flexible Verwendung von studienfach- bzw. studienfeldbezogenen Fähigkeitstests vorgesehen, im Weiteren der lokale Einsatz von Interviews, die den Bewerbern Gelegenheit geben sollen, sich in ihrer Gesamtpersönlichkeit darzustellen und darüber hinaus ihre Motivations- und Interessenstruktur darzulegen. Die Realisierung eines derartigen Verfahrens dürfte zu einer besseren »Passung« von individuellen Voraussetzungen der Studierenden mit den fach- und ortsspezifischen Anforderungen an die Studierenden führen und im Gefolge davon eine Verminderung von Studienabbrüchen, Fachwechseln und Prüfungswiederholungen, allgemein also eine effektivere Nutzung der Kapazitäten bewirken. Einige der Voraussetzungen und Implikationen bedeuten jedoch einen gewissen weiteren Forschungsbedarf: 4 Zur Erreichung des besagten »person-job-fit« gehört nicht nur die Auswahl von Personal, sondern auch dessen Entwicklung, also die Vermittlung von Kenntnissen und Fähigkeiten zur Bewältigung der beruflichen Anforderungen. Über die Sozialisation an und durch Hochschulen ist freilich vergleichsweise wenig bekannt (s. Amelang & Hoppensack, 1977; Hoffmann & Stiksrud, 1994). 4 Die wechselseitige »Passung« und die Entwicklung von Prognosesystemen erfordern systematische Anforderungsanalysen, die sich des besonderen Methodenarsenals der Arbeits- und Organisationspsychologie zu bedienen hätten (s. Sonntag, 1992). Das Pilotprojekt »Profilbildung« der Hochschulrektorenkonferenz (s. Hödl, 1995) ist dafür immerhin ein erster Schritt. 4 Der Gesichtspunkt einer hinreichenden Ökonomie verlangt eine fachübergreifende, das spezifische Anforderungsprofil einer bestimmten Ausbildungsstätte gegebenenfalls eine fachspezifische Prädiktion. 9.1.4 Diagnostik beim Übertritt in den tertiären Bildungsbereich Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Beschränkung der Zulassung wegen Studienplatzknappheit 480 Diagnostik und Intervention bei individueller Schülerhilfe Über diese Kernvariablen hinaus werden Kontextfaktoren wie Unterrichtsklima sowie Stimulation oder Beeinträchtigung durch Bedingungen der Peer-Group und des Elternhauses als für die Schulleistung bedeutsam angenommen. Die häufigsten Anlässe für Diagnose und Intervention im Aufgabenbereich der Pädagogischen Psychologie sind individuelle Lernschwierigkeiten. Sie äußern sich in negativen Abweichungen der Schülerleistungen von klassenbezogenen Normen oder individuellen Erwartungen. Für die Beurteilung einer konkreten Schülerleistung bildet in der Regel die Durchschnittsleistung der Klasse den Bezugsrahmen. Wird sie deutlich und nicht nur vorübergehend unterschritten, ist Anlass für diagnostische Maßnahmen gegeben, da ohne sie zielgerichtete Interventionen nicht ergriffen werden können. Aber auch ein Nachlassen der Leistungen eines bislang guten Schülers kann diagnostische Maßnahmen initiieren, wenn seine Leistungen dauerhaft hinter den individuellen Erwartungen zurückzubleiben drohen. Da Lernschwierigkeiten nach übereinstimmender Auffassung als multifaktoriell bedingt angesehen werden, stellt sich die Frage, an welchem Punkt diagnostische Maßnahmen sinnvollerweise anzusetzen sind. Ein Modell von Haertel et al. (1983) nimmt an, dass Erfolg und Misserfolg im Unterricht von 5 Bedingungen abhängig sind, und zwar von: 1. der zur Bewältigung einer Aufgabe vom Schüler benötigten Lernzeit, 2. der von ihm konkret aufgewandten Lernzeit, 3. seiner Fähigkeit, Instruktionen zu verstehen, 4. der ihm vom Lehrer zugestandenen Lernzeit und 5. der Qualität des Unterrichts. 9.2 Gleichwohl liegen Arbeiten vor, die in der Tat eigenständige Validitätsaspekte von Interviews für die Vorhersage des Studienerfolges belegen (s. z. B. Hojat et al., 1993). In Nachuntersuchungen an jenen Studierenden, die über das Auswahlgespräch einen Studienplatz in Medizin erhielten, fanden Ittner und Halsig (1993) zwar eine leistungsmäßige Unterlegenheit gegenüber den nach Leistungsquoten Zugelassenen, aber auch Unterschiede in verschiedenen Kategorien des Studienerlebens und des Selbstbildes, die als sehr positiv zu bewerten sind. ben einer konventionell-rationalen Klassifikation, wie sie im Arbeitskreis um Trost (Blum & Trost, 1982; Blum et al., 1982; Fay et al., 1982) mit Tests für Ingenieurwissenschaften, Mathematik, Naturwissenschaften, Philologie sowie Rechts- und Wirtschaftswissenschaften vorgenommen wurde, ist auch ein analytisch-induktives Vorgehen denkbar. Giesen et al. (1986) haben diesen Weg sehr erfolgreich eingeschlagen und u. a. gezeigt, dass eine Polarität zwischen einem eher mathematisch-naturwissenschaftlichen und einer eher kultur- und geisteswissenschaftlichen Orientierung besteht, und auf einer anderen Dimension soziale und pädagogische Neigungen von Interesse an Politik und Wirtschaft getrennt werden. 4 Ein Interview als Bewerbungsgespräch verspricht gewöhnlich gleichermaßen der interviewenden und der interviewten Person hochgradige subjektive Evidenzen über die inhaltliche Richtigkeit, die häufig genug in diametralem Gegensatz zur empirischen Befundlage stehen. 9.2 · Diagnostik und Intervention bei individueller Schülerhilfe Bedingungen des Schulerfolgs Hilfe bei Lernschwierigkeiten Validität von Interviews 481 9 9 Neue Sicht der »Faulheit« Fähigkeit, Anstrengung, Aufgabenschwierigkeit, Zufall Modell der Lernmotivation Entwicklungsprozess zur nächsten Lernzielebene Ermittlung der basalen Lernzielebene Die von einem Schüler zur Bewältigung einer konkreten Lernaufgabe aufgewendete Lernzeit ist der Verhaltensbeobachtung zugänglich und ein Indikator seiner Lernmotivation. Nach einem Modell der Lernmotivation von Heckhausen und Rheinberg (1980) ist die Bereitschaft eines Schülers, sich für eine Lernaufgabe zu engagieren, abhängig von dessen subjektiver Einschätzung, ob er das Ergebnis durch eigenes Handeln beeinflussen kann, ob das Ergebnis positive Konsequenzen hat, und ob ihm diese Konsequenzen auch wünschenswert erscheinen. Der Vergleich eines Handlungsergebnisses mit einem Gütemaßstab entscheidet darüber, ob dieses als Erfolg oder Misserfolg bewertet werden kann. Je nachdem, ob ein Handlungsergebnis auf eigene Fähigkeit, Anstrengung, Aufgabenschwierigkeit oder Zufall zurückgeführt wird, empfindet der Handelnde Befriedigung und Stolz oder Unzufriedenheit und Scham. Die Erklärung von Misserfolgen durch mangelnde eigene Fähigkeiten würde die zukünftige Anstrengungsbereitschaft beeinträchtigen, da eigene Anstrengungen als zwecklos angesehen werden. Ein Zurückführen von Misserfolgen auf mangelnde Anstrengung eröffnet dagegen Verbesserungschancen. Auf der anderen Seite würden Erfolge eine geringere positive Wertigkeit in der Selbstbewertungsbilanz erhalten, wenn sie entweder auf Glück oder zu geringe Aufgabenschwierigkeit zurückgeführt würden. Die von Lehrern beobachtete Unwilligkeit eines Schülers mit Lernschwierigkeiten, die ihm zugestandene Lernzeit hinreichend zu nützen, könnte somit darin begründet sein, dass er die Erfolgschancen der eigenen Handlungsmöglichkeiten in einer konkreten Lernsituation aufgrund zurückliegender Erfahrung als so gering einstuft, dass ihm jede Eigenaktivität aussichtslos erscheint. Aber selbst wenn ein Lernergebnis erreichbar erschiene, könnten eigene Anstrengungen ausbleiben, falls keine positiven Ergebnisfolgen antizipiert oder als nicht attraktiv genug bewertet würden. 9.2.2 Diagnostik und Beeinflussung der aufgewendeten Lernzeit Je unzureichender die aufgabenspezifischen Lernvoraussetzungen eines Schülers sind, desto mehr Lernzeit muss er zur Erreichung eines Lernziels aufwenden. Das Fehlen spezifischer Vorkenntnisse gilt inzwischen als wichtigste Ursache zur Erklärung von Lernschwierigkeiten und steht deshalb im Vordergrund der zu ihrer Aufklärung anzusetzenden diagnostischen Bemühungen. Fachspezifische Schulleistungstests können helfen, den Bereich der Lernvoraussetzungen grob zu strukturieren. Zur Feindiagnostik eignen sich informelle Lernzielkontrollen, die neueren Unterrichtswerken inzwischen immer häufiger beigegeben werden. Ziel einer Vorkenntnisdiagnose ist die Ermittlung jener basalen Lernzielebene, auf der der Schüler mit Lernschwierigkeiten keine oder nur geringfügige Vorkenntnisdefizite hat (Gagné, 1973). Von dieser Ebene ausgehend, haben Interventionsmaßnahmen das Erreichen der nächst höheren Lernzielebene anzustreben und die Konsolidierung der Leistungen auf diesem Niveau zu sichern. Durch zwischengeschaltete Lehrzieltests ist dieser Entwicklungsprozess zur jeweils nächsthöheren Lernzielebene diagnostisch so lange zu begleiten, bis der Schüler den Anschluss an seine Lerngruppe gefunden und seine Kenntnisse in einem Abschlusstest unter Beweis gestellt hat. Liegen Vorkenntnisdefizite zu weit zurück, müssen schulische Interventionsbemühungen eventuell durch außerschulische Nachhilfemaßnahmen ergänzt werden. 9.2.1 Diagnostik und Beeinflussung der benötigten Lernzeit Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Mangelnde Vorkenntnisse als Ursache von Lernschwierigkeiten 482 Die quantitativen unterrichtsorganisatorischen Rahmenbedingungen werden durch das Ausmaß an zugestandener Lernzeit definiert, die unterrichtsdidaktischen durch die Qualität des Unterrichts. Ob in einer Klasse die zugestandene Lernzeit zu knapp 9.2.4 Diagnostik und Verbesserung des Unterrichts Ist das Verständnis für sprachliche Instruktionen reduziert, haben Schüler zwangsläufig Probleme, dem Unterricht zu folgen. Traditonellerweise wird diese Fähigkeit durch sprachliche Intelligenztests überprüft. Da diese Verfahren Instruktionsverständnis meist nur mittelbar erfassen, sind Tests vorzuziehen, die, wie der Anweisungs- und Sprachverständnistest von Kleber und Fischer (1982) oder der Hörverstehenstest von Urban (1986), speziell auf diesen Bereich zugeschnitten sind und ihn deshalb differenzierter erfassen können. Dadurch bieten sie prinzipiell bessere Ansatzpunkte für Interventionsmaßnahmen als traditionelle Intelligenztests. In der Praxis erweist sich die Förderung der sprachlichen Verstehenskompetenz jedoch als schwierig. Nach einer Metaanalyse (Kavale, 1990) war psycholinguistisches Training von Sprachverständnis mit einer Effektstärke von .20 nur wenig erfolgreich. Auch existiert derzeit im deutschen Sprachraum mit dem psycholinguistischen Sprachförderungsprogramm von Lug (1985) lediglich ein formelles Verfahren, das eine Förderung auf diesem Gebiet verspricht. Über seine Effektivität liegen derzeit noch keine verlässlichen Angaben vor. Es stellt sich auch die Frage, ob anstelle des Versuchs, allgemeines Sprachverständnis zu fördern, nicht besser Übungen geeignet wären, die fachspezifisch ansetzen. Berichte von Palinscar und Brown (1984) über ein Gruppentraining zur Förderung von Textverständnis, bei dem die Gruppenmitglieder nach Maßgabe ihres erreichten Verständnisgrades immer aktiver in Gruppendiskussionen einbezogen werden, bis sie selbst Instruktionsaufgaben übernehmen können, klingen recht ermutigend. 9.2.3 Diagnostik und Beeinflussung von Instruktionsverständnis Motivationale Diagnostik kann sich folglich nicht mit der Feststellung ungenügender Ausnützung der zur Verfügung stehenden Lernzeit begnügen, sondern muss die subjektive Einschätzung des Schwierigkeitsgrades konkreter Aufgaben, die Erwartung positiver Handlungsfolgen und deren subjektive Bewertung einbeziehen. Schätzt ein Schüler eine Aufgabe als zu schwer ein, ist deren Schwierigkeitsgrad so weit zu reduzieren, dass dem Schüler ein Erfolg durch eigene Anstrengung möglich erscheint. Bei Schülern mit häufigen Lernschwierigkeiten reicht diese Maßnahme oft nicht aus, da sie sich für nicht befähigt genug halten. Ihnen müssen zumindest zeitweilig zusätzliche Anreize in Form von Lob oder Belohnungen angeboten werden, damit sich für sie die Anstrengung lohnt (Lukan & Blöschl, 1977). Welche Anreize jeweils wirksam sind, lässt sich durch Vorgabe sog. Verstärkerlisten (Windheuser & Niketta, 1972) diagnostizieren, die auch eine Einschätzung der subjektiven Wertigkeit der einzelnen Verstärker erlauben. Erfolge, die durch die genannten Maßnahmen ermöglicht werden, reichen jedoch oft nicht aus, die negativen Folgen häufig erlebter Misserfolge zu kompensieren, solange ein Schüler mangelnde eigene Fähigkeiten für sein Versagen verantwortlich macht. Erst wenn es durch ein entsprechendes Attributionstraining gelingt, ihn davon zu überzeugen, dass der entscheidende Faktor für den Erfolg die eigene Anstrengung ist, ergeben sich nach Befunden von Borkowski et al. (1988) reliable Leistungsverbesserungen. 9.2 · Diagnostik und Intervention bei individueller Schülerhilfe 9 Diagnostik der Unterrichtsqualität Förderung von Sprachverständnis schwierig Tests zur Prüfung von Instruktionsverständnis Langfristige Verbesserungen durch Attributionstraining Aufgaben einer Motivationsdiagnostik 483 9 Einfluss auf Lernschwierigkeiten und Verhaltensstörungen Verbesserung des Klimas Diagnostik des Unterrichtsklimas Probleme der praktischen Umsetzung Einer der wichtigsten sozialen Kontextfaktoren für Erfolg und Misserfolg in der Schule ist das Unterrichtsklima. Ein Verfahren, das Unterrichtsklima mit Hilfe eines Fragebogens zu diagnostizieren, konstruierten v. Saldern und Littig (1987). Es erfasst die sozialen Beziehungen zwischen Schülern wie die zwischen Lehrer und Schülern sowie allgemeine Unterrichtsmerkmale. Da soziale Probleme von der Zusammensetzung der einzelnen Gruppe abhängen und sich somit jeweils anders darstellen, müssen Interventionsmaßnahmen die spezielle Situation berücksichtigen. Hierzu kann der genannte Fragebogen wichtige Informationen beitragen. Eine vielversprechende generelle Maßnahme scheint die Umstellung von einem Wettbewerbsklima auf kooperative Arbeitsstrukturen zu sein (Johnson et al., 1981). Sie führt offenbar nicht nur zu größerer Zufriedenheit und gegenseitiger Akzeptanz der Schüler, sondern auch zu verbesserten Einzelleistungen. Da mit Leistungsverbesserungen wiederum eine Reduktion von Verhaltensproblemen verbunden ist (Winett & Roach, 1973), könnte dieser Ansatz geeignet sein, sowohl Lernschwierigkeiten als auch mit ihnen verbundene Verhaltensstörungen anzugehen. 9.2.5 Diagnostik und Beeinflussung von Kontextfaktoren bemessen wird, lässt sich durch Unterrichtsbeobachtung oder Befragung der Schüler ermitteln. Von zu engen zeitlichen Vorgaben ist auszugehen, wenn nicht nur einzelne Schüler, sondern ganze Gruppen die Lernziele in der vorgegebenen Zeit nicht voll erreichen. Eine Intervention muss hier auf Gewährung von ausreichender Lernzeit, die auch eine Sicherung der Lernergebnisse erlaubt, ausgerichtet sein. Eine Diagnose der Unterrichtsqualität kann sich dagegen nicht nur an äußerlichen Merkmalen orientieren. Dass ein Unterricht, der Vorkenntnisdefizite nicht zu verhindern oder beheben sucht, Lernschwierigkeiten Vorschub leistet, gilt nach Bloom (1976) als hinreichend gesichert. Als Hauptaufgabe einer Unterrichtsdiagnose ist folglich zu prüfen, wie mit Vorkenntnislücken umgegangen wird. Die Bereitstellung zusätzlicher Lernzeit ist dabei ein wesentliches quantitatives Indiz. Weitere qualitative Merkmale sind nach Weinert et al. (1990) intensive Nutzung der zur Verfügung stehenden Unterrichtszeit, Konzentration auf Lernziele, Kontrolle der Lernaktivitäten der Schüler, ständige Überwachung des Lernfortschritts, Vermeidung von Schülerfehlern durch präzise Aufgabenstellungen und einfache Fragen sowie die sofortige Verfügbarkeit von Hilfsmaßnahmen, wenn Lernschwierigkeiten auftreten. Die Effektivität derartiger Maßnahmen, auch unter dem Oberbegriff direkter Unterricht bekannt, ist vielfach belegt (Brophy & Good, 1986; Helmke et al., 1986). Als wichtigstes Merkmal erwies sich nach Weinert et al. (1989) der unterstützende Kontakt des Lehrers mit dem Schüler. Seine Anpassung an die Bedürfnisse der Schüler und seine Geduld mit langsamen Lernern wirkten sich auch positiv auf deren Lernmotivation aus (Weinert et al., 1992). So plausibel die angeführten Ansätze für eine Unterrichtsdiagnose erscheinen mögen, so schwierig ist ihre Umsetzung in die Praxis. Es bedarf hierzu einmal der Bereitschaft des Lehrers, Fehler auch im eigenen pädagogischen Handeln zuzugestehen und fachkundigen Rat einzuholen. Zum Anderen mangelt es an institutionellen Einrichtungen für informelle pädagogische Beratung. Ohne pädagogische Ausbildung fehlt Schulpsychologen häufig die hierzu notwendige Qualifikation. Sonderschullehrer, wie sie in dem Schulversuch von Braband und Kleber (1983) in Regelschulen eingesetzt wurden, könnten diese Lücke eventuell schließen. Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Qualitätsmerkmale des Unterrichts 484 Hochbegabtendiagnostik Definitionsprobleme. Ein wesentliches Problem bei der Diagnostik von Hochbegabung liegt bereits in der Begriffsbestimmung von Hochbegabung. Vor allem ist die inhaltliche Breite des Konzepts strittig. Über die verschiedenen Hochbegabungskonzepte und -modelle informieren Holling und Kanning (1999) sowie Rost, Sparfeldt und Schilling (im Druck). Einige Autoren präferieren eine Hochbegabtendiagnostik ausschließlich anhand der Allgemeinen Intelligenz, andere schließen auch andere Fähigkeitsbereiche wie Soziale Intelligenz oder Kreativität mit ein. Dementsprechend wird je nach Begriffsverständnis das Urteil, ob eine Hochbegabung vorliegt, unterschiedlich ausfallen. Vor allem reduziert sich bei einem mehrdimensionalen Definitionsansatz die Zahl der Hochbegabten. Hanses und Rost (1998) haben berechnet, wie viele Personen in Abhängigkeit von der Anzahl der geforderten Kriterien (bei einem festgelegten CutOff-Wert) untersucht werden müssen, um 50 Hochbegabte zu finden. Daraus lässt sich ablesen, wie hoch der Anteil der Hochbegabten in der Population sein muss. Verlangt 9.3 Ein weiterer sozialer Kontextfaktor ist die soziale Stellung innerhalb der Schulklasse. Korrelationen zwischen dem Beliebtheitsgrad eines Schülers und seinen Schulleistungen (Bless, 1986) weisen auf bedeutsame Zusammenhänge hin und lassen die Diagnostik seines sozialen Ranges mittels soziometrischer Befragungen geboten erscheinen (Müller, 1980; Petillon, 1980). Weniger einfach sind Versuche, den sozialen Rang von Schülern mit Lernschwierigkeiten zu verbessern. Sitzplatzveränderungen nach soziometrischen Präferenzen verschärften die sozialen Probleme sogar (Johansen, 1972). Zwar finden sich Hinweise darauf, dass z. B. positive Verstärkungen durch den Lehrer zu Statusverbesserungen führen können (Retish, 1973), doch ergeben sich gerade bei Lernschwierigkeiten oft nicht genug Gelegenheiten hierzu. Ein weiteres Problem stellen die mit Lernschwierigkeiten häufig verbundenen Verhaltensprobleme dar. Versuche, diese isoliert anzugehen, waren, wie Analysen von Bryan und Lee (1990) zeigen, wenig erfolgreich. Die Beobachtung, dass der Zusammenhang zwischen sozialem Status und Lernerfolg von Klasse zu Klasse stark schwanken kann (Selg, 1965), deutet vielmehr darauf hin, dass dieses Problem im konkreten sozialen Kontext gesehen und gelöst werden muss. Familiäre Ursachen von Lernschwierigkeiten entziehen sich i. Allg. systematischer Diagnostik, da die jeweilige Familienkonstellation von Fall zu Fall stark variiert. Die diagnostische Methode der Wahl ist deshalb das Gespräch, in dem am besten auf die spezielle Problematik eingegangen werden kann. Zur Erfassung des Erziehungsstils existieren Verfahren, mit deren Hilfe wesentliche Aspekte, wie Unterstützung, Strenge und Zuwendung im Selbstbericht (Baumgärtel, 1979) oder aus der Sicht der Schüler (Krohne & Pulsack, 1990), erfasst werden können. Über weitere familiendiagnostische Verfahren informiert Cierpka (1987). Erfolgreiche Behandlung familiärer Probleme setzt die Bereitschaft der Familienmitglieder zur Mitwirkung voraus. Diese hängt mit davon ab, wie Eltern sich das Zustandekommen der Schwierigkeiten erklären. Wenn sie eine Mitverantwortung bejahen, sind sie eher zur Mitarbeit bereit (Strey, 1993). Für die Behandlung tieferliegender Familienprobleme hat sich seit einigen Jahren die familientherapeutische Sichtweise durchgesetzt, bei der die betroffenen Familienmitglieder nicht als Einzelpersonen, sondern als Teil eines dynamischen Systems gesehen werden, das als Ganzes behandelt werden muss (Schneewind, 1991). 9.3 · Hochbegabtendiagnostik 9 Definitionsprobleme Familientherapie: Mitglieder als Teil eines dynamischen Systems Probleme einer Intervention Diagnostik des sozialen Ranges 485 9 Anforderungen an Intelligenztest. Welche Anforderungen sind an einen Intelligenztest zur Feststellung von Hochbegabung zu stellen? Erstens sollte der Test ein breites Anforderungen an Intelligenztest Overachiever Achiever Underachiever Begabung und Leistung. Unter Intelligenz wird das Potential einer Person verstanden, kognitive Leistungen zu erbringen. Eine hoch intelligente Person kann, muss aber nicht gute Leistungen in der Schule oder etwa im Beruf zeigen. Motivationale Gründe oder ungünstige Arbeitsbedingungen können dazu führen, dass die Person nicht die Leistungen zeigt, zu der sie eigentlich fähig wäre. Die strikte Unterscheidung zwischen Fähigkeit (Potential) und Performanz führt dazu, dass - bei einer kategorialen Betrachtung - zwei Typen von Hochbegabten resultieren: Underachiever (die Leistungen sind niedriger, als nach dem Potential zu erwarten wäre) und Achiever (Hochbegabte, deren Leistungen ihren Fähigkeiten entsprechenden). Dass es auch Hochbegabte geben kann, deren Leistungen über ihrem Potential liegen, ist hier unerheblich. Wird zunächst nur auf eine außergewöhnliche Performanz (z. B. sehr gute Leistungen in der Schule) geachtet, fallen beide Typen von Hochbegabten nicht gleichermaßen auf. Hochbegabte Underachiever sind benachteiligt. Eine diagnostische Entscheidung wird durch Einsatz eines Intelligenztests herbeigeführt. In die Gruppe der diagnostizierten Hochbegabten werden bei dieser Vorselektion nicht alle tatsächlich Hochbegabten eingehen (siehe auch »Hochbegabtendiagnostik durch Lehrer«). Viele hochbegabte Underachiever werden darin fehlen. Mit anderen Worten: Es gibt noch unentdeckte Hochbegabte. Am Rande sei angemerkt, dass sich messfehlerbedingt unter den diagnostizierten Hochbegabten auch Personen mit einem wahren IQ von etwas weniger als 130 befinden werden. Es sind normal begabte Overachiever, die durch herausragende Leistungen aufgefallen sind und in der diagnostischen Untersuchung die magische IQ-Grenze von 130 erreicht haben. Potential für kognitive Leistungen »Die Feststellung einer intellektuellen Hochbegabung orientiert sich als Richtwert an einem Intelligenzquotienten (IQ) von 130 bzw. einem Prozentrang (PR) von 98« (Amtsblatt des Hessischen Kultusministeriums, 2001, S. 518; zit. nach Rost et al., im Druck). Definition von Hochbegabung Definition man, dass ein Hochbegabter in einem Kriterium (z. B. Intelligenz) zu den oberen 2% der Verteilung gehört, sind 2.500 Personen zu untersuchen. Schon bei zwei Kriterien (Annahme: Sie korrelieren zu .30) erhöht sich die Zahl auf 30.048. Die Hinzunahme eines zweiten Kriteriums führt dazu, dass jetzt nicht mehr 2% der Population als hochbegabt gelten, sondern nur noch 0.17 Prozent. Bei drei Kriterien (die ebenfalls .30 miteinander korrelieren) verringert sich der Anteil der Hochbegabten bereits auf 0.03%. Diese Modellrechnung macht deutlich, dass die Vorannahmen über das Konzept der Hochbegabung enorme praktische Konsequenzen haben. Durch die Forderung nach immer weiteren Kriterien lässt sich die Hochbegabung schlicht wegdefinieren. Außerdem wird mit jedem weiteren Kriterium konzeptuell unklarer, was die Kombination von Multitalenten inhaltlich bedeutet. Gut begründbar und auch weitgehend konsensfähig sind die Festlegung auf ein Kriterium, und zwar das der Allgemeinen Intelligenz, und die Festsetzung der unteren Grenze für Hochbegabung bei zwei Standardabweichungen über dem Populationsmittelwert (vgl. Holling & Kanning, 1999; Rost et al., im Druck). Diese Konzeption ist vor allem auch für die Praxis nützlich, da sie eine klare diagnostische Entscheidung ermöglicht. Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Festlegung auf ein Kriterium: Die Allgemeine Intelligenz 486 Hochbegabtendiagnostik durch Lehrer. Die Schule ist der Ort, an dem Hochbegabte vor allem auffallen sollten. Können Lehrer aber eine herausragende intellektuelle Begabung ohne Zuhilfenahme von Tests erkennen? Wild (1993) hat in einer groß angelegten Studie an Drittklässlern die Übereinstimmung zwischen Lehrerurteilen und Intelligenztestergebnissen überprüft. Die Lehrerstichprobe umfasste 388 Lehrkräfte, die insgesamt über 7.000 Schüler beurteilten. Die Intelligenz wurde mit drei Tests gemessen: Grundintelligenztest – Skala 2 (CFT 20), Zahlen-Verbindungs-Test (ZVT) und Sprachliche Analogien 3/4 (SPA). Die Lehrer stuften die Intelligenz ihrer Schüler auf siebenstufigen Ratingskalen von »extrem schwach« bis »exzellent« ein. Sie erhielten Informationen über Inhalt (auch Itembeispiele) und Aufbau der Intelligenztests, an denen ihr Urteil später überprüft werden sollte. Sie gaben für jeden der drei Tests eine Prognose ab. Weiterhin nominierten sie einige ihrer Schüler. Dazu diente eine Liste von 15 begabungsrelevanten Merkmalen (z. B. formal-logisches Denken, Merkfähigkeit; solche Checklisten finden z. T. in der Hochbegabungsdiagnostik Verwendung). Pro Item durften die Lehrer maximal drei Schüler mit hoher Merkmalsausprägung benennen. Die Korrelationen zwischen den Testleistungen und Ratings sowie den Nominationen variierten sehr stark zwischen den Klassen. Einige Lehrer schätzten die Intelligenz ihrer Schüler also recht gut ein, andere erwiesen sich als schlechte Diagnostiker. Über alle Klassen hinweg korrelierte die Intelligenztestleistung (aggregiert über die drei Tests) mit den ebenfalls gemittelten Lehrer-Einschätzungen zu .59. Für die Nomination fiel die vergleichbare Korrelation mit .47 niedriger aus. Von großer praktischer Bedeutung sind die Trefferquoten, die mit einem Intelligenzrating und einem Nominationsverfahren erzielt werden. Als Kriterium für Hochbegabung wird eine Gesamttestleistung von mindestens zwei Standardabweichungen über dem Mittelwert festgesetzt, was einem IQ über 130 entspricht. Von den Schülern, die nach dem Lehrerurteil »exzellent« begabt sind, erwiesen sich - gemäß den Intelligenztests – 35,1% als tatsächlich hochbegabt. Der Rest hatte zu niedrige Intelligenztestergebnisse. Eine andere Frage ist, wie viele der tatsächlich hochbegabten Schüler (IQ>130) durch eine Lehrerbeurteilung entdeckt würden. Es sind gerade 16,4%. Mit der Frage, welche ihrer Schüler exzellent begabt sind, lassen sich also die meisten Hochbegabten (83,6%) nicht auffinden. Auch die Nominationsmethode erwies sich als ineffi- g-Maß darstellen, die Intelligenz also über mehrere Teilbereiche prüfen. Werden beispielsweise nur numerische Testaufgaben verwendet, kann der Testwert, bedingt etwa durch besondere schulische Förderung in Mathematik, im Vergleich zu anderen Begabungsbereichen erhöht sein und zu einer Überschätzung der Intelligenz führen. Umgekehrt führen eine Teilleistungsschwäche oder eine mangelnde schulische Förderung dazu, dass die Allgemeine Intelligenz unterschätzt wird. Anstelle eines einzigen breiten Tests kann auch eine Kombination mehrerer Intelligenztests verwendet werden, wobei darauf zu achten ist, dass diese unterschiedliche Intelligenzkomponenten abdecken. Zweitens sind aktuelle Normen zu fordern. Durch die beobachtete Zunahme der Intelligenztestleistungen im Laufe der Zeit (Flynn-Effekt) muss die Verwendung überalterter Normen dazu führen, dass zu viele Personen als hochbegabt diagnostiziert werden. Drittens muss der Test im oberen Leistungsbereich gut differenzieren. Dazu sollen die Normen weit über einen IQ von 130 hinausgehen, und die Lösung einer weiteren Aufgabe darf zu keinen Sprüngen im IQ führen. Selbstverständlich ist zu fordern, dass die Eichstichprobe repräsentativ für die jeweilige Altersgruppe (also beispielsweise keine Übergewichtung von Gymnasiasten) und hinreichend groß ist. 9.3 · Hochbegabtendiagnostik 9 Intelligenzrating und Nominationsverfahren 487 9 Talent 4 4 4 4 4 4 Vorzeitige Einschulung Überspringen einer Klasse Besuch einer Sonderklasse für Hochbegabte Stärkere innere Differenzierung im Unterricht Einsatz als Tutor im regulären Unterricht Spezielle Freizeitangebote für Hochbegabte (Feriencamps etc.) Ausgewählte Fördermaßnahmen für Hochbegabte Interventionen. Nach der Diagnose »Hochbegabung« fragen sich die Betroffenen, meist sind es die Eltern eines Kindes und dessen Lehrer, was nun zu tun ist. Zunächst einmal ist festzustellen, dass Hochbegabung nicht mit einer Benachteiligung in anderen Merkmalsbereichen »bezahlt« wird. Es ist ein Mythos, der von einigen Elternvereinigungen mit Hinweis auf Einzelfälle genährt wird, dass hochbegabte Kinder im sozialen oder emotionalen Bereich als Folge ihrer Hochbegabung leiden. Im Gegenteil: »Hochbegabte Kinder gehen beispielsweise stärker aus sich heraus, sind warmherziger, emotional stabiler, ruhiger, fröhlicher, enthusiastischer, natürlicher als Schüler mittlerer oder unterer Intelligenz« (Rost, 2001, S. 180). Da eine Begabung nicht automatisch zu entsprechenden Leistungen führt, liegt es nahe, über Fördermaßnahmen nachzudenken, die Hochbegabten hilft, ihr Potential zu entfalten. Im Einzelfall ist unter Berücksichtigung der individuellen Lern- und Lebensbedingungen zu erwägen, ob eine Fördermaßnahme überhaupt angebracht ist und wenn ja, welche. Spezialbegabungen. Menschen können – neben der Intelligenz – auch in anderen Bereichen besonders begabt sein. Beispiele sind Mathematik, Kunst, Sport und Musik. Diese Begabungen oder Talente sollten nicht zum Begriff der Hochbegabung zählen, der für eine sehr hohe Allgemeine Intelligenz reserviert bleiben sollte. Im Einzelfall stellt sich aber die Frage, ob eine Spezialbegabung nicht Ausdruck einer außergewöhnlich hohen Intelligenz ist. Kognitive Fähigkeiten sind positiv korreliert. Herausragende Leistungen in der Mathematik werden meist mit einer sehr hohen Intelligenz einhergehen. Für eine explizit nicht intellektuelle Spitzenbegabung sollte der Begriff Talent verwendet werden (Rost, 2001). zient. Als Kriterium für Hochbegabung laut Nomination legte Wild fest, dass ein Schüler bei mindestens 12 der 15 Merkmale benannt sein musste. Von den so als hochbegabt beurteilten Schülern wiesen 33% einen IQ über 130 auf. Von den per Test als hochbegabt diagnostizierten Schüler wurden lediglich 14,9% auch mit dem Nominationsverfahren als hochbegabt erkannt. Insgesamt belegt diese Untersuchung eindruckvoll, dass Lehrerurteile wenig brauchbar sind, um Hochbegabte zu entdecken. Lehrerurteile lassen sich aus pragmatischen Gründen für eine Vorselektion verwenden. Damit möglichst viele wirklich Hochbegabte gefunden werden, muss man den Ergebnissen dieser Studie zufolge alle Schüler einer gründlichen Intelligenzdiagnostik unterziehen, die von den Lehrern mindestens als »gut« begabt (3. Stufe auf der 7stufigen Skala) beurteilt werden. Bei einer derart groben Vorauswahl würden lediglich 1,5% der Hochbegabten nicht entdeckt. Neben Lehrern können auch andere Personen zur Entdeckung von Hochbegabten beitragen. Neben den Eltern sind hier Peers (Mitschüler, Freunde) und auch die Hochbegabten selbst zu nennen. Die Güte dieser Quellen ist allerdings als kritisch zu beurteilen (s. Rost et al., im Druck). Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Lehrerurteile als Vorselektion 488 (S.554-559) Verkehrspsychologische Diagnostik (S.543-546, 548-553) Rechtspsychologische Diagnostik Diagnostik und Intervention in weiteren Anwendungsfeldern Rechtspsychologische Diagnostik Glaubhaftigkeit von Zeugenaussagen. In Strafverfahren kommt der Aussage von Zeugen oft eine große Bedeutung zu. Wenn es stimmt, was der Zeuge berichtet, wird der Beschuldigte verurteilt – oder auch nicht, wenn es sich um eine entlastende Zeugenaussage handelt. Manchmal sind jedoch Zweifel an der Zeugenaussage angebracht. In diesem Fall kann das Gericht eine Begutachtung veranlassen. Grundsätzlich ist zwischen der Glaubhaftigkeit der Aussage und der Glaubwürdigkeit der Person des Zeugen zu unterscheiden (Steller & Volbert, 1997). Auch wenn ein Zeuge sich um eine korrekte Aussage bemüht, können ihm Fehler unterlaufen. Beobachtungen (und Aussagen darüber) decken sich oft nicht mit den Fakten, die beobachtet werden. Vielen Menschen unterlaufen teilweise gravierende Beobachtungsfehler, wie in empirischen Untersuchungen mit gestellten oder im Film gezeigten Ereignissen eindrucksvoll demonstriert wurde (z. B. Loftus, 1979). Inzwischen konnten zahlreiche Faktoren, die sich auf die Identifikation durch Augenzeugen Die Fragestellungen sind so heterogen, dass ein einheitliches Vorgehen völlig abwegig wäre. Deshalb wird exemplarisch auf vier Bereiche eingegangen, die in der Praxis eine große Bedeutung haben: Die Beurteilung der Glaubhaftigkeit von Zeugenaussagen, der Schuldfähigkeit von Straftätern, die Kriminalprognose und schließlich – aus dem zivilgerichtlichen Bereich – auf Sorgerechtsentscheidungen. In Strafverfahren: – Glaubwürdigkeit einer Zeugenaussage – Schuldfähigkeit eines Täters – Strafrechtliche Verantwortlichkeit bei jugendlichen Tätern In Zivilverfahren: – Entzug der Geschäftsfähigkeit – Umgangs- und Sorgerecht für ein Kind nach Scheidung der Eltern – Entzug der elterlichen Sorge In Sozialgerichtsverfahren: – Arbeits- und Erwerbfähigkeit – Voraussetzungen für eine Umschulungsmaßnahme – Berufsunfähigkeit Im Strafvollzug: – Erstellen eines Vollzugsplans – Vollzugslockerung – Kriminalprognose (vorzeitige Entlassung, Sicherheitsverwahrung) Diagnostische Fragestellungen in der Rechtspsychologie Klassische diagnostische Aufgaben in der Rechtspsychologie sind die Erstellung von Gerichtsgutachten zu Fragen der Schuldfähigkeit von Straftätern, der Glaubhaftigkeit von Zeugenaussagen oder etwa des Sorgerechts in Scheidungsverfahren sowie die Untersuchung von Straftätern, die bereits überführt sind und sich nun in einer Haftanstalt befinden. Damit soll eine fundierte Auswahl von Behandlungsmaßnahmen gewährleistet und gegebenenfalls gegen Ende des Strafvollzugs eine Rückfallprognose erstellt werden. 11.2 11.2 · Rechtspsychologische Diagnostik 11 Beobachtungen decken sich oft nicht mit den Fakten Aussage oder Person des Zeugen untersuchen Aufgaben und Fragestellungen 543 11 Eigenschaften der Person des Zeugen „Realkennzeichen“ der Aussage Logische Konsistenz Schilderungen von Komplikationen im Handlungsverlauf Schilderung ausgefallener Einzelheiten Schilderung eigener psychischer Vorgänge Eingeständnis von Erinnerungslücken Schließlich richtet sich die Aufmerksamkeit auf die Person des Zeugen. Ist die Person aufgrund ihres Urteilsvermögens grundsätzlich in der Lage, zu dem Sachverhalt eine gültige Aussage zu machen? Eine niedrige Intelligenz, fehlender Erfahrungshinter- 4 4 4 4 4 Beispiele für Realkennzeichen (das Vorliegen spricht für eine glaubwürdige Aussage) Die vorliegende Aussage wird inhaltlich danach analysiert, ob sie bestimmte Kriterien für Glaubhaftigkeit aufweist. Der Gutachter sucht dabei nach so genannten »Realkennzeichen« (vgl. Steller & Volbert, 1997). Diese Realkennzeichen (7 Übersicht) differenzieren zwischen Aussagen, die auf selbst versus nicht selbst erlebten Ereignissen beruhen. Das Vorliegen vieler Realkennzeichnen in einer Aussage spricht dafür, dass der Zeuge das Ereignis selbst erlebt hat und keine »Erfindungen« präsentiert. Ein Problem besteht darin, dass es keine verbindlichen Standards (Normen) dafür gibt, wie viele Realkennzeichnen vorliegen müssen, damit eine Aussage als sehr wahrscheinlich authentisch eingestuft werden kann. Es bleibt also dem Gutachter überlassen, die Zahl der vorgefundenen Realkennzeichen richtig zu interpretieren. Interpretationsobjektivität ist also nicht gegeben. 4 »Hat der Mann gesagt, du sollst mitkommen?« (der Sachverhalt, dass der Mann das gesagt hat, wird unterstellt). 4 »Könnte es sein, dass das Messer schon am Tatort lag?« (Aufforderung zu einer Spekulation, implizite Erwartung). 4 Verstärkung von Antworten (Nicken, »ahja«, »gut beobachtet«), die ins Konzept des Interviewers passen (der Zeuge erfährt, welche Antworten erwünscht sind). 4 Wiederholung einer Frage im Verlauf des Interviews (erzeugt Druck, nun endlich die »richtige« Antwort zu geben). Beispiele für eine suggestive Befragung auswirken, durch experimentelle Untersuchungen identifiziert werden (für eine Übersicht siehe Wells & Olsen, 2003). Insgesamt belegen diese Untersuchungen, wie trügerisch es sein kann, sich auf menschliche Beobachtungen zu verlassen. Bei der Begutachtung von Zeugenaussagen werden aus diesen Gründen zuerst die Umstände, unter denen die Aussage zustande gekommen ist, analysiert. Dabei spielen die Wahrnehmungsbedingungen (z. B. Beobachtungsdauer, mögliche Ablenkung der Aufmerksamkeit, sensorische Wahrnehmungsbedingungen) ebenso eine Rolle wie die Bedingungen, unter denen die Aussage aufgenommen wurde. Besonders bei Kindern kann sich eine (ungewollt) suggestive Befragung auf die Aussagen auswirken (Volbert, 2000). Günstig sind Aufforderungen, zu einem Thema zu erzählen (»Beschreibe doch einmal, wie der Mann aussah«) und offene Fragen (»Was hat der Mann zu dir gesagt?«). Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Entstehungsbedingungen der Aussage analysieren 544 § 20 StGB Schuldunfähigkeit und verminderte Schuldfähigkeit eines Täters. In § 20 des deutschen Strafgesetzbuchs wird festgelegt: »Ohne Schuld handelt, wer bei Begehung der Tat wegen einer krankhaften seelischen Störung, wegen einer tiefgreifenden Bewusstseinsstörung oder wegen Schwachsinns oder einer schweren anderen seelischen Abartigkeit unfähig ist, das Unrecht der Tat einzusehen oder nach dieser Einsicht zu handeln«. Eine verminderte Schuldfähigkeit liegt nach § 21 StGB vor, wenn »die Fähigkeit des Täters, das Unrecht der Tat einzusehen oder nach dieser Einsicht zu handeln, aus einem der in § 20 bezeichneten Gründe bei Begehung der Tat erheblich vermindert« ist. In diesem Fall kann die Strafe gemildert werden. Die Begutachtung der Schuldfähigkeit bzw. einer verminderten Schuldfähigkeit setzt an den in § 20 StGB genannten möglichen Bedingungen an. Es genügt jedoch nicht, dass eines dieser Kriterien vorliegt. Vielmehr muss daraus eine Aufhebung oder § 21 StGB Verfahren zur Begutachtung von Zeugen Motive für Falschaussage 545 Für die Begutachtung der Person des Zeugen finden Akteninformationen (Gerichtsakten) Verwendung, weitere Informationen werden im diagnostischen Interview gewonnen. Wenn sich die Frage nach einer psychischen Störung stellt, bieten sich dazu ein strukturiertes klinisches Interview sowie bestimmte klinische Fragebogen an. Je nach Sachlage kommen auch Testverfahren (Intelligenztests, Konzentrationstests, Gedächtnistests etc.) zum Einsatz. Antje F. (20 Jahre) sagt in einem Strafverfahren gegen Herrn S. aus. Der Zuhälter habe sie in der Wohnung eingeschlossen, ihr Rauschgift verkauft und sie zur Prostitution gezwungen. Nach 10 bis 11 Monaten wurde sie »seelisch und körperlich heruntergekommen« vom Zuhälter in die Klinik gebracht. Ihre Glaubwürdigkeit als Zeugin wird dadurch erschüttert, dass ihr Erinnerungsvermögen möglicherweise durch mehrjährigen Heroingebrauch beeinträchtigt ist. Es liegt langjähriger Alkohol- und Drogenkonsum vor; bereits mit etwa 17 Jahren hat sie auch Heroin (ca. 3 g pro Tag) konsumiert. Drogengebrauch über längere Zeit kann die Persönlichkeit, die Konzentrationsfähigkeit, die Gedächtnisleistung etc. negativ verändern. Die Untersuchung ergibt, dass ihre Aussagen als glaubhaft erscheinen, da Kriterien wie Detailfülle, folgerichtige Handlungsverkettungen, teils widersprüchliche, aber geklärte Aussagen und Selbstbezichtigung erfüllt sind. In Tests zur Messung der Intelligenz, der Konzentrationsfähigkeit und der Merkfähigkeit erreicht sie durchschnittliche bis leicht überdurchschnittliche Werte. Der Gutachter kommt zu dem Schluss, dass keine Verschlechterung der intellektuellen Leistungsfähigkeit (hierzu stellt er einen Vergleich mit den früheren Schulleistungen an) erkennbar ist, keine Hinweise auf cerebralpathologische Abbauprozesse vorliegen, und die Erinnerungsfähigkeit nicht eingeschränkt ist. Er bejaht die Glaubwürdigkeit der Zeugin und die Glaubhaftigkeit ihrer Aussagen. Das Gericht hatte keine Zweifel an ihren Aussagen. Angesichts dieser Situation ließ sich der Angeklagte auf die wesentlichen Punkte der Anklageschrift ein (Quelle: Reichert, 1997). Beispiel grund, bestimmte psychische Störungen oder Alkohol- oder Drogenkonsum können Zweifel an dem Urteilsvermögen begründen. Hat die Person besondere Gründe, die sie zu einer Falschaussage veranlassen könnte? Möglicherweise hat sie Motive, sich für etwas zu rächen oder würde von einer Verurteilung profitieren (das Sorgerecht für das Kind erhalten, einen ungeliebten Konkurrenten loswerden). 11.2 · Rechtspsychologische Diagnostik 11 11 Weitreichende Konsequenzen Tiefgreifende Bewusstseinsstörung Schwere seelische Abartigkeit Schwere seelische Störung 6 Entlassung aus der Sicherheitsverwahrung? Franz H. (51 Jahre), wurde vor 13 Jahren wegen sexueller Nötigung zu 3 Jahren Freiheitsstrafe und anschließender Sicherheitsverwahrung verurteilt. Das Gericht hat zu entscheiden, ob die restlichen 6 Monate zur Bewährung ausgesetzt werden können oder ob nach § 67, Abs. 3 StGB eine Fortdauer der Sicherheitsverwahrung über die 10 Jahre hinaus angeordnet werden muss. Das vom Gericht in Auftrag gegebene Gutachten soll klären, ob weitere erhebliche Straftaten zu erwarten sind, insbesondere solche, die zur Sicherheitsverwahrung führten. Ferner soll der Gutachter vorbereitende Maßnahmen vorschlagen, die eine Entlassung aus der Sicherheitsverwahrung ohne Gefährdung der Allgemeinheit ermöglichen. Der dafür erforderliche Zeitraum soll angegeben werden. Vorgeschichte laut Akten: Herr H. hatte 1986 eine flüchtige Bekannte in deren Wohnung aufgesucht, mit ihr einige Gläser Wein getrunken, getanzt und geschmust und sie schließlich zum Geschlechtsverkehr aufgefordert. Sie weigerte sich und er schlug ihr daraufhin ins Gesicht, riss ihr Teile der Kleidung vom Leib. Die Frau konnte Beispiel Kriminalprognose. Die Prognose des zukünftigen Verhaltens eines Straftäters hat eine erhebliche Bedeutung für die Auswahl und Bemessung der Strafe bzw. anderer Maßnahmen (z. B. Sicherheitsverwahrung), die Ausgestaltung des Strafvollzugs und für dessen Beendigung (Dahle, 1997, 2000). Beispielsweise hat ein Straftäter einen Großteil seiner Strafe verbüßt, und es steht nun eine Entscheidung über eine vorzeitige Haftentlassung auf Bewährung an. In bestimmten Fällen wird nach Verbüßung einer Haftstrafe geprüft, ob die Notwendigkeit einer Sicherheitsverwahrung besteht. Einschränkung des Unrechtsbewusstsein oder der Steuerungsfähigkeit bei der Tat herrühren. Die juristischen Begriffe können nicht eins zu eins in psychologische oder auch psychiatrische Kategorien übersetzt werden. Am einfachsten ist aus psychologischer Sicht mit dem Begriff des Schwachsinns umzugehen, der als intellektuelle Minderbegabung bzw. geistige Behinderung aufzufassen ist. Zur Feststellung sind Intelligenztests geeignet. Eine wichtige Informationsquelle stellen auch biografische Daten wie Art und Dauer des Schulbesuchs, die Beschäftigung oder die Unterbringung in einem Heim für geistig behinderte Menschen dar. Bezugspersonen können im Interview nach Kompetenzen des Täters zur Bewältigung alltäglicher Probleme befragt werden. Die Feststellung einer schweren seelischen Störung oder einer schweren anderen seelischen Abartigkeit fällt in die klinische Diagnostik (7 Kap. 10), denn hier geht es um psychiatrische Diagnosen. Die anderen schweren seelischen Abartigkeiten sind überwiegend im Bereich gravierender Persönlichkeitsstörungen und bei Suchterkrankungen zu suchen. Eine tiefgreifende Bewusstseinsstörung muss nicht krankhaft sein; auch ein psychisch gesunder Täter kann sich bei der Tat in einer hochgradigen affektiven Erregung befunden haben. Bei der Begutachtung kommt daher der Analyse des Tatablaufs und der Vorgeschichte, die zur Tat geführt hat, eine besondere Bedeutung zu. Weitere Faktoren sind etwa die Persönlichkeit des Täters, seine Beziehung zum Opfer und Erinnerungsstörungen nach der Tat. Die nötigen Informationen erhält der Gutachter durch Auswertung der gerichtlichen Akten, durch ein Interview mit dem Täter, aber auch mit Persönlichkeitsfragebogen oder projektiven Verfahren. Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Intellektuelle Minderbegabung 546 11 Deshalb sind grundsätzlich nur Wahrscheinlichkeitsaussagen möglich (»es ist zu erwarten, dass…«). Die Folgen einer Fehleinschätzung des Rückfallrisikos sind schwerwiegend, und zwar im einen Fall für die Opfer, und im anderen Fall für den Straftäter, wenn ihm unbegründet die Freiheit vorenthalten wird. Bei der Begutachtung können statistische Erkenntnisse über Rückfallrisiken in vergleichbaren Fällen genutzt werden. Die statistische Vorhersage muss sich auf Merkmale der Tat und der Delinquenten konzentrieren, die allgemein verfügbar sind. Kriminalprognosetafeln enthalten daher Merkmale wie die Art der Straftat, Alter, Geschlecht und (in den USA) die Hautfarbe des Delinquenten. Sie helfen, das Risiko abzuschätzen, können aber nicht erklären, warum ein Straftäter rückfällig wird. Die Hautfarbe hat in den USA eine hohe Priorität; eine schwarze Hautfarbe kann jedoch nicht direkt kausal dafür verantwortlich sein, dass jemand wieder eine Straftat begeht. Eine schwarze Hautfarbe geht normalerweise mit vielen anderen Merkmalen einher. Durch gründliche Forschung kann manchmal aufgedeckt werden, dass andere, hinter dem leicht erfassbaren Merkmal stehende Faktoren für die Kriminalprognose entscheidend sind. Der Faktor Hautfarbe verliert bei der Prognose von künftigen Gewalttaten seine Vorhersagekraft, wenn die Kriminalität in der Nachbarschaft, in die sich der ehemalige Straftäter nach seiner Entlassung begibt, berücksichtigt wird (Monahan, 2003; 7 Abschn. 5.2). Die statistische Prognose vernachlässigt zwangsläufig die seltenen, nicht bei allen Personen vorhandenen Risikofaktoren und protektiven Faktoren. Gretenkord (2002) hat einen treffenden Vergleich für die Nutzung statistischer Vorhersagen gefunden: Beim Verkauf eines Autos kann der Verkäufer mit einem Programm nach Eingabe von Typ, Baujahr und Kilometerleistung einen Listenpreis suchen lassen. Er kann sich nach diesem Preis richten, wenn er sein Fahrzeug anbietet; er kann aber auch davon abweichen, weil er Besonderheiten seines Autos wie etwa eine kleine Beule oder die wenig gefragte Wagenfarbe berücksichtigt. Der aus der Liste ermittelte Preis dient als Anhaltspunkt; einen realistischen Verkaufspreis findet er, indem er diesen Preis korrigiert. Genauso beachtet der Gutachter die statistischen »Gesetzmäßigkeiten« von Prognosetafeln und stellt vielleicht fest, dass der Proband aufgrund seines Alters, seiner Vorstrafen etc. ein hohes Rückfallrisiko von 30% hat. Bis dahin hat sich der Gutachter nicht der Gefahr von Urteilsfehlern (z. B. Ignorieren von Basisraten; 7 Abschn. 5.2) ausgesetzt. . Tabelle 11.4 zeigt ein Beispiel für eine Prognosetafel. Zu deren Erstellung hatte Gretenkord (2002) 188 Straftäter, die im Durchschnitt acht Jahre lang in einer Klinik für gerichtliche Psychiatrie untergebracht waren, nach drei Variablen klassifiziert, die Nur Wahrscheinlichkeitsaussagen möglich Beispiel für Prognosetafel Individuelle Besonderheiten Grenzen der statistisch begründeten Prognose Kriminalprognosetafeln Statistische Urteilsbildung Prognosen über künftiges delinquentes Verhalten sind schwer zu stellen, da gleich mehrere ungünstige Bedingungen zusammentreffen (vgl. Dahle, 2000): 4 Das vorherzusagende Verhalten tritt (zumindest bei zahlreichen Delikten) selten auf. Viele Gewalttäter und gewalttätige Sexualstraftäter bleiben Jahre oder gar Jahrzehnte lang unauffällig, um dann plötzlich wieder einschlägige Straftaten zu begehen. 4 Verhalten wird immer auch durch die Situation determiniert. In welche Situationen der Straftäter einmal kommen wird, die ihn wieder in Versuchung bringen, ist ungewiss. Auch ungünstige Lebensumstände wie Arbeitslosigkeit oder das Zerbrechen einer Beziehung oder Ehe sind schwer vorherzusehen. Günstige Randbedingungen, die anfangs vorhanden sind und bei der Begutachtung berücksichtigt wurden (z. B. Alkoholabstinenz), können später wegfallen. 4 Der Geltungszeitraum der Prognose ist gerade bei jungen Straftätern sehr lang. Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Schwierige Randbedingungen für Prognose 548 nein ja nein ja 36% 65% 16% 39% 15% 37% 16% 38% 6% 18% 6% 16% 2% 6% 6& 17% 2% 7% 2% 6% 1% 2% 60 Jahre der internationalen Forschung zufolge (46 Studien) zur Vorhersage des Rückfallrisikos gut geeignet sind: Vorliegen einer Persönlichkeitsstörung (meist Psychopathie), früheres Gewaltdelikt, Gewalttätigkeit während der Unterbringung und Alter. Er überprüfte, ob die Patienten in einem Zeitraum von durchschnittlich acht Jahren nach ihrer Entlassung einen Eintrag im Bundeszentralregister erhalten hatten, also wieder straffällig geworden waren. . Tabelle 11.4 lässt sich entnehmen, dass das Rückfallrisiko deutlich mit dem Alter abnimmt. Prognostisch ungünstig sind eine Persönlichkeitsstörung, Vorstrafen wegen eines Gewaltdeliktes und Gewalttätigkeit während des Maßregelvollzugs. Das höchste Risiko (Rückfallwahrscheinlichkeit von 65%) haben Patienten, die jung sind (Altersgruppe 20 Jahre) und drei weitere Risikomerkmale (. Tab. 11.4) aufweisen. Am unwahrscheinlichsten ist ein Rückfall bei älteren Patienten (Altersgruppe 60 Jahre), die weder eine Persönlichkeitsstörung noch eine Vorstrafe wegen eines Gewaltdelikts haben oder trotz einschlägiger Vorstrafe während ihres Klinikaufenthaltes nicht gewalttätig geworden sind oder eine Persönlichkeitsstörung haben, aber weder aufgrund ihrer Vorstrafen noch durch ihr Verhalten während des Maßregelvollzugs als gewalttätig gelten. Die Rückfallwahrscheinlichkeit liegt hier nur bei 1 oder 2%. Liegen Prognosetafeln vor, überlegt der Gutachter im nächsten Schritt, ob es gute Gründe gibt, die statistische Vorhersage zu korrigieren. Dazu befasst er sich mit den Besonderheiten des Delinquenten und bezieht sie in sein Urteil ein. Beispielsweise ist der Proband zwar wegen eines Gewaltdelikts vorbestraft, aber es handelt sich nur um ein kleines Delikt, das zudem schon sehr lange zurückliegt. Die Prognose kann in diesem Fall günstiger ausfallen. Dahle (2000) spricht bei diesem Vorgehen von »klinischen Prognosen« – der Begriff darf nicht mit der »klinischen« Urteilsbildung (. Abschn. 5.2) verwechselt werden, die Dahle als »intuitive« Prognose bezeichnet. Die klinische Prognose im Sinne von Dahle orientiert sich an der statistischen Vorhersage, versucht diese aber durch Berücksichtigung von individuellen Besonderheiten zu optimieren. Ziel ist es letztlich, ein Erklärungsmodell für den Straftäter zu entwickeln. Dieses sollte sparsam sei, vor allem mit theoretisch oder empirisch nicht belegbaren Zusatzannahmen. Gutachter, die sich diesem Ansatz verpflichtet fühlen, werden etwa folgende Fragen stellen: Ja Nein nein ja Ja Ja nein ja Nein Nein 6% 17% 20 Jahre 40 Jahre Entlassungsalter Persönlichkeitsstörung Mind. 2 x gewalttätig Vorstrafe mit Gewaltdelikt Risikofaktor . Tabelle 11.4. Beispiel für eine Prognosetafel zur Rückfallwahrscheinlichkeit von männlichen Straftätern nach Entlassung aus dem Maßregelvollzug 11.2 · Rechtspsychologische Diagnostik 11 Erklärungsmodell für den Straftäter Korrektur der statistischen Vorhersage möglich Kombination von Risikofaktoren entscheidend Rückfallrisiko ablesen 549 11 Gemeinsamer Elternvorschlag gewichtig Personen- und Vermögensvorsorge Hauptanlass Scheidungsverfahren recht für die Kinder, führt das Familiengericht eine Entscheidung herbei, wobei das Streit um das Sorgerecht. Kommt es dagegen zu einem Streit der Eltern um das Sorge- Elterliche Sorge. Die elterliche Sorge gilt von der Geburt bis zur Volljährigkeit des Kindes und umfasst die Personen- und die Vermögensfürsorge. Zur Personenfürsorge gehören die Fürsorge für das körperliche Wohl des Kindes, die Erziehung, Aufenthaltsbestimmung, Aufsichtspflicht und die Umgangsbestimmung. Die Vermögensfürsorge betrifft die Vertretung des Kindes in finanziellen Angelegenheiten. Die Ausübung der elterlichen Fürsorge ist nicht nur ein Recht, sondern auch eine Pflicht. Kein Elternteil kann darauf verzichten. Möglich ist es allerdings, die Fürsorge dem anderen Elternteil oder einer dritten Person zu überlassen; dies ist jederzeit widerrufbar. In einem Scheidungs- oder Trennungsverfahren müssen die Eltern angeben, ob gemeinsame minderjährige Kinder betroffen sind. Legen sie eine einvernehmliche Regelung zur elterlichen Sorge und zum Umgang mit den Kindern vor, besteht seitens des Gerichts normalerweise kein Handlungsbedarf. Der gemeinsame Elternvorschlag steht sogar über dem Kindeswohl, sofern dieses nicht erkennbar beeinträchtigt ist. Viele Begutachtungen ergeben sich durch Scheidungsverfahren, von denen minderjährige Kinder betroffen sind. Laut Statistischem Bundesamt (Pressemitteilung vom 13. Juli 2005, s. www.destatis.de/presse/deutsch/pm2005/p2980023.htm) wurden 2004 in Deutschland insgesamt 213.691 Ehen geschieden und in etwa 50% der Fälle hatten die Ehepartner ein oder mehrere minderjährige Kinder. Familiengericht: Sorgerechtsentscheidungen. Im Rahmen von familiengerichtlichen Verfahren können psychologische Gutachten zu sehr unterschiedlichen Fragestellungen angefordert werden (Salzgeber, 2001). Fragestellungen, die z. B. selten vorkommen, sind: 4 die Beurteilung der Ehemündigkeit von heiratswilligen Minderjährigen, 4 die Frage, ob eine Minderjährige die Folgen und die Tragweite eines Schwangerschaftsabbruchs einschätzen kann oder 4 die Frage, ob die Aufrechterhaltung einer Ehe eine besondere Härte darstellt. Die dazu benötigten Informationen finden sich in den Akten über die früheren Straftaten, in früher erstellten Gutachten, in der Dokumentation des Haftverlaufs, in Interviews mit dem Täter und evtl. auch mit wichtigen Bezugspersonen (z. B. der Ehefrau). Zur Beurteilung der Persönlichkeit können auch Persönlichkeitsfragebögen oder projektive Verfahren herangezogen werden. Je nach Fragestellung kann auch ein Intelligenztest oder ein anderer Leistungstest eingesetzt werden. Unter welchen Bedingungen wurde die Straftat begangen? Wie kann die Entstehung der damaligen Straftat erklärt werden? Wie hat sich die Persönlichkeit des Delinquenten in der Haft verändert? Welche therapeutischen Maßnahmen wurden mit welchem Erfolg durchgeführt? Wie ist der »soziale Empfangsraum« nach der möglichen Entlassung (Arbeitsplatz, Unterkunft, soziale Beziehungen)? 4 Welche Lebensperspektiven (berufliche Möglichkeiten, Partnerschaft, Familie etc.) hat der Delinquent? 4 Wie hoch ist die Wahrscheinlichkeit, dass kritische Umstände auftreten, unter denen bei dieser Person die Gefahr einer erneuten Straftat groß ist? 4 4 4 4 4 Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Diagnostische Verfahren 550 der Scheidungen mit minderjährigen Kindern einigen sich die Eltern darauf. Dass dieser Entscheidung Vermittlungsbemühungen vorausgegangen sein können, wurde bereits oben erwähnt. In strittigen Fällen kann der Antrag eines Elternteils jedoch auch anders lauten. In der Übersicht sind einige Entscheidungsmöglichkeiten in Sorgerechtsverfahren aufgeführt, die oft nicht die Zustimmung eines Elternteils oder die eines über 14jährigen Kindes finden, und die zur Hinzuziehung eines Sachverständigen führen können. Gerade der letzte Punkt, die Umgangsregelung, kann sich im Detail als schwierig und strittig erweisen. Ziel der Regelung des Umgangs des Kindes mit seinen Eltern ist es, eine harmonische Eltern-Kind-Beziehung mit beiden Elterteilen auch nach deren Fragestellungen. Die gemeinsame elterliche Sorge stellt den Regelfall dar; in über 90% Psychologischer Sachverständiger. In familiengerichtlichen Verfahren, die ein Kind betreffen, hat der Familienrichter eine Ermittlungspflicht. Es steht im Ermessen des Familienrichters, ein Sachverständigengutachten einzuholen. Die erforderliche fachliche Kompetenz findet das Gericht nicht nur bei Psychologen, sondern, je nach Fragestellung, auch manchmal bei Ärzten für Kinder- und Jugendpsychiatrie, selten auch bei Kinderärzten oder Diplompädagogen. Wen der Richter im Einzelfall beauftragt, steht ihm frei. In Bayern gibt es öffentlich bestellte und beeidigte Sachverständige, die nach der Zivilprozessordnung anderen Sachverständigen vorgezogen werden sollen. Bei der Auswahl des Sachverständigen spielen sicherlich auch Kriterien wie wissenschaftliche Reputation, Prozesserfahrung, Ansehen bei Rechtsanwälten und Bewährung in Prozessen eine wesentliche Rolle. Formal betrachtet steht der Sachverständige dem Richter in der Rolle des Gehilfen oder Helfers gegenüber. Kindeswohl und Kindeswille. Bei der Suche nach einer Lösung der Sorgerechtsfrage hat das Gericht wie auch ein hinzugezogener Sachverständiger aufgrund gesetzlicher Vorgaben das Kindeswohl, sowie bei über 14jährigen Kindern auch den Willen des Kindes, zu beachten. Das Kindeswohl umfasst das leibliche und das geistig/seelische Wohl des Kindes. Der Begriff ist juristisch nicht definiert; zur Beurteilung des Kindeswohls sind vor allem sozialwissenschaftliche Erkenntnisse anzuwenden. Das Kindeswohl hat in einem Sorgerechtsverfahren eine zentrale Bedeutung. Kommt das Gericht, etwa aufgrund eines psychologischen Gutachtens, zu der Erkenntnis, dass das Kindeswohl gefährdet ist, kann es weit reichende Maßnahmen beschließen. So kann es die Wohnung ausschließlich einem der Elternteile zuweisen, einem Elternteil oder einem Dritten den Zutritt zum Haus bzw. der Wohnung verbieten oder vorschreiben, das Stadtgebiet nicht mehr zu betreten. Es kann sogar einem Elternteil oder auch beiden Eltern das Sorgerecht entziehen. Bei der Sorgerechtsentscheidung ist ferner der Kindeswille zu berücksichtigen. Ein über 14jähriges Kind darf selbst einen Vorschlag zum Sorgerecht machen. Wenn das Kind einem gemeinsamen Elternvorschlag zur Regelung des Sorgerechts explizit nicht zustimmt, trifft das Gericht eine Entscheidung, die sich am Kindeswohl orientiert. Gericht auf eine einvernehmliche Regelung der Betroffenen hinwirken sollte. Bevor es jedoch zu einer gerichtlichen Entscheidung kommt, müssen Schlichtungs- und Vermittlungsversuche unternommen werden. Wird ein psychologischer Sachverständiger vom Gericht hinzugezogenen, gilt dieser Grundsatz auch für ihn. Diagnostik und Intervention (Hinwirken auf eine Einigung, Vermittlung, Beratungsangebot etc.) sind in diesem Fall eng verzahnt. 11.2 · Rechtspsychologische Diagnostik 11 Umgangsregelung Strittige Entscheidungsmöglichkeiten Auswahlkriterien für Sachverständige Kindeswohl im Sorgerechtsverfahren von zentraler Bedeutung Diagnostik und Intervention verzahnt Einvernehmliche Regelung angestrebt 551 11 4 4 4 4 4 4 4 4 4 Ist die Erziehungsfähigkeit durch eine Erkrankung eingeschränkt? Liegt sexueller Missbrauch vor? Ist die Bereitschaft vorhanden, elterliche Verantwortung zu übernehmen? Sind die Betreuungs- und Versorgungsmöglichkeiten ausreichend? Wie stark ist die Bindung des Kindes an einen Elternteil? Was ist der Kindeswille? Wie groß ist die Förderkompetenz des Elternteils? Liegt ein Mangel an erzieherischer Kompetenz vor? Wendet ein Elternteil unzulässige Erziehungsmaßnahmen an? Beispiele für psychologische Fragen in Sorgerechtsentscheidungen: Diagnostisches Vorgehen. Bei den in der Übersicht aufgeführten Fragestellungen handelt es sich um juristische Fragen, aus denen zunächst psychologische Fragen abgeleitet werden. Familienrichter werden in der Regel nur dann einen psychologischen Sachverständigen hinzuziehen, wenn sie psychologische Fragestellungen sehen, die sie nicht selbst beantworten können. Für die Ableitung der psychologischen Fragen sind nicht nur Vorinformationen über den individuellen Fall erforderlich, sondern auch Kenntnisse der einschlägigen Gesetze und der Rechtssprechung. Welche konkreten psychologischen Fragen gestellt werden, ergibt sich oft erst nach einem Aktenstudium oder einem ersten Gespräch mit den Eltern. Ein Richter kann aber auch die Fragestellung von Anfang an auf eine oder mehrere Teilfragen einengen. Trennung zu ermöglichen. Wenn sich ein Elternteil als problematisch erweist, kann das Gericht beispielsweise einen beaufsichtigten Umgang anordnen, oder den Kontakt zum Kind für eine bestimmte Zeit untersagen. Auch der Umgang mit weiteren Personen (z. B. neuer Partner eines Elternteils, Großeltern, Stiefeltern) kann Gegenstand einer Umgangsregelung sein. 4 Alleinige elterliche Sorge (einem Elternteil wird die Sorge übertragen), 4 Aufteilung der Sorge (ein Elternteil z. B. zuständig für die schulische Erziehung etc.), 4 Aufhebung der gemeinsamen Sorge (die gemeinsame Sorge wird in eine alleinige umgewandelt), 4 Entzug der elterlichen Sorge oder Teilen der elterlichen Sorge (eventuell auch Übertragung auf eine dritte Person), 4 Rückführung eines Kindes nach dem Haager Übereinkommen (das Kind lebt bei einem Elternteil in einem anderen Staat), 4 Meinungsverschiedenheiten der Eltern bei gemeinsamem Sorgerecht (Uneinigkeit in Angelegenheiten, die für das Kind wichtig sind, beispielsweise Auswahl der Schule), 4 Regelung des Umgangs des Kindes mit seinen Eltern (das Kind lebt bei einem Elternteil, hat aber auch Umgang mit dem anderen Elternteil oder weiteren Personen). Fragestellung bei und nach Trennung oder Scheidung der Eltern: Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Psychologische Fragen aus Vorinformationen und Rechtssprechung herleiten 552 Welche Art von psychodiagnostischen Verfahren fehlt in Ihrem Arbeitsbereich am meisten? Die Arbeit einer Familienrichterin sollte weniger rückwärtsgewandt/aufklärend als lösungsorientiert sein. Wichtig wären also Tests, mit deren Hilfe zukünftiges Verhalten/ Einstellungen prognostiziert bzw. beeinflusst werden könnten. 6 Sind die dabei erstellten Gutachten von Psychologen für Sie nachvollziehbar und schlüssig? Inwiefern hilft es Ihnen? Nachvollziehbar und schlüssig: Ja. Normalerweise sind die psychologischen Gutachten in einen Anamnese- und Beobachtungs- sowie einen Diagnostikteil gegliedert. Die angewendeten Testverfahren sind bekannt bzw. werden erläutert. Die eingeholten Gutachten helfen mir. Nicht immer bringen sie für mich »neue« Erkenntnisse. Aber es ist einerseits hilfreich, wenn die eigene Meinung »fundiert« bestätigt wird, andererseits lässt sich durch Übersendung bzw. Erläuterung des Gutachtens an die Parteien oft ein Ergebnis besser vermitteln, wodurch die Akzeptanz für eine zutreffende Entscheidung erhöht bzw. im besten Falle eine Entscheidung sogar entbehrlich wird, weil die Eltern auf der Grundlage des Gutachtens eine eigenverantwortliche Lösung treffen. In welcher Art von Fällen nehmen Sie die spezifische Kompetenz von Psychologen in Anspruch? Sorge- und Umgangsrechtsstreitigkeiten zwischen getrennt lebenden Eltern, selten zwischen Eltern und Pflegeeltern. achten in der Rechtssprechung« Wie häufig ziehen Sie Psychologen zu Rate? Ein- bis höchstens zweimal jährlich. > Interview mit Dr. Ulrike Schmidt-Aßmann zum Thema »Psychologische Gut- Diagnostische Verfahren. Auf die psychologischen Fragen sucht der Diagnostiker mit Hilfe von Aktenanalysen, diagnostischem Interview, Verhaltensbeobachtung, Persönlichkeitsfragebogen, Leistungstests oder auch projektiven Verfahren eine Antwort. Die Auswahl der Verfahren richtet sich stark nach der spezifischen Fragestellung. Beispielsweise stellt sich die Frage, ob die Erziehungsfähigkeit durch eine (dem Gutachter bekannte) hirnorganische Erkrankung eingeschränkt ist. In diesem Fall wird der Gutachter mit Hilfe von neuropsychologischen Tests (7 Abschn. 11.1) versuchen, die Schwere der Funktionsbeeinträchtigungen abzuschätzen. In einem anderen Fall ist der Verdacht aufgekommen, dass ein Elternteil das alleinige Sorgerecht anstrebt, um Unterhaltsforderungen stellen zu können oder um den Partner dafür zu »bestrafen«, dass er die Ehe zerstört hat. In diesem Fall ist die Bereitschaft zu hinterfragen, elterliche Verantwortung zu übernehmen. Durch ein diagnostisches Interview kann der Gutachter eruieren, welche konkreten Zukunftspläne bezüglich Kindesbetreuung, Freizeitgestaltung und Umgang mit anstehenden Problemen ein Elternteil hat und wie dieser in der Vergangenheit seine Elternrolle ausgefüllt hat. Zur Beurteilung der Bindung des Kindes an einen Elternteil bietet sich bei Kleinkindern die Verhaltensbeobachtung der Eltern-Kind-Interaktion bei einem Hausbesuch an. Ferner können die Eltern befragt werden. Bei älteren Kindern kommen auch ein diagnostisches Interview mit dem Kind in Frage sowie projektive Tests wie der Familien-Beziehungs-Test (Howells & Lickorish, 2003). 11.2 · Rechtspsychologische Diagnostik 11 Dr. Ulrike SchmidtAßmann, seit 1979 Familienrichterin am Amtsgericht Heidelberg; ausgebildete Familienmediatorin (BAFM); vielfältig in der Aus- und Weiterbildung tätig. Bindung des Kindes an einen Elternteil feststellen Auswahl durch Fragestellung geleitet Breites Spektrum an Verfahren 553 11 Alkoholproblematik häufigster Untersuchungsanlass Statistik der Bundesanstalt für Straßenwesen Untersuchungsanlässe. Für eine medizinisch-psychologische Begutachtung kommen verschiedene Anlässe in Frage. Eine Statistik der Bundesanstalt für Straßenwesen gibt Aufschluss über die Art und die Häufigkeit der einzelnen Untersuchungsanlässe sowie über das Ergebnis der Begutachtung (. Tab. 11.5). Neben einem positiven oder negativen Ergebnis besteht für die Gutachter in den meisten Fällen auch die Möglichkeit, eine Nachschulung vorzuschlagen und gegebenenfalls festzustellen, ob der Proband nachschulungsfähig ist. Über die Hälfte der Begutachtungen fällt wegen einer Alkoholproblematik an. Maßgeblich sind hier § 13, Nr. 2 der FeV (7 Übersicht). Fahrerlaubnis-Verordnung. Die rechtliche Grundlage für eine Begutachtung der Fahreignung stellt die »Verordnung über die Zulassung von Personen zum Straßenverkehr« (kurz Fahrerlaubnis-Verordnung) vom 18. August 1998 (BGBl. I S. 2214) in der Fassung des Inkrafttretens vom 01.07.2004 dar (s. www.verkehrsportal.de/fev/fev. php). Rechtliche Grundlage für Begutachtung Verkehrspsychologische Diagnostik Im Volksmund gibt es das böse Wort »Idiotentest« für die psychodiagnostische Untersuchung, der sich viele Kraftfahrer nach dem Verlust des Führerscheins unterziehen müssen. Dass die Betroffenen überwiegend ablehnend reagieren, ist zumindest nachvollziehbar. Schwer zu verstehen ist hingegen, dass sich verkehrsunauffällige Kraftfahrer und sogar Automobilclubs mit denen solidarisieren, die stark alkoholisiert am Steuer gesessen haben oder etwa durch aggressives Fahrverhalten Leben und Gesundheit ihrer Mitmenschen gefährdet haben. 11.3 Haben die psychologischen Gutachten erfahrungsgemäß eher einen geringen oder großen Einfluss bei der Entscheidungsfindung? Wenn schon ein Gutachten eingeholt wird, hat es auch eher einen erheblichen Einfluss auf die Entscheidungsfindung. < Wie ist es um Rückmeldungen über die Treffsicherheit der Gutachterempfehlungen in Ihrem Arbeitsbereich bestellt? Die Frage scheint mir nicht richtig formuliert. Nicht der Gutachter hat zu entscheiden, also »treffsicher« zu sein, sondern ich als Richterin. Dafür benötige ich die Hilfe des Gutachters. Habe ich Zweifel am Gutachten, werde ich mir das Gutachten mündlich erläutern lassen. Natürlich gibt es unterschiedliche Einschätzungen. Inwieweit befürchten Sie, dass die Klienten bei familienrechtlichen Gutachtenfällen durch persönliche Verstellung das Ergebnis des Gutachtens in Ihrem Sinne beeinflussen können? Selbstverständlich wollen die Klienten sich gegenüber dem/der GutachterIn besonders gut darstellen. Ich sehe keine Gefahr darin, dass dadurch Ergebnis und Qualität des Gutachtens beeinflusst werden. Es ist ein bekanntes Phänomen. Wichtig ist die Art der Fragestellung an den Gutachter. Je weniger es um eine klassische Diagnostik mit Beschreibung eines »Ist-Zustandes«, je mehr es um lösungsorientierte Hilfestellung geht, umso weniger groß ist die Beeinflussung durch persönliche Verstellung. Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern „Idiotentest“ emotional besetzt 554 1.678 Sonstige Anlässe 100% 1.5% 4.1% 1.0% 1.4% 1.4% 1.7% 9.1% 10.1% 18.4% 39.1% 2.5% 9.6% Anteil 45% – 91% 43% 48% 47% 43% 38% 49% 40% 43% 45% 44% 15% – – 8% 6% 17% 6% 16% 9% 14% 17% 17% 26% Schulung 40% – 9% 49% 46% 36% 51% 46% 42% 46% 39% 38% 30% negativ Ergebnis der Begutachtung positiv 6 [Die Fahrerlaubnisbehörde ordnet an, dass] 1. ein ärztliches Gutachten (§ 11, Abs. 2 Satz 3) beizubringen ist, wenn Tatsachen die Annahme von Alkoholabhängigkeit begründen oder die Fahrerlaubnis wegen Alkoholabhängigkeit entzogen war oder sonst zu klären ist, ob Abhängigkeit nicht mehr besteht, oder 2. ein medizinisch-psychologisches Gutachten beizubringen ist, wenn a) nach dem ärztlichen Gutachten zwar keine Alkoholabhängigkeit, jedoch Anzeichen für Alkoholmissbrauch vorliegen oder sonst Tatsachen die Annahme von Alkoholmissbrauch begründen, b) wiederholt Zuwiderhandlungen im Straßenverkehr unter Alkoholeinfluss begangen wurden, FeV § 13 Klärung von Eignungszweifeln bei Alkoholproblematik Anmerkungen. Quelle: Bundesanstalt für Straßenwesen, Oktober 2004 (www.bast.de/htdocs/ aktuelles/presse/2004/mpu_2003.pdf ). Nur Untersuchungsanlässe mit mind. 1.000 Fällen pro Jahr aufgeführt. 110.776 4.571 FeV §10: Abweichung vom Mindestalter Gesamt 1.152 1.516 Verkehrsauffälligkeit + Medikamente/Drogen Sonstige Mehrfachfragestellungen 1.913 Alkohol + Verkehrs- oder strafrechtl. Auffälligkeit 1.585 10.076 Betäubungsmittel- & Medikamentenaufällige Verkehrsauffälligkeit + strafrechtl. Auffälligkeit 11.194 Alkoholauffälligkeit, wiederholt Alkohol + Medikamente/Drogen 43.330 20.408 Alkoholauffälligkeit, erstmalig 2.754 10.599 Verkehrsauffälligkeiten Sonstige strafrechtl. Auffälligkeiten Anzahl Untersuchungsanlass . Tabelle 11.5. Begutachtungen bei den Medizinisch-Psychologischen Untersuchungsstellen 2003 113 · Verkehrspsychologische Diagnostik 555 11 11 Paradigmenwechsel: Modifizierbares Verhalten statt Dispositionen relevant Verhaltensgewohnheiten, Persönlichkeit oder Leistungsfähigkeit entscheidend Spezifizierung der Anforderungen Begutachtungs-Leitlinien. Für die Begutachtung stellen heute »Begutachtungs-Leitlinien zur Kraftfahrereignung« (Lewrenz, 2000) ein wichtiges Hilfsmittel dar (auch unter www.fahrerlaubnisrecht.de/Begutachtungsleitlinien/BGLL%20Inhaltsverzeichnis.htm). Die Leitlinien wurden von dem so genannten Paritätischen Ausschuss unter befasst sich mit unterschiedlichen Aspekten der Fahreignung. Je nach Begutachtungsanlass und Fragestellung liegt der Schwerpunkt etwa auf Verhaltensgewohnheiten im Umgang mit Alkohol, der Persönlichkeit des Fahrers oder auf bestimmten Merkmalen der Leistungsfähigkeit. Im Fall der Fahrerlaubnis zur Fahrgastbeförderung oder bei Zweifeln an der psychischen Leistungsfähigkeit stehen eindeutig kognitive Leistungsmerkmale im Vordergrund: Optische Orientierung, Konzentrationsfähigkeit, Aufmerksamkeit, Reaktionsfähigkeit und Belastbarkeit. Bei Straftaten, die im Zusammenhang mit der Kraftfahreignung oder der Teilnahme am Straßenverkehr stehen, können das Aggressionspotential, die Neigung zu rücksichtsloser Durchsetzung eigener Anliegen oder die Bereitschaft zu ausgeprägt impulsivem Verhalten begutachtungsrelevant sein. Damit kommt wieder das diagnostische Interview als Methode in Frage, eventuell auch Fragebogen zur Erfassung von Persönlichkeitsmerkmalen (z. B. Aggressivität), die jedoch verfälschbar sind. In den letzten Jahrzehnten fand in der verkehrspsychologischen Eignungsdiagnostik ein Paradigmenwechsel statt. Früher spielte die Annahme stabiler Dispositionen (Persönlichkeitsmerkmale, Leistungsdefizite) eine wichtige Rolle, heute hat sich die Ansicht durchgesetzt, dass das Verhalten wichtig ist, und dass Verhalten auch modifizierbar ist. Dem wird mit dem Konzept der Nachschulung Rechnung getragen (Wittkowski & Seitz, 2004). Psychologische Fragen und diagnostisches Vorgehen. Die Fahreignungsdiagnostik Viele andere Fragestellungen ergeben sich aus der Anwendung von § 11 der FeV, der sich auf die Eignung der Führerscheininhaber, speziell auf die »notwendigen körperlichen und geistigen Anforderungen« bezieht. Eine Begutachtung ist unter anderem vorgesehen »bei erheblichen oder wiederholten Verstößen gegen verkehrsrechtliche Vorschriften oder bei Straftaten, die im Zusammenhang mit dem Straßenverkehr oder im Zusammenhang mit der Kraftfahrereignung stehen oder bei denen Anhaltspunkte für ein hohes Aggressionspotential bestehen« (§ 11, Abs. 3;4). Wer eine Fahrerlaubnis zur Fahrgastbeförderung anstrebt, also beispielsweise als Taxifahrer oder als Busfahrer tätig sein will, braucht dazu eine spezielle Fahrerlaubnis, deren Erteilung in § 48 geregelt ist. »Die Fahrerlaubnis zur Fahrgastbeförderung ist zu erteilen, wenn der Bewerber… [u. a.] seine geistige und körperliche Eignung gemäß § 11, Abs. 9 in Verbindung mit Anlage 5 nachweist.« In Anlage 5 der Fahrerlaubnisverordnung werden folgende Anforderungen spezifiziert: Belastbarkeit, Orientierungsleistung, Konzentrationsleistung, Aufmerksamkeitsleistung, Reaktionsfähigkeit. c) ein Fahrzeug im Straßenverkehr bei einer Blutalkoholkonzentration von 1,6 Promille oder einer Atemalkoholkonzentration von 0,8 mg/l oder mehr geführt wurde, d) die Fahrerlaubnis aus einem der unter Buchstabe a bis c genannten Gründe entzogen war oder e) sonst zu klären ist, ob Alkoholmissbrauch nicht mehr besteht. Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern »Geistige Anforderungen« erfüllt? 556 Beispiel Alkoholproblematik. Am Beispiel der Alkoholproblematik sollen die Begutachtungsgrundsätze in knapper Form erläutert werden. In den Leitlinien wird zwischen Alkoholmissbrauch und Alkoholabhängigkeit unterschieden. Die Diagnostik einer Alkoholabhängigkeit erfolgt nach den üblichen ICD-10-Kriterien (7 Kap. 10). Menschen, die alkoholabhängig sind, dürfen kein Kraftfahrzeug führen. Für die Feststellung, dass keine Abhängigkeit mehr vorliegt, wird der Nachweis verlangt, dass eine dauerhafte Abstinenz besteht. In der Regel sind eine erfolgreiche Entwöhnungsbehandlung und eine einjährige Abstinenz nach der Entgiftungs- und Entwöhnungszeit nachzuweisen. Außerdem dürfen keine sonstigen eignungsrelevanten Mängel vorliegen. Auch Alkoholmissbrauch (nach ICD-10 »schädlicher Gebrauch«) ist unvereinbar mit dem Führen eines Kraftfahrzeugs. Missbrauch liegt vor, wenn der Proband, ohne bereits alkoholabhängig zu sein, vor der Teilnahme am Straßenverkehr nicht zuverlässig auf Alkoholkonsum verzichtet, der die Fahrsicherheit beeinträchtigt. Ein sicherer diagnostischer Hinweis ist, wenn der Proband wiederholt ein Fahrzeug unter unzulässig hoher Alkoholwirkung geführt hat. Als starker Hinweis auf Alkoholmissbrauch gilt auch, wenn er nur einmal mit hoher Alkoholkonzentration gefahren ist, ohne dass dabei weitere Anzeichen einer Alkoholwirkung (Ausfallserscheinungen) erkennbar waren. In diesem Fall ist eine extreme Gift-/Trinkfestigkeit anzunehmen. Dass ein Alkoholmissbrauch abgestellt wurde, kann unter anderem anhand folgender Kriterien beurteilt werden: 4 Das Trinkverhalten wurde ausreichend geändert. 4 Die Änderung im Umgang mit Alkohol ist stabil und motivational gefestigt. Selbstverständlich ersetzen die Leitlinien nicht eine individuelle Begutachtung und Begründung des Gutachtens. Sie zeigen Beurteilungsgrundsätze und Begründungen auf und dienen als Entscheidungshilfe. der Leitung des Bundesministeriums für Verkehr, Bau- und Wohnungswesen erstellt. Sie führen die Begutachtungs-Leitlinien »Krankheit und Kraftverkehr« mit dem »Psychologischen Gutachten Kraftfahreignung« zusammen. Aktuelle Stellungnahmen der relevanten medizinischen und psychologischen Fachgesellschaften und gutachtliche Erfahrungen fanden Berücksichtigung. So verbinden die Leitlinien Erfahrungen aus der Praxis der Begutachtung mit einschlägigen wissenschaftlichen Erkenntnissen. Die Leitlinien gehen in einem allgemeinen Teil auf Themen von grundsätzlicher Bedeutung (z. B. Anforderungen an die psychische Leistungsfähigkeit) und auf organisatorische und rechtliche Bedingungen der Begutachtung (z. B. rechtliche Stellung des Gutachters) ein. Im speziellen Teil werden einzelne eignungsausschließende und -einschränkende körperlich-geistige (psychische) und charakterliche Mängel beim Fahrerlaubnisbewerber und Fahrerlaubnisinhaber behandelt. Einige sind rein medizinischer Art (z. B. verschiedene Herz- und Gefäßkrankheiten), andere fallen in den Kompetenzbereich von Medizinern und Psychologen (z. B. psychische Störungen, Alkohol) und ein kleiner Teil (z. B. intellektuelle Leistungseinschränkungen, Thema Fahrgastbeförderung) wird am ehesten von einem Psychologen begutachtet werden. Für die Begutachtungspraxis erfüllen die Leitlinien vor allem zwei wichtige Funktionen: 4 Zusammenstellung aller wichtigen eignungsausschließenden und -einschränkenden Merkmale; 4 Argumentationshilfe: Der Gutachter kann sich im Einzelfall auf die BegutachtungsLeitlinien beziehen und muss nicht jede gutachterliche Schlussfolgerung eingehend erläutern. 113 · Verkehrspsychologische Diagnostik 11 Alkoholmissbrauch abgestellt? Diagnostische Kriterien für Alkoholmissbrauch Alkoholabhängigkeit und Alkoholmissbrauch schließen Führen eines Kraftfahrzeugs aus Beurteilungsgrundsätze und Entscheidungshilfe Spezieller Teil: konkrete eignungsrelevante Merkmale Allgemeiner Teil Praxis und Wissenschaft vereint 557 11 Inhaltsanalytische Auswertung von Gutachten Eigenes Fehlverhalten erkennen und ändern Fakten von Beschönigungen unterscheiden Leistungstests Akteninformationen Diagnostisches Interview von zentraler Bedeutung Qualität der Gutachten. Für die Erstellung von Gutachten zur Kraftfahrereignung gelten die gleichen Anforderungen wie für andere Gutachten (7 Abschn. 5.3). Wittkowski und Seitz (2004) haben insgesamt 122 Gutachten aus 39 medizinisch-psychologischen Begutachtungsstellen analysiert. Anlass war immer das Fahren unter Alkoholeinfluss. Die Beurteiler überprüften jedes Gutachten anhand einer umfangreichen Merkmalsliste. Mit diesem inhaltsanalytischen Vorgehen konnten sie zahlreiche Stärken und Schwächen der Gutachten aufdecken. Die Ergebnisse sind zu umfangreich, um Was sollte der Betroffene sagen, um ein positives Gutachten zu bekommen? Unter dieser Überschrift gibt ein Rechtsanwalt folgenden Rat: »Ganz allgemein kann aber gesagt werden, dass von dem Betroffenen eine kritische Auseinandersetzung mit dem eigenen Verhalten verlangt wird. Es wird verlangt, dass der Betroffene sein früheres Fehlverhalten erkannt hat und sich damit intensiv auseinandergesetzt hat, um dann zu einer in Hinsicht auf die Kraftfahreignung »besseren« Lebensweise zu kommen…«. Wer im Rahmen einer MPU angibt, er habe einfach Pech gehabt, weil andere ja auch ständig gegen Verkehrsvorschriften verstoßen, ohne dabei erwischt zu werden, hat keine Aussicht auf ein positives Gutachten. Auch mit dem Hinweis, man habe ja schließlich z. B. zu schnell fahren müssen, weil der Chef einen ständig unter Druck setze, ist das negative Gutachten in der Praxis schon vorprogrammiert. Bei einer solchen Haltung wird nämlich gerade nicht deutlich, dass man sein eigenes Fehlverhalten als solches erkannt hat und aufgrund einer Aufarbeitung des eigenen Fehlverhaltens eine Verhaltensänderung herbeigeführt hat.« (www.verkehrsportal.de/verkehrsrecht/mpu_05.php) Problem der Verfälschung. Die Klienten werden bestrebt sein, einen »guten« Eindruck zu hinterlassen, um den Führerschein (wieder) zu erlangen. Das diagnostische Interview hat bei vielen Fragestellungen einen hohen Stellenwert. Die Fragen müssen daher so ausgewählt werden, dass diagnostisch relevante Fakten von beschönigenden Darstellungen unterschieden werden können. Für jedes dieser Kriterien finden sich in den Leitlinien Hinweise zur Operationalisierung. So ist eine stabile und motivational gefestigte Änderung des Trinkverhaltens unter anderem daran zu erkennen, dass der Änderungsprozess nachvollziehbar aufgezeigt werden kann und die mit der Verhaltensänderung erzielten Wirkungen positiv erlebt werden. Die Beurteilungsgesichtspunkte lassen bereits erkennen, welche diagnostischen Verfahren bei Annahme einer Alkoholproblematik nahe liegen. Zur Feststellung von Alkoholmissbrauch oder -abhängigkeit kommt dem diagnostischen Interview eine zentrale Bedeutung zu. Nur dieses Verfahren kann die nötigen Informationen über Trinkund Verhaltensgewohnheiten sowie über Problembewusstsein, eingeleitete Therapiemaßnahmen etc. liefern. Der Gutachter kann schriftliche Belege über Therapiemaßnahmen verlangen. Dem Interview geht eine Auswertung der Akten voraus. Wichtige Informationen sind die Höhe des Blutalkoholspiegels, das Verhalten unter Alkoholeinfluss (unauffälliges Verhalten spricht für eine hohe Alkoholtoleranz), eventuelle Vorgutachten, medizinische Befunde zu alkoholbedingten Schädigungen, Laborwerte etc. Zur Überprüfung von Leistungs- oder Funktionsbeeinträchtigungen nach einer überwundenen Alkoholabhängigkeit finden Leistungstests Verwendung. ren Alkoholmissbrauchs fehlen. 4 Verkehrsrelevante Leistungs- oder Funktionsbeeinträchtigungen als Folgen frühe- Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Verhaltensnahe Operationalisierung 558 Welche forderdringlichen Entwicklungsnotwendigkeiten sehen Sie in der verkehrspsychologischen Diagnostik? Es werden Testverfahren benötigt, die gerade im unteren Skalenbereich besonders gut differenzieren, da für das Führen eines Kraftfahrzeuges, eines Flugzeuges, eines Triebfahrzeuges oder auch eines Motorbootes, Mindestvoraussetzungen erfüllt sein müssen, 6 in der Verkehrspsychologie« Für welche Aufgabenbereiche innerhalb der Verkehrspsychologie sehen Sie einen besonderen Nutzen der psychologischen Diagnostik? Bei der medizinisch-psychologischen Begutachtung spielen diagnostische Verfahren aus verschiedenen Fachgebieten der Psychologie, z. B. Explorationstechniken, Erfassung psychofunktionaler Leistungsvoraussetzungen (v. a. Konzentration, Orientierung, Belastbarkeit, Reaktion, Aufmerksamkeit) und Persönlichkeitsmerkmale (v. a. Eigenkritikfähigkeit und Selbstkontrolle) sowie intellektuelle Leistungsvoraussetzungen eine besondere Rolle. Hinzu kommen verschiedene Befunde aus der Medizin (z. B. Laborparameter, klinische Befunde), sozialanamnestische und soziodemografische Daten. Einen besonderen Nutzen sehe ich im Einsatz leistungsdiagnostischer Testverfahren bei der Fahreignungsdiagnostik. Hier werden modernste Verfahren eingesetzt, die sich mehr als in der Vergangenheit am Grundlagenwissen der Psychologie orientieren und nach neuen Technologien – z. B. nach dem Konstituentenansatz – konstruiert und theoriegeleitet validiert sind. Ihre Relevanz für die Beantwortung von diagnostischen Fragestellungen an die Fahreignungsbegutachtung, z. B. nach dem Vorliegen alkohol-, drogen-, oder altersbedingter Leistungsbeeinträchtigungen, ist durch empirische Untersuchungen belegt. Die verwendeten Verfahren sind kein Ersatz für Fahrverhaltensbeobachtungen, sondern erlauben es, Leistungsbesonderheiten heraus zu präparieren und Hinweise für zielgerichtete Intervention sowie therapeutische Maßnahmen abzuleiten, z. B. bei der Rehabilitation von Alkoholabhängigen und der Bewertung der Abstinenzbehauptung. Die diagnostische Besonderheit dieses Begutachtungsprozesses besteht darin, dass die im Einzelnen erhobenen Befunde aus Psychologie und Medizin widerspruchsfrei im Sinne der zu beantwortenden - vom Gericht oder von der Behörde veranlassten - Fragestellung zu integrieren und interpretieren sind. > Interview mit Dr. Wolfgang Schubert zum Thema »Psychologische Diagnostik Insgesamt unterstreicht diese Untersuchung, dass die abgelieferten Gutachten in vielen Fällen (noch) nicht den Standards entsprechen. hier wiedergegeben zu werden. Exemplarisch sind im Folgenden einige Bewertungsaspekte aufgeführt (in Klammern der Anteil von Gutachten mit Mängeln): 4 Gutachtenauftrag wörtlich wiedergegeben (81%) 4 Quellen zur Feststellung des bisherigen Sachverhalts benannt (23%) 4 Fragestellungen in konkrete Untersuchungsvariablen überführt (39%) 4 Vollständige Angaben zur Art der Informationsquellen wie Akten, Testverfahren etc. (25%) 4 Im Ergebnisbericht Trennung von Informationen und deren Interpretation (2%) 4 Ergebnisse für den Leser klar und eindeutig formuliert (61%) 4 Integrative Befunde (sofern vorhanden) durch Mehrfachbelege gestützt (52%) 4 Fragestellung klar und unmissverständlich beantwortet (97%) 4 Vollständiges Literaturverzeichnis am Ende des Gutachtens (80%) 113 · Verkehrspsychologische Diagnostik 11 Dr. rer. nat. Wolfgang Schubert, Dipl.-Psych., Leiter des Fachbereiches Verkehrspsychologie der DEKRA Automobil GmbH, 1. Vorsitzender des Vorstandes der Deutschen Gesellschaft für Verkehrspsychologie e. V. Gutachten teilweise unzulänglich 559 Abels, D. (1974). Konzentrations-Verlaufs-Test KVT. Göttingen: Hogrefe. Allehoff, W. (1984). Berufswahl und berufliche Interessen. Göttingen: Hogrefe. Allen, B. P. & Potkay, Ch. R. (1981). On the arbitrary distinction between states and traits. Journal of Personality and Social Psychology, 41, 916-928. Allport, G. W. (1953). The trend in motivational theory. American Journal of Orthopsychiatry, 32, 107-119. Amelang, M. (1978). Hochschulzugang. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (S. 1013-1022). Düsseldorf: Schwann. Amelang, M. (1985). Historische Bedingtheit der empirisch orientierten Persönlichkeitsforschung. In T. Herrmann & E. Lantermann (Hrsg.), Persönlichkeitspsychologie. Ein Handbuch in Schlüsselbegriffen (S. 9-19). München: Urban & Schwarzenberg. Amelang, M. (1987). Fragebogen-Tests und experimentalpsychologische Variablen als Korrelate der Persönlichkeitsdimensionen Extraversion/Introversion (E/I) und Neurotizismus (N). In M. Amelang (Hrsg.), Bericht über den 35. Kongress der Deutschen Gesellschaft für Psychologie in Heidelberg 1986 (Bd. 2, S. 403-416). Göttingen: Hogrefe. Amelang, M. (1994). Über die Prozesse bei Selbsteinschätzungen. Eine Reaktionszeitanalyse von State- und Trait-Urteilen. In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 241-257). Göttingen: Hogrefe. Amelang, M. (1999). Zur Lage der Psychologie: Einzelaspekte von Ausbildung und Beruf unter besonderer Berücksichtigung der ökonomischen Implikationen psychologischen Handelns. Psychologische Rundschau, 50, 2-13. Amelang, M. & Bartussek, D. (1990). Differentielle Psychologie und Persönlichkeitsforschung (3. Aufl., 5. Aufl. 2001). Stuttgart: Kohlhammer. Amelang, M. & Borkenau, P. (1981a). Vorhersagen für einige Personen in vielen Merkmalen. Oder: Konsistenz über Variable und Kontextbedingungen als Eigenschaft. In W. Michaelis (Hrsg.), Bericht über den 32. Kongreß der Deutschen Gesellschaft für Psychologie in Zürich 1980 (S. 495-498). Göttingen: Hogrefe. Amelang, M. & Borkenau, P. (1981b). Untersuchungen zur Validität von Kontroll-Skalen für Soziale Erwünschtheit und Akquieszenz. Diagnostica, 27, 295-312. Amelang, M. & Borkenau, P. (1982). Über die faktorielle Struktur und externe Validität einiger Fragebogen-Skalen zur Erfassung von Dimensionen der Extraversion und emotionalen Labilität. Zeitschrift für Differentielle und Diagnostische Psychologie, 3, 119-146. Amelang, M. & Borkenau, P. (1986). Zur faktorenanalytischen Kontrolle sozialer Erwünschtheitstendenzen. Eine Untersuchung anhand des Freiburger Persönlichkeitsinventars. Zeitschrift für Differentielle und Diagnostische Psychologie, 7, 17-28. Amelang, M., Gold, A. & Külbel, E. (1984). Über einige Erfahrungen mit einer deutschsprachigen Skala zur Erfassung des zwischenmenschlichen Vertrauens (Interpersonal Trust). Diagnostica, 30, 198-215. Amelang, M., Herboth, G. & Oefner, J. (1991). A prototype strategy for construction of a creativity scale. European Journal of Personality, 5, 261-285. Amelang, M. & Hoppensack, Th. (1977). Persönlichkeitsstruktur und Hochschulbesuch I. Merkmalsveränderungen während des Studiums bei Studierenden verschiedener Fachrichtungen. Psychologische Beiträge, 19, 161-188. Amelang, M. & Pielke, M. (1992). Effects of erotica upon men’s and women’s loving and liking responses for their partners. Psychological Reports, 71, 1235-1245. Amelang, M., Schäfer, A. & Yousfi, S. (2002). Comparing verbal and nonverbal personality scales: Psychometric properties, the influence of social desirability, and the effects of fake good instruction. Psychologische Beiträge, 44, 24-41. Amelang, M., Schwarz, G. & Wegemund, A. (1989). Soziale Intelligenz als Trait-Konstrukt und TestKonzept bei der Analyse von Verhaltensauffälligkeiten. Zeitschrift für Differentielle und Diagnostische Psychologie, 10, 37-57. Literaturverzeichnis 567 568 Literaturverzeichnis Amelang, M. & Vagt, G. (1970). Warum sind die Schulnoten von Mädchen durch Leistungstests besser vorherzusagen als diejenigen von Jungen? Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 2, 210-220. American Psychiatric Association. (1987). Diagnostic and statistical manual of mental disorders DSM-III-R. Washington: American Psychiatric Association. American Psychiatric Association. (1994). Diagnostic and statistical manual of mental disorders DSM-IV. Washington: American Psychiatric Association. Amthauer, R. (1953). Intelligenz-Struktur-Test IST (2. Aufl. 1955). Göttingen: Hogrefe. Amthauer, R. (1957). Über die Prüfung der Zuverlässigkeit von Tests – erörtert am IST. Psychologische Rundschau, 8, 165-171. Amthauer, R. (1972). Test zur Untersuchung des praktisch-technischen Verständnisses PTV. Göttingen: Hogrefe. Amthauer, R. (1973). IST 70 (4. Aufl., 1. Aufl. 1970). Göttingen: Hogrefe. Amthauer, R., Brocke, B., Liepmann, D. & Beauducel, A. (2001). Intelligenz-Struktur-Test 2000 (IST 2000). Göttingen: Hogrefe. Andersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38, 123-140. Andersen, E. B. (1980). Discrete statistical models with social science applications. Amsterdam: North Holland. Andersen, E. B. (1995). Polytomous Rasch models and their estimation. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 271-291). New York: Springer. Anderson, N. R. & West, M. A. (1994). The Team Climate Inventory. Windsor: Berks ASE. Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561-573. Angleitner, A. (1993). Zur Konvergenz von verbalen und nicht-verbalen Erfassungstechniken von Persönlichkeitsmerkmalen. Bielefeld: Unveröffentlichter Praktikumsbericht. Angleitner, A. (1997). Minnesota Multiphasic Personality Inventory (MMPI). Rezension. Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 4-10. Antonovsky, A. (1979). Health, stress, and coping. San Francisco: Jossey-Bass. Arbeitskreis OPD. (1996). Operationalisierte psychoanalytische Diagnostik. Bern: Huber. Arentewicz, G. & Schmidt, G. (1986). Sexuell gestörte Beziehungen. Konzept und Technik der Paartherapie. Berlin, Heidelberg, New York: Springer. Armstrong, M. A. S. (1954). Children’s responses to animal and human figures in thematic pictures. Journal of Consulting Psychology, 18, 76-70. Atkinson, J. W. (1978). Motivational determinants of intellective performance and cumulative achievement. In J. W. Atkinson & J. O. Raynor (Eds.), Personality, motivation, and achievement (pp. 221-212). Washington: Hemisphere. Barrick, M. R., Mount, M. K. & Judge, T. A. (2001). Personality and performance at the beginning of the new millenium: What do we know and where do we go next? International Journal of Selection and Assessment, 9, 9-30. Bartenwerfer, H. (1964). Allgemeine Leistungstests. In R. Heiss (Hrsg.), Handbuch der Psychologie, Psychologische Diagnostik (S. 385-410). Göttingen: Hogrefe. Bartenwerfer, H. (1983). Allgemeine Leistungsdiagnostik. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 2: Intelligenz- und Leistungsdiagnostik (S. 482-521). Göttingen: Hogrefe. Barthel, D. & Schuler, H. (1989). Nutzenkalkulationen eignungsdiagnostischer Verfahren am Beispiel eines biographischen Fragebogens. Zeitschrift für Arbeits- und Organisationspsychologie, 33, 73-83. Bartlett, F. C. (1932). Remembering. A study in experimental and social psychology. Cambridge: Cambridge University Press. Bartling, G., Fiegenbaum, W. & Krause, R. (1980). Reizüberflutung. Theorie und Praxis. Stuttgart: Kohlhammer. Bartling, G., Echelmeyer, L., Engberding, M. & Krause, R. (2005). Problemanalyse im therapeutischen Prozess (5. Aufl.). Stuttgart: Kohlhammer. Bartussek, D. (1970). Eine Methode zur Bestimmung von Moderatoreffekten. Diagnostica, 16, 57-76. Bartussek, D. (1982). Modelle der Testfairness und Selektionsfairness. Trierer Psychologische Berichte, 9, Heft 2. Bartussek, D. (1988). Beurteilung der deutschen Form des 16 PF-Tests. Diagnostica, 34, 367-379. Bartussek, D. & Amelang, M. (1992). Verschränkungen mit der Differentiellen Psychologie. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. veränderte Aufl., S. 50-64). Weinheim: Psychologie Verlags Union Bartussek, D., Raatz, U., Stapf, K. H. & Schneider, B. (1986). Die Evaluation des Tests für Medizinische Studiengänge, 3. Zwischenbericht. Bonn: Ständige Konferenz der Kultusminister der Länder. Basler, H.-D. & Kröner-Herwig, B. (Hrsg.), (1995). Psychologische Therapie bei Kopf- und Rückenschmerzen. Ein Schmerzbewältigungsprogramm zur Gruppen- und Einzeltherapie. München: Quintessenz. Bastine, R. (Hrsg.). (1992a). Klinische Psychologie (Bd. 2). Stuttgart: Kohlhammer. Bastine, R. (1992b). Klinische Psychodiagnostik. In R. Bastine (Hrsg.), Klinische Psychologie (Bd. 2, S. 1-55). Stuttgart: Kohlhammer. Bastine, R. (1992c). Psychotherapie. In R. Bastine (Hrsg.), Klinische Psychologie (Bd. 2, S. 179-308). Stuttgart: Kohlhammer. Bastine, R. (1998). Klinische Psychologie (Bd. 1, 3. Aufl.). Stuttgart: Kohlhammer. Bastine, R. & Tuschen, B. (1996). Klinisch-psychologische Diagnostik. In A. Ehlers & K. Hahlweg (Hrsg.), Psychologische und biologische Grundlagen der Klinischen Psychologie. Enzyklopädie der Psychologie: Themengebiet D, Serie 2, Klinische Psychologie, Bd. 1 (S. 195-268). Göttingen: Hogrefe. Baumann, U. (1981). Indikationen zur Psychotherapie. München: Urban & Schwarzenberg. Baumann, U. (1990). Klinisch-Psychologische Diagnostik: Gibt es Alternativen zur klassischen Diagnostik? Zeitschrift für Klinische Psychologie, 19, 179-182. Baumann, U., Fähndrich, E., Stieglietz, R. D. & Woggon, B. (Hrsg.). (1990). Veränderungsmessung in Psychiatrie und Klinischer Psychologie. München: Profil-Verlag. Baumgärtel, F. (1979). Hamburger Erziehungsverhaltensliste für Mütter. Göttingen: Hogrefe. Bäumler, G. (1974b). Lern- und Gedächtnistest LGT 3. Göttingen: Hogrefe. Bäumler, G. (1985). Farb-Wort-Interferenztest FWIT. Göttingen: Hogrefe. Beauducel, A., Brocke, B. & Liepmann, D. (2001). Perspectives on fluid and crystallized intelligence: facets for verbal, numerical, and figural intelligence. Personality and Individual Differences, 30, 977-994. Beck, A. T. & Emery, G. (1981). Kognitive Verhaltenstherapie bei Angst und Phobien. Tübingen: Deutsche Gesellschaft für Verhaltenstherapie. Beck, A. T., Freeman, A. & Associates (1995). Kognitive Therapie der Persönlichkeitsstörungen (3. Aufl.). Weinheim: Psychologie Verlags Union. Beck, A. T., Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar (BDI). (2., überarb. Aufl.). Göttingen: Hogrefe. Beck, A. T., Rush, A. J., Shaw, B. F. & Emery, G. (1996). Kognitive Therapie der Depression (5. Aufl., 1. Aufl. 1992). Weinheim: Psychologie Verlags Union. Becker, P. (1982). Psychologie der seelischen Gesundheit. Göttingen: Hogrefe. Becker, P. (1987). Interaktions-Angstfragebogen IAF (2. Aufl., 1. Aufl. 1982). Weinheim: Beltz. Becker, P. (1988). Ein Strukturmodell der emotionalen Befindlichkeit. Psychologische Beiträge, 30, 514-536. Becker, P. (1996). Der Gießen-Test (GT) und ein Sechs-Faktoren-Modell der Persönlichkeit. Trierer Psychologische Berichte, 23, Heft 3. Becker, P. (1999). Beyond the Big Five. Personality and Individual Differences, 26, 511-530. Becker, P. (2003). Trierer Integriertes Persönlichkeitsinventar TIPI. Göttingen: Hogrefe Becker, P., Bös, K. & Woll, A. (1994). Ein Anforderungs-Ressourcen-Modell der körperlichen Gesundheit: Pfadanalytische Überprüfungen mit latenten Variablen. Zeitschrift für Gesundheitspsychologie, 2, 25-48. Becker, P. & Hänsgen, K. D. (1994). Persönlichkeitsvergleich von Ost- und Westdeutschen in Indikatoren der seelischen Gesundheit und der Verhaltenskontrolle. Report Psychologie, 19, 2841. Becker, P., Krieger, W., Kamm, U. & Schoerer, S. (1989). Alltagskorrelate und -verläufe der emotionalen Befindlichkeit: Literaturüberblick sowie zeitreihenanalytische Studien an fünf Paaren über 100 Zeitpunkte. Trierer Psychologische Berichte, 16, Heft 3. Becker, P., Schaller, S. & Schmidtke, A. (1978). Coloured Progressive Matrices CPM. (Deutsche Version). Weinheim: Beltz. Literaturverzeichnis 569 570 Literaturverzeichnis Beckmann, D., Brähler, E. & Richter, H.-E. (1990). Der Gießen-Test (4. Aufl.). Bern: Huber. Beckmann, D., Brähler, E. & Richter, H.-E. (1991). Der Gießen-Test GT. Ein Test für die Individual- und Gruppendiagnostik. Handbuch (4. Aufl., 1. Aufl. 1972). Bern: Huber. Bellak, L. & Bellak S. S. (1965). Children’s apperception test. (Human figures). New York: CPS. Belschner, F. (1970). Der Foto-Handtest (FHT). Über die Entwicklung eines projektiven Verfahrens zur Erfassung aggressiven Verhaltens. Diagnostica, 16, 123-138. Belschner, F., Lischke, G. & Selg, H. (1971). Foto-Hand-Test (FHT) zur Erfassung der Aggressivität. München: Alber. Bem, D. J. & Allen, A. (1974). On predicting some of the people some of the time: The search for cross-situational consistencies in behavior. Psychological Review, 81, 506-520. Bem, D. J. & Funder, D. C. (1978). Predicting more of the people more of the time: Assessing the personality of situations. Psychological Review, 85, 485-501. Bene, E. & Anthony, J. (1957). Family Relations Test. London: National Foundation for Educational Research. Benjamin, L. S. (1974). Structural Analysis of Social Behavior. Psychological Review, 81, 392-425. Benton-Sivan, A. B. & Spreen, O. (1996). Der Benton Test (7., vollst. überarb. Aufl.). Göttingen: Hogrefe. Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. In C. W. Harris (Ed.), Problems in measuring change (pp. 3-20). Madison: University of Wisconsin Press. Bergeman, N. & Johann, G. K. (1993). Berger-Skala zur Erfassung der Selbstakzeptanz. Göttingen: Hogrefe. Biermann-Ratjen, E. M., Eckert, J. & Schwartz, H. J. (2003). Gesprächspsychotherapie. Verändern durch Verstehen (9. Aufl.). Stuttgart: Kohlhammer. Binet, A. & Simon, Th. (1905). Methodes nouvelles pour le diagnostique du niveau intellectuel des arnomaux. Année Psychologique, 11, 191-244. Binz, U. & Wendt, G. (1986). Kurz-Skala Stimmung/Aktivierung KUSTA. Weinheim: Beltz. Birbaumer, N. & Schmidt, R. F. (1966). Biologische Psychologie (3. Aufl.). Berlin, Heidelberg, New York: Springer. Birnbaum, A. (1968). Some latent trait models. In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 395-479). Reading, MA: Addison-Wesley. Bless, G. (1986). Der soziometrische Status des integrierten Hilfsschülers. Untersuchung in Regelklassen mit heilpädagogischer Schülerhilfe. Vierteljahresschrift für Heilpädagogik und ihre Nachbargebiete, 55, 49-58. Block, J. (1961). The Q-Sort method in personality assessment and psychiatric research. Springfield: C. C. Thomas. Bloom, B. S. (1976). Human characteristics and school learning. New York: McGraw. Blum, F., Hengsen, A. & Trost, G. (1982). Studienfeldbezogener Beratungstest Naturwissenschaften (SFT-NW). Bonn: Institut für Test- und Begabungsforschung. Blum, F. & Trost, G. (1982). Studienfeldbezogener Beratungstest Ingenieurwissenschaften (SFT-IW). Bonn: Institut für Test- und Begabungsforschung. Blum, G. S. (1950). Blacky pictures. New York: Psychological Corporation. Bolm, W. (1994). Goal Attainment Scaling: Gütemaß und praktische Erfahrungen bei 397 psychiatrischen Behandlungsverläufen. Zeitschrift für Klinische Psychologie, Psychopathologie und Psychotherapie, 42, 128-138. Bölte, S., Adam-Schwebe, S., Englert, E., Schmeck, K. & Poustka, F. (2000). Zur Praxis der psychologischen Testdiagnostik in der deutschen Kinder- und Jugendpsychiatrie: Ergebnisse einer Umfrage. Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie, 28, 151-161. Bommert, H. (1987). Grundlagen der Gesprächspsychotherapie (4. Aufl.). Stuttgart: Kohlhammer. Bommert, H. & Hockel, M. (Hrsg.). (1982). Therapieorientierte Diagnostik. Stuttgart: Kohlhammer. Borkenau, P. (1986). Untersuchungen zur internen Konsistenz und externen Validität der deutschsprachigen Form des 16 PF-Tests von Schneewind, Schröder & Cattell. Diagnostica, 32, 100110. Borkenau, P. & Amelang, M. (1983). Vorhersagen für einige Personen in einigen Dimensionen. Oder: Individuelle Angemessenheit von Eigenschaftskonstrukten und Differentielle Validität. In G. Lüer (Hrsg.), Bericht über den 33. Kongreß der Deutschen Gesellschaft für Psychologie in Mainz 1982, Bd. 1 (S. 468-472). Göttingen: Hogrefe. Borkenau, P. & Amelang, M. (1985). Individuelle Angemessenheit von Eigenschaftskonstrukten als Moderatorvariable für die Übereinstimmung zwischen Selbst- und Bekannten-Ratings. Diagnostica, 31, 105-118. Borkenau, P. & Amelang, M. (1986). Zur faktorenanalytischen Kontrolle sozialer Erwünschtheitstendenzen. Eine Untersuchung anhand des Freiburger-Persönlichkeits-Inventars. Zeitschrift für Differentielle und Diagnostische Psychologie, 7, 17-28. Borkenau, P. & Ostendorf, F. (1993). NEO-Fünf-Faktoren Inventar (NEO-FFI) nach Costa & McCrae. Göttingen: Hogrefe. Borkowski, J. G., Weyhing, R. S. & Carr, M. (1988). Effects of attributional retraining on strategybased reading comprehension in learning disabled students. Journal of Educational Psychology, 80, 46-53. Bös, K. (Hrsg.). (2001). Handbuch Motorische Tests: Sportmotorische Tests, Fragebogen zur körperlich-sportlichen Aktivität und sportpsychologische Diagnoseverfahren (2., vollständig überarbeitete und erweiterte Auflage). Göttingen: Hogrefe. Bös, K. & Mechling, H. (1985). Der Bilder-Angst-Test für Bewegungssituationen. Göttingen: Hogrefe. Boudreau, J. W. (1991). Utility Analysis for decisions in human resource management. In N. I. Dunnette & L. N. Lough (Eds.), Handbook of industrial and organisational psychology (Vol 2, pp. 621-745). Palo Alto, CA: Consulting Psychologists Press. Braband, H. & Kleber, E. W. (1983). Sonderpädagogische Interventionen in der Grundschule als integriertes Analyse-Interventions- und Beratungssystem. In R. Kornmann, H. Meister & J. Schlee (Hrsg.), Förderungsdiagnostik (S. 160-170; 2. Aufl. 1986). Heidelberg: Schindele. Brackmann, A. (2000). Zur Konvergenz verbaler und nonverbaler Erfassungstechniken von Persönlichkeitsmerkmalen. Unveröffentlichte Diplomarbeit am Psychologischen Institut, Universität Heidelberg. Brähler, E. & Beckmann D. (1981). Stabilität der Gießen-Test-Skalen. Diagnostica, 27, 110-126. Brähler, E. & Beckmann D. (1984). Die Erfassung von Partnerbeurteilungen mit dem Gießen Test. Diagnostica, 30, 184-197. Brähler, E. & Brähler, Ch. (1993). Paardiagnostik mit dem Gießen-Test. Bern: Huber. Brähler, E., Holling, H., Leutner, D. & Petermann, F. (Hrsg.). (2002). Brickenkamp Handbuch psychologischer und pädagogischer Tests (3., vollständig überarbeitete und erweiterte Aufl.). Göttingen: Hogrefe. Brandstätter, H. (1970). Leistungsprognose und Erfolgskontrolle. Bern: Huber. Brandstätter, H. (1978). Organisationsdiagnose. In A. Mayer (Hrsg.), Organisationspsychologie (S. 4371). Stuttgart: Poeschel. Brandstätter, V. (2005). Der objektive Leistungsmotivations-Test OLMT von L. Schmidt-Atzert. Rezension. Zeitschrift für Personalpsychologie, 4, 132-137. Bray, D. W. Campbell, R. J. & Grant, D. L. (1974). Formative years in business: A longterm AT and T study of managerial lives. New York: Wiley. Brengelmann, J. C. & Brengelmann, L. (1960). Deutsche Validierung von Fragebogen der Extraversion, neurotischen Tendenz und Rigidität. Zeitschrift für Experimentelle und Angewandte Psychologie, 7, 291-331. Brickenkamp, R. (1986). Handbuch apparativer Verfahren in der Psychologie. Göttingen: Hogrefe. Brickenkamp, R. (1994). Test d2 (8. Aufl., 1. Aufl. 1962). Göttingen: Hogrefe. Brickenkamp, R. (2002). Test d2: Aufmerksamkeits-Belastungs-Test (9., überarbeitete und neu normierte Aufl.). Göttingen: Hogrefe. Brickenkamp, R., Merten T. & Hänsgen, K.-D. (1997). d2-C Computersystem Hogrefe Testsystem. Göttingen: Hogrefe. Brickenkamp, R. & Zillmer, E. (1998). The d2 Test of Attention. Seattle: Hogrefe and Huber Publishers. Brocke, B., Beauducel, A. & Tasche, K. (1995). Der Intelligenz-Struktur-Test: Analysen zur theoretischen Grundlage und technischen Güte. Technische Universität Dresden: Forschungsberichte, 2. Brodbeck, F., Anderson, N. & West M. (2000). Teamklima-Inventar TKI. Göttingen: Hogrefe. Brody, N. (1988). Personality. In search of individuality. San Diego: Academic Press. Brogden, H. E. (1949). When testing pays off. Personnel Psychology, 2, 171-185. Literaturverzeichnis 571 572 Literaturverzeichnis Bronisch, T., Hiller, W., Zaudig, M. & Mombour, W. (1995). IDCL-P Internationale Diagnose Checklisten für Persönlichkeitsstörungen nach ICD-10 und DMS-IV. Bern: Huber. Brophy, J. E. & Good, T. L. (1986). Teacher behavior and student achievement. In M. C. Wittrock (Ed.), Handbook of research on teaching (3rd ed., pp. 328-375). New York: Macmillan. Broughton, R. (1984). A prototype strategy for construction of personality scales. Journal of Personality and Social Psychology, 47, 1334-1346. Bryan, T. & Lee, J. (1990). Training social skills with learning disabled children and adolescents: The state of the art. In T. E. Scruggs & B. Y. L. Wong (Eds.), Intervention research in learning disabilities. Berlin, Heidelberg, New York: Springer. Bühler, C. & Hetzer, H. (1932). Kleinkindertests. Leipzig: Barth. Bühner, M. & Schmidt-Atzert, L. (2004). Überprüfung der Äquivalenz einer Test d2-Version für ältere Probanden. Zeitschrift für Neuropsychologie, 15, 7-13. Bühner, M., Schmidt-Atzert, L., Grieshaber, E. & Lux, A. (2001). Faktorenstruktur verschiedener neuropsychologischer Tests. Zeitschrift für Neuropsychologie, 12, 181-187. Bungard, W. (1987). Zur Problematik von Reaktivitätseffekten bei der Durchführung eines Assessment Centers. In H. Schuler & W. Stehle (Hrsg.), Assessment Center als Methode der Personalentwicklung (S. 99-125). Stuttgart: Verlag für Angewandte Psychologie. Bungard, W. & Antoni, C. H. (1993). Gruppenorientierte Interventionstechniken. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 377-404). Bern: Huber. Burisch, M. (1984). Approaches to personality inventory construction. A comparison of merits. American Psychologist, 39, 214-227. Buse, L. (1975). Dimensionen und Komponenten des Interesses. Unveröffentlichte Dissertation, Universität Hamburg. Buss, D. M. & Craik, K. H. (1980). The frequency concept of dispostion: Dominance and prototypically dominant acts. Journal of Personality, 48, 379-392. Buss, D. M. & Craik, K. H. (1984). Acts, dispositions, and personality. In B. A. Maher & W. B. Maher (Eds.), Progress in experimental personality research (Vol. 13, pp. 241-301). New York: Academic Press. Büssing, A. (1993). Organisationsdiagnose. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 445-479). Bern: Huber. Campbell, G. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the multitraitmultimethod matrix. Psychological Bulletin, 56, 81-105. Cantor, N. & Mischel, W. (1979). Prototypes in person perception. In L. Berkowitz (Ed.), Advances in experimental social psychology (Vol. 12, pp. 3-52). New York: Academic Press. Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. New York: Cambridge University Press. Caspar, F. (1986). Die Plananalyse als Konzept und Methode. Verhaltensmodifikation, 7, 235-256. Caspar, F. (Hrsg.). (1996). Psychotherapeutische Problemanalyse. Tübingen: DGVT-Verlag. Catron, D. W. (1978). Immediate test-retest changes in WAIS scores among college males. Psychological Reports, 43, 279-290. Cattell, R. B. (1966). The data box: Its ordering of total resources in terms of possible relational systems. In R. B. Cattell (Ed.), Handbook of multivariate experimental psychology (pp. 67-128). Chicago: Rand McNally. Cattell, R. B. (1972). The 16PF and basic personality structures: A reply to Eysenck! Journal of Behavioral Science, 17, 169-187. Cattell, R. B. & Warburton, F. W. (1967). Objective personality and motivation tests. Urbana: University of Illinois Press. Chaiken, A. L., Derlerga, V. J. & Miller, S. J. (1976). Effects of room environment on self-disclosure in a counceling analogue. Journal of Counseling Psychology, 23, 479-481. Chamberlin, R. W. (1969). A study of an interview method for identifying family authority patterns. Genetic Psychology Monograph, 80, 129-148. Chambless, D. L. (1993). Task force on promotion and dissemination of psychological procedures. Report of Division 12. Washington: American Psychological Association. Chambless, D. L. & Hollon, S. D. (1998). Defining empirically supported therapies. Journal of Consulting and Clinical Psychology, 66, 7-18. Christensen, L. & Mendoza, J. L. (1986). A method of assessing change in a single subject: An alteration of the RC Index. Behavior Therapy, 17, 305-308. Cierpka, M. (Hrsg.). (1987). Familiendiagnostik. Berlin, Heidelberg, New York: Springer. Cierpka, M. (Hrsg.). (1996). Handbuch der Familiendiagnostik. Berlin, Heidelberg, New York, Tokio: Springer. Cleary, T. A. (1968). Testbias: Prediction of grades of negro and white students in integrated colleges. Journal of Educational Measurement, 5, 115-124. Clement, U. & Löwe, B. (1996). Fragebogen zum Körperbild. Göttingen: Hogrefe. Cole, N. S. (1973). Bias in selection. Journal of Educational Measurement, 10, 237-255. Colvin, C. R. & Funder, D. C. (1991). Predicting personality and behavior: A boundary on the acquaintanceship effect. Journal of Personality and Social Psychology, 60, 884-894. Comer, R. J. (2001). Klinische Psychologie (2. Aufl.). Heidelberg: Spektrum Akademischer Verlag. Conger, A. J. (1974). A revised definition for suppressor variables. Educational and Psychological Measurement, 34, 35-46. Conger, A. J. & Jackson, D. N. (1972). Suppressor variables, prediction, and the interpretation of psychological relationships. Educational and Psychological Measurement, 32, 579-599. Conrad, W., Baumann, E. & Mohr, V. (1980). Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens MTP. Göttingen: Hogrefe. Conrad, W., Büscher, P., Hornke, L., Jäger, R., Schweizer, H., Stünzner, W. v. & Wiencke, W. (1986). Mannheimer Intelligenztest MIT (2. Aufl., 1. Aufl. 1971). Weinheim: Beltz. Constantinople, A. (1970). Some correlates of average level of happiness among college students. Developmental Psychology, 2, 447. Costa, P. T. & McCrae, R. R. (1989). NEO PI/FFI manual supplement. Odessa, FL: Psychological Assessment Resources. Costa, P. T. & McCrae, R. R. (1992). Revised NEO Personality Inventory (NEO PI-R) and NEO Five Factor Inventory. Professional manual. Odessa, FL: Psychological Assessment Resources. Cranach, M. v. (1983). Present State Examination PSE (2. Aufl., 1. Aufl. 1978). Weinheim: Beltz. Cranach, M. v., Kalbermatten, U., Indermühle, K. & Gugler, B. (1980). Zielgerichtetes Handeln. Bern: Huber. Crick, N. R. & Dodge, K. A. (1994). A review and reformulation of social information-processing mechanisms in children’s social adjustment. Psychological Bulletin, 115, 74-101. Cronbach, L. J. & Gleser, G. C. (1965). Psychological tests and personnel decisions (2. Aufl., 1. Aufl. 1957). Urbana, JL: University of Illinois Press. Curran, J. P. & Cattell, R. B. (1970). Eight State Questionnaire. Champaign, JL: Institute for Personality and Ability Testing. Dahl, G. (1971). Zur Berechnung des Schwierigkeitsindex bei quantitativ abgestufter Aufgabenbewertung. Diagnostica, 17, 139-142. Dahle, K-P. (1997). Kriminalprognosen im Strafrecht: Psychologische Aspekte individueller Verhaltensvorhersagen. In M. Steller & R. Volbert (Hrsg.), Psychologie im Strafverfahren: Ein Handbuch (S. 119-140). Bern: Huber. Dahle, K. P. (2000). Psychologische Begutachtung zur Kriminalprognose. In H.-L. Kröber & M. Steller (Hrsg.), Psychologische Begutachtung im Strafvervahren: Indikationen, Methoden und Qualitätsstandards (S. 77-111). Darmstadt: Steinkopff. Dahme, G., Bleich, C., Jungnickel, D. & Rathje, H. (1992). Ermutigende Befunde zur Reliabilität und enttäuschende Ergebnisse zur Konstruktvalidität des HAKEMP: Daten aus einer Felduntersuchung. Zeitschrift für Differentielle und Diagnostische Psychologie, 13, 139-160. Dahmer, J. (1973). Anamnese und Befund. Stuttgart: Thieme. Daniels, J. C. (1967). Figure Reasoning Test. London: Crosby Lockwood. Darlington, R. B. (1968). Multiple regression in psychological research and practice. Psychological Bulletin, 69, 161-182. Davier, M. v. & Rost, J. (o. J.). WINMIRA. Windows 3.x – Programmsystem zur Analyse von RaschModell, Mixed Rasch-Modell und Latent Class Analyse. Kiel: Institut für Pädagogik der Naturwissenschaften. Davison, G. C. & Neale, J. M. (2002). Klinische Psychologie (6. Aufl.). Weinheim: Psychologie Verlags Union. Deidesheimer Kreis (1997). Hochschulzulassung und Studieneignungstests. Göttingen, Zürich: Vandenhoeck & Ruprecht De Jong-Gierveld, J. & Kamphuis, F. (1985). The development of a Rasch-type loneliness scale. Applied Psychological Measurement, 9, 3, 289-299. Literaturverzeichnis 573 574 Literaturverzeichnis Deneke, F.-W. & Hilgenstock, B. (1989). Das Narzißmusinventar. Göttingen: Hogrefe. Deusinger, I. M. (1986). Frankfurter Selbstkonzeptskalen FSKN. Göttingen: Hogrefe. Dieterich, R. (1973). Psychodiagnostik. Grundlagen und Probleme. München: Reinhardt. Dilling, H. & Freyberger, H. J. (Hrsg.). (2001). Taschenführer zur ICD-10-Klassifikation psychischer Störungen der Weltgesundheitsorganisation (2. Aufl.). Bern: Huber. Dilling, H., Mombour, W. & Schmidt, M.H. (1993). Internationale Klassifikation psychischer Störungen, ICD-10 Kapitel V (2. Aufl.). Bern: Huber. Dilling, H., Mombour, W., Schmidt, M.H. & Schulte-Markwort, E. (1994). Internationale Klassifikation psychischer Störungen, ICD-10 Kapitel V; Forschungskriterien. Bern: Huber. DiNardo, P. A. (1975). Social class and diagnostic suggestion as variables in clinical judgement. Journal of Consulting and Clinical Psychology, 43, 363-368. Dreesmann, H. (1979). Zusammenhänge zwischen Unterrichtsklima, kognitiven Prozessen bei Schülern und deren Leistungsverhalten. Zeitschrift für Empirische Pädagogik, 3, 121-133. Dudek, F. J. (1979). The continuing misinterpretation of the standard error of measurement. Psychological Bulletin, 86, 335-337. Duhm, E. & Hansen, J. (1957). Der Rosenzweig P-F-Test, Form für Kinder. Göttingen: Hogrefe. Düker, H. & Lienert, G. A. (1965). Konzentrations-Leistungs-Test KLT. Göttingen: Hogrefe. Düker, H., Lienert, G. A., Lukesch, H. & Mayrhofer, S. (2001). KLT-R. Konzentrations-Leistungs-Test (revidierte Fassung). Göttingen: Hogrefe. Ebel, O. & Lienert, G. A. (1960). Ein Index zur numerischen Bestimmung der Niveau-Eigenschaften eines psychologischen Tests. Metrica. Zeitschrift für theoretische und angewandte Statistik, 3, 117-123. Eckardt, H. H. & Schuler, H. (1992). Berufseignungsdiagnostik. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 533-551). Weinheim: Psychologie Verlags Union. Eggert, D. (1974). Lincoln-Oseretzky-Skala. KF. 18 (2. Aufl., 1. Aufl. 1971). Weinheim: Beltz. Eggert, D. (1976). Hannover-Wechsler-Intelligenztest für das Vorschulalter HAWIVA. Bern: Huber. Ehlers, A. (1999). Posttraumatische Belastungsstörung. Göttingen: Hogrefe. Ehlers, A. (2000). Psychologische Grundlagen der Verhaltenstherapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (S. 69-87). Heidelberg: Springer. Ehlers, A., Margraf, J. & Chambless, D. (2001). Fragebogen zu körperbezogenen Ängsten, Kognitionen und Vermeidung AKV (2. Aufl.). Weinheim: Beltz. Ellis, A. & Grieger, R. (1995). Praxis der rational-emotiven Therapie (2. Aufl., 1. Aufl. 1979). Weinheim: Psychologie Verlags Union. Emmelkamp, P.M.G. & van Oppen, P. (2000). Zwangsstörungen. Göttingen: Hogrefe. Endler, N. S., Hunt, J. McV. & Rosenstein, A. J. (1962). An S-R-inventory of anxiousness. Psychological Monographs, 76, No. 17. Epstein, S. (1979). The stability of behavior: I. On predicting most of the people much of the time. Journal of Personality and Social Psychology, 37, 1097-1126. Erzigkeit, H. (1993). Kurztest zur Erfassung von Gedächtnis- und Aufmerksamkeitsstörungen SKT (5., neubearb. Aufl.). Weinheim: Beltz. Exner, J. E. Jr. (2003). The Rorschach: A comprehensive system (4th ed.). New York: Wiley. Eysenck, H. J. (1953). The structure of human personality. London: Methuen. Eysenck, H. J. (1957). The dynamics of anxiety and hysteria. London: Routledge. Eysenck, H. J. (1967). The biological basis of personality. Springfield, IL: Ch. Thomas. Eysenck, H. J. (1970). EPI Eysenck Personality Inventory. London: University of London Press. Fahrenberg, J. (1964). Objektive Tests. In R. Heiss (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik (S. 488-532). Göttingen: Hogrefe. Fahrenberg, J. (1987). Multimodale Diagnostik - eine Einleitung. Diagnostica, 33, 185-187. Fahrenberg, J. (1994). Freiburger Beschwerden-Liste. Göttingen: Hogrefe. Fahrenberg, J., Hampel, R. & Selg, H. (2001). Das Freiburger Persönlichkeitsinventar: FPI; Revidierte Fassung FPI-R und teilweise geänderte Fassung FPI-A1 (7. Aufl., 1. Aufl. 1970). Göttingen: Hogrefe. Fahrenberg, J. & Selg, H. (1970). Das Freiburger Persönlichkeitsinventar FPI. Göttingen: Hogrefe. Faßnacht, G. (1979). Systematische Verhaltensbeobachtung (1. Aufl., 2. verb. Aufl. 1994). München: Reinhardt. Fay, E. (1992). Über die Übbarkeit der Leistung in einem Durchstreichverfahren zur Messung der Konzentrationsfähigkeit. Diagnostica, 38, 301-311. Fay, E. (2003). Bochumer Matrizentest (BOMAT – advanced – short version). In E. Fay (Hrsg.), Tests unter der Lupe 4: Aktuelle psychologische Testverfahren – kritisch betrachtet (S. 24-35). Göttingen: Vandenhoeck & Ruprecht. Fay, E., Mausfeld, R., Niederée, R., Stumpf, H. & Trost, G. (1982). Studienfeldbezogener Beratungstest Mathematik (SFT-MATH). Bonn: Institut für Test- und Begabungsforschung. Fay, E. & Stumpf, H. (1995). Leistungsdaten. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 380-396). München, Weinheim: Psychologie Verlags Union. Fels, M. & Geissner, E. (1997). Neglect-Test (NET) (2., korrigierte Aufl.). Göttingen: Hogrefe. Feuerlein, W., Küfner, H., Ringer, Ch. & Antons, K. (1989). Kurzfragebogen für Alkoholgefährdete KFA. Weinheim: Beltz. Feuerlein, W., Ringer, Ch., Küfner, H. & Antons, K. (1979). Münchner Alkoholismus-Test MALT. Weinheim: Beltz. Fiedler, P. (2001). Persönlichkeitsstörungen (5. Aufl.). Weinheim: Psychologie Verlags Union. Fiedler, P., Stieglitz, R. D., Baumann, U. & Freiberger, H. J. (Hrsg.). (2001). Interaktionsdiagnostik bei Paaren und Familien. Psychodiagnostik in Klinischer Psychologie, Psychiatrie und Psychotherapie. Stuttgart: Thieme. Fiegenbaum, W. & Tuschen, B. (2000). Reizkonfrontation. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 413-426). Heidelberg: Springer. Fieguth, G. (1977). Die Entwicklung eines kategoriellen Beobachtungsschemas. In U. Mees & H. Selg (Hrsg.), Verhaltensbeobachtung und Verhaltensmodifikation (S. 33-42). Stuttgart: Klett. Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber. Fischer, G. H. (1978). Probabilistic test models and their application. The German Journal of Psychology 2, 298-319. Fischer, G. H. (1983). Neuere Testtheorie. In J. Bredenkamp & H. Feger (Hrsg.), Messen und Testen (S. 604-692). Göttingen: Hogrefe. Fischer, G. H. (1988). Spezifische Objektivität. Eine wissenschaftstheoretische Grundlage des Rasch-Modells. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 87-111). Weinheim: Psychologie Verlags Union. Fischer, G. H. (1995a). Linear logistic models for change. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 157-180). New York: Springer. Fischer, G. H. (1995b). The linear logistic test model. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 131-155). New York: Springer. Fischer, G. H. (1996). IRT-Modelle als Forschungsinstrumente der Differentiellen Psychologie. In K. Pawlik (Hrsg.), Grundlagen und Methoden der Differentiellen Psychologie (S. 673-729). Göttingen: Hogrefe. Fischer, G. H. & Molenaar, I. W. (Eds.). (1995). Rasch models: Foundations, recent developments, and applications. New York: Springer. Fischer, G. H. & Parzer, P. (1991). An extension of the rating scale model with an application to the measurement of treatment effects. Psychometrika, 56, 637-651. Fischer, G. H. & Ponocny, I. (1995). Extended rating scale and partial credit models for assessing change. In G. H. Fischer & I. W. Molenaar (Eds.). Rasch models: Foundations, recent developments, and applications (pp. 353-370). New York: Springer. Fischer, G. H. & Spada, H. (1973). Die psychometrischen Grundlagen des Rorschachtests und der Holtzman Inkblot Technique. Bern: Huber. Fishbein, M. & Ajzen, I. (1974). Attitudes towards objects as predictors of single and multiple behavioral criteria. Psychological Review, 81, 59-74. Fiske, D. W. & Butler, J. M. (1963). The experimental conditions for measuring individual differences. Educational and Psychological Measurement, 23, 249-266. Fisseni, H. J. (1982). Persönlichkeitsbeurteilung. Zur Theorie und Praxis des Psychologischen Gutachtens. Göttingen: Hogrefe. Fisseni, H. J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen: Hogrefe. Flanagan, J. (1954). The critical incident technique. Psychological Bulletin, 51, 327-358. Fleischmann, U. M. (2000). Gerontoneuropsychologie - Diagnostik, Therapie und Intervention. In W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 663-673). Lisse, NL: Swets & Zeitlinger. Literaturverzeichnis 575 576 Literaturverzeichnis Fleishman, E. A. & Hempel, W. P. (1955). The relation between abilities and improvement with practice in a visual discrimination reaction task. Journal of Experimental Psychology, 49, 301312. Fliegel, S. (1996). Rollenspiele. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 353359). Berlin, Heidelberg, New York: Springer. Fliegel, S., Groeger, W., Künzel, R., Schulte, D. & Sorgatz, H. (1998). Verhaltenstherapeutische Standardmethoden: Ein Übungsbuch (3. Aufl.). Weinheim: Psychologie Verlags Union. Flor, H., Behle, D. J. & Hermann, C. (1992). Psychophysiologische Methoden bei der Diagnose chronischer Schmerzen. In E. Geissner & G. Jungnitsch (Hrsg.), Psychologie des Schmerzes (S. 171-187). Weinheim: Psychologie Verlags Union. Florin, I. (1989). Verhaltensmedizin. Bedeutung eines interdisziplinären Ansatzes für die Erforschung und Therapie körperlicher Krankheiten. In I. Florin, G. Haag, U. Brack & E. M. Fahrner (Hrsg.), Perspektive Verhaltensmedizin (S. 1-9). Berlin: Springer. Föderation Deutscher Psychologenvereinigungen (1988). Richtlinien für die Erstellung Psychologischer Gutachten. Bonn: Deutscher Psychologenverlag. Formann, A. K. (1984). Die Latent-Class-Analyse. Weinheim: Beltz. Formann, A. K. (1993). Some simple latent class models for attitudinal scaling in the presence of polytomous items. Methodika, 7, 62-78. Formann, A. K. & Piswanger, K. (Hrsg.). (1979). Wiener Matrizen-Test WMT. Ein Rasch-skalierter sprachfreier Intelligenztest. Weinheim: Beltz. Frank, L. K. (1948). Projective methods. Springfield, IL: C. C. Thomas. Franke A. (1991). Gruppentraining gegen psychosomatische Störungen (2. Aufl.). Weinheim: Psychologie Verlags Union. Franke, G. H. (2000). Brief Symptom Inventory von Derogatis (BSI). Göttingen: Hogrefe. Franke G. H. (2002). SCL-90-R. Die Symptom-Checkliste von Derogatis – Deutsche Version. Göttingen: Beltz-Test. Frankenburg, W. K. & Dodds, J. B. (1967). The Denver developmental screening test. Journal of Pediatrics, 7, 181-191. Frederiksen, N. & Melville, S. D. (1954). Differential predictability in the use of test scores. Educational and Psychological Measurement, 14, 647-656. Freud, S. (1952). Gesammelte Werke, 18 Bände. Frankfurt: Fischer. Fricke, R. (1972). Testgütekriterien bei lehrzielorientierten Tests. Zeitschrift für erziehungswissenschaftliche Forschung, 6, 150-175. Fricke, R. (1974). Kriterienorientierte Leistungsmessung. Stuttgart: Kohlhammer. Frieling, E. & Hoyos, C. Graf (1978). Fragebogen zur Arbeitsanalyse (FAA). Deutsche Bearbeitung des PAQ. Bern: Huber. Frieling, E. & Sonntag, K. H. (1987). Arbeitspsychologie. Bern: Huber. Fröse, S., Mölders, R. & Wallrodt, W. (1986). Kieler Einschulungsverfahren KEV. Weinheim: Beltz. Fruhner, R., Schuler, H., Funke, U. & Moser, K. (1991). Einige Determinanten der Bewertung von Personalauswahlverfahren. Zeitschrift für Arbeits- und Organisationspsychologie, 35, 170-178. Funder, D. C., Block, J. H. & Block, J. (1983). Delay of gratification: Some longitudinal personality correlates. Journal of Personality and Social Psychology, 44, 1198-1213. Funder, D. C. & Colvin, C. R. (1988). Friends and strangers: Acquaintanceship, agreement, and the accuracy of personality judgment. Journal of Personality and Social Psychology, 55, 149-158. Funder, D. C. & Dobroth, K. M. (1987). Differences between traits: Properties associated with interjudge agreement. Journal of Personality and Social Psychology, 52, 409-418. Funder, D. C. & West, S. G. (1993). Consensus, self-other agreement, and accuracy in personality judgment: an introduction. Journal of Personality, 61, 457-476. Funke, W., Funke, J., Klein, M. & Scheller, R. (1987). Trierer Alkoholismus-Inventar TAI. Göttingen: Hogrefe. Fydrich, T. (1995). Fragebogen zur sozialen Angst; Deutsche Bearbeitung des Social Phobia and Anxiety Inventory (SPAI) von Turner und Beidel. Unveröffentlichtes Manuskript. Heidelberg. Fydrich, T. (1996). Komorbidität psychischer Störungen. Empirische Untersuchungen zu einem umstrittenen Konzept. Habilitationsschrift, Universität Heidelberg. Fydrich, T. (2002a). Beck-Inventar zu kognitiven Schemata (B-IKS). In E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 51-55). Göttingen: Hogrefe. Fydrich, T. (2002b). SPAI – Soziale Phobie und Angst Inventar. In E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 335-338). Göttingen:Hogrefe. Fydrich, T. (2002c). F-SozU – Fragebogen zur sozialen Unterstützung. In E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 150-153). Göttingen: Hogrefe. Fydrich, T. (2003). Soziale Phobie. Psychologisches Störungsmodell und kognitiv-verhaltenstherapeutische Behandlung. Psychotherapie im Dialog, 4 (1), 10-16. Fydrich, T. & Bürgener, F. (2005). Ratingskalen für soziale Kompetenz. In N. Vriends & J. Margraf (Hrsg.), Soziale Kompetenz – Soziale Unsicherheit – Soziale Phobie (3. Aufl., S. 81-96). Baltmannsweiler: Schneider-Verlag Hohengehren. Fydrich, T., Geyer, M., Hessel, A., Sommer, G. & Brähler, E. (1999). Fragebogen zur sozialen Unterstützung (F-SozU): Normierung an einer repräsentativen Stichprobe. Diagnostica, 45, 112-126 Fydrich, T., Laireiter, A. R., Saile, H. & Engberding, M. (1996). Diagnostik und Evaluation in der Psychotherapie. Zeitschrift für Klinische Psychologie, 25, 161-168. Fydrich, T., Renneberg, B., Schmitz, B. & Wittchen, H.-U. (1997). SKID-P. Strukturiertes Klinisches Interview für DSM-IV, Achse II (Persönlichkeitsstörungen). Göttingen: Hogrefe. Fydrich, T., Schmitz, B., Hennch, C. & Bodem, M. (1996). Zuverlässigkeit und Gültigkeit diagnostischer Verfahren zur Erfassung von Persönlichkeitsstörungen. In B. Schmitz, T. Fydrich & K. Limbacher (Hrsg.), Persönlichkeitsstörungen: Diagnostik und Psychotherapie (S. 91-113). Weinheim: Psychologie Verlags Union. Fydrich, T. & Sommer G. (2003). Diagnostik sozialer Unterstützung. In M. Jerusalem & H. Weber (Hrsg.), Psychologische Gesundheitsförderung (S. 79-104). Göttingen: Hogrefe. Fydrich, T., Sommer, G. & Brähler, E. (2004). Fragebogen zur sozialen Unterstützung (F-SozU). Göttingen: Hogrefe. Fydrich, T., Sommer, G., Menzel, U. & Höll, B. (1987). Fragebogen zur sozialen Unterstützung (Kurzform; SOZU-K-22). Zeitschrift für Klinische Psychologie, 16, 434-436. Gagné, R. M. (1973). Die Bedingungen menschlichen Lernens. Hannover: Schroedel. Galton, F. (1869). Natural inheritance. London: Macmillan. Gardner, H. (2002). Intelligenzen: Die Vielfalt des menschlichen Geistes. Stuttgart: Klett Cotta. Gatterer, G. (1990). Alterskonzentrationstest AKT. Göttingen: Hogrefe. Gaul, D. (1990). Rechtsprobleme psychologischer Eignungsdiagnostik. Bonn: Deutscher Psychologen Verlag. Gebert, D. (1993). Interventionen in Organisationen. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 481-494). Bern: Huber. Gebert, D. & v. Rosenstiel, L. (1989). Organisationspsychologie (2. Aufl.). Stuttgart: Kohlhammer. Gerhard, U. (1981). Zur Diagnose und Bedeutung von Zwangsphänomenen. Weinheim: Beltz. Ghiselli, E. E. (1963). Moderating effects and differential reliability and validity. Journal of Applied Psychology, 47, 81-86. Gierschmann, F. (2003). Raven´s Progressive Matrices (PPM). In E. Fay (Hrsg.), Tests unter Lupe 4: Aktuelle psychologische Testverfahren - kritisch betrachtet (S. 105-123). Göttingen: Vandenhoeck & Ruprecht. Giesen, H., Gold, A., Hummer, A. & Jansen, R. (1986). Prognose des Studienerfolgs. Ergebnisse aus Längsschnittuntersuchungen. Frankfurt am Main: Unveröffentlichter Projektbericht. Gittler, G. (1990). Dreidimensionaler Würfeltest (3DW). Ein Rasch-skalierter Test zur Messung des räumlichen Vorstellungsvermögens. Weinheim: Beltz. Gittler, G. & Wild, B. (1988). Der Einsatz des LLTM bei der Konstruktion eines Itempools für das adaptive Testen. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 115-139). Weinheim: Psychologie Verlags Union. Glanzmann, P. (1985). Zusammenhänge zwischen Angstneigung und Zustandsangst in unterschiedlichen Stress-Situationen. Zeitschrift für Differentielle und Diagnostische Psychologie, 6, 161-173. Glas, C. A. W. & Verhelst, N. D. (1989). Extensions of the partial credit model. Psychometrika, 54, 635-659. Goldberg, L. R. (1965). Diagnosticians vs. diagnostic signs: The diagnosis of psychosis vs. neurosis from the MMPI. Psychological Monographs: General and Applied, 79 (9, Whole No. 602). Goldberg, L. R., Rorer, L. G. & Green, M. M. (1970). The usefulness of »stylistic« scales as potential suppressors or moderator variables in prediction from the CPI. Research Bulletin, 10. Eugene, OR: Research Institute. Literaturverzeichnis 577 578 Literaturverzeichnis Goldfried, M. R. & Kent, R. N. (1976). Herkömmliche gegenüber verhaltenstheoretischer Persönlichkeitsdiagnostik: Ein Vergleich methodischer und theoretischer Voraussetzungen. In D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (S. 3-23). München: Urban & Schwarzenberg. Goodenough, F. L. (1949). Mental testing. New York: Rinehart. Goodman, L. A. (1974). Exploratory latent structure analysis using both identifiable and unidentifiable models. Biometrika, 61, 215-231. Gösslbauer, J. P. (1981). Grundprinzipien der Entscheidungstheorie in der Psychologischen Diagnostik. In E. G. Wehner (Hrsg.), Psychodiagnostik in Theorie und Praxis (S. 214-258). Bern: Lang. Gough, H. G. (1969). Manual for the California Psychological Inventory. Palo Alto: Consulting Psychologists Press. Gough, H. G. & Heilbrun, A. B. (1980). Adjective Check List manual. Palo Alto, CA: Consulting Psychologists Press. Graczyk, W. (1990). Der Wilde-Intelligenz-Test (WIT). Diagnostica, 30, 310-320. Gräser, H. (1979). Überprüfung der faktoriellen Struktur einer deutschsprachigen Version des »Eight State Questionnaire« mittels Ketten-P-Technik. Diagnostica, 25, 49-58. Graumann, C. F. (1960). Eigenschaften als Problem der Persönlichkeitsforschung. In Ph. Lersch & H. Thomae (Hrsg.), Persönlichkeitsforschung und Persönlichkeitstheorie. Handbuch der Psychologie (Bd. IV, S. 87-154). Göttingen: Hogrefe. Grawe, K. (1982). Der Veränderungsprozeßbogen (VPB). In M. Zielke (Hrsg.), Diagnostik in der Psychotherapie (S. 231-252). Stuttgart: Kohlhammer. Grawe, K. (1991). Über den Umgang mit Zahlen. In K. Grawe, R. Hänni, N. Semmer & F. Tschan (Hrsg.), Über die richtige Art, Psychologie zu betreiben (S. 89-105). Hogrefe: Göttingen. Grawe, K. (1992). Psychotherapieforschung zu Beginn der neunziger Jahre. Psychologische Rundschau, 43, 132-162. Grawe, K., Caspar, F. & Ambühl, H. (1990). Differentielle Therapieforschung: Vier Therapieformen im Vergleich. Zeitschrift für Klinische Psychologie, 19, 292-376. Grawe, K., Donati, R. & Bernauer, F. (1994). Psychotherapie im Wandel. Von der Kofession zur Profession (2. Aufl.). Göttingen: Hogrefe. Gregory, R. J. (1992). Psychological testing: History, principles, and applications. Boston: Allyn and Bacon. Greif, S. (1970). Untersuchungen zur deutschen Übersetzung des 16 PF-Fragebogens. Psychologische Beiträge, 12, 186-213. Gretenkord, L. (2002). Prognose im Maßregelvollzug (§ 63 StGB) – wie lassen sich die Ergebnisse von Rückfallstudien nutzen? In T. Fabian, G. Jacobs, S. Nowara & I. Rode (Hrsg.), Qualitätssicherung in der Rechtspsychologie (S. 347-360). Münster: LIT-Verlag. Griffith, R. M. (1951). The test-retest similarities of the Rorschachs of patients without retention, Korsakoff. Journal of Projective Techniques, 15, 516-525. Griffith, R. (1954). The abilities of babies: A study in mental measurement. New York: McGraw-Hill. Grimm, H. & Schöler, H. (1985). Sprachentwicklungsdiagnostik. Göttingen: Hogrefe. Grimm, H. & Schöler, H. (1991). Heidelberger Sprachentwicklungstest HSET (2. Aufl., 1. Aufl. 1978). Braunschweig: Westermann. Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E. & Nelson, C. (2000). Clinical versus mechanical prediction: A meta-analysis. Psychological Assessment, 12, 19-30. Gruhle, H. W. (1948). Verstehende Psychologie. Stuttgart: Thieme. Guilford, J. P. (1964). Persönlichkeit. Weinheim: Beltz. Guilford, J. P. (1974). Persönlichkeitspsychologie. Stuttgart: Kohlhammer. Guilford, J. P. (1976). Apitude for creative thinking: One or many? Journal of Creative Behavior, 10, 165-169. Gulliksen, H. (1950). Theory of mental tests. New York: Wiley. Guttmann, G. & Ettlinger, S. C. (1991). Susceptibility to stress and anxiety in relation to performance, emotion, and personality: The ergopsychometric approach. In C. D. Spielberger, I. G. Sarason, J. Strelau & J. M. T. Brebner (Eds.), Stress and anxiety, Vol. 13 (pp. 23-52). New York: Hemisphere Publishing Corporation. Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer (Ed.), The American soldier. Studies in social psychology in World War II. Princeton: Princeton University Press. Häcker, H. (1982). Objektive Tests zur Messung der Persönlichkeit. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie Diagnostik, Bd. 3: Persönlichkeitspsychologie (S. 132-185). Göttingen: Hogrefe. Häcker, H., Leutner, D. & Amelang, M. (Hrsg.). (1998). Standards für pädagogisches und psychologisches Testen. Diagnostica und Zeitschrift für Differentielle und Diagnostische Psychologie, Supplementum. Häcker, H., Schmidt, L. R., Schwenkmezger, P. & Utz, H. E. (1975). OATB 75 Objektive Testbatterie Manual. Weinheim: Beltz. Häcker, H., Schwenkmezger, P. & Utz, H. E. (1979). Über die Verfälschbarkeit von Persönlichkeitsfragebogen und Objektiven Persönlichkeitstests unter SD-Instruktion und in einer Auslesesituation. Diagnostica, 25, 7-23. Haertel, G. D., Walberg, H. J. & Weinstein, T. (1983). Psychological models of educational performance: A theoretical synthesis of constructs. Review of Educational Research, 53, 75-91. Hageböck, J. (1994). Computerunterstützte Diagnostik in der Psychologie – Die Entwicklung eines computergestützten Diagnosesystems für die Einzelfallhilfe in der Schulpsychologie. Göttingen: Hogrefe. Hahlweg, K. (1986). Partnerschaftliche Interaktion. München: Röttger. Hahlweg, K. (1996). Fragebogen zur Partnerschaftsdiagnostik (FDP). Handanweisung. Göttingen: Hogrefe. Hahlweg, K., Dürr, H. & Müller, U. (1995). Familienbetreuung schizophrener Patienten. Weinheim: Psychologie Verlags Union. Hahlweg, K., Schindler, L. & Revenstorf, D. (1982). Partnerschaftsprobleme: Diagnose und Therapie. Berlin, Heidelberg, New York: Springer. Hahn, M. G. (1992). Modelle für den Urteilsprozeß: Kritische Betrachtung formaler Urteilsmodelle am Beispiel klinischer Aufgaben. Frankfurt: Lang. Hake, A. (2000). Aggregatbezogene statistische Kennwerte bei der Einzelfallanalyse. Heidelberg: Dissertation in der Fakultät für Sozial- und Verhaltenswissenschaften. Hambleton, R. K. & Swaminathan, H. (1985). Item response theory. Principles and applications. Boston: Kluwer-Nijhoff Publishing. Hamilton, M. (1986). The Hamilton rating scale for depression. In N. Sartorius & T.A. Ban (Eds.), Assessment of depression (pp. 278-296). Berlin: Springer. Hampel, R. & Klinkhammer, F. (1978). Verfälschungstendenzen beim Freiburger PersönlichkeitsInventar in einer Bewerbungssituation. Psychologie und Praxis, 22, 58-69. Hamster, W, Langner, W. & Mayer, K. (1980). Neuropsychologische Testbatterie TÜLUC. Weinheim: Beltz. Hanses, P. & Rost, D. H. (1998). Das »Drama« der hochbegabten Underarchiever – »Gewöhliche« oder »außergewöhnliche« Underarchiever? Zeitschrift für Pädagogische Psychologie, 21, 53-71. Hany, E. A. (1987). Psychometrische Probleme bei der Identifikation Hochbegabter. Zeitschrift für Differentielle und Diagnostische Psychologie, 8, 173-191. Hardesty, F. P. & Priester, H. J. (1956). Hamburg-Wechsler-Intelligenztest für Kinder HAWIK. Bern: Huber. Hartje, W. (2004). Neuropsychologische Begutachtung. Göttingen: Hogrefe. Hartje, W. & Rixecker, H. (1978). Der Recurring-Figures-Test von Kimura. Normierung an einer deutschen Stichprobe. Nervenarzt, 49, 354-356. Harris, C. W. (Ed.). (1963). Problems in measuring change. Madison: University of Wisconsin Press. Härting, C., Markowitsch, H. J., Neufeld, H., Calabrese, P. & Deisinger, K. (2000). Wechsler Gedächtnis Test – Revidierte Fassung (WSM-R). Deutsche Adaptation der revidierten Fassung der Wechsler-Memory-Scale. Göttingen: Hogrefe. Hasemann, K. (1983). Verhaltensbeobachtung und Ratingverfahren. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie Diagnostik, Bd. 4: Verhaltensdiagnostik (S. 434488). Göttingen: Hogrefe. Hasenbring, M. (1994). Kieler Schmerz-Inventar. Bern: Huber. Hathaway, S. R. & McKinley, J. C. (1951). The Minnesota Multiphasic Personality Inventory Manual revised. New York: The Psychological Corporation. Hathaway, S. R., McKinley, J. C. & Engel, R. R. (2000). MMP-2. Manual. Bern: Huber. Häusler, J. & Sommer, M. (2006). Neuronale Netze: Nichtlineare Methoden der statistischen Urteilsbildung in der psychologischen Eignungsdiagnostik. Zeitschrift für Personalpsychologie, 5, 4-15. Literaturverzeichnis 579 580 Literaturverzeichnis Hautzinger, M. (1994). Diagnostik in der Psychotherapie. In R.-D. Stieglitz & U. Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 284-295). Stuttgart: Enke. Hautzinger, M. (2002). Hamilton Depressions-Skala. In: E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 183-186). Göttingen: Hogrefe. Hautzinger, M. & Bailer, M. (1993). Allgemeine Depressions-Skala ADS. Weinheim: Beltz. Hautzinger, M., Bailer, M. & Keller, F. (1995). Beck-Depressions-Inventar BDI (2. Aufl.). Bern: Huber. Hautzinger, M., Stark, W. & Treiber, R. (1997). Kognitive Verhaltenstherapie bei Depressionen (4. Aufl.). Weinheim: Psychologie Verlags Union. Haynes, S. N. & Horn, W. F. (1982). Reactive effects of behavioral observation. Behavioral Assessment, 4, 443-469. Heckhausen, H. (1963). Hoffnung und Furcht in der Leistungsmotivation. Meisenheim: Hain. Heckhausen, H. & Rheinberg, F. (1980). Lernmotivation im Unterricht, erneut betrachtet. Unterrichtswissenschaft, 8, 7-47. Hehl, F. J. & Hehl, R. (1975). Persönlichkeitsskalen System 25, PSS 25. Weinheim: Beltz. Hehl, F. J. & Wirsching, M. (1983). Psychosomatischer Einstellungs-Fragebogen (PEF). Göttingen: Hogrefe. Heil, F. E. (1984). Zur Erfassung von Coorientierungsstrukturen in Partnerschaften. Grundlegung, Entwicklung und Evaluation des Trierer Partnerschaftsinventars. Trier: Dissertation im Fachbereich Psychologie. Heil, F. E. (1993). Partnerschaftszufriedenheit: Eine theoretisch fundierte Alternative zu traditionellen Diagnoseverfahren. In L. Montada (Hrsg.), Bericht über den 38. Kongreß der Deutschen Gesellschaft für Psychologie in Trier 1992 (Bd. 2, S. 580-588). Göttingen: Hogrefe. Heil, F. E. (1998). Das Trierer Partnerschaftsinventar (TPI). Manual Entwurf. Trier: Fachbereich Psychologie. Heilmann, K. (1999). Das Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung (BIP). In E. Fay (Hrsg.), Tests unter der Lupe II (S. 19-38). Lengerich: Pabst. Heimberg, R. G, Juster, H. R., Hope, D. A. & Mattia, J. I. (1995). Cognitive behavioral group treatment for social phobia: Description, case presentation, and empirical support. In M. B. Stein (Ed.), Social phobia: Clinical and research perspectives (pp. 293-321). Washington: American Psychiatric Press. Heinemann, M. & Höpfner, C. (1993). Screeningverfahren zur Erfassung von Sprachentwicklungsverzögerungen SEV. Weinheim: Beltz. Heller, K. A. (Hrsg.), (1992). Hochbegabung im Kindes- und Jugendalter. Göttingen: Hogrefe. Heller, K. A. (1997). Grundintelligenztest Skala 2 (CFT 20). Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 53-55. Heller, K. A, Gaedike, A. K. & Weinläder, H. (1985). Kognitiver Fähigkeits-Test für 4. bis 13. Klassen KFT 4-13 (2. Aufl., 1. Aufl. 1976). Weinheim: Beltz. Heller, K. A, Rosemann, B. & Steffens, K. H. (1978). Prognose des Schulerfolgs. Weinheim: Beltz. Helmke, A. (1983). Prüfungsangst. Psychologische Rundschau, 34, 7-47. Helmke, A., Schneider, W. & Weinert, F. E. (1986). Quality of contribution to the IEA classroom environment study. Teaching and Teacher Education, 2, 1-31. Hermans, H., Petermann, F. & Zielinski, W. (1978). Leistungs-Motivations-Test LMT. Amsterdam: Swets & Zeitlinger. Hermans, H. (1976). Leistungsmotivationstest für Jugendliche LMT-J (deutsche Fassung von Udo Undeutsch). Amsterdam: Swets. Hermans, H. J. M. (1976). Prestatie Motivatie Test (1. Aufl. 1968). Amsterdam: Swets & Zeitlinger. Herrle, J. & Kühner, C. (1994). Depression bewältigen. Ein kognitiv-verhaltenstherapeutisches Programm nach P. M. Lewinsohn. Weinheim: Beltz, Psychologie Verlags Union. Herrmann, Th. (1976). Lehrbuch der empirischen Persönlichkeitsforschung. Göttingen: Hogrefe. Hersch, J. (1974). Die Unfähigkeit, Freiheit zu ertragen – Reden und Aufsätze. Zürich, Köln: Bezinger. Herzberg, F., Mausner, B. & Snyderman, B. B. (1959). The motivation to work (2nd ed.). New York: Wiley. Hetzer, H. & Tent, L. (1971). Weilburger Test für Schulanfänger. Weinheim: Beltz. Heubrock, D. (1995). Neuropsychologische Diagnostik bei Simulationsverdacht: Ein Überblick über Forschungsergebnisse und Untersuchungsmethoden. Diagnostica, 41, 303-321. Heyde, G. (1995). Inventar komplexer Aufmerksamkeit (INKA). Frankfurt: Swets Test Services. Heyde, G. (2004). INKA - Inventar Komplexer Aufmerksamkeit. In G. Büttner & L. Schmidt-Atzert (Hrsg.), Diagnostik von Konzentration und Aufmerksamkeit (S. 133-142). Göttingen: Hogrefe. Hiller, W., Zaudig, M. & Mombour, W. (1995). ICD-10 Checklisten. Bern: Huber. Hinrichs, J. R. & Haanperä, S. (1976). Reliability of measurement in situational exercises: An assessment of the assessment center method. Personnel Psychology, 29, 31-40. Hobi, V. (1985). Basler Befindlichkeits-Skala. Weinheim: Beltz. Hödl, E. (1995). Hochschulberichtssystem und Profilbildung. Forschung und Lehre, 6, 322-324. Hofer, M. (1969). Die Schülerpersönlichkeit im Urteil des Lehrers. Weinheim: Beltz. Hofer, M. (Hrsg.). (1981). Informationsverarbeitung und Entscheidungsverhalten von Lehrern. Beiträge zu einer Handlungstheorie des Unterrichtens. München: Urban & Schwarzenberg. Hofmann, H. & Stiksrud, A. (1994). Zufriedenheit mit einem Psychologie-Lehrbetrieb. Aspekte der Evaluation von Evaluatoren. Empirische Pädagogik, 8, 169-198. Hofmann, K. & Kubinger, K. D. (2001). Herkömmliche Persönlichkeitsfragebogen und Objektive Persönlichkeitstests im »Wettstreit« um (Un-)Verfälschbarkeit. Report Psychologie, 26, 298-304. Hofstee, W. K. B. (1994). Who should own the definition of personality? European Journal of Personality, 8, 149-162. Hohenberger, E. & Schindler, L. (1984). Ein verhaltenstherapeutisches Programm zur Behandlung von Schlafstörungen. In J. C. Brengelmann & G. Bühringer (Hrsg.), Therapieforschung in der Praxis (S. 55-71). München: Röttger. Hojat, M., Robeson, M., Damjanov, L., Veloski, J. J., Glaser, K. & Gonnella, J. S. (1993). Students psychosocial characteristics as predictors of academic performance in medical school. Academic Medicine, 68, 635-637. Holden, R. R., Wood, L. L. & Tomashewski, L. (2001). Do response time limitations counteract the effect of faking on personality inventory validity? Journal of Personality and Social Psychology, 81, 160-169. Holling, H. (1981). Das Suppressor Konzept. Eine systematische Analyse und Neudefinition. Zeitschrift für Differentielle und Diagnostische Psychologie, 2, 123-150. Holling, H. & Kanning, U. P. (1999). Hochbegabung: Forschungsergebnisse und Fördermöglichkeiten. Göttingen: Hogrefe. Hollmann, H. (1988). Das Freiburger Persönlichkeitsinventar. Diagnostica, 34, 277-285. Hollmann, H. (1993). Validität der Eignungsdiagnostik. Göttingen: Hogrefe. Holmes, D. S. (1968). Dimensions of projection. Psychological Bulletin, 69, 248-268. Holmes, D. S. & Tyler, J. D. (1968). Direct versus projective measurement of achievement motivation. Journal of Consulting and Clinical Psychology, 32, 712-717. Holtzman, W. H, Thorpe, I. S, Swartz, J. D. & Herron, E. W. (1961). Inkblot perception and personality. Austin: University of Texas Press. Holzkamp, K. (1966). Begutachtung als Kommunikation. In A. O. Jäger & F. Merz (Hrsg.), Prognose und Bewährung in der psychologischen Diagnostik (S. 19-40). Göttingen: Hogrefe. Hörmann, H. (1964). Aussagemöglichkeiten psychologischer Diagnostik. Göttingen: Hogrefe. Hörmann, H. (1978). Theoretische Grundlagen der projektiven Tests. In R. Heiss, K.-J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik (S. 71-112). Göttingen: Hogrefe. Hörmann, H. (1982). Theoretische Grundlagen der projektiven Verfahren. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 3: Persönlichkeitsdiagnostik (S. 173-247). Göttingen: Hogrefe. Horn, A. & Bonz, G. (1969). Persönlichkeitsuntersuchungen mit dem Rorschach-Test bei bewegungsbehinderten Kindern. Schweizerische Zeitschrift für Psychologie, 28, 39-48. Horn, J. L. & Cattell R. B. (1966). Refinement and test of theory of fluid and crystallized intelligence. Journal of Educational Psychology, 57, 253-270. Horn, R. (2003). Eine kritische Anmerkung zum K-ABC. Report Psychologie, 28, 189. Horn, W. (1969). Prüfsystem für Schul- und Bildungsberatung PSB. Göttingen: Hogrefe. Horn, W. (1972). Begabungstestsystem BTS (2. Aufl.). Göttingen: Hogrefe. Horn, W. (1983). Leistungs-Prüf-System LPS (2. Aufl., 1. Aufl. 1962). Göttingen: Hogrefe. Horn, W., Lukesch, H., Kormann, A. & Mayrhofer, S. (2002). PSB-R 4-6: Prüfsystem für Schul- und Bildungsberatung für 4. bis 6. Klassen – revidierte Fassung. Göttingen: Hogrefe. Horn, W., Lukesch, H., Mayrhofer, S. & Kormann, A. (2003). PSB-R 6-13: Prüfsystem für Schul- und Bildungsberatung für 6. bis 13. Klassen – revidierte Fassung. Göttingen: Hogrefe. Literaturverzeichnis 581 582 Literaturverzeichnis Hornke, L. F. & Kersting, M. (2004). Checkliste zur DIN 33430. In L. F. Hornke & U. Winterfeld (Hrsg.), Eignungsbeurteilungen auf dem Prüfstand: DIN 33430 zur Qualitätssicherung (S. 273-324). Heidelberg: Spektrum Akademischer Verlag. Hornke, L. F. & Etzel, S. (1993/1995). Theoriegeleitete Konstruktion und Evaluation von computergestützten Tests zum Merkmalsbereich »Gedächtnis und Orientierung«. Untersuchungen des Psychologischen Dienstes der Bundeswehr 1993/1995 (Bd. 2), 183-296. Hornke, L. F., Rettig, K. & Hutwelker, R. (1988). Theoriegeleitete Konstruktion eines Tests zur Messung des räumlichen Vorstellungsvermögens. Untersuchungen des Psychologischen Dienstes der Bundeswehr, 23, 145-222. Hornke, L. F. & Storm, G. (1993/1995). Theoriegeleitete Konstruktion von Items zur Messung visueller Analyseleistungen III. Untersuchungen des Psychologischen Dienstes der Bundeswehr 1993/1995 (Bd. 2), 37-182. Horowitz, L. M., Strauß, B. & Kordy, H. (2000). Inventar zur Erfassung interpersonaler Probleme (IIP-D) (2. Aufl.). Weinheim: Beltz. Horst, P. (1966). Psychological measurement and prediction. Belmont, CA: Wadsworth. Hossiep, R. (1994). Das Assessment-Center. Diagnostica, 40, 89-104. Hossiep, R. & Paschen, M. (1998). Das Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung BIP. Göttingen: Hogrefe. Hossiep, R., Turck, D. & Hasella, M. (1999). BOMAT – advanced. Bochumer Matrizentest. Göttingen: Hogrefe. Hossiep, R., Turck, D. & Hasella, M. (2001). BOMAT – advanced – short version. Bochumer Matrizentest. Göttingen: Hogrefe. Hossiep, R. & Wottawa, H. (1993). Diagnostik. In A. Schorr (Hrsg.), Handwörterbuch der Angewandten Psychologie (S. 131-136). Bonn: Deutscher Psychologen Verlag. Howells, J. G. & Lickorish, J. R. (2003). Familien-Beziehungs-Test (FBT) (6. Aufl.).München: Ernst Reinhardt Verlag. Huber, W., Poeck, K., Weniger, D. & Willmes, K. (1983). Aachener Aphasietest AAT. Göttingen: Hogrefe. Huffcutt, A. I., Conway, J. M., Roth, P. L. & Klehe, U. C. (2004). The impact of job complexity and study design on situational and behavior description interview validity. International Journal of Selection and Assessment, 12, 262-273. Hundleby, J., Pawlik, K. & Cattell, R. B. (1965). Personality factors in objective test devices. San Diego: Knapp. Hunter, J. E. & Schmidt, F. L. (1976). Critical analysis of the statistical and ethical implications of various definitions of test bias. Psychological Bulletin, 83, 1053-1071. Husslein, E. (1978). Der Schulangst-Test. Göttingen: Hogrefe. Hylla, E. & Kraak, B. (1976). Aufgaben zum Nachdenken AZN (3. Aufl., 1. Aufl. 1965). Weinheim: Beltz. Ihl, R. & Weyer, G. (1993). Alzheimer’s Disease Assessment Scale ADAS. Weinheim: Beltz. Ingenkamp, K. (1988). Pädagogische Diagnostik. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 423-436). München: Psychologie Verlags Union. Ingenkamp, K., Jäger, R. S. & Horn, R. (Hrsg.). (1981). Tests und Trends. Jahrbuch der Pädagogischen Diagnostik. Weinheim: Beltz. Ingenkamp, K., Wolf, B., Christmann, H., Lißmann, U., Knapp, A. & Haenisch, H. (1977). Bildungs-Beratungs-Test für 4. bis 6. Klassen BBT 4-6. Weinheim: Beltz. Institut für Test- und Begabungsforschung. (1990). Test für Medizinische Studiengänge TMS (3. Aufl., 1. Aufl. 1987). Göttingen: Hogrefe. Irle, M. & Allehoff, W. (1984). Berufs-Interessen-Test II (BIT II). Göttingen: Hogrefe. Iseler, A. (1967). Zur varianzanalytischen Schätzung der Auswertungsobjektivität von psychologischen Tests. Diagnostica, 13, 135-148. Ittner, E. & Halsig, N. (1993). Prognostische Relevanz des Auswahlgesprächs als qualitativ neue Methode beim Zugang zum Studium der Medizin. In F. Baumgärtel (Hrsg.), Klinische Psychologie im Spiegel ihrer Praxis (S. 113-119). Bonn: Deutscher Psychologenverlag. Jaccard, J. J. (1974). Predicting social behavior from personality traits. Journal of Research in Personality, 1, 358-367. Jäckel, U. (1980). Partnerwahl und Ehe-Erfolg. Stuttgart: Enke. Jackson, D. N. (1967). Manual for the Personality Research Form (2nd ed. 1974). Goshen: Research Psychologists Press. Jacobi, C., Thiel, A. & Paul, T. (1995). Kognitive Verhaltenstherapie bei Anorexia und Bulimia nervosa. Weinheim: Psychologie Verlags Union. Jacobson, N. S, Folette, W. C. & Revenstorf, D. (1984). Psychotherapy outcome research: Methods for reporting variability and evaluating clinical significance. Behavior Therapy, 15, 336-352. Jacobson, N. S. & Revenstorf, D. (1988). Statistics for assessing the clinical significance of psychotherapy techniques: Issues, problems, and new developments. Behavioral Assessment, 10, 133-145. Jacobson, N. S. & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful change in psychotherapy research. Journal of Consulting and Clinical Psychology, 59, 12-19. Jäger, A. O. (1963). Der Wilde Test, ein neues Intelligenzdiagnostikum. Zeitschrift für Experimentelle und Angewandte Psychologie, 10, 260-278. Jäger, A. O. (1984). Intelligenzstrukturforschung: Konkurrierende Modelle, neue Entwicklungen, Perspektiven. Psychologische Rundschau, 35, 21-35. Jäger, A. O. & Althoff, K. (1994). Wilde-Intelligenztest WIT (1. Aufl.age 1983). Göttingen: Hogrefe. Jäger, A. O, Süß, H.-M. & Beauducel, A. (1997). Berliner Intelligenzstruktur-Test (Form 4; BIS-4). Göttingen: Hogrefe. Jäger, A. O. & Todt, E. (1964). Zur Faktorenstruktur des WIT bei 17jährigen; Faktorenanalyse der WIT-Langformen. Diagnostica, 10, 3-14. Jäger, R. S. (1970). Personalauslese. In A. Mayer & B. Herwig (Hrsg.), Handbuch der Psychologie, Bd. IX: Betriebspsychologie (S. 613-667). Göttingen: Hogrefe. Jäger, R. S. (1982). Diagnostische Urteilsbildung. In K. J. Groffmann & L. Michel (Hrsg.). Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 1: Grundlagen psychologischer Diagnostik (S. 295-375). Göttingen: Hogrefe. Jäger, R. S. (1986). Der diagnostische Prozeß (2. Aufl., 1. Aufl. 1983). Göttingen: Hogrefe. Jäger, R. S. (1986). Measuring examiner and examinee reactions to each other and to the psychodiagnostic situation. In B. Nevo & R. S. Jäger (Eds.), Psychological testing: The examinee perspective (pp. 129-149). Göttingen: Hogrefe. Jäger, R. S. (1988). Der diagnostische Prozeß. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 382-386). München: Psychologie Verlags Union. Jäger, R. S., Mattenklott, A. & Schröder, R. D. (Hrsg.). (1984). Diagnostische Urteilsbildung in der Psychologie. Göttingen: Hogrefe. Jäger, R. S. & Petermann, F. (1992). Psychologische Diagnostik (2. veränderte Aufl.). Weinheim: Psychologie Verlags Union. Janke, W. (1971). Klassifikation. In R. Heiss, K. J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik (3. Aufl., S. 901-929). Göttingen: Hogrefe. Janke, W. (1973). Das Dilemma von Persönlichkeitsfragebogen. Einleitung des Symposiums über Konstruktion von Fragebogen. In G. Reinert (Hrsg.), Bericht über den 27. Kongreß der Deutschen Gesellschaft für Psychologie in Kiel 1970. Göttingen: Hogrefe. Janke, W. (1982). Klassenzuordnung. In K. J. Groffmann & L. Michel (Hrsg.), Grundlagen psychologischer Diagnostik (S. 376-466). Göttingen: Hogrefe. Janke, W. & Debus, G. (1978). Die Eigenschaftswörterliste EWL. Göttingen: Hogrefe. Janke, W. & Erdmann, G. (Hrsg.). (1996). Streßverarbeitungsfragebogen (SVF 120). Kurzbeschreibung und grundlegende Kennwerte. Göttingen: Hogrefe. Janke, W. & Erdmann, G. (2002). SVF 78: Eine Kurzform des Stressverabeitungsfragebogens SVF 120. Göttingen: Hogrefe. Janke, W., Erdmann, G. & Kallus, W. (1985). Streßverarbeitungs-Fragebogen SVF. Göttingen: Hogrefe. Janke, W., Erdmann, G. & Kallus, K. W. (2002). SVF mit SVF 120 und SVF 78. Stressverarbeitungsfragebogen (3., erweiterte Auflage). Göttingen: Hogrefe. Janke, W. & Hüppe, M. (1991). Emotionalität. In W. D. Oswald, W. M. Herrmann, S. Kanowski, U. M. Lehr & H. Thomae (Hrsg.), Gerontologie (2. Aufl., S. 88-124). Stuttgart: Kohlhammer. Jensen, A. R. (1980). Bias in mental testing. London: Methuen. Jeserich, W. (1981). Mitarbeiter auswählen und fördern: Assessment Center-Verfahren. München: Hanser. Joerin, S., Stoll, F., Bergmann, C. & Eder, F. (2000). EXPLORIX - das Werkzeug zur Berufswahl und Laufbahnplanung. Deutschsprachige Adaptation des Self-directed Search (SDS) nach John Holland. Bern: Huber. Literaturverzeichnis 583 584 Literaturverzeichnis Johansen, I. (1972). Gruppenbildung und Soziometrie. In E. Meyer (Hrsg.), Gruppenpädagogik zwischen Moskau und New York (S. 140-149). Heidelberg: Quelle & Meyer. Johnson, D. W., Maruyama, G., Johnson, R., Nelson, D. & Skon, L. (1981). Effects of cooperative, competitive, and individualistic goal structures on achievement: A metaanalysis. Psychological Bulletin, 89, 47-62. Jungnitsch, G. (1992). Schmerz- und Krankheitsbewältigung bei rheumatischen Erkrankungen. München: Quintessenz. Kaiser, A. & Hahlweg, K. (1996). Kommunikations- und Problemlösetraining. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 371-385). Berlin, Heidelberg, New York: Springer. Kallus, K. W. & Janke, W. (1992). Klassenzuordnung. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (S. 170-186). Weinheim: Psychologie Verlags Union. Kaminski, G. (1970). Verhaltenstheorie und Verhaltensmodifikation. Stuttgart: Klett. Kämmerer, A. (1983). Die therapeutische Strategie »Problemlösen«. Theoretische und empirische Perspektiven ihrer Anwendung in der Kognitiven Psychotherapie. Münster: Aschoff. Kanfer, F. H., Reinecker, H. & Schmelzer, D. (2006). Selbstmanagement-Therapie (4. Aufl.). Berlin: Springer. Kanfer, F. H. & Saslow, G. (1976). Verhaltenstheoretische Diagnostik. In D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (2. Aufl., 1. Aufl. 1974; S. 24-59). München: Urban & Schwarzenberg. Kanfer, R., Dugdale, B. & Mc Donald, B. (1994). Empirical findings on the action control scale in the context of complex skill aggression. In J. Kuhl & J. Beckmann (Eds.), Volition and personality. Action vs. state orientation (pp. 61-77). Seattle: Hogrefe und Huber. Kanning, U. P. (2003). Sieben Anmerkungen zum Problem der Selbstdarstellung in der Personalauswahl. Zeitschrift für Personalpsychologie, 2, 193-195. Karnath, H.-O. (2000). Vernachlässigung – Neglect. In W. Sturm, M. Herrmann & C. W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 366-374). Lisse, NL: Swets & Zeitlinger. Kastner, M. (1978). Zur Problematik von Tests zum Übergang an weiterführende Schulen. Psychologie in Erziehung und Unterricht, 25, 9-15. Kaufman, A. S., Kaufman, N. L., Melchers, P. & Preuß, U. (2001). Kaufman Assessment Battery for Children, Deutsche Version (6., teilweise ergänzte Auflage). Göttingen: Hogrefe. Kautter, H. (1975). Zur Klassifikation und schulischen Plazierung von Lernbehinderten. Zeitschrift für Heilpädagogik, 26, 222-238. Kautter, H. (1979). Der Übergang zu Sonderschulen. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (Bd. 4, S. 977-988). Düsseldorf: Schwann. Kavale, K. A. (1990). Variances and varieties in learning disability interventions. In T. E. Scruggs & B. Y. L. Wong (Eds.), Intervention research in learning disabilities (pp. 3-33). Berlin, Heidelberg, New York: Springer. Keats, J. A. (1957). Estimation of error variances of test scores. Psychometrika, 22, 29-41. Kelly, G. A. (1955). The psychology of personal constructs. New York: Norton. Kemmler, L. (1967). Erfolg und Versagen auf der Grundschule. Göttingen: Hogrefe. Kent, R. N., O’Leary, K. D., Dietz, A. & Diamant, C. (1979). Comparision of observational recordings in vivo via mirror and via television. Journal of Applied Behavior Analysis, 12, 517522. Kenrick, D. T. & Stringfield, D. O. (1980). Personality traits and the eye of the beholder: Crossing some traditional boundaries in the search for consistency in all of the people. Psychological Review, 87, 88-104. Kern, A. (1951). Sitzenbleiberelend und Schulreife. Freiburg: Herder. Kersting, M. (1995). Der Einsatz »westdeutscher« Tests zur Personalauswahl in den Neuen Bundesländern und die Fairneßfrage. Report Psychologie, 20, 32-41. Kersting, M. (1999a). Diagnostik und Personalauswahl mit computergestützten Problemlöseszenarien? Zur Kriteriumsvalidität von Problemlöseszenarien und Intelligenztests. Göttingen: Hogrefe. Kersting, M. (1999b). Intelligenz-Struktur-Test 2000 (IST 2000). In E. Fay (Hrsg), Tests unter der Lupe II (S. 88-115). Lengerich: Pabst. Keßler, B. H. (1976). Elternanamnese zur Erziehungsberatung. In L. R. Schmidt & B. H. Keßler (Hrsg.), Anamnese (S. 294-305). Weinheim: Beltz. Keßler, B. H. (1982). Biographische Diagnostik. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 3: Persönlichkeitsdiagnostik (S. 1-56). Göttingen: Hogrefe. Keßler, B. H. (1988). Daten aus dem Interview. In R. S. Jäger (Hrsg.), Psychologische Diagnostik – ein Lehrbuch (363-372). München: Psychologie Verlags Union. Kessler, J., Denzler, P. & Markowitsch, H. J. (1988). Demenztest. Weinheim: Beltz. Kessler, J. & Kalbe, E. (2000). Gerontoneuropsychologie – Grundlagen und Pathologie. In W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 648-673). Lisse, NL: Swets & Zeitlinger. Kessler, J., Markowitsch, H. J. & Denzler, P. (1990). Mini Mental Status Test MMST. Weinheim: Beltz. Kessler, J., Schaaf, A. & Mielke, R. (1993). Fragmentierter Bildertest. Göttingen: Hogrefe. Kici, G. & Westhoff, K. (2000). Anforderungen an psychologisch-diagnostische Interviews in der Praxis Report Psychologie, 25, 428-436. Kiesler, D. J., Anchin, J. C., Perkins, M. J., Chirico, B. M., Kyle, E. M. & Federman, E. J. (1976). The Impact Message Inventory IMI. Richmond: Virginia Commonwealth University. Kind, H. (1973). Leitfaden für die psychiatrische Untersuchung. Berlin, Heidelberg, New York: Springer. Kiresuk, T., Smith, A. & Cardillo, J. E. (Eds.). (1994). Goal attainment scaling: Applications, theory, and measurement. Hillsdale: Lawrence Erlbaum Associates. Kisser, R. (1992). Adaptive Strategien. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 161-170). Weinheim: Psychologie Verlags Union. Klages, H. (1980). Organisationsanalyse in der öffentlichen Verwaltung. In E. Grochla (Hrsg.), Handwörterbuch der Organisation (S. 1460-1468). Stuttgart: Poeschel. Klages, U. (1989). Zur Entwicklung eines Fragebogens irrationaler Einstellungen: Ergebnisse einer Repräsentativbefragung. Zeitschrift für Psychologie, Psychopathologie und Psychotherapie, 37, 5-13. Klages, U. (1989). Fragebogen irrationaler Einstellungen FIE. Göttingen: Hogrefe. Klauer, K. C. (1991). An exact and optimal standardized person fit test for assessing consistency with the Rasch model. Psychometrika, 56, 213-228. Klauer, K. C. (1995). The assessment of person fit. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 97-110). New York: Springer. Klauer, K. J. (1972). Zur Theorie und Praxis des binomialen Modells lehrzielorientierter Tests. In K. J. Klauer, R. Fricke, M. Herbig, H. Rupprecht & F. Schott (Hrsg.), Lehrzielorientierte Tests (S. 161-201). Düsseldorf: Schwann. Klauer, K. J. (1987). Kriteriumsorientierte Tests. Göttingen: Hogrefe. Klauer, K. J., Fricke, R., Herbig, M., Rupprecht, H. & Schott, F. (Hrsg.), (1972). Lehrzielorientierte Tests. Düsseldorf: Schwann. Kleber, E. W. (1979). Tests in der Schule. München: Reinhardt. Kleber, E. W. & Fischer, R. (1982). Anweisungs- und Sprachverstehenstest. Weinheim: Beltz. Klein, F. J. (1982). Die Rechtmäßigkeit psychologischer Tests im Personalbereich. Gelsenkirchen: Manhald. Klepsch, R., Zaworka, W., Hand, I., Lünenschloß, K. & Jauernig, G. (1993). Hamburger Zwangsinventar-Kurzform HZI-K. Weinheim: Beltz. Klimoski, R. & Brickner, M. (1987). Why do assessment centers work? The puzzle of assessment center validity. Personnel Psychology, 40, 243-260. Klinck, D. (2002). Computergestützte Diagnostik: Beeinflusst das Medium der Testverarbeitung die Testcharakteristika, die Testfairness oder das Erleben der Testsituation? Göttingen: Hogrefe. Knowles, E. S. (1988). Item context effects on personality scales: Measuring changes the measure. Journal of Personality and Social Psychology, 55, 312-320. Koch, C. (1981). Fragebogen zur Abschätzung psychosomatischen Krankheitsgeschehens FAPK. Weinheim: Beltz. Köhler, T. (1979). Teststatistische Anforderungen an ein State-Meßinstrument. Diagnostica, 25, 64-75. Köller, O. (1993). Die Identifikation von Ratern bei Leistungstests mit Hilfe des Mixed-RaschModells. Vortrag auf der 1. Tagung der Fachgruppe Methoden der Deutschen Gesellschaft für Psychologie in Kiel. Empirische Pädagogik (o. A.). Literaturverzeichnis 585 586 Literaturverzeichnis Koppenhöfer, E. (2004). Kleine Schule des Genießens. Ein verhaltenstherapeutisch orientierter Behandlungsansatz zum Aufbau positiven Erlebens und Verhaltens. Lengerich: Pabst. Kormann, A. (Hrsg.). (1987). Beurteilen und Fördern in der Erziehung. Salzburg: Müller. Kornmann, R. (1977a). Diagnose von Lernbehinderungen. Weinheim: Beltz. Kornmann, R. (1977b). Testbatterie zur Untersuchung entwicklungsrückständiger Schulanfänger TES. Weinheim: Beltz. Kornmann, R., Meister, H. & Schlee, J. (Hrsg.). (1983). Förderungsdiagnostik (2. Aufl. 1986). Heidelberg: Schindele. Kraak, B. & Nord-Rüdiger, D. (1989). Fragebogen zu Lebenszielen und zur Lebenszufriedenheit FLL. Göttingen: Hogrefe. Krämer, H.-J. & Schneider, J. F. (1987). Validität von Fragebogendaten in Abhängigkeit von Antwort-Zeit-Instruktionen und der intraindividuellen Variabilität der Probanden. Psychologische Beiträge, 29, 458-468. Krampen, G. (1981). IPC – Fragebogen zur Erfassung generalisierter Kontrollüberzeugungen. Göttingen: Hogrefe. Krampen, G. (1986). Zur Validität der deutschen Form des 16 PF. Faktorielle Validität und Beziehungen zum FPI. Diagnostica, 32, 91-99. Krampen, G. (1996). Kreativitätstest für Vorschul- und Schulkinder. Version für die psychologische Anwendungspraxis (KVS-P). Handanweisung. Göttingen: Hogrefe. Krauth, J. (1995). Testkonstruktion und Testtheorie. Weinheim: Beltz, Psychologie Verlags Union. Kröber, H.-L. & Steller, M. (Hrsg.). (2000). Psychologische Begutachtung im Strafverfahren: Indikationen, Methoden und Qualitätsstandards. Darmstadt: Steinkopff. Kroger, R. O. & Turnbull, W. (1975). Invalidity of validity scales: The case of the MMPI. Journal of Consulting and Clinical Psychology, 43, 238-260. Krohne, H. W. (1980). Prüfungsangst: Defensive Motivation in selbstwertrelevanten Situationen. Unterrichtswissenschaft, 8, 226-242. Krohne, H. W. & Hindel, C. (1988). Trait anxiety, state anxiety, and coping behavior as predictors of athletic performance. Anxiety Research, 1, 225-234. Krohne, H. W. & Pulsack, A. (1990). Erziehungsstilinventar. Weinheim: Beltz. Kröner-Herwig, B. & Sachse, R. (1988). Biofeedbacktherapie (2. Aufl.). Stuttgart: Kohlhammer. Krüger, C. & Amelang, M. (1995). Bereitschaft zu riskantem Verhalten als Trait-Konstrukt und TestKonzept. Zur Entwicklung eines Fragebogens auf der Basis des Handlungs-Häufigkeits-Ansatzes. Diagnostica, 41, 1-18. Kruse, L. (1980). Privatheit als Gegenstand und Problem der Psychologie. Bern: Huber. Kubinger, K. D. (1987). Adaptives Testen. In R. Horn, K. Ingenkamp & R. S. Jäger (Hrsg.), Tests und Trends – 6. Jahrbuch der Pädagogischen Diagnostik (S. 103-127). München: Psychologie Verlags Union. Kubinger, K. D. (1988). Aktueller Stand und kritische Würdigung der probabilistischen Testtheorie. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 19-83). Weinheim: Beltz. Kubinger, K. D. (Hrsg.). (1988). Moderne Testtheorie. Weinheim: Psychologie Verlags Union. Kubinger, K. D. (Hrsg.). (1989). Moderne Testtheorie – ein Abriß samt neuesten Beiträgen (2. Aufl.). Weinheim: Psychologie Verlags Union. Kubinger, K. D. (1992). Testtheorie: Probabilistische Modelle. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 322-334). Weinheim: Psychologie Verlags Union. Kubinger, K. D. (1995). Einführung in die Psychologische Diagnostik. Weinheim: Psychologie Verlags Union. Kubinger, K. D. (1995). Objektive Diagnostik. In K. Pawlik (Hrsg.), Enzyklopädie der Psychologie. Differentielle Psychologie, 1, Grundlagen und Methoden (S. 507-541). Göttingen: Hogrefe. Kubinger, K. D. (1996). Methoden der psychologischen Diagnostik. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 567-576). Weinheim: Psychologie Verlags Union. Kubinger, K. D. & Ebenhöh, J. (1996). Arbeitshaltungen – Kurze Testbatterie. Anspruchsniveau, Frustrationstoleranz, Leistungsmotivation, Impulsivität/Reflexivität. Frankfurt/M.: Swets. Kubinger, K. D., Fischer, D. & Schuhfried, G. (1993). Begriffs-Bildungs-Test (BBT). Mödling: Dr. G. Schuhfried. Kubinger, K. D., Wagner, M. & Alexandrowicz, R. (1998). Zur Interpretation der Paardiagnostik mit dem Gießen-Test. Psychotherapie, Psychosomatik und Medizinische Psychologie, 49, 249-253. Kubinger, K. D., & Wurst E. (1991). Adaptives Intelligenz Diagnostikum AID. Weinheim: Beltz. Kubinger, K. D., & Wurst, E. (2001). AID 2: Adaptives Intelligenz Diagnostikum 2. Göttingen: Hogrefe. Kuder, G. F. & Richardson, W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151-160. Kuhl, J. (1990). Kurzanweisung zum Fragebogen HAKEMP 90. Unveröffentliches Manuskript. Osnabrück. Kuhl, J. (1994a). A theory of action and state orientations. In J. Kuhl und J. Beckmann (Eds.), Volition and personality. Action vs. state orientation (pp. 9-46). Seattle: Hogrefe & Huber. Kuhl, J. (1994b). Action vs. state orientation: Psychometric properties of the action control scale (ACS-90). In J. Kuhl & J. Beckmann (Eds.), Volition and personality. Action vs. state orientation (pp. 47-59). Seattle: Hogrefe und Huber. Kuhl, J. & Fuhrmann, A. (1995). Funktionskomponenten des Willens im Selbsterleben. Kurzmanual für den Fragebogen VCC. Unveröffentlichtes Manuskript. Osnabrück. Kurth, E. & Büttner, G. (1999). TPK Testreihe zur Prüfung der Konzentrationsfähigkeit (2., neu bearbeitete Auflage). Göttingen: Hogrefe. Kurth, E., & Büttner, G. (2004). Testreihe zur Prüfung der Konzentrationsfähigkeit (TPK). In G. Büttner & L. Schmidt-Atzert (Hrsg.), Diagnostik von Konzentration und Aufmerksamkeit (S. 143-159). Göttingen: Hogrefe. Lakatos, A. & Reinecker, H. (2001). Kognitive Verhaltenstherapie bei Zwangsstörungen – Ein Therapiemanual (2. Aufl.). Göttingen: Hogrefe. Lambert, M. J., Bergin A. E. & Garfield, S. L. (2003). Handbook of Psychotherapy and Behavior Change (5th ed.). New York: Wiley. Lamiell, J. T. (1987). The psychology of personality: An epistemological inquiry. New York: Columbia University Press. Lang, A. (1978). Diagnostik und Autonomie der Person. In U. Pulver, A. Lang & F. W. Schmid (Hrsg.), Ist Psychodiagnostik verantwortbar? (S. 17-30). Bern: Huber. Langer, E. J. & Abelson, R. P. (1974). A patient by any other name: Clinician group difference in labeling bias. Journal of Consulting and Clinical Psychology, 42, 4-9. Langfeldt, H.-P. & Tent, L. (1999). Pädagogisch-psychologische Diagnostik. Bd. 2: Anwendungsbereiche und Praxisfelder. Göttingen: Hogrefe. Laux, L. & Glanzmann, P. G. (1996). Angst und Ängstlichkeit. In M. Amelang (Hrsg.), Enzy