Comments
Description
Transcript
Document 2723119
(S.15-16) Diagnostische Strategien (S.8-15) Modellannahmen: Eigenschafts- und Verhaltensdiagnostik (S.7-8) Arten von Diagnostik (S.4-7) Aufgabenbereiche und Fragestellungen (S.2-4) Definition Einleitung 1 Kapitel 1 · Einleitung Diagnostik zur Beratung Diagnostik zur Behandlung Zielgerichtetheit von Psychodiagnostik Psychologische Diagnostik 2 Definition bestimmte unerwünschte Zustände zu beheben bzw. erwünschte Gegebenheiten zu erhalten gilt. Eine solche Struktur liegt vor, wenn etwa ein Proband mit einer Verhaltensstörung um Hilfe bittet. Deren Erscheinungsform, Verursachung und Auslösung müssen zunächst eingehender ergründet werden, um auf den gewonnenen Erkenntnissen dann ein geeignetes Behandlungsprogramm aufzubauen, mit dessen Hilfe schließlich »Normalität« angestrebt wird; ob und inwieweit dieser Zustand schließlich erreicht wird, muss durch erneute Diagnostik ermittelt werden. In einem anderen Fall fragt vielleicht eine Abiturientin in einer Beratungsstelle danach, welche Studienrichtung oder Berufstätigkeit im Hinblick auf ihr Begabungsprofil »richtig« bzw. optimal sei. Auch hierbei muss zunächst der Ist-Zustand geprüft und zu einem Soll-Zustand (etwa: Erfolg im Studium oder Beruf) in Beziehung gesetzt werden. Dies macht den Rückgriff auf bestimmte Schlussfolgerungen notwendig (7 unten). Die Beispiele lassen sich beliebig fortsetzen. Ihre Gemeinsamkeit besteht darin, dass spezifische Aufgabenstellungen den Einsatz eines wissenschaftlichen Instrumentariums Ad 1. Diagnostik wird nicht etwa um ihrer selbst willen betrieben, sondern weil es An einer solchen Konzeptualisierung gefallen 2 Aspekte: 1. die Finalität, d. h. die Zielgerichtetheit von Psychodiagnostik, 2. das weite Spektrum der in Betracht gezogenen Merkmalsträger. Als Merkmalsträger kommen in Betracht: 4 Einzelpersonen, 4 Personengruppen, 4 Institutionen, 4 Situationen und 4 Gegenstände. Wie viele andere Begriffe in der Psychologie so haben auch diejenigen von Diagnose und Diagnostik ihre Wurzeln im Griechischen, wo das Verb »diagignoskein« eine kognitive Funktion mit den Bedeutungen »gründlich kennen lernen«, »entscheiden« und »beschließen« bezeichnet. Sieht man sich in der wissenschaftlichen Literatur nach Definitionen um, so findet man gewöhnlich Hinweise darauf, dass es sich bei Diagnostik um eine Methodenlehre handele, die im Dienste der Praktischen Psychologie stehe (Wellek, 1955) und das Ziel habe, Personen richtig zu beurteilen (Dieterich, 1973) oder zu erfahren, wie sich Menschen voneinander unterscheiden (Hörmann, 1964). Sehr viel präzisere Angaben macht Leichner (1979), wenn er die Aufgabe der Psychodiagnostik in der Ermittlung interindividueller Differenzen im Erleben und Verhalten von Personen unter standardisierten Bedingungen sieht. Jäger und Petermann (1992, S. 11) fassen psychologische Diagnostik als System von Regeln, Anleitungen und Algorithmen zur Bereitstellung von Instrumenten auf, mit deren Hilfe sowohl 4 psychologisch relevante Charakteristika von Merkmalsträgern gewonnen als auch 4 die erhobenen Daten zu einem diagnostischen Urteil integriert werden sollen, und zwar 4 mit dem Ziel einer Vorbereitung von Entscheidungen sowie Prognosen und deren Evaluation. 1.1 Für gegenständliche oder abstrakte Merkmalsträger, deren Beschaffenheit u. a. dadurch diagnostiziert wird, dass Personen Urteile über ihre Wahrnehmungen und Eindrücke liefern, gilt diese Definition sinngemäß. Psychodiagnostik ist eine Methodenlehre im Dienste der Angewandten Psychologie. Soweit Menschen die Merkmalsträger sind, besteht ihre Aufgabe darin, interindividuelle Unterschiede im Verhalten und Erleben sowie intraindividuelle Merkmale und Veränderungen einschließlich ihrer jeweils relevanten Bedingungen so zu erfassen, hinlänglich präzise Vorhersagen künftigen Verhaltens und Erlebens sowie deren evtl. Veränderungen in definierten Situationen möglich werden. Definition Spektrum diagnostischer Problemstellungen ganz erheblich. Namentlich bei den Bemühungen um eine Evaluation immer weiterer Bereiche in Wirtschaft, Staat und Wissenschaft müssen Verwaltungs- und Produktionsabläufe, hergestellte Güter und erbrachte Dienstleistungen sowie deren Akzeptanz durch potenzielle Abnehmer im weitesten Sinne bewertet werden, des Weiteren wissenschaftliche Leistungen, die Qualität von Lehrveranstaltungen usw. (also entweder materielle oder abstrakte Gegebenheiten), darüber hinaus Ereignisse und Prozesse, und zwar häufig von einem hohen Komplexitätsgrad – all dies setzt eine fundierte Bestandsaufnahme oder Diagnose voraus. Gleichwohl werden es meist Menschen sein, die den Gegenstand psychologischer Diagnostik ausmachen. Im Hinblick darauf ist aber an der Begriffserläuterung von Jäger und Petermann (1992) zu kritisieren, dass sie die eher »typischen« Merkmalsausprägungen, also die Charakteristika, in den Mittelpunkt rückt und veränderungsorientierte Ansätze nicht explizit herausstellt. Unter Berücksichtigung dieses Gesichtspunktes definieren wir Psychodiagnostik folgendermaßen: Ad 2. Die Generalisierung auf andere Merkmalsträger als nur Personen erweitert das geboten erscheinen lassen, um zu einer Diagnose zu gelangen. Daran anknüpfend werden Erwägungen angestellt, welche Maßnahmen indiziert sind, um einen antizipierten Zustand zu erreichen. Nach der Anwendung der »Behandlung« (Therapie, Training, Platzierung, Empfehlung o. Ä.) oder auch begleitend zu ihr werden neue Informationen im Sinne von Diagnosen gesammelt, um festzustellen, ob sich die Differenz zwischen Ist- und Soll-Zustand im intendierten Sinne verringert hat. Aus der Medizin ist dieses Prozedere hinlänglich bekannt; dort kommt es bei Diagnose und Diagnostik vorrangig darauf an, Krankheiten zu erkennen und sie bestimmten Ursachen zuzuordnen. Lautet bei einer Schwellung des Mittelhandknochens beispielsweise die Diagnose »Entzündung«, so mag eine Behandlung in Form des Auflegens von Eisstücken verordnet werden. Am Rückgang der Schwellung ist die Richtigkeit der Kombination von Diagnose und Therapie ablesbar. Wären dagegen keinerlei Besserungen zu beobachten, so mag dies Anlass zu einer Revidierung der Diagnose (z. B. im Sinne von »bösartige Geschwulst«) mit dementsprechend anderer Intervention sein (z. B. Applikation von Kortison). Die Finalität impliziert, dass nicht nur festgestellt wird, welche Gegebenheiten im Augenblick vorliegen (»Was ist?«) und ggf. welche Umstände dafür maßgeblich sind (»Was war?« bzw. »Woher?« oder »Warum?«), sondern auch, was in Zukunft geschehen soll (»Wohin?«). 1.1 · Definition 1 Definition der Psychodiagnostik Bewertung von Gegebenheiten, Ereignissen und Prozessen Was ist? Warum? Wohin? Diagnostik auf dem Weg vom Ist- zum Sollzustand 3 1 Kapitel 1 · Einleitung ABO-Psychologie Bereitstellung von Entscheidungshilfen . Abb. 1.1. Das diagnostische Dreieck. (Aus Hossiep & Wottawa, 1993, S. 132) 4 Befragung Ψ Anwendungen Ψ Organisations- Forensische Diagnostik Pädag. Ψ Ψ Ψ Soziale Rahmenbedingungen Ψ Klinische Entwicklungs- Ψ Sprach- Kognitions- Grundlagen Ψ Technische Rahmenbedingungen Aufgabenbereiche und Fragestellungen Nach der obigen Definition werden die Aufgabenbereiche und Fragestellungen der Diagnostik von ihren Anwendungsbereichen bestimmt. Diese lassen sich grob gliedern nach den Bereichen Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie, Pädagogische Psychologie und Klinische Psychologie. Fragestellungen aus der ABO-Psychologie sind die Unterstützung der Ausbildungsund Berufswahl, Auswahl und Weiterqualifizierung von Beschäftigten, Piloten oder Füh- 1.2 Hier wie dort besteht das Ziel der Erkenntnisbemühungen darin, bei konkreten Fragestellungen wissenschaftlich fundierte Entscheidungshilfen für unterschiedliche Handlungs- und/oder Behandlungsmöglichkeiten bereitzustellen. Die psychologische Diagnostik konstruiert und verwendet hierzu spezielle Verfahren, die nicht nur im Hinblick auf ihre praktische Brauchbarkeit, sondern auch in Bezug auf ihre theoretische Fundierung fortwährend kritisch zu überprüfen sind. Die theoretische Begründung bedeutet den Rekurs auf die wissenschaftlichen Ergebnisse der (Gesamt-)Psychologie, deren Stand in den einzelnen Teildisziplinen dokumentiert wird. Methoden, Anwendungen und Grundlagen konstituieren somit die 3 Seiten einer Art »Spannungsfeld, in dem psychologische Diagnostik entsteht und fruchtbar wird« (Hossiep & Wottawa, 1993, S. 132; . Abb. 1.1). Kulturelle Rahmenbedingungen Ψ Arbeits- Verhaltensbeobachtung Testverfahren Psychologische Ψ Ψ Motivations- Sozial- Exploration Differentielle Interview Fragebogen Methoden Wirtschaftliche Rahmenbedingungen rungskräften, des Weiteren auch die Diagnostik von Organisationen, Institutionen und geschäftlichen Abläufen. Im Rahmen der Pädagogischen Psychologie geht es um die Feststellung der Schulfähigkeit, die Eignung für weiterführende Schulen und Studiengänge, Überprüfung der Sonderschulbedürftigkeit, Erfassung der Eignung für Förder- oder Umschulungsmaßnahmen und die Überprüfung von deren Erfolg sowie um Erziehungsprobleme in Schule und Familie. Die Klinische Psychologie versucht mit Hilfe diagnostischer Methoden, den Verursachungsbedingungen psychischer Störungen auf die Spur zu kommen und Ansatzpunkte für Interventionsmaßnahmen zu finden. Beispiele für Fragestellungen sind Abhängigkeiten, Depressionen, Angststörungen, psychophysiologische Störungen (z. B. Asthma, Bluthochdruck), Essstörungen, Partnerschaftsprobleme, Störungen des Sexualverhaltens und der Stressverarbeitung, um nur einige zu nennen. Daneben bestehen traditionell weitere Anwendungsfelder. So gehört es beispielsweise seit langem zu den Aufgaben der Forensischen Psychologie, fundierte Aussagen über die strafrechtliche Verantwortlichkeit eines Täters oder – im Falle von Minderjährigen – dessen Deliktfähigkeit zu machen, des Weiteren über die Glaubwürdigkeit von Zeugen, die Geschäftsfähigkeit bestimmter Personen oder die Bewährungsprognose von Inhaftierten für den Fall ihrer Freilassung. In jedem Fall sind spezifische diagnostische Verfahren nötig. In der Markt- und Werbepsychologie stehen hingegen häufiger Produkte im Mittelpunkt des Interesses. So soll z. B. die Anmutungsqualität eines neuen Artikels oder einer Anzeige ermittelt werden, um die Aussichten auf positive Wirkungen bei den potenziellen Kunden zu optimieren. Analoge Problemstrukturen liegen mitunter in der Ökologischen Psychologie vor, wenn es darum geht, die subjektiven Eindrücke zu diagnostizieren, die durch Wohn-, Arbeits- und Schulumwelten bei den jeweiligen Bewohnern hervorgerufen werden. Im Falle der Verkehrspsychologie besteht – neben der Erfassung der Fähigkeit zum Führen von Fahrzeugen – eine häufig wiederkehrende Problemstellung darin, Ampeln und Schilder so zu platzieren, dass sie gut wahrgenommen werden können, und Kreuzungen und Straßen so zu gestalten, dass die Risiken von Unfällen gemindert werden. In der Pharmakopsychologie interessieren vor allem Präparate mit ihren Haupt- und Nebenwirkungen. In der Gesundheitspsychologie schließlich, um die Reihe von Beispielen abzuschließen, mag die Wirksamkeit eines Programmes zur Einschätzung bestimmter Medikationen oder Diäten Gegenstand diagnostischer Untersuchungen sein. Wie die Auflistung möglicher Beispiele gezeigt hat, handelt es sich bei den Merkmalsträgern, über die diagnostische Informationen eingeholt werden sollen, entweder (direkt) um Individuen bzw. Gruppen von Personen, oder die Merkmalsträger bestehen aus materiellen Substraten, Objekten mit »Dingcharakter« sowie mitunter auch aus Prozessen in Institutionen oder sozialen Gruppen. In diesem Fall manifestieren sich deren Wirkungen erst in der Interaktion mit Menschen. Deshalb müssen deren körperliche und – was hier mehr interessiert – psychische Korrelate in Form von Kognitionen, Einstellungen, Emotionen und Verhaltensweisen registriert werden. Neben Fragestellungen der geschilderten Art, die durch die Suche nach der optimalen Treatmentwahl dem Idealbild von den Aufgaben der psychologischen Diagnostik am nächsten kommen, existiert noch durch eine Reihe völlig anderer Vorgaben oder Motive ein gewisser gesellschaftlicher Bedarf an Diagnostik (nach Wottawa & Hossiep, 1987): 1.2 · Aufgabenbereiche und Fragestellungen 1 Pharmakopsychologie Gesundheitspsychologie Verkehrspsychologie Ökologische Psychologie Markt- und Werbepsychologie Forensische Psychologie Klinische Psychologie Pädagogische Psychologie 5 1 Kapitel 1 · Einleitung Diagnostik zu Auswahlzwecken Diskriminierung von Gruppen Frühe Versuche einer Ausdrucksdiagnostik Mitmenschen erzeugen Unsicherheit Probleme der Selbstdiagnostik Wege der Selbstdiagnostik 6 Immer wieder kommt es vor, dass verfügbare Ressourcen nicht ausreichen, um die Nachfrage zu befriedigen. Ein Beispiel dafür mögen Studien- und Arbeitsplätze bilden. Verwaltung von Mangelzuständen Mitunter liefern diagnostische Informationen über einzelne oder Gruppen von Personen wie Andersgläubige, Farbige, Behinderte oder Ausländer, denen gegenüber (aus welchen Gründen auch immer) tiefsitzende Ressentiments erlebt werden mögen, gleichsam die Rationalisierung für die bestehenden Vorurteile. Oft genug werden die niedrigeren Punktwerte solcher Personen in verbalen Tests (wie etwa die durchschnittlichen Minderleistungen von Schwarzen gegenüber Weißen in allgemeinen IQ-Tests) durch die Unfairness von Tests produziert, d. h. die Resultate stellen letztlich eine Konsequenz ideologisch motivierten Wunschdenkens dar. Ungeachtet einer solchen Genese erweisen sich entsprechende Rechtfertigungen als relativ verbreitet, weil sie einen bequemen Weg darstellen, selektiv diskriminierend zu wirken, ohne kognitive Inkonsistenz erleben zu müssen. Wunsch nach Rechtfertigung Seit jeher erleben Mitmenschen u. a. auch Unsicherheit dahingehend, was von ihnen ggf. zu erwarten oder zu befürchten sei. Eine rasche und richtige Diagnose des Gegenübers stellt in diesem Zusammenhang die Voraussetzung für ein angemessenes eigenes Verhalten dar. Schon frühzeitig sind deshalb Zeichen propagiert worden, um aus der äußeren Beschaffenheit auf den Charakter schließen zu können (z. B. »Fuchs-« oder »Habichtgesicht«, »Ohren wie ein Esel«, »Behaarung wie ein Tier« u. Ä.). Auch die wissenschaftliche Fortführung in Gestalt der Phrenologie, d. h. aus der Form des Schädels auf die Ausprägung von bestimmten Sinnen zu schließen, war nicht erfolgreich. Demgegenüber hat die Analyse von Mimik und Gestik – d. h. der dynamischen Elemente der körperlichen Erscheinung – mit dem Ziel, aus deren Deutung die Persönlichkeit zu erkennen, nicht an Bedeutung verloren. Ein Teil dieser Ausdruckspsychologie ist im Übrigen auch die Graphologie. Trotz einer Reihe einschlägiger Lehrbücher (z. B. Lersch, 1948; Gruhle, 1948) und außerordentlich instruktiver Darstellungen von Detailproblemen (z. B. Rohracher, 1965) handelt es sich bei der individuellen Ausgestaltung der Ausdrucksdiagnostik (soweit es also nicht nur um das richtige Verständnis von situativen Verhaltensvarianten wie Lachen oder Weinen geht) insgesamt wohl heute noch mehr um Intuition und persönliche Kunst als um fundierte Wissenschaft. Bedürfnis nach Unsicherheitsreduktion Viele Menschen interessieren sich, besonders in Zeiten krisenhafter Umstellungen in ihrem Leben, bei denen Fragen des Warum und Wohin eine größere Rolle spielen, besonders nachhaltig für die eigene Person, ihren Charakter, ihre Potenziale und Verhaltensgewohnheiten. Der Blick in selbstverfasste Tagebücher mag dabei hilfreich sein; objektiveren Aufschluss aber dürften i. Allg. Gespräche mit Außenstehenden über das Selbst liefern. Großer Beliebtheit erfreuen sich in diesem Zusammenhang die mehr oder weniger ausgearbeiteten Tests in Publikationen der verschiedensten Art. Ein nicht geringes Problem besteht bei der Selbstdiagnostik darin, dass selbst unter Verwendung brauchbarer Verfahren ein Verständnis für die psychologischen Fachtermini zur Bezeichnung einzelner Konstrukte nicht garantiert werden kann und es offen bleibt, welche Schlussfolgerungen die betreffende Person schließlich aus ihrer Diagnose für sich zieht. Streben nach Selbsterkenntnis Arten von Diagnostik Bedingungsselektion (= Eignungsdiagnostik) (= Konkurrenzauslese) Selektionsdiagnostik Institutionell Personenselektion häufig ABO- und Pädagogische Psychologie häufig Klinische Psychologie Verhaltensmodifikation Bedingungsmodifikation Modifikationsdiagnostik Individuell Arten von Diagnostik Die bereits auf den ersten Blick sehr differenzierenden Anwendungsfelder unterscheiden sich auch systematisch nach der Art der dort zum Einsatz kommenden Diagnostik. Im Bereich der ABO- und pädagogischen Psychologie handelt es sich vorwiegend um sog. institutionelle Diagnostik, die nach Cronbach und Gleser (1965) in Institutionen mit häufig wiederkehrenden gleichbleibenden Fragestellungen praktiziert wird, während individuelle Diagnostik vor allem in der klinischen Psychologie betrieben wird, wo sehr spezielle und häufig wechselnde Problemstellungen dominieren (. Abb. 1.2). Institutionelle Diagnostik ist primär Selektionsdiagnostik. Als Personenselektion (Pawlik, 1976) will sie geeignete Personen für bestimmte Anforderungen (Arbeitsplatz, Schulart, Studienfach) ermitteln. Als Bedingungsselektion versucht sie, geeignete Bedingungen auszuwählen, unter denen eine Person mit bestimmten Eignungsmerk- 1.3 In diesen Fällen scheint es so zu sein, als ob die Verteilung der knappen Güter auf der Basis von psychodiagnostischen Informationen von der öffentlichen Meinung eher akzeptiert würde, weil als »gerechter« empfunden, als wenn nach Zufall, Anciennität oder Vorleistungen entschieden wird. Für Hossiep und Wottawa (1993, S. 135) benötigen gerade demokratische Gesellschaften rationale, nach wissenschaftlichen Methoden entwickelte Selektionsverfahren für verantwortungsvolle Positionen; mit Hinweis auf Hersch (1974) sei leistungsbezogene Selektion daher »kein Gegensatz, sondern die Grundlage einer funktionierenden Demokratie«. Oft läuft die Frage eines Einsatzes von Tests in diesem Zusammenhang auf die Frage hinaus, ob der Nutzen (im Sinne einer Verbesserung der Prognose) und der Gewinn an Prestige (durch das Einsetzen einer auf rationalen Prinzipien aufbauenden Technik) die Kosten (in Einheiten von Geld, Zeit, Mühen, Einschränkung von Gleichheitsidealen u. Ä.) aufwiegen. 1.3 · Arten von Diagnostik 1 . Abb. 1.2. Verschiedene Arten psychologischer Diagnostik Selektion von Personen oder Bedingungen Diagnostik: Institutionell oder individuell Kosten und Nutzen 7 1 Kapitel 1 · Einleitung Eigenschaften werden aus beobachtbarem Verhalten erschlossen Eigenschaften (»traits«) stellen hypothetische Konstrukte dar Verhalten wird als veränderbar angesehen Eigenschaften werden als stabil angesehen Modifikation von Verhalten oder Bedingungen 8 Modellannahmen: Eigenschafts- und Verhaltensdiagnostik (alles konkrete Verhaltensweisen!), dann »denken« wir wahrscheinlich an die nicht direkt beobachtbare Eigenschaft »Aggressivität«. Mit anderen Worten: Wir ordnen sehr verschiedene Verhaltensweisen, die vom Ablauf und den beteiligten Körperteilen nur wenig miteinander zu tun haben mögen, nach bestimmten Gesichtspunkten zu Kategorien oder Klassen, welche nach unserem Dafürhalten etwas gemeinsam haben. Des Weiteren bezeichnen wir die so gebildeten Kategorien mit Eigenschaftsnamen und nehmen innerhalb der Kategorien eine mehr oder weniger explizite Skalierung nach Eine Selektionsdiagnostik, die Personen aufgrund von Eignungsmerkmalen akzeptiert oder ablehnt bzw. bestimmten Arbeitsplätzen zuweist, geht davon aus, dass sich Personen hinsichtlich ihrer eignungsrelevanten Eigenschaften miteinander vergleichen lassen. Die fraglichen Eigenschaften, deren Genese von eher sekundärem Interesse ist, werden als über die Zeit hinweg relativ stabil und situationsinvariant angesehen, sodass die Diagnose ihres Ausprägungsgrades in gewisser Weise die Fortschreibung eines IstZustandes erlaubt und somit Prognosen auf zukünftiges Verhalten zulässt. Der situationale Kontext spielt dabei eine untergeordnete Rolle. Im Gegensatz hierzu geht eine Modifikationsdiagnostik davon aus, dass Verhalten erlernt und damit prinzipiell veränderbar ist und in Abhängigkeit von seinem situationalen Kontext variiert. Dementsprechend richtet sich das Interesse stärker auf Situationen, die ein Verhalten bedingen und aufrechterhalten, des Weiteren auf intrapsychische Veränderungen sowie auf Ansatzpunkte, um ein Problemverhalten zu modifizieren. Diese verschiedenen, hier nur grob umrissenen diagnostischen Strategien und Zielsetzungen rekurrieren dabei auf 2 grundsätzlich verschiedene Modelle oder Prinzipien, die mit Eigenschafts- bzw. Verhaltensdiagnostik bezeichnet werden. Die grundlegende Annahme eigenschaftstheoretischer Konzepte besteht darin, dass sich das Erleben und Verhalten von Menschen in Form von Eigenschaften (»traits«) beschreiben lässt. Diese werden aufgefasst als »relativ breite und zeitlich stabile Dispositionen zu bestimmten Verhaltensweisen, die konsistent in verschiedenen Situationen auftreten« (Amelang & Bartussek, 1990, S. 61 ff.). Eigenschaften sind nicht direkt beobachtbar. Sie stellen hypothetische, gedankliche, konstruierte Gebilde dar, somit Konstrukte, die aus direkt beobachtbaren Verhaltensäußerungen nur erschlossen werden. Wenn wir beispielsweise beobachten, wie ein Kind 4 einem Huhn die Federn ausreißt, 4 sein Spielzeug zerstört, 4 einen Kameraden schlägt und 4 einer erwachsenen Person Schimpfworte nachruft 1.4 malen erfolgreich sein kann (Platzierung von Bewerbern auf geeignete Arbeitsplätze, Berufsempfehlung). Individuelle Diagnostik im Rahmen klinisch-psychologischer Fragestellungen ist dagegen vornehmlich Modifikationsdiagnostik. Sie soll entweder ermitteln, welche spezifischen Verhaltensweisen einer Person verändert werden müssen (Verhaltensmodifikation; z. B. Modifikation aggressiven Verhaltens bei Erziehungsschwierigkeiten) oder welche externen Bedingungen zu ändern sind (Bedingungsmodifikation; z. B. im Rahmen einer Familientherapie bei Erziehungsschwierigkeiten), um ein Problemverhalten abzubauen. Häufigkeits- und Intensitätsgesichtspunkten vor: Wer viele der fraglichen Verhaltensweisen und/oder diese in stärkerer Penetranz zeigt, »hat« eine stärkere Ausprägung auf der »dahinterstehenden«, von uns nur gedachten Eigenschaftsdimension. Die Zusammenfassung der jeweiligen Verhaltensweisen in den besagten Kategorien erfolgt aus Gründen der Ökonomie: Um jemanden zu charakterisieren, bedarf es nicht mehr des Auflistens zahlreicher einzelner Verhaltensweisen, sondern es genügt die Nennung des betreffenden Attributes. Die Verhaltensweisen haben für die Eigenschaften die Funktion von Indikatoren, d. h., sie stehen dazu in einem Verhältnis wie Zeichen zu Bezeichnetem. (Da aber das Indizierte nur aus den Indikatoren erschlossen wird, wäre es unzulässig, das Erste als ursächlich für das Zweite anzusehen, etwa nach dem Prinzip: Der Täter hat gestohlen, weil er ein Dieb ist, oder ein Mitmensch raucht, weil er ein Raucher ist, usw. Ein derartiger Schluss wäre tautologisch, denn in einem solchen Fall würde dasjenige, was aus Verhaltensweisen nur erschlossen wird, zur Ursache eben dessen gemacht, was die Grundlage der Schlussfolgerung ist.) Nach der eigenschaftstheoretischen Konzeption von Persönlichkeit besteht der zweckmäßigste Weg zur Vorhersage des künftigen Verhaltens von Personen darin, deren Eigenschaften im Zuge psychodiagnostischer Bemühungen genau zu erfassen. Aus der zentralen Annahme der transsituativen Konsistenz des Verhaltens resultiert die Vorhersage, dass sich eine Person gemäß ihrer Eigenschaftsausprägungen verhält, und zwar relativ unbeeinflusst vom jeweiligen situativen Kontext. Ein relativ hoher Punktwert in einem Ängstlichkeitstest spräche dafür, dass der betreffende Proband die Eigenschaft aufweist, ängstlich zu sein. Aus diesem Ergebnis lässt sich prognostizieren, dass er auch unter bestimmten anderen, im Test nicht notwendigerweise erfassten Umständen »ängstlich« reagieren wird, also z. B. vor einem wilden Tier weglaufen oder nicht von einem 10-m-Turm ins Schwimmbecken springen wird (. Abb. 1.3). Diesen Modellvorstellungen liegt somit eine Art Analogieschluss zugrunde, was die Inferenz von den Indikatoren der Prädiktorvariablen auf das angeht, was als Kriterium diagnostiziert und prognostiziert werden soll. Für diese Schlussfolgerung bedarf es (zunächst) nicht der Voraussetzung, dass ein Zusammenhang zwischen Test und Kri- 1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik 1 . Abb. 1.3. Eigenschaftsdiagnostik ist z. B. dort relevant, wo nicht alle kritischen Situationen simuliert werden können Prinzip des Analogieschlusses Schlussfolgerung aus Eigenschaften auf zukünftiges Verhalten Verhaltensweisen fungieren als Indikatoren für Eigenschaften 9 1 Kapitel 1 · Einleitung Normorientierte Messung als Bezugsrahmen: Vergleich mit einer Population Validierung von Tests für verschiedene Personengruppen Indikatoren müssen repräsentativ sein Vorhersagen für bedeutungsvolle Situationen gewünscht 10 terium empirisch nachgewiesen ist (wenngleich sich die Zweckmäßigkeit des Schlusses auf Dauer durch entsprechende Evidenzen erweisen sollte). In verschiedenen Bereichen von Gesellschaft und Wirtschaft wurden denn auch seit alters her immer wieder Vorhersagen auf der Basis dieses Modells angestellt, obwohl entweder aus prinzipiellen Gründen oder nur vorläufig und vorübergehend der unterstellte Zusammenhang empirisch (noch) nicht aufgezeigt werden konnte. Beispiele dafür mögen jene Fälle liefern, in denen für kaum simulierbare Aufgaben (wie z. B. dem Verhalten von Kontrollpersonal bei unerwarteten Störungen eines Kernkraftwerkes) gleichwohl die vermutlich bestgeeigneten Personen ausgewählt werden müssen und es sehr lange dauern kann, bis später einmal – wenn überhaupt – irgendwelche »Bewährungsmaße« anfallen. Das allgemeine Kennzeichen einer derartigen Konstellation besteht darin, Vorhersagen für bedeutungsvolle Situationen machen zu müssen, für die aber die im Alltag anfallenden Beobachtungsgelegenheiten nur eine unzureichende Basis liefern (7 Abschn. 1.6). Solche Gelegenheiten bestanden etwa bei den Prüfungen für Anwärter auf Staatsposten im alten China oder bei der Auswahl von Beamten in England für den Dienst in den Kolonien. Auch die weithin gebräuchliche Verwendung von Biografien, Schulnoten und Intelligenzpunktwerten als geradezu universellen Orientierungsgrößen für den »allgemeinen Berufserfolg« beruht primär auf diesem Analogieschluss. Die zur Messung der jeweiligen Eigenschaft herangezogenen Aufgaben bzw. die in ihnen thematisierten Verhaltenstrends (z. B. »Gehen Sie gern auf Parties?«, »Übernehmen Sie bei gemeinsamen Aktionen gern die Führung?« usw.) müssen repräsentativ für die interessierende Eigenschaft sein. Inwieweit dieses Kriterium bei der Entwicklung von Tests dann auch erfolgreich eingehalten worden ist, erweist sich an der empirisch zu überprüfenden Validität eines Verfahrens (7 dazu unten): Hier wird – zwar durchaus unterschiedlich im Fall einzelner Skalen, aber doch in einer prinzipiell stets gleichen Vorgehensweise – festgestellt, inwieweit die eigenschaftstheoretischen Werte der Testung mit Einschätzungen derselben Eigenschaft von anderer Seite (z. B. Lehrer, Vorgesetzte, Kameraden usw.) oder mit gänzlich anderen Indikatoren für die Eigenschaftsausprägungen, etwa aus objektiven Verhaltensmanifestationen (wie Krankheiten, Unfälle, berufliche Position und dergleichen), übereinstimmen. Diese Validierung mag dann entweder eine Verrechnungsvorschrift für die diagnostischen Indikatoren (z. B. Subtests einer Batterie von Skalen) ergeben, die – im Hinblick auf einen maximalen korrelativen Zusammenhang mit dem Kriterium – für alle Personen gleich ist. In einem solchen Fall mögen zwar die einzeln erfassten Variablen in multiplen Korrelationen unterschiedliche Gewichtungsfaktoren erhalten; diese Gewichtungsfaktoren gelten dann aber für alle Personen bzw. Personengruppen. Unterschiede in den verrechneten Testergebnissen für einzelne Personen beruhen dann allein auf interindividuellen Unterschieden in der gemessenen Ausprägung der diagnostizierten Merkmale. Oder es müssen Subgruppen von Personen voneinander unterschieden werden, für die verschiedene Verrechnungsvorschriften gelten (d. h. gemäß der Gruppenzugehörigkeit verschiedene Gewichtungsfaktoren für die einzelnen Variablen in multiplen Korrelationen), weil aufgrund psychologischer Faktoren die Funktionalität der einzelnen Eigenschaften variiert. Dies ist beispielsweise für die sog. »over-« und »underachiever«, erfolgs- und misserfolgsorientierte Probanden, Personen mit unterschiedlichen Lebenserfahrungen und Temperamenten der Fall (7 dazu ausführlicher Abschn. 7.2). Ungeachtet solcher Konsequenzen eines empirischen Aufzeigens des korrelativen Zusammenhanges zwischen Index und Indiziertem (Test und Kriterium) ist der Bezugsrahmen der eigenschaftstheoretischen Vorgehensweise die normorientierte Mes- Einer solchen Begriffsumschreibung gemäß ist beim Versuch, die Persönlichkeit zu beschreiben und ihr Verhalten vorherzusagen, weniger nach »signs« (Indikatoren, Anzeichen) für den Charakter als mehr nach einem repräsentativen »sample« (Stichproben, Beispiele) von Verhaltensweisen zu suchen (die Unterscheidung zwischen Zeichen- und Stichprobenfunktion von Items geht auf Goodenough, 1949, zurück). Im Gegensatz zur herkömmlichen Messung von Eigenschaften bestehen die Tests der verhaltenstheoretischen Schule demnach aus Stichproben des vorherzusagenden (Kriteriums-)Verhaltens selbst (. Abb. 1.4). ! Die Persönlichkeit ist lediglich eine »intervenierende Variable, die definiert ist durch die Wahrscheinlichkeit, mit der eine Person bestimmte Verhaltenstendenzen in einer Reihe von Situationen ihres täglichen Lebens manifestiert« (Goldfried & Kent, 1976, S. 9). Nicht was eine Person an Eigenschaften im Sinne der Traitansätze »hat« oder von was sie, etwa im Sinne der psychodynamischen Betrachtungsweise, »getrieben« wird, steht im Vordergrund des Interesses verhaltenstheoretischer Analysen, sondern was diese Person in verschiedenen Situationen »tut« (nach Mischel, 1968, S. 10). ! »The best predictor of future performance is past performance« (Wernimont & Campbell, 1968, S. 372). sung: Zwischen den einzelnen Verhaltensweisen werden je nach Auftretenshäufigkeit oder -intensität quantitative Abstufungen getroffen. Die individuellen Messwerte stehen so für die jeweilige Ausprägung in der betreffenden Dimension im Vergleich zur Population. Aus der Kenntnis und dem Verständnis der Eigenschaften (als den »grundlegenden Strukturmerkmalen«) leitet somit der trait-orientierte Diagnostiker die Erwartung ab, späteres Verhalten vorhersagen zu können. Demgegenüber wählen Verhaltenstheoretiker einen sehr pragmatischen und direkteren Zugang, indem sie aus konkret beobachtetem Verhalten auch nur dieses vorhersagen wollen: 1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik 1 . Abb. 1.4. Aus Beobachtungen von Verhaltensweisen in »kritischen« Situationen kann man auf zukünftiges Verhalten in ähnlichen Situationen schließen Verhaltenstheoretischer Ansatz 11 1 Kapitel 1 · Einleitung Inhaltsvalidität wichtig Prinzip des Induktionsschlusses 12 realisiert werden, die repräsentativ für Angstinduktion sind. Entsprechend spielt das Konzept der Inhaltsvalidität für verhaltenstheoretische Tests eine wichtige Rolle (zu den Details s. Schulte, 1976; Pawlik, 1976). Als besonders fruchtbar hat sich der verhaltenstheoretische Ansatz bei der Modifikation von Verhaltensweisen erwiesen. Die eigenschaftsorientierte Diagnostik verfolgt als Hauptziel eine Klassifikation von Personen gemäß ihrer Messwerte in taxonomische Anders gelagert sind die Verhältnisse bei der verhaltenstheoretisch beeinflussten Gewinnung von Informationen über den Einzelnen. Hier wird nach Möglichkeit eine »angemessene Repräsentation von Reizsituationen« (Goldfried & Kent, 1976) hergestellt. Für die Messung von Angst bedeutet das z. B., dass solche Stimulationsbedingungen mit Hilfe von 4 Filmen, 4 Dias oder 4 verbalen Beschreibungen Bestimmte Deutungen im Rorschach-Test gelten als Indikatoren für Angst. Wenn ein Proband im Thematischen Apperzeptionstest Geschichten liefert, in denen böse Mitmenschen dem »Helden« Schaden zufügen, dieser vom Pech verfolgt ist, zaudert oder starke Aggressionen zeigt, wird man auch dieses als Zeichen seiner habituellen Ängstlichkeit werten. Der Rückschluss auf die Ausprägung in der Dimension »Ängstlichkeit« soll sodann über das Verständnis der Personen hinaus eine Vorhersage von deren zukünftigem Verhalten gewährleisten. Eine solche Prognose ist u. a. belastet durch die Unsicherheit der Beziehung zwischen Index und Indiziertem; denn dass die Antwort »Blut« auf Angst hinweist, die Deutung einer weißen Fläche eine negativistische Haltung indiziert (s. Hörmann, 1964), muss noch durch gesonderte Validitätsstudien erwiesen werden. Beispiel Beispiele dafür sind z. B. Farbtüchtigkeitsbestimmungen (bei denen die Probanden unterschiedliche Farben gleicher Helligkeit erkennen müssen) oder die Prüfung von Kenntnissen der Straßenverkehrsgesetze (wo in den theoretischen Prüfungen zur Erlangung der Fahrerlaubnis die Kandidaten zu gezeichneten oder geschilderten Szenarien aus dem Verkehrsgeschehen Stellung nehmen sollen). Des Weiteren lässt man die geforderte Tätigkeit auch direkt ausüben, wie z. B. in der praktischen Führerscheinprüfung ein Fahrzeug bewegen oder bei der Entscheidung über die Besetzung einer Schreibkraftstelle die Bewerber während einer Zeit schreiben, um dabei Geschwindigkeit und Richtigkeit der Arbeitsleistung beobachten zu können. Der Schluss ist dabei ein solcher der Induktion, d. h. es wird davon ausgegangen, dass das hier und jetzt (= speziell) gezeigte Verhalten auch zu anderen Anlässen (= allgemein) auftritt. Zwar ist dieser Schluss nicht logisch zwingend, doch wird man in zahlreichen Fällen auf die Verlässlichkeit eines solchen Vorgehens bauen dürfen. Da es mitunter unökonomisch und langwierig ist, Beobachtungen in natürlichen Situationen anzustellen, werden diese gewöhnlich in der experimentellen Anordnung des Rollenspiels »nachgestellt«. Gebräuchlich ist auch die Auswertung von verbalen Äußerungen des Individuums über seine Reaktionsweisen in spezifischer Umgebung. Ein Beispiel für den eigenschaftstheoretischen Ansatz soll das eben Ausgeführte veranschaulichen: Zur Untersuchung des individuellen »Belohnungsaufschubs« (»delay of gratification«) muss sich der Proband zwischen einem weniger wertvollen Gegenstand, der sofort erhältlich ist, und einem wertvolleren, der aber erst nach Ablauf einer Zeit zur Verfügung steht, entscheiden. Von den in der Testsituation mit ganz verschiedenen Objekten realisierten Entscheidungen (z. B. 5 DM jetzt gegenüber 10 DM in 2 Wochen) wird angenommen, dass sie in derselben Weise auch außerhalb der Untersuchungssituation erfolgen würden. Sehr verbreitet ist die Technik des »behavior sampling«, und zwar vor allem in der Klinischen Psychologie. Dort stellt häufig das Personal einer therapeutischen Institution im Hinblick auf die Behandlung eingehende Verhaltensbeobachtungen an. Einige Beispiele für verhaltenstheoretische Methoden und anderen Quellen. Der damit verfolgte Ansatz geht davon aus, »dass eine Beschreibung des problematischen Verhaltens, seiner kontrollierenden Bedingungen und der Mittel, durch die es geändert werden kann, die angemessensten ›Erklärungen‹ für das Verhalten … sind« (Kanfer & Saslow, 1976, S. 35). Sofern das Verhalten selbst die Grundlage von Verhaltensvorhersagen ist, verfügen verhaltenstheoretische (und damit behavioristische) Methoden über einige offenkundige Vorzüge: Absichtliche oder unabsichtliche Verfälschungen sind weniger wahrscheinlich, da es schwerer fallen dürfte, das Verhalten selbst und nicht nur einen Bericht darüber zu verfälschen. Ferner ergibt sich in geringerem Maße als bei den eigenschaftsorientierten Messungen die Frage nach der Fairness von Tests (s. dazu Möbus, 1978; Wottawa & Amelang, 1980; Bartussek, 1982). Schließlich ist auch der zunehmend kritisch beurteilte Gesichtspunkt einer Wahrung der persönlichen Intimität und individuellen »Privatheit« (Kruse, 1980) weniger akut, da nicht in die »Tiefen« einer Person eingedrungen wird (s. Sherman, 1979, S. 238/39). Die Informationen für die funktionale Verhaltensanalyse werden gewonnen aus 4 Interviews mit dem Probanden oder Patienten selbst sowie Bekannten der zu diagnostizierenden Person, 4 Testergebnissen und Verhaltensbeobachtungen, 4 einer Erkundung der Vorgeschichte des Klienten Einheiten (wie z. B. »Schizophrenie«, »Paranoia« und dergleichen), woraus aber noch keinerlei Handlungsanweisungen für eine Beeinflussung des Verhaltens resultieren. Dagegen liefert der lerntheoretische Ansatz Informationen, die aufgrund ihrer höheren Spezifität und Situationsbezogenheit wesentlich mehr Bedeutung für jegliche Intervention besitzen. Das zentrale Instrument zur Erfassung der situativen Faktoren, die das Verhalten kontrollieren und hervorbringen, stellt dabei die funktionale Analyse (Kanfer & Saslow, 1976, S. 34 ff.) dar. Inzwischen gehört diese Methode zum Standardrepertoire jeder lerntheoretisch betriebenen Therapie. Sie beinhaltet eine Untersuchung 4 des Kontextes, in dem ein kritisches Verhalten (z. B. Bettnässen) auftritt, 4 der Qualität und Intensität des kritischen Verhaltens, 4 der Folgen des Verhaltens für den Betreffenden und seine Umwelt, 4 der Möglichkeiten der Person und ihrer Umwelt für eine Modifikation und schließlich 4 der möglichen Rückwirkungen einer Verhaltensänderung auf den Betreffenden und seine Umwelt. 1.4 · Modellannahmen: Eigenschafts- und Verhaltensdiagnostik 1 »Behavior sampling« in der Klinischen Psychologie Vorzüge des verhaltenstheoretischen Ansatzes Funktionale Verhaltensanalyse Lerntheoretischer Ansatz 13 1 Kapitel 1 · Einleitung Fragebogen Rollenspiel . Abb. 1.5. Auszug aus dem »Fear Survey Schedule FSS« und dem »Rathus Assertiveness Schedule RAS« Beispiel für Fragebogen 14 Verschiedene Hilfsmittel erleichtern dabei die Registrierung von Häufigkeit und Dauer der interessierenden Verhaltenskategorien (z. B. Sitzen, Gehen, Lachen, Reden usw.). In aller Regel werden die gebildeten Klassen möglichst »verrichtungsnah« definiert, um die externen Beobachter hinsichtlich der von ihnen geforderten Kategorisierungsleistungen nicht zu überfordern, oder um nicht mehr als unvermeidlich subjektive Momente einfließen zu lassen. Eine weitere Variante zur Gewinnung von verhaltenstheoretisch relevanten Informationen stellt das Rollenspiel dar. Im Allgemeinen wird darauf zurückgegriffen, um in kurzer Zeit Anhaltspunkte über Verhalten in Situationen zu gewinnen, für die selten Gelegenheit zur Beobachtung besteht (z. B. Interaktionen zwischen Ehepartnern unter bestimmten Stressbedingungen). Was selbstbeobachtetes Verhalten angeht, so sind auch vor dem Hintergrund der Verhaltenstheorien zahlreiche Fragebogen entstanden. Einige beschäftigen sich mit dem Angstgehalt verschiedener Situationen. Eine besonders große Verbreitung im klinischen Bereich hat das von Wolpe und Lang (1964) publizierte »Fear Survey Schedule (FSS)« erfahren (. Abb. 1.5). Die Grundprinzipien der oben dargelegten Modellvorstellungen zusammenfassend, stellt sich der Zusammenhang zwischen Prädiktoren und Kriterien (Indikatoren und Indiziertem sensu Wottawa & Hossiep, 1987) wie in . Abb. 1.6 grafisch veranschaulicht dar. Fear Survey Schedule (FSS) »Die Stichworte in diesem Fragebogen beziehen sich auf Dinge und Erfahrungen, die Angst oder unangenehme Gefühle hervorrufen können. Machen Sie bitte für alle Stichworte jeweils an der Stelle der Punkteskala ein Kreuz, die am besten den Grad Ihrer zurzeit bestehenden Angst beschreibt.« gar ein deutsehr nicht wenig lich stark stark Würmer Tote Tiere Leute mit Missbildungen Eine Straße überqueren Weite offene Räume Laute Stimmen Einem Kampf zusehen Menschliches Blut Bei einer Operation zusehen (Aus Schulte, 1976, S. 256) Rathus Assertiveness Schedule (RAS) Geben Sie an, wie charakteristisch jede der nachfolgenden Fragestellungen für Sie ist. + 3 sehr charakteristisch, sehr zutreffen ⯗ – 3 sehr uncharakteristisch, sehr unzutreffend »Die meisten Leute sind aggressiver und zeigen mehr Durchsetzungsvermögen als ich.« »Wenn ich um etwas gebeten werde, bestehe ich darauf, zu erfahren, warum.« »Über schlechten Service im Restaurant oder woanders beschwere ich mich.« (Nach Rathus & Nenid, 1977, S. 137–139) Beispiel Diagnostische Strategien Pawlik (1976, S. 23) hat die unterschiedlichen Dimensionen und Zielsetzungen, die mit den genannten Modellannahmen verbunden sind, in einer Übersicht zusammengefasst (. Tab. 1.1). Nach seiner Analyse lassen sich selektionsorientierte Eigenschaftsdiagnostik und verhaltensbezogene Modifikationsdiagnostik relativ gut voneinander abheben und halbwegs eindeutig unterschiedlichen psychologischen Arbeitsfeldern zuordnen. ! Modifikationsdiagnostik ist folglich kriteriumsorientierte Prozessdiagnostik. Modifikationsdiagnostik muss nach ihrem Selbstverständnis dagegen Prozessdiagnostik sein und Veränderungen des Verhaltens durch wiederholte Untersuchungen zu erfassen suchen. Die Annahme einer situativen Abhängigkeit des Verhaltens verbietet die Beschränkung des diagnostischen Prozesses auf eine begrenzte Verhaltensstichprobe. Sie erfordert statt dessen eine systematische Inventarisierung des gesamten für die Fragestellung relevanten Verhaltensrepertoires zur Erfassung situationsbedingter Variationen. Aber nicht Differenzen zu einer Vergleichsnorm, sondern die Distanz zu einem definierten Kriterium bestimmen Beginn und Ende von Interventionsmaßnahmen. ! Selektionsdiagnostik ist somit normorientierte Statusdiagnostik zur Schätzung des Ausprägungsgrades von Eigenschaften. Aus den im vorangegangenen Kapitel dargelegten unterschiedlichen Modellannahmen von Eigenschafts- und Verhaltensdiagnostik resultieren nach Pawlik (1976) auch unterschiedliche diagnostische Strategien: Selektionsdiagnostik kann sich als Statusdiagnostik auf die einmalige Feststellung eines Ist-Zustandes beschränken, da zeitstabile Eigenschaften Prognosen bereits nach einmaliger Messung ermöglichen. Die Testuntersuchung liefert anhand einer Stichprobe von Testitems einen Schätzwert der selektionsrelevanten Eigenschaft. Ihr Ausprägungsgrad soll in Relation zu einer Vergleichsnorm Handhabe für geeignete Entscheidungen liefern. 1.5 1 Prozessdiagnostik: Wiederholte Untersuchungen erfassen Verhaltensänderungen Statusdiagnostik: Einmalige Feststellung eines Ist-Zustandes . Abb. 1.6. Grundprinzipien diagnostischer Modelle zum Zusammenhang zwischen Index und Indiziertem 15 1 Kapitel 1 · Einleitung Grundlagenfach: Diffentielle Psychologie und Persönlichkeitsforschung Überschneidung diagnostischer Aufgaben in den Anwendungsfeldern 16 Individuelle Position relativ zu einem Verhaltenskriterium Verhaltensstichprobe → Eigenschaftswert 3. Testen (Inter-)individuelle Unterschiede 2. Normorientierte Diagnostik Kriterienorientierte Diagnostik Veränderungsmessung Ist-Zustand (diagnostisch oder prognostisch) 1. Statusdiagnostik Prozessdiagnostik Diagnostische Zielsetzung Dimension . Tabelle 1.1. Unterschiede zwischen Eigenschafts- und Verhaltensdiagnostik. (Nach Pawlik, 1976, S. 236) ⇔ ⇔ Meilensteine in der Geschichte der psychologischen Diagnostik Wie eingangs dargelegt wurde, handelt es sich bei der psychologischen Diagnostik um eine primär anwendungsorientierte Disziplin. Das »dazugehörige« Grundlagenfach ist die Differentielle Psychologie und Persönlichkeitsforschung. Beide Fächer sind sehr eng miteinander verflochten (s. Bartussek & Amelang, 1992): Hier wie dort kommt es darauf an, Unterschiede zwischen und innerhalb von Personen zu beschreiben mit dem Ziel, das augenblickliche Verhalten erklären und zukünftiges prognostizieren zu 1.6 Eigenschaftsdiagnostik findet man überwiegend dort, wo eignungsdiagnostische Entscheidungen getroffen werden, Modifikationsdiagnostik vor allem im Bereich der Klinischen Psychologie. Aber bereits in der Pädagogischen Psychologie überschneiden sich die diagnostischen Aufgaben. Selektionsdiagnostik findet vor allem in Fragen der Schullaufbahndiagnostik Anwendung, während Modifikationsdiagnostik bei der Untersuchung gestörter Lernprozesse sowie zur Planung und Evaluation pädagogischer Behandlungsmaßnahmen erforderlich wird. Selbst in der betrieblichen Eignungsdiagnostik sind die Fronten nicht mehr ganz klar. So fordern Triebe und Ulich (1977) zur Optimierung eignungsdiagnostischer Selektionen eine Prozessdiagnostik mit zwischengeschalteter Lernphase. Andererseits werden auch in der Klinischen Psychologie Selektionen dort vorgenommen, wo die Zuteilung von Behandlungsalternativen an das Vorliegen bestimmter Voraussetzungen gebunden ist. Insgesamt gesehen ist das Schema von Pawlik hilfreich für eine Klassifikation der sehr großen Zahl psychologischer Verfahren mit ganz unterschiedlicher Basis rationaler und theoriebezogener Konstruktionsgesichtspunkte und der unterschiedlichen Zielsetzungen ihres Einsatzes. Entscheidungs- und Behandlungsoptimierung Schätzung eines Eigenschaftswertes Diagnostik als Information für und über Behandlung Verhaltensrepertoire (-hierarchie) Inventarisieren 4. Diagnostik als Messung ⇔ ⇔ 1.5 · Diagnostische Strategien ⇔ ⇔ ⇔ ⇔ (S.135-178) Gütekriterien psychometrischer Tests und ihre Bestimmung (S.111-133) Grundzüge von Itemanalysen (S.94-111) Konstruktionsprinzipien psychometrischer Tests (S.89-92) Grundlagen kriteriumsorientierter Tests (S.64-81, 86-87) Item-Response-Theorie (IRT) (S.33-63) Klassische Testtheorie (KTT) (S.26-32) Voraussetzungen und theoretische Basis psychometrischer Tests Verfahren Grundlagen diagnostischer 2 Realisierung meist nur einer Stimuluskonfiguration 2.1.3 2.1.2 2.1.1 Die klassische Testtheorie (KTT) – 33 2.1.1.1 Zentrale Definitionen – 33 2.1.1.2 Der Standardmessfehler – 36 2.1.1.3 Minderungskorrekturen und Reliabilitätsindex – 39 2.1.1.4 Reliabilität und Testlänge – 44 2.1.1.5 Implikationen für die psychodiagnostische Praxis – 48 2.1.1.6 Kritik an der KTT – 60 Item-Response-Theorie (IRT) – 64 2.1.2.1 Grundüberlegungen der Item-Response-Theorie – 65 2.1.2.2 Dichotome Latent-Trait-Modelle – 68 2.1.2.3 Weitere Modelle der IRT – 82 Grundlagen kriteriumsorientierter Tests – 89 2.1.3.1 Die Generierung inhaltsvalider Itemmengen – 89 2.1.3.2 Die Setzung sachgerechter Normen – 89 2.1.3.3 Die Ermittlung zufallskritischer Trennwerte – 90 2.1.3.4 Weitere Probleme kriteriumsorientierter Tests – 92 Voraussetzungen und theoretische Basis psychometrischer Tests Alle diagnostischen Verfahren gehen davon aus, dass Unterschiede bestehen und diese gemessen werden können. Im Sinne der eingangs dargelegten Aufgabenfelder der Psychologischen Diagnostik betreffen diese Unterschiede solche zwischen Personen, Objekten, Behandlungen, Institutionen usw. Weil die interindividuelle Perspektive, wie historische Analysen zeigen, den Beginn ernsthafter Bemühungen um die psychodiagnostische Erfassung von Merkmalsausprägungen bestimmt hat und auch heute noch im Vordergrund der beruflichen Routinetätigkeit vieler Psychologen steht, folgt die nachfolgende Darstellung hauptsächlich diesem Gesichtspunkt. Die einzelnen thematisierten Überlegungen, Prinzipien und Probleme gelten in den Grundzügen jedoch auch für andere diagnostische Problembereiche. Wie immer die zu leistende Differenzierung inhaltlich auch beschaffen sein mag, weisen die dafür denkbaren Ansätze doch eine Reihe von wesentlichen Gemeinsamkeiten auf: Ein bedeutsamer Gesichtspunkt besteht darin, dass genau definierte situative Bedingungen hergestellt werden, die in Verbindung mit der gegebenen Instruktion und den interessierenden Persönlichkeitsmerkmalen als Auslöser oder Determinanten des beobachtbaren, diagnostisch relevanten Verhaltens gelten. In der Unterscheidung zwischen der unabhängigen Variablen (meist eine experimentell manipulierte Stimulusdimension) und der abhängigen Variablen (gewöhnlich die Beobachtungsgröße, also ein morphologisches oder Verhaltensmerkmal) wird diese Betrachtungsweise deutlich. Wenn etwa bei 10 min Zeitvorgabe doppelt so viele Aufgaben richtig beantwortet werden wie bei 5 min, so liegt es nahe, die unterschiedliche Zeit der Bearbeitung als Erklärung für die unter beiden Bedingungen verschiedenen Lösungshäufigkeiten heranzuziehen. In aller Regel verzichtet die Psychodiagnostik jedoch auf die Variation der Situationsfaktoren, wie sie für die Experimentelle (Allgemeine) Psychologie kennzeichnend ist, und greift lediglich eine bestimmte Stimuluskonfiguration aus dem Universum möglicher Faktorenkombinationen heraus. Die unter einer solchen Bedingung, in nur 2.1 Kapitel 2 · Grundlagen diagnostischer Verfahren Herstellung genau definierter situativer Bedingungen 26 Zur Bedingungskonstanz in der psychologischen Diagnostik In der einschlägigen Literatur wird regelmäßig darauf hingewiesen, dass die Konstanz der Durchführungsbedingungen einerseits zwar unabdingbar sei, andererseits aber doch nie so recht gegeben sei. Um der daraus resultierenden misslichen Lage zu begegnen, haben Sader und Keil (1966) die vorliegenden Untersuchungen gesichtet und daran ansetzend konkrete Ratschläge für den diagnostischen Praktiker abgeleitet. Ihrer Übersicht zufolge gibt es teils empirische, teils experimentelle Belege dafür, dass u. a. die Ich-Beteiligung der Probanden, deren Erfolg und Misserfolg sowie Testangst, Lob und Tadel von Seiten des Testleiters, des Weiteren allgemeine Eigenschaften und konkrete Verhaltensweisen des Diagnostikers, wahrgenommener Zeitdruck, Messintention und Testmotivation sowie unterschiedliche Vorübung und absichtliche Verfälschung die Ergebnisse beeinflussen und damit die strikte Standardisierung in Frage stellen. Allerdings sind in vielen der geschilderten Fälle die beobachteten Effekte durch extreme Manipulationen zustande gekommen, mit deren Hilfe die potenzielle Wirksamkeit des jeweiligen Faktors nachgewiesen werden sollte. Bei sachgemäßer Testvorgabe wäre deren Auftreten ganz unwahrscheinlich. Auch muss zwischen der statistischen Signifikanz eines Effektes und dessen praktischer inhaltlicher Relevanz unterschieden werden. Eine der Schlussfolgerungen der Autoren lautet daher, dass ungeachtet der referierten Effekte von einer für praktische Belange durchaus hinreichenden Bedingungskonstanz ausgegangen werden könne. »Stabilitäts- und Validitätsdaten der Größenordnung, wie sie in der Tat vorliegen, wären nicht möglich, wenn nicht Versuchsbedingungen im diagnosti6 Exkurs einem Feld eines imaginären Versuchs- oder Erhebungsplanes mit unendlicher Zahl an Faktoren und Abstufungen (z. B. Typen und Schwierigkeiten von Aufgaben, Zeitbemessung, Instruktion usw.), zwischen den Individuen noch auftretenden Verhaltensunterschiede liefern den Gegenstand bzw. Ansatzpunkt der personenzentrierten Psychodiagnostik. Miteinander vergleichbar und damit sinnvoll sind die ermittelten Punktwerte als quantitative Äquivalente für das beobachtete Verhalten (in Einheiten richtig gelöster Aufgaben, mit »Ja« beantworteter Fragen zu bestimmten Persönlichkeitsausprägungen usw.) verschiedener Personen nur dann, wenn die Bedingungen, unter denen eben dieses Verhalten provoziert wurde, bei allen Individuen identisch oder doch weitgehend ähnlich sind. Wenn beispielsweise der eine Bewerber während 15 min 20 komplexe Denkprobleme löst, wo der andere innerhalb von 20 min 23 richtige Antworten liefert, kann die unterschiedliche Trefferrate nicht im Sinne einer unterschiedlichen Fertigkeit der beiden Probanden verstanden werden. Analog dazu sind niedrige Punktwerte in einem Leistungstest nicht im Sinne unzureichender Konzentration zu werten, wenn der Testperson während der Bearbeitung der Bleistift abgebrochen ist und sie deshalb die richtigen Lösungen nicht kennzeichnen konnte oder wenn sie durch störende Geräusche, einen unruhigen Nachbarn, unzureichende Lichtverhältnisse oder das Beschlagen der Brille bei der Bearbeitung der Aufgaben behindert war, während andere Probanden durch keinen dieser Faktoren beeinträchtigt wurden. Die Konstanz bzw. Identität der Bedingungen oder Standardisierung ist somit eine Grundvoraussetzung für die Ermittlung und sinnvolle Interpretation jeglicher interindividueller Unterschiede. 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Konstanz der Bedingungen notwendig 27 2 2 Differenzierung am größten bei Aufgaben mittlerer Schwierigkeit Idealfall: Robustheit gegen andere (störende) Faktoren Diese nur auf den ersten Blick überraschende Tatsache hat Lienert (1989) außerordentlich instruktiv in einem Szenario veranschaulicht, in dem jeder der »Verlierer« jedem Wenn eine bestimmte Aufgabe von 50 Probanden aus einer Stichprobe von N = 100 Personen gelöst wird, so differenziert diese Aufgabe nicht nur zwischen den 50 Probanden mit der richtigen und den restlichen 50 Probanden mit der falschen oder gar keiner Antwort, sondern zwischen jedem der 50 Probanden, die das Item richtig beantworten und jedem der 50 Probanden, bei denen das nicht der Fall ist. Eine solche Aufgabe hat somit insgesamt 50 × 50 = 2500 Unterscheidungen getroffen. Beispiel Bei herkömmlichen Tests, die eine spezifische Variante von Bedingungen zur Provokation von Stichproben des Verhaltens darstellen, ist der Forderung nach Standardisierung durch Gleichheit des Materials, Identität der Instruktionen, genauen Anleitungen zur Durchführung und Auswertung usw. Rechnung getragen. Dennoch ist evident, dass nicht alle denkbaren Einzelfaktoren oder Störgrößen strikt kontrolliert werden können. In dem Maße, in dem sich Bedingungen der Kontrolle des Untersuchungsleiters entziehen, wird die Objektivität eines diagnostischen Verfahrens beeinträchtigt, d. h. dessen Unabhängigkeit von der Person des Testleiters und den damit möglicherweise verbundenen Besonderheiten in ihren verschiedenen Aspekten der Durchführung, Auswertung und Interpretation. Dies muss letztlich auch Minderungen der Reliabilität und Validität zur Folge haben (7 Abschn. 2.3.3). Im Idealfall erweist sich die gewählte Methode der Datengewinnung als hoch sensitiv gegenüber den Phänomenen oder Variablen, an denen man aus theoretischen Gründen interessiert ist, aber als robust und unempfindlich gegenüber allen anderen Faktoren (Pervin, 1970, S. 73). Die mit Hilfe von Tests realisierten Bedingungen werden i. Allg. so festgesetzt, dass die Variabilität des Verhaltens als Ansatzpunkt der personenzentrierten Psychodiagnostik maximal ist. Diese Differenzierung, die ebenfalls eine Grundvoraussetzung jeder Gewinnung von sinnvollen Informationen darstellt, ist dann am größten, wenn Tests oder ihre Bestandteile (einzelne Aufgaben, Untertests usw.) eine mittlere Lösungswahrscheinlichkeit aufweisen für jene Fähigkeits- oder Merkmalsausprägungen, in denen eine Diskriminierung vorgesehen ist. Dies kann mit einem Beispiel verdeutlicht werden: schen Experiment in einem gewissen und nicht unbeträchtlichen Maße konstant gehalten werden könnten« (Sader & Keil, 1966, S. 299). Die Vorschläge für die praktische Umsetzung reichen von der Rezipierung der relevanten Literatur über eine sachgerechte Befragung im Anschluss an durchgeführte Untersuchungen bis zu einer sorgfältigen Ausnutzung der Möglichkeiten zur allgemeinen Gestaltung der Gesamtsituation. Diese kann in einer Einleitungsansprache, Zwischenerläuterungen oder sogar in der Vorschaltung von Anwärmtests bestehen, wo dies geboten erscheint. Auch die nachträgliche Korrektur von Testergebnissen ist in solchen Fällen möglich, wo sich Fehler sachwidrig ausgewirkt haben mögen. Im konkreten Einzelfall werden solche Ratschläge nur bedingt weiterhelfen, weshalb sich der Diagnostiker dann zwangsläufig auf allgemeine wissenschaftliche Standards und wohl auch auf »den gesunden Menschenverstand (verlassen muss), wenn dieses der Sachlage nach geboten erscheint.« (Sader & Keil, 1966, S. 301). Kapitel 2 · Grundlagen diagnostischer Verfahren Idealfall: Sensitivität gegenüber interessierenden Faktoren 28 der »Gewinner« (Personen ohne bzw. mit richtigen Lösungen) zu dessen »Erfolg« durch Händedruck oder Schulterklopfen gratuliert hat. Im Falle des obigen Beispiels wäre das gleichbedeutend mit 2500 einzelnen Handreichungen. Wenn andererseits ein Item in einem Kenntnis-, Persönlichkeits- oder Interessentest nur von 20 der 100 Probanden in einer bestimmten Richtung beantwortet wird, so unterscheidet es zwischen 20 × 80 = 1600 Probandenpaaren. Noch schwierigere (oder auch leichtere) Aufgaben in Leistungstests bzw. solche mit sehr seltenen (oder auch häufigen) Beantwortungen sind trotz ihrer damit gegebenen verminderten Differenzierungskraft in der Gesamtpopulation in fast allen Verfahren enthalten, weil mit ihrer Hilfe auch in den Teilpopulationen »sehr guter« bzw. »sehr schlechter« Probanden (mit Ausprägungen in den Extrembereichen der jeweiligen Dimension) zwischen den Merkmalsträgern unterschieden werden kann, d. h. auch in den Extrembereichen ist eine mittlere Lösungswahrscheinlichkeit, bezogen auf die dortige Merkmalsausprägung, optimal. Ohne jeden Nutzen für eine Differenzierung sind solche Items, die überhaupt nicht streuen, d. h. nur einen invarianten Testpunktwert (meist 0 oder 1, »ja« oder »nein« usw.) liefern. Diese bedeuten lediglich das Hinzufügen (oder Weglassen) eines für alle Merkmalsträger konstanten Betrages auf der jeweiligen Dimension. Sofern ihnen nicht eine besondere Funktion zukommt, z. B. als »Eisbrecher« (»Möchten Sie, dass Ihr Leben schön ist?«) oder zur Überprüfung einer angemessenen Handhabung der Bearbeitungsmodalitäten und des Antwortblattes (»Haben Sie die Instruktion verstanden?«) oder zur Verschleierung der Messintention der anderen Items, wird auf sie deshalb aus Ökonomiegründen gewöhnlich verzichtet. Aus diesen Erwägungen geht auch hervor, dass in jenen Fällen, wo Aufgaben bei der Ermittlung des Gesamtpunktwertes gleich gewichtet werden (etwa 1 Punkt im Sinne des Merkmals bei jeder logisch richtigen Lösung oder einer symptomatisch relevanten Antwort verrechnet wird), gleichwohl eine implizite Gewichtung stattfindet, und zwar nach dem Beitrag, den das Item an der Variation des Gesamtpunktwertes leistet, also seiner Differenzierungskraft. In der Gewichtigkeit noch vorgeordnet ist die Forderung nach Objektivität der psychodiagnostisch relevanten Information, egal ob es sich dabei um das Ausdrucksverhalten von Personen, deren Berichte über Träume, Gefühle und Erlebnisse, um Testdaten oder Registrierungen physiologischer Reaktionen handelt. Nur dasjenige kann Gegenstand einer empirischen Wissenschaft und konkret einer diagnostischen Methode sein, was die Voraussetzung erfüllt, ein sog. »öffentlicher Sachverhalt« (Herrmann, 1976) und damit prinzipiell anderen Personen zugänglich zu sein. Außerdem muss es der Bedingung entsprechen, objektiv zu sein, d. h. es muss von mehreren Beobachtern in hinreichender Weise als gleich wahrgenommen oder eingeschätzt werden und damit möglichst weitgehend unabhängig von der Person des Beobachters sein. Im Falle einer Feststellung der Zahl richtiger Lösungen in einem Kenntnistest werden 2 Auswerter, von Flüchtigkeitsfehlern vielleicht abgesehen, vollständige wechselseitige Übereinstimmung aufweisen. Dies wird besonders dann der Fall sein, wenn die richtigen Antworten unter den angebotenen Mehrfachwahlen nur angekreuzt zu werden brauchen und für die Auswertung eine Schablone zur Verfügung steht. Viel schwerer dürfte aber Konkordanz zu erzielen sein, wenn beispielsweise aufgrund des Ausdrucksverhaltens beurteilt werden soll, ob ein Proband als »gehemmt« oder aber als »beherrscht« anzusehen ist, weil hier bei der Einordnung der Beobachtungsdaten sehr viel stärker auch interpretative Elemente mit einfließen (. Abb. 2.1). (Auf die unterschiedlichen Aspekte von Objektivität und ihrer numerischen Bestimmung wird unter 7 Abschn. 2.3 detaillierter eingegangen.) 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Objektivität = Unabhängigkeit vom Testleiter Gewichtung von Items gemäß ihrer Differenzierung Funktion nichtdifferenzierender Items 29 2 Abhängigkeit des diagnostischen Ansatzes von der theoretischen Einbettung Stabilität Reliabilität = Messgenauigkeit als »rein« technisches Kriterium Sollen die sich in den Messwerten niederschlagenden Merkmalsausprägungen als charakteristisch für die betreffenden Personen, Objekte, Sachverhalte usw. gelten, müssen sie reliabel sein, d. h. richtig im Sinne formaler Exaktheit, wobei davon abgesehen wird, ob die vorgenommene Messung auch dasjenige Merkmal getroffen hat, das Ziel der Messung war. Das heißt, es sollten – in Analogie zum Anspruch der theoretischen Reproduzierbarkeit von Resultaten aus der experimentellen Psychologie – bei einer erneuten Realisierung der betreffenden Bedingungskonstellationen bei den erfassten Merkmalsträgern in etwa dieselben Verhaltensäußerungen auftreten. Verschiedene Gründe (darunter Einflüsse durch Übung und Gedächtnis) stehen einer derartigen direkten Wiederholung aber oftmals entgegen. Es sind deshalb mehrere methodische Alternativen zur Bestimmung der Reliabilität entwickelt worden (7 dazu mehr im Abschn. 2.3.1.2). Im Fall der gleichwohl mitunter besonders aussagekräftigen Wiederholungsuntersuchungen läuft die Forderung nach Reliabilität auf eine möglichst hohe Korrelation zwischen den aus verschiedenen Beobachtungszeitpunkten rührenden Messwerten ein und derselben Stichprobe von Merkmalsträgern hinaus; hier spricht man dann von Stabilität (als einem besonderen Aspekt der Reliabilität). Einen Sinn erhalten die in den Miniatursituationen von Tests oder im größeren Rahmen von »natural settings« gewonnenen Messwerte meist erst durch den Bezug auf eine Theorie. Schon der Inhalt theoretischer Konzeptionen bestimmt in gewissem Ausmaß die Technik der Informationsgewinnung und die Art der zu erhebenden Messwerte. Unmittelbar augenfällig wird das bei einem Vergleich zwischen der bereits erwähnten sog. Verhaltens- und Eigenschaftsdiagnostik: Im ersten Fall stellen die Beobachtungsgrößen nur eine nach Möglichkeit repräsentative Stichprobe aus der viel größeren Population gleichartiger Verhaltensweisen dar, im zweiten stehen sie stellvertretend für die Ausprägung von bestimmten Eigenschaften, indizieren also etwas qualitativ völlig Andersartiges (Unterscheidung zwischen »sample« und »sign«). Da es sich bei den (»Dispositions-«)Eigenschaften um hypothetische Konstrukte, also erdachte Gebilde handelt, hängt es weitgehend vom Inhalt der jeweiligen Theorie ab, welche Indikatoren als angemessen gelten können. Wenn beispielsweise davon ausgegangen wird, dass die davon Betroffenen selbst über die Intensität erlebter Konflikte Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.1. Bei projektiven Verfahren wie z. B. dem TAT ist sowohl die Durchführung als auch die Auswertung nicht unabhängig von der Person des Testleiters 30 berichten können, erscheinen direkte Fragen danach zweckmäßig. Hingegen liegen völlig andere Zugänge nahe, z. B. solche über projektive Verfahren mit dementsprechend fundamental anderen diagnostischen »Anzeichen«, wenn der Theorie zufolge die Konflikte unbewusst ablaufen und damit per definitionem ein davon Betroffener selbst nichts weiß und daher auch keine Auskünfte erteilen kann. Die Brauchbarkeit der vorgenommenen Messoperationen sowie diejenige der damit erhaltenen Resultate muss sich sodann im Kontext weiterer Informationen erweisen, d. h., die Empirie wirkt zurück auf die Theorie und kontrolliert gleichsam die aus ihr abgeleiteten Aussagen. Theorie und Empirie bedingen einander gegenseitig und stehen so in einem Verhältnis wechselseitiger Abhängigkeit. Übertragen auf psychodiagnostische Verfahren läuft dies i. Allg. auf die Forderung nach dem Nachweis der Validität oder Gültigkeit hinaus. Das heißt, durch gezielte zusätzliche Untersuchungen müssen Hinweise dahingehend erbracht werden, dass der Test tatsächlich dasjenige misst, das er messen soll oder die Konstrukteure zu messen vorgeben (. Abb. 2.2; Validierung). Beispielsweise wird man bei einem neuen Intelligenztest auch prüfen, ob seine Ergebnisse mit denjenigen bereits bewährter Verfahren in groben Zügen übereinstimmen (nicht hingegen perfekt damit korrespondieren, da das neu entwickelte Verfahren ja bestimmte Unzulänglichkeiten der schon eingeführten Tests überwinden soll) und ob Korrelationen mit Maßen für Schul- und Berufserfolg sowie Schätzungen von Bekannten oder Freunden bestehen. Auf eine solche Validierung kann, worauf bereits an dieser Stelle hingewiesen werden soll, dann verzichtet werden, wenn ein Test nach der sog. externalen Methode entwickelt wurde. Wenn es z. B. darauf ankommt, die Gruppe der potenziell unfallgefährdeten Personen in einer Fabrik zu identifizieren (um sie gesondert zu schulen oder an Arbeitsplätze mit einem situativ geringeren Risiko zu versetzen), mag die Strategie der Skalenkonstruktion darin bestehen, eine möglichst umfangreiche und inhaltlich breit gefächerte Liste von Items zunächst 2 Gruppen von Probanden vorzugeben, von denen die eine mit Unfällen belastet ist und die andere nicht. 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 . Abb. 2.2. Praktische Fahrprüfungen haben logischerweise eine hohe Validität zur Messung des Fahrverhaltens im Straßenverkehr 31 2 ! Die wichtigsten Grundvoraussetzungen sind Standardisierung, Differenzierung, Objektivität, Reliabilität und Validität. Die Standardisierung bezeichnet die Konstanz bzw. Identität der Untersuchungsbedingungen. Eine Standardisierung kann erreicht werden, wenn etwa gleiches Material, identische Instruktionen und genaue Anleitungen zur Durchführung der Untersuchung verwendet werden. Des Weiteren muss ein Verfahren die Fähigkeit zur Differenzierung besitzen. Die mit Hilfe des Test realisierten Untersuchungsbedingungen sollten so festgesetzt werden, dass die Variabilität des Verhaltens als Ansatzpunkt der personenzentrierten Psychodiagnostik maximal ist. Um in ausreichendem Maße zu differenzieren, sollte die gewählte Methode zur Datengewinnung (im Idealfall) also hoch sensitiv gegenüber den interessierenden Merkmalen, aber robust gegenüber allen anderen Faktoren sein. Damit etwa ein Leistungstest (oder einzelne Untertests, Aufgaben etc.) hinreichend differenziert, verwendet man Aufgaben, die eine mittlere Lö- ? Benennen und cha- rakterisieren Sie die wichtigsten Grundvoraussetzungen für die Ermittlung und Interpretation von individuellen Unterschieden. duell miteinander vergleichen zu können, müssen die Durchführungsbedingungen strikt konstant gehalten werden (Standardisierung). 4 Zweckmäßigerweise sollten der Test und die Durchführungsbedingungen so gestaltet werden, dass sie im diagnostisch interessierenden Verhalten die Merkmalsträger maximal voneinander unterscheiden (Differenzierung). 4 Die zwischen den Merkmalsträgern auftretende Variation ist nur dann diagnostisch brauchbar, wenn die beobachteten Unterschiede objektiv und messgenau (oder exakt) zu registrieren sind (Objektivität und Reliabilität). Ein Aspekt der Reliabilität ist die Stabilität über der Zeit. 4 Da viele Tests hypothetische Konstrukte erfassen sollen, ist es unverzichtbar, weitere, von der Testung selbst unabhängige Informationen über dasjenige einzuholen, was der Test zu messen vorgibt (Validierung). 4 Um die Messwerte aus psychodiagnostischen Verfahren intra- und interindivi- Fazit Jene Items eignen sich dabei zur Erkennung von »Unfällern«, die zwischen den beiden Stichproben überzufällig differenzieren, bei denen also das Beantwortungsverhalten der Probanden mit und ohne Unfälle signifikant verschieden voneinander ist. Diese Unterschiede müssen auch in einer sog. Kreuzvalidierung mit 2 neuen Stichproben von Probanden erhalten bleiben. Die beiden Kategorien von Unfällern bzw. Nichtunfällern sind gleichsam soziale, betriebliche und ökonomische Realitäten, denen der Diagnostiker aus verschiedenen Gründen gerecht werden muss. Bei dem Versuch, dieses zu tun, mag er sich auf psychologische Theorien zur Genese von Unfällen und zum »Wesen« und der »Natur« von Unfällen stützen (wonach etwa geringe Konzentration und hohe Ablenkbarkeit sowie Impulsivität eine Rolle spielen). Er kann darauf aber auch verzichten und »blind-analytisch« einen Itempool zusammenstellen, in der Hoffnung, darin auch potenziell differenzierungskräftige Fragen oder Aufgaben eingeschlossen zu haben. Inwieweit diese Erwartung gerechtfertigt ist, erweist sich dann anhand der Beantwortungen beider Gruppen. Falls Unterschiede auftreten (und den Kreuzvalidierungen standhalten), ist die Validität gleichsam konstitutives Element der Skalenkonstruktion, ohne dass in derartigen Fällen in nennenswerter Weise auf inhaltliche Theorien rekurriert werden müsste. Kapitel 2 · Grundlagen diagnostischer Verfahren Übungsfrage 32 Die klassische Testtheorie (KTT) x tj = w tj + e tj 2.1.1.1 (2.1) Zentrale Definitionen Die überwiegende Zahl der gebräuchlichen Tests ist nach den Regeln der sog. klassischen Testtheorie (KTT) konzipiert worden. Diese geht zurück auf das Werk von Gulliksen (1950), das seinerseits den vorläufigen Abschluss einer Entwicklung markierte, in deren Verlauf man sich um die mathematisch-statistische Fundierung der Konstruktion und Interpretation von Tests bemühte. Zwischenzeitlich ist die Entwicklung verständlicherweise weitergegangen, wobei insbesondere die Arbeiten von Novick (1966) zur präzisen Unterscheidung von Axiomen und Folgerungen sowie von Zimmerman (1975) zur mathematischen Form wichtige Meilensteine setzten. Umfassend ist die Logik der KTT bei Steyer und Eid (1993) dargestellt, die allerdings eine andere Notation als die hier gewählte verwenden. Das Attribut »klassisch« soll auf die Anciennität dieser formalen Theorie ebenso verweisen wie darauf, dass zwischenzeitlich mit der probabilistischen Testtheorie ein modernerer Ansatz formuliert wurde, der verschiedene Nachteile der KTT zu vermeiden sucht. Gleichwohl stellt die KTT auch heute noch eine wichtige Grundlage für die Konstruktion von Tests und den Umgang mit den daraus gewonnenen Messwerten dar. Der Ausgangspunkt für die Entwicklung der KTT war die Feststellung von Spearman (1910), dass messfehlerbehaftete Variablen miteinander niedriger korrelieren müssen, als sie es ohne Fehlerbehaftetheit tun würden. Einige Setzungen oder Definitionen (»Axiome«) der KTT können für solche und ähnliche Feststellungen die Erklärung liefern: 1. Jeder beobachtete Wert xtj einer Person j im Test t setzt sich additiv zusammen aus einem wahren Wert wtj dieser Person j und einem Fehlerwert etj: 2.1.1 33 2 Axiome der KTT Begriff sungswahrscheinlichkeit für den jeweiligen Abschnitt der Merkmalsausprägung aufweisen. Die zwischen den Merkmalsträgern auftretende Variation muss objektiv erfassbar sein (Objektivität). Um diese Voraussetzung zu erfüllen, muss eine gegebene Testleistung unabhängig von der Person des Untersuchungsleiters registriert werden können. Dies kann erreicht werden, indem bindende Verfahrensvorschriften zur Vorgabe der Tests und ihrer Auswertung festgelegt werden. Wenn die sich in Messwerten niederschlagenden Merkmalsausprägungen als charakteristisch für eine Person oder ein Objekt gelten sollen, müssen sie reliabel sein (Reliabilität oder Messgenauigkeit). Dieser Gesichtspunkt kann dann als erfüllt angesehen werden, wenn beobachtete Unterschiede stabil sind, d. h., wenn eine Wiederholung der Messung unter gleichen Bedingungen und an denselben Objekten oder Personen zu denselben Ergebnissen führt. Die Brauchbarkeit der in Messungen erhaltenen Resultate muss sich im Kontext weiterer Informationen erweisen. Durch gezielte zusätzliche Untersuchungen müssen Hinweise dafür erbracht werden, dass der Test auch wirklich das misst, was er messen soll (Validität oder Gültigkeit). Die Validität einer Messung kann durch den Vergleich mit einem für den betreffenden Sachverhalt relevanten äußeren Merkmal (Kriterium) oder dessen Entsprechung (anderer Test o. Ä.) bestimmt werden. 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Unabhängigkeit der Fehlerwerte Messfehler als Zufallsvariable Konzept des Messfehlers ∞ t =1 ∞ (2.2) cov(et, wu) = 0, cov(et, eu) = 0 (2.3) Die Kovarianz cov(x,y) zwischen 2 Variablen x und y entspricht dem über die Messwerte gemittelten Abweichungsprodukt r = Korrelation, cov = Kovarianz. cov (et, wt) = 0, oder, was das gleiche bedeutet, ret wt = 0 ret wu = 0 ret eu = 0 Sicher ist die Annahme der Bedingungskonstanz auch bei oftmaliger Wiederholung eines Tests nur eine Fiktion, da beispielsweise in Leistungsprüfungen mit Gedächtnis- und Übungseffekten gerechnet werden muss und schon die zweite Durchführung deshalb nur noch bedingt mit der ersten zu vergleichen ist. Es erleichtert vielleicht die Akzeptanz der Axiome, die nicht aus einer psychologischen Theorie oder auch nur nach psychologischer Reflexion abgeleitet sind, wenn an die vielfache Vorgabe eines Verfahrens gedacht wird, bei dem Übungseffekte keine Rolle spielen und sich die Probanden nicht an ihre einmal gegebene Antwort gebunden fühlen. Das gilt etwa bei Fragebogen zur Erfassung von aktuellen Zuständen; zumindest denkbar wäre es in diesem Fall, in dem Mittelwert aus der vielfach wiederholten Testung die »typische« (= »wahre«) Stimmung zu sehen. 3. Die Fehlerwerte etj sind unabhängig von den wahren Werten des Tests t oder eines anderen Tests u sowie von den Fehlerwerten euj eines anderen Tests u, sodass zwischen den Fehlerwerten von 2 Tests also nur Nullkorrelationen bestehen. ∑etji = 0; ∑etji = 0 j =1 Der Fehlerwert oder Messfehler wird somit als eine Größe angesehen, die sich beim Vorgang des Messens über den »eigentlichen« oder wahren Wert (Idealbild der klassischen Physik) legt und den beobachteten, durch eine Testung erhaltenen Wert vom wahren Wert mehr oder weniger stark abweichen lässt. Inhaltlich umfasst das Konzept des Messfehlers die Gesamtheit aller unsystematischen und nicht kontrollierbaren oder vorhersagbaren Einflussgrößen, die auf das Messergebnis einwirken können, wie z. B. positive oder negative Stimmungen, Konzentrationsstörungen, Ablenkungen, besondere Frische oder Müdigkeit, des Weiteren Tageszeit, Klima, Raumatmosphäre, die Gegenwart oder Abwesenheit von Sitznachbarn. Kurz gesagt bezieht es alles mit ein, was das Testverhalten in der einen oder anderen Richtung beeinflusst, ohne in der je spezifischen Art und Weise erneut bei anderen Probanden in genau derselben Weise aufzutreten. 2. Für jede Testperson stellt der Messfehler eine Zufallsvariable mit dem Erwartungswert (Mittelwert) Null und endlicher Varianz se2 dar, die für alle Personen gleich ist. Daraus folgt, dass die Summe der Fehlerwerte einer Person bei unendlich häufiger Messwiederholung unter identischen Bedingungen sowie die Summe der Fehlerwerte bei einmaliger Messung an unendlich vielen Personen Null ergeben muss: Kapitel 2 · Grundlagen diagnostischer Verfahren Messfehler überlagert wahren Wert 34 x = X – Mx , y = Y – My . N ∑xy , (2.4) sx ⋅ sy sx ⋅ sy ⋅ N cov(x, y ) ∑xy , , (2.6) (2.5) (2.7) (2.9) Da die wahren Werte wt und wt’ desselben Tests aus 2maliger Testung (gemäß 2.1) identisch sind, ist die Kovarianz cov (wt, wt’) identisch mit der Varianz der wahren Werte swt2 (also der wahren Varianz) in dem von Test t erfassten Merkmal: cov (x t , x t ′ ) = cov (w t , w t ′ ). Da jeder Kovarianzanteil, in dem et oder et’ enthalten ist, nach (2.3) gleich Null sein muss, ergibt sich, dass die Kovarianz der beobachteten Werte cov (xt, xt’) gleich ist der Kovarianz der wahren Werte cov (wt, wt’): cov (x t , x t ′ ) = cov (w t , w t ′ ) + cov (w t , e t ′ ) + cov (w t ′ , e t ) + cov (e t , e t ′ ). (2.8) Die Varianz der beobachteten Werte lässt sich demzufolge aufspalten oder fraktionieren in Varianzanteile zu Lasten der wahren Messwerte und solche zu Lasten der Fehler. Analog dazu lässt sich auch die Kovarianz zwischen additiv zusammengesetzten Variablen in verschiedene Kovarianzanteile zerlegen. Für die Kovarianz cov (xt, xt’) der Testwerte xt und xt’ aus der ersten und einer wiederholten Durchführung des Tests t unter identischen Bedingungen würde das nach (2.1) der Kovarianz der entsprechend zusammengesetzten Werte cov (wt + et), (wt’ + et’) gleichkommen. Diese lässt sich in 4 Anteile wie folgt zerlegen: s xt 2 = s wt 2 + s et 2 . Was für den einzelnen Messwert und dessen additive Zusammensetzung aus wahrem und Fehlerwert gilt, lässt sich in Analogie zu (2.1) auch auf die Varianz der beobachteten Werte übertragen cov(x,y) = rxy ⋅ s x ⋅ s y . Für die Kovarianz kann deshalb auch geschrieben werden rxy = rxy = Bei einer Standardisierung des Abweichungsproduktes erhält man bekanntlich den Produkt-Moment-Korrelationskoeffizienten N = Zahl der Beobachtungen, Mx = Mittelwert von X, My = Mittelwert von Y. wobei cov(x,y) = 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Identität der Kovarianz wahrer und beobachteter Werte Zerlegung der Kovarianz Zerlegung der Varianz 35 2 (2.10) cov (x t x t ′ ) . s xt ⋅ s xt ′ (2.11) s wt 2 s xt 2 (2.12) s xt 2 − s et 2 s wt 2 = rtt ⋅ s xt 2 . Durch Umstellung von (2.12) kann man auch schreiben s xt 2 s et 2 = 1- 2 . s xt rtt = Setzt man die Differenz in (2.12) ein, erhält man ist swt2 = sxt2 - set2. 2.1.1.2 Der Standardmessfehler Da sxt2 = swt2 + set2 [vgl. (2.7)], (2.13) Ein Reliabilitätskoeffizient von beispielsweise rtt = .80 bedeutet demzufolge, dass die beobachtete Testwertevarianz zu 80% auf wahre Unterschiede zwischen den Testpersonen zurückzuführen ist und zu 20% auf Fehlervarianz beruht. Die Reliabilität gibt den Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte an. Definition Die Formel (2.12) stellt die wichtigste Ableitung aus den Annahmen der klassischen Testtheorie dar. rtt = Weil aber nach (2.9) und (2.10) cov (w t , w t ′ ) = s wt 2 und weil wegen der Annahme der Wiederholung des Tests t unter völlig vergleichbaren Bedingungen auch sxt = sxt’ sein muss und deshalb s xt ⋅ s xt ′ = sxt2, gilt rtt = woraus folgt, dass cov (w t , w t ′ ) = s wt 2 (wegen w t = w t ′ ), [vgl. (2.6) und (2.9)]. Die Varianz der in einem Test t auftretenden wahren Werte ist also identisch sowohl mit der Kovarianz der wahren Werte mit sich selbst als auch derjenigen der Testwerte aus einer ersten und einer wiederholten Vorgabe des Verfahrens. Fragen wir uns nun nach der Korrelation des Tests t mit sich selbst, die, wie oben ausgeführt, einen Aspekt der Reliabilität, nämlich die Retestreliabilität oder Stabilität rtt definiert, so gilt entsprechend (2.5) cov (w t , w t ′ ) = s wt 2 (wegen w t = w t ′ ), Kapitel 2 · Grundlagen diagnostischer Verfahren Reliabilität als Quotient aus wahrer und Testwertevarianz 36 1-rtt (nach Umstellen), (nach Vereinfachung), (2.14) Um das Letztere zu vertiefen: Angenommen, der wahre Wert wtj einer Person j in einem Test t sei aus irgendwelchen Gründen bekannt und der betreffenden Person würde der besagte Test immer wieder unter identischen Bedingungen vorgegeben. In diesem Fall würden die auftretenden Messwerte, weil fehlerbehaftet, vom wahren Wert teils in der einen, teils in der anderen Richtung abweichen. Insgesamt würde die Verteilung (sofern die Konstanz der Bedingungen wirklich gewährleistet werden könnte und die Fluktuationen nur zufalls- oder fehlerbedingt sind) derjenigen einer Normalverteilung entsprechen, und zwar mit dem wahren Wert wtj der untersuchten Person als Mittelwert und dem Standardmessfehler set als Standardabweichung. Diese Modellvorstellungen sind in . Abb. 2.3 grafisch veranschaulicht. Der Bereich, in dem die beobachteten Testwerte xtj um den wahren Wert streuen, wird als Erwartungsbereich oder Mutungsintervall bezeichnet. Gemäß den relativen Häufigkeiten unter den einzelnen Abschnitten der Standardnormalverteilung liegen im Bereich von M±1 Standardabweichung (hier also wtj ± 1 set) 34% + 34% = 68% der Fallzahlen. Mit anderen Worten: Wenn der wahre Wert bekannt ist, liegen von den faktisch beobachtbaren Messwerten voraussichtlich ca. 68% in dem Bereich, der durch den Standardmessfehler in beiden Richtungen auf der Merkmalsdimension um den wahren Wert abgesteckt wird. Allgemein wird die untere Grenze utj und obere Grenze otj des Erwartungsbereiches nach der folgenden Formel bestimmt: Wie aus dem Term ersichtlich ist, hängt der Standardmessfehler von der Streuung und dem Reliabilitätskoeffizienten ab. Bei einer perfekten Reliabilität von rtt = 1.0 wird das gesamte Produkt Null und damit auch der Standardmessfehler. Im Falle von rtt = 0, also dem vollständigen Fehlen von wahrer Varianz an der Gesamtvarianz sxt2, entspricht der Standardmessfehler dagegen der Streuung der beobachteten Werte. Diese beruhen dann ausschließlich (wie es bei rtt = 0 nicht anders sein kann) auf dem Einfluss von Fehlerfaktoren. Der Standardmessfehler set gibt die Streuung der beobachteten Werte xt um die entsprechenden wahren Werte wt sowohl 4 über alle Testpersonen bei einmaliger Testung als auch 4 für eine Testperson bei oftmaliger Testung unter (nur theoretisch möglichen) identischen Bedingungen an. Der Standardmessfehler ist derjenige Anteil an der Streuung eines Tests, der zu Lasten seiner (gewöhnlich nicht perfekten, also »unvollständigen«) Zuverlässigkeit geht. Definition Mit Formel (2.14) ist der Standardmessfehler eines Tests t bestimmt. s et = s xt ⋅ s xt 2 = rtt ⋅ s xt 2 + s et 2 , s et 2 = s xt 2 - (s xt 2 ⋅ rtt ) s et 2 = s xt 2 (1 - rtt ) Das Produkt in (2.7) eingesetzt ergibt 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Erwartungsbereich für beobachtete Werte Bedeutung des Standardmessfehlers Standardmessfehler 37 2 Erwartungsbereich Wtj Set Otj 2 α – (2.15) Wie oben dargelegt wurde, geht eine der Setzungen dahin, dass der Messfehler bei allen Testpersonen (und das bedeutet: auf allen Abschnitten des Messwertekontinuums) Differenzierendes zum Standardmessfehler 4 Den Axiomen der KTT zufolge überlagern Fehlerkomponenten die wahren Werte. Bei wiederholter Testung ein und desselben Probanden mit einem bestimmten Test und der einmaligen Untersuchung vieler Probanden mit einem Verfahren mitteln sich die Fehlerwerte zu Null. Wahrer und Fehlerwert sind unkorreliert. 4 Die Reliabilität eines Tests ist das Verhältnis der Varianz der wahren Werte zur Varianz der beobachteten Werte. 4 Der Standardmessfehler ist definiert als der Anteil der durch »unvollständige« Zuverlässigkeit bedingten Fehlerkomponente an der Streuung der beobachteten Testwerte. Fazit Darin bedeutet zα/2 jenen Abszissenwert in der Standardnormalverteilung, dessen Ordinate am linken oder rechten Ende der Standardnormalverteilung genau α/2 der Gesamtfläche unter der Verteilungskurve abschneidet (zα/2 = ± 1,96 für α = 5%). Üblicherweise steht der wahre Wert eines Probanden aber nicht zur Verfügung. Eine oftmalige Testung kann allenfalls als (Gedanken-)Experiment verstanden werden, um den wahren Wert zu bestimmen. Er würde unter der fiktiven Annahme gleichbleibender Rahmenbedingungen dann nämlich identisch sein mit dem Mittelwert aller beobachteten Werte. Das in der psychodiagnostischen Praxis wiederkehrende Problem besteht allerdings darin, etwas über den Bereich auszusagen, in dem ausgehend von der einmaligen Untersuchung eines Probanden dessen wahrer Wert vermutet werden kann. Darüber wird später Näheres auszuführen sein (7 Abschn. 2.1.1.5, Festlegung des Erwartungsbereiches). u tj = w tj − zα /2 ⋅ s et otj = w tj + zα /2 ⋅ s et Utj 2 α – Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.3. Theoretische Wahrscheinlichkeitsverteilung des zufälligen Messfehlers; utj und otj für α = 5% 38 Wahrscheinlichkeitsdichte (2.16) = Reteststabilität = Inter-Item-Konsistenz (2.17) cov(w t ,w u ) , s wt ⋅ s wu wegen (2.9) gilt, dass cov (wt, wu) = cov (xt, xu). rwtwu = 2.1.1.3 (2.18) Minderungskorrekturen und Reliabilitätsindex Schon Spearman (1910) thematisierte das Problem, welchen Einfluss die Fehlerbehaftetheit von Messwerten auf die Höhe der Korrelation zwischen 2 Variablen hat. Ganz konkret lautet die Frage, ob sich die Korrelation rwtwu zwischen den wahren Werten von 2 Tests (oder Variablen) t und u bestimmen lässt, wenn deren Reliabilitäten rtt und ruu sowie die Korrelation der beobachteten Werte rxtxu beider Tests bekannt sind. Die Herleitung der Antwort ist vergleichsweise einfach: In sinngemäßer Anwendung der in (2.5) dargelegten allgemeinen Definition auf das hier anstehende Problem schreiben wir: Ansätze (= Formeln) am besten den empirisch gefundenen Messwerte-Differenzen zwischen der Erst- und einer Wiederholungstestung gerecht wird. Die Modelltests stützten sich dabei sowohl auf die Messwerte der Gesamtstichprobe als auch auf diejenigen aus (einer Kombination von) zweitem und dritten Quartil sowie auf diejenigen aus erstem und viertem Quartil. Die Resultate waren insofern konsistent, als bei Heranziehung der Gesamtstichprobe die Benutzung der Formel von Keats in allen vier Skalen die geringsten absoluten Differenzen zwischen tatsächlichen und geschätzten Werten aufwiesen, gefolgt von der klassischen Definition des Standardmessfehlers. Unter den beiden anderen Bedingungen (d. h. Betrachtung der mehr oder minder extremen Testwerte), bei denen sich wegen der hier eher wahrscheinlichen Regression zur Mitte generell größere Messfehler einstellten, war der Ansatz von Keats immer noch der präziseste, doch war in einigen Skalen Lords Formel dem herkömmlichen Standardmessfehler etwas überlegen. Insgesamt waren die Unterschiede zwischen den drei Ansätzen mit ca. 0,2 bis 0,3 Rohpunktwerten gering und deshalb mehr von theoretischem als praktischem Interesse. 7 Abschn. 3.2.3) haben Saltstone, Skinner und Tremblay (2001) geprüft, welche der drei Anhand von vier Skalen des Minnesota Multiphasic Personality Inventory (MMPI, rtt rii s et cond’ = [X(k - X)/(k - 1) - (1 - rtt /1 - rii )]1/2 Die nach dieser Formel ermittelten Standardmessfehler scheinen unter bestimmten Bedingungen überhöht zu sein. Deshalb hat Keats (1957) den Vorschlag einer Modifikation gemacht, in dem der Ausdruck von Lord in der nachfolgenden Weise um einen Term ergänzt wird, der die Reteststabilität und die Inter-Item-Konsistenz berücksichtigt: X = Rohwert einer Testperson k = Zahl der Items in einem Test s et cond = [X(k - X)/(k - 1)]1/2 gleich groß ist. Das ist gegenintuitiv, weshalb es Bemühungen gegeben hat, den Standardmessfehler spezifisch für verschiedene Merkmalsausprägungen oder für verschiedene »score levels« zu bestimmen. 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Zur Korrelation zwischen den wahren Werten von 2 Tests Modelltests zum Vergleich der verschiedenen Ansätze Bestimmung des Standardmessfehlers gesondert für verschiedene Merkmalsausprägungen 39 2 cov(x t ,x u ) sxt ⋅ rtt ⋅s xu ⋅ ruu (2.19) rxtxu rtt ⋅ ruu (2.20) .50 .90 ⋅ .80 .50 = .72 .50 = = .59. .85 rtt = .90, ruu = .80, rxtxu = .50. rwtwu = ? rxtxu = rwtwu ⋅ rtt ⋅ ruu Die Formel (2.20) zeigt darüber hinaus, dass die Korrelation von 2 messfehlerbehafteten Variablen nicht größer ausfallen kann als das geometrische Mittel rtt ⋅ ruu der beiden Reliabilitätskoeffizienten dieser Variablen, denn durch Umstellung von (2.20) erhält man: Aussage: Die Korrelation zwischen den wahren Werten der Tests t und u beträgt ca. 0.59. Der Koeffizient rxtxu ist kleiner als .59, weil mindestens einer der Tests (in diesem Fall beide Tests) nicht absolut reliabel ist. Nach (2.20): rwtwu = Frage: Test t: Test u: Beispiel Die Minderungskorrektur liefert eine Schätzung für die Korrelation der wahren Werte zweier Variablen, wenn deren Reliabilitätskoeffizienten bekannt sind. Damit wird gleichsam die »Minderung« korrigiert, der Korrelationskoeffizienten unterliegen, wenn die miteinander korrelierten Messwerte fehlerbehaftet sind. Definition Die Formel wurde von Spearman (1910) »correction for attenuation« genannt und von Lienert (1989) mit »Minderungskorrektur« übersetzt. rwtwu = Da nach (2.5) und (2.18) die standardisierte Kovarianz dem Korrelationskoeffizienten entspricht, vereinfacht sich (2.19) zu rwtwu = Daraus ergibt sich die Formel s wt = s xt ⋅ rtt und s wu = s xu ⋅ ruu . Ferner lässt sich durch Radizierung und Umstellung von (2.12) herleiten, dass Kapitel 2 · Grundlagen diagnostischer Verfahren Minderungskorrektur 40 Maximal könnte die Korrelation zwischen den wahren Werten in den Tests t und u den Wert r = 1,0 erreichen. Dann bliebe auf der rechten Seite noch das Produkt der beiden Wurzelausdrücke. Im Falle des obigen Beispiels würde das eine Obergrenze von .90 ⋅ .80 = .85 bedeuten. Dieser Herleitung kommt primär eine theoretische Bedeutung zu insofern, als sie die Frage nach der Korrelation der wahren Werte beantwortet; sie weist aber auch Implikationen für die Validierung von Tests gegenüber externen Kriterien (z. B. Fremdeinschätzungen des von dem Test zu erfassenden Merkmals, Schul- und Ausbildungserfolge, Unfallraten, Krankheits- und Fehlzeiten usw.) auf. Angesichts der häufig genug allenfalls moderaten Korrelationen zwischen Test- und Kriteriumswerten (grundsätzlich indiziert mit rtc) mag die Frage auftauchen, welche Faktoren allgemein für das Verfehlen höherer Validitätskoeffizienten verantwortlich sind und ob eine relativ leicht zu bewerkstelligende technische Verfeinerung, wie die Erhöhung der Zuverlässigkeit des Tests durch dessen Verlängerung (zu den Einzelheiten 7 Abschn 2.1.1.4), die Aussicht auf deutliche Verbesserungen eröffnet. Die gleichen Erwägungen sind natürlich auch relevant für die Kriteriumsdimension (. Abb. 2.4). Hier können durch Hinzunahme weiterer Einschätzer, durch die Erweiterung des Beobachtungsintervalls und die Verlängerung des Beurteilungskataloges i. Allg. ebenfalls die Reliabilität der Kriteriumswerte erhöht und dadurch die Voraussetzungen für eine hinlängliche Validität verbessert werden. Im Hinblick auf solche Fälle einer doppelten Minderungskorrektur werden in Formel (2.20) folgerichtig die dafür relevanten Terme eingesetzt bzw. nur andere Notationen insofern verwendet, als anstelle der Variablen u nunmehr die Kriteriumsdimension c tritt: 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 . Abb. 2.4. Die Validität von Tests zur Vorhersage des Schulerfolgs wird einerseits durch »fehlerhafte« Messwerte beeinflusst, andererseits durch inkongruente Konstrukte und schwer erfassbare Rahmenbedingungen Doppelte Minderungskorrektur Praktische Bedeutung von Minderungskorrekturen 41 2 Einfache Minderungskorrektur rtc rtt ⋅ rcc (2.22) .60 .90 ⋅ .50 .60 = .45 .60 = = .90. .67 corr rtc = Da die Reliabilitätskoeffizienten jeweils im Nenner stehen, fällt die Korrektur des Korrelationskoeffizienten um so drastischer aus, je niedriger die empirisch ermittelten Reliabilitätskoeffizienten sind (sog. »Verdünnungsparadox«). So wäre bei einer Reliabilität des Kriteriums von rcc = .70 die korrigierte Validität (also hypothetisch für den Fall einer absoluten Reliabilität von Test und Kriterium) im eben angeführten Beispiel nur auf t+ccorr rtc = .76 gestiegen. In vielen Fällen erscheint es ungerechtfertigt, die Validität durch eine Minderungskorrektur von sowohl der Test- als auch der Kriteriumsdimension anzuheben. So mag die weitere Verlängerung eines bereits umfangreichen Tests (und die damit gegebene Aussicht auf Reliabilitätserhöhung) angesichts der damit für die Probanden verbundenen Belastungen nicht zumutbar sein, zumal dann nicht, wenn die Reliabilität bereits hoch und damit der zu erwartende Zugewinn gering ist (7 unten). Zudem gilt für bestimmte Kriterien, dass wegen einer Vielzahl von zufälligen Situationsfaktoren die persönliche – und damit aus individuellen Unterschieden vorhersagbare – Komponente vergleichsweise in den Hintergrund tritt, wie es für verschiedene Unfall- und Krankheitsmaße zutrifft. Mit ausschließlich technischen Verbesserungen, die auf die Reliabilität abzielen, ist deshalb kaum zum Erfolg zu gelangen. Gleichwohl bleibt hier wie dort das Problem der zugrunde liegenden Systemstrukturen bestehen und die theoretische Frage, welchen Beitrag die Unzuverlässigkeit einer der beiden miteinander korrelierten Dimensionen im Sinne einer Beeinträchtigung der Validität leistet. Für diesen Fall der einfachen Minderungskorrektur reduziert sich in Formel (2.22) der Nenner auf jene Variablen, deren Unzuverlässigkeit aus theoretischen und praktischen Gründen interessiert, behebbar erscheint und korrigiert werden soll. Die jeweils andere Variable bleibt außer Betracht. Das bedeutet, es wird deren absolute Reliabilität unterstellt. Aussage: Wären Test und Kriterium absolut zuverlässig (= doppelte Minderungskorrektur), würde sich ein Zusammenhang von rtc = .90 ergeben. c+ t Angenommen, ein Test zur Erfassung von Intelligenz korreliere im Mittel mehrerer Klassen mit dem Urteil der Lehrkräfte über die intellektuelle Befähigung der Kinder zu rtc = .60. Der Test weise eine Zuverlässigkeit von rtt = .90 auf, das Kriterium nur eine solche von rcc = .50. Nach (2.20) resultiert daraus Beispiel (= Validität), korrigiert für die unzureichende Reliabilität des Tests und die unzureichende Reliabilität des Kriteriums. corr rtc = c+tcorr rtc=Test-/Kriteriumskorrelation c+t Kapitel 2 · Grundlagen diagnostischer Verfahren Praktische Grenzen von Minderungskorrekturen 42 corr rtc = rtc .60 .60 = = = .85 .50 .71 rcc (2.23) rxtwt = s wt 2 s wt = . s xt ⋅ s wt s xt (2.24) Da die Kovarianz cov (et, wt) gemäß dem 3. Axiom gleich Null ist, bleibt von den konzeptuellen Teilkomponenten der Kovarianz in (2.23) nur cov (wt, wt’). Diese wiederum ist gemäß (2.10) gleichbedeutend mit swt2. Das bedeutet: Sie bemisst sich als rxtwt cov (x t , w t ) = . s xt ⋅ s wt Aus dem Vergleich der einfachen mit der doppelten Minderungskorrektur (korrigierte rtc = .85 bzw. .90) geht im Übrigen hervor, dass die Korrektur logischerweise relativ wenig ändert, wenn die Reliabilität der Variablen bereits sehr hoch ist, wie es für die meisten Leistungstests und auch für viele Fragebögen durchaus die Regel ist. Die Minderungsoder Attenuationskorrekturen sind primär wichtig für das Verständnis der KTT und der vor ihrem Hintergrund beschriebenen Wechselbeziehungen. Ihre praktische Bedeutung beschränkt sich auf solche Fälle, in denen mit Gewissheit davon ausgegangen werden kann, dass das interessierende Merkmal eine größere Stabilität oder Reliabilität aufweist als die für die Testung vorgenommenen Operationalisierungen und/oder das zur Validierung herangezogene Gültigkeitskriterium. Das letztere (die unzureichende Reliabilität eines Kriteriums) trifft sicher zu für das oben gewählte Beispiel der intellektuellen Begabung, deren hohe Konstanz unter regulären Bedingungen selbst über eine längere Zeitspanne als gesichert gilt und jedenfalls reliabler ist als die Einschätzungen von Außenstehenden. Das Problemfeld von Obergrenzen für korrelative Zusammenhänge zwischen Variablen – aufgrund mangelnder Zuverlässigkeit – vorläufig abschließend, soll noch folgende Überlegung angestellt werden: Eine Limitierung der kriteriumsbezogenen Validität eines Tests muss sich schon daraus ergeben, dass er nicht enger mit irgendeiner anderen Variablen korrelieren kann als mit seinen wahren Werten. Diese Korrelation stellt im Falle unkorrelierter Fehler mithin eine theoretische Höchstmarke für jegliche Validitätskoeffizienten eines Verfahrens dar. Sie bemisst sich als Aussage: Gelänge es, die Reliabilität des Kriteriums auf rtt = 1.0 zu steigern (= einfache Minderungskorrektur), würde sich unter sonst gleichen Verhältnissen die Validität auf rtc = .85 verbessern. c rtc = .60 rcc = .50 Für den im vorangegangenen Fall erwähnten Intelligenztest und dessen Zusammenhang mit dem Kriterium von Fremdeinschätzungen soll die Validität nur für die unzureichende Reliabilität des Kriteriums minderungskorrigiert werden. Beispiel 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Korrelation der Testscores mit den wahren Werten 43 2 (2.25) 2.1.1.4 Reliabilität und Testlänge Eine weitere Ableitung aus der KTT betrifft die Abhängigkeit der Reliabilität eines Tests von dessen Länge, und zwar ausgedrückt als Zahl der Aufgaben, aus denen der Test besteht (. Abb. 2.5). Die schon auf intuitiver Basis ableitbare Erwartung, dass sich mit zunehmender Zahl von Items zu ein und demselben Merkmalsbereich eine Art Fehlerausgleich einstellen und damit die Messung immer präziser werde, ergibt sich auch aus den Annahmen der KTT, und zwar denjenigen zur vollständigen oder perfekten Korrelation zwischen wahren Werten ein- und desselben Tests und der Nullkorrelation zwischen Fehlerwerten. Zum Beweis sei zunächst allgemein auf die Additivität von Varianzen eingegangen. Als Beispiel denke man sich einen Pool von Aufgaben zur Erfassung einer bestimmten 4 4 4 4 Werte durch Messfehler den zwischen 2 Variablen bestehenden korrelativen Zusammenhang mindert. Das Ausmaß der Minderung ist abhängig von der Größe des Messfehlers, der sich seinerseits in der mehr oder weniger hohen Reliabilität ausdrückt. Um den Einfluss der Unzuverlässigkeit auf die Höhe von Korrelationen zwischen Variablen abzuschätzen bzw. um die Korrelation der wahren Werte abzuschätzen, stehen Minderungskorrekturen zur Verfügung. Angewendet auf das Problem der Validität eines Tests gegenüber einem Kriterium entspricht der einfach minderungskorrigierte Validitätskoeffizient derjenigen Validität, die der Test haben würde, wenn entweder der Test oder das Kriterium absolut zuverlässig wäre. Der doppelt minderungskorrigierte Validitätskoeffizient steht für jene Validität, die sich errechnen würde für den Fall, dass Test und Kriterium maximal zuverlässig wären. Eine Variable (ein Test) kann mit einer anderen Variablen nicht höher korrelieren als mit ihren wahren Werten. Die Obergrenze dafür definiert der sog. Reliabilitätsindex als Wurzel aus der Reliabilität. 4 Aus der Annahme unkorrelierter Fehler folgt, dass die Überlagerung der wahren Fazit rtt = .81 = .90. Bei einer Reliabilität des Tests t von rtt = .81 liegt die Obergrenze für korrelative Wechselbeziehungen (z. B. Kriteriumsvalidität) bei der Wurzel aus der Reliabilität: Beispiel ! Die Validität kann maximal die Wurzel aus der Zuverlässigkeit betragen. Höhere Koeffizienten müssten auf Artefakten beruhen. Dieser Ausdruck bezeichnet den sog. Reliabilitätsindex. rxtwt = rtt Nun ist aus (2.12) bekannt, dass die Reliabilität als das Verhältnis der Varianz von wahren zu beobachteten Werten gilt, hier aber Standardabweichungen, also die Quadratwurzeln daraus, vorliegen. Mithin kann auch geschrieben werden: Kapitel 2 · Grundlagen diagnostischer Verfahren Addition von Messwerten homogener Tests 44 N ∑x 2 . N N ∑(x t + x u )2 N N N 2 ∑x t ⋅ x u . N ∑x t 2 + ∑x u 2 + 2 ∑x t ⋅ x u (2.26) s(xt + xu)2 = s xt 2 + s xu 2 + 2 rxtxu ⋅ s xt ⋅ s xu (2.27) Aus (2.4) ist bekannt, dass der letzte Summand 2mal der Kovarianz zwischen den beiden Messwertreihen entspricht und im Sinne von (2.6) deshalb auch geschrieben werden kann: = s xt 2 + s xu 2 + = ∑x t 2 + ∑x u 2 + 2 ∑x t ⋅ x u = s(xt + xu)2 = Für die individuellen Summenwerte (xt + xu) gilt deshalb sx2 = Merkmalsdimension, der in einer Stichprobe von Personen die Messwerte Xt liefere. Des Weiteren stünde eine andere Menge von Aufgaben zur Verfügung, die dasselbe Merkmal erfassen sollen, also homogen zur erstgenannten Gruppe sind und – derselben Personenstichprobe vorgegeben – die Messwerte Xu liefern. Gefragt ist, wie groß die Varianz der pro Testperson aufsummierten Werte (Xt + Xu) ausfällt. Zur Vereinfachung schreiben wir xt = Xt - Mt bzw. xu = Xu - Mu, verwenden also die individuellen Differenzwerte zum Mittelwert der jeweiligen Verteilungen. Die allgemeine Formel für die Varianz lautet: 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Additivität von Varianzen . Abb. 2.5. Die Verlängerung von Tests zur Erhöhung der Reliabilität findet ihre Grenzen in der Zumutbarkeit für die Probanden 45 2 Herleitung des Reliabilitätszuwachses s(xt + xu)2 - s(et + eu)2 s(xt + xu)2 = s xt 2 + s xu 2 + 2 rxtxu ⋅ s xt ⋅ s xu -(s et 2 + s eu 2 + 2 reteu ⋅ s et ⋅ s eu ) . s xt 2 + s xu 2 + 2 rxtxu ⋅ s xt ⋅ s xu (gemäß (2.27)) corr rtt = s wt 2 oder s xt 2 2 s xt -s et 2 rtt = . s xt 2 Bei Verdoppelung des Tests: rtt = Wie oben gezeigt wurde, steht bei der Verlängerung eines Tests um den Faktor 2 einer Vervierfachung der Varianz der wahren Werte nur eine Verdoppelung der Fehlervarianz gegenüber, d. h. die Varianz der wahren Werte an der Testwertevarianz reichert sich stärker an als diejenige der Fehler. Daraus resultiert, da die Reliabilität gemäß (2.12) als Anteil der wahren Varianz an der Gesamtvarianz definiert ist, für die Verlängerung von Tests die Erwartung höherer Reliabilitäten – eine Ableitung, die im übrigen empirisch gut bestätigt wird. Danach erzielen bei den verschiedenen Methoden einer Bestimmung der Reliabilität die längeren Verfahren durchweg höhere Koeffizienten als die kürzeren. Welche Reliabilitätszuwächse im Einzelnen zu erwarten sind, ist aus folgender Ableitung ersichtlich: Gemäß (2.12) ist ! Die Verdoppelung des Tests bewirkt somit eine Verdoppelung der Fehlervarianz. s(et + eu)2 = set2 + seu2 + 2 · 0 · set · seu = 2 se2 . Was geschieht demgegenüber mit der Fehlervarianz? Prinzipiell das gleiche, nur korrelieren die Fehler aus den beiden Testhälften per definitionem zu Null miteinander. Dadurch wird der 2. Summand zur Gänze Null: ! Eine Verdoppelung des Tests in Einheiten von homogenen Aufgaben führt also zu einer Vervierfachung der wahren Varianz. s(wt + wu)2 = s wt 2 + s wu 2 + 2 ⋅1 ⋅ s wt ⋅ s wu = 2 sw2 + 2 sw2 = 4 sw2 . Die in (2.27) wiedergegebene Additivitätsregel gilt für die beobachteten Werte. Unterstellt man, es lägen die wahren Messwerte bzw. die daraus errechneten Varianzen vor, so resultiert daraus bei der weiteren notwendigen Annahme der Gleichheit von swt und swu und der weiteren Annahme einer Korrelation von rwtwu = 1 die folgende Gleichung ! Die Varianz von individuell summierten Werten ergibt sich somit aus der Summe der Einzelvarianzen und 2mal der Kovarianz zwischen den Messwertreihen. Kapitel 2 · Grundlagen diagnostischer Verfahren Höhere Reliabilitäten durch Verlängerung von Tests 46 2 s x 2 (1 + rxtxu ) - 2 s e 2 2 s x 2 (1 + rxtxu ) 2 (2.28) k ⋅ rtt 1 + (k - 1) rtt (2.29) n = Zahl der Items nach Korrektur/Zahl der Items vor Korrektur. Nach ihren Autoren heißt der Ausdruck »Spearman-Brown-Formel« (Lienert, 1989, S.143 ff.). . Abb. 2.6 veranschaulicht den in der Spearman-Brown-Formel definierten Zusammenhang. Aus ihr geht hervor, dass der Reliabilitätszuwachs bei niedriger (Ausgangs-)Reliabilität (z. B. rtt = .50) am größten ist, hier der stärkste Anstieg aller Kurven auftritt, und bei hohen Verlängerungsfaktoren niedriger liegt. Wie mehrfach festgestellt wurde, müssen zur Anwendung der Formel die jeweiligen Testteile homogen oder einander äquivalent sein. Ist diese Voraussetzung nicht erfüllt, bedarf es differenzierterer Ansätze (s. dazu z. B. Lienert, 1989, S. 119 f.; Lord & Novick, 1974). Die Prinzipien der Spearman-Brown-Formel gelten nicht nur für die Verlängerung, sondern auch für die Verkürzung von Skalen. Während eine der denkbaren Fragen im Sinne der erstgenannten Richtung etwa lautet, um welchen Faktor man eine Skala verlängern muss, um eine angestrebte Reliabilität zu erzielen, kann die Umkehrung in der Überlegung bestehen, wie kurz ggf. der Test ausfallen darf (etwa aus Zeitund Kostengründen), wenn eine bestimmte Reliabilität nicht unterschritten werden soll. Um solchen Problemen gerecht werden zu können, empfiehlt es sich, in der Spearman-Brown-Formel den Faktor k durch n zu ersetzen, wobei corr rtt = In allgemeiner Form lautet die Formel wie folgt: Die Zuverlässigkeit einer Testskala betrage rtt = 0.60. Bei einer Verlängerung um den Faktor 2 (= Verdoppelung) resultiert eine Reliabilität gemäß (2.28) von 2 ⋅ .60 corr rtt = = .75. 1 + .60 Beispiel 2 rxtxu . 1 + rxtxu 2 s x 2 [(1 + rxtxu ) - (1 - rxtxu )] 2 s x 2 (1 + rxtxu ) corr rtt = = weil se2 = sx2 (1 - rxtxu) [siehe Herleitung 2.14], folgt = 2 2 s x + 2 rxtxu ⋅ s x - 2 se - 2 reteu ⋅ se 2 s x 2 + 2 rxtxu ⋅ s x 2 weil 2 reteu · se2 = 0, folgt = 2 2 Unter der Annahme, dass sxt2 = sxu2 und set2 = seu2, gilt: 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Verkürzung von Tests Spearman-BrownFormel 47 2 2 Interpretation beobachteter Testwerte 1 = r" = r" = r" r "= .5 .6 .7 .8 .9 r "= 2 3 Veränderungsfaktor k 4 5 Bei der Herleitung des Standardmessfehlers ist bereits dessen eminent wichtige Bedeutung für die Handhabung bzw. Interpretation erhaltener Testwerte angesprochen worden. Weil jeder Messwert fehlerbehaftet ist, wenn der zugrunde liegende Test nicht absolut zuverlässig ist, verbietet es sich, den ermittelten individuellen Score etwa gleichzusetzen mit dem wahren Wert des Probanden. Vielmehr ist ein Unsicherheitsbereich in Rechnung zu stellen, in dem der wahre Wert vermutet werden kann. Dafür liefern die Reliabilität und der daraus abgeleitete Standardmessfehler wichtige Anhaltspunkte. 2.1.1.5 Implikationen für die psychodiagnostische Praxis Festlegung des Erwartungsbereiches Somit lässt sich festhalten, dass die Reliabilitätstheorie innerhalb der KTT einen gesetzmäßigen Zusammenhang zwischen der Länge von Tests und deren Zuverlässigkeit postuliert. Dieser Zusammenhang ist durch die Empirie gut bestätigt, was für die Brauchbarkeit der (für sich selbst nicht überprüfbaren) Axiome und sonstigen Rahmenüberlegungen der KTT spricht. Fazit Ein Test enthalte in der momentan vorliegenden Form 100 Items und weise eine Reliabilität von rtt = .90 auf. Es stellt sich die Frage, auf welches Niveau die Zuverlässigkeit absinkt, wenn aus Ökonomiegründen auf 40 Items verzichtet wird. 60 3 n= = = 0,6 100 5 0,6 • .90 corr rtt = 1+ (0,6 - 1) ⋅ .90 .54 = = .84. .64 Bei einer Verkürzung von 100 auf 60 Items (was einem Faktor k = 0,6 entspricht) würde die Reliabilität auf rtt = .84 sinken. Beispiel .5 .6 .7 .8 .9 1.0 Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.6. Zusammenhang zwischen Ausgangsreliabilität, Testverlängerung (Faktor k) und neuer Reliabilität 48 Der Erwartungsbereich für die Streuung der beobachtbaren Testwerte bei einem wahren Wert Wtj = 100 erstreckt sich somit bei der gegebenen Reliabilität und dem angenommenen Irrtumsniveau von 88 bis 112. Er schließt damit den tatsächlich beobachteten Testwert des Probanden ein. Deshalb muss die Hypothese, es handele sich um überdurchschnittliche Intelligenz, mit 5% Irrtumswahrscheinlichkeit verworfen werden. Unter den gegebenen Rahmenbedingungen wäre für »überdurchschnittlich«, also besser als Mxt = 100, ein individueller Score von Xtj = 113 mindestens erforderlich. An diesem Beispiel wird deutlich, wie überraschend groß auch bei bewährten Instrumenten die bestehenden Erwartungsbereiche ausfallen. Eine Reliabilität von rtt = .84 und eine Streuung von s = 15 besagen nichts anderes, als dass für 95 von 100 Personen, die einen identischen wahren Wert Wt in Test t aufweisen, die beobachteten Testwerte Xt in den Grenzen Wt ± 11,76 IQ-Punkte zu liegen kommen, also in einem Bereich, der nicht weniger als 23 Einheiten umfasst. Die restlichen 5% der Personen lägen noch außerhalb dieses Bereiches. Eine hohe Reliabilität oder Messgenauigkeit ist des- utj = 100 – 1,96 · 6 = 100 – 11,76 = 88, otj = 100 + 1,96 · 6 = 100 + 11,76 = 112. Für einen Probanden mit dem wahren Wert Wtj = 100 ergäben sich somit nach (2.15) folgende Grenzen des Erwartungsbereiches (auch »Confidence Limit«: CL) bei einer vorab festgesetzten, tolerierbaren Fehlerwahrscheinlichkeit von α = 5%: s et = 15 IQ-Punkte ⋅ 1-.84 = 15 ⋅ 0.4 = 6 IQ-Punkte. In . Abb. 2.3 ist das Konzept desjenigen Bereiches grafisch veranschaulicht, in dem beobachtete Werte um einen wahren Wert streuen. Je nachdem, mit welcher relativen Sicherheit eine Feststellung getroffen werden soll, wird man diesen Erwartungsbereich verschieden breit ansetzen. Ist beispielsweise eine große Sicherheit bzw. geringe Irrtumswahrscheinlichkeit der jeweiligen Feststellung notwendig (etwa weil die Konsequenzen einer darauf aufbauenden Entscheidung für die Testperson oder die testende Institution erheblich sind), muss dementsprechend fast die gesamte Breite des Erwartungsbereiches in Betracht gezogen werden als jenes Intervall, in dem der beobachtete Wert bei Bekanntheit des wahren Wertes voraussichtlich liegen wird. So liegen 68% der Fälle im Bereich von Xwt ± 1 · set , 95% im Bereich von Xwt ± 1,96 · set , usw. Mit Hilfe des Konzeptes vom Erwartungsbereich kann beispielsweise die Hypothese geprüft werden, ob der Intelligenzquotient (IQ) der Testperson j Xtj = 110, der mit dem Test t gemessen wurde, mit 95% Sicherheit (oder 5% Irrtumswahrscheinlichkeit) für eine überdurchschnittliche Intelligenz des Probanden spricht oder eine Qualifizierung im Sinne von »überdurchschnittlich« nicht gerechtfertigt ist. Der Test sei so geeicht, dass sein Mittelwert Mxt = Mwt = 100 IQ-Punkte beträgt und sich die Streuung der beobachteten Testwerte auf sxt = 15 IQ-Punkte beläuft. Solche Werte entsprechen der üblichen Eichung von allgemeinen Intelligenztests. Die Reliabilität des Tests t sei rtt = .84, was ebenfalls eine geläufige Größe darstellt. Der Standardmessfehler wäre dann nach (2.14) 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Breite von Erwartungsbereichen Beispiel: Erwartungsbereich für einen Intelligenzquotienten Gewünschte Entscheidungssicherheit 49 2 (2.30) Entgegen der nahezu invarianten Darstellung in den einschlägigen Lehrbüchern (s. Lienert, 1989; Fisseni, 1990), wie sie auch oben zunächst gegeben wurde, besteht die Bestimmung des Vertrauensintervalles bei der Eingrenzung des wahren Wertes aber nicht einfach in der Umkehrung des Schlusses, der zur Ermittlung des Erwartungsbereiches beobachteter Werte in Kenntnis der wahren führt, sondern stellt ein etwas komplizierteres Schlussverfahren dar (s. Dudek, 1979). Dieses berücksichtigt, dass die wahren Werte im Schnitt näher am Mittelwert der Testwerte Mxt liegen als die beobachteten Testwerte und diese Regression zur Mitte in Rechnung gestellt werden muss. Dadurch ist ein Präzisionsgewinn möglich, der einen etwas niedrigeren Standardmessfehler anzunehmen erlaubt, nämlich Ausgehend von den Rahmendaten aus dem Beispiel im Anschluss an . Abb. 2.3 stellt sich nunmehr die Frage, ob ein Xtj = 110 mit p < 5% vom Mittelwert Mxt = 100 verschieden ist. Da die Reliabilität und Streuung übernommen werden sollen (rtt = 0.84; sxt = 15) muss auch das Mutungsintervall mit CL = 2 · 11,76 (für beide Richtungen) so ausfallen wie im vorangegangenen Beispiel. Die Aussage lautet aber jetzt: Bei einem beobachteten Wert von Xtj = 110 reicht das Intervall, in dem mit 95% Sicherheit der wahre Wert zu erwarten ist, von 98 bis 122. Von daher kann nicht mit Gewissheit davon ausgegangen werden, dass im besagten Fall eine überdurchschnittliche Intelligenz vorliegt. Beispiel Wie unschwer festzustellen ist, gleicht die Formel (2.30) dem Inhalt von (2.15), nur mit dem Unterschied, dass dort von dem wahren und hier von dem beobachteten Wert ausgegangen wird. CL = Erwartungsbereich oder Vertrauensintervall oder Mutungsbereich, Xtj = beobachteter Wert eines Probanden j in Test t, zα/2 = Irrtumswahrscheinlichkeit (z-Wert für eine vorgegebene Häufigkeit in der Standardnormalverteilung), set = Standardmessfehler. CL = X tj ± zα /2 ⋅ s et halb eminent wichtig für die gesamte empirische Psychologie und speziell für die psychologische Diagnostik. Gelänge es, etwa durch Hinzunahme weiterer Aufgaben in den Test, dessen Reliabilität auf rtt = .95 zu erhöhen, käme das mit ca. ± 6,5 = 13 Punkten insgesamt ungefähr einer Halbierung des Erwartungsbereiches gleich. Doch auch dieser Betrag muss noch als unakzeptabel hoch für individuelle Entscheidungen gelten. Nun liegt der wahre Wert in aller Regel nicht vor. Vielmehr soll er aufgrund der Testung erst bestimmt und das heißt hier: Möglichst genau eingegrenzt werden. Ausgehend von den bisherigen Erörterungen liegt es deshalb nahe, einen umgekehrten Schluss derart vorzunehmen, dass nicht von den wahren Werten auf den Erwartungsbereich der beobachteten geschlossen wird, sondern, ausgehend von den beobachteten Testscores, um diese ein Vertrauensintervall (CL) berechnet wird, in dem der wahre Wert liegen müsste, und zwar nach der Regel Kapitel 2 · Grundlagen diagnostischer Verfahren Suche nach dem wahren Wert 50 (2.14a) s wt (X tj - Mxt ) s xt 15 ⋅ .84 (110 − 100 ) 15 Das Intervall, in dem mit 5% Irrtumswahrscheinlichkeit der wahre Wert zu vermuten ist, beträgt demzufolge 1,96 · 5,5 = 10,8, und es erstreckt sich von 108,4 – 10,8 ≈ 97 bis 108,4 + 10,8 ≈ 119. Die Abweichungen von den Schätzungen im vorangegangenen Beispiel beziehen sich somit auf die hier geringere Breite des Vertrauensbereiches und dessen Lokalisierung um den (regredierten) wahren Wert. s w et = 15 • .84 (1 - .84) [7 (2.14a)] = 15 • 0,1344 = 5,5. Xw =100+8,4 =108,4. X w = Mxt + .84 ⋅ Für rxtwt die Obergrenze rtt [7 (2.25)] Für s wt = s xt ⋅ rtt [7 im Anschluss an (2.18)] Es gelten: X w = Mxt + rxtwt Die Rahmendaten seien dieselben wie im vorangegangenen Beispiel: Xtj = 110, Mxt = 100, rtt = .84. Gesucht wird der wahre Wert und dessen Erwartungsbereich. Die Rahmendaten werden in Analogie zu (2.38) und (2.39) eingesetzt in die allgemeine Formel: Beispiel Das damit gegebene bzw. schätzbare Unsicherheitsintervall ist also um den geschätzten wahren Wert und nicht um den beobachteten anzunehmen. Da die Prinzipien von Regressionschlüssen erst unten (7 Abschn. 2.1.1.5, »Vorhersage auf der Basis von Testwerten«) erörtert werden, ist es für das nachfolgende Beispiel notwendig, aus der detaillierten Herleitung, auf die hier ausdrücklich verwiesen sei, einige Formeln vorzuziehen. sw et = Standardmessfehler bei der Schätzung der wahren Werte auf der Basis von beobachteten Testscores, sxt = Streuung der beobachteten Werte, rtt = Reliabilität. s w et = s xt rtt (1 - rtt ) 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 51 2 2 Fehlervarianz des Mittelwertes Stichprobenfehler des Mittelwertes sx N (2.31) oder, nach Radizierung, lautet der Ausdruck für den Stichprobenfehler der Differenz von zwei Mittelwerten sMDiff2 = s(M1 + M2)2 = sM12 + sM22 als »Fehlervarianz« des Mittelwertes bezeichnet wird. Unter Bezugnahme auf die Standardnormalverteilung bedeutet das, dass im Bereich von ±1 sM um den Populationsmittelwert (34% + 34% =) 68% der Mittelwerte für Stichproben variieren werden. Die Fehlervarianz für die Differenz der Stichprobenmittelwerte zweier verschiedener unabhängiger Stichproben ist gleich deren Summe, also s M2 = s x 2 /N Die Streuung der Stichprobenmittelwerte um den Mittelwert der Mittelwerte entspricht diesem Stichprobenfehler, dessen Quadrat > Der Stichprobenfehler des Mittelwertes beschreibt den Bereich, in dem bei zufälliger Ziehung von Stichproben aus einer Grundgesamtheit deren Mittelwerte variieren, nämlich M ± sM. sx = Streuung der Messwerte, Ν = Zahl der Messwerte. sM = Eine der häufig von der Statistik zu bearbeitenden Fragen geht dahin, ob sich die Mittelwerte von zwei Personenstichproben in einer Variablen V überzufällig voneinander unterscheiden oder ob eine festgestellte Differenz nur durch Zufallseinfluss zu erklären ist. In diesem Fall wären unsystematische und damit Fehlerfaktoren, die bei einer erneuten Stichprobenziehung nicht in derselben Weise auftreten würden, für den beobachteten Unterschied verantwortlich zu machen. In der psychodiagnostischen Praxis stellen sich ganz ähnliche Probleme insofern, als die beobachteten Testwerte (ebenfalls) fehlerbehaftet sind und bei einer erneuten Untersuchung (unter hypothetisch gleichbleibenden Bedingungen) etwas anders ausfallen mögen. Auch die bei einmaliger Testung erhaltenen Scores stellen gleichsam eine Stichprobe aus der Gesamtheit aller Werte dar, die sich um den wahren Wert verteilen. Bei der Prüfung von Mittelwertsdifferenzen aus Stichproben nimmt der sog. Stichprobenfehler des Mittelwertes eine zentrale Rolle ein: Ermittlung von Unterschieden zwischen zwei Testpunktwerten Fazit Unter Heranziehung des Konzeptes vom Erwartungsbereich wird in einer Art Umkehrschluss dazu und in grober Annäherung der wahre Wert in einem Unsicherheitsintervall vermutet, das um den beobachteten Testwert »gelegt« bzw. gedacht wird, und zwar in beiden Richtungen gleich weit. Die Berücksichtigung der Tatsache, dass die wahren Werte im allgemeinen zum Mittelwert der Verteilung regredieren, erlaubt eine etwas präzisere Festlegung des Unsicherheitsintervalles. Kapitel 2 · Grundlagen diagnostischer Verfahren Unterschiede von Mittelwerten 52 (2.32) quadrierte Standardmessfehler für Stichprobe 1 bzw. 2. s eDiff (2.34) (2.33) (2.34) Da die empirische Differenz (120-108=12) größer ist als die kritische, kann mit 5% Irrtumswahrscheinlichkeit davon ausgegangen werden, dass die beiden Probanden sich voneinander unterscheiden, die Differenz also nicht durch die Unzuverlässigkeit des Tests zu erklären ist. DKritxtA-xtB = 1,96 ⋅10 2 (1 - .90) = 9. In einem Intelligenztest t mit der Standardabweichung sx = 10 habe ein Proband A den Wert xtA = 120, ein Proband B den Wert xtB = 108 erzielt. Die Zuverlässigkeit des Tests betrage rtt = .90. Frage: Unterscheiden sich beide Werte überzufällig voneinander? (p < 5%). Beispiel DKrit = zα /2 ⋅ s eDiff Diese Formel beschreibt die durch mangelnde Zuverlässigkeit (also durch Fehlereinflüsse) auftretende Streuung zwischen beobachteten Werten, denen ein und derselbe wahre Wert zugrunde liegt. In 68% der Fälle treten somit Differenzen auf, deren Ausmaß der Gleichung (2.34) entspricht. In den restlichen 32% sind die Differenzen noch größer. Gegen diese Größe müssen die beobachteten Testwertedifferenzen geprüft werden. Die »kritische Differenz« (DKrit), die empirisch übertroffen werden muss, um als bedeutsam zu gelten, bemisst sich nach sx = Streuung der Testwerte. = 2 s x 2 (1- rtt ) . = s x 2 (1 - rtt ) . s eDiff = 2s e 2 Da s e 2 = s x 2 ⋅ (1 - rtt ) , folgt Bei Annahme der Gleichheit von se12 und se22: se12, se22 = s eDiff = s e12 + s e22 . Diese Formel beschreibt die Streuung der Differenzen von je zwei Stichprobenmittelwerten um den wahren Wert Null. Gegen diese Größe werden, multipliziert mit dem z-Wert für die vorgegebene Irrtumswahrscheinlichkeit, empirische Differenzen geprüft. Für die »Stichprobe« der bei einmaliger Testung eines oder mehrerer Probanden erhaltenen individuellen Messwerte ist der Standardmessfehler die Prüfgröße. Im Fall von zwei miteinander zu vergleichenden Testscores muss in Analogie zum obigen Vorgehen die Summe der beiden Fehlerterme gebildet werden: sM12, sM22 = Fehlervarianz der Mittelwerte in Stichprobe 1 bzw. 2. s MDiff = s M12 + s M22 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Kritische Differenz 53 2 2 Differenzen in verschiedenen Skalen Wiederholte Testung DKrit X t1 - X t2 = . s eDiff s eDiff 120 - 108 12 = = 2,6. seDiff 4,5 (2.36) = Streuung der Testwerte, sx rtt1, rtt2 = Reliabilität der Skalen 1 bzw. 2. DKrit = zα /2 ⋅ s x 2 - (rtt1 + rtt2 ) (2.37) Grundsätzlich ist der Ansatz nach (2.35) auch anwendbar auf Testwerte, die ein Proband bei der wiederholten Vorgabe in ein und demselben Test erzielt hat. Solche Fragestellungen spielen überall dort eine große Rolle, wo die Bedeutsamkeit einer Veränderung gegen Zufallseinflüsse abgesichert werden soll, aufgrund einer zwischenzeitlich erfahrenen Ausbildung, einer Therapie oder eines Rehabilitationsprogrammes. Kaum weniger wichtig ist schließlich der Problemkreis einer zufallskritischen Absicherung von Testwertedifferenzen in verschiedenen Skalen. Hauptsächlich im Bereich der Intelligenz- und Interessendiagnostik interessiert häufig, in welchen Dimensionen eine Testperson relative »Stärken« oder »Schwächen« zeigt, um auf dieser Erkenntnis aufbauend einen angemessenen Rat für die bestgeeignete Berufswahl oder dergleichen geben zu können. Denkbar ist auch die Kontrastierung von Scores, die vielleicht zu ganz verschiedenen Zeitpunkten erhoben wurden, zwar mit ein und derselben Skala, die aber doch zu den beiden Zeitpunkten nachweislich unterschiedlich reliabel gewesen sein mag. In dem einen wie dem anderen Fall erfordert das den Vergleich von Werten aus verschiedenen Variablen mit unterschiedlicher Reliabilität. Bei gleicher Streuung in den miteinander verglichenen Variablen führt die Summation der beiden Standardmessfehler zu folgender Formel: Die Wahrscheinlichkeit, dass bei einer Zuverlässigkeit von rtt = .90 und einer Streuung von sx = 10 eine Differenz von 12 oder mehr zwischen zwei Testwerten auftritt, entspricht einem z-Wert von 2,6, d. h. nur in ca. 1% aller Fälle ist mit einem derartigen Ergebnis zu rechnen. Aus diesem Grunde erscheint es gerechtfertigt, von einem wahren Leistungsunterschied der beiden Probanden auszugehen. zα = Für die Daten aus dem vorigen Beispiel wird die Gleichung wie folgt lauten: Beispiel Xt1, Xt2 = Testwerte 1 und 2. zα /2 = Wie ersichtlich, lässt sich mit (2.35) auch die Wahrscheinlichkeit für das Auftreten einer bestimmten, empirisch ermittelten Differenz ermitteln. Dafür muss die Formel lediglich umgestellt werden: Kapitel 2 · Grundlagen diagnostischer Verfahren Wahrscheinlichkeit einer bestimmten Differenz 54 = 19,6 ⋅ 0,22 Testwerte stellen gewöhnlich quantitative Einheiten zur Kategorisierung des relativen Grades der jeweiligen Merkmalsausprägung dar. Insofern liefern sie unmittelbare Informationen im Sinne einer Diagnose. Ein IQ-Punktwert von XtjA = 130 steht für eine höhere allgemeine Intelligenz als ein solcher von XtjB = 115. Standardwerte von XtjC = 105 und XtjD = 90 in einem Fragebogen zur Ängstlichkeit indizieren, dass der erste Proband sehr viel ängstlicher im Vergleich zum zweiten ist usw. Sofern die betreffenden Messwerte gegeneinander inferenzstatistisch abgesichert sind, unterscheiden sich somit auch die damit getroffenen »Diagnosen« im Sinne einer quantitativen Bestimmung der individuellen Position auf der Merkmalsdimension: 130 ist signifikant verschieden von 115, das gleiche trifft zu für die Differenz von 105 und 90 usw. In der Regel wird man sich mit solch einfachen Diagnosen aber nicht begnügen können, weil die Testung häufig genug nur mit dem Ziel vorgenommen wurde, daraus Konsequenzen abzuleiten. Diese können darin bestehen, den Probanden eine wissenschaftlich hinreichend fundierte Empfehlung zur Schul- oder Berufswahl zu geben, die Ausichten abzuklären, ob angesichts der Angstsymptomatik eine psychoanalytische oder eine verhaltenstherapeutische Behandlung angezeigt ist usw. Ein solches Vorgehen impliziert stets auch Prognosen, denn der Rat, eine Berufsausbildung zu beginnen (statt die Universität zu besuchen) oder sich einer »großen« Psychoanalyse zu unterziehen (statt an einer Gruppentherapie teilzunehmen) usw. beruht – sofern er begründet ist – stets auf der Aussicht oder der Vorhersage, dass die Testperson in dem betreffenden »Treatment« den für sie optimalen Erfolg haben wird. Die Grundlage derartiger Prognosen liefern korrelative Studien zwischen Tests auf der einen Seite und Maßen für Erfolg und Bewährung auf der anderen, oder allgemeiner: zwischen Prädiktor- und Kriteriumsvariablen. Nur wenn die entsprechenden Korrelationen signifikant und die Koeffizienten idealerweise zudem von »hinreichender« Höhe sind, die Tests also in einem Mindestmaß Validität für das anstehende Prognoseproblem aufweisen, kann der Diagnostiker hinreichend gesicherte, also von Common-sense-Erwägungen und Losentscheidungen deutlich abgehobene, Vorhersagen ableiten. Vorhersage auf der Basis von Testwerten Die getrennte Berücksichtigung der beiden Reliabilitätskoeffizienten in (2.37) läuft, wovon man sich leicht überzeugen kann, auf deren Poolung hinaus. Das heißt, die Verwendung des gemittelten Reliabilitätskoeffizienten in (2.34) führt praktisch zu denselben Ergebnissen wie deren gesonderte Heranziehung in (2.37). = 9,2 Da die empirische Differenz (125 - 108 =17) die kritische Differenz übersteigt, liegt ein bedeutsamer Unterschied zwischen beiden Werten vor. Der Proband ist im Hinblick auf numerisch-mathematische Intelligenz leistungsfähiger als im schlussfolgernden Denken. krit Im Intelligenz-Struktur-Test von Amthauer (1953) habe ein Proband im Subtest AN (Analogien) den Wert XtAN = 108, in RA (Rechenaufgaben) den Wert XtRA = 125 erzielt. Beide Skalen sind auf sx = 10 normiert. rttAN = .86, rttRA = .92. Frage: Weichen die beiden Werte signifikant voneinander ab? (p < 5%). D = 1,96 · 10 √976 2 – (.86 + .92) Beispiel 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Korrelation zwischen Prädiktor- und Kriteriumsverhalten Bedeutung und Verwendung von Testwerten Poolung von Reliabilitätskoeffizienten 55 2 2 Steigungskoeffizient (2.38a) (2.38b) ∑xy . sy (zur Herleitung 7 Anhang). sx a = Y − b yx ⋅ X Die Konstante a wird folgendermaßen bestimmt: b yx = r x2 x = X – Mx , y = Y – My . b yx = (2.39b) (2.39a) Der Terminus »Regression« stammt von Galton (1869), der bereits frühzeitig feststellte, dass die Körperlängen von Vätern und Söhnen positiv korreliert sind. Auch wenn die Maße beider Generationen in Standardwerten ausgedrückt wurden, war zu beobachten, dass die Kinder vom Mittelwert ihrer Gruppe weniger stark abwichen als die Eltern sich von ihrer Bezugsgruppe unterschieden. Das damit gegebene »Zurückfallen« bezeichnete er als »regression« (in diesem Fall als »law of filial regression«). Es stellt ein Beispiel einer nicht perfekten Korrelation dar. Würde die Korrelation perfekt gewesen sein, müssten einer Standardabweichung im Merkmal X auch eine solche in Y entsprechen. Um das Ausmaß dieses Regressionseffektes in einer bestimmten Größe auszudrücken, setzte man einfach die Zahl der Einheiten ins Verhältnis, die man in X weitergehen musste, damit sich in Y ein Anstieg von einer Einheit ergab. Am Beispiel der Regression der Kinder (Y) auf die Eltern (X) errechnete sich ein Regressionskoeffizient (seinerzeit r genannt) von b = 0.5. Der Steigungskoeffizient wird wie folgt ermittelt: ˘ = rxy s y (X i − X ) + Y Ŷ Y sx Die Gleichung für die Verwendung von Rohwerten lautet: Ŷ = vorauszusagender Wert X = unabhängiger (= Prädiktor-)Wert a = Konstante (Schnittpunkt der Regressionsgeraden mit der Ordinaten), byx = Steigungskoeffizient der Geraden (Winkel zur Abszisse), hier im Sinne der Indizierung als »Regression von y auf x«. Ŷ = a + b yx X Y̆ Im Fall von kontinuierlich-quantitativer Abstufung sowohl der Prädiktor- als auch der Kriteriumsvariablen geschieht dies auf der Basis der Regressionsrechnung. Das heißt, nach der Methode der kleinsten Quadrate wird in das Korrelationsellipsoid der Prädiktor-Kriteriums-Beziehung jene Gerade gelegt, von der über alle Merkmalsträger hinweg die Summe der quadrierten Abweichungen parallel zur Ordinate ein Minimum bildet. Diese Linie heißt Regressionsgerade. Ihre allgemeine Gleichung lautet Kapitel 2 · Grundlagen diagnostischer Verfahren Regressionsgrade 56 (2.40) Der Standardschätzfehler ist so groß wie die Streuung der Kriteriumswerte, wenn zwischen Test und Kriterium nur eine Nullkorrelation besteht. In einem solchen Fall muss die Strategie darin bestehen, für jeden Testwert X den Mittelwert aus allen Y-Werten vorherzusagen; dann würden zwar beträchtliche Fehler auftreten, doch würden diese über alle Merkmalsträger hinweg noch ein relatives Minimum darstellen. Umgekehrt sest = Fehler bei Vorhersage- (= Schätz-)Problemen, sy = Standardabweichung der Kriteriumswerte, rtc = Validitätskoeffizient (Korrelation zwischen Test und Kriterium). s est = s y 1 - rtc 2 Mit Hilfe der Regressionsgeraden werden die Kriteriumswerte »vorhergesagt«, genauer: Ausgehend von einer notwendigerweise vorliegenden Untersuchung zum Zusammenhang zwischen Prädiktor- und Kriteriumsvariablen wird unterstellt, dass sich seit der Durchführung der besagten Erhebung an den Rahmenbedingungen nichts Wichtiges geändert habe, also Mittelwerte und Streuungen in den Variablen momentan ebenso unverändert gelten wie die dazwischen bestehende Korrelation. Weiterhin wird angenommen, dass der anstehende Proband als einer der Angehörigen der seinerzeitigen Stichprobe gelten kann und deshalb für jede Klasse von X-Werten die »zugehörige« Klasse von Y-Werten »prognostiziert« werden kann, also jene, die pro X-Klasse am häufigsten war. Völlig abgesehen von den Zweifeln, die oftmals in bezug auf das Zutreffen dieser Voraussetzungen gerechtfertigt erscheinen, sind bei einem solchen Vorgehen spezifische Fehler unvermeidbar. Diese resultieren aus dem Umstand, dass für jeden Testscore nach Maßgabe der Regressionsgeraden jeweils nur ein bestimmter Kriteriumswert vorhergesagt wird, eben der mittlere (und gewöhnlich häufigste) der betreffenden Klasse. Die Kriteriumswerte streuen aber pro X-Klasse um die Regressionsgerade, wie aus . Abb. 2.7 ersichtlich ist, mehr oder weniger stark. Diese Streuung der tatsächlichen Werte um die vorhergesagten (und zwar parallel zur Ordinaten!), somit der Fehler, der sich dadurch einstellt, dass für jeden Testwert der Mittelwert der zugehörigen Klasse von Kriteriumswerten vorhergesagt wird, wird ausgedrückt im sog. »Standardschätzfehler« (zu dessen Ableitung 7 Anhang): 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 . Abb. 2.7. Variation der Kriteriumswerte parallel zur Ordinate um die Regressionsgerade. Die Standardabweichung der tatsächlich aufgetretenen um die mittels der Regressionsgeraden vorhergesagten Werte ist der Standardschätzfehler (Abb. modifiziert nach Schuler, 1996, S. 49) Standardschätzfehlter Vorhersage von Kriteriumswerten 57 2 Hier ist nur von rtt Gebrauch gemacht worden (nicht von rtc), wie es notwendig ist, wenn man auf der Basis einer Ersttestung etwa das Vertrauensintervall für den Score in einer Retestung festlegen möchte. Wie schon bei den Testwerten selbst (»Diagnose«) wird häufig auch bei den daraus abgeleiteten Prognosen eine Entscheidung darüber zu treffen sein, ob sich zwei vorhergesagte Werte überzufällig voneinander unterschieden. In direkter Analogie zu der Herleitung von (2.33) muss für diese Fragestellung der Stichprobenfehler der Differenz von zwei Standardschätzfehlern als Prüfgröße ermittelt werden: s est = s x 1- rtt 2 . s est 2 = s et 2 + s w et 2 = s x 2 (1- rtt ) + s x 2 rtt (1 - rtt ) = s x 2 - s x 2 ⋅rrtt + s x 2 (rtt - rtt 2 ) = s x 2 - s x 2 ⋅ rtt + s x 2 ⋅ rtt - s x 2 ⋅ rtt 2 = s x 2 - s x 2 ⋅ rtt 2 Nur am Rande sei darauf hingewiesen, dass sich die Fehlervarianz vonVorhersagewerten (also das Quadrat des Standardschätzfehlers) als die Summe der quadrierten Standardmessfehler aus (2.14) und (2.14a; S. 51) ergibt: Mit p < 5% wird die mittlere Schulnote im Bereich von 1,0 bis 2,8 liegen. Yest = 1,2 ± 1,96 ⋅1 1 - 0.602 = 1,2 ± 1,6. Ein Grundschüler habe in dem Intelligenz-Struktur-Test (IST) von Amthauer (1953) einen Gesamtwert Xi = 130 erzielt. Welchen Erfolg (in Einheiten von Schulnoten) wird er voraussichtlich auf einer weiterführenden Schule erreichen? (sx = 10) Der Mittelwert der Schulnoten betrage My = 3,0, deren Standardabweichung sy = 1,0. Unterstellt werde für die Schulnoten das Niveau von Intervall-Skalen. Die Korrelation IST-Gesamtwert/Schulnoten sei mit rtc = –.6 ermittelt worden (negatives Vorzeichen wegen der Polung der Noten, derzufolge hohen Ziffern niedrige Leistungen entsprechen). Nach (2.38) Yest = byx (Xi – Mx) + My . Gemäß (2.39) byx = –.60 · 0,1 = –0,06. Yest = – 0,06 (130 – 100) + 3 = 1,2. Damit wäre die mittlere Schulnote 1,2 vorherzusagen. Allerdings ist diese Schätzung mit einer Unsicherheit behaftet. Deren Ausmaß bemisst sich nach (2.40). Mit 5% Irrtumswahrscheinlichkeit wird die tatsächliche Note im Bereich von Yest ± 1,96 · sest liegen, also Beispiel ist der Standardschätzfehler Null, wenn die Korrelation rtc = 1.0 beträgt. In diesem Fall, wo keine Streuung um die Regressionsgerade vorliegt, würde man für jeden Testwert Xt, sofern beide Variablen den gleichen Maßstab aufweisen (Standardwerte), denselben Wert auch für Yt prädizieren. Kapitel 2 · Grundlagen diagnostischer Verfahren Fehlervarianz von Vorhersagewerten 58 (2.41) DKrit est wird auch als »kritische Differenz der Eignung« bezeichnet. DKrit est = zα /2 ⋅ s estDiff (2.42) Inhaltlich beschreibt diese Formel die durch mangelnde Validität auftretende Streuung von Differenzen zwischen je zwei vorhergesagten Werten, deren Prädiktion auf identischen Testscores beruht. Die Unterschiede zwischen den vorhergesagten Werten müssen somit größer sein als diese Fehlerstreuung, um als »wahre« Unterschiede gelten zu können: s estDiff = s y 2 (1 - rtc 2 ) = 2 s y 2 (1 - rtc 2 ) . Für sest (2.36) einsetzen: sest12, sest22 = quadrierte Standardschätzfehler für Stichprobe 1 bzw. 2. = 2 s est22 . s estDiff = s est12 + s est22 , und ist, wie schon aus dem Vergleich von DKrit est und Demp hervorging, weit entfernt von »seltenen« Ereignissen. zα /2 = DKrit est sestDiff 12 , = = 1,06 113 , Die empirische Differenz beträgt (2,4 – 1,2) = 1,2; sie liegt damit unter der zufallskritischen Größe von 2,2. Das bedeutet, dass sich die Schüler in ihren Schulnoten mit 5% Irrtumswahrscheinlichkeit nicht voneinander unterscheiden. Die Wahrscheinlichkeit eines Auftretens der beobachteten Differenz von 1,2 beträgt im übrigen analog zu (2.35) Yest = –0,06 (110 – 100) + 3 = 2,4. Die für Schüler A vorhergesagte Schulnote beträgt 1,2 (7 vorangegangenes Beispiel); für Schüler B muss gerechnet werden DKrit est = 1,96 ⋅1⋅ 2 (1 - .602 ) = 2,2. Außer einem Schüler mit dem Standardwert von XA = 130 gebe es einen Klassenkameraden mit XB = 110. Alle anderen Rahmendaten seien identisch mit denen aus dem vorangegangenen Beispiel. Fragestellung: Werden sich die beiden Schüler voneinander überzufällig in ihren aus den Testwerten vorhergesagten Schulnoten unterscheiden? Nach (2.42) muss die Differenz in den Kriteriumswerten mindestens betragen Beispiel 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Kritische Differenz der Eignung 59 2 2 60 2.1.1.6 Kritik an der KTT Gegenüber der klassischen Testtheorie sind verschiedene Einwände vorgebracht worden. Einige davon sind in Ergänzung der bereits gegebenen Darstellung nachfolgend aufgelistet worden, ohne dass die vorgenommene Reihung Gewichtungsfaktoren implizieren soll: 4 Die Setzungen oder Axiome der KTT sind empirisch nicht überprüfbar, einige davon (z. B. die Annahme einer Nullkorrelation zwischen wahrem und Fehlerwert) sind gegenintuitiv. 4 Die Annahme einer intraindividuellen Invarianz der wahren Werte einer Person ist nur vertretbar bei kurzen Zeiträumen und auch da nur für bestimmte Merkmalsbereiche. So liegen zahlreiche Befunde darüber vor, dass sich Leistungs- und Persönlichkeitsmerkmale während der Kindheit und Jugend ebenso verändern wie im höheren Lebensalter und verschiedene Einflussnahmen (wie Schulung und Unterweisung oder Teilnahme an psychotherapeutischen Programmen) auf eine bedeutsame Modifikation abheben. Bei der Erfassung von stimmungs-, müdigkeits- und tageszeitabhängigen Variablen erweist sich das Theorem der Konstanz wahrer Werte als Fiktion. 4 Die KTT setzt mindestens Intervall-Skalen-Niveau voraus. Bei manchen Tests ist allerdings fraglich, ob diese Qualität erreicht wird. Jedenfalls ist deren Überprüfung außerordentlich aufwendig und ihrerseits an einige nicht weiter überprüfbare Voraussetzungen gebunden (z. B. Normalverteilung der Merkmalsausprägungen des jeweiligen Konstruktes, also losgelöst von deren Erfassung mit Hilfe des betreffenden Tests). 4 Die Parameter der KTT sind populations- oder stichprobenabhängig. Je nach der Heterogenität oder Homogenität der herangezogenen Personenstichprobe in bezug auf das untersuchte Merkmal fallen die ermittelten Reliabilitätskoeffizienten eher hoch oder eher niedrig aus. Das resultiert aus der Regel, wonach Korrelationen zwischen zwei Merkmalsdimensionen an Höhe verlieren, wenn beispielsweise die extrem hohen und extrem niedrigen Werte eliminiert werden. In solchen Fällen verändert sich die Gestalt des bivariaten Korrelationsellipsoides in dem Sinne, dass seine Erstreckung reduziert wird, der Durchmesser aber in etwa gleich bleibt, was einen niedrigeren Zusammenhang bedeutet. Von daher stellt sich die Frage der Generalisierbarkeit und im Zusammenhang damit diejenige nach einer Verbindlichkeit von Resultaten. Diese Frage ergibt sich auch deshalb, weil es, wie noch zu zeigen sein wird, ganz verschiedene Techniken einer Bestimmung der Reliabilität für ein und dasselbe Verfahren gibt, mit der Folge von häufig genug sehr verschiedenen Ergebnissen. 4 Die Populationsabhängigkeit wirft weitere Probleme in einer ganz anderen Richtung auf: Verschiedene Beobachtungen weisen darauf hin, dass es innerhalb größerer Gruppen von Personen mehrere Substichproben mit unterschiedlicher Reliabilität und Validität ihrer Messwerte gibt. Bei den betreffenden Unterschieden handelt es sich mehrheitlich nicht um methodische Artefakte, sondern um Effekte, die mit Hilfe elaborierter psychologischer Theorien gut erklärbar sind (z. B. Schmitt, 1992). Daraus resultiert aber zwangsläufig die Einsicht, dass die Fehlerschätzungen primär für eine »Metastichprobe« gelten, die ihrerseits in Subgruppen mit divergierenden Fehlervarianzen zerfällt. Je nach der Gruppenzugehörigkeit einer Person wären im Einzelfall auch ganz unterschiedliche Schätzungen von wahren und Prädiktionswerten vorzunehmen. Die Zunahme an Präzision der individuellen Vorhersage durch die Heranziehung von Statistiken, also an Stichproben gewonnenen Kennwerten, erweist sich als Scheingewinn und der vermeintliche Vorteil als äußerst trügerisch. Kapitel 2 · Grundlagen diagnostischer Verfahren »Mathematische Wahrscheinlichkeitsaussagen beziehen sich (…) per definitionem nicht auf Einzelfälle, sondern auf Klassen von Elementen mit bestimmtem Umfang« (Holzkamp, 1966, S. 28). Definition Auf schwerwiegende und grundsätzliche Bedenken muss die eben bereits angesprochene Übertragbarkeit von gruppenstatistischen Kennwerten auf den Einzelfall immer dann stoßen, wenn die Reliabilität und/oder Validität niedriger als 1.0 liegen – was praktisch immer der Fall ist. Denn: 6 Was sagen gruppenstatistische Kennwerte über den Einzelfall aus? Psychologische Testverfahren basieren in ihrer theoretischen Konzeption, ihrer Konstruktion und ihren Gütekriterien auf gruppenstatistischen Kennwerten. Wenn es um die Analyse von Einzelfällen geht, ist die Aussagekraft solcher Kennwerte begrenzt, da sie für sich genommen auf den Einzelfall nicht angewandt werden können. Diese Grenzen sind allerdings nicht nur im Kontext der Testdiagnostik zu bedenken, sondern vielmehr überall dort, wo gruppenstatistische Untersuchungen vorliegen – und damit in fast allen Bereichen von psychologischer Forschung. Die Problematik einer Übertragung von Aggregatdaten auf Einzelfälle soll am Beispiel von Korrelationskoeffizienten verdeutlicht werden: Korrelationskoeffizienten erfassen einen zwischen Variablen bestehenden Zusammenhang in einem numerischen Wert zusammen. Mit Ausnahme einer Korrelation von r = +1,0 und r = –1,0 enthalten sie keine Informationen darüber, inwieweit sie auch auf einzelne Personen übertragen werden können. Dies verdeutlicht ein auf Grawe (1991) zurückgehendes Beispiel einer »unechten« Nullkorrelation (. Abb. 2.8). In . Abb. 2.8 lassen sich zwei Gruppen von Personen erkennen, für die unterschiedliche funktionale Zusammenhänge zwischen den Variablen »Symptomre- Beispiel Sofern die Korrelationen, auf denen Vorhersagen aufbauen, gegenüber dem Wert rtc = 1.0 absinken – und dabei spielt es überhaupt keine Rolle, um wieviel – bleibt zwar die Spezifikation des mittleren Vorhersagefehlers für die Gruppe als Ganzes bestehen. Aber die Möglichkeit einer Festlegung des Prädiktionsfehlers auf der Ebene des einzelnen Messwertträgers ist nicht nur vermindert, sondern faktisch als Unding entlarvt. Gruppenstatistische Daten erlauben keine Feststellung darüber, dass etwas »for each of many individuals« der Fall ist (Lamiell, 1987). Der sich durch Missachtung dieser Einsicht gleichwohl immer wieder einstellende Interpretationsfehler wurde bereits von William James um die Jahrhundertwende als Trugschluss beschrieben. Einige Testtheoretiker (z. B. Paunonen & Jackson, 1986) versuchen, einen Ausweg aus der geschilderten Problematik aufzuzeigen, indem sie eine statistische Hilfskonstruktion heranziehen. Dabei wird der beobachtete individuelle Wert als Stichprobe aus der Gesamtverteilung vieler weiterer Werte einer Person aufgefasst. Der »wahre Wert« wird – Kern der Theorie – als Mittelwert der hypothetischen Verteilung interpretiert. Holzkamp (1966) bezeichnet das als eine Verschiebung des Problems, da sich hier erneut die Frage nach der Lage des ermittelten Testwertes einer Person in Relation zum wahren Wert innerhalb der nun intraindividuell (anstelle: interindividuell) variierenden Werte ergebe. 4 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 61 2 2 . Abb. 2.9. Beispiel für eine »echte« Nullkorrelation, als Ausdruck eines fehlenden Zusammenhangs zwischen beiden Variablen. (Nach Grawe, 1991, S. 97) . Abb. 2.9 6 »Die vielschichtige Eigenschaft der Intelligenz beruht vor allem auf den Erbanlagen. Zu etwa 70% gleichen sich die IQs der eineiigen Zwillinge. 70% der IQUnterschiede in der breiten Bevölkerung sind damit auf unterschiedliche Gene zurückzuführen: Wenn dort einer dümmer ist als der andere, hat er das zu zwei Dritteln seinen Genen zu verdanken.« duktion« und »Abnahme familiärer Spannungen« gelten (positiv für A, E, F und H, negativ für B, D, C und G). Hier resultiert die Nullkorrelation für die Gesamtgruppe aus der wechselseitigen Überlagerung einer positiven und negativen Korrelation bei Subgruppen. Eine Nullkorrelation kann jedoch auch dafür stehen, dass die untersuchten Merkmale auch in Teilgruppen nichts miteinander zu tun haben, wie dieses in . Abb. 2.9 veranschaulicht ist. Hier wie dort – und auch bei allen anderen Koeffizienten, die niedriger liegen als ±1,0 – sagt der an der Gesamtgruppe ermittelte Koeffizient nichts aus über die Gegebenheiten in etwaigen Teilgruppen oder gar bei einzelnen Individuen. Obwohl diese Regeln in Fachkreisen allgemein bekannt sind, hat doch erstmals Hake (2000) gezeigt, dass sogar Berufspraktiker und angehende Psychologen im Umgang mit gruppenstatistischen Kennwerten unzulässigen Schlussfolgerungen unterliegen. Sie konfrontierte Personalfachleute, eignungsdiagnostisch tätige Berater und Studenten der Psychologie in einem Interview mit einer Reihe von Szenarien, in denen die Bedeutung gruppenstatistischer Kennwerte für Einzelfälle abgeschätzt und begründet werden sollte. Eine der Aufgabenstellungen bestand beispielsweise darin, die folgenden Aussagen im Verhältnis zueinander zu bewerten: . Abb. 2.8 Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.8. Beispiel für eine »unechte« Nullkorrelation, die sich aus drei Subgruppen mit unterschiedlichen Zusammenhängen ergibt. (Nach Grawe, 1991, S. 96) 62 Jeder einzelne dieser Kritikpunkte ist gravierend, in der Gesamtheit scheinen sie von erdrückendem Gewicht zu sein. Der Widerspruch zwischen gruppenstatistischem Sinn und individueller Verwendung lässt sich nicht überbrücken. Was dagegen gehalten werden kann ist vor allem ein pragmatisches Argument: Die nach den Prinzipien der KTT entwickelten Verfahren haben sich in der psychodiagnostischen Handhabung mehr oder weniger gut bewährt (Michel & Conrad, 1982, S. 25), d. h. die Tests erlauben die differenzierte und objektive sowie reliable Beschreibung von intra- und interindividuellen Unterschieden. Zwar verfehlt die Validität vielfach das erstrebenswert hohe Ausmaß, doch muss damit das anderenfalls verfügbare Instrumentarium verglichen werden: Entscheidungen nach Gutdünken oder Los, des Weiteren vielleicht auch auf der Basis von Verfahren, deren Konstruktion und psychometrische Gütekriterien keinerlei wissenschaftlichen Ansprüchen standhalten, können keine vernünftige Alternative sein. Nur jeweils 16,5% der Personalfachleute und Berater sowie 43,8% der Studenten zeigten ein angemessenes Problembewusstsein: Der Korrelationskoeffizient und damit auch der Standardschätzfehler bezieht sich auf eine Klasse von Elementen, also auf ein Aggregat, nicht hingegen auf einzelne Elemente der Klasse. Hieraus ergibt sich, dass der Grad der Vorhersagegenauigkeit für den Einzelfall nicht bestimmt werden kann. Das Problem besteht also nicht darin, dass sich die in einer Regressionsgleichung zum Ausdruck gebrachte Gesetzmäßigkeit nicht fehlerlos auf Einzelfälle anwenden lässt, sondern dass sie auf Einzelfallebene keine Aussage zulässt, weil dort der Vorhersagefehler nicht spezifizierbar ist. Dieses wiederum bedeutet nicht, dass Vorhersagen im Kontext von Regressionsanalysen keinen Nutzen aufweisen. Vielmehr wurzeln statistische Vorhersagemodelle in der Vorstellung, »that maximizing predictive accuracy means minimizing errors of prediction in the long run, i.e. on the average« (Lamiell, 1987, S. 114). Von daher wäre es völlig abwegig, auf die Anwendung der statistischen Vorhersageprinzipien bei wiederkehrenden Vorhersageproblemen verzichten zu wollen. »Stellen Sie sich vor, die prädiktive Validität der psychologischen Tests, die Sie in Ihrem Unternehmen verwenden, hätte sich erhöht. Denken Sie, dass Sie mit den verbesserten Tests eine präzisere Prognose für den Einzelfall treffen können?« Bei den ersten drei Sätzen handelt es sich um gruppenbezogene Aussagen. Der letzte, hervorgehobene, einzelfallbezogene Satz soll sich aus den vorhergehenden Aussagen ergeben. Diese Schlussfolgerung ist jedoch unzulässig, da Unterschiede in der Intelligenz sich per definitionem nur auf Aggregate, also Gruppen von Personen, nicht aber auf einzelne Personen innerhalb der Aggregate beziehen. Nichtsdestotrotz nahmen 62,5% der Psychologiestudenten, 58,3% der Personalfachleute und 33,3% der Berater einzelfallbezogene Interpretationen des Kennwertes vor. Auch im Umgang mit anderen gruppenstatistischen Kennwerten traten in den Untersuchungsgruppen zahlreiche Fehlinterpretationen auf. 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Pragmatische Argumente für die KTT 63 2 2 Helfried Moosbrugger Item-Response-Theorie (IRT) aus einer Komponente zugunsten der wahren Merkmalsausprägung und einer anderen zu Lasten von Fehlerfaktoren. Die Fehlerwerte mitteln sich über viele Testungen aus, so dass der beobachtete Mittelwert (aus vielen Testungen eines Probanden oder aus der einmaligen Untersuchung vieler Probanden) dem wahren Wert bzw. dem Mittelwert der wahren Werte entspricht. Wahrer Wert und Fehler sind unkorreliert. Bei einer wiederholten Untersuchung mit ein und demselben Test entspricht die beobachtete Korrelation zwischen den beiden Durchführungen (= Retestreliabilität) dem Anteil der wahren Varianz an der Gesamtvarianz. Ad 2. Der Standardmessfehler ist ein Maß für den Anteil der Fehlerstreuung an der Streuung von Testwerten, der Standardschätzfehler ein solches für den Anteil der Fehlerstreuung an den Werten, die auf regressionsanalytischer Basis, von Testscores ausgehend, geschätzt (= »vorhergesagt«) werden. Beide Ausdrücke erlauben die Bestimmung von Konfidenzintervallen für die wahren Werte aus den diagnostizierten bzw. prognostizierten Scores und damit eine zufallskritische Absicherung beobachteter Differenzen. Ad 3. Die Varianz individuell addierter Testwerte stellt die Summe der Varianz aus den Einzeltests dar, zu der zusätzlich 2mal die Kovarianz zwischen den Einzelmaßen hinzugefügt werden muss. Für die wahren Testwerte ist diese Kovarianz so groß wie die Varianz der Einzelmaße, für die Fehlerwerte ist sie Null. Aus diesem Grunde kommt es beispielsweise bei Verdoppelung eines homogenen Tests zu einer Vervierfachung der wahren und einer Verdoppelung der Fehlervarianz, was einer Erhöhung der Reliabilität entspricht. Ad 4. Minderungskorrekturen liefern Schätzungen für den korrelativen Zusammenhang messfehlerbereinigter Variablen. Vorwiegend sind sie für das theoretische Verständnis von Bedeutung, dienen aber auch praktischen Belangen, wenn es um die Steigerung von Validitätskoeffizienten durch technische Maßnahmen geht, die entweder auf der Test- oder/und der Kriteriumsseite ansetzen. Mit der Klassischen Testtheorie (KTT) verfügt die Psychodiagnostik über einen bewährten Ansatz zur Beurteilung der Reliabilität von Messinstrumenten. Dennoch bleiben zumindest drei wesentliche Fragen unbeantwortet: Erstens ist die Skalendignität der untersuchten Merkmale meist nicht genau anzugeben, zweitens erweisen sich die gefundenen Kennwerte als stichprobenabhängig, so dass unklar bleibt, welche Aussagen zulässig sind, und drittens kann nicht überprüft 2.1.2 4. Was sind Minderungskorrekturen und wofür benötigen wir sie? 3. Warum kommt es bei der Verlängerung von Tests zu einem Anstieg der Reliabilität? 2. Was bedeuten Standardmessund Standardschätzfehler? Wofür sind sie von eminenter Bedeutung? KTT und die wichtigsten damit verbundenen Implikationen? ? 1. Welches sind die Axiome der (zu Abschn. 2.1.1) ! Ad 1. Jeder beobachtete Testwert setzt sich konzeptuell zusammen Kapitel 2 · Grundlagen diagnostischer Verfahren Übungsfragen 64 Wenn wir nun hypothetisch annehmen, dass es eine latente Variable ξ sei, welche die Verhaltensvariation mehrerer manifester Variablen (Testitems, Indikatorvariablen) erzeugt, so wird sich dies in beobachtbaren Korrelationen zwischen den Testitems niederschlagen. Will man in Umkehrung dieser Überlegung von manifesten Variablen auf eine potentiell dahinterliegende latente Variable ξ zurückschließen, müssen als notwendige, aber nicht hinreichende Bedingung mehrere untereinander korrelierende Testitems als Datenbasis vorliegen. Doch nur, wenn die Testitems Indikatoren der latenten Variablen ξ sind, kann die latente Variable als »Ursache« für die Korrelation zwischen den manifesten Variablen angesehen werden. Man bezeichnet die Items dann als »homogen« bezüglich der latenten Variablen ξ. Folglich stellt sich nun die Frage, wann von einer solchen Itemhomogenität ausgegangen werden darf. Eine wesentliche Bedingung zur Präzisierung dessen, was unter Itemhomogenität zu verstehen ist, stellt die sogenannte »lokale stochastische Unabhängigkeit« dar. Wenn alle Items Manifestationen ein- und derselben latenten Dimension sein sollen, so werden ihre Korrelationen nur durch die Unterschiede in der latenten Dimension ξ hervorgerufen. Diese Verursachung kann überprüft werden, indem man die latente Dimension auf einem bestimmten Wert (auf einer lokalen Stufe, z. B. ξv oder ξw) konstant hält. Sind die Items homogen, so muss sich nun die lokale stochastische Unabhängigkeit zeigen, welche darin besteht, dass die Korrelationen zwischen den Items auf Bei den manifesten Variablen handelt es sich im Kontext der IRT um das beobachtbare Antwortverhalten auf verschiedene Testitems, bei den latenten Variablen hingegen um nicht beobachtbare dahinterliegende Fähigkeiten oder Dispositionen, von welchen das manifeste Verhalten als abhängig angesehen wird. Definition 2.1.2.1 Grundüberlegungen der Item-Response-Theorie Die Item-Response-Theorie (Lord, 1980; Hambleton & Swaminathan, 1985; Fischer, 1996) geht explizit der Frage nach, welche Rückschlüsse auf interessierende Einstellungs- oder Fähigkeitsmerkmale gezogen werden können, wenn von den Probanden lediglich Antworten (responses) auf diverse Testitems vorliegen. »Die IRT ist aus dem Versuch entstanden, diese Frage innerhalb eines bestimmten formalen Rahmens zu präzisieren und Antworten darauf unter verschiedenen restriktiven Voraussetzungen zu geben« (Fischer, 1996, S. 673). In der IRT wird als grundsätzliche Annahme zunächst zwischen zwei Ebenen von Variablen unterschieden, und zwar zwischen manifesten Variablen und latenten Variablen. werden, ob die Testitems bezüglich des (der) jeweils untersuchten Merkmals (Merkmale) homogen sind, weshalb die untersuchten Merkmale nur operational definiert werden können. Um die mit der KTT einhergehenden Probleme zu überwinden, wurde die sog. Item-Response-Theorie (IRT) konzipiert, welche auf einer wesentlich strengeren Annahmenbasis als die KTT beruht. (Neben der international etablierten Bezeichnung »Item-Response-Theorie« ist in Europa auch die Bezeichnung »Probabilistische Testtheorie«, s. z. B. Fischer, 1974; Kubinger, 1992 gebräuchlich.) Gelingt es, Tests in der Weise zu konstruieren, dass sie den Annahmen der IRT genügen, so ergeben sich – je nach Modell – verschiedene psychodiagnostische Vorzüge (s. u.). 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Manifeste und latente Variablen 65 2 2 (2.43) Ein Beispiel möge den Gedankengang verdeutlichen: Gegeben seien zwei Testitems i und j mit dichotomem Beantwortungsmodus »stimmt (+)« bzw. »stimmt nicht (–)«, z. B. das Item 49 »Termindruck und Hektik lösen bei mir körperliche Beschwerden aus« und das Item 106 »Es gibt Zeiten, in denen ich ganz traurig und niedergedrückt bin« aus der revidierten Fassung des Freiburger Persönlichkeitsinventars FPI-R (Fahrenberg et al. 1994). Die Zustimmungs-, Ablehnungs- und Verbundwahrscheinlichkeiten für diese beiden Items sind in . Tab. 2.1 wiedergegeben: Betrachtet man zunächst im oberen Teil von Tab. 2.1 die Randwahrscheinlichkeiten der beiden Items, so erkennt man, dass das Item i das leichtere Item ist (Zustimmungswahrscheinlichkeit p(i+) = .60), das Item j hingegen das schwierigere (Zustimmungswahrscheinlichkeit p(j+) = .40). (Vgl. 7 Abschn. 2.2.7.1: Bei Persönlichkeitsfragebögen bezieht sich die »Itemschwierigkeit« nicht auf eine »richtige« Antwort, sondern auf den Anteil der Probanden, die im Sinne einer »höheren« Merkmalsausprägung geantwortet haben.) Die Anwendung des Multiplikationstheorems für 6 Beispiel bezeichnet man auch als Indikatoren der latenten Variablen. ! Testitems, welche die Bedingung der lokalen stochastischen Unabhängigkeit erfüllen, erfüllt: Sowohl für Personen mit niedriger als auch für Personen mit hoher Merkmalsausprägung auf der latenten Dimension sind die Korrelationen zwischen den beiden Items verschwunden (rij|ξv = rij|ξw = 0). (Diese Überlegung lässt sich auf beliebig viele Stufen der latenten Variablen ξ sowie auf jede nichtleere Teilmenge einer beliebig großen Itemmenge verallgemeinern, s. z. B. Moosbrugger, 1984, S. 76.) Deshalb können wir die beiden Items als homogen in bezug auf die latente Variable ξ auffassen. Hiermit wäre gezeigt, dass die Variation in den beiden Items auf eine latente Variable zurückgeführt werden kann, und zwar hier auf das Merkmal »Emotionalität« (FPI-R, Skala N). p((i +, j+)|ξ ) = p(i + |ξ ) ⋅ p(j + |ξ ) diesen Stufen verschwinden. Folglich kann bei Vorliegen der lokalen stochastischen Unabhängigkeit auf Itemhomogenität bezüglich ξ geschlossen werden. Man stelle sich nun das im 7 Beispiel genannte Vierfelderschema in zwei Personengruppen gleichen Umfangs aufgeteilt vor. Die eine habe auf einer potentiellen latenten Variablen ξ, welche den Zusammenhang erklären soll, eine niedrigere Ausprägung ξv, die andere hingegen eine höhere Ausprägung ξw (. Tab. 2.1, unterer Teil). Nimmt man nunmehr auf jeder der beiden latenten Stufen eine lokale Betrachtung der Rand- und Verbundwahrscheinlichkeiten vor, so sieht man an den Randwahrscheinlichkeiten, dass für Personen mit ξ = ξv die bedingte Wahrscheinlichkeit, dem Item i bzw. j zuzustimmen, auf p(i + | ξv) = .30 bzw. p(j + | ξv) = .10 gefallen ist; andererseits ist für Personen mit ξ = ξw die bedingte Wahrscheinlichkeit, dem Item i bzw. j zuzustimmen, auf p(i + | ξw) = .90 bzw. p(j + | ξw) = .70 gestiegen (jeweils verglichen mit den unbedingten Randwahrscheinlichkeiten p(i+) = .60 bzw. p(j+) = .40). Da die lokalen Verbundwahrscheinlichkeiten dem Multiplikationstheorem für unabhängige Ereignisse nun folgen, ist die Bedingung der lokalen stochastischen Unabhängigkeit Kapitel 2 · Grundlagen diagnostischer Verfahren Indikatoren der latenten Variablen 66 – + Für ξ = ξW – + Für ξ = ξV – + – – .03 .30 .70 .27 .07 .63 Item j .90 .10 + .63 .27 .07 .03 + .60 .40 Item j .33 .27 – .07 .33 + Item j .10 .90 .70 .30 .40 .60 Gründlichkeitshalber sei angemerkt, dass die Erfüllung der Bedingung der lokalen stochastischen Unabhängigkeit keineswegs trivial ist. Hätte man die Stichprobe nicht nach dem Merkmal »Emotionalität« geteilt, sondern z. B. nach »Extraversion«, so wären in jeder der beiden Teilstichproben ähnliche Korrelationen wie in der ungeteilten Stichprobe verblieben. Um in der immer größer werdenden Menge von IRT-Modellen zu einer übersichtlicheren Einteilung zu gelangen, wurden von verschiedenen Autoren durchaus verschiedene Einteilungsgesichtspunkte gewählt: So gehen etwa Weiss und Davison (1981) von der Anzahl der Modellparameter aus, Moosbrugger (1984) von der Art der itemcharakteristischen Funktion, Rost (1996) von der Variablenart der manifesten und latenten Variablen und Müller (1997) von der Separierbarkeit der Modellparameter. Im Sinne der Unterteilung nach der Variablenart erscheint es für die unabhängige Ereignisse auf eine beliebige Zelle des Vierfelderschemas, z. B. auf p(i+)xp (j+) = .60 × .40 = .24, und der Vergleich mit der Verbundwahrscheinlichkeit derselben Zelle, hier p(i+, j+) = .33, machen deutlich, dass die Zustimmung zu Item j von der Zustimmung zu Item i nicht unabhängig ist, da bei Unabhängigkeit die Bedingung p(i+)xp(j+) = p(i+, j+) hätte erfüllt sein müssen; vielmehr führt die Analyse aller Antworten auf die beiden Items zu einer deutlichen Korrelation von rij = 0.375 (Phi-Koeffizient). Item i c Item i b Item i a . Tabelle 2.1a–c. Zustimmungs-, Ablehnungs- und Verbundwahrscheinlichkeiten von zwei korrelierten Testitems i und j mit dichotomem (+/–) Antwortmodus, zunächst (a) ohne Berücksichtigung einer dahinterliegenden latenten Variablen x, sodann (b, c) bei lokaler Betrachtung auf den Stufen ξv und ξw, auf denen sich die lokale stochastische Unabhängigkeit zeigt 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Einteilungsgesichtspunkte von IRTModellen 67 2 2 Deterministische Modelle Annahmen über das Antwortverhalten Modellparameter für Personen und Item Deterministische Modelle. Der einfachste Fall einer IC-Funktion liegt vor, wenn man annimmt, dass es für jedes dichotom beantwortete Item einen bestimmten Wert auf der ξ-Skala gibt, ab dem das Item gelöst wird (bzw. dem Item zugestimmt wird). Genau diese Annahme trifft das sogenannte Skalogramm-Modell (Guttman, 1950), welches Deterministische Modelle gehen davon aus, dass das Antwortverhalten der Probanden durch die Item- und Personenparameter vollständig bestimmt ist. Probabilistische Modelle hingegen nehmen eine stochastische Beziehung zwischen dem Antwortverhalten des Probanden und den Personen- und Itemparametern an. Definition Eine Angabe über die numerische Ausprägung dieser Parameter wird erst nach Festlegung der itemcharakteristischen Funktion (IC-Funktion) möglich, welche empirisch überprüfbare Annahmen über das manifeste Antwortverhalten auf die Testitems in Abhängigkeit von der Ausprägung der latenten Traits in Form einer mathematischen Gleichung beschreibt. Durch Variation der IC-Funktion ergeben sich verschiedene spezifische Testmodelle, innerhalb derer grundsätzlich deterministische von probabilistischen Modellen unterschieden werden können (vgl. z. B. Roskam, 1996, S. 431). Itemcharakteristische Funktion (IC-Funktion) 2.1.2.2 Dichotome Latent-Trait-Modelle Innerhalb der psychologischen Diagnostik sind gegenwärtig Latent-Trait-Modelle am gebräuchlichsten. Sie stehen in gutem Einklang mit »den intuitiven psychologischen Vorstellungen über das Wesen einer latenten Eigenschaft (eines Traits) als einer nicht begrenzten, stetig veränderlichen (reellwertigen) Variablen, von deren individueller Ausprägung die Wahrscheinlichkeit des manifesten Verhaltens der getesteten Person systematisch abhängt; aufgrund dieser Abhängigkeit kann der Trait zur ›Erklärung‹ von Verhaltensunterschieden herangezogen werden. Je nachdem, welche Annahmen man im Detail über die Art des Zusammenhanges zwischen dem latenten Trait und der Verhaltenswahrscheinlichkeit macht, resultieren IRT-Modelle mit z. T. recht verschiedenen Eigenschaften« (Fischer, 1996, S. 673). Latent-Trait-Modelle gehen davon aus, dass sowohl die Ausprägungen verschiedener Probanden auf den latenten Traits als auch die traitbezogenen Anforderungen der Items an die Personen jeweils durch einen Parameter, nämlich einen einzelnen numerischen Kennwert, charakterisiert werden können. Ersterer wird als Personenparameter ξv bezeichnet (Fähigkeits-, Einstellungs-, Dispositionsparameter, nämlich die Fähigkeit des Probanden v hinsichtlich des latenten Traits), letzterer als Itemparameter σi (Schwierigkeits- bzw. Anforderungsparameter, nämlich die Anforderung, welche das Item i an die zu untersuchende Fähigkeit der Person stellt). Üblicherweise werden die numerischen Ausprägungen der beiden Parameter auf einer gemeinsamen Skala (»joint scale«) angegeben. Manche Modelle ergänzen noch einen Itemdiskriminationsparameter λi. hier gewählte Darstellung zunächst hinreichend, die Gruppe der Latent-Trait-Modelle herauszugreifen, welche von kontinuierlichen latenten Variablen ausgehen und am einfachsten für Testitems mit einem dichotomen Antwortmodus dargestellt werden können. Im 7 Abschn. 2.1.2.3 werden dann weitere Modelle der IRT vorgestellt. Kapitel 2 · Grundlagen diagnostischer Verfahren Traits und Verhalten 68 Treppenfunktion in der Regel monoton steigende Funktionen als IC-Funktion angenommen. Die IC-Funktion ordnet jeder Ausprägung der latenten Variablen ξ eine Probabilistische Modelle. In probabilistischen Modellen werden anstelle der Guttmanschen Sofern die Items dem Guttman-Modell folgen, was man an modellkonformen Reaktionsmustern erkennt, findet man den Skalenwert einer Person einfach als die Rangzahl jenes Items der Itemmenge, ab dem der Proband positiv reagiert hat (hier 3), und zwar unabhängig von den Reaktionen der anderen untersuchten Probanden. Da hier nur ordinale Reihungsinformationen der Itemschwierigkeiten vorliegen, sind aber keine Aussagen über Distanzen möglich, weder zwischen den Items noch zwischen den Personen. Auch wenn das Guttman-Modell auf den ersten Blick nicht nur einfach, sondern auch plausibel erscheint, so gilt es dennoch festzustellen, dass es als IRT-Modell für psychodiagnostische Daten in der Regel nicht tauglich ist: Die Modellkonformität der Daten wäre nämlich immer dann zu verwerfen, wenn Probanden ein schwierigeres Item lösen, obwohl sie an einem leichteren gescheitert sind. Deshalb wurden bereits von Guttman selbst »Reproduzierbarkeitskoeffizienten« eingeführt, welche davon abhängen, wieviele Rangplatzvertauschungen vorliegen; sie erlauben eine Beurteilung, ob die Modellabweichungen noch als tolerierbar angesehen werden können, oder ob die Annahme der Itemhomogenität verworfen werden muss (7 Abschn. 2.2.7.3). Eine einfache Illustration des Guttman-Modells kann am Beispiel der Ermittlung des Körpergewichts gegeben werden. Befragt man eine Person, die z. B. 78 kg schwer ist, mittels mehrerer Items über ihr Gewicht in der Weise, dass in jedem Item eine Gewichtsschwelle angegeben ist, z. B. »Sind Sie leichter als 60 kg?«, »Sind Sie leichter als 70 kg?« (80 kg, usw.), so wird die Wahrscheinlichkeit, der Frage zuzustimmen, bei einem bestimmten Item (80 kg) von Null auf Eins springen. Die Schwierigkeit dieses Items ist dann ein Indikator für die Ausprägung der latenten Variablen ξ. Beispiel als Vorläufer der später entwickelten probabilistischen Latent-Trait-Modelle angesehen werden kann. Sofern man die Items nach ihrer Schwierigkeit reiht, besagt das Skalogramm-Modell, »dass eine einheitliche Ordnung von Personen und Items existiert. Diese Ordnung hat die Eigenschaft, dass eine Person, die auf ein bestimmtes Item positiv reagiert, auch auf alle vorhergehenden Items positiv reagiert. Ferner wird eine Person, die auf ein bestimmtes Item negativ reagiert, auch auf alle nachfolgenden Items negativ reagieren« (Roskam, 1996, S. 436). . Abb. 2.10 illustriert ein solches Beispiel. 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Probabilistische Modelle Anwendungsprobleme des Guttman-Modell Beispiel für ein Guttman-Modell . Abb. 2.10. Guttman-Skala mit drei Items. Für jedes Item steigt an einer bestimmten Stelle der latenten Variablen ξ die Lösungswahrscheinlichkeit p(i+) von 0 auf 1. (Nach Stelzl, 1993, S. 144) 69 2 . Abb. 2.11. Logistische IC-Funktion. Die Lösungswahrscheinlichkeit p(xvi = 1) steigt mit zunehmender Merkmalsausprägung ξ monoton an. Für das hier veranschaulichte Item wurden die Parameter willkürlich auf σi = –1.25 und λi = 0.8 festgelegt Beispiel: BirnbaumModell exp(x vi λi (ξ v -σ i )) 1 + exp (λi (ξ v -σ i )) (2.44) Der Fähigkeitsparameter ξv bezeichnet die Merkmalsausprägung von Person v auf der latenten Dimension ξ. Der Schwierigkeitsparameter σi gibt an, wie weit links (leichte Items) bzw. wie weit rechts (schwierige Items) die IC-Funktion des Items i auf der gemeinsamen Skala von σ und ξ zu liegen kommt. Vom Diskriminationsparameter λi hängt für jedes Item die Steilheit der IC-Funktion ab, welche im Wendepunkt mit λi/4 ihr Maximum erreicht. Die charakteristische Form der logistischen Funktion ist in . Abb. 2.11 wiedergegeben (weitere Erläuterungen im folgenden Abschn. über das dichotome Rasch-Modell). p(x vi ) = Wahrscheinlichkeit p(i + | ξ) zu, mit der ein bestimmtes Item i gelöst (bzw. dem Item zugestimmt) wird. Deterministische Modelle, bei denen nur die Lösungswahrscheinlichkeiten Null und Eins vorkommen (vgl. oben), können als Grenzfall eines probabilistischen Modells aufgefasst werden. Probabilistische Latent-Trait-Modelle wurden in ihren Grundlagen von Lord und Novick (1968), von Birnbaum (1968) und von Rasch (1960) entwickelt. Alle drei Ansätze treffen ähnliche Annahmen zur Beschreibung der Beziehung zwischen manifestem Verhalten und latenter Merkmalsausprägung: Lord und Novick verwenden als IC-Funktion in ihrem »Normal-Ogiven-Modell« die Summenfunktion der Normalverteilung, die beiden anderen Ansätze verwenden hingegen die ähnlich verlaufende, aber mathematisch leichter handhabbare »logistische Funktion«. (Eine theoretische Begründung logistischer Modelle gibt z. B. Fischer, 1996, S. 678–682.) Zur näheren Beschreibung der logistischen Funktion gehen wir von einem dichotomen (+/–) Antwortungsmodus aus, bei dem der Antwort »+« einer Person v auf das Item i der numerische Wert ξvi = 1 und der Antwort »–« der numerische Wert ξvi = 0 zugewiesen wird. Durch die logistische IC-Funktion wird die Reaktionswahrscheinlichkeit p(ξvi) einer Person v auf das Item i in Abhängigkeit vom Personenparameter ξv, dem Itemschwierigkeitsparameter σi und dem Itemdiskriminationsparameter λi festgelegt. Die allgemeine Form der logistischen Funktion findet im Birnbaum-Modell Verwendung (Birnbaum, 1968) und wird durch folgende Gleichung beschrieben (mit exp als Schreibweise für die Exponentialfunktion): Kapitel 2 · Grundlagen diagnostischer Verfahren Logistische Funktion 70 exp(x vi (ξ v -σ i )) 1 + exp (ξ v - σ i ) (2.45) exp(ξ v -σ i ) 1 + exp(ξ v -σ i ) (2.46) 1 1 + exp(ξ v -σ i ) (2.47) . Abb. 2.12. Unterschiede zwischen IC-Funktionen im Rasch- und im Birnbaum-Modell. Die ICFunktionen der Items 1,2 und 3 entsprechen dem Rasch-Modell, eine Hinzunahme von Item 4 wäre nur im Birnbaum-Modell möglich. In keines der beiden Modelle würde Item 5 mit einer unregelmäßig monoton steigenden IC-Funktion passen. (Nach Stelzl, 1993, S. 146) p(x vi = 0) = und für (xvi = 0) unter Benutzung von exp(0) = 1 die Wahrscheinlichkeit, das Item nicht lösen zu können (Gegenwahrscheinlichkeit) p(x vi = 1) = Die Modellgleichung enthält für jede der dichotomen Reaktionen (Lösung/Nichtlösung) Wahrscheinlichkeitsaussagen: Für (xvi =1) erhält man die Lösungswahrscheinlichkeit p(x vi ) = Das dichotome Rasch-Modell ist das einfachste Modell aus der Gruppe der RaschModelle. Wegen λi = 1 resultiert für das dichotome Rasch-Modell eine gegenber dem Birnbaum-Modell vereinfachte Modellgleichung: Als Rasch-Modelle bezeichnet man eine Gruppe von probabilistischen Latent-TraitModellen, welche neben der lokalen stochastischen Unabhängigkeit über weitere vorteilhafte Modelleigenschaften verfügen. Zu nennen sind vor allem die erschöpfenden Statistiken, die Stichprobenunabhängigkeit der Parameterschätzungen und die spezifische Objektivität der Vergleiche. Definition Dichotomes Rasch-Modell Während das Birnbaum-Modell für die verschiedenen Items logistische IC-Funktionen mit verschiedenen Steigungen (charakterisiert durch die jeweiligen Diskriminationsparameter λi) zulässt, hält das dichotome Rasch-Modell (Rasch, 1960) alle Diskriminationsparameter λi auf dem Wert 1 konstant, was zu weiteren vorteilhaften Modelleigenschaften führt. . Abb. 2.12 veranschaulicht den Unterschied der IC-Funktionen im Rasch- und im Birnbaum-Modell. 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Modellgleichung 71 2 2 Erschöpfende Statistiken xv1 … xn1 v … n v =1 n … … ∑x v1 x11 2 Spaltensumme 1 1 Item 1 Person v =1 n … … xn2 ∑x v 2 … … xv2 … … … … … … x12 2 2 n v =1 ∑x vi xni … xvi … x1i i i … … … … … … … … n v =1 ∑x vk xnk … xvk … x1k k k k i=1 ∑xni k … i=1 ∑x vi k … i=1 ∑x 2i k i=1 ∑x1i Zeilensumme . Tabelle 2.2. Datenmatrix X mit den Antworten xvi der Personen v auf die Items i, in welcher die i = 1…k Items die Spalten und die v = 1…n Personen die Zeilen bilden Parameterschätzung. Die Schätzung der Parameter nimmt ihren Ausgang bei den einzelnen Reaktionen xvi aller Personen auf alle Items, welche in einer Datenmatrix X gesammelt werden, in der die i = 1 … k Items die Spalten und die v = 1 … n Personen die Zeilen bilden (. Tab. 2.2). Liegt Rasch-Homogenität vor, so ergibt sich als besonderer Vorteil des Modells, dass die Anzahl der Items, die von einer Person gelöst wurden (die Zeilensummenscores), eine erschöpfende (suffiziente) Statistik für den Personenparameter der betreffenden Person bildet. Umgekehrt sind im Rasch-Modell die Spaltensummenscores erschöpfende Statistiken für die Schwierigkeitsparameter der Items. Auf die Frage, wie sich die Lösungswahrscheinlichkeit mit variierenden Parameterwerten ändert, wird man rasch feststellen, dass die Differenz ξv-σi die entscheidende Größe ist. Eine Fallunterscheidung mit bestimmten Werten von σi soll das Verständnis der Modellgleichung erleichtern: 4 Für σi = ξv ergibt sich aus exp(0)/(1 + exp(0)) die Lösungswahrscheinlichkeit 1/2. Die Schwierigkeit eines Items σi ist auf der gemeinsamen Skala von Schwierigkeit und Fähigkeit (7 oben) gerade als jene Fähigkeitsausprägung ξv definiert, welche mit einer Lösungswahrscheinlichkeit p(xvi = 1) = 1/2 einhergeht. An dieser Stelle hat die logistische Funktion ihren Wendepunkt. 4 Für σi < ξv wird die Schwierigkeit des Items von der Fähigkeit des Probanden betroffen, die Lösungswahrscheinlichkeit steigt an (p(xvi = 1) > 1/2) und geht bei entsprechend großer Fähigkeit asymptotisch gegen 1. 4 Für σi > ξv übersteigt die Schwierigkeit des Items die Fähigkeit des Probanden, die Lösungswahrscheinlichkeit fällt ab (p(xvi = 1) < 1/2) und geht bei entsprechend geringer Fähigkeit asymptotisch gegen 0. Kapitel 2 · Grundlagen diagnostischer Verfahren Fallunterscheidung 72 k (2.48) 2 x12 = 1 x22 = 0 x32 = 0 Σxv2 = 1 Zeilensumme Σx1i = 2 Σx2i = 1 Σx3i = 0 Es stellt sich nun die Frage, welche Werte der dahinterliegenden Item- und Personenparameter eine solche Datenmatrix erzeugt haben. Hierfür suchen wir nach der maximalen Likelihood für die Datenmatrix X, indem wir geeignete Werte für die Itemparameter und Personenparameter auswählen. Natürlich gibt es viele Möglichkeiten, die Werte für die Parameter zu wählen, von denen einige zu einer höheren, andere hingegen nur zu einer niedrigen Likelihood für die beobachtete Datenmatrix führen. Zur Veranschaulichung wählen wir zunächst günstige Parameterwerte und vergleichen die resultierende Likelihood sodann mit der Likelihood von ungünstigen Parameterwerten. Um günstige Parameterwerte zu finden, stellen wir zunächst fest, dass Item 1 offensichtlich leichter zu bejahen ist als Item 2. Deshalb wählen wir für Item 1 einen niedrigeren Schwierigkeitsparameter (σ1 = –1) und für Item 2 einen höheren (σ2 = +1). 6 Anmerkung: xvi = 1 bedeutet »Item bejaht bzw. gelöst« und xvi = 0: »Item nicht bejaht bzw. nicht gelöst«. 1 Person 2 3 Spaltensumme Item 1 x11 = 1 x21 = 1 x31 = 0 Σxv1 = 2 Beispiel-Datenmatrix X mit den Antworten xvi der Personen v auf die Items i Zur Illustration der Parameterschätzung und der Likelihoodfunktion nehmen wir an, es hätten 3 Personen 2 dichotome bearbeitet und dabei folgendes Antwortverhalten (Datenmatrix X) gezeigt: Testitems Beispiel Dieser Ausdruck über die Wahrscheinlichkeit aller beobachteten Daten unter den Modellannahmen wird als Likelihoodfunktion bezeichnet. v =1 i =1 L = p (X) = ∏ ∏ p (x vi ) n Läge hingegen keine Modellkonformität vor, so wären Randsummen keine geeigneten Statistiken über die Personen bzw. Items. Eine der wesentlichen Aufgaben der RaschModellanalyse besteht deshalb in der empirischen Überprüfung der Frage, ob Modellkonformität gegeben ist oder nicht (7 Abschn. 2.1.2.3, »Modelltests«). Unter Benutzung der Modellgleichung für die Wahrscheinlichkeiten der einzelnen Itemantworten xvi ergibt sich die Wahrscheinlichkeit für die gesamte Datenmatrix X wegen der lokalen stochastischen Unabhängigkeit durch systematisch wiederholtes Anwenden des Multiplikationstheorems für unabhängige Ereignisse wie folgt: Items von welchen Personen gelöst wurden, entscheidend ist nur die Anzahl. ! Bei Modellkonformität ist es also für die Schätzung der Parameter gleichgültig, welche 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Likelihoodfunktion 73 2 2 74 k exp(1(2 − ( −1))) exp(1(2 − 1)) exp(1(0 − ( −1))) exp(0(0 − 1)) exp(0(( −2) − ( −1))) exp(0(( −2) − 1)) ⋅ ⋅ ⋅ ⋅ ⋅ 1+ exp(2 − ( −1)) 1+ exp(2 − 1) 1+ exp(0 − ( −1)) 1+ exp(0 − 1) 1+ exp(( −2) − ( −1)) 1+ exp(( −2) − 1) exp( x11(ξ 1 − σ 1)) exp( x12(ξ 1 − σ 2 )) exp( x 21(ξ 2 − σ 1)) exp( x 22(ξ 2 − σ 2 )) exp( x 31(ξ 3 − σ 1)) exp( x 32(ξ 3 − σ 2 )) ⋅ ⋅ ⋅ ⋅ ⋅ 1+ exp(ξ 1 − σ 1) 1+ exp(ξ 1 − σ 2 ) 1+ exp(ξ 2 − σ 1) 1+ exp(ξ 2 − σ 2 ) 1+ exp(ξ 3 − σ 1) 1+ exp(ξ 3 − σ 2 ) exp( xvi(ξ v − σ i)) (vgl. 2.45) 1+ exp(ξ v − σ i) Wahrscheinlichkeiten p(xvi) der Antworten xvi der Personen v auf die Items i (unter der Bedingung der gewählten Parameter σ1 = –1, σ2 = 1, ξ1 = –2, ξ2 = 0 und ξ3 = 2) Item 1 2 Personen 1 0,269 0,047 2 0,731 0,731 3 0,047 0,269 6 Man erkennt, dass die gewählten Parameter zu hohen Wahrscheinlichkeiten für die empirischen Daten führen, sodass davon ausgegangen werden kann, dass es sich eher um passende Parameterschätzungen handelt. Hätten wir hingegen für die besseren Probanden die schlechteren Personenparameter und umgekehrt gewählt, also ξ1 = –2, ξ2 = 0 und ξ3 = 2, so würden wir eine Likelihood von L ≈ 0,00009 erhalten, die als Produkt folgender Wahrscheinlichkeiten p(xvi) resultiert: Wahrscheinlichkeiten p(xvi) der Antworten xvi der Personen v auf die Items i (unter der Bedingung der gewählten Parameter σ1 = –1, σ2 = 1, ξ1 = 2, ξ2 = 0 und ξ3 = –2) Item 1 2 Personen 1 0,953 0,731 2 0,731 0,731 3 0,731 0,953 Wie man sieht, ist die Likelihood für die gesamte Datenmatrix mit L ≈ 0,259 verhältnismäßig hoch; sie resultiert aus dem Produkt der Wahrscheinlichkeiten p(xvi) für die empirisch beobachteten Antworten xvi der Datenmatrix X unter der Bedingung der gewählten Parameter σ1 = –1, σ2 = 1, ξ1 = 2, ξ2 = 0 und ξ3 = –2. L ≈ 0,953 ⋅ 0,731 ⋅ 0,731 ⋅ 0,731 ⋅ 0,731 ⋅ 0,953 ≈ 0,259 . L= L= v =1 i=1 L = p(X ) = ∏∏p( xvi) ; wobei p( xvi) = n Darüber hinaus stellen wir fest, dass Person 1 offensichtlich eine höhere Merkmalsausprägung als Person 2 und Person 3 aufweist. Deshalb wählen wir für Person 1 einen hohen Personenparameter (ξ1 = 2), für Person 2 einen mittleren (ξ2 = 0) und für Person 3 einen niedrigen (ξ3 = –2). Im dichotomen Rasch-Modell würde folgende Likelihood resultieren, die durch Einsetzen der beobachteten Daten xvi und der gewählten Parameterschätzungen (ξv, σi) in die Likelihoodfunktion L für die Datenmatrix X berechnet werden kann: Kapitel 2 · Grundlagen diagnostischer Verfahren Die Itemparameter werden üblicherweise nach der Conditional Maximum-Likelihood-Methode (CML-Methode) geschätzt, welche im Unterschied zur unbedingten Maximum-Likelihood-Methode die Konsistenz der Schätzung nicht beeinträchtigt (zum genaueren Verfahren s. Andersen, 1980, S. 245–249; Fischer, 1983, S. 624–628 oder Molenaar, 1995). Die mathematische Ableitung ist aufwendig und soll hier nicht dargestellt werden; die rechnerische Durchführung erfordert Computerunterstützung, z. B. in Form des Rechnerprogramms WINMIRA (Davier & Rost, o. J.). Dabei werden die Itemparameter solange verändert, bis die bedingte Likelihood für die Datenmatrix (. Tab. 2.2) ihr Maximum erreicht. Mit anderen Worten bedeutet dies, dass die Itemparameter so bestimmt werden, dass für die empirisch beobachtete Datenmatrix eine bestmögliche Anpassung resultiert. Eine ausführliche und gut nachvollziehbare Darstellung der Maximum-Likelihood-Parameterschätzungen gibt Rost, 2004, S. 309-317). Sind die Itemparameter bestimmt, so könnten bei Modellkonformität bereits die Zeilensummenscores der Probanden Hinweise auf die Ausprägung der latenten Variablen liefern. »Da die Schätzwerte für die Personenparameter letztlich nur eine monotone Transformation der Trefferzahlen sind (je mehr Treffer, desto höher der geschätzte Personenparameter), ist im allgemeinen wohl nicht zu erwarten, dass sich an den Korrelationen des Tests mit Außenkriterien viel ändert, wenn man die geschätzten Personenparameter anstelle der Trefferzahl zur Vorhersage benutzt. Das zeigte sich z. B. beim Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens (MTP von Conrad, Baumann & Mohr, 1980), bei dem sowohl für die Trefferzahl als auch für die geschätzten Personenparameter Kriteriumskorrelationen berechnet wurden. Die Unterschiede in den Korrelationen waren gering und unsystematisch.« (Stelzl, ! Diese vorteilhafte Eigenschaft des Rasch-Modells bedeutet, dass man Itemparameter schätzen kann, ohne die Personenparameter zu kennen und ohne Annahmen über deren Verteilung treffen zu müssen. Diese Eigenschaft wird auch als Stichprobenunabhängigkeit der Parameterschätzungen bezeichnet. Nach Einsetzen der Modellgleichung in die Likelihoodfunktion (7 Beispiel) lässt sich die Gleichung in der Weise umformen, dass die einzelnen Reaktionen der Personen auf die Items zugunsten der Zeilen- und Spaltensummenscores der Datenmatrix verschwinden. (Eine genaue Ableitung liefert Rost, 1996, S. 129.) Bei Modellkonformität hängt die Wahrscheinlichkeit der Daten also nicht davon ab, welche Personen welche Items gelöst haben, sondern lediglich davon, wie oft ein Item gelöst wurde, bzw. wieviele Items eine Person lösen konnte. Die Modelleigenschaften des Rasch-Modells ermöglichen als weiteren Vorteil die Separierbarkeit der Parameter. Sie erlaubt es, eine Likelihoodfunktion zu spezifizieren, die nur mehr Itemparameter enthält, aber keine Personenparameter. (Eine genaue Ableitung liefert Rost, 1996, S. 130–133.) Man erkennt, dass ungünstige Parameter nun zu deutlich niedrigeren Wahrscheinlichkeiten für die empirischen Daten führen, woraus geschlossen werden kann, dass es sich hier um unpassende Parameterschätzungen handelt. Die Höhe der Likelihood variiert also in Abhängigkeit von den gewählten Parameterschätzungen. Sie erreicht das für eine gegebene Datenmatrix mögliche Maximum dann, wenn im Wege der Parameterschätzung optimale Werte für die Personen- und Itemparameter gefunden werden. 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Schätzung der Personenparameter Schätzung der Itemparameter Stichprobenunabhängigkeit 75 2 2 Graphischer Modelltest Überprüfung der Modellkonformität Empirische Modelltests. Bevor mit einem nach dem Rasch-Modell konstruierten Test psychodiagnostische Messungen vorgenommen werden, gilt es zu überprüfen, ob Modellkonformität vorliegt. Nur dann können nämlich die günstigen Eigenschaften des Rasch-Modells – wie schon oben erwähnt – auch tatsächlich in Anspruch genommen werden. Diese Modellkonformität kann im Wege empirischer Modellkontrollen überprüft werden. Das einfachste Vorgehen besteht darin, die postulierte Stichprobenunabhängigkeit zu hinterfragen und die Probandenstichprobe nach einem relevanten Kriterium (z. B. Alter, Geschlecht, Sozialisation, etc., oder nach dem untersuchten Persönlichkeitsmerkmal selbst, vgl. dazu aber auch den Abschn. »Mixed-Rasch-Modell«) in zwei oder mehrere Substichproben zu unterteilen und in jeder der Substichproben getrennte Itemparameterschätzungen vorzunehmen. Auf diese Weise gewinnt man jeweils zwei Werte für σi, welche bei Modellkonformität nicht bzw. nur zufällig voneinander abweichen sollen. Einen ersten Überblick verschafft man sich mit dem graphischen Modelltest, bei dem die beiden Itemparameterschätzungen in einem bivariaten Streuungsdiagramm gegeneinander abgetragen werden (s. Lord, 1980, S. 37). Je näher die Itemparameter an der Hauptdiagonalen zu liegen kommen, desto größer ist die Stichprobenunabhängigkeit und desto eindeutiger die Rasch-Homogenität. Systematische Abweichungen würden hingegen Hinweise liefern auf modellinkonforme Wechselwirkungen zwischen der Itemschwierigkeit und jenem Kriterium, nach welchem die Stichprobe geteilt worden war. Ein gelungenes Beispiel zeigt . Abb. 2.13. 1993, S. 150). Dies macht deutlich, dass nicht für jede Person ein eigener, sondern für alle Personen mit demselben Zeilensummenscore ein gemeinsamer Schätzwert für den Personenparameter bestimmt werden kann, welcher in der Testpraxis aus einer Tabelle abgelesen wird. Für die Zeilensummenscores verbliebe allerdings der Nachteil, dass sie nicht direkt mit den Schwierigkeitsparametern auf einer gemeinsamen Skala verglichen werden könnten. Zur Bestimmung der Personenparameter werden deshalb den jeweiligen Zeilensummenscores mit Hilfe der Maximum-Likelihood-Schätzung diejenigen Werte von ξ zugeordnet, für welche das beobachtete Reaktionsverhalten auf die Items am wahrscheinlichsten ist (vgl. Steyer & Eid, 1993, S. 276–278). Bei Personen, die kein Item gelöst haben, weil der Test für sie zu schwierig war (Zeilensummenscore 0), und ebenso bei Personen, die alle Items gelöst haben, weil der Test für sie zu einfach war (Zeilensummenscore k bei k Items), sind die Personenparameter nicht genau bestimmbar, weil sie gegen –∞ bzw. +∞ tendieren. Ihnen können aber im Wege bestimmter Normierungen (s. Rost, 1996, S. 307–308, Weighted- ML-Methode) entsprechende Parameter zugewiesen werden. Die Modellgleichung des Rasch-Modells ist eindeutig bis auf positiv-lineare Transformationen. Daraus ergibt sich für die gemeinsame Skala von ξ und σ und somit auch für die latente Variable ξ die Dignität einer Intervallskala (vgl. Fischer, 1996, S. 686) mit frei wählbarem Nullpunkt. Die Itemparameter werden in der Regel auf den Mittelwert Null normiert, wodurch negative Werte von σ leichte Items charakterisieren, positive Werte hingegen schwierige Items. Mit der Normierung der Itemparameter liegt auch die Skala der Personenparameter fest. Negative Personenparameter zeigen an, dass die Probanden im untersuchten Aufgabenbereich geringe Merkmalsausprägungen aufweisen, positive Personenparameter sprechen für hohe Merkmalsausprägungen. Die Parameterwerte auf der gemeinsamen Skala fallen in der Regel im Intervall zwischen –3 und +3 an. Kapitel 2 · Grundlagen diagnostischer Verfahren Intervallskalierung 76 auch darauf zurückzuführen sein, dass einzelne Probanden auf die Testitems nicht in angemessener Weise reagieren, sondern vielmehr untypische Bearbeitungsstile zeigen: Akquieszenz, Schwindeln, Raten, soziale Desirabilität und arbiträres Verhalten wären hier als Gründe ebenso aufzuführen wie Sprachschwierigkeiten und mangelndes oder unterschiedliches Instruktionsverständnis. Solche Personen mit abweichenden Verhaltensstilen, welche möglichst auch transsituativ durch andere Testskalen abgesichert sein sollten, müssen gegebenenfalls ausgesondert werden, um die Personenstichprobe hinsichtlich ihres Bearbeitungsstiles zu homogenisieren. Eine solche Personenselektion macht sich die Tatsache zunutze, dass sich inadäquate Bearbeitungsstile in auffälligen Antwortmustern (»aberrant response patterns«) manifestieren können, denen unter Modellgültigkeit nur eine sehr geringe Auftretens- Personenselektion. Mängel eines Tests hinsichtlich der Modellkonformität können Will man sich nicht mit der graphischen Kontrolle begnügen, sondern die Modellkonformität numerisch fassen, so wird häufig der Likelihood-Quotienten-Test von Andersen (1973) eingesetzt, welcher für beide Teilstichproben CML-Schätzungen durchführt und diese mittels Signifikanztest auf Unterschiedlichkeit prüft, wobei das Beibehalten der Nullhypothese für, das Verwerfen gegen die Modellkonformität spricht. Sofern Differenzen nur bei einzelnen Items auftreten, kann nach Aussonderung oder Überarbeitung abermals überprüft werden, ob nunmehr Modellkonformität vorliegt. Dazu sollten möglichst neue Daten herangezogen werden. (Über weitere Optimierungsmöglichkeiten durch Itemselektion wie auch über »item-fit-Indices« s. Rost, 1996, S. 363–380.) 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Personenselektion LikelihoodQuotienten-Tests . Abb. 2.13. Graphischer Modelltest: Gegenüberstellung der nach dem RaschModell geschätzten Itemparameter der Testskala »Alltagswissen« aus dem Adaptiven Intelligenz Diagnostikum (AID; Kubinger & Wurst, 1991), einerseits für Kinder aus Deutschland und der Schweiz (Abszisse, Stichprobe 1), andererseits für Kinder aus Österreich (Ordinate, Stichprobe 2). (Nach Kubinger, 1995, S. 70) 77 2 Informationsfunktion. Die Unabhängigkeit der Personenvergleiche von den verwendeten Items macht deutlich, dass grundsätzlich alle Items eines homogenen Itempools zur Erfassung der verschiedenen Merkmalsausprägungen geeignet sind; dennoch darf aber nicht der Eindruck entstehen, dass folglich jedes Item gleich viel Information über die Merkmalsausprägungen verschiedener Personen zu liefern vermag. Vielmehr macht die logistische IC-Funktion (. Abb. 2.11) deutlich, dass die Lösungswahrscheinlichkeit p(xvi = 1) ihren stärksten Zuwachs gerade dann aufweist, wenn die Itemschwierigkeit σi mit der Merkmalsausprägung ξv übereinstimmt. Will man also mit einem bestimmten Item Vergleiche zwischen zwei Personen mit der Merkmalsdifferenz δ vornehmen, so In Umkehrung dieser Überlegung sind aber auch Vergleiche zwischen Personen spezifisch objektiv: Die Unterschiede zwischen den Personenparametern (ξv – ξw) können unabhängig von den verwendeten Items festgestellt werden. ! Dieser Aspekt ermöglicht die sogenannte spezifische Objektivität der Vergleiche, welche bedeutet, dass der Schwierigkeitsunterschied zweier Items (σi – σj) unabhängig davon festgestellt werden kann, ob Personen mit niedrigen oder hohen Merkmalsausprägungen ξ untersucht wurden (. Abb. 2.15). und lediglich entlang der ξ-Achse parallel verschoben sind. Spezifische Objektivität. Nach erfolgreicher Überprüfung der Modellkonformität kann davon ausgegangen werden, dass die IC-Funktionen aller Items die gleiche Form aufweisen wahrscheinlichkeit zukommt. Ein deutlich abweichendes Antwortmuster läge beispielweise vor, wenn eine Person die meisten leichten Items eines Tests verneint, die meisten der schwierigen Items aber bejaht. Die beiden Itemgruppen würden für ein- und dieselbe Person dann zu sehr unterschiedlichen Schlussfolgerungen hinsichtlich der latenten Fähigkeit führen, denn die Reaktionen auf die leichten Items würden eine sehr niedrige, die Reaktionen auf die schwierigen Items hingegen eine sehr hohe Merkmalsausprägung nahelegen. Bei der Testanwendung sollte im diagnostischen Einzelfall stets geprüft werden, ob sich der einzelne Proband »modellkonform« verhalten hat oder nicht. Dazu wurden »person-fit-indices« (auch »caution-indices«) entwickelt, welche auf der Basis der Antwortmuster eine Beurteilung erlauben, ob es sich um plausible oder um unplausible Testergebnisse handelt. Während etliche Verfahren aus verschiedenen Gründen nur eingeschränkt empfohlen werden können (s. Fischer, 1996, S. 692), erweisen sich die auf der Likelihoodfunktion basierenden Ansätze von Molenaar und Hoijtink (1990), Tarnai und Rost (1990) sowie von Klauer (1991) als wissenschaftlich gut fundiert. Fällt ein »person-fit-index« zu ungünstig aus, so ist bei dem jeweiligen Testergebnis Vorsicht angezeigt; die Testinterpretation sollte dann entweder unterlassen oder nur mit entsprechender Umsicht vorgenommen werden. (Für weitere Informationen zu »person-fitindices« s. Klauer, 1995, für Optimierungsmöglichkeiten durch Personenselektion s. Rost, 1996, S. 381–389.) Anstelle einer vorschnellen Personenselektion sollte aber auch überlegt werden, ob das modellinkonforme Verhalten eine relevante Information im Sinne der differentiellen Psychologie darstellt. So können gerade niedrige »person-fit-indices« ein Hinweis dafür sein, dass man es mit Probanden zu tun hat, deren Arbeitsstil anders ist als jener der Mehrheit. Diese Überlegung findet beispielsweise in der Sportpsychologie Anwendung zur Identifikation von Personen, welche über die Gabe verfügen, ihre Leistung unter Belastung zu steigern (. Abb. 2.14, s. z. B. Guttmann & Etlinger, 1991). Kapitel 2 · Grundlagen diagnostischer Verfahren »Person-fit-indices« 78 sind nur dann deutliche Unterschiede in der Lösungswahrscheinlichkeit p(xvi = 1) zu erwarten, wenn die Fähigkeiten im Bereich der Itemschwierigkeit liegen. Weichen hingegen die Fähigkeiten von der Itemschwierigkeit deutlich ab, so fallen die Unterschiede im Lösungsverhalten viel geringer aus, wie . Abb. 2.16 zeigt. Untersucht man die Unterschiede im Lösungsverhalten systematisch für immer kleiner werdende Merkmalsdifferenzen, so erhält man als Grenzfall den Differentialquotienten, welcher die Steigung der IC-Funktion angibt. Die Steigung, die beim dichotomen Rasch-Modell als Iteminformationsfunktion bezeichnet werden kann, variiert mit der Differenz zwischen Fähigkeit und Itemschwierigkeit (. Abb. 2.16). Wie man sieht, erreicht die Iteminformationsfunktion bei ξv = σi ihr Maximum und fällt nach beiden Seiten mit zunehmender Differenz zwischen ξv und σi zunächst lang- 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Iteminformationsfunktion . Abb. 2.15. IC-Funktionen zweier Rasch-homogener Items mit den Schwierigkeitsparametern σ1 = 0 und σ2 = 2. Die Differenz δ = |σ1 – σ2| ist unabhängig von ξ feststellbar. (Nach Steyer & Eid, 1993, S. 222) . Abb. 2.14. Einige Menschen zeigen einen »untypischen« Verhaltensstil, indem sie ihre Leistung unter Belastung steigern können 79 2 (2.49) (2.50) (2.51) Die Testgenauigkeit wird um so größer, je höher die Testinformation I ausfällt. Diese kann sowohl durch Vermehrung der Itemanzahl oder/und durch Vergrößerung der einzelnen additiven Iteminformationsbeträge Ii gesteigert werden. 1.96 1.96 ξ˘v − ≤ ξ v ≤ ξ˘v + I I Mit Hilfe der Gesamtinformation I kann die Genauigkeit der Personenparameterschätzung ξv als asymptotisches 95%-Konfidenzintervall kalkuliert werden (vgl. Fischer, 1983, S. 609): i =1 I = ∑ Ii k (vgl. Fischer, 1974, S. 295) und entspricht für die jeweilige Merkmalsausprägung ξv dem Produkt aus bedingter Lösungs- und Nichtlösungswahrscheinlichkeit des Items. Für einen aus k Items bestehenden Test lässt sich – infolge der lokalen stochastischen Unabhängigkeit (7 oben) additiv – die Testgesamtinformation I als Summe der einzelnen Item-Informationsbeträge berechnen: Ii = exp(ξ v -σ i ) (1 + exp(ξ v -σ i ))2 = p(x vi = 1|ξ v ) ⋅ p(x vi = 0|ξ v ) sam, dann beschleunigt und wieder verlangsamt asymptotisch gegen Null ab. Die numerische Ausprägung Ii der Iteminformationsfunktion eines bestimmten Items i ist festgelegt durch . Abb. 2.16. Lösungswahrscheinlichkeit p(xvi = 1) und Informationsfunktion Ii eines Rasch-homogenen Items mit der Itemschwierigkeit σi in Abhängigkeit von ξv. Im Fall a (links) führt die Fähigkeitsdifferenz δ =| ξ1– ξ2| zu großen Unterschieden in der Lösungswahrscheinlichkeit, im Fall b (rechts) hingegen zu geringen Unterschieden. Die Iteminformationsfunktion variiert mit dem Grad der Übereinstimmung zwischen Schwierigkeit und Fähigkeit Kapitel 2 · Grundlagen diagnostischer Verfahren Testgesamtinformation und Konfidenzintervall für ξv 80 wert, über einen großen Itempool mit entsprechend breit gestreuten Schwierigkeitsparametern zu verfügen. Werden alle diese Items beim jeweiligen Probanden zur Anwendung gebracht, so geht damit eine entsprechend lange Testdauer einher (. Abb. 2.17). Vergegenwärtigt man sich aber, dass nur solche Items, deren Schwierigkeit mit der Fähigkeit des Probanden hinreichend übereinstimmen, wesentlich zur Testgesamtinformation beitragen, die anderen Items hingegen nicht, so wird deutlich, dass alle jene Items, welche für den betreffenden Probanden allzu schwierig oder auch allzu leicht sind, fast keine Information liefern, weshalb sie bei der Testvorgabe einfach weggelassen werden könnten, ohne die Testgenauigkeit beträchtlich zu verringern. Genau diese Idee macht sich das adaptive Testen zu eigen: Zur Steigerung der Testökonomie werden bei den einzelnen Probanden nur diejenigen Testitems zur Anwendung gebracht, welche für das Fähigkeitsniveau des einzelnen Probanden eine hohe Messgenauigkeit (Iteminformation) aufweisen. Auf die anderen Items wird hingegen verzichtet. Solche adaptiven Strategien erfordern einen IRT-homogenen Itempool und können entweder manuell mit Hilfe geeigneter Verzweigungen (»branched testing«) in Paper-pencil-Tests (z. B. Adaptives Intelligenz Diagnostikum AID, Kubinger & Wurst, 1991) oder auch durch »Hochrechnen« des individuellen Personenparameterwertes nach entsprechend maßgeschneiderter Auswahl der Itemschwierigkeit (»tailored testing«) in computerbasierten Testverfahren (z. B. Frankfurter Adaptiver Konzentrationsleistungs-Test FAKT, Moosbrugger & Heyden, 1997) realisiert werden. Näheres zum adaptiven Testen siehe z. B. in Fischer (1983), Kubinger (1987, 1996), Kisser (1992) oder Stelzl (1993). Adaptives Testen. Um eine genaue Bestimmung der Personenparameter in allen Bereichen der latenten Merkmalsausprägungen vornehmen zu können, ist es gut und wünschens- 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Adaptives Testen . Abb. 2.17. Beim adaptiven Testen wird die Auswahl der Testitems dem Fähigkeitsniveau der Probanden angepasst 81 2 Veränderungsmessung Als erfolgreiche Testkonstruktionen bzw. Modellüberprüfungen von Rasch-Modellen können (ohne Anspruch auf Vollständigkeit oder Repräsentativität) folgende Entwicklungen genannt werden: 4 Gesellschaftspolitische Einstellungsskalen von Wakenhut (1974); 4 Wiener Matrizen-Test (WMT) von Formann und Piswanger (1979); Gelungene Testkonstruktionen werden. Ein so spezifiziertes linear-logistisches Modell kann wegen der geringeren Parameteranzahl nur gültig sein, wenn als notwendige (aber nicht hinreichende) Bedingung auch für das zugehörige logistische IRT-Modell ohne die lineare Zerlegung Modellkonformität besteht. In formaler Hinsicht sind linear-logistische Modelle also Spezialfälle von IRT-Modellen. Sie zwingen zu einer gründlichen Analyse der Struktur von Testaufgaben und sind daher besonders für Konstruktvalidierungen bedeutsam. Scheiblechner (1972) und Fischer (1973, 1995b) haben das dichotome Rasch-Modell zum linear-logistischen Testmodell (LLTM) erweitert, indem sie die Schwierigkeitsparameter als Linearkombination von Basisparametern darstellen. Als Anwendungsbeispiel für das LLTM sei ein Test zur Messung des räumlichen Vorstellungsvermögens von Gittler (1990) angeführt, der das Prinzip der aus dem IST 70 bekannten Würfelaufgaben (Amthauer, 1970) aufgreift und diese verbessert. Als relevante Strukturmerkmale erwiesen sich hier unter anderem die Anzahl der (mentalen) Dreh- oder Kippbewegungen, Symmetrieeigenschaften der Muster auf den Würfelflächen und die Position des Lösungswürfels im Multiple-choice-Antwortformat. Zusätzlich spielt der Lernzuwachs während des Tests eine Rolle, was insbesondere beim adaptiven Testen zu beachten ist (Fischer, 1983; Gittler & Wild, 1988). Die Zerlegung der Itemparameter in eine Linearkombination von Basisparametern ist auch bei erweiterten Rasch-Modellen sowie bei Latent-Class-Modellen möglich. Das lineare Ratingskalenmodell (Fischer & Parzer, 1991) und das lineare Partial-creditModell (Glas & Verhelst, 1989; Fischer & Ponocny, 1995) basieren auf entsprechenden ordinalen Rasch-Modellen. Bei der linear-logistischen LCA für dichotome Items (Formann, 1984) werden die Itemparameter, nämlich die klassenspezifischen Lösungswahrscheinlichkeiten, erst nach einer logistischen Transformation zerlegt, um der Beschränkung auf den Wertebereich zwischen Null und Eins zu entgehen. Der Fall polytomer Items wird z. B. von Formann (1993) behandelt. Linear-logistische Modelle sind insgesamt flexibler, als hier dargestellt werden kann. Insbesondere sind sie auch im Fall mehrerer Messzeitpunkte einsetzbar, sodass sich im Rahmen der IRT auch Fragestellungen der Veränderungsmessung untersuchen lassen (z. B. Fischer, 1974, 1995a; Fischer & Ponocny, 1995). Dabei ist es nötig, zunächst zwischen verschiedenen Arten von Veränderungshypothesen zu unterscheiden (Rost & Spada, 1983; Rost, 1996). Geht es beispielsweise um den Nachweis »globaler« Veränderungen aufgrund einer pädagogischen oder therapeutischen Intervention, so stellt dies insofern eine strenge Form einer Veränderungshypothese dar, als für alle Personen und bei allen Items (Verhaltensmerkmalen, Symptomen) der gleiche Effekt erwartet wird. Da hierdurch der differenziell-psychologische Aspekt in den Hintergrund tritt, erscheint die Forderung nach »spezifisch objektiven Vergleichen« zwischen Personen in einem solchen Fall entbehrlich. Hier kann das von Fischer (z. B. 1983, 1995a) vorgeschlagene »linear logistic model with relaxed assumptions« (LLRA) eingesetzt werden, welches ohne die für Rasch-Modelle charakteristische Annahme der Eindimensionalität bzw. Homogenität der Items auskommt. Kapitel 2 · Grundlagen diagnostischer Verfahren Linear-logistisches Testmodell 86 Die klassische Testtheorie wird heute von der Item-Response-Theorie mehr und mehr überholt. Konnte die klassische Testtheorie als Messfehlertheorie im wesentlichen Antworten zur Reliabilität von Messungen liefern, so stellt die IRT die explizite Beziehung zwischen dem Antwortverhalten von Personen und den dahinterliegenden latenten Merkmalen her. Die Separierbarkeit von Item- und Personenparametern ermöglicht die empirische Überprüfung der Skalierbarkeit, der Eindimensionalität sowie der Item- und der Personenhomogenität. Insbesondere das Konzept der spezifischen Objektivität der Vergleiche sensu Rasch trägt wesentlich zum Verständnis psychodiagnostischer Messungen bei und liefert die methodische Grundlage für das adaptive Testen, welches vor allem in computerbasierter Form auch experimentelle Psychodiagnostik ermöglicht. Durch die besondere Eignung zur Veränderungsmessung wie auch durch den linear-logistischen Modellansatz stellen moderne IRTModelle schließlich einen Brückenschlag von der diagnostischen Psychologie zur allgemeinen Psychologie her. Auch differentielle Aspekte der Psychodiagnostik können mit Hilfe von Mixed-Rasch-Modellen untersucht werden. Fazit Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens (MTP) von Conrad, Baumann und Mohr (1980); Psychosomatischer Einstellungs-Fragebogen (PEF) von Hehl und Wirsching (1983); Loneliness-Skala von Dejong-Gierveld und Kamphuis (1985); Dreidimensionaler Würfeltest (3DW) von Gittler (1990); Adaptives Intelligenz Diagnostikum (AID) von Kubinger und Wurst (1991); Freiburger Beschwerden-Liste (FBL-K) von Piel, Hautzinger und ScherbarthRoschmann (1991); Wortschatztest (WST) von Schmidt und Metzler (1992); Mehrfachwahl-Wortschatztests (WMT) von Metzler und Schmidt (1992); Begriffs-Bildungs-Test (BBT) von Kubinger, Fischer und Schuhfried (1993); Frankfurter Adaptiver Konzentrationsleistungs-Test (FAKT) von Moosbrugger und Heyden (1997). Die testtheoretischen Grundlagen von IRT-Modellen sind ausführlich bei Fischer (1974, 1983 und 1996) sowie Rost (1988, 1996) abgehandelt. Prozessuale Aspekte stehen bei Scheiblechner (1996) im Vordergrund. Die Verbindung zur Messtheorie wird insbesondere von Steyer und Eid (1993) hergestellt. Ein Handbuch zur IRT haben van der Linden und Hambleton (1996) herausgegeben. Über die Weiterentwicklung von IRT-Modellen für diskrete und kontinuierliche Ratingskalen informiert Müller (1997). Verschiedene Anwendungen von IRT-Modellen sind bei Fischer (1978), Kubinger (1988), Rost und Strauß (1992), Fischer und Molenaar (1995) oder Rost und Langeheine (1996) aufgeführt. Weiterführende Literatur 4 4 4 4 4 4 4 4 4 4 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 87 2 Grundlagen kriteriumsorientierter Tests 2.1.3.2 Die Setzung sachgerechter Normen Kriterien im Sinne unserer Definition sind Normwerte, die von den zu untersuchenden Personen erreicht werden sollen. Sie können Lehrplänen entstammen, wie die Lehrziele für ein Fach einer bestimmten Klassenstufe, von Behörden festgesetzt werden, wie bei der theoretischen Führerscheinprüfung, oder als Therapieziele zwischen Klient und Therapeut vereinbart werden. Immer stellt sich die Frage nach ihrer sachlichen Rechtfertigung wie nach ihrer Realitätsangemessenheit. Sachlich gerechtfertigt erscheinen Kriterien, die nachweislich zur Erreichung nachfolgender Kriterien erforderlich sind (. Abb. 2.20). Das trifft für curriculare Normen zumindest teilweise zu, desgleichen auch für die theoretische Führerscheinprüfung, die 2.1.3.1 Die Generierung inhaltsvalider Itemmengen Diese Prozedur ist innerhalb der klassischen Testtheorie nicht neu und nach Lienert (1967a) unproblematisch, wenn, wie bei Kenntnistests oder Verhaltensinventaren, die Testaufgaben selbst das bestmögliche Kriterium darstellen. Eine Sammlung derartiger Aufgaben ist logischerweise valide. Bei weniger eindeutigen Beziehungen zwischen Aufgaben und Kriterium können Experten bei der Klassifikation zu Rate gezogen werden. Am eindeutigsten bestimmbar ist die Inhaltsvalidität von Itemsammlungen, die das Universum der Kriteriumsleistungen umfassen. Diese Grundmenge ist z. B. bei einem Rechentest, der die Addition der Mengen 1-4 im Zahlenraum bis 10 überprüfen soll, vollständig zu erfassen. Ist das Universum der Kriteriumsleistungen jedoch größer, muss dafür gesorgt werden, dass die ausgewählten Aufgaben eine repräsentative Stichprobe der Grundmenge darstellen. Diese ist am leichtesten durch Zufallsauswahl zu ermitteln. Bei heterogenen Grundmengen empfiehlt sich die Aufgliederung in homogene Teilmengen, aus denen dann Zufallsstichproben zu ziehen wären. Weitere Details zur systematischen Gewinnung inhaltsvalider Itemmengen berichtet Klauer (1987). Nichtkönner. 4 die Generierung inhaltsvalider Itemmengen, 4 die Setzung sachgerechter Kriterien (Normwerte), 4 die zufallskritische Zuordnung einer Person in die Klassen der Könner oder Probleme kriteriumsorientierter Tests: Mit dieser Definition sind mehrere Aufgaben- und Problemgebiete dieser Verfahren angeschnitten, mit denen sich die folgenden Abschnitte befassen. Kriteriumsorientierte Tests sind inhaltsvalide Testverfahren, die nicht die Position einer Person in Relation zu einer Vergleichsnorm, sondern das Erreichen oder Verfehlen eines konkreten Kriteriums ermitteln wollen. Definition Kriteriumsorientierte Tests unterscheiden sich von Tests auf der Grundlage der klassischen wie der probabilistischen Testtheorie. 2.1.3 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests 2 Sachliche Rechtfertigung Kriterien als Normwerte Testaufgaben als repräsentative Stichproben Testaufgaben als bestmögliches Kriterium Probleme kriteriumsorientierter Tests 89 2 Expertenurteil vs. Irrtumsgrad Trennwerte zur Klassifikation Realitätsangemessenheit 2.1.3.3 Die Ermittlung zufallskritischer Trennwerte Zur Unterscheidung erfolgreicher von nicht erfolgreichen Testpersonen bedarf es der Festsetzung von Trennwerten, die eine zufallsunabhängige Klassifikation erlauben. Grundsätzlich ist nach Klauer (1987) davon auszugehen, dass Könner praktisch keine Fehler in der prüfungsrelevanten Kriterienklasse machen. Da zufällig begangene Irrtümer aber nicht auszuschließen sind, ist eine 100%ige Trefferquote ein zu hartes Kriterium. Die sich hieraus ergebende Frage ist, wie viele Aufgaben eine Person lösen muss, um unter Berücksichtigung von Zufallseinflüssen als Könner eingestuft zu werden. Eine Lösungsmöglichkeit besteht in der Einschaltung von Experten, die den Trennwert festlegen. Ihre Erfahrung ist jedoch nur ein Ersatz für empirische Untersuchungen, die z. B. prüfen könnten, welchen Kompetenzgrad eine instruierte Gruppe gegenüber einer Kontrollgruppe erreicht. Die einfachste Lösung besteht nach Klauer (1987) darin, einen bestimmten Irrtumsgrad analog den klassischen Irrtumswahrscheinlichkeiten von 5 oder 10% zuzugestehen, sodass derjenige als kompetent gelten kann, der 95 oder 90% der gestellten Aufgaben löst. Eine solche einfache Setzung ist nicht artifizieller als die in der klassischen Testtheorie übliche, doch lässt sie die Tatsache außer acht, dass die Reliabilität eines Tests mit seiner Länge variiert. notwendige Kenntnisse für das richtige Verhalten im Straßenverkehr abfragen soll. Frei vereinbarte Therapieziele erhalten ihre sachliche Rechtfertigung dagegen aus dem persönlichen Wunsch des Klienten nach Veränderung bzw. Verbesserung. Die Frage der Realitätsangemessenheit betrifft das Problem der Schwierigkeit der Anforderungen. So sind kriteriale Anforderungen, denen Schüler der Gymnasien der 50er und 60er Jahre gewachsen waren, für die heutigen Massengymnasien sicher zu hoch angesetzt und müssen nach unten korrigiert werden. Andererseits sind die Anforderungen im Straßenverkehr oder beispielsweise des Medizinerberufs heute sicher höher einzuschätzen und erfordern schärfere Prüfkriterien, sodass die Realitätsangemessenheit von Kriterien immer aufs Neue überprüft und ggf. korrigiert werden muss. Bei Therapiezielen ist es Aufgabe des Therapeuten, dafür zu sorgen, dass der Klient sich keine unrealistischen Ziele setzt, selbst wenn seine Bezugsgruppe ihm diese nahelegt. Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.20. Die Setzung einer »sachgerechten« Promille-Grenze gegen Alkohol im Straßenverkehr wird auch von der öffentlichen Meinung stark beeinflusst 90 9 10 11 Einen Ausweg weist das von Klauer (1972) entwickelte Einfehlermodell auf der Grundlage der Binomialverteilung. Es stellt für variable Aufgabenmengen tabellierte Vertrauensgrenzen für unterschiedliche Kompetenzgrade und Irrtumswahrscheinlichkeiten bereit und ermöglicht so die Ermittlung desjenigen Trennwertes, von dem an nicht mehr ausgeschlossen werden kann, dass die getestete Person zur Gruppe der Könner gehört (. Tab. 2.3; s. a. Kleber, 1979). Die Anwendung des Binomialmodells ist jedoch an das Vorliegen bestimmter Bedingungen geknüpft. Es lässt nur binäre Ereignisse zu, fordert die stochastische Unabhängigkeit der einzelnen Aufgabenlösungen und setzt die Gleichwahrscheinlichkeit der binären Ereignisse voraus. Von diesen 3 Bedingungen ist die erste durch die Beschränkung auf richtige und falsche Antworten am leichtesten zu erfüllen. Stochastische Unabhängigkeit setzt voraus, dass die Lösungswahrscheinlichkeiten einzelner Aufgaben von denen anderer Aufgaben unabhängig sind. Sie verbietet Sequenzen aufeinander bezogener Teilaufgaben, ist aber auch durch externe Faktoren wie Ermüdung durch lange Testreihen oder Feedback auf vorausgegangene Aufgabenlösungen zu verletzen. Die 3. Bedingung erfordert entweder die Verwendung gleich schwieriger Items oder Zufallsstichproben von Items für jede einzelne Testperson (Klauer, 1987). Bei eng umgrenzten Kriterienbereichen ist es i. Allg. leichter, diese Voraussetzung zu erfüllen. Sind größere Schwierigkeitsdifferenzen nicht zu vermeiden, böte sich zumindest bei computergesteuertem Testen die Möglichkeit zur Zufallsauswahl von Testitems. Die Reliabilität von Binomialtests mit Items vergleichbarer Schwierigkeit lässt sich nach der Kuder-Richardson-Formel 21 aus der Kenntnis von Mittelwert, Streuung und Itemanzahl ermitteln (Lienert, 1989). Durch Umformung kann aus dieser Formel errechnet werden, wie viele Items ein Test haben muss, um eine vorgegebene Reliabilität zu erreichen. Anstelle der so erfassten inneren Konsistenz eines kriterienorientierten Tests ist nach Meinung verschiedener Autoren die Stabilität der Klassifikation in Könner und Während bei 9 und 10 Aufgabenlösungen die oberen Vertrauensgrenzen das Zielkriterium unterschreiten, kann bei 11 Lösungen nicht mehr ausgeschlossen werden, dass der wahre Wert der Testperson bei einer Irrtumswahrscheinlichkeit von 5% nicht über dem definierten Zielkriterium von 90% liegt. Die Lösungsmenge 11 ist damit die Mindestzahl von Lösungen, die ein Könner erreicht haben sollte. Vertrauensbereich in % bei 5% Irrtumswahrscheinlichkeit 32,3 – 86,7 38,4 – 88,2 44,9 – 92,2 Anzahl . Tabelle 2.3. Aus den bei Klauer (1987) und Kleber (1979) abgedruckten Binomialtabellen (hier ein Ausschnitt) lässt sich für jede Lösungsmenge der zugehörige Vertrauensbereich ablesen Angenommen, ein kriteriumsorientierter Test habe 15 Aufgaben und das Zielkriterium betrage, da 100%ige Lösungen unwahrscheinlich sind, 90%. Beispiel 2.1 · Voraussetzungen und theoretische Basis psychometrischer Tests Reliabilität von Binomialtests Bedingungen für das Binomialmodell 91 2 2 Informelle kriteriumsorientierte Tests Binomialmodelle derzeit am besten geeignet Koeffizient übereinstimmender Klassifikation Eine kurze, aber gut lesbare Einführung zum Thema findet sich bei Kleber (1979). Umfangreicher sind die Arbeiten von Klauer et al. (1972) und Fricke (1974). Das Lehr- Weiterführende Literatur 2.1.3.4 Weitere Probleme kriteriumsorientierter Tests Die bei den klassischen Methoden zur Ermittlung der Reliabilität übliche Korrelationsrechnung kann bei kriteriumsorientierten Tests dann versagen, wenn nahezu alle Personen das Kriterium erreichen und damit als Könner klassifiziert werden. Die Varianzen der Testwerte tendieren dann gegen Null und als Folge davon auch die varianzabhängigen Korrelationskoeffizienten. Dieser theoretisch mögliche und idealtypisch erwünschte Fall ist in der Praxis allerdings äußerst selten. Um ihm zu begegnen, hat Fricke (1972) einen Koeffizienten entwickelt, der die Zahl der übereinstimmenden Klassifikationen einfach in Relation zu der Zahl der Entscheidungen setzt. Kritik an Unzulänglichkeiten dieses Koeffizienten hat zur Entwicklung weiterer Verfahren geführt, über die Klauer (1987) ausführlich informiert. Auch das einfache Binomialmodell von Klauer wurde inzwischen modifiziert. Weiterentwicklungen wie das Betabinomialmodell, Latent-class-Modelle oder Item-response-Modelle sind entweder mit hohem Zeitaufwand oder anderen Nachteilen verbunden oder in ihrer Entwicklung noch nicht weit genug gediehen, so dass sie für die praktische Arbeit noch nicht in Frage kommen, wie Klauer (1987) meint. Binomialmodelle scheinen deshalb wegen ihrer einfachen Handhabbarkeit derzeit für die Praxis am besten geeignet. Der Aufwand bei der Testkonstruktion könnte nämlich ein Grund dafür sein, dass nach 20jähriger Diskussion noch kein kriteriumsorientierter Test auf dem deutschen Testmarkt ist, der nach den aktuellen Regeln der Kunst entwickelt wurde. Ein weiterer Grund hierfür könnte auch in der Enge der Kriteriumsbereiche zu suchen sein, die eine solche Vielzahl von Testentwicklungen erfordert, dass für Testverlage der Aufwand in keinem vernünftigen Verhältnis zum erwarteten Absatz steht. Für diese Interpretation spricht, dass inzwischen zahlreiche informelle kriteriumsorientierte Tests als integrale Bestandteile schulischer Unterrichtswerke existieren (Kleber, 1979), über deren Konstruktionsprinzipien jedoch wenig bekannt ist. Zugleich benutzen Lehrer immer häufiger selbst erstellte Lernzielkontrollen, die durchaus als kriteriumsorientierte Lehrzieltests einzustufen wären, wenn sie den diskutierten Konstruktionsprinzipien genügen würden. Einem großen Bedarf an derartigen Verfahren steht derzeit kein entsprechendes professionelles Angebot gegenüber. Es ist vielmehr zu befürchten, dass die steigenden theoretischen Ansprüche an die Güte kriteriumsorientierter Tests dazu führen, dass auch in Zukunft niemand die mit einer anspruchsvollen Testkonstruktion verbundenen Mühen auf sich nehmen wird. Eine Lösung dieses Problems könnte in der Bereitstellung einfacher Faustformeln und Anweisungen zur fachgerechten Erstellung kriteriumsorientierter informeller Tests bestehen, wie dies Klauer (1972) bereits versucht hat. Hier wird einem Lehrer z. B. auch mitgeteilt, wie er die Ergebnisse mehrerer lehrzielorientierter Tests nicht nur zur Lernzielkontrolle verwenden, sondern auch zur Berechnung der geforderten Benotung heranziehen kann. Nichtkönner der angemessenere Reliabilitätskennwert. Sie kann mittels paralleler Verfahren, durch einfache Retestung sowie mit Hilfe der Testhalbierungsmethode geprüft werden. Da Paralleltests nicht einfach zu erstellen sind und Testwiederholungen gerade im pädagogischen Bereich leicht Lern- und Erinnerungseffekte auslösen, bietet sich die Testhalbierungsmethode als das am leichtesten zu handhabende Verfahren an, zumal es nur eine Testung voraussetzt. Kapitel 2 · Grundlagen diagnostischer Verfahren Probleme kriteriumsorientierter Tests 92 2 Validität der Verfahren gegenüber den Indikatoren Definition und Spezifikation des interessierenden Konstrukts Rationale Konstruktion Rationale Konstruktion – 94 Externale Konstruktion – 98 Induktive Konstruktion – 102 Der Prototypenansatz – 105 Weitere Ansätze – 108 Vergleichende Würdigung – 110 Grundzüge von Itemanalysen – 111 2.2.7.1 Schwierigkeit – 114 2.2.7.2 Trennschärfe – 121 2.2.7.3 Homogenität im Sinne der klassischen Testtheorie 2.2.7.4 Andere Homogenitäts-Konzepte – 130 – 128 Konstruktionsprinzipien psychometrischer Tests Gleichsam das »Herzstück« einer Skalenentwicklung nach der sog. rationalen oder deduktiven Methode ist das Vorliegen einer Theorie darüber, wie sich Personen beschreiben lassen und voneinander unterscheiden. So wird bei den bereits unter 7 Abschn. 1.4 erwähnten »trait-theoretischen« Ansätzen versucht, die Stabilität und Konsistenz des Verhaltens gedanklich in den übergreifenden Kategorien von Verhaltensbereitschaften und Dispositionen, also Eigenschaften, zu organisieren. Letztlich handelt es sich dabei um hypothetische Klassen oder Gruppierungen, die mit Namen wie »Intelligenz«, »Kreativität«, »Ängstlichkeit« oder »Leistungsmotivation« usw. belegt werden. Innerhalb dieser Kategorien wird je nach der Häufigkeit und/oder Intensität der beobachteten Verhaltensweisen eine quantitative Abstufung vorgenommen. Die aus dieser Skalierung resultierenden individuellen Messwerte stehen für die jeweilige Ausprägung in der hypothetischen Disposition. Die theoretischen Vorstellungen über die Breite und den Inhalt der Konstruktkategorien mögen sehr verschieden sein, was ihren Elaborations- und Differenzierungsgrad betrifft. Im einfachsten Fall wird unterstellt, dass es möglich ist, jede Eigenschaft, für die es einen Namen gibt, zu messen, d. h. einen Test dafür zu entwickeln. Ausgehend von Bezeichnungen, die geeignet sind, Persönlichkeitszüge zu beschreiben, wird üblicherweise das interessierende Konstrukt vorab näher spezifiziert und definiert. So können dabei schon »auf den zweiten Blick« bestimmte Subkategorien voneinander unterschieden werden. Beispielsweise lassen sich bei dem globalen Konstrukt »Geselligkeit« die beiden Aspekte von Kontaktbedürfnis und Kontaktfähigkeit unterschieden, um der Motivation und Fertigkeit der Aufnahme von Kontakten einerseits sowie den Gegebenheiten bei deren Aufrechterhaltung andererseits Rechnung zu tragen. Bei der definitorischen Eingrenzung des Konstruktes ist es unerlässlich, auch über die Verhaltensweisen nachzudenken, die dafür als Indikatoren in Betracht kommen. Nehmen wir an, jemand befasse sich mit dem Konstrukt »schulische Leistungsfähigkeit«. Schüler mit einer hohen Ausprägung in dieser Dimension sollten besonders gut rechnen und fehlerfrei schreiben können; darüber hinaus sollten sie sich in Geschichte und Geographie auskennen sowie die angebotenen Fremdsprachen hinreichend beherrschen usw. Für jeden dieser Teilbereiche werden, diesen Vorüberlegungen entspre- 2.2.1 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.7 2.2 Kapitel 2 · Grundlagen diagnostischer Verfahren Vorliegen einer Theorie zur Beschreibung von Personen 94 chend, mehrere geeignet erscheinende Aufgaben in Skalen oder Subtests zusammengestellt, deren Gesamtheit die Testbatterie für schulische Leistungsfähigkeit ergibt. Die Summe der in der verfügbaren Zeit von einem Probanden gelösten mathematischen, orthographischen, historischen und geographischen Aufgaben bilden seinen individuellen Messwert (= Score). An einer größeren Gruppe von Personen muss sodann mit Hilfe bestimmter Analysemethoden ermittelt werden, ob das Zusammenfügen zu Skalen gerechtfertigt war und ob die abgebildeten Unterschiede über die Zeit hinweg stabil oder reliabel sind und mit anderen Indikatoren für das in Frage stehende Konstrukt korrelieren (zu diesen Schritten vgl. 7 Abschn. 2.2.6). Im Falle des Schulleistungstests muss z. B. eine hinreichend hohe Korrelation mit den Schulnoten bestehen, d. h. das Verfahren muss valide gegenüber diesem Kriterium sein, um die Qualifikation als »Schulleistungstest« zu rechtfertigen. Ganz ähnlich ist das Vorgehen innerhalb des Temperaments- und Persönlichkeitsbereiches. Nehmen wir an, dort sei das Konstrukt »Hilfsbereitschaft« ins Auge gefasst worden. Gemäß den explizierten Vorstellungen gehöre dazu unterstützendes Verhalten in der Familie, gegenüber Freunden, Nachbarn und Fremden, des Weiteren die Bereitschaft, Geld oder Blut für wohltätige Zwecke usw. zu spenden. Im einfachsten Fall können direkte Fragen nach eben solchen Merkmalen formuliert und in einem entsprechenden Test aneinandergereiht werden. Aufwendiger ist es, sich nicht auf die verbale Beantwortung derartiger Fragen zu verlassen, sondern eigens Beobachtungen zu den einzelnen Aspekten anzustellen und etwa zu prüfen, wie intensiv sich jemand um die Erledigung der schulischen Hausaufgaben seiner Kinder kümmert, dem Freund bei der Reparatur seines Motorrades hilft, Blut spendet usw. Jedes dieser Einzelmerkmale mag für sich dabei durchaus auch indikativ für andere Konstrukte sein. Beispielsweise kann die Mitarbeit an den Hausaufgaben auch als Zeichen eines hohen sozialen Ehrgeizes und der Furcht vor dem Stigma eines möglichen »Sitzenbleibens« der Kinder gewertet werden, das Schrauben an der Maschine als Ausfluß technisch-handwerklicher Interessen, das Spenden von Blut als Folge der Notwendigkeit, die eigene Barschaft etwas aufzubessern usw. In der Zusammenschau der Einzelbeobachtungen dürften jedoch solche Erklärungsalternativen an Gewicht verlieren. Um dennoch sicher zu sein, dass mit den Fragen bzw. Verhaltensbeobachtungen auch das jeweils interessierende (und nicht ein völlig anderes) Konstrukt getroffen wird, bedarf es der Validierung rational entwickelter Skalen. Viele Skalen im Leistungsbereich sind nach der rationalen Methode entwickelt worden, so z. B. der Intelligenztest von Wechsler (1958) für Erwachsene (HAWIE) und auch für Kinder (HAWIK; . Abb. 2.21, zu den deutschen Adaptationen s. Tewes, 1983, bzw. Priester, 1958; zu den Details 7 Abschn. 3.1.2), die Kreativitätstests von Guilford (1976), bei deren Konzipierung das »Structure of Intellect-Modell« Pate stand, des Weiteren viele der sog. allgemeinen Leistungstests (Bartenwerfer, 1964, 1983), darunter insbesondere solche für Aufmerksamkeit und Konzentration (7 Abschn. 3.1.1) und Tests zur Prüfung psychomotorischer Fertigkeiten (z. B. Fleishman & Hempel, 1955). Aus dem Persönlichkeitsbereich im engeren Sinne zählt auch das bereits unter den historischen Meilensteinen erwähnte »Personal Data Sheet« von Woodworth (1918) (7 Abschn. 1.6) zu den nach rationalen Prinzipien konstruierten Verfahren und insbesondere die bekannte »Manifest Anxiety Scale« von Taylor (1953), Vorläufer und Vorbild vieler heute gebräuchlicher Ängstlichkeitstests. Ausgehend von einer definitorischen Bestimmung des Konstruktes sammelte die Autorin dafür zunächst einen Pool von 200 geeignet erscheinenden Items. Nur jene Fragen aber, für die innerhalb einer Gruppe von klinischen Psychologen Konsens dahingehend bestand, dass der Iteminhalt mit der Umschreibung des Konstruktes vereinbar war, bildeten die endgültige Skala. 2.2 · Konstruktionsprinzipien psychometrischer Tests Beispiele rational konstruierter Verfahren Validierung der Skalen nötig Beobachtung vs. Beantwortung Zusammenstellung von Skalen/Subtests zu Testbatterien 95 2 2 Nach der rationalen (oder auch deduktiven) Methode konzipierte eine Autorengruppe am Heidelberger Institut eine Skala zur Erfassung von Kohärenzsinn. Ausgangspunkt dafür war die definitorische Umschreibung von Antonovsky (1982), der »sense of coherence« bezeichnet hatte als »eine globale Orientierung, die zum Ausdruck bringt, in welchem Umfang man ein generalisiertes, überdauerndes und dynamisches Gefühl des Vertrauens besitzt, dass die eigene innere und äußere Umwelt vorhersagbar ist und dass mit großer Wahrscheinlichkeit die Dinge sich so entwickeln werden, wie man es vernünftigerweise erwarten kann« (Übersetzung von Becker, 1982, S. 10). Darüber hinaus standen Exzerpte aus den Arbeiten von Antonovsky zu diesem Konstrukt zur Verfügung. Vier Experten formulierten zunächst unabhängig voneinander, später in einem Diskussionsprozess 26 Items, die schließlich 200 Personen zur Beantwortung vorgegeben wurden. Die Resultate sind in . Tab. 2.4 wiedergegeben. 6 Beispiel Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.21. Titelblatt des HAWIK-R-Protokollbogens 96 97 Ich glaube, dass Vieles im Leben vom Schicksal abhängt.* Ich kann oft nicht verstehen, dass die Dinge sich so entwickeln und nicht anders.* Auch wenn es manchmal ganz anders aussieht, so fügen sich doch auf lange Sicht die Dinge in meinem Leben harmonisch zusammen. 24. 25. 26. rit = .38 rit = .28 rit = .18 rit = .44 rit = .07 Die Skala ist hinreichend reliabel (Cronbachs α = .82) und korreliert positiv mit Optimismus, negativ mit Depression, Neurotizismus und aggressiver Eifersucht, bei weitgehender Unabhängigkeit von Kontrollüberzeugung und Rationalität. Oft stehe ich fassungslos den Ereignissen in meinem Leben gegenüber.* 23. rit = .31 Es gibt keine Gerechtigkeit auf der Welt. Ich komme gut damit zurecht, dass Manches in meinem Leben von bestimmten Institutionen und Personen entschieden wird. 21. 22. rit= .15 rit = .12 Schon oft sind im Leben meine Pläne durch unvorhersehbare Dinge oder Ereignisse durchkreuzt worden.* 20. rit = .47 rit = .20 Was mein zukünftiges Leben anbelangt, bin ich sehr optimistisch. Im Großen und Ganzen habe ich großes Vertrauen in die Fähigkeiten und Absichten unserer Politiker. 17. rit = .50 rit = .51 rit = .33 rit = .24 rit = .37 rit = .19 rit = .28 rit = .44 rit = .44 rit = .43 rit = .41 rit = .46 rit = .25 rit = .47 Ich glaube an das Sprichwort: »Lügen haben kurze Beine.« Meine Lebensauffassung ist generell sehr optimistisch. 16. rit = .04 rit = .19 19. Manchmal zweifle ich am Sinn meines Lebens.* 15. 2 Trennschärfekoeffizient 18. Ich glaube, auf den Verlauf der Dinge in meiner Umwelt Einfluss nehmen zu können. Ich fühle mich oft in meinem Tun und Handeln von meinen Mitmenschen bestimmt. Mein Leben ist ein einziges Chaos, da sich jeden Tag Dinge oder Situationen ereignen, die nicht vorhersehbar sind.* 12. 14. Ich glaube, dass alles im Leben seinen Sinn hat. 11. 13. Ich kann mich als »Steh-auf-Männchen« bezeichnen. Insgesamt habe ich den Eindruck, dass sich die Geschehnisse in meiner Umgebung in meinem Sinne entwickeln. 7. 10. Auch wenn mir schlimme Dinge im Leben zustoßen, glaube ich dennoch, dass sich alles zum Guten wendet. 6. Ich habe die Dinge fest im Griff. Ich liebe das Leben 5. Ich glaube, dass ich fast jeder Lebensaufgabe gewachsen bin. Ich frage mich häufig: «Warum muss mir das gerade passieren?«* 4. 9. Ich bin ein Optimist. 3. 8. Meiner Meinung nach ist jeder für sein eigenes Glück verantwortlich. Oft passieren Dinge im Leben, die völlig unvorhersagbar sind.* 1. 2. Item . Tabelle 2.4. 26 Items zum Kohärenzsinn. Die fett gedruckten Items wurden aufgrund unbefriedigender Koeffizienten (rit<.20) eliminiert. Die mit * gekennzeichneten Items sind für die Auswertung umzupolen. (Aus Schmidt-Rathjens et al. 1997) 2.2 · Konstruktionsprinzipien psychometrischer Tests 2 Vorliegen verschiedener Personengruppen Definition projektiver Verfahren Projektive Tests: Techniken zur Aufdeckung unbewusster Prozesse und Konflikte Externale Konstruktion Ansatzpunkt der externalen oder auch kriteriumsbezogenen Skalenentwicklung ist das Vorliegen verschiedener Gruppen von Personen als Teil der sozialen Realität. Darunter mögen etwa Haupt- und Sonderschüler oder die Angehörigen verschiedener Berufe, wie Architekten, Kaufleute, Friseure, Maschinisten und Verkäufer, zählen, des Weiteren psychiatrische Klassifikationen, wie Schizophrene, Manisch-Depressive oder 2.2.2 Gleich nun, welche Beziehung im einzelnen zwischen Indikator und Indiziertem angenommen wird (ob z. B. Projektion sensu Freud gleichbedeutend ist mit der Externalisierung von eigenen, aber nicht akzeptierten Impulsen oder allgemeiner eine Zuschreibung eigener Gefühle und Motive auf andere), so liefern doch auch die diagnostischen Zeichen in derartigen Verfahren Hinweise auf die relative Ausprägung der interessierenden Persönlichkeitsdimensionen (zu konkreten Verfahren vgl. 7 Abschn. 3.2.3). Demgemäß liegt »das Wesen eines projektiven Verfahrens darin, dass es etwas hervorruft, was – auf verschiedene Art – Ausdruck der Eigenwelt des Persönlichkeitsprozesses der Versuchsperson ist« (Frank, 1948, S. 46 f.). Definition Die Art der Theorie, von der ausgehend die Verfahren entworfen werden, mag auch gänzlich andere Itemformate nahelegen. Beispielsweise versteht die Psychoanalyse von Freud (1952) alles Verhalten als durch Konflikte zwischen den Persönlichkeitsinstanzen Es, Ich und Über-Ich verursacht, die sich in permanentem und heftigem Widerstreit miteinander befinden. Die beiden aktiven Triebe und Motive sind in der Regel unbewußt. Über den nervösen und muskulären Apparat des Organismus erlangen sie gewöhnlich allenfalls einen indirekten Ausdruck. Das Verhalten wird bestimmt und getrieben durch Impulse aus dem Unbewußten und ist somit nicht rational determiniert, sondern irrational. Verbale Bekundungen darüber und über die eigenen Empfindungen oder Beweggründe sind nicht repräsentativ für die wahren Gegebenheiten, sondern stellen Deformationen, Abänderungen und Symbolisationen des tatsächlichen Geschehens dar. Deshalb wäre es aussichtslos oder irreführend, aus den Auskünften von Personen irgendwelche Rückschlüsse auf ihre Charaktermerkmale ziehen zu wollen. Vielmehr bedarf es tiefenpsychologischen Theorien zufolge gesonderter Techniken, um die unbewussten Prozesse und Konflikte aufzudecken, um Abwehrmechanismen und Widerstände zu überwinden und die dem Verhalten zugrundeliegenden nichtbewussten Motive gleichsam »sichtbar zu machen«. Dazu zählen zunächst die klassische »große« Psychoanalyse, Traumdeutungen und freie Assoziationen. Da diese Verfahren außerordentlich zeitaufwendig sind, wurden die sog. projektiven Tests propagiert. Mit ihrer Hilfe sollte auf ökonomische und standardisierte Weise die Barriere von Maskierungen, Verzerrungen und Verfälschungen vor den unbewußten Konflikten überwunden werden. Günstig dafür schienen Materialien als Testvorlagen, deren Inhalt und Struktur eher unbestimmt oder mehrdeutig ist, z. B. Klecksbilder und unscharfe Abbildungen (. Abb. 2.22). Konfrontiert mit solchen Stimuli würden die Probanden, so lautet auch heute noch die Grund- und Deuteregel, auf die Vorlagen entsprechend der Bedeutung reagieren, die diese für sie besitzt. Kapitel 2 · Grundlagen diagnostischer Verfahren Die Theorie bestimmt das Itemformat 98 Neurotiker, schließlich Alkoholiker, »Unfäller« usw. (. Abb. 2.23). An der diagnostischen Erfassung dieser Gruppen besteht ein berechtigtes Interesse, damit durch optimale Auswahl und Behandlung der individuelle ebenso wie der gesellschaftliche Nutzen nach Möglichkeit gefördert werden kann. Vor die Notwendigkeit gestellt, Instrumente zur Klassifikation und Diskriminierung solcher sozial und ökonomisch bedeutsamen Gruppen zu entwickeln, wird man sich mitunter nicht lange mit theoretischen Erwägungen aufhalten können (etwa derart, welche Faktoren für die Entwicklung einer Schizophrenie oder von Alkoholismus maßgeblich sind), zumal diese Überlegungen zahlreich und letztlich unhaltbar sein mögen. Dagegen wird – im Extremfall einer puristischen Anwendung der externalen Strategie – den Mitgliedern derartiger Gruppen eine möglichst große und inhaltlich breit gefächerte Zahl von Items vorgelegt in der Hoffnung, dass sich darunter einige befinden werden, die zwischen den Gruppen empirisch diskriminieren, also eine verschiedene Beantwortungsrichtung oder Lösungswahrscheinlichkeit zeigen. (Verständlicherweise fließen in die Auswahl der Itemstichprobe doch mehr oder weniger explizite Hypothesen über die voraussichtliche Differenzierungskraft mit ein, spielen also im Regelfall auch deduktive 2.2 · Konstruktionsprinzipien psychometrischer Tests . Abb. 2.22. Der PictureFrustration-Test (PFT) zählt zu den projektiven Verfahren 99 2 2 Beispiele external konstruierter Verfahren Unzulässigkeit inhaltlicher Interpretation Differenzierung nur auf Gruppenebene Gesichtspunkte eine gewisse Rolle innerhalb der externalen Methode.) Jene Items werden schließlich selegiert und zu Skalen zusammengestellt, die zwischen den Gruppen statistisch bedeutsam unterscheiden und bei denen diese Diskrimination in einer Kreuzvalidierung an weiteren Personen standhält. Ein Item wie »Können Sie sich einen Bart wachsen lassen?« würde sich beispielsweise nur dann für eine Maskulinitäts-Femininitätsskala eignen, wenn bei der Erprobung wesentlich mehr Männer als Frauen darauf mit »ja« geantwortet hätten. Streng genommen dürfen die so entwickelten Skalen nur für eine Differenzierung im Sinne der vorab untersuchten Gruppen später auch herangezogen werden. Die Aussagen im Hinblick auf untersuchte Einzelpersonen müßten dementsprechend solche im Sinne von Wahrscheinlichkeiten dafür sein, der einen oder anderen Gruppe anzugehören. Eine dimensionale Interpretation verbietet sich jedoch dann strikt, wenn es sich bei den herangezogenen Gruppen um distinkte Klassen handelt, zwischen denen keine kontinuierlichen Übergänge bestehen. Vom Format und den angesprochenen Sachverhalten her mögen die in den Skalen vereinigten Items extrem heterogen sein. Ihre inhaltliche Interpretation ist unzulässig. Da die Validität in Form der erfolgreichen Diskriminierung verschiedener Gruppen voneinander gleichsam systemimmanent gewährleistet ist, »funktionieren« die Items zwar. Oftmals bleibt aber nicht nur den naiven Testbeantwortern die Intention des Tests verborgen, sondern auch dem Testleiter das psychologische Wirkungsgefüge auf seiten der untersuchten Personen, d. h. er ist auf vage Post-hoc-Interpretationen angewiesen, weil er nicht a priori mit einer Theorie an das Problem herangegangen ist. Einer der bekanntesten Vertreter external konstruierter Tests im Leistungsbereich ist der Staffeltest von Binet (7 Abschn. 3.1.2), für den die Diskrimination entlang der Altersdimension das entscheidende Kriterium war: Solche Aufgaben galten als beson- Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.23. Mit z. B. dem Münchner Alkoholismustest (MALT) sollen in einer Grobdiagnose durch gezielte Fragen zum individuellen Konsummuster mögliche Alkoholiker von Nichtalkoholikern unterschieden werden 100 rtc F F »Soziale Aufgaben übernehme ich nur, wenn ich unbedingt muss« (Schlüsselrichtung: »nein«) »Vorsichtig zu sein und wenig zu erwarten ist besser als sich nur glücklich zu fühlen durch Erfolgserwartung« (Schlüsselrichtung: »ja«) 6 »Ich bin schon für viele Funktionen gewählt worden« (Schlüsselrichtung: »ja«) A H »Ich finde es schwer, vor einer größeren Gruppe eine Rede zu halten« (Schlüsselrichtung: »nein«) Bei den Frauen waren u. a. die folgenden Items besonders valide: I »Es würde mich besonders interessieren, ein Schreiber von Stücken zu sein« (Schlüsselrichtung: »ja«) .37 .19 .34 .41 .36 Bei den Männern trugen u. a. die folgenden Items besonders viel zur Aufklärung der Intelligenzunterschiede bei: 16 PFDimension . Tabelle 2.5. Korrelationen einzelner Items des 16 PF mit Allgemeiner Intelligenz An einer größeren Gruppe von Personen beiderlei Geschlechts konnten Turner und Horn (1977) eine Reihe bedeutsamer Korrelationen zwischen Items des 16-Persönlichkeits-Faktoren-Tests (16 PF) (7 Abschn. 3.2.3) und dem Wechsler-Intelligenztest (als dem amerikanischen Original des HAWIE) beobachten und diese in einer Kreuzvalidierung an einer gleichartig zusammengesetzten anderen Stichprobe von Untersuchungsteilnehmern sichern. Das Kriterium, das es zu erfassen galt (dessen Varianz aufzuklären versucht wurde), also Intelligenz, lag hier nicht in einer qualitativen, sondern kontinuierlich-quantitativen Abstufung vor. Wenngleich auch räumliches Vorstellen und Gedächtnis durch Persönlichkeitsvariablen erfassbar waren, bestanden die engsten Korrelationen doch zur verbalen Intelligenz. Dieser Bereich war aus 15 Items des 16 PF bei den Männern zu rtc = .66 und bei den Frauen aus 14 Items zu rtc = .57 vorhersagbar (. Tab. 2.5). Beispiel ders geeignet zur Erfassung von Intelligenz, die von einem möglichst großen Prozentsatz der Angehörigen einer bestimmten Altersgruppe, aber zugleich von einem möglichst niedrigen Anteil der darunterliegenden Altersgruppe gelöst wurden. Unter den Persönlichkeitsfragebogen gehört das »Minnesota Multiphasic Personality Inventory (MMPI)« von Hathaway und McKinley (1951; deutsch: Spreen, 1963) in die Kategorie der externalen Tests. Die Autoren hatten zunächst eine Liste von 1000 Items angelegt, die sich auf psychopathologische Symptome bezogen. Gruppen von klinisch auffälligen Personen, die von Psychiatern als Schizophrene, Hysteriker, Hypochonder usw. diagnostiziert worden waren, bearbeiteten die Items ebenso wie »Unauffällig-Normale«. Jene 550 Fragen wurden schließlich zu Skalen vereinigt, die die Patienten von den Kontrollpersonen am besten differenzierten. Auch die Alkoholismusskala von MacAndrew (1965) ist external konstruiert worden. Turner und Horn (1977) haben Intelligenz als Kriterium mit Hilfe von Persönlichkeitsvariablen »vorhergesagt«. 2.2 · Konstruktionsprinzipien psychometrischer Tests 101 2 2 Faktoren und deren Interpretation Teilziele: Homogenität und Einfachstruktur C M »Ich habe etwas Angst vor wilden Tieren, selbst wenn diese sich in starken Käfigen befinden« (Schlüsselrichtung: »nein«) »Ich mag es nicht, wie in Straßen oder Läden einige Leute auf andere starren« (Schlüsselrichtung: »nein«) .29 .21 .48 rtc Induktive Konstruktion Bei der sog. induktiven Entwicklung von Skalen stützt sich der Konstrukteur im wesentlichen auf eine spezifische Methode, nämlich die Korrelationsrechnung. In diesem Fall ist er weder primär einer bestimmten Theorie verpflichtet, noch orientiert er sich an vorfindbaren Personengruppen. Vielmehr gruppiert er diejenigen Items »blindanalytisch« zu Skalen, die miteinander hoch korrelieren und damit gemeinsam eine Dimension konstituieren. Bei der Erstellung von umfangreicheren Testsystemen wird das Ziel insofern erweitert, als zur Forderung nach hohen Korrelationen zwischen den Items innerhalb von Skalen (= interne Konsistenz oder Homogenität) noch diejenige nach niedrigen Korrelationen mit den Items anderer Skalen hinzukommt (Einfachstruktur). Gewöhnlich werden diese Teilziele simultan durch die Anwendung faktorenanalytischer Techniken erreicht. Bei einer solchen Methode empfiehlt es sich, mit möglichst umfangreichen, repräsentativ zusammengesetzten Stichproben von Items und Personen zu beginnen. Die faktorenanalytischen Ladungsmuster bzw. die dadurch definierten Gruppen von Items definieren dann zwar bestimmte Faktoren, die je nach dem gewählten Rotationskriterium mehr oder weniger unabhängig voneinander sind. Es bedarf jedoch einer Interpretation durch den Außenstehenden dahingehend, was das gemeinsame Element bei der Klumpenbildung darstellt und für eine Sinnstiftung in Betracht kommt. Diese allen Items eines Faktors inhärente Gemeinsamkeit wird mit einem Begriff umschrieben. Erst dieser liefert uns dann Aufschluss über die psychologische Struktur der fraglichen Dimension, sagt uns also, welche Unterschiede auf ihr abgebildet werden. 2.2.3 Die Beispiele zeigen, dass es zum Teil bei beiden Geschlechtergruppen ganz andere Fragen sind, die »funktionieren«, obwohl man versucht ist, diesbezüglich eher Übereinstimmungen anzunehmen. Das belegt, welch überraschende Ergebnisse externale Strategien produzieren können und dass es mitunter Schwierigkeiten bereitet, im nachhinein die relevanten psychologischen Prozesse zu erschließen. Darüber hinaus stammen die Items aus allen Dimensionen des 16 PF, sind also inhaltlich äußerst heterogen. Das führt dazu, dass die an der Diskriminierungskraft gegenüber dem Kriterium (also der Korrelation) ansetzende Auswahl der Items für eine neue Skala ein entsprechend heterogenes Instrument erzeugt, in dem die Konsistenz gering ist, also die Items vergleichsweise niedrig miteinander korrelieren. H 16 PFDimension »Ich werde etwas verlegen, wenn ich in einer Gruppe plötzlich ins Zentrum der Aufmerksamkeit gerate« (Schlüsselrichtung: »nein«) . Tabelle 2.5 (Fortsetzung) Kapitel 2 · Grundlagen diagnostischer Verfahren Gruppierung von Items über die Korrelation 102 Die Vereinten Nationen werden niemals eine wirksame Kraft zur Wahrung des Weltfriedens sein. Von den meisten Menschen kann man annehmen, dass sie das, was sie sagen, auch tun werden. Das Gericht ist ein Ort, an dem uns allen unvoreingenommene Behandlung zuteil wird. Es ist sicherer zu glauben, dass im Gegensatz zu dem, was die Leute sagen, diese in erster Linie an ihr eigenes Wohlergehen denken. Die Zukunft erscheint vielversprechend. Die meisten Menschen wären erschreckt, wenn sie wüssten, wieviele Nachrichten, die die Öffentlichkeit zu hören und zu sehen bekommt, verfälscht sind. Die meisten gewählten Volksvertreter sind in ihren Wahlkampfversprechungen wirklich vertrauenswürdig. Obwohl Zeitungen, Radio und Fernsehen berichten, ist es schwierig, zu objektiven Einschätzungen öffentlicher Angelegenheiten zu gelangen. 5 6 7 8 9 10 11 12 6 Eher Furcht vor sozialer Schande oder Bestrafung als das Gewissen hält die Leute davon ab, das Gesetz zu brechen. 4 47 59 52 68 59 54 59 61 55 59 34 50 52 38 46 43 56 36 36 68 Bei den meisten Politikern klafft das Verhalten vor und nach der Wahl auseinander. 21 6 27 Jeder, der sich selbst in einem Sachverhalt gut auskennt, ist bestürzt, wenn erliest, wie darüber Zeitungen berichten. Das Zusammenleben von uns allen wird mehr durch Gewalt und Macht als gegenseitiges Vertrauen geregelt. Gewöhnlich warten die Berufskollegen nur darauf, dass einem ein Missgeschick passiert, damit sie selbst emporkommen. 25 26 Wort und Tat in unserer Umgebung stimmen selten überein. Bei den Äußerungen unserer Mitmenschen muss man gewöhnlich aufpassen, das herauszuhören, was sie wirklich meinen. 24 23 Es gibt nur wenige Menschen, auf die man sich verlassen kann. Wenn wir wirklich wüssten, was in der internationalen Politik so vor sich geht, so hätte die Öffentlichkeit mehr Grund, entsetzt zu sein, als sie es jetzt zu sein scheint. 20 22 Die meisten Menschen beantworten Meinungsumfragen aufrichtig. Die meisten Reparaturarbeiter würden die Rechnung auch dann nicht zu hoch ausstellen, wenn sie wüssten, dass man sich in ihrem Fachgebiet nicht auskennt. 18 Dieses Land hat eine dunkle Zukunft, solange wir keine besseren Leute in die Politik bringen können. 3 19 Die meisten Verkäufer sind ehrlich im Beschreiben ihrer Ware. 17 27 52 Die meisten Idealisten sind aufrichtig, und gewöhnlich praktizieren sie auch, was sie predigen. 53 IV 16 Im Umgang mit Fremden kommt man besser voran, wenn man so lange vorsichtig ist, bis diese den Nachweis erbracht haben, dass man ihnen trauen kann. 2 III Viele bedeutende Sportwettkämpfe sind in der einen oder anderen Weise mehr oder weniger abgekartet. 44 II 15 Heuchelei ist in unserer Gesellschaft im Anwachsen begriffen 1T-RO I h2 Iteminhalt In dieser, von Konkurrenzgedanken bestimmten Zeit muss man wachsam sein, oder irgend jemand nutzt einen wahrscheinlich aus. Iteminhalt . Tabelle 2.6 (Fortsetzung) Kapitel 2 · Grundlagen diagnostischer Verfahren 14 2 104 Bei vielen Experten kann man sich darauf verlassen, dass sie die Wahrheit über die Begrenztheit ihres Wissens sagen. 2 13 103 . Tabelle 2.6. Die Faktorenladungsmatrix (varimax-rotiert) gibt die Ladungen von 27 Fragen zu zwischenmenschlichem Vertrauen auf 4 zu extrahierenden Faktoren wieder. Angegeben sind nur Ladungen ≥40. Null und Komma wurden bei allen Ladungen (Korrelationen mit den Dimensionen) weggelassen. Teilnehmer an der Erhebung waren 135 Personen beiderlei Geschlechts. (Aus Amelang et al., 1984, S. 205) Beispiel Dem Wesen einer solchen begrifflichen Etikettierung von Konstrukten entsprechend geht deren Bedeutungsgehalt dann gewöhnlich über dasjenige hinaus, was empirisch vorfindbar war (. Tab. 2.6). 2.2 · Konstruktionsprinzipien psychometrischer Tests 49 56 40 66 I 56 75 70 II 63 46 47 III 49 41 51 70 IV 52 51 43 61 37 42 57 52 46 39 43 31 35 40 52 h2 Der Prototypenansatz Die Objekte der Umwelt werden von uns ganz unschwer in verschieden breiten und umfangreichen kognitiven Kategorien gruppiert, wie z. B. Möbel, Früchte, Tiere und dergleichen. Innerhalb jeder dieser Kategorien gibt es bestimmte Gegenstände, die das Gemeinsame der jeweiligen Klasse in besonderer Klarheit in sich vereinigen. Beispielsweise gelten Rosen oder Tulpen als ausgesprochen prototypische Blumen, Hunde und Katzen als Prototypen von Tieren usw. . Abb. 2.25). Andere Objekte erlangen Aufnahme in eine Kategorie nach Maßgabe ihrer Ähnlichkeit mit den Prototypen. Bei nur geringer Ähnlichkeit wird die Definition der Gruppe unscharf, und es stellen sich mehr und mehr Überlappungen mit anderen Kategorien ein (z. B. Weihnachtsstern oder Löwenmaul). Das Ausmaß der jeweiligen Zentralität oder Prototypizität natürlicher Gegenstände kann, wie Rosch (1975) gezeigt hat, mit bemerkenswerter Beurteilungsübereinstimmung eingeschätzt werden. Cantor und Mischel (1979) haben diesen Ansatz mit Erfolg auf Typen von Menschen, wie z. B. »eine modische Frau« oder »eine emotional stabile Person« usw., übertragen. Es liegt nahe, dieses auch für die Kategorie von Eigenschaften bzw. die sie konstituierenden Verhaltensweisen zu tun. Broughton (1984) hat Collegestudenten in Wohnheimen die Eigenschaftswörterliste von Gough und Heilbrun (1980) vorgelegt mit der Instruktion, zu jedem Attribut anzugeben, wie prototypisch dieses für die Dimensionen »achievement, dominance, nurturance, affiliation, exhibition, autonomy, aggression, deference« sei. Mit Hilfe eines solchen Vorgehens wird die ursprünglich von den Testautoren vorgenommene Zuordnung der Einzelitems auf die betreffenden Skalen überprüft; außerdem bietet sich da- 2.2.4 Als geradezu klassisches Beispiel für einen nach der faktorenanalytischen Methode entwickelten Intelligenztest können die »primary mental abilities« von Thurstone und Thurstone (1941) gelten. In Anlehnung an sie entstanden auch mehrere deutschsprachige Adaptationen (7 Abschn. 3.1.2). Aus dem Persönlichkeitsbereich sind als Vertreter induktiver Entwicklungen das »California Psychological Inventory (CPI)« von Gough (1969) zu nennen, des Weiteren das »Freiburger Persönlichkeitsinventar (FPI)« (. Abb. 2.24) von Fahrenberg und Selg (1970) sowie als besonders aktuelles Beispiel aus der Diskussion um die Forschungen zu den sog. Big Five das NEO-FFI (Neo-Fünf-Faktoren Inventar, deutsch: Borkenau & Ostendorf, 1993). Auf Einzelheiten wird unter 7 Abschn. 3.2.1 eingegangen. Trotz einer für alle Items bestehenden Konsistenz von α = 0.85, was auf Eindimensionalität hinweisen könnte, lässt sich somit eine Binnenstrukturierung erkennen, die im Nachhinein sinnvoll zu interpretieren ist, d. h. »von außen« Gemeinsamkeiten erkennen lässt. Die Ladungsmuster legen es nahe, das Gemeinsame in den 4 Faktoren zu identifizieren und wie folgt zu benennen: I Seriosität öffentlicher Institutionen und Personen, II Verlässlichkeit von Mitmenschen, III Vertrauenswürdigkeit von »Experten« (wie Verkäufer, Politiker, Reparateure), IV Konvergenz von Verbal- und Realverhalten. . Tabelle 2.6 (Fortsetzung) 2.2 · Konstruktionsprinzipien psychometrischer Tests Kategorien und deren Prototypen Beispiele induktiv konstruierter Verfahren 105 2 2 Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.24. Das FPI-R wurde teils deduktiv, teils faktorenanalytisch konstruiert 106 c d a b 2.2 · Konstruktionsprinzipien psychometrischer Tests 2 . Abb. 2.25a–d. Rosen gelten bei uns als prototypische Blumen, Hunde und Katzen als prototypische Tiere. Das Aussehen einer prototypisch schönen Frau mag sich dagegen im Laufe der Zeit wandeln 107 2 Höhere Validität für Skalen nach dem AFA Prototypizitätsmessung über den »Act Frequency Approach« Weitere Ansätze Um die Prinzipien der einzelnen Konstruktionsstrategien deutlich heraustreten zu lassen, sind diese bei der vorangegangenen Erörterung in gleichsam »reiner« Form geschildert worden. Im Zuge einer praktischen Umsetzung werden die Ansätze aber meist in der einen oder anderen Weise miteinander gemischt, was dadurch leichtfällt, dass die eine Methode die andere nicht ausschließt. So legt ein Autor »seinen« Itempool häufig nach rationalen Gesichtspunkten an, bereinigt ihn sodann nach konsistenz- und fakto- 2.2.5 durch die Möglichkeit, ggf. kürzere Skalen zu formieren, die sich nur aus hochprototypischen Items zusammensetzen. Im Vergleich zu den anderen verwendeten Konstruktionsprinzipien (rational, empirisch, faktoriell und an einem Konsistenzkriterium sowie an einer Zufallsanordnung orientiert) zeigten die nach Prototypizitätseinschätzungen zusammengestellten Skalen gegenüber den Fremdeinschätzungen von Bekannten in jeder Merkmalsdimension die höheren Validitätskoeffizienten. Noch einen Schritt weiter gingen Buss und Craik (1980), indem sie im Zuge des von ihnen kreierten Handlungs-Häufigkeits-Ansatzes (»Act Frequency Approach, AFA«) die prototypischen Verhaltensweisen von den Teilnehmern einer Untersuchung erst nennen ließen: Im Zuge der sog. »Generierungsphase« wurden die Versuchspersonen gebeten, an jene 2 oder 3 Personen aus ihrem sozialen Nahraum zu denken, bei denen eine bestimmte Eigenschaft besonders stark ausgeprägt sei, z. B. diejenige der Dominanz. (Unterstellt wird bei einem solchen Verfahren somit, dass ein entsprechendes Verständnis für die Begriffe unserer Sprache vorliegt.) Dann sollten die Probanden jene konkreten Verhaltensweisen in Situationen (»acts«) nennen, die sie bei ihren Referenzpersonen beobachtet hatten und die ihrer Meinung nach indikativ für das Vorhandensein der fraglichen Eigenschaften wären. Die damit erhaltenen Itementwürfe unterscheiden sich vom herkömmlichen Format darin, nicht irgendwelche Trendaussagen (»meistens«, »häufig«, »gern« usw.) zu enthalten. In einem zweiten Schritt wurden die generierten Verhaltensweisen (z. B. »Er/sie wechselte das Fernsehprogramm, ohne die anderen zu fragen« oder »Er/sie erteilte Anweisungen, die die Gruppe funktionieren ließen«) von einer anderen Gruppe hinsichtlich ihrer Prototypizität für die in Frage stehende Merkmalsdimension eingeschätzt. Als Ergebnis eines solchen Vorgehens lassen sich zumindest 2 Gruppen von Verhaltensweisen bilden, nämlich solche, die als relativ hoch- bzw. niedrigprototypisch eingeschätzt werden. In einem dritten Schritt nahmen schließlich die Probanden zu diesen Verhaltensweisen Stellung in der Frage, ob sie selbst – und ggf. wie oft – dieses Verhalten schon gezeigt hätten. Gegenüber den Beantwortungen herkömmlicher Tests korrelierten die hochprototypischen Acts enger als die niedrigprototypischen (s. Buss & Craik, 1984). In mehreren Arbeiten aus dem Heidelberger Institut konnte zudem der Nachweis geführt werden, dass die Übertragung dieser Prinzipien auf Merkmalsbereiche, in denen bislang nur Instrumente mit eher unbefriedigenden Messqualitäten vorliegen (z. B. Soziale Intelligenz, Kreativität, Risikoneigung), zu neuen Skalen führt, deren Validität diejenige der bekannten Tests bedeutsam übertrifft (Amelang et al., 1989, 1991; Krüger & Amelang, 1995). Insgesamt ist damit ein Ansatz geschaffen worden, der zumindest für den Temperaments- und Persönlichkeitsbereich, darüber hinaus aber auch für solche Dimensionen, die partiell leistungsthematisch sind, bedeutsame Fortschritte und eine weitere Verbesserung der bewährten Instrumente zu leisten verspricht. Kapitel 2 · Grundlagen diagnostischer Verfahren Höhere Validität für Skalen nach Prototypenansatz 108 Im deutschen Sprachraum haben Riemann und Abels (1994) diese nachgerade wegweisenden Befunde allerdings nicht replizieren können und im Zuge äußerst umsichtiger Versuche auch dann keine ermutigenderen Ergebnisse erzielt, wenn anstelle von Fragen objektive Verhaltensregistrierungen herangezogen wurden. Paulhus und Martin (1987) haben das Konzept von »Persönlichkeits-Capability« kreiert, also der Leichtigkeit, mit der ein vom situativen Kontext gefordertes Verhalten ausgeführt wird. Der Akzent hat sich damit gegenüber der herkömmlichen Traitperspektive (»Was tun Personen gewöhnlich?« oder »In welcher Weise verhalten sie sich?« Antwortmöglichkeiten auf der Skala für physischen Ärger: 1. = kein Anzeichen für Werfen oder Schlagen; 2. = Gedanke an Werfen oder Schlagen, rot anlaufen, Verlassen des Raumes; 3. = Schlagen auf Objekte (Türen, Wände usw.); 4. = Werfen von Objekten, aber nicht in der Absicht, die andere Person zu verletzen; 5. = die Person schubsen, einschließlich das Werfen von Gegenständen auf sie; 6. = wiederholtes Werfen von Gegenständen, Schlagen der Person mit Verletzungsabsicht; 7. = exzessive Gewalt, Werfen vieler Gegenstände oder wiederholtes Schlagen der Person. Für eine verbale Ärgerausdrucksskala sind ähnliche Abstufungen vorgesehen. »Wenn Sie im höchsten Maße ärgerlich wären, welche der folgenden Verhaltensweisen würden Sie dann zeigen?« renanalytischen Gesichtspunkten (vgl. induktive Methode), überprüft ihn am Ende gegenüber Extremgruppen von Personen (vgl. externale Methode) und eliminiert in diesem letzten Schritt auch jene Items, die wenig zur Validität beitragen. Insofern können die verschiedenen Prinzipien einander wechselseitig ergänzen. Eine spezifische Art rationaler Konstruktionsprinzipien ist dort gegeben, wo die unterschiedliche Schwierigkeit der zu generierenden Items von Leistungstests bestimmten theoretisch begründeten Heuristiken folgt. Die kritische Überprüfung für die Tragfähigkeit eines derartigen Ansatzes besteht im Vergleich der theoretisch hergeleiteten mit den empirisch ermittelten Schwierigkeiten. Dieser Technik bedient sich insbesondere Hornke (s. Hornke et al. 1988; Hornke & Etzel 1993/1995; Hornke & Storm 1993/1995) bei der Entwicklung computergestützter Tests (7 Abschn. 3.1). Teils anhand von Aufgaben zum räumlichen Vorstellen nach Art der Metzler- und Shepard-Figuren (s. Shepard & Metzler 1971), teils unter Verwendung von Item-Typen, die im Prinzip denen der eingebetteten Figuren von Gottschaldt entsprachen (7 Beispiele in Abb. 3.8), im Weiteren von neuartigen Aufgaben zur Erfassung von Gedächtnis und Orientierung in einem ökologischen Kontext erwies sich eine hochgradige Übereinstimmung von vorhergesagten und empirisch ermittelten Schwierigkeitskoeffizienten. Die Modellprüfung erfolgte dabei – je nach dem Aufbau der durchgeführten Studien – entweder auf der Basis der Richtig/Falsch-Antworten oder der Reaktionszeiten der Versuchspersonen. Weil Leistungstests häufig etwas valider sind als Persönlichkeitsfragebogen, gingen Willerman et al. (1976) der Frage nach, ob die mäßigen psychometrischen Kriterien der Fragebogen verbessert werden könnten, wenn anstelle der üblichen Trendfragen solche nach der maximalen Performanz gestellt würden. Für den Ausdruck von Ärger waren die Resultate im Vergleich zu den herkömmlichen Fragebogen recht positiv. 2.2 · Konstruktionsprinzipien psychometrischer Tests 2 Persönlichkeits-Capability = Leichtigkeit des Verhaltens Fragen nach maximaler Performanz Konstruktionsprinzipien ergänzen sich 109 2 Inhaltliche Heterogenität und interne Konsistenz Capability-Faktoren und soziale Kompetenz Vergleichende Würdigung In Ergänzung zu einigen der bereits oben angesprochenen Punkte sollen nachfolgend kurz die wesentlichen Unterschiede zwischen einigen psychometrischen Gütekriterien herausgestellt werden. Wegen der inhaltlichen Heterogenität der Items aus external konzipierten Skalen (7 Abschn. 2.2.2, Beispiel) weisen diese im Regelfall sehr viel niedrigere interne Konsis- 2.2.6 oder »Wie häufig zeigen sie bestimmte Verhaltensweisen?«) etwas verschoben in dem Sinne, dass stärker motivationale Faktoren ins Spiel kommen (»Was kann eine Person tun, wenn sie nur will?«, . Abb. 2.26). Riemann (1992) hat einen Fragebogen zur Erfassung von Persönlichkeitsfähigkeiten im Weiteren Sinne entwickelt. Diese sind von den »klassischen Fähigkeiten« zu unterscheiden, die der Qualität einer Leistung oder Kompetenz unter optimalen Bedingungen und häufig maximaler Motivation gelten. Ein Item lautet beispielsweise: »Selbst wenn ich eine Person interessant und attraktiv finde, ist es für mich schwer, sie einzuladen, mit mir gemeinsam etwas zu unternehmen.« Mit insgesamt 66 Items werden die Bereiche Unterstützung, Assertivität, Geduld/Submissivität, Geselligkeit, Selbstkontrolle/Verträglichkeit und Ausdauer/Leistung erfasst. In der Studie von Riemann und Abels (1994) bestanden recht enge Korrelationen zwischen den Persönlichkeitsfähigkeiten und inhaltlich verwandten herkömmlichen Traitmaßen (Geselligkeit/Extraversion, Ausdauer/Gewissenhaftigkeit). Darüber hinaus korrelierten die Capability-Faktoren hoch mit Maßen der (selbsteingeschätzten) sozialen Kompetenz. Hingegen erfüllten sich dort die Erwartungen nur ansatzweise, wo auch das Wissen über das in bestimmten Situationen angemessene Verhalten mit objektiven Indizes für maximales Verhalten korreliert wurde. Insgesamt belegen die Arbeiten die Nützlichkeit einer gesonderten Unterscheidung von Fähigkeiten im Persönlichkeitsbereich und machen zugleich auch deutlich, dass diesbezüglich die Entwicklung geeigneter Instrumente noch teilweise am Anfang steht. Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.26. Persönlichkeits-Capability bezeichnet die Leichtigkeit, mit der ein vom situativen Kontext gefordertes Verhalten ausgeführt wird 110 Grundzüge von Itemanalysen In den bisherigen Ausführungen ist wiederholt angeklungen, dass die Auswahl und Erprobung der Items (d. h. der kleinsten Einheiten eines Tests in Form von einzelnen Fragen, Aufgaben oder Aussagen, zu denen die Probanden Stellung nehmen müssen) nach ganz unterschiedlichen Prinzipien erfolgt, je nachdem, ob beispielsweise das Verfahren als Ganzes nach der induktiven, deduktiven oder externalen Strategie entwickelt wird. So steht in induktiv oder faktoriell konzipierten Tests die Korrelation der Items miteinander im Vordergrund, bei der empirischen Methode dagegen die Korrelation mit einem Außenkriterium. Als Konsequenz daraus ergibt sich eine hohe 2.2.7 tenzen auf als rational oder induktiv entwickelte Skalen. Das heißt, die Items interkorrelieren viel niedriger miteinander und konstituieren weniger eine gemeinsame Dimension. Um die gleiche Messgenauigkeit oder Reliabilität (7 Abschn. 2.3.1.2) wie bei induktiven oder rationalen Skalen zu erreichen, müssen externale sehr viel länger sein, da bei ihnen die Itemkovarianzen gering sind [vgl. dazu die Ableitungen in 7 Abschn. 2.1.1.4 zur Verlängerung von Tests, insbesondere Formel (2.28)]. Geringe interne Konsistenz darf aber nicht vorschnell als niedrige Reliabilität missverstanden werden. Vielmehr sollte diese zweckmäßigerweise über eine wiederholte Testung an derselben Personenstichprobe zu einem späteren Zeitpunkt ermittelt werden (Retestreliabilität). Die multifunktionelle Binnenstruktur empirischer Skalen macht diese sehr anfällig für die jeweilige Zusammensetzung der Untersuchungsstichprobe, d. h. für das Ausmaß, in dem jeder der implizierten Faktoren darin streut. Denn die Konstruktionsmethode favorisiert solche Verhaltensmerkmale, die in der Entwicklungsstichprobe innerhalb jeder Gruppe gering, aber zwischen den Gruppen stark streuen. Sofern diese Relation später nicht mehr gegeben ist, kann die Validität erheblich in Mitleidenschaft geraten. Ein unbezweifelbarer Vorteil externaler Skalen besteht in ihrer vergleichsweise geringen Verfälschbarkeit durch die Testbeantworter, da diesen die Messintention oftmals verborgen bleibt und sie deshalb nicht wissen, in welcher Richtung sie antworten sollen, um ein bestimmtes Ziel (etwa: einen guten Eindruck zu machen) zu erreichen (dazu und zu weiteren Aspekten s. Schmolck, 1983). Burisch (1984) hat die Untersuchungen zusammengestellt, in denen die verschiedenen Konstruktionsmethoden im Hinblick auf ihren Erfolg, also letztlich die Validität der gebildeten Skalen, miteinander verglichen wurden. Seine Analyse beschränkt sich aus mehreren Gründen auf Persönlichkeitsfragebogen, d. h. Leistungstests blieben außer Betracht. Ungeachtet einiger hier und da auftretender Unterschiede war über alle Studien hinweg keine konsistente Überlegenheit einer der Techniken zuungunsten einer anderen festzustellen. Alle Konstruktionsprinzipien sind also in etwa gleicher Weise zielführend, und es wird im einzelnen von Vorlieben oder Notwendigkeiten abhängen, für welche Strategie man sich entscheidet. Dessenungeachtet könnte den rationalen (oder: deduktiven) Verfahren ein allgemeiner Vorzug daraus erwachsen, dass sie sehr ökonomisch zu entwickeln und die damit erhaltenen individuellen Testwerte wegen der Anlehnung der Dimensionen an den alltäglichen Sprachgebrauch sehr viel leichter kommunizierbar sind. Das heißt, den getesteten Personen und anderen Interessenten an den Ergebnissen sind diese meist besser zu vermitteln, als wenn es sich um die Resultate aus induktiven oder externalen Skalen handelt, für die häufig Neologismen zur Benennung herangezogen werden. 2.2 · Konstruktionsprinzipien psychometrischer Tests Bedeutung der Konstruktionsmethoden für Gütekriterien Ökonomie und Kommunizierbarkeit rationaler Skalen Geringe Verfälschbarkeit externaler Skalen 111 2 2 Berechnung eines Speedindexes Schwierigkeit von Items Von den gebräuchlichen Ansätzen, den Speed- vs. Powercharakter von Tests in einem Kennwert zu quantifizieren, beruht einer auf experimentellen Anordnungen: Paterson und Tinker (1930) haben vorgeschlagen, die Korrelation zwischen den Messungen mit Niveautests sind dadurch definiert, dass auch bei unbegrenzter Zeitvorgabe von keinem Testteilnehmer alle Aufgaben richtig gelöst werden. Mit derartigen Verfahren wird primär das intellektuelle Niveau oder die »Denkkraft« (Power) ermittelt. Definition Geschwindigkeits- oder Schnelligkeitstests werden häufig zur Prüfung der Konzentration eingesetzt. Ein Beispiel ist der Pauli-Rechentest, wo während 60 min einstellige Ziffern jeweils paarweise addiert werden müssen. Weil diese Operationen sehr schnell erfolgen, und zwar möglicherweise rascher als das Aufschreiben der Lösungen, sollen die Probanden bei zweistelligen Ergebnissen nur die Einerstellen notieren. Damit soll gewährleistet werden, dass der Testwert tatsächlich mentale Konzentration und nicht feinmotorische Geschicklichkeit oder dergleichen prüft. Demgegenüber lassen sich »Niveau-« oder »Powertests« unterscheiden (. Abb. 2.27). Geschwindigkeitstests sind dadurch definiert, dass bei unbegrenzter Zeitvorgabe alle Items von allen Probanden gelöst werden, d. h. ihr Schwierigkeitsgrad konvergiert dann gegen Null. Die Differenzierung zwischen den Probanden wird nur durch die Begrenzung der Bearbeitungszeit erreicht. Definition Homogenität im ersten, eine niedrige im zweiten Fall. Dessenungeachtet kann hier wie dort die Trennschärfe als ein weiteres Maß zur Kennzeichnung der psychometrischen Qualität von Items, nämlich die Korrelation der Itembeantwortung mit dem Summenwert der Skala, auf hohem Niveau liegen. Im ersten Fall gilt dies, weil dann das Item in etwa dieselben, im zweiten Fall jeweils andere Aspekte des untersuchten Merkmals erfasst als die Gesamtheit der anderen Items. Aus diesem Grunde stellt die Höhe der Iteminterkorrelationen oder deren Trennschärfe keinen Wertmaßstab für sich dar; vielmehr müssen diese Kennwerte stets in Relation zu dem verfolgten Ziel gesetzt werden. Gleiches gilt auch für ein anderes wichtiges Maß zur Kennzeichnung der psychometrischen Eigenschaften eines Items, nämlich der Schwierigkeit. Darunter wird die relative Häufigkeit von Probanden verstanden, die auf das betreffende Item im Sinne des untersuchten Merkmals reagieren. Bei Leistungstests bedeutet das genauer, die richtige Lösung zu liefern, bei Persönlichkeitstests, eine Antwort zu geben, die indikativ für eine höhere Merkmalsausprägung ist. Auch im Falle von Persönlichkeitstests wird also von der »Schwierigkeit« gesprochen, obwohl der Begriff hier irreführend sein mag, weil die spezifische Wortbedeutung nur bei Leistungstests Sinn macht. Aber auch bei Leistungstests ist es nicht immer sinnvoll, den Schwierigkeitsindex zu berechnen, und zwar bei solchen Verfahren nicht, die zur Kategorie der sog. »Geschwindigkeits-«, »Schnelligkeits-« oder »Speedtests« zählen. Kapitel 2 · Grundlagen diagnostischer Verfahren Homogenität und Trennschärfe als Gütekriterien von Items 112 rAtBp ⋅ rApBt . rAtBt ⋅ rApBp (2.52) Beeinträchtigt die Variation der Durchführungsbedingungen die Korrelationen zwischen den parallelen Formen im Vergleich zur Durchführung unter identischen Bedingungen nicht, so erreicht der Zähler des Quotienten ähnliche Werte wie der Nenner, weshalb der Speedindex gegen Null konvergiert. Umgekehrt fällt der Speedindex um so höher aus, je stärker die Variation der Durchführungsbedingungen die Korrelationen zwischen den parallelen Formen gegenüber denjenigen unter identischen Durchführungsbedingungen verringert. Ein Wert z. B. von t = 0,5 kann in dem Sinne interpretiert werden, dass 50% der Rohwertevarianz auf die Schnelligkeitskomponente entfallen. An dem Index ist problematisch, dass letztlich eine niedrige Korrelation zwischen Speed- und Powerdurchführung nur auf die Variation eben dieses Faktors zurückgeführt wird. Dabei kann sehr wohl auch ein Wechsel in der geprüften psychischen Funktion eingetreten sein, dessen (zusätzlicher) Beitrag konfundiert mit eingeht. Streng τ = Speedindex, A, B = Parallelformen eines Tests, p, t = Durchführung unter Power- bzw. Time-limit-Bedingungen. τ =1 - parallelen Formen eines Tests, von denen die eine unter Geschwindigkeits- und die andere unter Niveaubedingungen erfolgt, mit entsprechenden Erhebungen unter identischen Bedingungen zu vergleichen, und zwar nach der Formel 2.2 · Konstruktionsprinzipien psychometrischer Tests 2 Begrenzte Interpretierbarkeit des Speedindexes . Abb. 2.27. Während bei reinen Geschwindigkeitstests die Schwierigkeit v. a. in der knappen Zeitvorgabe liegt, ergibt sich diese bei reinen Niveautests aus den intellektuellen Anforderungen der Aufgaben 113 2 Schwierigkeitsindex Geringe Aussagekraft der Kennwerte bei hoher Speedkomponente Leistungstests sind meistens Mischformen u-m n-m (2.53) P= NR ⋅100 N (2.54) ! Wie bereits dargelegt, gibt der Schwierigkeitsindex an, wie groß der relative Anteil von Probanden ist, die ein Item »richtig« (also im Sinne höherer Merkmalsausprägung) beantworten: 2.2.7.1 Schwierigkeit Bedeutung und Berechnung Bei reinen Schnelligkeitstests werden alle in Angriff genommenen Aufgaben, von einigen Flüchtigkeitsfehlern vielleicht abgesehen, auch gelöst (Summe B = Summe X; u = m); deshalb strebt hier der Niveauindex gegen Null. Anders verhält es sich dagegen im Fall von Powertests; dort werden alle Aufgaben in Angriff genommen (u = n). Unabhängig davon, wieviele davon auch gelöst werden, wie hoch also m im konkreten Fall ausfällt, beträgt w deshalb 1. Die gebräuchlichen Tests zur Erfassung von Leistungsmerkmalen außerhalb der konzentrativen Funktionen stellen gewöhnlich Mischformen dar. Das heißt, sie beinhalten teils Schnelligkeits-, teils auch Niveaukomponenten insofern, als zum einen die Aufgaben hinsichtlich ihrer Schwierigkeit stark streuen und zum anderen die Bearbeitung zeitbegrenzt erfolgt. Aus naheliegenden Gründen sind dabei innerhalb der einzelnen Subtests die Items nach ansteigender Schwierigkeit gereiht. Nur soweit (zumindest) die besagte Mischung aus Schnelligkeits- und Niveaukomponenten vorliegt, sind die Maße für Schwierigkeit, Homogenität und Trennschärfe sinnvolle Kennwerte zur Beschreibung der psychometrischen Charakteristika von Items. In dem Ausmaß, in dem die Geschwindigkeitsbetonung zunimmt, verlieren eben diese Indizes sehr stark an Aussagekraft, was im einzelnen noch zu zeigen sein wird. Bei der nachfolgenden Darstellung wird deshalb der Einfachheit halber unterstellt, es handele sich um die Items eines reinen Niveautests. Zur Sprache gelangen nur die elementaren Begriffe und Prozeduren, deren Verständnis eine unabdingbare Voraussetzung für die angemessene Bewertung der zu diagnostischen Instrumenten vorliegenden Informationen ist. Für eine vertiefende Beschäftigung ist die Lektüre einschlägiger Spezialliteratur unverzichtbar (z. B. Lienert & Raatz, 1998; Krauth, 1995 und Kubinger, 1989). m = Summe X/n = Mittelwert der richtig beantworteten Aufgaben, u = Summe B/n = Mittelwert der bearbeiteten Aufgaben, n = Anzahl der Aufgaben. w= genommen müsste gewährleistet sein, dass der Test trotz der unterschiedlichen zeitlichen Vorgaben doch immer ein und dieselbe Dimension (etwa induktives Denken oder räumliches Vorstellen) erfasst. Genau das zu gewährleisten, wird wohl aus den verschiedensten Gründen nur selten der Fall sein können. Sehr viel wirklichkeitsnaher und weniger durch theoretische Unwägbarkeiten belastet ist demgegenüber der von Ebel und Lienert (1960) vorgeschlagene »Niveauindex«: Kapitel 2 · Grundlagen diagnostischer Verfahren Berechnung eines Niveauindexes 114 120 ⋅100 = 33,3. 360 (2.47) Neu darin sind die Terme NF = Zahl der Probanden, die die Aufgabe falsch beantwortet haben, m = Zahl der Wahlmöglichkeiten in einer Mehrfachwahlaufgabe. N R - [N F /(m - 1)] P= ⋅100. N (2.55) Hohe Werte in P stehen somit für eine niedrige Schwierigkeit, niedrige Werte von P umgekehrt für eine hohe Schwierigkeit der Aufgabe. Auf »die« Schwierigkeit des Tests sind aber nur dann eindeutige Rückschlüsse zu ziehen, wenn das Leistungsniveau der Probanden bekannt ist (es sich etwa um eine repräsentative Stichprobe für die Grundgesamtheit handelt). Weiß man hingegen, wie schwierig der Test ist, kann daraus das Leistungsniveau der Gruppe abgelesen werden. Die oben angegebene einfache Formel für P sollte jedoch nur in solchen Fällen zur Anwendung gelangen, wo der Einfluss von Zufall (also z. B. durch Raten der Probanden oder wahlloses Ankreuzen) ausgeschlossen werden kann, wie es beispielsweise bei freier, ungebundener Beantwortung in Form von Ergänzungsaufgaben oder gar Kurzaufsätzen der Fall ist, des Weiteren bei Verwendung sehr vieler Alternativantworten (auch »Distraktoren« genannt, zu denen auch die richtige Lösung gezählt wird) in Mehrfachwahlaufgaben und Zuordnungsaufgaben. (Die Bezeichnung »Alternativantworten« ist unglücklich, weil sie strenggenommen eine 2fache oder dichotome Abstufung impliziert. Sie hat sich gleichwohl durchgesetzt und wird auch hier übernommen.) Für die Korrektur des Zufalls lautet die Formel Das Item zur Impulsivität ist danach, wollte man diese beiden Beispiele miteinander vergleichen, »schwieriger« als das Item zur Fortsetzung der Zahlenreihe. P= In einem Fragebogen zur Impulsivität haben von denselben Personen auf die Aussage: »Wenn mich jemand sehr ärgert, dann zähle ich erst mal still bis 10« 120 mit »Nein« geantwortet: 240 P= ⋅100 = 66,7. 360 In einer Stichprobe von 360 Probanden haben 240 Testteilnehmer die Zahlenreihe 3-6-9-12-15-18-? richtig fortgesetzt und an der Stelle des Fragezeichens die Zahl 21 eingesetzt. Beispiel P = Schwierigkeitsindex, NR = Zahl der Probanden, die die Aufgabe im Sinne des Merkmals beantwortet haben, N = Zahl aller Probanden. 2.2 · Konstruktionsprinzipien psychometrischer Tests Korrektur von Zufallseinflüssen 115 2 2 116 240 - [120/(5 - 1)] ⋅100 = 58,3 360 (2.56) 1 . m (2.58) (2.57) Wenn alle F-Antworten per Annahme fg-Antworten sind, können wir unter Heranziehung der obigen Ausdrücke das Verhältnis von rg- zu fg(=falsch)-Antworten bilden als p(fg) = 1 - p(rg) 1 p(fg) = 1 - . m ergibt sich die Wahrscheinlichkeit für »falsch geraten« als p(rg) + p(fg) = 1, Weil p(rg) = Wenn m die Anzahl der Distraktoren (s.o.) einer Mehrfachwahl- oder Richtig-FalschAufgabe ist, so ergibt sich die Wahrscheinlichkeit für »richtig geraten« als ng = nrg + n fg Die o. a. Rate- oder Zufallskorrektur leitet sich für den individuellen Fall ab wie folgt (nach Moosbrugger, 1990, S. 26–27): Hauptsächlich bei Mehrfachwahlaufgaben (und nicht so sehr bei Ergänzungsaufgaben) können richtige Lösungen durch Zufall erreicht werden. Das mag jene Testpersonen benachteiligen, die lieber keine als unsichere Antworten geben, etwa im Vergleich zu Probanden, die viele Antworten trotz Unsicherheit »auf gut Glück« liefern. Eine derartige Benachteiligung kann mit einer Ratekorrektur aufgefangen werden, die allerdings nur dann zur Anwendung kommen sollte, wenn in der Instruktion zur Bearbeitung des Tests darauf hingewiesen wurde. Der grundlegende Gedanke geht dahin, dass falsche Antworten nicht durch einen falschen Lösungsansatz, sondern durch Raten zustande kommen; wenn die Testperson rät, so geht sie nach Zufall vor. Die Anzahl ng der geratenen Antworten g setzt sich somit zusammen aus der Anzahl der nrg richtig geratenen Antworten rg und der Anzahl nfg der falsch geratenen Antworten fg: Gegenüber dem unkorrigierten Wert ist also eine (numerisch allerdings geringfügige) Minderung von P zu beobachten, d. h. das Item ist nach der Zufallskorrektur etwas schwerer, da die zufällig richtigen Treffer abgezogen wurden. P= Angenommen, bei der Aufgabe in dem vorangegangenen Beispiel hätte es sich um eine Mehrfachwahlaufgabe mit insgesamt 5 Alternativen gehandelt. 120 Probanden hätten zu dem Item eine falsche Lösung geliefert. Dann errechnet sich P wie folgt: Beispiel Kapitel 2 · Grundlagen diagnostischer Verfahren (2.59) (2.61) (2.60) NR ⋅100. NB P= N R - [N F /(m - 1)] ⋅100. NB Mit Zufallskorrektur: NB = Zahl der Probanden, die die Aufgabe bearbeitet haben. P= (2.63) (2.62) Solche Zufallskorrekturen wirken sich auf die P-Werte um so drastischer aus, je höher der zu beseitigende Zufallseinfluss ist und je höher die Fehlerraten ausfallen. Die relative Position der einzelnen Items zueinander in bezug auf P ändert sich nur dann bedeutsam, wenn die Fehlerraten bei den Items sehr verschieden sind. Negative Schwierigkeiten, die eben wegen ihres Vorzeichens nicht interpretiert werden können, geben einen Hinweis darauf, dass es sich um eine sehr schwere, aber relativ leicht erscheinende Aufgabe handelt, bei der also die Wahrscheinlichkeit von Fehlern sehr hoch ist. In jenen Fällen, wo etwa infolge der Zeitbegrenzung nicht alle Aufgaben von allen Probanden bearbeitet werden konnten, muss bei der Ermittlung von P die Gesamtzahl der Probanden um die Zahl derer vermindert werden, die sich an dem Item gar nicht versuchen konnten: X’ = n r - n f . Bei Richtig-Falsch-Antworten vereinfacht sich die Zufallskorrektur auf X′ = zufallskorrigierter Rohwert X’ = nr - nrg n = nr - f m-1 Dieser Ausdruck steht für die Anzahl richtiger Antworten, die durch richtiges Raten zustande gekommen sind. Um den zufallskorrigierten Testwert einer einzelnen Testperson zu erhalten, ist vom ursprünglichen Testwert X die Anzahl der nur durch Zufall richtig gelösten Antworten abzuziehen: n nrg = f m-1 nrg p(rg) = n f p(fg) 1 m m = ; durch Erweitern mit 1 m 1− m 1 = ; durch Umfformulierung m-1 2.2 · Konstruktionsprinzipien psychometrischer Tests 117 2 2 . Abb. 2.28a, b. Abgestufte Beantwortungsskalen a Ausmaß der Zustimmung zu einer Meinung b Häufigkeit im Auftreten einer Verhaltensweise 240 - [40/(5 - 1)] ⋅100 = 82 280 N (2.64) Pm = erreichte Wertpunkte erreichbare Wertpunkte Allerdings ist P nur dann hinreichend aussagekräftig, wenn die Streuung der Einzelwerte um diesen Mittelwert gering ist. Einem anderen Vorschlag entsprechend (s. Dahl, 1971; Wagner & Baumgärtel, 1978) kann die von einer Stichprobe von Probanden in einer Aufgabe erreichte Punktezahl zur maximal erreichbaren Zahl von Wertpunkten in Relation gesetzt werden: Xt = individuelle Testwerte. P= N t =1 ∑X t Soweit handelt es sich um dichotome Beantwortungen im Sinne von richtig/falsch bzw. – für Persönlichkeitsfragebogen – ja/nein oder stimmt/stimmt nicht. Einige Intelligenztests sehen aber bei bestimmten Aufgabentypen auch ein abgestuftes Bewertungssystem in der Art vor, dass für vollständig richtige Lösungen oder solche nach besonders kurzer Zeit die maximale Punktzahl und für teilweise richtige Antworten eine geringere Zahl von Punkten gegeben wird. Beispielsweise gilt dieses für die Subskalen Allgemeines Verständnis und Gemeinsankeiten Finden im Wechsler-Test (HAWIE), wo die Abstufungen 0, 1 und 2 Punkte vorkommen. In dem Mosaik- und Figuren-legen-Subtest aus demselben Verfahren ist das Bewertungssystem differenzierter. Auch im Einstellungs- und Persönlichkeitsbereich sind kontinuierlich abgestufte Beantwortungsskalen etwa derart bekannt (. Abb. 2.28a und b). Sofern in solchen Fällen zumindest Intervall-Skalen-Niveau unterstellt werden kann, stellt der Mittelwert aller Antworten auf der betreffenden Skala ein Äquivalent für P dar: Ohne die Korrektur des »Inangriffnahmefaktors« erscheinen Items somit als schwieriger, als es tatsächlich der Fall ist. P= Von den 360 Probanden der Stichprobe im ersten Beispiel waren 80 nicht dazu gekommen, die Aufgabe in Angriff zu nehmen, d. h. nur 280 hätten sie bearbeitet. Das bedeutet: Beispiel Kapitel 2 · Grundlagen diagnostischer Verfahren Abstufung von Bewertungsskalen 118 ∑X temp N = Schwierigkeitsindex für mehrstufige Itembeantwortungen, = empirische Wertpunkte, = N · m, = Zahl der Probanden, = Zahl der Abstufungen. (2.65) 100 ⋅100 = 20. 500 t =1 ∑X tmax 2 , (2.66) Zusammenhänge mit anderen Itemkennwerten Mittlere Werte für P (um 50) bedeuten größtmögliche Streuung der Itembeantwortungen und damit eine hohe Differenzierung zwischen den Probanden (s. a. 7 Abschn. 2.1). 6 Diese Formel weist dann eher mittlere Werte für P aus, wenn die individuellen Itembeantwortungen stark streuen, d. h. ein Teil der Probanden nur wenige, ein anderer hingegen viele Wertpunkte erzielt. Von daher ist eine direkte Vergleichbarkeit mit den üblichen Kennwerten für P gegeben. Zu den anderen Itemkennwerten steht der Schwierigkeitsindex wie folgt in Beziehung: wobei X tmax 2 = N ⋅ (m)2 Pm = t =1 N ∑X temp2 N Nun lässt sich zeigen, dass gleiche Werte für P bei höchst unterschiedlichen Streuungen auf den Beantwortungsskalen möglich sind. Größere Streuungen sind (bei sonst gleichen Voraussetzungen) ein Hinweis auf eine stärkere Diskriminierungskraft eines Items, da es die bestehenden interindividuellen Unterschiede besser abbildet. Fisseni (1990, S. 34 f.) hat deshalb vorgeschlagen, anstelle der Summen der originalen Wertpunkte in der obigen Gleichung – analog zur Berechnung von Varianzen – deren Quadrate heranzuziehen: Pm = Weist etwa die Beantwortungsskala 5 Abstufungen auf, so können 100 Probanden maximal (100 · 5) = 500 Punkte erreichen. Erzielen sie empirisch nur 100, entspricht dieses einem Wert von Pm Xtemp Xtmax N m t =1 Pm = tN=1 ⋅100 ∑X tmax oder 2.2 · Konstruktionsprinzipien psychometrischer Tests 2 Zusammenhänge mit anderen Itemkennwerten Bedeutung von Streuungen auf Beantwortungsskalen 119 2 Streuung einer Aufgabe hängt von P ab Schwierigkeit , 100 q = 1-p. p= Wobei si = Streuung (Standardabweichung) des Items i, si = pq (2.67) Direkt abhängig von P ist im übrigen auch die Streuung einer Aufgabe, dies allerdings nur, wenn die Beantwortung nicht auf kontinuierlichen Skalen, sondern in dichotomer Weise (0/1) erfolgt. Wie man sich grafisch unschwer veranschaulichen kann, ist die Verteilungsbreite bei 2 Antwortstufen dann am größten, wenn beide Antwortalternativen in gleicher Häufigkeit gewählt werden, P also 50 beträgt. Umgekehrt ist die Verteilung sehr schmal, wenn sich die Antworten auf einer Stufe stark massieren (P um 5 oder um 95). Im Extremfall von P = 0 oder P = 100, wo alle Probanden entweder richtig oder falsch lösen, ja oder nein sagen, existiert keinerlei Streuung mehr. Die Streuung hängt also von P ab. Konkret gilt die Formel Auswirkungen einer breiten Streuung der Schwierigkeitskoeffizienten 4 Items mit extremen Schwierigkeitskoeffizienten (P 5–10 oder 90–95) gewährleisten auch eine Differenzierung zwischen den Probanden in den randständigen Bereichen der Merkmalsverteilung. 4 Extreme Schwierigkeitskoeffizienten sind andererseits mit hohen Korrelationen empirisch unvereinbar, wenn die miteinander korrelierten Items nicht denselben Schwierigkeitsgrad aufweisen; d. h. die Aufnahme von Items mit unterschiedlicher Schwierigkeit führt zu Einbußen an Homogenität und Trennschärfe. Unter Bezugnahme auf diese Regeln könnte die Auswahlstrategie naheliegen, in eine Skala möglichst nur Items mit einer mittleren Schwierigkeit aufzunehmen. Wenn dabei aber die Items die Stichprobe der Probanden mehr oder weniger in derselben Weise in Löser und Nichtlöser diskriminieren (was bei einer hohen Korrelation zwischen den Items der Fall wäre), ergeben sich auch durch Verwendung sehr vieler Items nicht mehr als eben diese beiden Kategorien von Lösern und Nichtlösern. Aus diesem Grunde wird üblicherweise eine breite Streuung der Schwierigkeitskoeffizienten von Items in einer Skala angestrebt (P zwischen 5 und 95). Das führt zu folgenden Effekten: Ausreichende Merkmalsstreuungen sind eine notwendige (nicht aber hinreichende) Voraussetzung für hohe Korrelationen, in diesem Fall: von Korrelationen der Itembeantwortungen mit den Reaktionen auf andere Items sowie dem Skalen-Summenwert. Daher begünstigen mittlere Schwierigkeitskoeffizienten die Homogenität und Trennschärfe, garantieren diese aber nicht. Kapitel 2 · Grundlagen diagnostischer Verfahren Breite Streuung der Schwierigkeitskoeffizienten angestrebt 120 N ⋅ ∑XY - ∑X∑Y (N ⋅ ∑X 2 - (∑X)2 (N ⋅ ∑Y 2 - (∑Y)2 ) (2.68) XR - X p ⋅ s q wobei p = NR/N (also der Schwierigkeitsgrad) und q = 1-p, rpbis = (2.69) Häufig wird allerdings die Itemantwort nur in dichotomer Form vorliegen, etwa als richtig/falsch, ja/nein oder stimmt/stimmt nicht. Diese Abstufung kann als eine solche echt-alternativer, also qualitativer Art verstanden werden. Dann kommt eine Berechnung mit Hilfe des punkt-biserialen Korrelationskoeffizienten in Betracht: = Korrelation zwischen Itembeantwortung und Testscore, rit X = Itemscore, Y = Skalen-(Summen-)Score, ∑X, ∑Y = Summe der Item- bzw. Skalenscores über die Probanden, 2 2 ∑X , ∑Y = Quadratsummen, ∑XY = Produktsumme. rit = Je nachdem, in welcher Form die Informationen aus den miteinander korrelierten Messwertreihen vorliegen, sind verschiedene Koeffizienten angemessen. Bei dem Summenwert der Skala handelt es sich i. Allg. um eine Variable, die in kontinuierlich-quantitativ abgestufter Form vorliegt; meist wird Gleichabständigkeit unterstellt, d. h. Intervall-Skalen-Niveau. Erfolgt die Bearbeitung des einzelnen Items auf kontinuierlichen Antwortskalen, z. B. mit 5 oder 7 Abstufungen oder – wie dies bei graphischen Skalen der Fall ist – mit keinerlei Unterteilung im vorhinein (weshalb dann die Markierung der Versuchsperson in Einheiten von Millimeter oder Zentimeter vom Ursprung der Skala aus gemessen wird, s. z. B. Amelang & Pielke, 1992), bietet sich der Produkt-Moment-Korrelationskoeffizient von Pearson-Bravais an. Im Unterschied zu der bereits unter der klassischen Testtheorie dafür angegebenen Formel (7 Abschn. 2.1.1) wird nachfolgend eine Schreibweise angeboten, die eine Ermittlung des Koeffizienten direkt anhand der Rohwerte erlaubt: Die Trennschärfe einer Aufgabe ist definiert als die Korrelation der Itembeantwortung mit dem Summenwert der Skala, zu der das betreffende Item gehört. Sie ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der Probanden in Löser und Nichtlöser durch das Item mit demjenigen durch die Skala als Ganzes übereinstimmt. Definition 2.2.7.2 Trennschärfe Bedeutung und Berechnung Der Aufgabenstreuung kommt in Verbindung mit der Trennschärfe eine besondere Bedeutung zu (7 folgenden Abschn. 2.2.7.2). 2.2 · Konstruktionsprinzipien psychometrischer Tests 2 Berechnung bei dichotomer Abstufung der Antworten Summenwert als kontinuierlich-quantitativ abgestufte Variable 121 2 Berechnung bei Annahme eines Kontinuums (2.70) XR − X p ⋅ s y (2.71) Die Formel (2.71) gilt für vollständige Aufgabenpräventation. Wie man erkennt, entsteht rbis aus der Multiplikation von rpbis mit dem Faktor p ⋅ q/y. Da dieser Faktor für alle denkbaren Werte von P Zahlen >1,0 beträgt (z. B. für P = 50: 1,253; für P = 99: 3,733), resultieren bei gleichem Material höhere Koeffizienten, wenn man anstelle von rpbis den biserialen Koeffizienten errechnet. Mitunter liegen Konstellationen vor, in denen auch das Kriterium eine echt-alternative oder dichotome Datenqualität aufweist, was ggf. die Benutzung eines PunktVierfelder- bzw. tetrachorischen Korrelationskoeffizienten notwendig macht. Diese y = Ordinatenwert in der Standardnormalverteilung für jenen Wert, der die Fläche unter der Normalverteilungskurve in die Anteile p und q trennt. – X = arithmetisches Mittel der Testrohwerte aller Probanden p = auf den Wert 1 bezogener Anteil derjenigen Probanden, die das Item lösen q =1–p rbis = Der punkt-biseriale Korrelationskoeffizient entspricht dem Produkt-Moment-Korrelationskoeffizienten, wenn man für die eine Alternative 1, für die andere 2 einsetzt und einen Produkt-Moment-Korrelationskoeffizienten berechnet. Als nicht minder plausibel erscheint die Auffassung, dass auch den Beantwortungen im Sinne von ja/nein, stimmt/stimmt nicht usw. »eigentlich« ein Kontinuum zugrunde liegt, auf dem das relative Ausmaß an Zustimmung abgetragen wird. Irgendwo mag dann aber eine Stelle erreicht sein, wo die geringe Zustimmung als Ablehnung bezeichnet, bzw. umgekehrt die immer schwächere Ablehnung als Zustimmung etikettiert wird. Im Leistungsbereich wird diesen Überlegungen verschiedentlich dadurch Rechnung getragen, dass nicht nur die richtigen Lösungen gewertet werden, sondern auch solche Antworten Punkte erhalten, die immerhin in Teilaspekten richtig sind und erkennen lassen, dass der Proband »auf dem richtigen Wege« war, was ebenfalls eine Leistung bedeutet. Solchen Erwägungen zufolge geschieht somit auch die dichotome Itembeantwortung auf einem Kontinuum, das aber aus verschiedenen Gründen (etwa der Einfachheit halber) nur in dichotomisierter Form vorliegt. Das berechtigt zur Anwendung des biserialen Korrelationskoeffizienten: XR = Skalenscore (Testrohwert) des Probanden, der das Item richtig beantwortet hat, N = Anzahl aller Probanden, NR = Anzahl jener Probanden, die das Item richtig beantwortet haben. N NR ⎛ ∑X R ∑X ⎞ rpbis = ⎜ ⋅ ⎟⋅ N ⎠ N - NR N ⋅ ∑X 2 − (∑X)2 ⎝ NR Um Zwischenrechnungen vermeiden zu können, lautet die Formel für die Verwendung der originalen Rohwerte wie folgt: – X = arithmetisches Mittel der Skalenscores, – XR = arithmetisches Mittel der Skalenscores jener Probanden, die das Item richtig beantwortet haben, s = Standardabweichung der Skalenscores aller Probanden. Kapitel 2 · Grundlagen diagnostischer Verfahren Dichotome Antworten bei »eigentlich« vorliegendem Kontinuum 122 3 4 2 2 3 2 2 2 Item 2 Item 4 4 2 1 1 3 2 4 4 Item 3 3 3 1 3 1 2 1 1 3 2 1 4 2 3 2 1 Item 5 1 3 1 1 3 2 2 4 Item 6 4 2 2 4 3 2 1 1 Item 7 Mittelwert 3.250 2.750 1.375 2.500 2.625 2.250 2.250 2.625 Item 8 4 2 1 2 2 4 4 4 In unsicheren Zeiten erwarte ich gewöhnlich das Beste. Wenn etwas bei mir schiefgehen kann, so geht es auch schief. (umpolen) Ich betrachte die Dinge immer von ihrer guten Seite. Ich blicke immer optimistisch in die Zukunft. Ich erwarte fast nie, dass alles nach meinem Wunsch verläuft. (umpolen) Die Dinge nehmen nie ihren Verlauf so, wie ich es mir wünschte. (umpolen) Ich glaube an das Sprichwort: »Auf Regen folgt Sonnenschein.« Ich rechne fast nie damit, dass mir Gutes widerfährt. (umpolen) 4 4 2 3 4 1 2 4 1 2 3 4 5 6 7 8 1. 2. 3. 4. 5. 6. 7. 8. Item 1 Pbn . Tabelle 2.7. Antworten von 8 Probanden zu den 8 Optimismusitems aus dem Life Orientation Test (LOT) von Scheier und Carver (1985) Beispiel Fälle gehören jedoch vorwiegend in den Bereich der Itemauswahl nach der externalen Methode und somit zur Bestimmung der Itemvalidität, weshalb hier nicht näher auf sie eingegangen werden soll. . Tabelle 2.7 gibt die Datenmatrix für 8 Items einer Optimismusskala wieder, die von 8 Personen auf 5fach abgestuften Skalen beantwortet wurden. Bei den Resultaten handelt es sich um eine Zufallsauswahl aus der mehr als 3000 Probanden umfassenden Studie von Schmidt-Rathjens et al. (1997). Im Falle der biserialen Korrelation erfolgte die Dichotomisierung am Median der jeweiligen Itembeantwortung. Für die Berechnung der punkt-biserialen Koeffizienten wurde »so getan, als ob« es sich um echt-alternative Klassen handele (. Tab. 2.8). Gleichfalls nur erwähnt werden sollen die Begriffe der konvergenten und diskriminanten Trennschärfe, mit denen die Korrelationen mit dem Summenscore bzw. demjenigen einer anderen Skala bezeichnet werden. Im Regelfall wird man im Sinne der Konvergenz eher hohe und für die Diskriminanz eher niedrige Koeffizienten anstreben, mit einer möglichst großen numerischen Differenz zwischen den jeweiligen Werten. Wird darauf nicht in ausreichendem Maße geachtet, korrelieren Items einer Skala möglicherweise stärker mit dem Gesamtpunktwert anderer Skalen, was zumindest die Frage einer richtigen Zuordnung der Items zu den Skalen aufwirft. Bei früheren Formen des 16 PF-Fragebogentests war das häufiger zu beobachten (s. Greif, 1970). Mit Hilfe der Faktorenanalyse auf Itembasis lassen sich simultan beide Kriterien erreichen, d. h. einerseits eine ordentliche Homogenität innerhalb der Skalen bei deren gleichzeitiger relativer Unabhängigkeit voneinander. In den geschilderten Berechnungsmodalitäten geht jede Itembeantwortung je einmal in die beiden miteinander korrelierten Messwertreihen ein: Auf seiten des Items als originales Datum, auf seiten des Skalenscores als Summand, der beiträgt. Infolge der damit gegebenen algebraischen Abhängigkeit (die Korrelation ist partiell auch 2.2 · Konstruktionsprinzipien psychometrischer Tests Faktorenanalyse zur besseren Zuordnung der Items Konvergente und diskriminante Trennschärfe 123 2 2 1.05 .79 .71 .61 .40 .40 .64 .37 Biseriale Koeffizienten .61 .53 .41 .21 .13 .10 .30 .00 Punkt-biseriale Koeffizienten An einer Zufallsstichprobe von N = 8 Probanden wurden die 8 Items aus dem StateTrait-Ärgerausdrucks-Inventar (STAXI) von Schwenkmezger et al. (1992) zur Erfassung von Anger In (AI), also der Tendenz, Ärger in sich hineinzufressen, hinsichtlich ihrer Trennschärfe analysiert. Die Items lauten wie folgt: 1. Ich fresse Dinge in mich hinein. 2. Ich koche innerlich, zeige es aber nicht. 3. Ich empfinde Groll, rede aber mit niemandem darüber. 4. Ich bin ärgerlicher, als ich es zugeben möchte. 5. Ich bin weit mehr erzürnt, als andere es wahrnehmen. 6. Ich könnte platzen, aber ich lasse es niemanden merken. 7. Ich ziehe mich von anderen Menschen zurück. 8. Ich bin ärgerlicher, als ich es mir anmerken lasse. 6 Beispiel ! Generell wirkt sich der Einfluss der Part-whole-Korrektur um so geringer aus, 5 je größer die Zahl von Items ist (weil mit zunehmender Länge einer Skala der Beitrag jedes einzelnen Items relativ geringer wird), 5 je homogener die Skala ist (weil in homogenen Skalen die übrigen Items weitgehend ähnliches erfassen und es deshalb auf den Beitrag eines bestimmten Items weniger stark ankommt). eine Korrelation der Variablen mit sich selbst) sind die erhaltenen Koeffizienten überhöht gegenüber einer Berechnungsart, in der diese partielle Identität mit Hilfe der sog. Teil-Ganzheit-(Part-whole-)Korrektur bereinigt wird. Das Prinzip der Aufhebung besteht darin, den Skalenscore jeweils um den Beitrag desjenigen Items zu bereinigen oder zu eliminieren, dessen Trennschärfe zu ermitteln ist. Dafür liegen gesonderte Formeln vor (s. McNemar, 1962, S. 139), auf deren Anwendung üblicherweise bei größeren Datenmengen zurückgegriffen wird. Hier genügt es, die Grundzüge an einem Beispiel zu veranschaulichen (. Tab. 2.9). Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Item 7 Item 8 . Tabelle 2.8. Trennschärfekoeffizienten für die Daten in . Tab. 2.7, ermittelt nach 2 verschiedenen Korrelationsberechnungen Beispiel Kapitel 2 · Grundlagen diagnostischer Verfahren Part-whole-Korrektur 124 2 2 1 2 2 2 2 2 .42 .49 4 2 2 2 2 2 1 1 .47 .63 1 2 1 1 3 2 2 2 .13 .29 3 2 1 1 2 3 2 1 .52 .66 2 2 1 1 3 2 1 1 .77 .83 2 3 1 2 1 2 1 1 .47 .60 3 4 2 2 3 2 2 2 .81 .87 4 4 2 3 4 1 2 2 .61 .77 21 21 11 14 20 16 13 12 Skalenscore .55 .69 .59 .71 2 .56 .68 3 Items .52 .64 4 5 .59 .71 6 .52 .65 7 .37 .53 8 .56 .67 Sieht man einmal von den Extremwerten P = 0 und P = 100 ab, wo mangels Streuung in den Aufgabenbeantwortungen eine Korrelation nicht bestimmbar ist, so ermöglichen in den anderen Fällen alle Werte von P die maximale Trennschärfe von rit = 1.0. Das gilt nicht nur für kontinuierliche, sondern auch für binär abgestufte Itembeantwortungen. Unabdingbare Voraussetzungen sind im letzteren Fall allerdings, dass nicht nur die vom Item vorgenommene Trennung mit derjenigen der Gesamtskala übereinstimmt, sondern auch der Phi-Koeffizient benutzt wird und für die Berechnung des Zusammenhanges die Aufteilung der Probandenstichprobe gemäß der Schwierigkeit des jeweiligen Items vorgenommen wird (z. B. bei P = 10 in zwei Gruppen von 10% mit höheren und 90% mit niedrigeren Testleistungen; s. Moosbrugger & Zistler, 1993). Dieses sei veranschaulicht für den Fall, dass ein Item P = 10 mit dem Gesamttestwert korreliert, der (ebenfalls) eine Aufteilung von 10:90 (Löser zu NichtLöser) aufweist: Implikationen Wie die oben angeführten Daten der Optimismusskala zeigen, weisen hier die Effekte der Teil-Ganzheits-Korrektur nur ein vergleichsweise geringes Ausmaß auf. Auch wenn der Arbeitsaufwand von daher mitunter in keinem vernünftigen Verhältnis zum Erkenntnisgewinn zu stehen scheint, sollte doch aus grundsätzlichen Erwägungen heraus stets auf der Part-whole-Korrektur bestanden werden. Wie aus dem Vergleich von r(t-1) und r ersichtlich ist, liegen die Part-whole-Koeffizienten erwartungsgemäß bei allen Items niedriger als die nichtkorrigierten Werte. Die Differenzen sind auch bei der wesentlich größeren Personenstichprobe in etwa dieselben. r(t-i) r 1 An einer Stichprobe von N = 1.216 Personen aus der Erhebung von Schmidt-Rathjens et al. (1994) ergaben sich die folgenden Koeffizienten: 8 7 6 5 4 3 2 1 Pbn 1 2 3 4 5 6 7 8 r(t-i) r Items . Tabelle 2.9. Die 8 Items der AI-Skala (8 Pbn), individuelle Skalenscores, Part-whole-Korrelationen r(t-i) und Korrelationen r, bei denen das Item im Gesamtwert noch enthalten ist 2.2 · Konstruktionsprinzipien psychometrischer Tests 125 2 2 . Abb. 2.29. Der Zusammenhang zwischen Grundquote und Korrelationskoeffizient bei sich nicht überlappenden Verteilungen der Testwerte von 2 Gruppen. (Aus Hollmann, 1993, S. 39) Höhe der Trennschärfewerte bei hoher Homogenität + – 10 Item + 10 90 90 – 10 90 100 Auch bei extremer Schiefe der beiden Randverteilungen ist also eine perfekte Korrelation möglich. Empirisch stellt sich jedoch meist eine umgekehrt u-förmige Beziehung in dem Sinne dar, dass mit sehr niedrigen und sehr hohen Schwierigkeiten eher mäßige, mit mittleren Werten von P eher hohe Trennschärfen einhergehen. Einer der Gründe dafür mag in methodischen Limitierungen zu suchen sein: Für die Berechnung der Trennschärfen binär gestufter Items wurde häufig der punkt-biseriale Koeffizient herangezogen, und die Trennung der Stichprobe erfolgte am Median. In solchen Fällen ist der Maximalwert von 1.0 im Regelfall selbst dann nicht mehr erreichbar, wenn der Testwert eine perfekte Trennung der beiden Gruppen von Itembeantwortungen leistet. Hollmann (1993) hat dazu Modellrechnungen durchgeführt und für den Spezialfall einer Gleichverteilung (jeder Testwert von 1 bis 100 trat nur einmal auf) gezeigt, dass die Trennschärfe maximal den Wert rit = 0.866 erreichen kann (. Abb. 2.29). Je nach dem Verhältnis der Varianzen innerhalb und zwischen den Gruppen resultieren andere Obergrenzen. Von erheblichem Belang für die Höhe der Trennschärfe sind vor allem die Interkorrelationen eines Items mit den übrigen Aufgaben. Nur wenn die anderen Items das gleiche messen wie das jeweils betrachtete Item, also bei hohen Interkorrelationen und damit einer hohen Homogenität, sind auch eher hohe Trennschärfenindizes möglich. Eine Interkorrelation zwischen den Items, etwa in der Nähe von rj = 1,0 oder nur wenig darunter, setzt aber exakt gleiche Schwierigkeiten voraus, denn wenn ein Item häufiger gelöst wird als ein anderes, ist eine derart hohe Interkorrelation nicht möglich. Mit anderen Worten führt bereits die Variation von Schwierigkeitskoeffizienten zwischen den Items einer Skala zu einer Reduktion der Interkorrelationen und damit zu Einbußen an Homogenität bzw. zu einem Gewinn an Heterogenität. Als Produkt mit der Streuung [7 (2.67)] bildet der Trennschärfenindex den sog. Stabilitätsindex: Gesamttest Kapitel 2 · Grundlagen diagnostischer Verfahren Empirischer Zusammenhang von Trennschärfe und Schwierigkeit 126 (2.72) rit 2 ⋅ si (2.73) Das Prinzip von Sel besteht nun darin, dass bei niedrigen Werten von Sel die betreffenden Items ausgeschieden werden, ohne dass dabei die Gefahr besteht, auf diesem Wege zuviele Items mit extremer Schwierigkeit zu verlieren. Da die Trennschärfe im Zähler des Quotienten steht, wächst Sel mit steigender Trennschärfe, legt also unter sonst gleichen Voraussetzungen (d. h. bei Konstanz des Schwierigkeitsgrades) eine Auswahl zugunsten der trennschärferen Items nahe. Was hingegen die Aufgabenstreuung angeht, so ist diese, wie oben bereits dargelegt, bei ! Bei der Auswahl von Items für die Testendform gehen die Vorgaben deshalb gewöhnlich dahin, 5 Items mit niedriger Trennschärfe auszuscheiden, selbst wenn ihre Schwierigkeit optimal ist, also im Mittelbereich liegt, und umgekehrt 5 Items mit hoher Trennschärfe zu behalten, selbst wenn sie extrem schwierig oder leicht sind. Diese Formel ist entwickelt worden, um eine Orientierungshilfe bei der Selektion ungeeigneter Aufgaben bei homogenen Niveautests zu haben. Gewöhnlich sind Tests einer solchen Provenienz durch konfligierende Ziele gekennzeichnet: Einerseits sollen die Items hoch trennscharf sein, andererseits die Schwierigkeitsgrade möglichst weit streuen, damit (auch in den Randbereichen) eine möglichst gute Differenzierung gewährleistet ist und viele Merkmalsabstufungen auftreten. Sel = Selektionskennwert. Sel = Wie leicht zu erkennen ist, erreicht der Stabilitätsindex ein Maximum, wenn sowohl die Trennschärfe als auch die Aufgabenstreuung ihrerseits maximal sind, d. h. unter den Bedingungen rit = 1,0 und si = 0,5 resultiert ein Wert für SI = 0,5. (Um diesen Wert in Analogie zu einem Korrelationskoeffizienten zu setzen, bedarf es der Multiplikation mit dem Faktor 2.) Wie schon bei der Erörterung des Schwierigkeitskoeffizienten dargelegt wurde, sind P-Werte um 50 für die Differenzierung von großer Bedeutung; allerdings tragen sie nichts zur Stabilität des Items – und mittelbar zu jener der Skala – bei, wenn nicht zugleich das Item trennscharf ist, also die Differenzierung des Items mit jener aus dem Mittel der übrigen Items im großen und ganzen übereinstimmt. Andererseits leistet jedoch auch ein Item mit hoher Trennschärfe, aber extremer Schwierigkeit keinen substantiellen Beitrag zur Gesamtstabilität des Tests, weil dann der Zugewinn an Differenzierung (und das bedeutet letztlich: Streuung der Skalenscores) nur minimal ist. Auch in einem ganz anderen Maße erfolgt die simultane Berücksichtigung von Trennschärfe und Aufgabenstreuung, nämlich in Form des sog. »Selektionskennwertes« (Lienert, 1989, S. 141 ff.), bei dem Trennschärfe und (doppelte) Aufgabenstreuung ins Verhältnis gesetzt werden: SI = Stabilitätsindex, rit = Trennschärfe, si = Standardabweichung der Aufgabe. SI = rit ⋅ si 2.2 · Konstruktionsprinzipien psychometrischer Tests 2 Verhältnis von Selektionskennwert, Trennschärfe und Aufgabenstreuung Auswahl von Items für die Testendform Selektionskennwert Maximale Stabilität bei maximaler Trennschärfe und maximaler Aufgabenstreuung 127 2 2.2.7.3 Homogenität im Sinne der klassischen Testtheorie Bei der Homogenität handelt es sich um ein Kriterium, das im Unterschied zur Schwierigkeit und weniger noch als die Trennschärfe nur auf ein bestimmtes Item angewendet werden kann. Vielmehr erfolgt hier ein Bezug auf die Gegebenheiten auch bei anderen Items, so dass es meist auf dasselbe hinausläuft, von Homogenität der Items bzw. von Homogenität einer Skala zu sprechen. Gemeint ist hiermit das Ausmaß von formaler und inhaltlicher Einheitlichkeit. Sofern der Itemtypus gleich bleibt und dessen Inhalt offenkundig ein- und demselben Aspekt einer Merkmalsdimension gilt, sind die Items (und damit die Skala, die sie konstituieren) homogen (. Abb. 2.30). Ungeachtet der geschilderten Regeln mag es im konkreten Einzelfall auf die spezifischen Intentionen der Testkonstruktion ankommen, nach welchen Gesichtspunkten Aufgaben ausgewählt werden. So könnte es wichtig sein, bestimmte Items wegen der darin enthaltenen Thematik (also inhaltlicher und nicht formaler Kriterien) zusätzlich aufzunehmen, oder im Hinblick auf das zu erwartende Fertigkeitsniveau der Probanden eine für die spezifische Gruppe mittlere Schwierigkeit anzustreben usw. Welche Gegebenheiten auch immer vorliegen: Obwohl der Selektionskennwert eine objektive Auswahlentscheidung nahelegt, würde es sich doch empfehlen, jeweils auch auf die darin enthaltenen einzelnen Komponenten, also Trennschärfe und Schwierigkeit, gesondert zu achten. Im Fall A würde der Selektionskennwert nahelegen, eher Item 1 als Item 2 in die Endform des Tests zu übernehmen, im Fall B eher Item 3 als Item 4. Sel′4 Sel′3 = .50 = .63. 2 .80 ⋅ .20 .50 = = .50. 2 .50 ⋅ .50 Fall B: Trennschärfe konstant (hier: rit = .50), Schwierigkeit variiert: Item 3: P = 80, Item 4: P = 50, Sel′2 Sel′1 = .60 = .60 , 2 .50 ⋅ .50 .40 = = .40. 2 .50 ⋅ .50 Fall A: Trennschärfe variiert, Schwierigkeit konstant (hier: P = 50): Item 1: rit1 = .60, Item 2: rit2 = .40, Beispiel mittleren Schwierigkeitsgraden hoch. Sie bewirkt, da sie im Nenner steht, unter diesen Gegebenheiten (also P zwischen 40 und 60) eine Minderung des Quotienten oder umgekehrt: Extreme (hoch oder niedrige) Schwierigkeiten führen zu hohen Werten von Sel, d. h. Items mit extremen Schwierigkeiten haben eine größere Chance, nach Maßgabe des Selektionskennwertes ausgewählt zu werden als solche mittlerer Schwierigkeit. Kapitel 2 · Grundlagen diagnostischer Verfahren Homogenität als Ausmaß formaler und inhaltlicher Einheitlichkeit 128 Das ist der Fall bei Konzentrationstests wie dem d2 von Brickenkamp (1981) oder dem Konzentrations-Leistungs-Test (KLT) von Düker und Lienert (1965), des Weiteren auch bei Verfahren zur Erfassung spezieller Aspekte der Intelligenz, wie beispielsweise dem Figure-Reasoning-Test (FRT) von Daniels (1967), allen Rechen-, Analogie- und räumlichen Vorstellungstests usw. Im Persönlichkeitsbereich zählen dazu Skalen zur Erfassung von Gewohnheiten oder solche auf dem Niveau von primären Traits. Mit homogenen Skalen lassen sich nur eng umschriebene Merkmalsaspekte erfassen, eben weil die Items mehr oder weniger immer dasselbe messen. Umgekehrt steht der Begriff Heterogenität für formative und inhaltliche Vielgestaltigkeit der Items. In einem solchen Fall ist intendiert, durch Variation der Itembeschaffenheit (z. B. Ergänzungs- oder Mehrfachwahlaufgaben) und/oder inhaltlicher Bereiche (z. B. verbale und arithmetische Fragen) ein möglichst breites Spektrum von Verhaltensmanifestationen abzudecken. Entsprechend dienen solche Verfahren der Erfassung eher globaler Dimensionen wie der Allgemeinen Intelligenz, beispielsweise mit 2.2 · Konstruktionsprinzipien psychometrischer Tests 2 Beispiele heterogener Verfahren Heterogene Verfahren zur Erfassung globaler Dimensionen Beispiele homogener Skalen . Abb. 2.30. Items z. B. zur Wahrnehmungsgeschwindigkeit (Perceptual Speed) – hier: Untertest »Beobachtung« aus dem Wilde-Intelligenz-Test (WIT) – sind in der Regel homogen 129 2 Homogenitätskonzept von Guttman Operationalisierung der Homogenität .25 –.01 –.03 .21 –.01 4 5 6 7 8 .10 .27 3 Mittelwert –.02 1.00 1 2 1 Items .14 .29 –.03 .32 .14 .13 .08 1.00 –0.9 2 .22 .16 .32 .06 –.06 .59 1.00 .02 .23 3 .25 .22 .34 –.12 –.03 1.00 .53 .08 .26 4 .06 .20 –.03 .19 1.00 .01 –.04 .12 –.02 5 .16 .38 –.02 1.00 .20 .09 .01 .34 –.10 6 .17 .11 1.00 .01 –.03 .26 .26 –.03 .15 7 .20 1.00 .05 .35 .17 .13 .05 .29 –.02 8 .16 .15 .10 .13 .06 .21 .16 .11 .06 .12 Mittelwert . Tabelle 2.10. Interkorrelationen zwischen den 8 Items der schon in . Tab. 2.7 erwähnten Optimismusskala. Oberhalb der Diagonalen die Werte für männliche Probanden (N zwischen 2.435 und 2.444), unterhalb der Diagonalen die Werte für weibliche Probanden (N zwischen 2.633 und 2.659). In der letzten Spalte bzw. Zeile die Mittelwerte der Interkorrelationen (Mittelwerte nach Fishers Z-Standardisierung) 2.2.7.4 Andere Homogenitäts-Konzepte Über korrelative Definitionen der Homogenität hinaus führt das Konzept von Guttman (1950). Diesem zufolge sind Skalen dann homogen, wenn jene Probanden, die Hilfe der Systeme von Binet oder Wechsler. Aus dem Temperamentsbereich zählen alle Fragebogen zu den sekundären Traits oder auch »types« zu dieser Kategorie, darunter z. B. auch das Eysenck-Personality-Inventory (EPI; Eysenck 1970) zur Erfassung der Dimensionen Extraversion, Neurotizismus und Psychotizismus, des Weiteren auch die Sekundärfaktoren Maskulinität und Extraversion/Introversion innerhalb des Freiburger Persönlichkeitsinventares (FPI) von Fahrenberg et al. (1989). Eine hohe Homogenität resultiert zwangsläufig aus der induktiven Skalenkonstruktion. Das geschieht besonders dann, wenn dabei auch Faktorenanalysen herangezogen und damit »faktorreine« Dimensionen generiert wurden, d. h. solche, die nicht nur in sich homogen, sondern auch wechselweise voneinander unabhängig sind. Meist führt auch die Entwicklung nach deduktiven Prinzipien zu homogenen Skalen. Hingegen entstehen bei der Anwendung der externalen Strategie eher heterogene Tests. Auf die spezifischen Eigenschaften der aus diesen unterschiedlichen Methoden erwachsenen Skalen ist bereits an anderer Stelle eingegangen worden (7 Abschn. 2.2.6). Was die Operationalisierung von Homogenität vs. Heterogenität angeht, so sind dafür verschiedene Maße vorgeschlagen worden. Dem Duktus der bisherigen Ausführungen entspricht am ehesten eine quantitative Fassung im Sinne der korrelativen Übereinstimmung eines Items mit den anderen Items der Skala, z. B. als Mittelwert der Korrelationen eines Items mit allen anderen Aufgaben der Skala. Entsprechend bemisst sich die Homogenität der Skala als Mittelwert aus den einzelnen (gemittelten) Korrelationen. . Tabelle 2.10 gibt dafür ein Beispiel. Kapitel 2 · Grundlagen diagnostischer Verfahren Skalenkonstruktion und Ausmaß der Homogenität 130 + + + 3 2. Glauben Sie, dass Sie nach Ihrer Entlassung eine freundliche oder eine unfreundliche Einstellung zum Heer mit sich nehmen werden? (freundlich = +) 3. Glauben Sie, dass das Heer sich nach besten Kräften um das Wohlergehen seiner Angehörigen bemüht hat? (ja = +) Summe X 1 – – + 3 0 – – – 4 2 + – + 5 2 + + – 6 1 – + – 7 1 + – – 8 ein Item bestimmter Schwierigkeit lösen, auch alle Items geringerer (»darunterliegender«) Schwierigkeit meistern. Das schwerste noch gelöste Item kennzeichnet demgemäß die individuelle Leistungsfähigkeit. Da diese Leistung hinreicht, um das betreffende Item zu schaffen, muss sie (»erst recht«) genügen, um alle leichteren ebenfalls zu lösen. Derartige Erwägungen sind auch übertragbar auf den Bereich der Einstellungsmessung, aus dem zur Explikation der maßgeblichen Prinzipien die Daten in . Tab. 2.11 stammen. Wiedergegeben sind die Antworten von 1000 Unteroffizieren, die gegen Ende des Zweiten Weltkrieges nach ihrer Einstellung zum Heer befragt wurden. Aus den Zeilensummen geht hervor, dass Äußerung 3, die eine am meisten positive Einstellung thematisiert, am wenigsten häufig bestätigt wurde, gefolgt von 2, die ihrerseits etwas positiver ist als 1. Angesichts einer derartigen Abstufung darf erwartet werden, dass alle Probanden, die 3 akzeptieren, auch 2 und 1 bejahen, und alle Probanden, die der Einstellung 2 zustimmen, dieses auch bei 1 so tun. Von daher wären nur die 4 »reinen« Antworttypen mit den Ziffern 1 bis 4 in der Tabelle zu gewärtigen, für die in der Zusammenschau ein Dreiecksmuster der Beantwortungen charakteristisch ist. In der Tat folgt ein sehr großer Teil der Probanden (nämlich N = 808 oder 80,8%) dieser Erwartungsregel. Für diese Gruppe ist die fragliche Skala im strengen Sinne homogen. Die restlichen Befragungspersonen haben offenkundig bei der Beantwortung der einzelnen Items noch andere Gesichtspunkte herangezogen und somit den »Reproduzierbarkeitskoeffizienten« von 0,808 unter jene Grenze von 0,9 gedrückt, die von Guttman (1950) als Minimum für eine Qualifizierung von Skalen im Sinne von »homogen« definiert wurde. Hinter der überzeugenden Logik dieses Ansatzes bleibt leider der empirische Ertrag sehr weit zurück. Nur im Einstellungsbereich ist es gelungen, etwa für Ethnozentrismus und für soziale Distanz gegenüber spezifischen Minoritäten hinreichend homogene Skalen zu konzipieren. Hingegen fehlen vergleichbare Instrumente im Leistungsbereich fast vollständig. Die Darlegung der Guttman-Prinzipien erleichtert das Verständnis für den Ansatz und die Schätzformel von Loevinger (1947) zur Bestimmung von Homogenität: 2 – + + 2 1 Pbn 1. Glauben Sie, dass das Heer im allgemeinen gut organisiert ist? (gut = +) Items . Tabelle 2.11. Typen von Antworten, die bei einer Befragung von N = 1000 Unteroffizieren nach ihrer Einstellung zum Heer aufgetreten sind 2.2 · Konstruktionsprinzipien psychometrischer Tests Bisher nur wenige Guttman-homogene Skalen konzipiert 131 2 2 N (∑X 2 −∑X) + ∑Ni 2 − (∑X)2 2 N (∑Ni − ∑X ) + ∑Ni 2 − (∑X)2 (2.74) Vx - Vhet . Vhom - Vhet (2.75) 165 330 660 130 390 1170 1 1 259 259 259 + – – 3 0 0 254 0 0 – – – 4 2 4 87 174 348 + – + 5 11 22 44 2 4 – + + 6 68 68 68 1 1 – + – 7 26 26 26 1 1 – – + 8 1000 1269 2575 641 374 254 Ni 615273 410881 139876 64516 Ni2 2151 641 748 762 iNi Anzahl = Häufigkeit, mit der jeder der Antworttypen aufgetreten ist. X = Rohwert (als die Summe der Bejahungen). Ht = 1000(2575 – 1269) + 615273 – 12692/2000(2151 – 1269) + 615273 – 12692 = 0.404. Die aus der Tabelle entnommenen Summenwerte, in die Formel eingesetzt, ergeben einen Homogenitätsindex von Ht = 0.404. Anzahl X·A X2 · A 2 4 + + – 2 3 9 + + + 1 2 3 X X2 1 Item . Tabelle 2.12. Matrix der Antworten von N=1000 Soldaten. (Vergl. zum Inhalt der Items . Tab. 2.11.) Aufgetretene Antworttypen Obwohl primär für Leistungstests gedacht, ist der Ansatz auch anwendbar auf den Bereich sozialer Einstellungen. Für den Fall der oben bereits geschilderten Befragung von Soldaten ergibt sich folgende Matrix (. Tab. 2.12) Beispiel = Varianz der Testwerte, Vx Vhet ; Vhom= Varianz eines vollkommen heterogenen bzw. homogenen Tests mit gleicher Verteilung der Aufgabenschwierigkeiten. Ht = Diese Konzeption ist strenggenommen nur für reine Niveautests sinnvoll. Es wird davon ausgegangen, dass es bei völlig homogenen Tests nicht vorkommen darf, dass von einem oder mehreren Probanden eine schwere Aufgabe gelöst wird, leichtere aber nicht gelöst werden können. Eine Ausnahme ist dann möglich, wenn zufällige Fehler vorliegen oder es sich um Heterogenität handelt. Das heißt, die Aufgaben unterscheiden sich nicht nur hinsichtlich ihrer Schwierigkeit, sondern auch in Bezug auf dasjenige, was sie erfassen. Konzeptuell soll diese Schätzung der Homogenität folgende Varianzanteile erfassen: N = Anzahl der Probanden, X = Rohwert eines Probanden, i = Schwierigkeitsrangplatz einer Aufgabe. (Von den insgesamt n Aufgaben erhält die leichteste den Rangplatz 1, die schwierigste den Rangplatz n), Ni = Anzahl der Probanden, die die Aufgabe mit dem Rangplatz i richtig beantwortet haben. Ht = Kapitel 2 · Grundlagen diagnostischer Verfahren Varianzanteile und Homogenität 132 ? 1. Erläutern Sie die Grundzüge der 4 wesentlichen Konstruktionsprinzipien psychologischer Testverfahren (rationale, externale, induktive und prototypische Methode). (zu Abschnitt 2.2) Übungsfragen 2 Homogenität nach dem Rasch-Modell Homogene Tests haben höhere Varianzen als heterogene 133 liegen einer Theorie darüber, wie sich Personen hinsichtlich bestimmter Merkmale (z. B. »Geselligkeit« oder »Ängstlichkeit«) beschreiben und unterscheiden lassen. Ausgehend von Bezeichnungen, die geeignet sind, Persönlichkeitszüge zu beschreiben, wird zunächst das Konstrukt näher definiert und spezifiziert (»Geselligkeit« wird etwa spezifiziert in die Subgruppen »Kontaktfähigkeit« und »Kontaktbedürfnis«). Für jeden Bereich werden sodann Items in Form von Aufgaben oder Fragen nach möglichen Verhaltensweisen zu Skalen oder Subtests zusammengestellt, die dafür als Indikatoren in Betracht kommen. Ansatzpunktder»externalen«oderkriteriumsbezogenenSkalenkonstruktion ist das Vorliegen verschiedener Gruppen von Personen als Teil der sozialen Realität. Den Mitgliedern der Gruppen wird eine möglichst große und inhaltlich breit gefächerte Zahl von Items zur Beantwortung vorgelegt, in der Erwartung, dass sich darunter einige befinden, die zwischen den Gruppen empirisch diskriminieren, also eine unterschiedliche Lösungswahrscheinlichkeit zeigen. Diese Items werden sodann selegiert und zu Skalen zusammengestellt, die zwischen den Gruppen statistisch bedeutsam unterscheiden und bei denen diese Diskrimination einer Kreuzvalidierung an weiteren Personen standhält. Die »induktive« Methode stützt sich auf die Korrelationsrechnung. Die Orientierung erfolgt also weder an einer bestimmten Theorie noch an einer vorfindbaren Personengruppe: die Items werden vielmehr »blindanalytisch« zu Skalen gruppiert, die miteinander hoch korrelieren und damit eine gemeinsame Dimension konstituieren. Bei der Konstruktion umfangreicher Testsysteme wird das Ziel insofern erweitert, als zur Forderung nach hohen Korrelationen innerhalb einer Skala noch diejenige nach niedrigen Korrelationen mit den Items anderer Skalen hinzukommt. Gewöhnlich werden diese Teilziele simultan durch die Anwendung faktorenanalytischer Techniken erreicht. Der »Prototypenansatz« hat als Ausgangsbasis die Feststellung, dass die Objekte der Umwelt von uns in verschieden breiten Kategorien gruppiert ! Ad 1. Ausgangspunkt der »rationalen« Skalenkonstruktion ist das Vor- Ausgangspunkt dafür ist die Überlegung, dass homogene Tests stets höhere Varianzen aufweisen als heterogene. Das geschieht deshalb, weil bei der Addition der Varianzkomponenten infolge der eher hohen Interkorrelationen zwischen den homogenen Items zusätzlich zu den Varianzen der einzelnen Items noch größere Kovarianzterme hinzukommen, eben diese aber bei heterogenen Tests fehlen bzw. sehr viel niedriger ausfallen (7 Abschn. 2.1.1). Eine weitere bedeutende Definition erfährt die Homogenität im Rahmen des RaschModells (7 Abschn. 2.1.2): Die gegenüber dem Guttman-Modell wesentlich realitätsnäheren Modellannahmen erlauben die Anwendung spezieller Modelltests, mit deren Hilfe eine empirisch belegbare Antwort auf die Frage gegeben werden kann, ob und welche Testitems als Indikatoren des zu untersuchenden latenten Traits (Disposition, Einstellung oder Fähigkeit) aufgefasst werden können. Beispiele für gelungene Testkonstruktionen nach dem Rasch-Modell finden sich in 7 Abschn. 2.1.2. 2.2 · Konstruktionsprinzipien psychometrischer Tests 2.3.3 2.3.2 2.3.1 Hauptgütekriterien – 138 2.3.1.1 Objektivität – 138 2.3.1.2 Reliabilität oder Zuverlässigkeit – 141 2.3.1.3 Validität oder Gültigkeit – 149 Nebengütekriterien – 161 2.3.2.1 Normierung – 162 2.3.2.2 Testfairness – 167 Wechselbeziehungen zwischen Gütekriterien – 174 Gütekriterien psychometrischer Tests und ihre Bestimmung In ihrer spezifischen Bündelung oder Kombination konstituieren die einzelnen Items bestimmte Skalen oder Tests. Um deren psychometrische Eigenschaften beschreiben zu können, sind verschiedene Kriterien entwickelt worden. Prinzipiell lassen sich diese Beurteilungsmaßstäbe zwar auch auf jedes der Items selbst anwenden, doch dient gerade die Zusammenfassung von Items zu Skalen dem Ziel, eben dadurch die möglichen Unzulänglichkeiten einer punktuell-singulären Messung auf Itemebene zu überwinden und für den Itemverband als Ganzes ein qualitativ höheres Niveau zu erreichen, als es für jedes Einzelelement gegeben ist. Beispielsweise ist für die Reliabilität bereits gezeigt worden (7 Abschn. 2.1.1.4), dass bei der Addition mehrerer Itembeantwortungen ein stärkeres Anwachsen der Varianzkomponenten zugunsten der wahren Merkmalsunterschiede relativ zu den Fehleranteilen zu erwarten ist und dadurch das Ganze in gewisser Weise mehr darstellt als die Summe seiner Teile. Der Katalog einschlägiger Kriterien ist nicht verbindlich definiert. Ein vergleichsweise breites Spektrum von Bewertungsmaßstäben haben Amelang et al. für das Testkuratorium der Föderation Deutscher Psychologenverbände (1986) erarbeitet (7 unten). Die darin thematisierten Anforderungen an die Qualität psychologischer Tests sind vielfältig und können deshalb kaum jemals von einem einzigen Verfahren in gleichem Ausmaß erfüllt werden, zumal sie nicht alle miteinander vereinbar sind. Bei der umfassenden Beurteilung einer diagnostischen Methode kommt es deshalb in gewissen Grenzen auf die jeweils vorliegenden Umstände, Bedingungen und Zielsetzungen an, mit der Folge einer fallweise etwas unterschiedlichen Gewichtung der einzelnen Kriterien. Die Berücksichtigung von Fragestellung und Kontextbedingungen erweitert aber den Kriterienkatalog derart wesentlich, dass letztlich der gesamte diagnostische Prozess bestimmten Anforderungen genügen muss. Diese sind in den Standards für pädagogisches und psychologisches Testen (Häcker, Leutner & Amelang, 1998) festgehalten; ausführlich werden darin unter anderem auch die Standards für eine fachlich kompetente Testanwendung und für spezifische Vorgehensweisen definiert. Speziell für die Bewerberauslese mittels Leistungstestungen sind die einzelnen Schritte der Eignungsfeststellung inzwischen durch eine Normierung nach DIN-Prinzipien geregelt worden. Einer der dafür maßgeblichen Gedanken bestand darin, mit einer DIN-Norm einen Beitrag zum »Verbraucherschutz« im weitesten Sinne zu leisten, also im Falle psychologisch-diagnostischer Dienstleistungen den Interessenten oder Auftraggeber vor unseriösen Angeboten zu schützen. Mit dem Einbezug von Kontextbedingungen wird eine gewisse Flexibilität in der Handhabung der Bewertungsmaßstäbe eingeräumt; dieses gilt aber für die einzelnen Kriterien in unterschiedlicher Weise: Denn von zentraler Bedeutung für die Qualität 2.3 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung Gewichtung der Gütekriterien bei der Beurteilung Kriterienkatalog zur Testbeurteilung 135 2 2 Kriterien zur Durchführung eines Tests Kriterien zu den Grundlagen eines Tests Im Folgenden werden einige Gesichtspunkte angegeben, die bei der Beurteilung eines Testverfahrens von Bedeutung sind. Teilweise handelt es sich bei den genannten Aspekten um widersprüchliche Forderungen, denen kaum jemals von einem Testverfahren gleichermaßen Rechnung getragen werden kann. Bei der Beurteilung einer diagnostischen Methode kommt es auf die jeweils besonderen Umstände, Bedingungen und Zielsetzungen an, die aber deutlich zu erkennen und nachvollziehbar sein müssen; vor diesem Hintergrund werden die genannten Kriterien im Einzelfall zu gewichten sein. Grundlage für die Testbewertung ist prinzipiell das Testmanual; dieses muss so beschaffen sein, dass die wichtigsten Aussagen zu den für die Beurteilung relevanten Punkten daraus erarbeitet werden können. 1. Testgrundlage 1.1. Diagnostische Zielsetzung. Die Angaben zu diesem Punkt sollen es dem Benutzer ermöglichen, den Beitrag des Verfahrens zu einer diagnostischen Entscheidungsfindung zu erkennen. Dies betrifft sowohl den prinzipiellen diagnostischen Ansatz (etwa Zustandsdiagnostik, Veränderungsmessungen) als auch den vom Testautor intendierten Beitrag im Rahmen einer umfassenderen diagnostischen Informationssammlung. Wenn das Verfahren von seiner Zielsetzung oder vom aktuellen Entwicklungsstand her nicht für eine Einzelfalldiagnostik geeignet, sondern nur für Forschungszwecke vorgesehen ist, sollte dies explizit angegeben werden. 1.2. Theoretische Grundlagen. Hier ist deutlich zu machen, in welcher Weise das Verfahren auf den Ergebnissen der wissenschaftlichen Psychologie aufbaut. Die relevante Grundkonzeption muss ohne zusätzliche Sekundärliteratur erkennbar sein. Modifikationen etablierter theoretischer Vorstellungen durch den Testautor sind besonders deutlich zu machen. 1.3. Nachvollziehbarkeit der Testkonstruktion. Der Benutzer muss durch die Angaben zu diesem Punkt in angemessener, ausführlicher und verständlicher Weise in die Lage versetzt werden, die einzelnen Arbeitsschritte bei der Erstellung der Testmaterialien kritisch zu bewerten. Hierzu gehören insbesondere Angaben über die Veränderung bzw. Selektion von ursprünglich aus theoretischen Überlegungen heraus zusammengestellten Indikatorenmengen. 2. Testdurchführung 2.1. Durchführungsobjektivität. Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Vorschriften der Testinstruktion und aller übrigen Durchführungsbedingungen gesichert ist. 2.2. Transparenz. Das Ausmaß, in dem aus der Beschaffenheit eines Verfahrens die Spezifität und dessen Messfunktion und Auswertung ersichtlich sind. 2.3. Zumutbarkeit. Das Ausmaß, in dem ein Test (absolut und relativ zu dem aus der Anwendung des Verfahrens resultierenden Nutzen) die getestete Person in zeitlicher, psychischer (insbesondere »energetisch«-motivational und emotional) sowie körperlicher Hinsicht beansprucht. 2.4. Verfälschbarkeit. Das Ausmaß, in dem ein Test die individuelle Kontrolle über Art und Inhalt der verlangten bzw. gelieferten Informationen ermöglicht. 6 Präambel Testkuratorium der Föderation Deutscher Psychologenverbände Beschreibung der einzelnen Kriterien für die Testbeurteilung Kapitel 2 · Grundlagen diagnostischer Verfahren Grundsätze der Beurteilung nach diesen Kriterien 136 2.5. Störanfälligkeit. Das Ausmaß, in dem ein Test zur Erfassung habitueller Merkmalsunterschiede unempfindlich gegenüber aktuellen Zuständen der Person und situativen Faktoren der Umgebung ist. 3. Testverwertung 3.1. Auswertungsobjektivität. Das Ausmaß, in dem die Auswertung des Tests unabhängig von personenbedingten oder apparativen Störquellen ist. 3.2. Zuverlässigkeit. Messgenauigkeit oder Grad der Erklärbarkeit der beobachteten interindividuellen Unterschiede der Testergebnisse durch tatsächliche psychische Merkmalsunterschiede, untersucht etwa als Stabilität, Äquivalenz oder interne Konsistenz. Für die Bewertung ist die Angabe der verwendeten Berechnungsverfahren erforderlich. 3.3. Gültigkeit. Das Ausmaß der Treffsicherheit oder diagnostischen Valenz, mit dem der Test Rückschlüsse auf Verhalten außerhalb der Testsituation oder auf den Ausprägungsgrad des dem Testverhalten zugrundeliegenden Konstruktes ermöglicht. Bei der Testbeurteilung ist besonderes Schwergewicht auf die Ergebnisse zum Bereich der Kriteriumsvalidität zu legen. 3.4. Normierung. Ausmaß und Qualität der populationsspezifischen Bezugsgrößen zur Interpretation von Personenparametern, insbesondere zur Bestimmung der relativen Position einer Testperson in bezug auf (u. a. verschiedene) Populationsverteilungen von Testwerten. 3.5. Bandbreite. Ausmaß der Enge oder Vielfalt des Verfahrens gegenüber unterschiedlichen Fragestellungen, Gruppen- oder Prognosezeiträumen. 3.6. Informationsausschöpfung. Menge und Qualität der Indikatoren, die bezogen auf verschiedene Ziele, Anlässe oder Probandengruppen begründet aus den Testantworten abgeleitet werden. 3.7. Änderungssensitivität. Möglichkeiten und Grade der Veränderungsmessung durch dieses Verfahren, insbesondere im Rahmen von Zeitreihenvergleichen. 4. Testevaluation 4.1. Ökonomie. Das Ausmaß, in dem ein Test bei der Durchführung, Auswertung und Anschaffung als kostengünstig zu bewerten ist. 4.2. Fairness. Ausmaß einer eventuell bestehenden systematischen Diskriminierung bestimmter Testpersonen, z. B. aufgrund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit, bei der Abschätzung von Kriteriumswerten. 4.3. Akzeptanz. Ausmaß, in dem subjektive Meinungen, Bewertungen oder gesellschaftspolistische Überzeugungen gegen einen Test angeführt werden. 4.4. Vergleichbarkeit. Ausmaß der partiellen Übereinstimmung mit anderen Untersuchungsverfahren sowie die abweichenden Aspekte, Schwerpunkte oder Inhalte. Eine vermutete Sonderstellung bzw. Novität des Verfahrens ist besonders herauszustellen. 4.5. Bewährung. Systematische Aufarbeitung und Bewertung der mit dem Test gesammelten Erfahrungen, z. B. bezogen auf bestimmte Personengruppen oder diagnostische Ziele. 5. Äußere Testgestaltung Die Verständlichkeit des Testmanuals, die probandenfreundliche Gestaltung der übrigen Testmaterialien sowie die Übereinstimmung von Titel und werblicher Darstellung mit dem tatsächlichen Testinhalt werden bei der Beurteilung herangezogen. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Kriterien zur äußeren Gestaltung eines Tests Kriterien zur Evaluation eines Tests Kriterien zur Verwertung eines Tests 137 2 Quantitative Bestimmung der Durchführungsobjektivität Objektivität 2.3.1.1 2. Auswertungsobjektivität. Dieser Aspekt der Objektivität gibt das Ausmaß an, in dem »das Verhalten als empirisches Relativ in Item- und Test-Scores als numerischem Relativ eindeutig quantifiziert wird« (Fisseni, 1990, S. 54). Gleiches Verhalten der Testpersonen wird in einem objektiven Test nach stets exakt denselben Regeln abgebildet. zufällige Variationen im Verhalten des Testleiters und der von ihm hergestellten Durchführungsbedingungen zu Variationen im Verhalten der Testpersonen führen. Um eine höchstmögliche Invarianz des Testleiterverhaltens zu gewährleisten, wird eine maximale Standardisierung der Testsituation angestrebt. Dazu gehören, was eigentlich keiner weiteren Erwähnung bedarf, nicht nur identische Testmaterialien und Zeitvorgaben, sondern auch die Abfassung der Instruktion in schriftlicher Form und die Ausarbeitung von Regeln, wie ggf. auf Nachfragen oder Störungen zu reagieren ist, usw. In der Konsequenz läuft die strikte Standardisierung der Durchführung auf eine Minimalisierung der sozialen Interaktion zwischen dem Testleiter und den Testpersonen hinaus, was aber bei projektiven Tests meist nicht möglich ist. Die quantitative Bestimmung der Durchführungsobjektivität stößt auf erhebliche Schwierigkeiten. In der Literatur findet sich vielfach die Anregung, die Testergebnisse ein und derselben Probanden in ein und demselben Test aus Untersuchungen mit verschiedenen Testleitern zu interkorrelieren und den Mittelwert aus den resultierenden Koeffizienten als beste Schätzung für die Durchführungsobjektivität zu nehmen. In derartigen Ergebnissen würden sich jedoch auch die Einflüsse von seiten einer unzureichenden Reliabilität niederschlagen (weshalb es durchaus als angemessen erscheint, Objektivität als einen Teilaspekt der Reliabilität aufzufassen). Abgesehen davon wäre ein Prozedere kaum zu akzeptieren, bei dem immer neue Testleiter von denselben Testteilnehmern immer dasselbe verlangen. Aus diesen Gründen fehlen gewöhnlich quantitative Angaben zur Durchführungsobjektivität. Sie darf als hoch angesehen werden, wenn alle Bedingungen festgelegt sind, die sich plausiblerweise auf das Testverhalten auswirken können, und wenn darüber hinaus angenommen wird, dass Wetterlage, Jahreszeit, Wochentag, Tageszeit und ökologischer Mikroraum nur unerhebliche Einflüsse aufweisen. 1. Durchführungsobjektivität. Sie bezeichnet den Grad, in dem mehr oder weniger Je nach der Phase, in der sich ein möglicher Einfluss des Testleiters auswirken kann, werden verschiedene Aspekte der Objektivität unterschieden. Objektivität steht für das Ausmaß, in dem die Ergebnisse eines Tests unabhängig von der Person des Untersuchungsleiters sind. Definition Hauptgütekriterien 2.3.1 von Tests sind i. Allg. die sog. Hauptgütekriterien, nämlich Objektivität, Reliabilität und Validität, auf die fast ohne Einschränkung ein strenger Maßstab anzulegen ist. Diese Kriterien betreffen zudem schwerpunktmäßig technische Eigenschaften, welche die Instrumente mehr oder weniger unabhängig von den Rahmenbedingungen eines Einsatzes und von den anstehenden diagnostischen Entscheidungen kennzeichnen. Kapitel 2 · Grundlagen diagnostischer Verfahren Durchführungsobjektivität durch Standardisierung der Testsituation 138 2 sA . 2 sx Die Summe der restlichen Varianzkomponenten bildet die sog. Auswertungsfehlervarianz sF2 = sB2 + sC2 + se2, deren Quadratwurzel den Standardauswertungsfehler. Für die Ermittlung der mittleren Quadrate und Freiheitsgrade gelten die folgenden Terme (. Tab. 2.13): Anhand der herangezogenen Stichproben von Testprotokollen und Beurteilern resultierten die folgenden Koeffizienten (. Tab. 2.14): 3 Nach Maßgabe des Standardauswertungsfehlers √ sF2 ergeben sich daraus die folgenden Konfidenzintervalle für die Rohpunkte (5%) (. Tab. 2.15): Der »wahre« Rohpunkt eines Probanden kann also allein infolge der mangelnden Auswertungsobjektivität nur mit den angegebenen Unsicherheitsintervallen bestimmt werden. Weil eine analoge Untersuchung von Michel (1967) für den Subtest Gemeinsamkeiten des Intelligenz-Strukturtests (IST) von Amthauer mit r = .96 ebenfalls nur einen unbefriedigenden Grad an Auswertungsobjektivität ergeben 6 r= Die Auswertungsobjektivität wird als Intraklassenkorrelation ermittelt, und zwar hier als Anteil der Varianz zwischen den Testprotokollen an der Gesamtvarianz: Ansetzend an Ableitungen von Iseler (1967) haben Michel und Mai (1969) die Auswertungsobjektivität für die 3 Untertests Allgemeines Verständnis (AV), Gemeinsamkeiten Finden (GF) und Wortschatztest (WT) der Hamburg-Wechsler-Intelligenztests für Erwachsene und Kinder (HAWIE bzw. HAWIK) bestimmt (7 Abschn. 3.1.2 und 7 Abschn. 3.1.4). Als allgemeine Strukturgleichung gilt: sx2 = sA2 + sB2 + sC2 + se2. sx2 = Varianz aller Testpunktwerte, sA2 = Varianz zwischen Protokollen, sB2 = Varianz zwischen den Beurteilern, sC2 = Wechselwirkung Beurteiler × Protokolle, se2 = Situationsfehler. Beispiel Sofern in Leistungstests oder Persönlichkeitsfragebogen die richtigen Lösungen bzw. die Antworten im Sinne des Merkmals anhand eines Lösungsschlüssels festgelegt sind, kann absolute Objektivität unterstellt werden. Allerdings empfiehlt sich den Beobachtungen von Weise (1994) zufolge ein maschinelles Lesen der Antwortbogen, da bei dem üblichen Auflegen von entsprechenden Schablonen doch erstaunlich viele Ableseund Additionsfehler auftreten. Etwas geringer ist die Auswertungsobjektivität i. Allg. bei Leistungs- und Persönlichkeitstests, in denen die Antworten in ungebundener Weise erfolgen. In solchen Fällen werden nicht nur die allgemeinen Anforderungen an vollkommen richtige Lösungen in detaillierter Weise erläutert, sondern auch die häufiger vorkommenden Lösungen als Beispiele für absolut richtige und teilweise korrekte Antworten aufgeführt, um die Auswertung eindeutiger handhaben zu können. Immer wieder treten jedoch Fälle auf, für die es kein Vorbild im Katalog der Beispiellösungen gibt und wo auch eine Rubrizierung aufgrund der allgemeinen Anweisungen nicht ohne Ambivalenzen möglich ist. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Beispiel zur varianzanalytischen Bestimmung der Auswertungsobjektivität Eher geringe Auswertungsobjektivität bei ungebundenen Antwortformaten Auswertungsobjektivität durch eindeutige Quantifizierung des Verhaltens 139 2 MQTP MQAW MQTA Bezeichnung k-1 n-1 (k-1)(n-1) Freiheitsgrade n · σA2 + σC2 + σe2 k · σB2 + σC2 + σe2 σC2 + σe2 Erwartungswert 0.84 0.88 0.96 0.96 GF 0.97 0.96 WT ±2,63 ±3,06 AV ±2,04 ±1,62 GF ±5,98 ±4,49 WT Am niedrigsten liegt die Auswertungsobjektivität meist bei (Kurz-) Aufsätzen und insbesondere bei projektiven Tests wie dem Rorschach- oder dem Thematischen Apperzeptionstest. Zur quantitativen Bestimmung der Auswertungsobjektivität müssen die Testprotokolle einer Stichprobe von Probanden mindestens 2 verschiedenen Auswertern vorgegeben werden, die unabhängig voneinander jeweils die Punktwerte ermitteln oder – im Falle der projektiven Verfahren – die Signierungen vornehmen. Die Korrelation zwischen den beiden Auswertern (bzw. bei mehreren Beurteilern: Die mittlere Korrelation zwischen ihnen) über die Protokolle gibt das Ausmaß der wechselseitigen Übereinstimmung an. Systematische Unterschiede hinsichtlich der relativen Strenge des Bewertungsmaßstabes schlagen sich in diesen Korrelationen allerdings nicht nieder; zur Erfassung derartiger Variationsquellen bedarf es varianzanalytischer Pläne. hatte, wurde dieser für die Revision zum IST 70 mit Mehrfachwahlantworten versehen, womit seitdem vollständige Objektivität gegeben ist (7 Abschn. 3.1.2). HAWIE HAWIK . Tabelle 2.15. Konfidenzintervalle aufgrund nicht absoluter Auswertungsobjektivität für 3 Subtests des HAWIE bzw. des HAWIK HAWIE HAWIK AV . Tabelle 2.14. Auswertungsobjektivität (Intraklassenkorrelation) für 3 Subtests des HAWIE bzw. des HAWIK sTP2 = σA2 = (MQTP – MQTA)/n, sAW2 = σB2 = (MQAW – MQTA)/k, sTA2 = sC2 + σe2 = MQTA, sF2 = sAW2 + sTA2 = [MQAW + (k-1)MQTA]/k, sX2 = sTP2 + sF2, raa = sTP2/sX2. Zwischen den Testprotokollen Zwischen den Auswertern Wechselwirkung und Situationsfehler Quelle . Tabelle 2.13. Varianzanalytische Terme zur Bestimmung der Auswertungsobjektivität Kapitel 2 · Grundlagen diagnostischer Verfahren Quantitative Bestimmung der Auswertungsobjektivität 140 Reliabilität oder Zuverlässigkeit Insofern bleiben Aspekte der inhaltlichen Treffsicherheit (also der Validität) außer Betracht; nur die Präzision der Messung an sich interessiert hierbei. Ein Test ist dann vollständig reliabel, wenn mit seiner Hilfe die Lokalisierung der Probanden auf der jeweiligen Merkmalsdimension absolut fehlerfrei geschieht. In einem solchen Fall ist der Reliabilitätskoeffizient als Korrelation zwischen verschiedenen Messwerten, erhoben an denselben Probanden, rtt = 1,0. Wie unter 7 Abschn. 2.1.1.1, (2.12) bereits erläutert wurde, ist das gleichbedeutend mit dem Umstand, dass die beobachtete Testwertevarianz zur Gänze durch wahre Messwertunterschiede erklärt wird: Reliabilität als Quotient der wahren zur Gesamtvarianz. Weil es verschiedene Zugangsweisen zur Bestimmung der Reliabilität gibt, kann nicht von »der« Zuverlässigkeit eines Tests gesprochen werden. Aus diesem Grunde muss bei der Nennung eines Reliabilitätskoeffizienten jeweils auch die Methode er- Die Reliabilität beschreibt die Genauigkeit, mit der ein Test eine Merkmalsdimension erfasst, und zwar unter der Vernachlässigung des Umstandes, ob es sich dabei auch um die Merkmalsdimension handelt, deren Erfassung intendiert ist. Definition 2.3.1.2 3. Interpretationsobjektivität. Damit bezeichnet man den Grad, in dem die aus den numerischen Testergebnissen gezogenen Schlüsse unabhängig von der Person desjenigen sind, der diese Interpretationen vornimmt, oder mit anderen Worten: Das Ausmaß, in dem aus gleichen Scores verschiedener Probanden identische Schlüsse gezogen werden (von einem oder von mehreren Auswertern). Vollständige Interpretationsobjektivität ist dann gegeben, wenn es lediglich darauf ankommt, aus den Punktwerten eines Leistungstests oder Persönlichkeitsfragebogens die individuelle Position auf der jeweiligen Merkmalsdimension zu ermitteln. Bei den gebräuchlichen Tests bedarf es dazu nur eines Blickes in die entsprechenden Normentabellen, in denen für die einzelnen Rohwerte die dazugehörigen Standardwerte oder Prozentränge aufgeführt sind. Darüber hinaus liegt absolute Interpretationsobjektivität auch dann vor, wenn beispielsweise unter Heranziehung von Validitätskoeffizienten und der Regressionsrechnung auf die Position in einer Kriteriumsdimension geschlossen und damit das relative Ausmaß an Eignung oder Bewährung bestimmt wird. Generell fallen hierunter die einzelnen Schritte der sog. »statistischen« (im Unterschied zur »klinischen«) Vorgehensweise bei der Kombination von Testresultaten nach vorher festgelegten oder analytisch ermittelten Regeln, so dass nach Eingabe der individuellen Testscores kein Einfluss des Testinterpreten mehr möglich ist. Sehr viel niedriger ist die Objektivität der Interpretation bei den projektiven Tests, da diese nicht nur den Probanden eine große Bandbreite dahingehend eröffnen, wie diese die Testmaterialien »interpretieren« können (etwa welche Teile von Klecksbildern sie deuten und in welcher Weise dies geschieht), sondern häufig genug auch der Intuition und Erfahrung des Testleiters einen größeren Ermessensspielraum offen halten, welche Schlüsse daraus zu ziehen sind. Allgemein ist die Interpretationsobjektivität beim »klinischen« Vorgehen geringer, da dort das subjektive Ermessen (als Folge von Erfahrung und Hypothesengenerierung) bei der Ableitung von Schlussfolgerungen darüber, was die Testwerte letztlich bedeuten (können), eine sehr viel größere Rolle spielt. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 »Die« Reliabilität eines Tests gibt es nicht Präzision der Messung an sich »Klinische« Vorgehensweise »Statistische« Vorgehensweise Interpretationsobjektivität durch identische Schlüsse aus gleichen Scores 141 2 2. Paralleltestreliabilität. Die Vorgabe paralleler Versionen eines Tests an ein und dieselbe Gruppe von Personen gilt weithin als »Königsweg« der Reliabilitätsbestimmung. Zweckmäßigerweise wählt man für die Bearbeitung der parallelen Formen ein relativ kurzes Intervall von einigen Tagen und die Vorgabemodalitäten so, dass die eine Hälfte der Probanden die Tests in der Sukzession A vor B, die andere Hälfte B vor A bearbeitet. Parallel sind Tests dann, wenn die auf der Basis gleicher, aber nicht identischer Itemstichproben beobachteten Mittelwerte und Standardabweichungen identisch sowie die Korrelationen zwischen den beobachteten Werten hoch (zwischen den wahren Werten per definitionem: 1.0) sind. Die ermittelten Koeffizienten liegen häufig noch unter denjenigen für Retestuntersuchungen. Sie sind jedoch deshalb besonders praxisgerecht, weil sich hier die Reliabilität auf eine insgesamt größere Stichprobe von Items und damit ein breiteres Spektrum von Aufgabeninhalten bezieht. Essentielle Voraussetzung für diesen Ansatz ist selbstverständlich das Vorhandensein geeigneter »paralleler« Versionen, die für sich bei Gruppenuntersuchungen Reliabilität als Korrelation paralleler Testformen Kriterien der Parallelität von Tests Bedeutung von Störfaktoren Teststabilität 1. Testwiederholung (Retest). Ein und derselbe Test wird ein und derselben Stichprobe von Probanden wiederholt dargeboten, im Regelfall insgesamt 2mal. Die Korrelation zwischen der ersten und zweiten Vorgabe gibt das Ausmaß der Retest- oder Testwiederholungsreliabilität an. Bei der Festlegung des optimalen Zeitintervalls für die Wiederholung besteht regelmäßig ein Dilemma: Einerseits gilt es, Erinnerungs- und Übungseffekte zu vermeiden, wie sie namentlich bei Leistungstests stets zu beobachten sind. Das macht eher lange Zeitabstände in der Größenordnung von mehreren Wochen oder gar Monaten erforderlich. Andererseits sollen die Testdurchführungen nicht soweit auseinander liegen, dass zwischenzeitlich auch reale Schwankungen des erfassten Merkmals auftreten und dadurch die messtechnisch-instrumentelle Qualität auf niedrigerem Niveau erscheinen lassen, als es tatsächlich der Fall ist. Insofern ist die Wiederholungsreliabilität auch immer von der Stabilität des erfassten Merkmals abhängig und wird deshalb auch als »Teststabilität« bezeichnet. Idealiter handelt es sich dabei um die Retestreliabilität, bereinigt um die mögliche Fluktuation des zugrundeliegenden Merkmals. Das aber setzt voraus, dass diese über anderweitige Ansätze erfasst werden kann, was nur höchst selten möglich ist. Sicher sind für Korrelationskoeffizienten systematische Mittelwertszunahmen von etwa der Hälfte einer Standardabweichung bei der wiederholten Vorgabe von Intelligenztests im Abstand von ca. einem Monat (s. z. B. Amthauer 1957; Catron 1978) völlig irrelevant. Derartige Übungsgewinne fallen erfahrungsgemäß nach Leistungsstand, Lernfähigkeit und Gedächtnis interindividuell recht verschieden aus, so dass Retestkoeffizienten eher konservative Schätzungen der Reliabilität liefern. Angemessen ist die Bestimmung der Reliabilität mittels Wiederholung bei reinen Speedtests und – mehr noch – bei Persönlichkeitsfragebogen. Hingegen fallen die erwähnten Störfaktoren um so mehr bei Tests aus dem Intelligenzbereich ins Gewicht, je weniger Items die Skalen enthalten, je eigentümlicher und inhaltlich esoterischer die Aufgaben sind und je kürzer das Retestintervall ist. In dem Maße, in dem dadurch die Erinnerung an die zuvor bewerkstelligten richtigen Lösungen begünstigt wird, verändert sich der Charakter eines Verfahrens in Richtung eines Gedächtnistests. wähnt werden, mit der die Zuverlässigkeit bestimmt wurde. Dafür stehen folgende Ansätze zur Verfügung. Kapitel 2 · Grundlagen diagnostischer Verfahren Reliabilität als Korrelation wiederholter Testdurchführungen 142 3. Testhalbierung. Oftmals besteht aus den verschiedensten Gründen heraus keine Möglichkeit, eine Testung zu wiederholen oder sie mit parallelen Instrumenten durchzuführen (z. B. weil kein hinreichend langes Zeitintervall abgewartet werden kann, die Probanden nicht mehr erreichbar sind oder wegen des eigentümlichen Charakters der Aufgaben von der ersten zur zweiten Messung eine grundlegende Veränderung der Validität zu befürchten ist oder einfach deshalb, weil Parallelversionen nicht vorliegen). In solchen Fällen bietet es sich an, die eine Form des Tests in 2 äquivalente Hälften aufzuteilen und die aus der einmaligen Bearbeitung dieser Teile pro Testperson vorliegenden Messwerte miteinander zu korrelieren. Die Höhe der Korrelation gibt einen Aspekt der Reliabilität an. Gewöhnlich werden die Koeffizienten nach den Prinzipien der Spearman-Brown »prophecy formula« auf doppelte Länge der Skala aufgewertet: Korreliert werden miteinander ja nur Hälften, doch interessiert die Reliabilität der 2mal so langen Gesamtskala. Bei diesem Ansatz können Schwankungen der Motivation, der Stimmung und Aufmerksamkeit bzw. Fluktuationen des untersuchten Merkmals praktisch ausgeschlossen werden. Alle diese Faktoren wirken sich nur in jenem Grade aus, in dem sie über die Items der Testskala hinweg oszillieren. Von daher kommt die Halbierungstechnik dem Konzept einer Beschreibung der primär instrumentellen Messgenauigkeit am nächsten. Voraussetzung ist freilich, dass die Homogenität und Anzahl der Items eine Aufteilung in 2 Hälften erlauben. Bei zahlreichen projektiven Tests ist diese notwendige Bedingung nicht gegeben. Für die Halbierung kommen mehrere Techniken in Betracht: 4 Aufteilung nach geradzahliger und ungeradzahliger Numerierung der Items: Für jede Versuchsperson wird individuell die Rohwertsumme aus den geradzahligen Items (also durch Addition der Antworten zu den Items Nr. 2, 4, 6 usw.) und gesondert den ungeradzahligen Aufgaben (also diejenige mit den Nummern 1, 3, 5, 7 usw.) gebildet. 4 Halbierung nach der laufenden Nummer der Items in dem Sinne, dass die Items 1 bis 20 von insgesamt 40 Aufgaben die eine Teilskala, die Items 21 bis 40 die zweite Teilskala bilden. 4 Aufteilung der Items nach Zufall in jede der beiden Halbformen. 4 Die Halbierung auf der Basis der Analysedaten stellt das anspruchsvollste Konzept dar. Hierbei werden für alle Items zunächst Schwierigkeit und Trennschärfe ermittelt und unter simultaner Berücksichtigung beider Kennwerte Paarlinge gebildet, die einander sehr ähnlich sind. Die Zuweisung der einzelnen Items aus solchen Paarlingen in die Halbskalen erfolgt sodann nach Zufall. von hohem Wert sind, weil benachbart sitzende Probanden dann unterschiedliche Formen bearbeiten können. Ihre Herstellung wird allerdings erschwert, wenn es sich um die Erfassung sehr eng begrenzter Eigenschaften handelt und entsprechend das Universum denkbarer Items nur klein ist. Ein weiterer Hinderungsgrund liegt dann vor, wenn die Fragen von gleichsam einmaliger Art sind und deshalb eine Parallelisierung kaum möglich erscheint, ohne einem Transfer der Lösungsprinzipien und erheblichen Übungsgewinnen Vorschub zu leisten. Bei Speedtests, in denen die (gewöhnlich zahlreichen) Items eine hohe wechselseitige Ähnlichkeit aufweisen, ist demzufolge die Entwicklung von Parallelformen entbehrlich, da es für die zweite Vorgabe keinen Unterschied bedeutet, ob dieselben oder leicht abgewandelte Items bearbeitet werden müssen. Damit liegt hier eine Art Sonderfall vor, bei dem die Retest- und Paralleltestmethode gleichsam ineinander übergehen. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Halbierung über Schwierigkeit und Trennschärfe »Odd-even-Methode« Reliabilität durch Testhalbierung kommt instrumenteller Messgenauigkeit am nächsten Reliabilität als Korrelation äquivalenter Testhälften Praktisch Gleichheit von Paralleltest- und Retestmethode bei Speedtests Erschwerte Herstellung paralleler Testformen 143 2 144 evena 3,25 4,25 4,00 4,25 3,75 3,50 4,50 4,00 3,00 2,00 odda 3,50 3,50 3,50 3,25 3,25 2,75 3,25 4,00 3,00 2,00 2,75 4,00 3,50 4,25 3,50 2,75 4,50 3,25 3,25 2,50 3,00 3,75 4,25 4,25 3,50 3,00 4,25 3,00 3,75 2,50 4,00 3,75 4,00 3,25 3,50 3,50 3,25 4,75 2,75 1,50 3,50 3,50 3,75 3,25 3,25 3,00 3,75 4,00 3,75 2,00 Pac 2 5 5 5 4 3 5 2 4 3 6 3,25 4,25 3,75 4,25 3,75 3,25 4,00 4,00 2,25 2,00 Pbc 4 1 5 5 3 3 4 3 4 3 7 2 4 4 5 5 4 4 4 4 8 Bei der Parallelisierung wurden folgende Paare gebildet: Items 1 und 5, Items 2 und 7, Items 3 und 8, Items 4 und 6. Diese Paare wurden nun per Zufall auf 2 Gruppen verteilt, so dass folgendes Resultat entstand: A: 3, 4, 5, 7. B: 1, 2, 6, 8. Korrelationen: 4 odd-even: .747, 4 erste-zweite Hälfte: .137, 4 Zufallshalbierung: .217, 4 Parallelisierung nach Trennschärfe und Schwierigkeit: .546. 6 c b 3,75 4,00 3,25 3,25 3,50 3,25 3,50 5,00 2,25 1,50 Z2b 2 5 2 2 3 2 4 3 4 2 4 3 4 2 3 4 4 5 4 1 Z1b 5 4 5-8 4 5 4 4 4 3 3 5 3 2 3 5 2 5 4 3 5 5 1 2 1-4 3 2 odd/even: Mittelwerte für ungeradzahlige/geradzahlige Itemnummern. Z1/Z2: Zufallsaufteilung. Pa/Pb: Parallelisierung (nähere Details 7 unten). 4 3 3 2 3 3 2 5 1 1 1 2 3 4 5 6 7 8 9 10 a 1 Pbn Items . Tabelle 2.16. Antworten von 10 Probanden zu den 8 Optimismusitems. In den unteren Spalten sind pro Proband die Mittelwerte für Teilmengen der Items aufgeführt, die den Berechnungen der Korrelationen im Sinne der im Text erläuterten Methoden zugrunde gelegt wurden Beispiel Im folgenden Beispiel (. Tab. 2.16) ist an den 8 Items einer Skala zum Optimismus und einer Stichprobe von 10 Versuchspersonen jede der vorgenannten Methoden exemplarisch angewendet worden. Kapitel 2 · Grundlagen diagnostischer Verfahren 4 ⋅ (s12 - s1 ⋅ s(1-2) ⋅ r1(1-2) ) 4 ⋅ s12 + s(1-2)2 -4 ⋅ s1 ⋅ s(1-2) ⋅ r1(1-2) Angewendet auf die bereits oben erwähnte Stichprobe von 1226 Probanden resultiert für die 8 Items umfassende Optimismusskala ein Koeffizient von rtt(α) = 0.54. s12 = Varianz der Rohwerte aus der ersten Testhälfte, s(1–2)2 = Varianz der Rohwertdifferenzen, r1(1–2) = Korrelation der Rohwerte aus der ersten Testhälfte mit den Rohwertdifferenzen. rtt(α ) = Üblicherweise werden lediglich die Rohwerte aus den beiden Testhälften interkorreliert und der erhaltene Koeffizient auf die doppelte Länge der (Gesamt-)Skala aufgewertet. Allerdings setzt die Spearman-Brown-Formel die Identität von sxt und von sxu [7 (2.26)] bzw. s1 und s2 voraus. Mit Hilfe verschiedener Formeladaptationen versucht man, ggf. auftretenden Abweichungen gerecht zu werden. Deshalb hat Cronbachs Koeffizient α eine besondere Akzeptanz gefunden. Für ihn wird die Differenz der individuellen Rohwertpaare (X1 – X2) gebildet und die Korrelation der Rohwerte aus der ersten Hälfte mit diesen Differenzen ermittelt [r1(1–2)]. Die allgemeine Form lautet nach Lienert (1989, S. 222): Jede der vorgenannten Techniken verbietet sich bei Schnelligkeitstests, weil dort – von Flüchtigkeitsfehlern abgesehen – die individuellen Halbtestwerte fast immer ziemlich genau der Hälfte der Gesamtrohwerte entsprechen: Wenn jemand beispielsweise 80 Aufgaben insgesamt in Angriff genommen und bewältigt hat, bedeutet das mit großer Wahrscheinlichkeit 40 Items aus der einen und eine gleich große Zahl aus der anderen Hälfte. Damit aber wird die Reliabilität krass überschätzt. Deshalb bietet sich bei Speedtests eine andere Technik an: 4 Halbierung nach der Testzeit. Die gesamte Bearbeitungszeit wird in 2 Teile getrennt. Nach Ablauf der ersten Halbzeit müssen die Probanden auf Anweisung des Testleiters die Stelle im Antwortblatt markieren, an der sie momentan arbeiten, so dass für die erste und zweite Halbzeit erhebungstechnisch unabhängige Rohwertteilleistungen bestimmbar sind. Wegen der geringen Zahl von Messwertträgern in dem Beispieldatensatz sind von vornherein große Schwankungen zwischen den verschiedenen Berechnungsmodalitäten zu erwarten, und in der Tat führen die odd-even-Aufteilung und die Parallelisierung zu sehr viel höheren Halbierungsreliabilitäten als die beiden anderen Aufteilungen. Anhand der größeren Stichprobe von 1226 Probanden spielen Zufallsschwankungen infolge der Messwertträger keine Rolle mehr. Die geringe Zahl von Items leistet allerdings der Möglichkeit Vorschub, dass zufällig besonders ähnliche bzw. unähnliche Items in den Gruppen zusammengefasst wurden. Da die Koeffizienten aber bei allen Aufteilungsprinzipien recht nah beieinander liegen, kann mit Bestimmtheit festgehalten werden, dass die Skala nur eine mäßige Reliabilität aufweist. Kennwerte für alle (1226) Versuchspersonen: 4 odd-even: .273, 4 erste-zweite Hälfte: .281, 4 Zufallshalbierung: .303, 4 Parallelisierung nach Trennschärfe und Schwierigkeit: .327. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Formel für den Spezialfall zweier Testhälften Für Speedtests: Halbierung nach der Testzeit Testhalbierung führt bei Speedtests zur Überschätzung der Reliabilität 145 2 Cronbachs Koeffizient α K-R-Formula 20 K-R-Formula 8 Bestimmung über Trennschärfe und Schwierigkeitskoeffizienten = Varianz der Testrohwerte, = Schwierigkeit P/100, = 1-p, = Trennschärfe. s x 2 -∑pq ∑rit 2 ⋅ pq + ⎛ s x 2 -∑pq ⎞ + ⎜ 2s 2 ⎟ 2 2 ⋅ sx sx2 x ⎝ ⎠ 2 (2.76) (2.77) (2.78) r = Zahl paralleler Messungen, si2 = Stichprobenvarianz des i-ten Paralleltests, berechnet an der Stichprobe von N Versuchspersonen mit N-1 im Nenner, sij = Kovarianz zwischen i und j. r ⎛ ∑si 2 ⎞⎟ r ⎜ i =1 α= ⋅ ⎜1 - r ⎟ r r-1 ⎜ ∑si 2 + ∑sij ⎟ i =1 ⎠ ⎝ i =1 In beiden K-R-Formeln spielt der Ausdruck pq, also die Itemvarianz (7 Abschn. 2.2.7.1 zu Schwierigkeit) eine wichtige Rolle. Wenn bei einem Vergleich der Summe der Itemvarianzen oder deren Mittelwert mit der Varianz des Skalensummenwertes (sx2), wie er in der einen oder anderen Weise in den Formeln angestellt wird, weitgehende Übereinstimmung resultiert, so muss dafür das Fehlen von Itemkovarianzen verantwortlich sein. Denn die Varianz des Skalensummenwertes setzt sich zusammen aus der Summe aller (einzelnen) Itemvarianzen und aller Interitemkovarianzen. Das Fehlen von Itemkovarianzen aber bedeutet, dass jedes Item etwas anderes misst, die Skala also nicht reliabel im Sinne der Konsistenz ist. Am meisten verbreitet ist Cronbachs α: n ⎛ s x 2 - n ⋅ pq ⎞ rtt = ⋅ ⎟ n-1 ⎜⎝ s x 2 ⎠ n ⎛ s x 2 -∑pq ⎞ = ⋅⎜ n-1 ⎝ s x 2 ⎟⎠ Sofern aus irgendwelchen Gründen keine Interkorrelationen berechnet wurden oder dies wegen einer unvollständigen Aufgabenanalyse nicht möglich ist, kann K–R-Formula 20 Anwendung finden: sx2 p q rit rtt = 4. Konsistenzanalysen. Die Verallgemeinerung der Halbierungsmethode besteht darin, eine Testskala nicht nur in 2 Hälften zu zerlegen, sondern in so viele Teile, wie Items vorhanden sind. Entsprechend müssten die betreffenden Korrelationen ermittelt und die erhaltenen Werte auf die jeweilige Länge der Skala aufgewertet oder »hochgerechnet« werden. Am bekanntesten sind dafür die Formeln von Kuder und Richardson (1937) geworden. Die sog. K-R-Formula 8 stützt sich auf die Schwierigkeits- und Trennschärfekoeffizienten: Kapitel 2 · Grundlagen diagnostischer Verfahren Reliabilität als Konsistenz aller Testitems 146 sinn 2 s zwi Prb2 (da se2 = sinn2) (2.80) (2.79) rtt = 1 - srest 2 s zwi Prb2 Auf diese Weise gilt schließlich srest2 = sinn2 - szwi Items2, srest2 = se2. (2.81) Nun erzeugen selbst die einzelnen Items aufgrund ihrer selbst bei hoher Konsistenz immer etwas variierenden spezifischen Anforderungen eine Varianz. Diese Varianz zwischen den Items stellt insofern keine Fehlerkomponente dar und muss von der Varianz innerhalb der Personen abgezogen werden, um einen »bereinigten« Term für eine »Restvarianz« zu erhalten: rtt = 1 − s ∞ 2 = s zwi Prb2 - s e 2 , s ∞ 2 = s zwi Prb2 - sinn 2 s∞2 , rtt = 2 s∞ + se2 s zwi Prb2 - sinn 2 rtt = , s zwi Prb2 - sinn 2 + sinn 2 Durch Umstellen und Einsetzen erhält man: s zwi Prb2 = s ∞ 2 + s e 2 Die Varianz zwischen den Probanden setzt sich zusammen aus Komponenten zu Lasten der wahren Merkmalsunterschiede und zu Lasten von Fehlereinflüssen: sinn2 = se2 . In der letzteren Formel ist besonders augenfällig, dass die Varianz des Skalensummenwertes (im Nenner) verglichen wird mit der Summe der Itemvarianzen. Sofern die beiden Werte auseinanderklaffen, muss dieses eine hohe Homogenität bedeuten, weil in diesem Fall zur Summe der Itemvarianzen noch substantielle Itemkovarianzen hinzugekommen sind und die Differenz bewirkt haben. Ein anderer Ansatz besteht darin, die Konsistenz varianzanalytisch zu bestimmen, und zwar nach einem Schema, dessen Faktoren zum einen die Items, zum anderen die Probanden darstellen. Die dafür maßgeblichen Überlegungen sind einfach: Bei vollständiger Konsistenz eines Tests bzw. seiner Beantwortung durch Probanden müsste für jede Person pro Item dieselbe Antwort auftreten. Abweichungen davon, also jegliche Varianz innerhalb jedes einzelnen der Probanden, können in einer ersten Näherung als Fehler aufgefasst werden: 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung Varianzanalytische Konsistenzformel Varianzanalytische Bestimmung 147 2 2 6 QSzw = ( ∑X)2 33489 = 733 = 63.22, N⋅k 50 k N⋅k 5 50 ∑P2 - ( ∑X)2 = 3471 - 33489 = 24.42, QStot = ∑X2 - ∑I2: ∑P2: 34 4 3 4 2 3 4 4 5 4 1 4 5 4 4 4 3 3 5 3 2 37 4 3 39 4 4 5 5 4 4 4 4 3 2 2 5 5 5 4 3 5 2 4 3 38 8 6 totale Quadratsumme, Quadratsumme innerhalb der Probanden, Quadratsumme zwischen Probanden, Quadratsumme zwischen Items, Rest-Quadratsumme, Zahl der Probanden, Zahl der Items, quadrierte Gesamtsumme der Testwerte, im Beispiel: 1832 = 33489, Summe der quadrierten Itemwerte, im Beispiel: 32 + 42 + 42 + … + 12 + 32 + 22 = 733. Summe der quadrierten Testwerte, im Beispiel: 172 + 222 + 202 + … + 102 = 3471, Summe der quadrierten Werte pro Item, im Beispiel: 352 + … + 392 = 6 715. 35 I QStot: QSinn: QSzw: QSzI: QSr: N: k: (∑X)2: ∑X2: 3 5 2 5 4 3 5 5 1 2 2 Items 1 2 3 4 5 6 7 8 9 10 Pbn 183 17 22 20 21 19 17 21 21 15 10 P . Tabelle 2.17. Antworten von 10 Probanden zu 5 Items einer Skala (Auszug aus . Tab. 2.16). In der letzten Spalte (P) die individuellen Summenwerte über die Items, in der letzten Zeile (I) die Summenwerte über die Probanden. Die P- und I-Werte liegen der Bestimmung von szwi2 und szwi Items2 zugrunde Beispiel Eine wesentliche Voraussetzung für diese varianzanalytische Prüfung besteht allerdings darin, dass die Itembeantwortung auf kontinuierlich-quantitativ abgestuften Skalen erfolgt. Das trifft häufiger bei Persönlichkeits- und Einstellungstests zu, ist aber auch bei Leistungstests der Fall, wenn dort je nach Zeitbedarf oder Richtigkeit der Lösung abgestufte Punkte vergeben werden. In . Tab. 2.17 findet sich ein Rechenbeispiel für eine Auswahl von 5 Items der Optimismusskala (vgl. . Tab. 2.7 und 2.10; die Items Nr. 1, 5 und 7 wurden wegen zu geringer Interkorrelationen eliminiert). Kapitel 2 · Grundlagen diagnostischer Verfahren Beispiel zur varianzanalytischen Konsistenzbestimmung 148 k 2 5 ∑P = 733 - 3471 = 38.8, N⋅k 10 50 2 Validität oder Gültigkeit srest = 0.620 korrigiert 2 s zwi 1. Inhaltliche Validität. Sofern die Aufgaben eines Tests Stichproben aus dem zu erfassenden Zielmerkmal darstellen, kann aus dem Verhalten in der Testsituation auf dasjenige außerhalb im Sinne eines Repräsentationsschlusses geschlossen werden (7 Abschn. 1.6) Der Grad der Genauigkeit, in dem dieses möglich ist, bezeichnet die inhaltliche Validität. Sie ist hoch, wenn die Aufgaben völlig identisch sind, etwa mit Anforderungen, die in bestimmten Bereichen gestellt werden: Als Beispiel dafür stehen Prüfungen für Farbtüchtigkeit, Schulleistungstests oder die Fragen beim Ablegen der Führerscheinprüfung, des Weiteren Arbeitsproben wie orthographische Richtigkeit beim Diktat Bei hoher Validität erlauben die Ergebnisse eines Tests die Generalisierung aus dem numerischen Relativ der Testskalen auf das empirische Relativ des interessierenden Zielmerkmals oder einen Schluss aus dem (beobachteten) Verhalten in der Testsituation auf (ebenfalls beobachtbares) Verhalten außerhalb der Testsituation (Michel & Conrad, 1982, S. 55). Insofern handelt es sich um das wichtigste Gütekriterium überhaupt. Selbst der Objektivität und der Reliabilität kommt primär lediglich die Rolle zu, günstige Voraussetzungen für das Erreichen einer hohen Validität zu schaffen. Auch bei der Validität lassen sich verschiedene Aspekte voneinander unterscheiden: Unter Validität wird das Maß an Genauigkeit verstanden, mit dem der Test dasjenige Persönlichkeits- oder Verhaltensmerkmal misst, das er messen soll oder zu erfassen vorgibt. Definition 2.3.1.3 rtt = 1 - sinn = 0.643 unkorrigiert 2 s zwi 2 QSr 37.08 = = 1.0300, (N- 1) (k- 1) 36 QSzw 38.8 = = 0.9700, N (k- 1) 4 0 QSzw 24.42 = = 2.7133, N-1 9 rtt = 1 - sr2 = 2 sinn = s2zw = QSr = QSinn - QSzI = 38.8 - 1.72 = 37.08, k ∑I2 - ( ∑X)2 = 6715 - 33489 = 1.72, QSzI = QSinn = ∑X2 - 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Repräsentationsschluss vom Testverhalten auf dasjenige außerhalb der Testsituation Bedeutung hoher Validität 149 2 Ü-Koeffizient der Beurteilerübereinstimmung (2.82) bei der Anfertigung ihrer Gemälde zu vermitteln. Um den Lehrenden und Studierenden konkrete Beispiele vor Augen zu führen, wählt eine staatliche Sachverständigenkommission unter Beteiligung der Akademien eine Reihe von Bildern aus, bei denen nach ihrer Auffassung jedes der Ziele in optimaler Weise erreicht ist. Bevor diese Bilder den Lehrplänen als Anschauungs6 Der Lehrplan für den Unterricht in Gestaltender Kunst an den Akademien der Bundesländer sieht vor, den Studierenden die Ziele 4 Originalität, 4 Innere Stimmigkeit, 4 Ausgleich von Form und Inhalt, 4 Intellektualität des Hintergrundes Beispiel Die Anwendung dieses Maßes wird anhand des folgenden Beispiels (. Tab. 2.18 und . Tab. 2.19) demonstriert. Ü = Übereinstimmungskoeffizient, QSinnh = Quadratsumme innerhalb der Personen, QSmax = maximal mögliche Quadratsumme innerhalb der Personen. = 1 - QSinnh U QSmax und Tempo in Kurzschrift oder Maschinenschreiben, wenn es um die Eignung als Sekretärin geht. Ferner gehören auch Untersuchungen an Fahr- und Flugsimulatoren hierher. In solchen Fällen ist die Übereinstimmung zwischen der Test- und Nicht-Testsituation unmittelbar augenfällig, weshalb darauf verzichtet werden kann, diese näher zu bestimmen. Es lassen sich aber leicht andere Beispiele anführen, wo die Entsprechungen weniger evident sind und es zweckmäßig erscheint, numerische Werte für die inhaltliche Validität zu ermitteln. Meist wird dabei wie folgt verfahren: In einem ersten Schritt wird das in Betracht gezogene Zielkonstrukt begrifflich und theoretisch expliziert. Sofern noch keine Aufgaben oder Fragen vorliegen, die das Zielkonstrukt treffen sollen, werden diese sodann nach Maßgabe operationaler Definitionen (s. Fricke, 1974) oder generativer Regeln (Klauer, 1987) erstellt. Die vorliegenden oder erhaltenen Items werden von mehreren unabhängig voneinander arbeitenden Personen (meist Experten oder zumindest in die Materie eingewiesene) daraufhin beurteilt, inwieweit sie dem Inhalt des Konstruktes, ggf. auch den Vorgaben der generativen Regeln entsprechen. Mitunter kommt es auch darauf an, die Einhaltung vorgegebener Quoten (z. B. Aufgaben mit bestimmten Strukturmerkmalen) einzuschätzen. Das Maß der Beurteilerübereinstimmung liefert einen Koeffizienten für die Inhalts- oder Kontentvalidität. Herangezogen werden dafür die pro Item beobachtbaren Urteilsstreuungen zwischen den Einschätzern. Für die Gesamtzahl der Items einer Skala bietet sich der Ü-Koeffizient von Fricke (1974, S. 40–43) an: Kapitel 2 · Grundlagen diagnostischer Verfahren Quantitative Bestimmung der inhaltlichen Validität 150 3 Rohwert 3 0 1 1 1 2 Bilder 4 1 1 1 1 1 n n⋅ k j=1 2 n j=1 2 4 (k ∑x j - ∑x j ) . 2 0 1 0 1 2 3 1 1 0 1 3 3 1 1 0 1 3 4 1 1 1 1 4 3 1 1 1 0 4 2 0 1 1 0 5 2 0 0 1 1 5 2 0 0 1 1 6 3 1 1 0 1 6 3 5 4 5 Randsumme 4 4 4 5 Randsumme = 1 - 4 (4 ⋅17- 53) = 1 - 60 = 0.375. U 6 • 16 96 für das Kriterium »Innere Stimmigkeit« ein solcher von = 1 - 4 (4 ⋅17- 49) = 1 - 76 = 0.208, U 6 ⋅16 96 k = Anzahl der Beurteiler, n = Anzahl der Bilder, xj = Rohwert (d. h. Summe) von Bild j. Für das Kriterium »Originalität« ergibt sich demnach ein Ü-Koeffizient von = 1 U Die Formel lautet: Rohwert 1 2 3 4 Professoren . Tabelle 2.19. Kriterium 2 1 0 1 1 1 Bilder 1 2 3 4 Professoren . Tabelle 2.18. Kriterium 1 material beigefügt werden, beurteilen 4 Professoren für Kunst in einer Art Kreuzvalidierung, ob jedes der Kriterien aus ihrer Sichtweise erfüllt ist. In . Tab. 2.18 und . Tab. 2.19 werden Urteile einer Gruppe von Personen aufgelistet, ob das Kriterium 1 bzw. Kriterium 2 (7 weiter oben) in jedem von 6 Bildern erfüllt ist (= 1) oder nicht erfüllt ist (= 0). 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 151 2 2 Korrelationsschluss vom Testergebnis auf das Kriterium Ein überregional operierendes Taxiunternehmen führt eine Untersuchung zur psychologischen Erfassung der Eignung zum Führen eines Taxis durch. Die im Unternehmen beschäftigten Fahrer werden von ihren Gruppenleitern hinsichtlich ihres beruflichen Erfolges, also der Eignung, eingeschätzt (= Kriterium). Dafür bieten sich u. a. die folgenden Gesichtspunkte an: Die Zahl beförderter Passagiere in einem festgelegten Zeitraum, zurückgelegte Wegstrecken, die Zahl von Unfällen, Schäden am Fahrzeug, Beschwerden von Fahrgästen, Fehlzeiten und Strafmandate (die letzten Merkmale mit jeweils negativer Gewichtszahl). Jede dieser Variablen indiziert nur einen bestimmten Aspekt des »Berufserfolges«. Es mag deshalb naheliegen, die einzelnen Punktwerte zu einem Globalwert der Eignung zusammenzufassen. Je nach dem Dafürhalten der maßgeblichen Vorgesetzten oder der Unternehmensleitung erfahren einzelne Subdimensionen eine besondere Gewichtung. So könnte die Organisation bestrebt sein, nach außen ein nobles Erscheinungsbild abzugeben und aus diesem Grunde saubere Kleidung und verbindliche Umgangsformen als besonders wichtig erachten. (Das macht deutlich, dass Kriterien sich keineswegs immer auf selbstverständliche Weise ergeben, sondern häufig von Festlegungen verschiedenster Art wie Zielvorstellungen, Verfügbarkeit, Akzeptanz, Kosten u. Ä. abhängen.) Mit jeder der Einzelvariablen und/oder deren optimaler Kombination als Kriterien für die Fahrereignung werden die Ergebnisse solcher Leistungstests korreliert, die als einschlägig erachtet und deshalb den Beschäftigten vorgegeben werden: Dazu zählen vielleicht allgemeines Wissen, verbales Verständnis und Wortschatz (um 6 Beispiel 2. Kriteriumsbezogene Validität. Immer dann, wenn es nicht möglich ist, das Zielmerkmal als Ganzes oder wenigstens Stichproben daraus in einem Test zusammenzustellen, sondern die ausgewählten Verhaltensweisen oder Aufgaben nur bestimmte Merkmale indizieren (also für etwas anderes stehen und nicht nur für sich selbst), bedarf es eines Korrelationsschlusses, um von den Ergebnissen des Tests auf das interessierende Zielmerkmal oder Kriterium schließen zu können. Eine solche Korrelation muss empirisch ermittelt werden. Zu diesem Zweck bearbeitet eine Stichprobe von Probanden den Test, und es wird geprüft, ob die Ergebnisse mit dem Kriterium übereinstimmen, d. h. mit Punktwerten. Diese indizieren ihrerseits interindividuelle Unterschiede in der Zieldimension und müssen unabhängig von der Testung ermittelt worden sein. Um diese Unabhängigkeit der Erhebungsmodalitäten deutlich zu machen, hat man den Begriff »Außenkriterium« für Messwertreihen gewählt (im Unterschied zu sog. »Binnenkriterien« wie dem Skalenscore als Kriterium für die Bestimmung der Trennschärfe). Der Validitätskoeffizient wird mit rtc bezeichnet, der Korrelation des Tests mit einem Kriterium (engl.: criterion). Denkbar ist auch eine Bestimmung der Inhaltsvalidität auf experimentellem Wege: Mindestens 2 Gruppen von Personen werden die Explikationen eines Konstruktes sowie die Regeln vorgegeben, nach denen Items zu generieren sind. Die auf diese Weise unabhängig voneinander entstandenen Tests werden dann von einer größeren Stichprobe von Probanden bearbeitet. Die zwischen den Ergebnissen auftretende Korrelation ist gleichfalls ein Maß für die inhaltliche Validität beider Verfahren (s. Fricke, 1974, S. 45). Kapitel 2 · Grundlagen diagnostischer Verfahren Experimentelle Bestimmung der inhaltlichen Validität 152 Lienert (1989, S. 17) spricht in Bezug auf den letzten Faktor von »Zulänglichkeit« als der Kommunalität, die nach Absehung von der Reliabilität des Tests und derjenigen des Kriteriums besteht. Die numerische Bestimmung der Zulänglichkeit müsste deshalb mittels der doppelten Minderungskorrektur erfolgen (7 Abschn. 2.1.1.3). Dabei wird jedoch primär der technisch-instrumentellen Unzulänglichkeit Rechnung getragen, nicht so sehr dagegen der Zentralität oder der inhaltlichen Validität des Kriteriums für das in Frage stehende Konstrukt. Unter sonst gleichen Voraussetzungen wird ein Kriterium valide (und der Test eher zulänglich) sein, wenn es sich um eine Indizierung derselben Merkmalsdimension handelt, d. h. semantisch und theoretisch eine hohe Ähnlichkeit besteht. Eine Qualifizierung als Kriterium erlangen entsprechende Variablen erst dann, wenn sie darüber hinaus einen höheren Status aufweisen, letztlich also verlässlicher und entscheidungsrelevanter sind. Als informelle Regel bei der Beurteilung des Status empfiehlt Burisch (1984), sich das Dilemma zu vergegenwärtigen, auf der Basis inkonsistenter Informationen diagnostische Entscheidungen von erheblicher praktischer Bedeutung vornehmen zu müssen. So müssten die Fragen beantwortet werden, ob ein Patient wegen seiner Depression hospitalisiert werden müsse oder nicht, ob ein mehrfach rückfälliger Straftäter nach Verbüßung einer längeren Haftstrafe bedingt entlassen werden dürfe oder nicht, ob sich ein Bewerber für eine risikoreiche Expedition aufgrund seiner emotionalen Stabilität eigne oder nicht. Zwei Informationsquellen (z. B. die Einschätzung von Ärzten, Anstaltsleitung oder Bekannten bzw. die Punktwerte vorgegebener Tests) lieferten wechselseitig inkompatible Hinweise, die Variable X1 in der einen, X2 in der anderen Richtung. Diejenige Quelle, die den Ausschlag gäbe, qualifiziere sich als »echtes« Kriterium. Davon zu unterscheiden sind solche Kriterien, für die zwar die Bedingung der semantischen und theoretischen Äquivalenz, nicht aber diejenige des höherwertigen (Diese Voraussetzungen sind geradezu trivial, denn wenn eine Variable nicht mit sich selbst korreliert, kann sie schon gar nicht mit anderen Variablen kovariieren.) 4 vom Grad dessen, was Test und Kriterium an konzeptueller Gemeinsamkeit enthalten. Da häufig mehrere Kriterien vorliegen oder denkbar sind und vorab nicht entschieden werden kann, welches davon das optimale ist, hat ein Test so viele Validitäten, wie es vernünftige Kriterien für dasjenige gibt, was der Test messen soll. Wie unmittelbar einzusehen ist, hängt die kriteriumsbezogene Validität u. a. von den folgenden Faktoren ab: 4 der Reliabilität des Tests, 4 der Reliabilität des Kriteriums, die Voraussetzungen für Kommunikation mit den Fahrgästen und im Unternehmen zu prüfen), rechnerisches Denken, Merkfähigkeit, technisches Verständnis, motorische Fertigkeiten, des Weiteren Fragebogen zur Extraversion, Aggressivität und Frustrationstoleranz. Die korrelative Übereinstimmung zwischen der Kombination der Testwerte einerseits und derjenigen der Kriteriumsvariablen andererseits zeigt die Validität der Testbatterie gegenüber »dem« Kriterium an, d. h. das Ausmaß, in dem die Unterschiede im Außenkriterium durch Unterschiede in den Testleistungen erfassbar sind. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 »Echte Kriterien« Auswahl einer geeigneten Kriteriumsvariablen Kommunalität als Grad der konzeptuellen Gemeinsamkeit von Test und Kriterium Einflussfaktoren der kriteriumsbezogenen Validität 153 2 Konkurrente und prädiktive Gültigkeit Berücksichtigung von Grund- und Selektionsquoten »Effektivität« von Skalen Target-Variablen Ranges gilt. Solche Variablen verdienen nur eine Bezeichnung als »Quasikriterien«, da sie ihrerseits einer Validierung an echten Kriterien bedürfen. Das trifft etwa auf jene Fälle zu, in denen eine neu entwickelte Skala an einem Test »validiert« wird, der dasselbe Merkmal erfassen soll. So sind zahlreiche Intelligenztests mit dem Binet-Staffeltest verglichen worden, weil dieser selbst am Altersverlauf der Lösungswahrscheinlichkeiten und am Lehrerurteil entwickelt wurde. Bei der dabei verwendeten externalen Konstruktionsstrategie war die Validität der Items gleichsam Voraussetzung und deshalb gewährleistet. Von »echten« und »Quasikriterien« zu unterscheiden sind die sog. Target-Variablen. Dabei handelt es sich um eine spezifische Klasse von Kriterien, die aufgrund bestehender Sachzwänge vorhergesagt werden müssen, und zwar auf der Basis irgendwelcher Informationen. Beispiele dafür sind das Suizidrisiko bei psychiatrischen Patienten, die Zufriedenheit oder Unfallneigung von Beschäftigten in einem Betrieb oder das Alkoholismusrisiko bei Funktionsträgern in Überwachungsbereichen. In solchen Fällen kommt es lediglich auf das prognostische Ziel einer Maximierung der Trefferquoten an. Jede Testskala ist hierbei willkommen, die in signifikanter Weise zur Aufklärung der TargetVarianz beiträgt, gleich ob die Konfiguration der Testbatterie unter inhaltlich-psychologischer Perspektive einen (theoretischen) Sinn macht oder nicht. Die Korrelation von Skalen mit solchen Target-Variablen sollte zweckmäßigerweise als Effektivität bezeichnet werden. Die Höhe dieses Koeffizienten sagt nur wenig über den verwendeten Test als solchen aus, sondern nur etwas über die Angemessenheit seines Einsatzes: Ein Hammer beispielsweise zum Sägen oder Schrauben verwendet, würde nur eine geringe Effektivität aufweisen, und zwar nur deshalb, weil er dysfunktional eingesetzt wäre. Weil Target-Variablen meist in alternativ abgestufter Form vorliegen (hospitalisiert ja/nein; gefährdet/nicht gefährdet usw.) stellt sich hier das Problem des umgekehrt u-förmigen Zusammenhanges zwischen Grundquote und Höhe der Korrelation (das bereits unter der Trennschärfe angesprochen wurde; 7 Abschn. 2.2.7.2, S. 121, Implikationen: . Abb. 2.29) erneut, diesmal im Hinblick auf die Validität. Die Untersuchungen von Hollmann (1993) haben nachdrücklich vor Augen geführt, dass – abgesehen von der Art des verwendeten Korrelations-Koeffizienten – bei der Beurteilung »der« Validität unbedingt die Grund- und mehr noch die Selektionsquoten berücksichtigt werden müssen; letztere können z. B. je nach den wirtschaftlichen Gegebenheiten und dem Verhältnis zwischen Zahl der Bewerber und freien Stellen starken Schwankungen unterliegen. Burisch (1984) hat die vorgenannten 3 Arten von Validierungen anhand der nachfolgenden Graphiken veranschaulicht (. Abb. 2.31). Als Unterformen der kriteriumsbezogenen Validität lassen sich wiederum die konkurrente (gleichzeitige) und die prädiktive Gültigkeit voneinander unterscheiden. Die erste ist dann gegeben, wenn Test- und Kriteriumswerte nahezu gleichzeitig erhoben werden, die zweite liegt dann vor, wenn zu einem Zeitpunkt t1 die Testscores und zu einem späteren Zeitpunkt t2 die Punktwerte im Kriterium erhoben werden. Bestehen signifikante Korrelationen, so sprechen wir bei konkurrenter oder auch Übereinstimmungsvalidität davon, dass sich die Varianz des Kriteriums (als deskriptives Konstrukt) auf die Varianz der Testwerte zurückführen oder durch sie (als explikatives Konstrukt) auf- bzw. erklären lässt. Häufig hängt es allerdings nur von der Perspektive des Betrachters ab, in welcher Rolle jedes der beiden miteinander verglichenen Konstrukte gehandhabt wird, denn ebensogut wie man den schulischen Erfolg auf Intelligenz zurückführen kann, ist es möglich, Intelligenz mit der schulischen Leistung zu erklären usw. (»Henne-EiProblem«). Kapitel 2 · Grundlagen diagnostischer Verfahren »Quasikriterien« 154 Deshalb kommt der prädiktiven Validität ein höherer Stellenwert zu: Nach den Regeln unserer Logik kann nur zeitlich Früheres ursächlich verantwortlich sein für zeitlich Späteres und damit dieses erklären (sofern der Einfluss von Drittvariablen ausgeschlossen ist). Es spricht deshalb besonders nachhaltig für die Brauchbarkeit eines Tests, wenn etwa dessen heute ermittelten Punktwerte den Ausbildungs- oder Berufserfolg in 10 Jahren präzise vorherzusagen erlauben, das Instrument somit eine hohe prädiktive Validität aufweist. Wegen der im Vorhersageintervall auf die Probanden einwirkenden sehr verschiedenen und schwerlich kontrollierbaren Bedingungen liegen die Koeffizienten für die prädiktive Validität in aller Regel deutlich unter denen der konkurrenten Validität. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Stellenwert der prädiktiven Gültigkeit aufgrund der Brauchbarkeit von Vorhersagen . Abb. 2.31. Verschiedene Arten von Validierungen. (Aus Burisch, 1984) 155 2 156 rtc ⋅ Sx sx 2 2 rtc ⋅ Sx 2 1-rtc + 2 sx (2.83) Rtc = auf die größere (repräsentative) Streuung von Sx aufgewerteter Validitätskoeffizient, rtc = beobachteter Validitätskoeffizient, sx = beobachtete Messwertestreuung, Sx = angenommene Messwertestreuung. R tc = Validität bei eingeschränkter Variabilität Für Auslese- und Platzierungsentscheidungen auf der Basis von psychodiagnostischen Informationen bedarf es vorheriger längsschnittlicher Erhebungen. Damit wird der Fehlermöglichkeit vorgebeugt, wonach beispielsweise das Ausüben einer beruflichen Tätigkeit auch Auswirkungen auf das Lösen von Testaufgaben hat, etwa weil dabei Fertigkeiten vermittelt oder geübt werden, die bei der Bearbeitung des Tests dienlich sind. Dadurch aber würden die Testleistungen einseitig erhöht, ohne dass damit eine äquivalente Mehrleistung im Kriterium einherginge. Dies hätte die Folge, dass der Testwert für die Trennung voraussichtlich erfolgreicher und erfolgloser Bewerber falsch festgelegt wird. Diese Fehlerquellen werden vermieden, wenn zunächst die Prädiktorenscores erhoben, dann die (unter optimalen Bedingungen: alle getesteten) Probanden zum jeweiligen »treatment« (Behandlung, Schulung, Berufstätigkeit usw.) zugelassen und schließlich deren Erfolgsraten registriert werden. Der Rekurs auf die dabei gewonnenen Erkenntnisse (die Höhe des Validitätskoeffizienten, Quoten von Erfolg und Misserfolg usw.) bei zukünftig anstehenden Entscheidungen setzt somit die Konstanz aller Rahmenbedingungen voraus. Das heißt, es muss unterstellt werden, dass die sich später meldenden Bewerber auch repräsentativ sind für die seinerzeitige Forschungs- oder Begleituntersuchung und alle zwischen Testung und Erhebung der Kriteriumswerte auftretenden sozialen, ökonomischen und ökologischen Faktoren auch später dieselben sein werden – sicher weithin eine Fiktion. Da es aus verschiedenen Gründen nur selten möglich ist, alle Bewerber einzustellen, muss eine Selektion erfolgen. Für diese wird mitunter bereits auf den Test zurückgegriffen, dessen längsschnittliche Validität erst erprobt werden soll, etwa deshalb, weil man auf dessen Validität bereits vertraut, und zwar in der Art und Weise, dass die Leistungsschwächsten nicht zugelassen werden. In der Prädiktordimension (und weniger stark auch in der Kriteriumsvariablen) kommt es dadurch zu einer Einengung der Variabilität, d. h. für die Validitätsprüfung steht nicht mehr die gesamte Streubreite der Messwerte zur Verfügung, mit der Folge einer Minderung des Validitätskoeffizienten (. Abb. 2.32). Es sind deshalb Formeln entwickelt worden, um den bei restringierter Streuung im Prädiktor empirisch ermittelten Validitätskoeffizienten auf repräsentative Breite aufzuwerten: Exkurs Kapitel 2 · Grundlagen diagnostischer Verfahren Als Voraussetzung gilt die Annahme, dass die Standardschätzfehler und die Steigung der Regressionsgeraden gleich sind. Analoge Formeln liegen auch für jene Fälle vor, in denen nur die Kriteriumsvarianz eingeschränkt ist (wenn etwa die ungeeigneten Personen durch Entlassung oder Umsetzung für die Validitätsprüfung nicht mehr zur Verfügung stehen) oder sofern die Selektion und die damit einhergehende Varianzeinschränkung anhand eines bereits validitätserprobten Tests stattfanden, mit dem das neuentwickelte Verfahren der ausgelesenen Stichprobe korreliert (s. dazu Lienert, 1989, S. 304–309). Noch komplizierter sind diejenigen Fälle, in denen die »eigentliche« Validität für einen neuen Test ermittelt werden soll, der mit bewährten Skalen korreliert, anhand derer eine Selektion, gestaffelt nach der Höhe der Prädiktionsscores, vorgenommen R tc = .50 ⋅10 5 .502 ⋅102 1− .502 + 52 1 1 1 = .76. = = = 25 1.75 1.32 .75 + 25 Ein neuentwickelter Test hätte in der Normierungsstichprobe eine Streuung von Sx = 10 aufgewiesen. In der Validierungsgruppe habe sich nur ein Wert von sx = 5 gezeigt; die Validität sei mit rtc = .50 errechnet worden. Wie hoch wäre die Validität ausgefallen, wenn die gesamte Prädiktor-Streuung vorgelegen hätte? Beispiel 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Weitere mögliche Varianzeinschränkungen . Abb. 2.32. Korrelationshöhe in Abhängigkeit von der Homogenität der Probandenstichprobe. Selegiert man nur die im Test höher als der Durchschnitt scorenden Personen, wird die Korrelationsellipse der dann homogeneren Stichprobe runder als sie in der unausgelesenen Stichprobe ist. Wegen der hier angenommenen recht hohen Korrelation zwischen Test und Kriterium bedeutet die Selektion nach dem Prädiktor zugleich auch eine solche im Kriterium. (Aus Amelang & Bartussek, 1990, S. 103) 157 2 Kennwerte zur Konstruktvalidität existieren nicht Validierung als Prozess Die Theorie zur Introversions-Extraversions-Dimension von Eysenck (1957) beinhaltet im wesentlichen die Vorstellung, dass alle zentralnervösen Prozesse durch ein genetisches, interindividuell unterschiedliches Verhältnis von nervösen Erregungszu Hemmungsprozessen gekennzeichnet sind. Extravertierte sind nach Eysenck dadurch gekennzeichnet, dass sie zur Ausbildung nur schwacher exzitatorischer Potentiale, aber schnell aufgebauter, intensiver und langsam abklingender inhibitorischer Prozesse neigen. Introvertierte sollen umgekehrt starke exzitatorische Potentiale, aber nur langsam einsetzende, schwache Inhibitionsprozesse aufweisen. Als neurophysiologisches Korrelat der »excitation-inhibition-balance« wird die Erregungsschwelle des aufsteigenden retikulären Aktivierungssystems (ARAS) gesehen, und zwar mit einer bei Introvertierten leichteren, bei Extravertierten erschwerten Affizierbarkeit. Für eine Skala, die auf das besagte Erregungs-Hemmungs-Gleichgewicht abhebt, resultieren daraus u. a. die folgenden Vorhersagen: 4 Bei Applikation von sedierenden Psychopharmaka müssten Extravertierte eher Leistungseinbußen erkennen lassen als Introvertierte; umgekehrt sollten stimu6 Beispiel 3. Konstruktvalidität. Gleichsam eine Synthese aus inhaltlicher und kriteriumsbezogener Validität stellt die Konstruktvalidität dar. Darüber hinausgehend wird unter diesem Begriff die Einbettung des mit einem Test erfassten Konstruktes in das nomologische Netzwerk anderer, und zwar teils inhaltlich ähnlicher und teils völlig »artfremder« Konstrukte verstanden. Auf diese Weise fällt die Perspektive zumindest vom Anspruch her sehr viel breiter aus als bei den üblichen Validitätsuntersuchungen. Ferner gehört zu dem Bedeutungsgehalt des Begriffes die Vorstellung von einem andauernden Prozess: Weniger die Validität als ein gewissermaßen fertiges »Produkt«, sondern mehr die Validierung als Vorgang, dessen Abschluss offen steht, ist damit gemeint. Wie die erwähnte Einbettung im Einzelnen zu erfolgen hat, dafür existieren keine Handlungsanweisungen. Im Allgemeinen wird der postulierte Validierungsprozess darauf hinauslaufen, aus dem gewählten Konstrukt eine möglichst große Zahl verschiedener Hypothesen zum Verhalten von Personen mit unterschiedlichen Testscores auf der fraglichen Dimension abzuleiten. In mehreren gesonderten Schritten kommt es sodann darauf an, diese Hypothesen empirisch und/oder experimentell zu überprüfen. Dabei ist es wünschenswert, ein möglichst breites Spektrum von Verhaltensbereichen abzudecken und tunlichst verschiedene Analysemethoden anzuwenden, wie Mittelwertsprüfungen, Cluster- und Faktorenanalysen usw. Die Gesamtheit der erhaltenen Resultate steht dann für die Konstruktvalidität des Tests. Kennwerte, die dieses facettenreiche Bild in einem quantitativen Ausdruck zusammenfassen, existieren nicht. wurde. Diese Konstellation lag vor bei der Erprobung des Tests für Medizinische Studiengänge (TMS). Die Zulassung erfolgte nach Maßgabe der Schulnoten, und zwar derart, dass die Zulassungschance von Note zu Note multiplikativ anstieg. Demgemäß ist die Stichprobe der Zugelassenen in Form und Breite der Prädiktionswerteverteilung »verschoben«. Bartussek et al. (1986) haben die notwendigen Entzerrungen modellhaft vorgenommen und eine prädiktive Validität des TMS für die Examenszwischennote von rtc=.45 errechnet. Kapitel 2 · Grundlagen diagnostischer Verfahren Einbettung des Konstrukts in andere Konstrukte 158 Der geschilderte Variantenreichtum von Ansätzen, Methoden und Analysen einerseits, die Beliebigkeit der Vorgehensweise und die Kombination von Elementen andererseits, hat die Konstruktvalidität dem Vorwurf ausgesetzt, es fehle ihr an methodischer Stringenz, und auch zur präzisen Elaboration der Konstrukte (Pervin, 1981, S. 147) leiste sie keinen eigenständigen Beitrag. In der Tat trifft zu, dass die Konstruktvalidierung nicht über ein spezifisches Arsenal an Methoden oder Analysetechniken verfügt, sondern als Ober- und Sammelbegriff die bekannten Validitätsarten nur konstruktzentriert bündelt. Als ein besonderes Instrument der Zusammenführung von Validitätsklassen kann hier allerdings die sog. Multitrait-Multimethod-Analyse (Campbell & Fiske, 1959) rubriziert werden, bei der es sich um ein vergleichsweise sophistiziertes Validierungskonzept handelt. Ihr Grundgedanke besteht darin, dass die Ergebnisse allen wissenschaftlichen Messens auch von der gewählten Methode abhängen. Jedes Konstrukt ist nicht »an sich« beobachtbar oder aufzeigbar, sondern zumindest teilweise eine Resultante der vorgenommenen Operationalisierungen zu deren Erfassung. Von daher besteht ein wichtiges Anliegen darin, den spezifischen Anteil, den die jeweilige Operationalisierung oder Methode an der beobachtbaren Variation erzeugt, aus der Konfundierung Konstrukt plus Methode herauszulösen und »sichtbar« zu machen. Dazu sind mindestens die Kombinationen von 2 Konstrukten mit 2 Methoden (z. B. ein Test und dazugehörige Fremdeinschätzungen) erforderlich. Die angestrebte Trennung gelingt dann am besten, wenn Konstrukte und Methoden voneinander stark divergieren. Das Zu all diesen und vielen weiteren theoriegeleiteten Hypothesen liegen bestätigende Befunde vor. Ungeachtet einiger Inkonsistenzen (s. Amelang & Bartussek, 1990, S. 321–331) ist dadurch die Konstruktvalidität der E-I-Skala in einer außerordentlich umfassenden Weise abgeklärt. Daneben werden ständig weitere Arbeiten durchgeführt, als deren Folge sich u. a. auch Differenzierungen und Modifikationen der zugrundeliegenden theoretischen Vorstellungen ergeben. 4 4 4 4 lierende Substanzen bei Extravertierten größere Leitungszuwächse produzieren als bei Introvertierten. In fortlaufenden einfachen motorischen Handlungen mit Wiederholungscharakter sind eher Anzeichen von »Ermüdung« (Hemmung) bei den Extravertierten als bei den Introvertierten zu erwarten. Die Schmerzresistenz ist bei Extravertierten höher als bei Introvertierten. Zu prognostizieren ist bei Extravertierten auch ein stärkerer Reminiszenzeffekt, ein höherer α-Anteil im Ruhe-EEG und ein geringeres Langzeitgedächtnis. Im Sozialverhalten sind auf seiten der Extravertierten höhere Kriminalitäts- und Scheidungsraten zu erwarten, des Weiteren eine Neigung zu Drogen im weitesten Sinne (Alkohol, Nikotin), Einstellungen mehr im Sinne von »tough-mindedness« und weniger in Richtung von »tender-mindedness«. Eine Erregung des limbischen Systems, das als neurophysiologische Grundlage von Neurotizismus angenommen wird, führt vorliegenden Anhaltspunkten zufolge zu retikulärem Arousal, also einer nervösen »Feuerung« (aber umgekehrt führt retikuläres Arousal nicht zu limbischer Aktivation). Aus diesem Grunde ist eine geringe Korrelation der Neurotizismus- mit Introversionsscores wahrscheinlich. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung Multitrait-Multimethod-Analyse 159 2 2 160 .57ss .00 –.25ss HN E N .02 .05 Gesellig Ängstlich 6 .24ss Vertrauensvoll Methode 2 .84 .57ss IT27 SRT Methode 1 IT27 –.04 .26 .42ss –.16 .28s .41ss .70 SRT Methode 1 .11 .00 .22ss –.02 .17 .73 HN –.18 .34ss .04 –.15 .83 E .41ss –.03 .18 .85 N .10 .40ss .69ss Vertrauensvoll –.12 .67ss Gesellig Methode 2 .42ss Ängstlich . Tabelle 2.20. Multitrait-Multimethod-Matrix mit den Methoden 1 (Fragebogen) und 2 (gemittelte Fremdeinschätzung) sowie den Konstrukten Vertrauen (erfasst mit den Skalen IT27, SRT und HN) sowie Extraversion und Neurotizismus. (Nach Amelang et al., 1984, S. 210) Bei der Erprobung einer neuen Skala für zwischenmenschliches Vertrauen bearbeiteten 101 Erwachsene beiderlei Geschlechts u. a. 3 Fragebogentests zum Konstrukt Vertrauen, und zwar eine deutschsprachige Adaptation der auf Rotter zurückgehenden Interpersonal Trust Scale sowie die Skalen Self Reported Trust (SRT) von Constantinople (1970) und Trust aus den Philosophies of Human Nature (HN) von Wrightsman (1974). Als diskriminante Konstrukte dienten Extraversion und Neurotizismus, erfasst mit Hilfe des Eysenck-Personality-Inventory. Als alternativer methodischer Zugang zu diesen Fragebogen standen Fremdeinschätzungen von jeweils 2 Bekannten oder Freunden auf konstruktadäquaten Eigenschaftsdimensionen zur Verfügung. Die Resultate sind ausschnitthaft in . Tab. 2.20 zusammengestellt. Beispiel zentrale Prinzip besteht darin, die 4 Messwertreihen an einer Stichprobe von Personen zu erheben und Korrelationen zu analysieren. Die verschiedenen Methoden zu einem Konstrukt sollten miteinander hoch, die mit ein und derselben Methode erfassten Konstrukte jedoch niedrig miteinander interkorrelieren (konvergente bzw. diskriminante Validität), d. h. auch bei identischer Methode sollten sich unähnliche Konstrukte als relativ unabhängig erweisen. Nachfolgend wird ein empirisches Beispiel dazu gegeben. Eingehender sind die Prinzipien der Multitrait-Multimethod-Analyse von Ostendorf et al. (1986) dargestellt und anhand von Erhebungen an N = 641 Probanden mit der deutschsprachigen Form der Personality Research Form exemplifiziert worden. Kapitel 2 · Grundlagen diagnostischer Verfahren Nebengütekriterien Über die relative Wichtigkeit der Nebengütekriterien zueinander (und auch zu den Hauptgütekriterien) mögen die Meinungen auseinandergehen. Es gibt keine Anhaltspunkte für eine unter allen Gesichtspunkten objektive Entscheidung. Für die nachfolgende Darstellung sollen 2 Kriterien herausgegriffen werden, von denen das eine relativ »testnah« ist, insofern es die Einordnung der ermittelten Testscores in das Verhalten anderer Testteilnehmer betrifft, das andere mehr »entscheidungsnah«, weil die aus den Testdaten abzuleitenden Konsequenzen im Vordergrund stehen. 2.3.2 Insgesamt können damit die Forderungen von Campbell und Fiske (1959) für die Validierung der Vertrauensskala als erfüllt gelten. Dimensionen finden sich im linken unteren Drittel und sind durch Schattierung besonders hervorgehoben. Alle Werte sind mindestens auf dem 5%-Niveau signifikant. Das arithmetische Mittel beträgt r-tc = .35. Mit dem Nachweis dieser signifikanten (konvergenten) Validitäten ist die erste Forderung erfüllt. 4 Eine zweite Forderung geht dahin, dass die eben dargestellten Kombinationen höhere Koeffizienten aufweisen als die »nichthomologen« Paarungen von Testund Fremdeinschätzungsskalen. In der Tat beträgt deren arithmetisches Mittel nur r- = .10 (ohne Berücksichtigung des Vorzeichens), was die diskriminante Validität belegt. 4 Die dritte Forderung bezieht sich auf das Multitrait-Monomethod-Dreieck und läuft auf höhere Korrelation innerhalb ein und desselben Traits (bei Konstanz der Methode) als zwischen den Traits hinaus. Das betrifft im vorliegenden Material nur die linke obere Matrix. Das Mittel der eingerandeten Koeffizienten beträgt r- = .51, dasjenige der restlichen Werte außerhalb der Reliabilitätsdiagnonalen nur r- = .15. Auch hier findet sich also ein wesentlicher Unterschied zwischen konvergenter und diskriminanter Validität. 4 Eine vierte Forderung verlangt schließlich identische Zusammenhänge zwischen den Traits unabhängig von der Messmethode (Äquivalenz der divergenten Validitäten). Während sich für die Fragebogen ein Zusammenhang zwischen den 3 Vertrauensskalen und Extraversion von durchschnittlich r- = .15 errechnet, beträgt der eine Koeffizient für die Kombination der Fremdeinschätzungen vertrauensvoll/gesellig r = .40; das stellt keine gute Übereinstimmung dar. Wesentlich günstiger sieht es aber für Neurotizismus aus, wo die entsprechenden Koeffizienten r- = –.14 und r = .10 lauten. Schließlich ist auch der Zusammenhang zwischen E und N mit r = –.15 bzw. r = –.12 durchaus wechselseitig konkordant. 4 Die Koeffizienten für die Kombination von Test mit »zugehörigen« Rating- Von spezifischer Bedeutung für die hier anstehende Analyse sind andere Werte: am höchsten, was als eine Grundtatsache zu erwarten ist. 4 In der Hauptdiagonalen stehen die Reliabilitäten der Skalen. Diese Werte sind In der Matrix gebührt den Diagonalen vorrangige Aufmerksamkeit: 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 161 2 2 Äquivalentnormen: Zuordnung der Scores zum Alter oder zu Reifeabschnitten Bei den Staffeltests, die auf Binet zurückgehen, sind die Aufgaben bekanntlich danach ausgewählt worden, dass sie – darin den Entwicklungstests sehr ähnlich – einen besonders steilen Anstieg der Lösungswahrscheinlichkeiten auf bestimmten Altersstufen aufwiesen. Aufgaben qualifizierten sich dann für die Testendform, wenn sie etwa von einer Altersgruppe in besonderer Häufung, von der darunter liegenden Altersgruppe gar nicht gelöst werden konnten. Die Stelle auf dem Alterskontinuum, an der diese Gegebenheiten vorlagen, entschied über die Zuordnung von Aufgaben zu Altersgruppen. Pro Altersstufe gab es 5 Aufgaben, die zusammen 1 Jahr oder 12 Monate Intelligenzalter (IA) definierten. Pro richtig gelöstem Item entsprach das mithin 12/5 IA oder 2,4 Monatsäquivalenten. Wenn ein Proband im Lebensalter (LA) von 8 Jahren (= 96 Monaten) die für seine Altersgruppe vorgesehenen Aufgaben (und auch diejenigen für die darunterliegenden Altersgruppen) richtig beantwortete, entsprach das einem individuellen IA von 96 Monaten oder 8 Jahren. Jede weitere richtige Lösung, gleich auf welcher Altersstufe, würde ein Mehr in Einheiten von 2,4 Monatsäquivalenten bedeuten. Hätte der Proband hingegen nur Aufgaben für die 6jährigen (= 72 Monate) plus 2 weitere aus dem Pool der 7jährigen geschafft, wäre das gleichbedeutend mit einem IA = 72 + (2 × 2,4) = 76,8 gewesen. Aus dem Vergleich des individuellen IA mit dem LA geht hervor, ob die Intelligenz »altersgemäß« ausgeprägt ist oder nicht. Beispiel Bei der Bildung von Äquivalentnormen erfolgt eine Zuordnung der jeweiligen Rohwerte oder Skalenscores zu bestimmten Zeitabschnitten, für die die betreffende Leistung besonders typisch ist, und zwar deshalb, weil sie von einer Referenzgruppe in besonderer Häufung gezeigt wurde. Die Zeitstufe, auf die Bezug genommen wird, stellt bei Intelligenz das Alter, bei Entwicklung der Reifestatus dar (Intelligenz- bzw. Entwicklungsalter). ! Bei diesem Transformationen unterscheidet man 5 Äquivalentnormen, 5 Variabilitäts- oder Abweichungsnormen, 5 Prozentrangnormen. 2.3.2.1 Normierung Die Normierung eines Tests liefert das Bezugssystem, um die individuellen Testscores im Vergleich zu denen einer größeren und meist »repräsentativen« Stichprobe von Testteilnehmern einordnen zu können. Auch wenn eine Skala hochgradig objektiv, reliabel und auch valide sein mag, so interpretieren sich die damit erhaltenen Scores doch nicht »aus sich selbst heraus«. Beispielsweise bedeuten 15 richtige Lösungen etwas Verschiedenes, wenn die Zahl angebotener Aufgaben auch 15 oder aber 30 beträgt, und sie bedeuten etwas völlig Verschiedenes, wenn alle anderen Probanden auch 15 geschafft haben oder aber keiner. Noch in einem anderen Sinne bedeuten die 15 Richtigen etwas anderes, je nachdem, ob von ihnen die Leistung des Probanden oder aber die Schwierigkeit des Tests charakterisiert werden soll. Die Normierung stellt den diesbezüglich erforderlichen Bezugsrahmen zur Verfügung und sagt uns, was die Rohpunktwerte »bedeuten«. Zu diesem Zweck werden die Rohwerte in transformierte Werte überführt, deren Bedeutung durch Rekurs auf bestimmte Operationalisierungen bekannt ist. Kapitel 2 · Grundlagen diagnostischer Verfahren Normierung als Bezugssystem zur Interpretation von Testscores 162 Jedenfalls handelt es sich bei dieser Auflistung um ein Gefüge theoretischer Annahmen von hoher Plausibilität oder um ein Modell, das z. B. in Gestalt des sog. Galton-Brettes das Entstehen von Normalverteilungen bei der zufälligen Kombination vieler Bedingungen (Kugeln, die auf Reihen von Nägeln fallen und unten in Schächten aufgefangen werden) sehr eindrucksvoll vor Augen führt (. Abb. 2.34). Normalverteilungen weisen die Eigenschaften auf, dass 4 der Abstand vom Mittelwert M der Verteilung zu deren Wendepunkt identisch ist mit einer Einheit der Standardabweichung s und 4 die relative Häufigkeit von Messwerten unter den einzelnen Abschnitten der Verteilung, sofern diese in Einheiten der Standardabweichung ausgedrückt werden, stets gleich ist, oder mit anderen Worten: Die Häufigkeit von Maßzahlen steht in direkter Beziehung zu s. Das heißt, immer dann, wenn M und s bekannt sind und feststeht, dass eine »normale« Verteilung vorliegt, kann die gesamte Verteilung aller Messwerthäufigkeiten angegeben werden. So liegen in der Standardnormalverteilung zwischen M und 1s ca. 34% der Maßzahlen, zwischen M und 2s ca. 48% usw. Die Einheit »Intelligenzalter« (oder bei anderen Tests: »Entwicklungsalter«) bildet somit ein Äquivalent für die Zahl richtiger Lösungen, nämlich jener, die von den Angehörigen einer Altersgruppe mehrheitlich gemeistert werden. Wegen der Plausibilität dieses Konzeptes haben derartige Äquivalentnormen verbreitete Akzeptanz gefunden. Weil gleiche numerische Differenzen (IA–LA) etwas ganz Unterschiedliches bedeuten, je nachdem, auf welcher LA-Stufe sie auftreten (z. B. ein Minus von 2 IA-Einheiten bei einem 12jährigen keineswegs als dramatisch erscheint, bei einem 4jährigen dagegen Schwachsinn anzeigen kann), hat Stern (1911) (. Abb. 2.33) vorgeschlagen, IA und LA in einem Quotienten aufeinander zu beziehen, dem Intelligenzquotienten, und den Bruch zur Gewährleistung ganzer Zahlen mit dem Faktor 100 zu multiplizieren: IQ = (IA/LA) · 100. Damit sollte eine Vergleichbarkeit von Leistungsvorsprüngen bzw. -rückständen über verschiedene Altersstufen erreicht werden [so besteht für einen Probanden, der als 4jähriger ein IA von 3 aufweist (IQ = 3/4 · 100 = 75), als 8jähriger ein IA von 6 erzielt (IQ = 6/8 · 100 = 75) usw. damit eine Konstanz des IQ in seiner Bedeutung als Vergleichsmaßstab zu Altersgleichen]. Gebunden ist dies an die Voraussetzung, dass mit zunehmendem Alter die Streuung der IA-Einheiten proportional zunimmt, was weithin zutraf. Ungeachtet der Gleichheit der Zahlen bedeuten aber psychologisch die beiden IQs etwas ganz Verschiedenes, und zwar deshalb, weil unterschiedliche absolute Leistungen in IA-Einheiten eingehen. Darüber hinaus ist die Bildung eines derartigen Quotienten nur legitim bei strikt linearem Anstieg der Leistungen über das Alter hinweg. Die meisten der vorliegenden Untersuchungen haben demgegenüber einen negativ beschleunigten Entwicklungsverlauf gefunden, mit einem Kulminationspunkt im frühen Erwachsenenalter. Gerade wegen des Abflachens der Leistungszuwächse mit zunehmendem Alter in der Jugendzeit war es unmöglich, das Konzept der Äquivalentnormen auch auf spätere Altersgruppen anzuwenden. Variabilitäts- oder Abweichungsnormen kennen die zuletzt genannten Probleme nicht, setzen dafür aber ein gewisses Verständnis für die Beschreibung von Häufigkeitsverteilungen voraus, in denen die Messwerte entweder im Sinne der Gaußschen Glockenkurve normal oder auch nicht normal verteilt sind. Normalverteilungen kommen dann zustande, wenn an der Hervorbringung einer Merkmalsausprägung 4 eine Vielzahl verschiedener Wirkfaktoren beteiligt ist, 4 diese Faktoren unabhängig voneinander ihren Einfluß entfalten und 4 sich die verschiedenen Wirkungen zu der Merkmalsausprägung addieren. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Eigenschaften von Normalverteilungen Kennzeichen von Normalverteilungen Variabilitäts- oder Abweichungsnormen: Bezug zu Häufigkeitsverteilungen Der Intelligenzquotient als Äquivalentnorm . Abb. 2.33. William Stern führte 1911 das Konzept des Intelligenzquotienten ein 163 2 Konstante Multiplikatoren und Polungen bei Standardskalen Transformation in z-Werte Standardnormalverteilung: M = 0 und s =1 (2.84) Durch diesen Rekurs auf die Standardnormalverteilung sind die Rohwerte in sog. Standardnormen transformiert worden. Jeder z-Wert ist eindeutig dadurch definiert, wie weit der zugehörige Rohwert vom Mittelwert der originalen Maßzahlen entfernt ist (. Abb. 2.35). Zur Vermeidung von negativen Vorzeichen und gebrochenen Zahlen ist es üblich, die z-Werte mit einem Faktor zu multiplizieren und eine additive Konstante hinzuzufügen. Am weitesten verbreitet ist die Konstante 100. Was den Multiplikator angeht, so sind dafür ganz unterschiedliche Größen gewählt worden. Wechsler entschied sich bei der Vorstellung seines »Abweichungs-Intelligenz-Quotienten« für den Faktor 15, und zwar deshalb, weil die Standardabweichung der IQs als Bruch von IA und LA empirisch einen Wert von ca. 15 ergeben hatte und zwischenzeitlich eine allgemeine Vertrautheit damit eingetreten war. Andere Autoren gaben sehr viel kleineren Werten den Vorzug. Beispielsweise beträgt der Multiplikator im Leistungsprüfsystem (LPS) von Horn (1983) nur 2. Maßgeblich dafür war u. a. die Überlegung, dass höhere Multiplikatoren die Gefahr beinhalten könnten, eine Differenzierung vorzuspiegeln, die mit Blick auf die nicht absolute Reliabilität keine Rechtfertigung findet. X-M =z sx Die sog. Standardnormalverteilung ist durch M = 0 und s = 1 erschöpfend beschrieben. Die Verteilungen von Merkmalen, wie Körpergröße oder Körpergewicht, politischen Einstellungen auf einem globalen Links-Rechts-Kontinuum usw., mögen je nach Art des gegebenen Abszissenmaßstabes verschieden breit bzw. schmal erscheinen. Man erhält jedoch häufig ein und dasselbe charakteristische Aussehen, d. h. denselben Verlauf der Häufigkeiten, wenn als Abszissenmaßstab die empirisch ermittelte Standardabweichung der jeweiligen Verteilung gewählt wird. Das geschieht, indem die Abweichung jedes einzelnen Messwertes X vom Mittelwert M der Verteilung in Einheiten der jeweiligen Streuung sx, also in Standardwerten (z-Werte) ausgedrückt wird: Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.34. Nagelbrett zur Veranschaulichung einer Normalverteilung (Aus Bortz, 1997) 164 0 100 100 50 5 5 5,5 z- Werte IQ Z-Werte T-Werte Centile Stanine Stene 1 15 10 10 2 2 2 Standardabweichung –2 bis +2 70-130 80-120 30-70 1-9 1-9c 1-10 Bereich HAWIE/HAWIK IST-Amthauer MMPIa PSBb FPId 16PFf Beispiel b MMPI Minnesota Multiphasic Personality Inventory (7 Abschn. 3.2.3). PSB Prüfsystem für Schul- und Bildungsberatung (Horn, 1969). c Dieser Bereich definiert die Skala als »standard-nine«; im Unterschied zu den anderen Normskalen sind hier keine noch extremeren Werte möglich. d Freiburger Persönlichkeits-Inventar. e Von Standart-ten. f 16 PF 16 Personality Factors (7 Abschn. 3.2.3). a Mittelwert Skala . Tabelle 2.21. Einige gebräuchliche Normenmaßstäbe. (Unter »Bereich« ist die Spanne von ±2 Standardabweichungen angegeben.) Beispiel Üblicherweise erfolgt die Polung in der Richtung, dass höheren Normwerten auch höhere Leistungen entsprechen. Diese Regel aber fand keine Anwendung im Begabungstestsystem (BTS) von Horn (1972), das in Analogie zu den Schulnoten auf M = 3,0 und s = 1,0, aber mit negativen Vorzeichen normiert wurde, hohe Testleistungen also zu niedrigen Normwerten führen und umgekehrt. Einige gebräuchliche Normenmaßstäbe werden in . Tab. 2.21 aufgeführt. Da sich alle Standardskalen leicht ineinander überführen lassen, darf zu Recht die Frage gestellt werden, ob nicht einem der Normierungsmaßstäbe eine allgemeine Leitfunktion beigemessen werden sollte. Immer dann, wenn die Messwerte nicht normalverteilt sind, verbietet sich die Transformation in Standardnormen, und zwar deshalb, weil die dafür notwendigen Voraussetzungen nicht erfüllt sind. Statt dessen werden derartige Verteilungen nach 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 . Abb. 2.35. Relative Häufigkeiten von z- sowie IQ-Werten unter den einzelnen Abschnitten der Normalverteilung 165 2 Repräsentativität der Normierungs- oder Eichstichprobe Gleiche Abstände haben u. U. verschiedene Bedeutungen Prozentränge benötigen keine Voraussetzungen Prozentrangnormen: Relative Position auf der Rangreihe der Bezugsgruppe cumf ⋅100 N 13 4 84 14 1 85 (2.85) Der große Vorzug von Prozenträngen besteht in ihrer Voraussetzungslosigkeit, was die Verteilungsform der Messwerte angeht, und in ihrer leichten Verständlichkeit: Jedermann kann sich ganz unschwer vorstellen, dass einem PR von beispielsweise 90 die Tatsache entspricht, dass nur 10% der vergleichbaren Probanden einen noch höheren Messwert erreichen. Andererseits muss bei Prozenträngen in Rechnung gestellt werden, dass numerisch gleiche Differenzen in der PR-Skala in Abhängigkeit vom Abschnitt der Messwerteverteilung ganz unterschiedlichen Differenzen in Standardwertnormen entsprechen. Der Abstand beispielsweise zwischen PR 5 und 15 ist numerisch identisch mit demjenigen zwischen 50 und 60. Dies bedeutet in der Verteilung mit M = 9,76 und s = 1,63 (7 Beispiel) im ersten Fall jedoch eine Z-Werte-Differenz von 5 (nämlich von Z = 85 bis Z = 90), im zweiten von 2,5 (nämlich von Z = 100 bis Z = 102,5) Punkten. Was die empirischen Daten angeht, die für jede Normierung unerlässlich sind, so ist eine repräsentative Zusammenstellung der Normierungs- oder Eichstichprobe un- Der Prozentrang für die Maßzahl 8 beträgt: PR = cumf/N · 100 = 17/85 · 100 = 20 X = M = 9,76, s = 1,63. In einem Experiment hätten sich folgende Häufigkeiten ergeben: Maßzahl 5 6 7 8 9 10 11 12 f 1 0 6 10 19 24 14 6 cumf 1 1 7 17 36 60 74 80 Beispiel PR = Prozentrang, f = Häufigkeit von Messwerten innerhalb einer Klasse, cumf = kumulierte Häufigkeit der Messwerte bis zur Klassengrenze, N = Gesamtzahl aller Probanden. PR = Maßgabe der relativen Maßzahlhäufigkeiten (= »Fläche«) in einzelne Abschnitte aufgeteilt und diesen Segmenten oder Transformationen Standardnormäquivalente zugeordnet. Ob eine Normalverteilung der Messwerte vorliegt oder nicht: Weder in dem einen noch dem anderen Fall kann daraus auf die Verteilungsform des Konstruktes »an sich« geschlossen werden, da sich in den Maßzahlen auch stets die spezifischen Operationalisierungen zur Erfassung der Merkmalsdimension niederschlagen und insofern der Untersuchungsgegenstand stets auch von der Methode abhängt, die zu seiner Beschreibung herangezogen wird. Bei Prozenträngen (PR) handelt es sich um eine weitere Normierung, bei der die Transformation darin besteht, dass den Maßzahlen die relative Position auf der nach Größe ranggereihten Messwerteskala der Bezugsgruppe zugeordnet wird: Kapitel 2 · Grundlagen diagnostischer Verfahren Alternative: Zuordnung von Standardnormäquivalenten 166 Testfairness Die gesellschaftspolitischen Bewegungen und gesetzgeberischen Initiativen, wie sie in dem soeben angeführten Zitat exemplarisch geschildert werden, haben auch in der testpsychologischen Fachliteratur zu einer intensiven Diskussion über »Testfairness«, »Testbias« und »Fairness der Auslese« Anlass gegeben (. Abb. 2.36). Als Ergebnis dieser Kontroverse liegen seit Ende der 60er Jahre ganz unterschiedliche Vorstellungen darüber vor, was im Einzelnen unter einer fairen Selektionsstrategie zu verstehen ist. Ein Vergleich der verschiedenen Definitionen von Fairness lässt jedoch erkennen, dass diese nicht primär fachwissenschaftliche, sondern spezifisch politische Wertvorstellungen implizieren. Je nachdem, welche gesellschaftspolitischen Ziele im Einzelfall handlungsbestimmend sind, bedeutet das eine Entscheidung zugunsten ganz bestimmter und zu Lasten anderer Fairnessmodelle. Weil sich die zugrundeliegenden Wertvorstellungen wechselseitig ausschließen, handelt es sich bei Fairness nicht um eine technische Qualität, die einem Instrument zu eigen ist oder nicht. Es gibt nicht den fairen Test oder das faire Selektionsverfahren, sondern nur Fairness im Hinblick auf Handlungs- und Entscheidungsaspekte (die expliziert werden müssen). In dem Maße, in dem sich die angestrebten Ziele voneinander unterscheiden, kann ein und dasselbe Testinstrumentarium als mehr oder weniger fair angesehen werden. »Murphy Archibald, 30, ein Vietnam-Heimkehrer aus Alabama, hatte sich, wie er meinte, durch gute akademische Leistungen die Aufnahme in ein Stipendium an der Vilanova-Universität verdient. Doch als er an der Universität auftauchte, befand sich seine Akte unter »Minoritäten-Bewerber« mit einem b wie »black« darauf. Als die Sachbearbeiter erkannten, dass der Mann aus Alabama nicht schwarz, sondern weiß war, wurde ihm das Stipendium entzogen. Ex-Stipendiat Archibald verdankt sein Scheitern der guten Absicht der Bürgerrechtsbewegung des Präsidenten Johnson: Der Civil-RightsAct von 1964 verbietet in Absatz 7 jedwede Benachteiligung amerikanischer Bürger aufgrund von Rasse, Geschlecht, Hautfarbe, Religion oder nationaler Herkunft.« (Der Spiegel, 1975, Nr. 7, S. 93) 2.3.2.2 erlässlich; nur dann macht es Sinn, einzelne Messwertträger mit ihrem Punktwert auf den durch die Population definierten Hintergrund zu beziehen. Sinnvoll und aussagekräftig sind neben einer Aufgliederung in Altersgruppen bei Leistungstests auch gesonderte Normen für verschiedene Schultypen. Ein Z-Wert von 110 bedeutet zwar für die Gesamtheit aller Probanden ein leicht überdurchschnittliches Niveau (= Prozentrang 84), doch in Bezug auf Oberschüler nur eine durchschnittliche Leistung und im Vergleich zu den erfolgreichen Examinanden eines Studienganges vermutlich weniger als den Durchschnitt. In Persönlichkeitstests finden sich häufiger auch geschlechterspezifische Normen. Wenn beispielsweise bekannt ist, dass Frauen im Mittel ängstlicher sind als Männer, könnte es leicht zu falschen Schlüssen führen, den Ängstlichkeitsscore einer weiblichen Probandin am Durchschnitt aller Merkmalsträger zu relativieren. Eine weitere Forderung geht dahin, dass die Normdaten aktueller Herkunft sein sollen. Die Literatur ist voller Beispiele über markante Leistungszuwächse im Laufe der Zeit, teils als Folge allgemein verbesserter Anregungs- und Schulungsbedingungen, teils als Folge spezifischer Ereignisse in Technik, Sport oder Wissenschaft. Diese führen dazu, dass ein und derselbe individuelle Punktwert immer leichter zu erzielen ist. Vor diesem sich änderndem Hintergrund müßten die Verfahren laufend »nachnormiert« werden, doch hapert es an der Einlösung dieser Notwendigkeit ebensooft wie an der Bereitstellung hinreichend repräsentativer Eichstichproben. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Gesellschaftspolitischer Einfluss auf die Definition von Fairness Normdaten sollen aktuell sein 167 2 Schwachstelle: Effizienz des Verfahrens unbeachtet Proportionale Repräsentativität der Stichprobe »nur unter einer Annahme sinnvoll zu sein, die von den Vertretern dieses Modells offenbar implizit gemacht wird, nämlich unter der Annahme, daß die … Gruppen ›in Wirklichkeit‹ gleich leistungsfähig sind (sowohl im Kriterium wie in den durch den Test zu erfassenden Merkmalen) und daß der Test durch fehlerhafte Konstruktion Unterschiede zwischen den Gruppen nur vortäuscht.« (Bartussek, 1982, S. 3) Einer gängigen Position zufolge gilt eine Selektionsmaßnahme dann als fair, wenn sie gewährleistet, dass in der Stichprobe der ausgewählten Bewerber die Proportion der miteinander verglichenen Gruppen dieselbe ist wie in der Bewerberpopulation (= proportionale Repräsentation). Gewöhnlich läuft das auf die Forderung nach Übereinstimmung der Mittelwerte und Standardabweichungen (sowie weiterer Verteilungskennwerte) für Populationssubgruppen hinaus, die als relevant erscheinen (z. B. Geschlechter, soziale Schichten, regionale Herkunft usw.). Die Schwachstellen einer solchen Definition sind sowohl konzeptioneller als auch empirischer Art. Weil nur die Gegebenheiten auf seiten des Vorhersageinstrumentes in die Definition eingehen, bleiben Aussagen über die Effizienz des Verfahrens im Hinblick auf den Erfolg der ausgewählten Bewerber gleichsam ausgeblendet. Unterstellt man andererseits, dass Diagnosen keinen Selbstzweck erfüllen, sondern die Basis für Prognosen wie etwa dem Erfolg in einem Kriterium liefern, scheinen die Forderungen des Modells Das Modell der proportionalen Repräsentation(Quotenmodell, Identitätskonzept) Die nachfolgende Darstellung gilt nur den wichtigsten Fairnessmodellen. Weitere Konzepte und insbesondere eine vertiefende Auseinandersetzung damit finden sich in den Sammeldarstellungen von Jensen (1980), Weiss und Davison (1981) sowie Bartussek (1982). Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.36. Im Hinblick auf inter-ethnische Unterschiede stellt sich das Problem der Fairness von Begutachtung und Entscheidung 168 Der Definition von Cleary (1968) zufolge ist ein Selektionsverfahren dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht. Diese Forderung ist dann erfüllt, wenn die zur Vorhersage des Kriteriums verwendeten gruppenspezifischen Regressionsgeraden miteinander identisch sind, d. h. gleiche Steigungen aufweisen und an derselben Stelle die Ordinate schneiden (Konstante a in der Regressionsgleichung, 7 Abschn. 2.1.1.5, Vorhersage auf der Basis von Testwerten). Für die Prädiktion des Kriteriums Y aus den Testwerten X kann deshalb in einem solchen Fall für alle Messwertträger (ohne Berücksichtigung ihrer Gruppenzugehörigkeit) eine gemeinsame Regressionsgerade angenommen werden, ohne dass dadurch einzelne Probanden je nach ihrer Gruppenzugehörigkeit systematisch bevorzugt oder benachteiligt würden. Das Regressionsmodell (Modell einer fairen Vorhersage) Eben diese Annahme trifft nach den vorliegenden Ergebnissen für gut konstruierte Tests definitiv nicht zu (s. Jensen, 1980, S. 465–515; Weiss & Davison, 1981, S. 697 ff.). Wenngleich hin und wieder Resultate berichtet werden, die näherungsweise in Einklang damit zu stehen scheinen (z. B. Michel, 1977; Trost et al., 1978, 1980), weist die Befundliteratur doch überwiegend eine deutliche Abhängigkeit der Mittelwerte von Leistungs- und Persönlichkeitstests von Gruppierungsgesichtspunkten der genannten Art aus. Die Erfüllung einer radikalen Fassung eines solchen Konzeptes muss somit aus methodischer Sicht fragwürdig erscheinen, weil sie nur zu Lasten der Validität geleistet werden könnte. Die mit systematischen Gruppenunterschieden verbundenen Probleme sind innerhalb der psychologischen Diagnostik für bestimmte Teilgruppen schon frühzeitig berücksichtigt worden; allerdings erfolgt die Beschäftigung damit unter dem Stichwort einer »Normierung« der Testwerte. Namentlich im Leistungsbereich werden i. Allg. individuelle Punktwerte an denjenigen von alters- und/oder geschlechtsgleichen Personen relativiert (vgl. Abweichungsnormen). Dahinter verbirgt sich die Überzeugung, dass es alters- oder geschlechtsabhängige Unterschiede nicht geben »darf« bzw. es unbillig wäre, etwa ältere Personen hinsichtlich ihrer Leistungsfähigkeit mit jüngeren zu vergleichen. Bemerkenswert dabei ist, dass von einer Normierung für die verschiedenen sozioökonomischen Schichten in den allermeisten Fällen abgesehen wird, obwohl gerade im Hinblick darauf die Mittelwertsunterschiede gravierend sind. Ungeachtet solcher Erwägungen kann Fairness kaum hergestellt werden durch Verwendung detaillierter, alle denkbaren Unterscheidungsmerkmale berücksichtigender Normtabellen: So wäre es gewiss unsinnig, beispielsweise einen 50jährigen Alkoholkranken mit einer anspruchs- und verantwortungsvollen Überwachungsaufgabe nur deshalb zu betrauen, weil er innerhalb der Subgruppe altersgleicher Alkoholkranker über hervorragende Leistungen in den einschlägigen Tests verfügt. Vielmehr muss die Entscheidung darüber von dem Umstand abhängig gemacht werden, welches Ausmaß an faktischer Bewährung bei einem gegebenen Testpunktwert zu erwarten ist. Der ausschlaggebende Aspekt liegt somit nicht in der Frage, ob es Unterschiede der Testmittelwerte an sich gibt, sondern ob bestimmte Verfahren zu subgruppenspezifischen Fehleinschätzungen der Kriteriumswerte führen oder nicht (s. Wottawa & Amelang, 1980). Das Identitätskonzept wird deshalb in der psychologischen Literatur nicht ernsthaft vertreten. Vielmehr stehen dort solche Modelle im Mittelpunkt, bei denen der Erfolg im Kriterium eine vorrangige Rolle spielt, wobei dieser in unterschiedlicher Weise auf jenen im Prädiktor bezogen wird. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Fairness bei identischen Regressionsgraden Subgruppenspezifische Fehleinschätzungen der Kriteriumswerte Umgang mit systematischen Gruppenunterschieden 169 2 Auswahl der im Kriterium voraussichtlich Besten Beispiel für Testfairness nach dem Regressionsmodell . Abbildung 2.37 veranschaulicht diese Gegebenheiten am Beispiel von 2 Gruppen und macht zugleich deutlich, dass bei diesem Modell sehr wohl bedeutsame Mittelwertsunterschiede im Prädiktor auftreten mögen, mit denen aber richtungsgleiche Differenzen eines bestimmten Ausmaßes im Kriterium einhergehen müssen. Solche Verhältnisse liegen beispielsweise in dem Untersuchungsmaterial von Simons und Möbus (1976) vor, wo aus einer Stichprobe von N = 310 Schülern des ersten Grundschuljahres N = 58 Arbeiter- und N = 63 Akademikerkinder ausgewählt worden waren. Die Prädiktoren bestanden aus 6 Untertests der Testbatterie Primary Mental Abilities in der deutschsprachigen Adaptation von Kemmler (1967), die Kriterien aus den Schulleistungen in Deutsch und Rechtschreiben. Alle Variablen waren für die Gesamtstichprobe T-normiert (7 Abschn. 2.3.2.1), also auf den Mittelwert 50 und eine Streuung von 10 standardisiert. Im Mittel der Testskalen erzielten die Arbeiterkinder einen Wert von M = 44,9, die Akademikerkinder einen solchen von M = 54,6; im Kriterium lauteten die Mittelwerte M = 48,1 und 54,4. Bei einem Vergleich der Regressionskoeffizienten aus beiden Substichproben wichen die Schätzungen durch die gemeinsamen und die getrennten Regressionen nicht signifikant voneinander ab – womit die Testbatterie für das anstehende Vorhersageproblem gemäß der übernommenen Definition fair war. Eine der vorrangigen Implikationen des regressionsanalytischen Fairnessmodells besteht darin, dass nur die im Kriterium voraussichtlich Besten ausgewählt werden, d. h. der durch den Test vorhergesagte Kriteriumswert bestimmt die Auswahl. Fair ist dieses Vorgehen für jeden einzelnen Probanden deshalb, weil jeder voraussichtlich im Kriterium bessere Bewerber jedem voraussichtlich weniger leistungsfähigen Bewerber vorgezogen wird (Position des »qualified individualism« sensu Hunter & Schmidt, 1976). Ein allgemeines Merkmal dieses Modells besteht darin, dass es wegen der Auswahl am Kriterium die voraussichtliche Erfolgsrate darin maximiert. Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.37. Das regressionsanalytische Fairnesskonzept von Cleary (1968), veranschaulicht am Beispiel von 2 Gruppen A und B: Die Regressionsgrade gyx zur Vorhersage des Kriteriums Y aus den Testwerten X ist in den beiden Gruppen A und B identisch. Sie geht durch – – – die Punkte (XA, YA) und (XB, – YB), also die jeweiligen Schnittpunkte des Prädiktormit dem Kriteriumsmittelwert in beiden Stichproben 170 Thorndike (1971) verlangt von fairen Verfahren, dass das Verhältnis zwischen der Zahl der durch die Testung ausgewählten Bewerber und der Zahl im Kriterium potentiell (d. h. ohne Auswahl!) Erfolgreicher in den miteinander verglichenen Gruppen gleich oder konstant ist. Gemäß der schematischen Darstellung in . Abb. 2.38 bedeutet das die Forderung nach Identität der Proportionen: (RP + FP) : (RP + FN). Beispielsweise wären von 300 erfolgreichen Teilnehmern an einem Ausbildungsprogramm 200 aus der Unterschicht und 100 aus der Oberschicht. Könnten infolge einer bedeutsamen Erweiterung des Trainingsinstituts 600 Bewerber für den nächsten Kurs zugelassen werden, so würden gemäß dieser Konzeption die im Test besten 400 Unterund besten 200 Oberschichtangehörigen akzeptiert. Soll derartigen Anforderungen Genüge geleistet werden, ohne für die Gruppen unterschiedliche Testtrennwerte einzuführen, so bedeutet das in regressionsanalytischer Formulierung eine Parallelverschiebung der Regressionsgeraden, wie es in . Abb. 2.39 veranschaulicht ist. Das Modell ist fair gegenüber den Gruppen A und B, weil der Anteil auszuwählender Bewerber an dem Anteil potentiell Erfolgreicher in jeder Gruppe definiert wird (Position einer Quotendefinition von Fairness). Aus der Abbildung geht hervor, dass – – unter der Annahme, ein Überschreiten von YA bedeute Erfolg – bei Festsetzung des – – Testtrennwertes für Auswahl bzw. Zurückweisung entweder bei XA oder XB, das Verhältnis der selegierten zu den potenziell Erfolgreichen in beiden Gruppen jeweils gleich ist, und zwar im gewählten Beispiel 1,0. Das Cleary-Modell würde eine derartige Konstanz der Quoten nicht gewährleisten, wie ein Blick auf . Abb. 2.37 erkennen lässt: Dort ist zwar das Verhältnis der Ausgewählten zu den Erfolgreichen in den beiden Gruppen gleich 1 (und zwar 50%), doch Das Modell konstanter Verhältnisse (»constant ratio model«) 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Parallelverschiebung der Regressionsgeraden . Abb. 2.38. Die 4 Ergebnisse eines Selektionsverfahrens. RP richtige Positive (Anzahl Ausgewählter, die erfolgreich sind), FP falsche Positive (Anzahl Ausgewählter, die nicht erfolgreich sind), RN richtige Negative (Anzahl Zurückgewiesener, die tatsächlich auch nicht erfolgreich sind), FN falsche Negative (Anzahl Zurückgewiesener, die erfolgreich wären). x+ »cut-off« im Zulassungstest, y+ »cut-off« im Kriterium (schlechtester Kriteriumswert, der noch als Erfolg gilt) 171 2 Fair gegen Selegierte, unfair gegenüber Abgelehnten Nach Cole (1973) ist ein Test fair, wenn der Quotient RP:(RP + FN) in den miteinander verglichenen Gruppen gleich ist (»conditional probability model«). In regressionsanalytischen Terms bedeutet das im Vergleich zum Thorndike-Modell eine noch größere Distanz zwischen den parallelen Regressionsgeraden, wenn ohne gruppenspezifische Testtrennwerte oder Bonus-Malus-System ausgekommen werden soll. (Letzteres findet bekanntlich bei der Verteilung der Studienplätze durch die Zentrale Vergabestelle Anwendung, wo die Bewerber je nach dem Abiturnotendurchschnitt ihres Heimatbundeslandes eine Gut- oder Lastschrift auf ihre individuellen Noten erhalten.) Linn (1973) definiert Fairness durch die Konstanz des Bruches RP : (RP + FP) Weitere Fairnesskonzepte stehen in B den wenigen Testbesten viel mehr potenziell Erfolgreiche im Kriterium gegenüber. Ein Nachteil des Thorndike-Modells besteht darin, dass es im Vergleich zur Konzeption von Cleary die Kriteriumsleistungen insgesamt gegenüber dem erreichbaren Maximum reduziert. Das wird deutlich an Grenzfällen: Wenn beispielsweise jemand – aus Gruppe A den kritischen Trennwert XA knapp verfehlt, so wird er gemäß der getroffenen Vorabfestlegungen zurückgewiesen, und zwar im Unterschied zu einem Bewerber aus B, der denselben »cut-off« knapp überwunden hat, obwohl der erste Proband nach Maßgabe der Regressionsgeraden gyxa einen höheren Erfolg aufgewiesen hätte als B auf der Basis von gyxb. Ein konzeptuelles Problem aller Quotendefinitionen besteht darin, dass die Definition von Fairness, orientiert an Selegierten und potenziell Erfolgreichen, in aller Regel unvereinbar ist mit einer solchen, die auf die Abgewiesenen und potentiell Erfolglosen abhebt, oder mit anderen Worten: Ein Test, der fair ist mit Blick auf die Selegierten, ist unfair gegenüber den Abgelehnten (= logische Inkonsistenz der kriteriumsbezogenen Quotendefinitionen nach Novick & Peterson, 1976). Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.39. Das Fairnessmodell konstanter Verhältnisse von Thorndike (1971) in regressionsanalytischer Veranschaulichung: Das Verhältnis der selegierten zu den potenziell erfolgreichen Bewerbern ist in beiden Gruppen A und B konstant (hier bei dem gewählten – Testtrennwert XA und dem Erreichen von Erfolg im Kriterium durch Überschreiten – von YA jeweils 1) 172 Misserfolg Kriterium 18 77% 60% Anteil der Selektierten an allen potenziell Erfolgreichen (Modell konstanter Verhältnisse; Thorndike) Anteil der validen Positiven an allen potenziell Erfolgreichen (Modell bedingter Wahrscheinlichkeiten; Cole) 6 77% 77% Anteil der validen Positiven an allen Selektierten (Modell gleicher Wahrscheinlichkeiten; Linn) Proportion korrekter Entscheidungen 40% 31% Selektionsrate 5 17 Basisrate 60 angenommen (22) 7 24 angenommen (31) West Misserfolg Kriterium abgelehnt (78) Test 53 16 abgelehnt (69) Test 3. Vergleich Erfolg Kriterium 2. Ost (von je 100) Erfolg Kriterium 1. West (von je 100) 49% 63% 77% 77% 22% 35% Ost 65 35 Grundquote/ Basisrate 60 40 Grundquote/ Basisrate . Tabelle 2.22. Häufigkeiten von Vorhersagequoten und -fehlern bei identischer Kriteriumsvalidität der in Ost- und Westdeutschland eingesetzten Testverfahren. (Nach Kersting, 1995, S. 37) Anhand der zwischen Ost- und Westdeutschen auftretenden Unterschiede in Leistungstests ist Kersting (1995) der Frage nachgegangen, welche Probleme im Hinblick auf die Fairness selbst dann bestehen mögen, wenn für beide Gruppen von einer identischen Validität der Prädiktoren ausgegangen wird. Grundlage waren die zwischen 1991 und 1992 erhobenen eignungspsychologischen Testdaten von N = 1377 Bewerbern beiderlei Geschlechts um eine Ausbildung zum gehobenen nichttechnischen Verwaltungsdienst. Die Probanden aus den alten Bundesländern wiesen im Vergleich zu jenen aus den neuen durchschnittlich 2,6 Standardwerte höhere Leistungen auf. Unter verschiedenen Rahmenannahmen (u. a. Testkriteriumsvalidität in beiden Gruppen rtc = .54, Anwendung desselben Testtrennwertes) führten die Modellrechnungen zu den in . Tab. 2.22 wiedergegebenen Resultaten. Beispiel (»equal probability model«), d. h. für die Zugelassenen aus den relevanten Gruppen soll die Wahrscheinlichkeit eines Erfolges im Kriterium gleich sein. Die Inkompatibilität dieses Modells mit jenem von Cleary ist am geringsten. 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 173 2 2 Überlegungen zur Validitätssteigerung Wechselbeziehungen zwischen Gütekriterien Innerhalb der Hauptgütekriterien kommt der Validität die höchste Bedeutung zu: Die präzise Bestimmung inter- oder intraindividueller Unterschiede stellt kein Ziel für sich selbst dar, sondern bildet nur die notwendige Voraussetzung für die Möglichkeit von Generalisierungen, d. h. Rückschlüsse aus dem Verhalten in der Testsituation auf Merkmalsunterschiede außerhalb davon anstellen zu können. Insofern sind Objektivität und Reliabilität der Validität gleichsam vorgeordnet: Ohne ein Mindestmaß an Objektivität ist keine Reliabilität denkbar, ohne befriedigende Reliabilität keine hinlängliche Validität. Lienert (1989, S. 20) hat die Beziehungen der Hauptgütekriterien zueinander, wie in . Abb. 2.40 zu sehen, veranschaulicht. Ist eine hohe Validität erwiesen, entbindet dieses vom Nachweis der Objektivität und Reliabilität, da in einem solchen Fall diese Gütekriterien (ebenfalls) erfüllt sein müssen. Meist wird es jedoch darauf ankommen, durch geeignete Maßnahmen die Validität zu 2.3.3 Bei Jensen (1980, S. 405) findet sich eine vergleichende Übersicht über die vorgenannten Fairnesskonzepte, in der die Identität der Regressionsgeraden im Sinne von Cleary angenommen wird. Um dabei den Anforderungen der einzelnen Definitionen entsprechen zu können, bedarf es gruppenspezifischer Trennwerte, die je nach Modell verschieden weit auseinander liegen. Im konkreten Entscheidungsfall mögen politische oder ökonomische Vorgaben den Ausschlag zugunsten des einen oder anderen Quotenmodells geben (man denke nur an die Diskussion um die »Quotenfrauen«). Mit der Maximierung des Erfolges im Kriterium und der Akzentuierung der Test-Kriteriums-Validitäten gebührt aber unter methodischen Erwägungen dem Regressionsmodell von Cleary (1968) eine gewisse Vorzugsstellung. Simons und Möbus (1976) haben zudem wahrscheinlich gemacht, dass in bestimmten Fällen durch die Hinzunahme weiterer Prädiktoren in die Vorhersagebatterie und die dadurch erreichte Verbesserung der Validität auch subgruppenspezifischen Benachteiligungen entgegengewirkt werden kann, oder mit anderen Worten: Je höher die Validität, um so geringer ist das Risiko eines Testbias gegenüber einer relevanten Untergruppe von Merkmalsträgern. Abschließende Bemerkungen Wie ersichtlich, sind die Proportionen korrekter Entscheidungen und der Anteil der richtigen Positiven an allen Selegierten mit 77% jeweils gleich. Dieses wird erreicht, indem der ungünstigeren Basisrate im Osten (35% gegenüber 40%) durch eine strengere Selektionsrate entgegengewirkt wird. Daraus resultieren aber unterschiedliche Quoten nach dem Thorndike- und Cole-Modell. Für das letztere, das Modell der bedingten Wahrscheinlichkeiten, bedeuten die angegebenen Prozentzahlen für Westdeutsche eine im Vergleich zu den Ostdeutschen höhere Wahrscheinlichkeit, überschätzt zu werden: Mehr potenziell erfolgreiche Ostbewerber werden zurückgewiesen als angenommen oder in anderer Wendung: Im Westen werden 40% von 40%, also 16% von potentiell erfolgreichen Bewerbern nicht richtig erkannt; im Osten lauten die Zahlen 51% von 35%, also 18% (siehe die jeweils durch Fettdruck hervorgehobenen Quoten) – ein Beispiel dafür, wie bei einer an den Selektierten ausgerichteten Fairness gleichzeitig Unfairness bei den Abgelehnten bestehen kann. Kapitel 2 · Grundlagen diagnostischer Verfahren Validität als wichtigstes Gütekriterium 174 der Interpretation Validität (kriterienbezogen) innere Konsistenz Parallel- und Retest Reliabilität der Auswertung der Durchführung Objektivität Zulänglichkeit Konstanz des Persönlichkeitsmerkmals Eine zentrale Bedeutung innerhalb solcher Überlegungen kommt der Variabilität der Schwierigkeitskoeffizienten zu: Weil extreme Schwierigkeiten im Vergleich zu mittleren die Iteminterkorrelationen, die Trennschärfeindizes und (als Folge davon) die Homogenität der gesamten Skala mindern, bietet die Variation der Itemschwierigkeiten eine relativ einfache Handhabe für die Verbesserung der Validitätserwartungen (zu Lasten der Reliabilität). Batterien von Tests werden den in gewissen Grenzen unvereinbaren Anforderungen auf optimale Weise gerecht: In Form der homogenen Einzelskalen dem Aspekt der Messgenauigkeit, in Gestalt des Gesamttestwertes dem Gesichtspunkt der Validität. steigern, weil deren Höhe noch nicht ausreichend ist. Folgende Punkte sind in diesem Zusammenhang zu erwägen: 4 Retestreliabilität und Paralleltestreliabilität können nicht größer sein als Objektivität und Konsistenz. Eine Verbesserung der letztgenannten Kriterien schafft deshalb bessere Voraussetzungen für die Reliabilität. 4 Da die Reliabilität durch Verlängerung des Tests relativ leicht angehoben werden kann, wird darin oft ein probates Mittel zur Erzielung einer höheren Validität gesehen. Das kann i. Allg. durchaus zu praktischen Erfolgen führen. In theoretischer Hinsicht sind Reliabilität und Validität aber partiell miteinander inkompatibel: Wie aus der Erörterung der einfachen und doppelten Minderungskorrektur erinnerlich ist, stehen in der betreffenden Formel zur Aufwertung der Validität (7 Abschn. 2.1.1.3) sowohl die Reliabilität des Tests als auch diejenige des Kriteriums im Nenner. Jede Vergrößerung dieser Kennwerte muss deshalb zu einer Verminderung des Bruches führen, d. h. der (theoretisch interessierende) Zuwachs der Korrelation zwischen den wahren Test- und wahren Kriteriumswerten sinkt mit steigender Reliabilität (Attenuations- oder Verdünnungsparadox). 4 In der diagnostischen Praxis geht damit die Erfahrung einher, dass jene Verfahren, die eine besonders hohe Reliabilität aufweisen, nämlich sehr homogene Tests, häufig nur wenig valide sind gegenüber komplexeren Außenkriterien. Die Veränderung der Tests in Richtung auf eine größere inhaltliche Heterogenität – also unter Einbußen der Reliabilität – stellt dabei eine realistische Option zur Verbesserung der Validität dar. III II I 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung 2 Testbatterien als Lösung der partiellen Unvereinbarkeit der Gütekriterien . Abb. 2.40. Wechselbeziehungen zwischen den Hauptgütekriterien (Aus Lienert, 1989, S. 20) 175 2 »Aktuelle« Kriterien erfassen »eigentliche« Kriterien oft unzureichend In der Praxis häufig Verwendung leicht verfügbarer Kriterien Eine gesonderte Problematik ergibt sich aus dem Umstand, dass zwischen »eigentlichen« (ultimate) und »aktuellen« Kriterien unterschieden werden muss. Bei Berufserfolg handelt es sich beispielsweise um ein komplexes Kriterium, dessen individuelle Bestimmung erst dann mit »letzter« Sicherheit erfolgen kann, wenn eine Person altersbedingt aus dem Berufsleben ausgeschieden ist und damit alle Fakten zur Beurteilung vorliegen (wie z. B. höchste erreichte Position, Dauer der Partizipation am Arbeitsprozess, Produktivität oder Effizienz, Stetigkeit vs. Wechsel der Arbeitsverhältnisse, Kontinuität vs. Variation des Einkommens und der Beschäftigungszeiten usw.). In aller Regel stehen weder die zeitlichen noch sachlichen Ressourcen zur Verfügung, um derartige Entwicklungen abzuwarten; vielmehr müssen sich die Konstrukteure und Anwender von Tests meist mit leichter verfügbaren aktuellen Kriterien begnügen. Für das Beispiel des (lebenslangen) Berufserfolges würde das naheliegenderweise der bisherige oder aktuelle berufliche Erfolg sein, der operationalisiert werden könnte durch quantitative Einheiten für die momentan eingenommene Stellung oder das monatliche Einkommen, bei bestimmten Tätigkeitsfeldern durch die Zahl abgerechneter Krankenscheine, angemeldeter Patente, publizierter Forschungsarbeiten oder die fremdeingeschätzte Fachreputation. Häufig stehen gar nur Indikatoren wie gefertigte Stückzahlen, produzierter Ausschuss oder Fehlzeiten zur Verfügung. All diese Indikatoren stehen nur für Teilaspekte der aktuellen Kriterien und decken im ungünstigen Fall kaum noch relevante Seiten des »eigentlich« interessierenden Kriteriums ab. Sie sind durch Vorläufigkeit gekennzeichnet. Eine Erkrankung gerade durch die Ausübung einer beruflichen Tätigkeit kann den weiteren Verbleib im bisherigen Verantwortungsbereich erschweren oder verbieten, ein schwerer Sturz vom Gerät den strahlenden Weltmeister vieler Jahre für den Rest seines Lebens in den Rollstuhl zwingen (. Abb. 2.41), die Approbation und Niederlassung eines zusätzlichen Arztes am Ort die Zahl der Krankenscheine beim bislang ansässigen Doktor rapide reduzieren usw. Für ultimative Kriterien wie den individuellen Erfolg in Ausbildung oder Therapie, den institutionellen Erfolg einer Selektion, Platzierung oder Klassifikation (7 Kap. 6) ließen sich unschwer analoge Beispiele in großer Zahl auflisten. Je nach dem Zeitpunkt, an dem das Kriterium erhoben wird, müssen daraus ganz unterschiedliche individuelle Kennwerte resultieren. Das beeinflusst die Validität, und zwar ungeachtet der konzeptuellen Unzulänglichkeiten solcher aktueller Kriterien. Beschrieben wird diese Konfiguration mit den Begriffen Die Obergrenze der Validität wird durch die Wurzel aus der Zuverlässigkeit definiert: rtc = rtt . 4 Zwischen verschiedenen (weiteren) Kombinationen von Gütekriterien bestehen (ebenfalls) partielle Unvereinbarkeiten, und sei es nur unter ganz bestimmten Rahmenbedingungen oder Messintentionen: Änderungssensitivität und Retestreliabilität sind beispielsweise bei einem Verfahren zur Erfassung der aktuellen Befindlichkeit nicht gut auf einen gemeinsamen Nenner zu bringen. Auch kann es die Transparenz eines Fragebogens den Probanden leicht machen, ihre Antworten gezielt zu verstellen. Das kann je nach den Gegebenheiten in vermutet positiver oder negativer Richtung geschehen, ohne dass dies anhand der Punktwerte etwaiger »Lügenskalen« zu erkennen wäre (s. z. B. Kroger & Turnbull, 1975). Aus der Verfälschbarkeit resultieren Validitätsminderungen. Deshalb ist generell vom Einsatz von Persönlichkeitstest in solchen Kontextbedingungen abzuraten, wo gezielte Verstellungen besonders wahrscheinlich sind, nämlich allen Selektionsprozeduren (s. Hampel & Klinkhammer, 1978; Thornton & Gierasch, 1980). 4 Kapitel 2 · Grundlagen diagnostischer Verfahren »Eigentliche« vs. »aktuelle« Kriterien 176 Die Problematik einer möglicherweise nur unzureichenden Operationalisierung des (Kriterium-) Konstruktes in Form bestimmter Indikatoren besteht auch für die Prädiktorenseite. Auch da treffen die jeweiligen Fragen oder Aufgaben die aus theoretischen Gründen als relevant erachteten Prädiktionskonstrukte im Regelfall nicht in ihrer umfassenden Bedeutung (man denke etwa an die Itemsammlungen zur Erfassung des Konstruktes »Studierfähigkeit« bei der Vorhersage des Erfolges von Medizinstudenten der ersten Semester an der Universität, in denen die Bereiche der sozialen Kompetenz und des Selfmanagement völlig fehlen). Daraus können im Extremfall die beiden folgenden Konstellationen resultieren (nach Wottawa & Hossiep, 1987): Der Prädiktionsmesswert korreliert hoch mit den Punktwerten für das aktuelle Kriterium, weist aber keinerlei Relevanz für das »eigentliche« Kriterium auf (. Abb. 2.42). Kriteriumskontamination (= Eigenständigkeit des aktuellen Kriteriums gegenüber dem eigentlichen Kriterium), 4 Kriteriumsrelevanz (= Kommunalität oder wechselseitige Überlappung zwischen aktuellem und eigentlichem Kriterium), 4 Kriteriumsdefizienz (= nicht erfasste Aspekte des eigentlichen Kriteriums durch das aktuelle Kriterium). 4 b a 2.3 · Gütekriterien psychometrischer Tests und ihre Bestimmung c 2 Unzureichende Operationalisierung der Prädiktionskonstrukte Beziehungen zwischen »aktuellem« und »eigentlichem« Kriterium . Abb. 2.41a–c. Das Ausmaß an beruflichem Erfolg und die Kriterien dafür mögen während verschiedener Lebensabschnitte sehr unterschiedlich sein 177 2 Empirische Validität bedeutet nicht zwingend auch bedeutsame Korrelation der Konstrukte . Abb. 2.43. Schematische Veranschaulichung einer Konstellation, bei der die Punktwerte eines Prädiktors zwar nicht mit dem aktuellen, aber mit dem eigentlichen Kriterium korrelieren Der Prädiktionsmesswert korreliert zwar nicht mit den Indikatoren für das aktuelle Kriterium, weist aber eine hohe Aussagekraft für das »eigentliche« Kriterium auf (. Abb. 2.43). Zwischen den beiden Konstellationen sind »Mischformen« denkbar, bei denen man nicht ohne Weiteres erkennt, welche Gegebenheiten im Einzelnen vorliegen. Wichtig ist, dass auch im Falle einer empirisch belegten und numerisch hohen Validität gegenüber einem Kriterium unter Umständen nur wenig über die Korrelation zwischen einem theoretisch bedeutsamen Prädiktorkonstrukt und einem gleichermaßen wichtigen »eigentlich« interessierenden Kriterium ausgesagt ist. Kapitel 2 · Grundlagen diagnostischer Verfahren . Abb. 2.42. Schematische Veranschaulichung für eine Konstellation, bei der die Punktwerte eines Prädiktors hoch mit dem aktuellen, aber zu Null mit dem eigentlichen Kriterium korrelieren 178 (S.373-377) Messung von Veränderungen und Unterschieden (S.371-372) Unimodale vs. multimodale Datenerfassung Erhebungsstrategien Unimodale vs. multimodale Datenerfassung Bei ausschließlicher Verwendung nur je eines der bisher besprochenen diagnostischen Verfahren würde man von unimodaler oder unimethodaler Datenerfassung sprechen. Der Gebrauch dieser Begriffe ist nach Fahrenberg (1987) zur Zeit noch uneinheitlich. Situationen, in denen derart singuläre Diagnostik zur Anwendung gelangt, sind nicht sehr zahlreich. Sie findet sich allenfalls bei der institutionellen Diagnostik grosser Bewerbergruppen, bei der die Zahl der mit weiteren Verfahren zu diagnostizierenden Personen durch Einsatz eines Filtertests reduziert werden soll. Aber bereits bei den Eignungsuntersuchungen für medizinische Studiengänge wurden die Testergebnisse mit der Durchschnittsnote im Abitur, also einer weiteren Datenquelle kombiniert. Bei der individuellen Diagnostik der klinischen und Beratungspraxis wird kaum ein Diagnostiker sein Urteil auf ein einziges Verfahren stützen wollen und deshalb mehrere diagnostische Verfahren einsetzen. Selbst dort, wo auf den ersten Blick nur eine diagnostische Methode, wie z. B. das Gespräch, angewandt wird, erfolgt in der Regel eine Kombination der Selbstbeurteilung des Klienten mit der Fremdbeurteilung durch den Diagnostiker. Somit ist unimethodale Datenerhebung in der Praxis die Ausnahme, multimethodale Diagnostik dagegen die Regel (. Abb. 4.2). Dieses Thema wurde in den letzten Jahren deshalb intensiv diskutiert, weil sich das Interesse der Persönlichkeitsforschung zunehmend auf die teilweise nur mäßige Übereinstimmung zwischen den Ergebnissen verschiedener Methoden und die dafür maßgeblichen Ursachen gerichtet hat. Bereits Cattell (1966) rekurriert bei der Gewinnung seiner Persönlichkeitsdimensionen auf Selbstbeurteilungen in Fragebogen, Fremdbeurteilungen, objektive Tests und physiologische Daten. Die dabei zutage getretene unbefriedigende Konkordanz der aus verschiedenen Quellen stammenden Befunde beschäftigt die Differentielle Psychologie bis heute. Einige Erfolge waren ihr bei der Suche nach Verbesserungsmöglichkeiten beschieden. So ist die Übereinstimmung zwischen Selbstbeurteilungen in Fragebogen und Fremdbeurteilungen grösser, wenn Messwerte über mehrere Messzeitpunkte hinweg aggregiert werden (Epstein, 1979). Eine weitere Erhöhung der Übereinstimmung gelang Wittmann (1987) durch die zusätzliche Aggregierung von Daten aus verschiedenen Kriteriumsbereichen. Borkenau und Amelang 4.3 wie eine Vigilanzuntersuchung unter entspannten Bedingungen für die Tätigkeit eines Fluglotsen. Der Gegensatz zwischen den beiden Gestaltungsprinzipien für die diagnostische Situation geht auf die in 7 Kap. 1 angesprochenen unterschiedlichen diagnostischen Zielsetzungen zurück. Die Selektion von Personen für bestimmte Tätigkeiten verlangt in der Tat die Berücksichtigung der Anforderungen in der Bewährungssituation, die deshalb vor Beginn der eigentlichen diagnostischen Untersuchung sorgfältig zu ermitteln sind. Testaufgaben wie externe Bedingungen sollten den im Kriterium herrschenden Anforderungen entsprechen, um aus dem Testverhalten valide Vorhersagen auf das Kriteriumsverhalten machen zu können. Die Selektion von Bedingungen, unter denen eine bestimmte Person ihr bestmögliches Ergebnis erzielen kann, erfordert dagegen die Schaffung einer optimalen Untersuchungssituation. Bei einer Berufsberatung, bei der die individuellen Fähigkeiten des Bewerbers zu ermitteln und zu berücksichtigen sind, ist dagegen eine Kombination beider Strategien geboten, um zu prüfen, welches die optimalen Bedingungen sind, unter denen ein Bewerber erfolgreich sein könnte, falls er den Anforderungen eines bestimmten Bewährungskriteriums nicht genügt. 4.3 · Unimodale vs. multimodale Datenerfassung 4 Aggregation über Messzeitpunke Möglichkeiten der Verbesserung: Mäßige Konkordanz von Daten aus verschiedenen Quellen Individuelle Diagnostik: Meist multimodal Institutionelle Diagnostik: Meist unimodal Diagnostische Zielsetzung leitet Gestaltung 371 4 Umgang mit den divergierenden Befunden Befunde durch mindestens 2 Methoden absichern Regressionsanalytische Kombination Aggregation über Kriteriumsbereiche (1985) ermittelten eine Zunahme der Konkordanz zwischen Selbst- und Fremdbeurteilung bei Items, die von den Versuchspersonen als zu ihrer Beurteilung angemessen eingeschätzt wurden. In der Klinischen Psychologie, wo multimodale Diagnostik nach Seidenstücker und Baumann (1987) zum Standard gehört, beklagen die Autoren dagegen, dass diese Problematik noch zu wenig gesehen und empirisch geprüft wird. Bei der systematischen Personalauslese, bei der viele Daten anfallen, wird das Problem der variierenden Übereinstimmung von Ergebnissen verschiedener diagnostischer Methoden mit der Fremdbeurteilung des Kriteriumsverhaltens schon länger thematisiert, wie die von Schuler und Schmitt (1987) zitierten Metaanalysen zeigen. Die differentielle Validität der verschiedenen Methoden bei unterschiedlichen Kriterien legt für die beiden Verfasser eine regressionsanalytische Kombination von Methoden mit je nach Kriterium jeweils anderer Gewichtung als Lösungsmöglichkeit nahe. Diese Lösung ist dem in der individuellen Diagnostik tätigen Psychologen verwehrt, hat er es doch meist mit sehr spezifischen Problemstellungen zu tun, für die es keine Regressionsanalysen gibt. Er muss die Ergebnisse verschiedener Methoden ohne statistische Hilfe integrieren. Als Leitsatz hierbei hat nach allgemeiner Auffassung zu gelten, dass ein Befund erst dann als gesichert anzusehen ist, wenn er durch mindestens 2 verschiedene Methoden möglichst unterschiedlicher Art bestätigt wird. Besondere Schwierigkeiten machen auch hier die divergierenden Befunde. Im Gegensatz zu Großserienuntersuchungen hat der Diagnostiker aber bei Individualuntersuchungen die Möglichkeit, den Ursachen von Diskrepanzen durch Gespräche mit dem Klienten, Analyse der verwendeten Methoden und beobachteten Prozesse oder Hinzuziehung weiterer Informationen nachzugehen. Wie Psychologen ihre Daten zu einem Befund integrieren und wie sie schließlich zu einem diagnostischen Urteil gelangen, wird in 7 Kap. 5 angesprochen. Kapitel 4 · Erhebungsstrategien . Abb. 4.2. Bei Assessment Centern zur beruflichen Eignungsdiagnostik werden die Ergebnisse der verschiedenen (multimodalen) »Übungen« für jeden Teilnehmer in einer »Beobachterkonferenz« zusammengetragen und diskutiert 372 Einstufige vs. mehrstufige Datenerhebung Messung von Veränderungen und Unterschieden Ein Spezialfall von mehrstufiger Datenerhebung liegt dann vor, wenn ein- und dieselbe Messung zu wiederholten Zeitpunkten vorgenommen wird, um etwa das Ausmaß der zwischen den Messungen eingetretenen Veränderungen und deren Stabilität abschätzen zu können (= indirekte im Unterschied der auf Einmalerhebungen beruhenden direkten Veränderungsmessung). Derartige Veränderungen mögen als Folge einer gezielten Intervention (Training, Unterweisung, Therapie) intendiert oder auch bloß der Ausdruck »zufälliger« Merkmalsoszillationen sein; denkbar sind auch Veränderungen infolge von Regressionseffekten oder solche, die durch eine Testung selbst hervorgerufen werden. Nachfolgend soll nur auf einige allgemeine Prinzipien eingegangen werden; die Spezialliteratur ist umfangreich (s. dazu insbesondere den »Klassiker« Harris, 1963, im Weiteren Petermann, 1978, und das Themenheft der diagnostica von 1986). Die besonderen Fragestellungen hauptsächlich innerhalb der Klinischen Diagnostik und Intervention finden im letzten Abschnitt dieses Buches detaillierter Erwähnung (s. dazu auch Baumann, Fähndrich, Stieglitz & Woggon, 1990). Allgemein stellt sich bei der wiederholten Vorgabe ein- und desselben Tests an einzelnen Personen vor der inhaltlichen Interpretation eventuell aufgetretener Differenzen (etwa im obigen Sinne) zunächst die methodische Frage nach deren statistischer Bedeutsamkeit. Darauf wurde in 7 Abschn. 2.1.1.5. bereits eingegangen. Darüber hinaus 4.5 Ob eine diagnostische Untersuchung in einer einzigen Sitzung durchgeführt werden soll oder besser auf mehrere, zeitlich voneinander getrennte Termine aufzuteilen ist, wird häufig unter dem Zwang äußerer Bedingungen entschieden. Ist z. B. dem Probanden aus technischen oder ökonomischen Gründen ein mehrfaches Erscheinen nicht zuzumuten, muss die Untersuchung in einer Sitzung abgeschlossen werden. Soll die Untersuchung Hinweise auf die Belastungsfähigkeit eines Probanden in der Bewährungssituation ergeben, wäre es unter dem Aspekt der Repräsentativität der Testsituation für das Kriterium sogar unverzichtbar, eine mehrstündige Untersuchung anzusetzen. Andererseits sprechen plausible Gründe durchaus für eine mehrstufige Datenerhebung. So sind, wie schon weiter oben ausgeführt, zur angemessenen Gestaltung der Testsituation genaue Kenntnisse von Fragestellung und Bewährungssituation erforderlich, die erst in einem einleitenden Gespräch in Erfahrung gebracht und u. U. nicht sofort methodisch umgesetzt werden können. Das weitere diagnostische Vorgehen kann häufig erst dann optimal erfolgen, wenn die Ergebnisse von Verfahren zur Groborientierung vorliegen. Eine aufgrund vorliegender Teilbefunde getroffene Methodenauswahl vermeidet überflüssigen Verfahrensaufwand und trägt somit zur Verringerung von Kosten bei. Bei sehr speziellen Fragestellungen bietet eine Bedenkzeit zwischen zwei Sitzungen die Möglichkeit, zusätzliche Informationen einzuholen. Ferner verstärken wiederholte Kontakte die Vertrauensbasis zwischen Diagnostiker und Proband und verbessern so die motivationalen Bedingungen für eine Untersuchung unter optimierten Umständen. Des Weiteren gibt eine Datenerhebung zu unterschiedlichen Zeitpunkten dem Diagnostiker Gelegenheit, Informationen über Konstanz und situationale Variabilität von Verhaltensweisen seines Klienten zu sammeln. Schließlich haben Cronbach und Gleser (1965) die Vorzüge einer sequentiellen Strategie unter entscheidungstheoretischem Aspekt herausgestellt (7 Kap. 6). 4.4 4.5 · Messung von Veränderungen und Unterschieden 4 Statistische Bedeutsamkeit der Differenzen Indirekte Veränderungsmessung Argumente für eine mehrstufige Erhebung Argumente für eine einstufige Erhebung 373 4 »ReliabilitätsValiditäts-Dilemma« r11 − r12 1 − r12 (4.1) Die Reliabilität der Differenzwerte würde sich bei diesen Gegebenheiten also nur auf .60 belaufen; individuelle Unterschiede wären bei einer derart niedrigen Reliabilität kaum als Grundlage für eine inhaltliche Interpretation geeignet. r(1−2 )(1−2 ) = .90 − .75 1− .75 .15 = .25 = .60 Ein Fragebogen zur habituellen Ängstlichkeit habe eine Reliabilität (interne Konsistenz) von rtt = .90. Die Wiederholungsstabilität (= Korrelation zwischen zwei Testungen) bei einem Intervall von 6 Monaten betrage rtt = .75. Wie hoch ist die Reliabilität der Differenzwerte? In Formel (4.1) eingesetzt erhalten wir: Beispiel Hierbei wird unterstellt, dass die Streuung und Reliabilität der erhobenen Rohwerte zu den beiden Vergleichszeitpunkten identisch sind. Aus der Formel geht hervor, dass die Reliabilität von Testwertdifferenzen immer dann unter derjenigen der originalen Testwerte liegt, wenn die Korrelation zwischen den Zeitpunkten positiv und grösser als Null ist; mit zunehmender Korrelation zwischen den beiden Testadministrationen wird die Reliabilität der Differenzen immer niedriger ausfallen, weil die Testungen 1 und 2 dann immer mehr an wahrer Varianz gemeinsam haben und deshalb die Differenz primär Fehleranteile widerspiegelt. Im Extremfall einer sehr hohen Korrelation zwischen den beiden Testungen (wie sie etwa bei Paralleltests angestrebt wird) bestehen die auftretenden Differenzen praktisch nur aus Zufalls- oder Fehlergrößen. Umgekehrt bedeutet eine nur niedrige Korrelation zwischen den beiden Testzeitpunkten, dass die Messungen zu den verschiedenen Zeitpunkten nicht das Gleiche bedeuten können; hier wäre zwar eine hohe Reliabilität der Differenzen gewährleistet, aber für Testscores von fragwürdiger Validität (weil deren Reliabilität nicht gegeben ist; »Reliabilitäts-Validitäts-Dilemma«). Damit ist eines der vorrangigen Ziele der Klassischen Testtheorie (KTT), nämlich höchstmögliche Reliabilität zu jedem von möglichen (Einzel-)Zeitpunkten zu erzielen, unvereinbar mit einer hohen Zuverlässigkeit der bestimmbaren Differenzwerte. Oder mit anderen Worten: Die KTT führt zu dem Paradoxon, dass die Reliabilität von Differenzwerten immer geringer wird, je höher die Reliabilität der Ausgangswerte ist; wegen der oft genug nur niedrigen Reliabilität der Differenzen sind diese für individuelle Interpretationen meistens unbrauchbar. Ein Beispiel möge diese Prinzipien veranschaulichen (7 Beispiel). r(1–2)(1–2) = Reliabilität der Differenz zwischen 2 Testwerten r11 = Reliabilität der Rohwerte, ausgedrückt als Anteil der wahren Varianz an der Gesamtvarianz r12 = Korrelation zwischen den beiden Testwerten r(1−2)(1−2) = interessiert, welche Zuverlässigkeit die ermittelten Differenzwerte aufweisen. Die Reliabilität von Veränderungswerten bemisst sich nach folgendem Ausdruck (Notation nach Lienert & Raatz, 1994, S. 215): Kapitel 4 · Erhebungsstrategien Reliabilität von Veränderungswerten 374 = Reliabilität von Test 1 = Reliabilität von Test 2 = Streuung von Test 1 = Streuung von Test 2 s12 r11 + s22 r22 − 2r12s1s2 s12 + s22 − 2r12s1s2 s12 = Varianz von Test 1 s22 = Varianz von Test 2 (4.2) r11 + r22 − 2r12 2(1 − r12 ) (4.3) Dieser Ausdruck ist von vorrangiger Bedeutung bei der Interpretation von individuellen Profildifferenzen, also von Werten zwischen Skalen innerhalb von Testsystemen wie dem IST-2000, HAWIK-R und MMPI, FPI oder 16 PF-R, bei denen die Untertests alle dieselbe Streuung aufweisen. Auftretende Profildifferenzen sind also dann eher reliabel, r(1−2)(1−2) = Die Formel ist auch angemessen für solche Konstellationen, bei denen ein- und derselbe Test zweimal angewendet wird, wo aber zu den beiden Zeitpunkten die Streuung und die Reliabilität verschieden sind. Solche Gegebenheiten mögen vorliegen, wenn zwischen der Erst- und Zweitdurchführung ein Trainingsprogramm oder eine psychotherapeutische Intervention stattgefunden haben und sich dadurch die Unterschiede zwischen den Probanden ebenso veränderten wie die Reliabilitäten. Weisen die beiden Tests identische Streuungen auf, vereinfacht sich Formel (4.2) zu dem nachfolgenden Ausdruck: Die Differenzen weisen in dem Beispiel eine Reliabilität von .80 auf und können deshalb interpretiert werden. r(1−2 )(1−2 ) = 100 ⋅ .90 + 225 ⋅ .85 − 2 ⋅ .35 ⋅10 ⋅15 100 + 225 − 2 ⋅ .35 ⋅10 ⋅15 176.25 = 220 = .80 Eine Skala zur Erfassung rechnerischen Denkens sei auf die Streuung s = 10 normiert und weise eine Reliabilität von rtt =. 90 auf; für eine andere Skala zu Wortschatz lauten die entsprechenden Daten für Streuung und Reliabilität s = 15 und rtt = .85. Die Interkorrelation zwischen beiden Tests betrage .35. Wie hoch ist die Reliabilität der individuell bestimmbaren Differenzwerte? Eingesetzt in die obige Formel erhalten wir: Beispiel Wie ersichtlich, ist hier eine Generalisierung auf verschiedene (anstelle ein und desselben) Tests vorgenommen werden. Damit lassen sich Fragestellungen etwa der Art bearbeiten, wie reliabel die Differenzen zwischen verschiedenen Leistungs- oder Persönlichkeitsmerkmalen sind. Auch dazu sei ein Beispiel gegeben (7 Beispiel). r11 r22 s1 s2 r(1−2)(1−2) = Die Verallgemeinerung der obigen Formel für die Reliabilität von Veränderungsscores lautet (s. O’Connor, 1972, S. 91): 4.5 · Messung von Veränderungen und Unterschieden 4 Interpretation von individuellen Profildifferenzen Berechnung der Reliabilität von Differenzen zwischen verschiedenen Leistungs- und Persönlichkeitsmerkmalen Verallgemeinerung der Formel 375 4 Ausgangswertgesetz Regression zur Mitte »Effekt-« und »Reliabilitätsfunktion« Verschiedene Indices für die Änderungssensitivität von Verfahren rtt − rst 1 − rst (4.4) Um die Unzulänglichkeiten der KTT zur Lösung des Konstanz-Variabilitäts-Problems zu überwinden, hat es verschiedene Ansätze gegeben, spezifische Indices für die Änderungssensibilität von Verfahren zu formulieren und Skalen danach zu konzipieren. Einer der grundlegenden Gedanken geht dahin, in der Kombination von hoher interner Konsistenz einerseits mit geringer Reteststabilität andererseits Voraussetzungen für Änderungssensitivität zu sehen. Davon ausgehend hat Tack (1986) einen Lösungsvorschlag unterbreitet, der unter Verzicht auf zwei Kernannahmen der KTT (Konstanz der wahren Werte und Unkorreliertheit der Fehler) eine »Effektfunktion« (Korrelation zwischen den wahren Werten zu zwei verschiedenen Zeitpunkten) und eine »Reliabilitätsfunktion« (zeitabhängige Korrelation zwischen Messfehlern) vorsieht. Aber auch in seinem System von Annahmen und Konzepten könne »eine Differenzen-Reliabilität nie für ein Verfahren generell, sondern nur für ein Verfahren in Kombination mit einer bestimmten Intervention und damit zusammenhängenden situativen Änderungen und Restriktionen angegeben werden« (Tack, 1986, S. 63). Da es im Einzelfall schwer fällt, die für die erwähnten Funktionen notwendigen Parameter in hinlänglich präziser Weise zu quantifizieren, haben diese Gedanken bislang keinen Eingang in die Praxis psychologischer Diagnostik gefunden. Neben der fragwürdigen Reliabilität von Differenzwerten gibt es weitere Problembereiche, die eine Interpretation von Veränderungsscores zu einer diffizilen Aufgabe machen: Zum Einen ist das auf unzureichenden Reliabilitäten beruhende Phänomen der Regression zur Mitte zu nennen. Bei der wiederholten Messung psychologischer Merkmale weist – sofern keine Übungs- oder Gedächtniseffekte auftreten – die Verteilung aller Messwerte als Ganzes zwar dieselbe Gestalt auf, doch sind die anfänglich extrem hohen oder extrem niedrigen Messwerte bei der zweiten Messung etwas zur Mitte regrediert; ihren ursprünglicher Platz in der Verteilung haben andere Messwerte eingenommen. Ursächlich dafür ist, dass die Extremität unter anderem durch die ungewöhnliche Kombination vieler förderlicher bzw. hinderlicher Fehlerfaktoren bewirkt wird, die in dieser spezifischen Konstellation kaum wieder auftritt. Vermeintlich eindeutige und statistisch signifikante Verminderungen von anfänglich hohen Ängstlichkeitstestwerten nach einer mehrwöchigen Intervention, wie sie in der Studie von Wieczerkowski et al. (1969) beobachtet wurden, beruhen deshalb höchstwahrscheinlich nur auf diesem statistischen Artefakt und dürften deshalb – entgegen der Auffassung der Autoren – nicht auf die angstreduzierende Wirkung der Intervention zurückgeführt werden. Auswirkungen haben diese Prinzipien auch auf das Ausgangswertgesetz, demzufolge die Höhe eines Anfangswertes negativ mit dem Zuwachs korreliert. Dafür sind – je nach Sachverhalt – teils biologische Faktoren verantwortlich, teils auch Limitierungen wobei – rtt = arithmetisches Mittel aller Reliabilitätskoeffizienten aller k-Tests eines Profils und –r = arithmetisches Mittel der Interkorrelationen aller k-Tests. st prof rtt = wenn die Subtests für sich eine hohe Reliabilität aufweisen, die Skalen untereinander aber nur niedrig (im besten Falle: Zu Null) miteinander korrelieren. Geht es nicht nur um die Reliabilität der Differenz zwischen zwei Testwerten, sondern um diejenige zwischen den Werten einer Batterie oder eines Testprofils, also um die Profilreliabilität, gilt die Verallgemeinerung von (4.1): Kapitel 4 · Erhebungsstrategien Konstanz-VariabilitätsProblem 376 4. Welche Gründe lassen sich für eine einstufige, welche für eine mehrstufige Entscheidungsprozedur anführen? suchungen sprechen ihre Vertraulichkeit, die Möglichkeit zu Beobachtungen, die Vermeidung von Störungen durch andere. Befunde aus verschiedenen Datenquellen. Durch Gespräche mit dem Klienten, Analyse der verwendeten Methoden und der beobachteten Prozesse oder durch Hinzuziehung weiterer Informationen muss der Diagnostiker versuchen, diesen Dissens aufzuklären. Ad 4. Für einstufige Datenerhebung sprechen in erster Linie zeitökonomische Gründe. Für eine mehrstufige Erhebung sprechen mehrere Gründe. So sind zur angemessenen Gestaltung der Testsituation genaue Kenntnisse von Fragestellung und Bewährungssituation erforderlich, die oft erst in einem einleitenden Gespräch in Erfahrung gebracht und nicht sofort methodisch umgesetzt werden können. Das weitere diagnostische Vorgehen kann häufig erst dann optimal erfolgen, wenn die Ergebnisse von Verfahren zur ersten Groborientierung vorliegen. Bei sehr speziellen Fragestellungen bietet eine Bedenkzeit die Möglichkeit, zusätzliche Informationen einzuholen. Eine aufgrund vorliegen- Ad 3. Das Hauptproblem multimodaler Diagnostik sind diskrepante Ad 2. Optimalbedingungen zu schaffen ist sinnvoll, wenn für den Klienten eine Bedingungsoptimierung intendiert ist. Zu Selektionszwecken ist eine Orientierung an der Bewährungssituation geboten. ! Ad 1. Gruppenuntersuchungen sind ökonomischer. Für Einzelunter- 4 suchungen in Einzelsitzungen oder besser in Gruppen erfolgen? 2. Was spricht für die Schaffung von Optimalbedingungen in der Testsituation, was dagegen? 3. Welche Probleme ergeben sich bei multimodaler Diagnostik? »Physicalism-subjectivism-dilemma« 377 ? 1. Sollen diagnostische Unter- Übungsfragen von Seiten der vorgegebenen Skalen, im Weiteren aber auch unzureichende Reliabilitäten. Vergegenwärtigen lassen sich die dafür maßgeblichen Überlegungen sehr gut am Würfeln als einer »Messung«, die nur auf Zufall beruht. Bei einer 6 im ersten Wurf ist die Wahrscheinlichkeit für eine erneute 6 in einem zweiten Wurf nur 1/6; entsprechend liegt die Wahrscheinlichkeit für eine niedrigere Ziffer als 6 bei 5/6. Umgekehrt verhält es sich bei einer 1 im ersten Wurf. In diesen Fällen korrelieren die »Zuwächse« (= Veränderungen) negativ mit dem Ausgangswert. Mehrfach ist deshalb vorgeschlagen worden, die Werte der Anfangsmessung aus denen der Endmessung herauszupartialisieren; die erhaltenen Residualwerte seien dann »basefree measures of change« (Tucker, Damarin & Messick, 1966). Kritisch daran sind u. a. erneut die fragwürdigen Reliabilitäten von Residuen, vor allem bei kleinen Stichprobenumfängen, und das Problem, ob die Linearitätsannahme regressionsanalytischer Prinzipien immer gerechtfertigt ist. Ein grundsätzliches Problem zum Schluss: Es betrifft die Frage, ob numerisch identische Veränderungen auf den verschiedenen Abschnitten des Messwertekontinuums Gleiches bedeuten (»physicalism-subjectivism-dilemma«, Bereiter, 1963). Das Intervallskalenniveau, das im Regelfall bei den herkömmlichen Leistungs- und Persönlichkeitstests angenommen wird, ist bekanntlich durch eben diese Eigenschaft definiert, aber dennoch scheint einer trainingsbedingten Leistungssteigerung von, um nur ein Beispiel zu geben, 10 IQ-Punkten bei extrem niedriger oder extrem hoher Intelligenz eine andere Bedeutung zuzukommen als einer numerisch identischen Veränderung im Mittelbereich. Gleiche Veränderungswerte stehen deshalb nicht zweifelsfrei für gleiche psychologische Veränderungen. 4.5 · Messung von Veränderungen und Unterschieden (S.385-388) Das diagnostische Gutachten (S.381-383) Das diagnostische Urteil (S.380-381) Modellvorstellungen Der diagnostische Prozess 5 Auswertung der Ergebnisse Planung der Untersuchung Operationalisierbarkeit Generierung von Hypothesen Fragestellung leitet Diagnostik Anliegen wird zu psychologischem Auftrag Modellvorstellungen War früher die Gewinnung eines umfassenden Persönlichkeitsbildes die wichtigste Aufgabe psychologischer Diagnostik (Fahrenberg, 1987), so setzte sich Mitte der 60er Jahre die Erkenntnis durch, dass alle derartigen Versuche immer selektiv bleiben. Wenn aber Selektivität schon nicht zu vermeiden sei, so sollte sie zumindest im Sinne der praktischen Fragestellung des Auftraggebers erfolgen (Holzkamp, 1966), die der Diagnostiker folglich vor Beginn der eigentlichen Untersuchung kennen muss. Entweder der Klient selbst oder eine die Untersuchung anordnende Person oder Institution können dabei als Auftraggeber fungieren. Dieser trägt die Fragestellung der Untersuchung an den Diagnostiker heran, der das in der Regel nur laienhaft formulierte Anliegen allerdings erst in seine psychologische Fachsprache übersetzen und meist weiter ausdifferenzieren muss. Mit der Fragestellung steht die Bewährungssituation für das Urteil des Diagnostikers in engem Zusammenhang (Holzkamp, 1966). Die dort herangezogenen Bewährungskriterien bilden auf der einen Seite die Grundlage für die Gestaltung der Testsituation und markieren andererseits als Zielkriterien den Punkt, an dem eine Intervention als erfolgreich angesehen werden kann. Sie sind daher zusammen mit der Fragestellung detailliert zu eruieren. Dies geschieht in der Regel im einleitenden diagnostischen Gespräch. Nach dem Modell von Jäger (1982; . Abb. 5.1) muss der Diagnostiker aufgrund der dabei ermittelten Informationen entscheiden, ob sich die Fragestellung in psychologische Hypothesen übersetzen lässt, und im negativen Fall versuchen, die Fragestellung zu modifizieren. Im positiven Fall sollte der Diagnostiker nicht nur in der Lage sein, Hypothesen über das Zustandekommen eines Problemverhaltens zu formulieren, sondern auch Annahmen darüber, durch welche Interventionsmaßnahmen ein problematischer Ist-Zustand in einen erwünschten Soll-Zustand überführt werden kann. Nach Formulierung der Untersuchungshypothesen stellt sich die Frage nach deren Operationalisierbarkeit. Erscheint diese aus technischen oder in der Person des Diagnostikers liegenden Gründen nicht möglich, ist der Klient darüber aufzuklären und ggf. an eine kompetentere Adresse zu verweisen. Während die formulierten Hypothesen den Inhalt der diagnostischen Untersuchung, die strategische Planung, bestimmen (Kaminski, 1970), dreht sich die taktische Planung um die mehr technische Frage, mit Hilfe welcher Verfahren die inhaltlichen Ziele zu erreichen sind. Dabei bestimmen Fragen der Repräsentativität der Testsituation für die Bewährungssituation sowohl die Testauswahl als auch die im vorangegangenen Kapitel diskutierten Erhebungsstrategien. Die erste Auswertung der Untersuchungsergebnisse ermöglicht nur in seltenen Fällen eine direkte Antwort auf die gestellte Frage. Meist müssen Hypothesen zusätzlich abgesichert oder sich neu ergebende operationalisiert und überprüft werden. Als diagnostischer Prozess wird die Abfolge von Maßnahmen zur Gewinnung diagnostisch relevanter Informationen bezeichnet. Definition Der diagnostische Prozess beginnt nicht erst mit der diagnostischen Untersuchung selbst, sondern bereits mit der ersten Kontaktnahme des Diagnostikers mit dem Auftraggeber der Untersuchung. 5.1 Kapitel 5 · Der diagnostische Prozess Persönlichkeitsbilder sind immer selektiv 380 nein zusätzliche Hypothesen Datenauswertung Untersuchungsplanung und Durchführung der Untersuchung ja Operationalisierbarkeit Hypothesenformulierung ja Umsetzbarkeit in psychologische Hypothesen Ausarbeitung einer differenzierten Fragestellung Rückgabe des Auftrags gegebenenfalls Umformulierung der Fragestellung nein Absicherung der Hypothesen ja Fragestellung nein nein nein Auftraggeber Das diagnostische Urteil Von den Teilaspekten des diagnostischen Prozesses wurde in der Literatur besonders jener problematisiert, der sich mit dem Zustandekommen des diagnostischen Urteils als Grundlage der Beantwortung der Fragestellung des Auftraggebers befasst. Nach einer Klassifikation von Meehl (1954) und Sawyer (1966) lassen sich 2 gegensätzliche Strategien der diagnostischen Urteilsbildung unterscheiden, eine statistische und eine klinische Form. Bei der statistischen Form wird die Datenintegration mit Hilfe statistischer Gleichungen vorgenommen, bei der klinischen kombiniert der Diagnostiker die Einzeldaten zu einem diagnostischen Urteil. Zu den gängigsten Verfahren der statistischen Datenintegration gehören Regressions- und Diskriminanzanalysen. Nach den Analysen von Meehl und Sawyer erwiesen sich statistische Verfahren der Datenintegration 5.2 Die . Abb. 5.1 versucht, diesen iterativen Prozess mit Hilfe eines Flussschemas zu veranschaulichen. ! Der diagnostische Prozess ist somit keine Einbahnstraße, sondern eher ein Geschehen, bei dem der Diagnostiker sich u. U. erst nach mehreren Durchgängen dem Ziel, der Beantwortung der Fragestellung, nähert. Beantwortung der Fragestellung Ausarbeitung einer Fragestellung 5.2 · Das diagnostische Urteil Statistische Urteilsbildung Beantwortung der Fragestellung . Abb. 5.1. Der diagnostische Prozess. (Aus Jäger, 1982) 381 5 5 In einer Metaanalyse haben Grove, Zald, Lebow, Snitz und Nelson (2000) die vorliegenden Untersuchungen zur mechanischen (statistischen) und klinischen (menschlichen) Urteilsbildung einer vergleichenden Bewertung unterzogen. Sie nahmen 136 Untersuchungen in ihre Analyse auf, die sich mit der Genauigkeit von Urteilen aus dem psychologischen und medizinischen Bereich befassten; Studien zur Vorhersage von Börsenkursen, Pferderennen oder etwa dem Wetter blieben unberücksichtigt. Insgesamt erwies sich die mechanische Vorhersage der klinischen als überlegen. Die mittlere Effektstärke ist mit d = .089 aber sehr klein. Die große Streuung der Effektstärken veranlasste die Autoren, nach Moderatorvariablen zu suchen. So prüften sie, ob der Unterschied zwischen den beiden Methoden der Urteilsbildung von der verwendeten Definition der Effektstärke, dem Publikationsjahr, der Stichprobengröße, dem vorhergesagten Kriterium, von Training oder Erfahrung der Urteiler, der Informationsmenge und von der Informationsart abhängt. Lediglich bei zwei Variablen – dem vorhergesagten Kriterium und der Informationsart – entdeckten sie einen Effekt. Die mechanische Urteilsbildung scheint der klinischen besonders dann überlegen zu sein, wenn medizinische und forensische Kriterien vorherzusagen sind, und wenn die Informationen in Form von Interviewdaten vorliegen. Warum erreichen menschliche Urteile nicht die Genauigkeit, die bei Anwendung von mechanischen Urteilsmodellen möglich ist? Grove et al. (2000) vermuten, dass die Anfälligkeit für bestimmte Urteilsfehler dafür verantwortlich ist. Verschiedene Untersuchungen belegen, dass Menschen oft die Basisrate ignorieren (also zu oft Diagnosen stellen, die statistisch selten und damit unwahrscheinlich sind), Informationen falsch gewichten, indem sie etwa leicht verfügbare Informationen übergewichten (availability Heuristik), oder die Regression zur Mitte vernachlässigen. Trotz ihrer offensichtlichen Überlegenheit ist auch Kritik an der mechanischen Vorhersage angebracht. Ein statistisches Urteilsmodell kann nur mit Informationen konstruiert werden, die für alle Probanden vorliegen. Zudem sind große Fallzahlen bei einer einheitlichen Fragestellung erforderlich. In der Forschung fand zudem oft eine (unrealistische) Beschränkung auf einen Test statt. Ein bekanntes statistisches Urteilsmodell ist der Goldberg-Index (Goldberg (1965), mit dessen Hilfe anhand von MMPI-Testergebnissen (zum MMPI 7 Abschn. 3.2.3) festgestellt werden kann, ob ein Patient psychotisch ist oder nicht. Fünf Skalenwerte (T-Werte) werden nach der Formel L+Pa+Sc–Hy–Pt verrechnet. Liegt der Index über 45, gilt der Patient als psychotisch. Klinische Urteilsbildung bedeutet, dass klinische Experten anhand der gleichen Informationen beurteilen, ob ein Patient psychotisch ist oder nicht. Sie verlassen sich dabei auf ihre klinische Erfahrung und brauchen ihr Urteil nicht zu begründen. In einem Vergleich erwies sich die statistische Methode der klinischen als überlegen (Goldberg, 1965). Als Kriterium für die »wahre« Diagnose dienten Psychiaterurteile über die gleichen Patienten. Betrachten wir nur die Fälle, in denen ein Patient nach Einschätzung des Psychiaters entweder psychotisch oder neurotisch ist, so erzielten die Klinker eine Trefferquote von 68%, während die Anwendung des Goldberg-Index in 74%der Fälle zu richtigen Urteilen führte. Beispiel der klinischen Urteilsbildung in der Prognosegenauigkeit überlegen, unabhängig davon, ob die Daten durch klinische Methoden, Testverfahren oder kombiniert erhoben wurden (Sawyer, 1966). Kapitel 5 · Der diagnostische Prozess Höhere Prognosegenauigkeit 382 In der diagnostischen Praxis gilt es, die Vorteile und Chancen beider Urteilsmodelle zu nutzen. Der Diagnostiker sollte mechanische Vorhersagemodelle kennen und bei seiner Diagnose oder Prognose nutzen – aber ohne ihnen blind zu vertrauen. In begründeten Fällen sollte er die mechanische Vorhersage korrigieren oder ganz durch eine klinische ersetzen, z. B. wenn er Zweifel daran hat, dass das Vorhersagemodell für seinen Probanden angemessen ist. Für die Korrektur kann der Diagnostiker zusätzliche Informationen nutzen, die im mechanischen Modell nicht berücksichtigt wurden. Die meisten statistischen Urteilsmodelle verwerten nur lineare Zusammenhänge zwischen Prädiktoren und Kriterien und sind »blind« für die Wirkungsmechanismen, die der Beziehung beider Variablen zugrunde liegen. Mit den Künstlichen Neuronalen Netzen stehen statistische Auswertungsprogramme zur Verfügung, die auch komplexe, nichtlineare Verknüpfungen mehrerer Prädiktoren mit einem Kriterium entdecken und für die Vorhersage nutzen. Häusler und Sommer (im Druck) gelang es mit diesem Ansatz, die Vorhersage von Ausbildungserfolg mit Leistungstests als Prädiktoren gegenüber einer linearen Vorhersage zu verbessern. Statistische Modelle beschreiben Zusammenhänge, indem sie viele möglicherweise relevante Randbedingungen ignorieren. Sie verleiten den Diagnostiker dazu, einen Zusammenhang als allgemeingültig anzusehen und auf den Einzelfall zu übertragen, ohne dabei zu wissen, ob dieser Schritt angemessen ist. Durch eine gründliche Erforschung moderierender Faktoren wird der Geltungsbereich eines statistischen Vorhersagemodells eingeengt und die Vorhersage verbessert. Ein gutes Beispiel ist die Prognose, ob ein Patient, der wegen Gewalttätigkeit in einer psychiatrischen Einrichtung untergebracht wurde, nach seiner Entlassung wieder gewalttätig wird. Rückfälle hängen von einer Reihe von Randbedingungen ab, darunter dem sozialen Umfeld des Patienten nach seiner Entlassung. Eine kriminelle Nachbarschaft erhöht das Risiko erneuter Gewalt. Die Kriminalitätsrate in der Nachbarschaft erklärt sogar den bekannten Zusammenhang zwischen Rasse und Gewalt (Monahan, 2003). Ohne dieses Wissen hätte ein Farbiger in den USA eine schlechte Rückfallprognose. Wird die nun bekannte Moderatorvariable berücksichtigt, fällt die Prognose im Einzelfall oft anders aus als nach dem »alten« Modell. Nicht die Hautfarbe, sondern das soziale Umfeld nach der Entlassung ist ein Risikofaktor. Damit individuelle Diagnostik nicht zur esoterischen Kleinkunst verkommt, muss sie wissenschaftliche Kriterien erfüllen. Fasst man die diagnostische Untersuchung als psychologisches Experiment auf, so gehören zu ihren wesentlichen Bestimmungsstücken die Explizierung der Untersuchungshypothesen und die Kontrolle der Untersuchungsbedingungen, die eine Wiederholung und einen Vergleich mit anderen Untersuchungen erst ermöglichen. Darüber hinaus sind besonders die Explikation der Entscheidungsregeln und die Erfassung der Prognosegenauigkeit, der Validität der Diagnose, wichtig. Das Ausgehen von Untersuchungshypothesen fordern bereits die Modelle von Kaminski (1970) und Jäger (1986). Probleme auf dieser diagnostischen Stufe bestehen in einer eingeschränkten Wissensbasis, die zur Formulierung weniger Alternativhypothesen führt, und in einer mangelhaften Dokumentation dieser Annahmen, die eine spätere Korrektur erschwert. Die systematische Kontrolle der Untersuchungsbedingungen ist zwar für einen methodisch gut ausgebildeten Psychologen eine Selbstverständlichkeit, ihre Dokumentation sollte aber ebenfalls selbstverständlich werden. Das zentrale Problem der diagnostischen Urteilsbildung stellen die Entscheidungsregeln dar, die häufig mehr oder minder implizit angewendet werden. Wie diese nachträglich ermittelt und explizit gemacht werden können, haben Wottawa und Hossiep (1987; . Abb. 5.2) beschrieben. 5.2 · Das diagnostische Urteil 5 Zentrales Problem: Die Entscheidungsregeln Probleme der klinischen Urteilsbildung Forderungen an die klinische Urteilsbildung 383 Das diagnostische Gutachten Demzufolge stellt das Gutachten eine wissenschaftlich begründete Entscheidungshilfe bei einem gegebenen Problem dar. Im Mittelpunkt der Betrachtung steht dabei lediglich ein bestimmter Ausschnitt aus dem Verhalten einer Person und nicht die »ganze Persönlichkeit«. Gewöhnlich wird das Gutachten schriftlich fixiert; verschiedentlich erfolgt aber auch eine Erstattung oder auch (nur zusätzliche) Erläuterung in mündlicher Form. Die Übernahme von Gutachten versetzt den Diagnostiker gewöhnlich in ein komplexes Feld, das durch eine Vielzahl rechtlicher Bestimmungen vorstrukturiert wird (s. dazu insbesondere Zuschlag, 1992). Bedeutsame ethische Limitierungen werden besonders dann salient, wenn es sich bei der Interaktion von diagnostizierenden Psychologen und begutachteten Klienten nicht um einen »freien« Kontrakt (wie z. B. in Form eines Privatgutachtens), sondern um einen solchen handelt, der allenfalls »bedingt frei« oder definitiv »aufgezwungen« ist (s. zu dieser Unterscheidung Lang, 1978). Der letztere Fall liegt beispielsweise vor, wenn festgestellt werden soll, ob ein Zeuge aufgrund seiner intellektuellen Leistungsfähigkeit oder wegen aktueller Affekte in der Lage war, das Geschehen »objektiv« wahrzunehmen. Zu den »bedingt freien« Kontrakten zählen die meisten Untersuchungen im Gefolge von Sorge- und Umgangsrechtsstreitigkeiten; häufig ist es dabei so, dass die Eltern für sich keine einvernehmliche »Psychodiagnostische Gutachten für (meist fachfremde) Dritte als selbständige (in sich geschlossene) zusammenfassende Darstellung der psychodiagnostischen Vorgehensweise, der Befunde und Schlussfolgerungen in Bezug auf eine hinsichtlich einer konkreten Fragestellung zu begutachtende Person, Institution oder Situation, basierend auf einem der Fragestellung gemäßen, angemessen komplexen diagnostischen Prozess für einen Gutachtenempfänger (Auftraggeber). Mit Hilfe des Gutachtens soll sein Empfänger Entscheidungen in seinem System (seinem diagnostischen Prozess) fundierter treffen können.« Definition Die Fragestellung und der Untersuchungsplan zur Erhebung psychodiagnostischer Informationen, die eingesetzten Verfahren, die ermittelten Daten sowie die daraus gezogenen Schlussfolgerungen werden häufig in Form eines Gutachtens zusammengestellt. Schmidt (1995, S. 468) definiert: 5.3 der Therapeut nichts erfährt. Bei Klassifikationsempfehlungen, bei denen die Erfolgsquote aller Behandlungsalternativen ermittelt werden kann, ist eine Rückmeldung dagegen prinzipiell möglich. Sie muss aber auch systematisch angestrebt werden. Dort, wo der Diagnostiker auch die Intervention durchführt, hat er am ehesten die Möglichkeit, die Güte seiner Diagnosen zu evaluieren und ggf. Korrekturen vorzunehmen. Die Lokalität für erforderliche Verbesserungen lässt sich um so leichter bestimmen, je genauer Hypothesen, Untersuchungsbedingungen und Entscheidungsregeln expliziert wurden. Diese Form individueller Diagnostik wird von Petermann (1987) treffend mit dem Begriff kontrollierte Praxis umschrieben und sollte für den Diagnostiker, der den Anspruch hat, wissenschaftlich fundierte Diagnostik zu betreiben, zur selbstverständlichen Routine werden. 5.3 · Das diagnostische Gutachten 5 Rechtliche Vorschriften und ethische Fragen Kontrollierte Praxis 385 5 Nach Westhoff und Kluck (1998) besteht die Erstellung eines psychologischen Gutachtens aus einer Serie von Entscheidungen, die vom Psychologen zu treffen sind. Nachfolgend sind die einzelnen Schritte des diagnostischen Entscheidungsprozesses aufgelistet und in Anlehnung an Westhoff und Kluck erläutert: 1. Fragestellung, 2. Annahmen, 3. Anforderungsprofil, 4. psychologische Fragen (= Hypothesen), 5. Untersuchungsplan, 6. Durchführen der diagnostischen Untersuchung, 7. Darstellen der Ergebnisse, 8. Befund: Beantworten der psychologischen Fragen und damit der Fragestellung, 9. Vorschläge bzw. Empfehlungen zum weiteren Vorgehen. In einem ersten Schritt ist u. a. zu klären, ob die Fragestellung, mit der ein Auftraggeber an den Psychologen herantritt, überhaupt ethisch vertretbar sowie grundsätzlich zu beantworten ist. Danach muss entschieden werden, ob ein Psychologe vom Fachwissen her Schritte des diagnostischen Entscheidungsprozesses Voraussetzungen für die Übernahme eines Gutachtens Lösung finden können und dafür mit Unterstützung eines Gerichtes Vorschläge von einem Sachverständigen erwarten, dem dann aber in aller Regel aus dem Wunsch heraus, etwas zu behalten oder zu bekommen (nämlich das Besuchs- oder Sorgerecht), die Arbeit häufig durch selektive Informationsüberlassung nicht sonderlich erleichtert wird. Um der besonderen Verantwortung von Psychologen Rechnung zu tragen, hat die Föderation der Deutschen Psychologenvereinigungen (1998) im Rahmen ihrer Ethischen Richtlinien verbindliche Kriterien für Gutachten und Untersuchungsberichte formuliert: 1. Sorgfaltspflicht: Allgemein gilt, dass die Erstellung und Verwendung von Gutachten und Untersuchungsberichten von Psychologen größtmögliche sachliche und wissenschaftliche Fundiertheit, Sorgfalt und Gewissenhaftigkeit erfordern. Gutachten und Untersuchungsberichte sind frist- und formgerecht anzufertigen. Die föderativen Richtlinien für die Erstellung von Gutachten sind zu beachten. 2. Transparenz: Gutachten und Untersuchungsberichte müssen für die Adressaten inhaltlich nachvollziehbar sein. 3. Einsichtnahme: a) Sind Auftraggeber und Begutachtete nicht identisch, kann das Gutachten bzw. der Untersuchungsbericht nur mit Einwilligung des Auftraggebers den Begutachteten zugänglich gemacht werden. b) Psychologen sind gehalten, darauf einzuwirken, dass die Begutachteten ihr Gutachten bzw. den Untersuchungsbericht auf Wunsch einsehen können, sofern für sie kein gesundheitlicher Schaden zu befürchten ist. c) Falls der Auftrag eine Einsichtnahme von vornherein ausschließt, müssen die Begutachteten vorab davon in Kenntnis gesetzt werden. 4. Gefälligkeitsgutachten: Gefälligkeitsgutachten sind nicht zulässig, ebensowenig die Abgabe von Gutachten, die Psychologen durch Dritte ohne eigene Mitwirkung erstellen lassen. 5. Stellungnahme zu Gutachten von Kollegen: Stellungnahmen zu Gutachten von Kollegen sind zulässig, wobei der Abschnitt B.II. (1) dieser Ethischen Richtlinien (Kollegiales Verhalten) besonders zu beachten ist. Kapitel 5 · Der diagnostische Prozess Verbindliche Kriterien für Gutachten und Untersuchungsberichte 386 Danach ist Verhalten eine Funktion folgender (nichtpsychologischer und psychologischer ) Variablengruppen: 4 Umgebungsvariablen (U; äußere Lebensbedingungen, z. B. Wohnsituation, finanzielle Situation), 4 Organismusvariablen (O; körperliche Bedingungen, z. B. Krankheiten, Behinderungen), 4 kognitive Variablen (K; Leistungsfähigkeit und Inhalte des Wahrnehmens, Lernens und Denkens, z. B. Allgemeine Intelligenz, Intelligenzstruktur, Konzentration), 4 emotionale Variablen (E; z. B. emotionale Belastbarkeit, Umgang mit Gefühlen und Belastungen), 4 motivationale Variablen (M; z. B. Leistungs- und Machtmotiv, Interessen, Werte), V= f1(U, O, K, E, M, S) hierfür zuständig ist bzw. ob prinzipiell genügend Wissen zur Bearbeitung vorliegt. Schließlich muss für die Übernahme einer Fragestellung diese eindeutig formuliert sein. Maßgeblich für den diagnostischen Entscheidungsprozess sind darüber hinaus die grundlegenden Annahmen des Psychologen über menschliches Verhalten. So lässt sich beispielsweise individuelles Verhalten lediglich dann beschreiben, erklären, vorhersagen und beeinflussen, wenn man von regelhaften und gesetzmäßigen Zusammenhängen zwischen Merkmalen von Situation und Verhaltensweisen sowie zwischen den Verhaltensweisen selber ausgehen kann. Wie bereits erwähnt, besteht das Ziel jedes diagnostischen Prozesses in der Bereitstellung von Entscheidungshilfen bei wichtigen Fragen, wie z. B. ob jemand für einen bestimmten Beruf geeignet ist oder welche Therapieform bei einer vorliegenden Störung die größte Aussicht auf Erfolg hat. Um zwischen verschiedenen Alternativen (z. B. Beruf, Therapieform) entscheiden zu können, müssen Kriterien bzw. Anforderungen vorliegen, die den Verhaltensmerkmalen und Eigenschaften der beurteilten Person gegenüber zu stellen sind. So kann man beispielsweise die Anforderungen des Berufs Diplom-Sozialarbeiter mit dem Leistungs- und Persönlichkeitsprofil einer Person vergleichen, um die Frage zu beantworten, ob sie für diese Tätigkeit geeignet ist. In Anlehnung an arbeitspsychologische Fragestellungen wird die Summe der jeweiligen Anforderungen als Anforderungsprofil bezeichnet; diesen Begriff übertragen Westhoff und Kluck auch auf den klinischen, pädagogisch-psychologischen und forensischen Bereich. Dabei lassen sich kompensatorische von nichtkompensatorischen sowie stabile von instabilen Anforderungen unterscheiden (Westhoff & Kluck, 1998, S. 18 f.). Generell müssen die Anforderungen möglichst verhaltensorientiert definiert sein, um sie exakt beurteilen zu können. Da die Fragestellung meistens in einer sehr globalen Form vorliegt, wird sie in psychologische Fragen (= Hypothesen) übersetzt. Demzufolge werden ausgehend von der Fragestellung Variablen ausgewählt, anhand derer man das relevante Verhalten erklären oder vorhersagen kann. Diese Vorgehensweise dient einerseits zur Strukturierung und Gliederung des diagnostischen Prozesses und andererseits zur Erhöhung der Transparenz und Prüfbarkeit des Gutachtens und wirkt sich somit positiv auf die Verständlichkeit für die (meist psychologisch nicht geschulten) Leser aus. Die Auswahl geeigneter Variablen zur Überprüfung der psychologischen Fragen erfolgt nach Westhoff und Kluck (1998, S. 25 f.) u. a. durch Zuhilfenahme der Verhaltensgleichung. Diese Formel fasst alle relevanten Variablen zusammen, die zur Erklärung, Vorhersage und Beeinflussung individuellen Verhaltens bedeutsam sind: 5.3 · Das diagnostische Gutachten 5 Nichtpsychologische und psychologische Variablengruppen Verhaltensgleichung Anforderungsprofil Diagnostik als Entscheidungshilfe Psychologische Annahmen über Verhalten 387 5 Fragestellungen für Gutachten Befund Untersuchungsdurchführung U und O sind damit nichtpsychologische Variablengruppen, K, E, M und S gehören zu den psychologischen Variablengruppen. Im Rahmen des diagnostischen Prozesses kann durch die Verwendung der Verhaltensgleichung sichergestellt werden, dass keine relevanten Variablen unberücksichtigt bleiben. Damit für die Leser des Gutachtens nachvollziehbar ist, auf welche Weise die Erhebung der relevanten Variablen erfolgt, werden die hierzu verwendeten Verfahren und sonstigen Informationsquellen im Untersuchungsplan beschrieben. Nach Westhoff und Kluck (1998) soll als übergeordnetes Kriterium für die Auswahl von Informationsquellen stets das Verhältnis von Kosten und Nutzen bei deren Einsatz herangezogen werden. Weitere Kriterien für die Auswahl von beispielsweise standardisierten diagnostischen Verfahren sind u. a. die jeweiligen testtheoretischen Gütekriterien (Objektivität, Reliabilität, Validität) sowie die Verfügbarkeit über entsprechende Normen. Nach diesen Vorbereitungen kann die Durchführung der diagnostischen Untersuchung stattfinden. Die eingesetzten Verfahren und die damit gewonnenen Ergebnisse, Resultate aus Fragebögen, Tests, Gesprächen sowie anderen Informationsquellen, werden in allgemeinverständlicher Form dargestellt. Der diagnostische Prozess endet damit, dass die Untersuchungsergebnisse im Befund so integriert werden, dass sie die zuvor formulierten psychologischen Fragen beantworten.Die Stellungnahme gibt schließlich eine Antwort auf die zu bearbeitende Fragestellung des Gutachtens. Daran können sich Vorschläge und Empfehlungen in Bezug auf das weitere Vorgehen anschließen. Die Fragestellungen, Arbeitsfelder und Aufgabenbereiche für psychodiagnostische Gutachten sind zahlreich, wie der nachfolgenden Auflistung zu entnehmen ist (nach Föderation Deutscher Psychologenvereinigungen, 1988): 4 Schule (Schulfähigkeit, Lernfähigkeit; Lern-/Leistungsstörungen; Verhaltensauffälligkeiten; Schullaufbahnberatung), 4 Universität/Hochschule (Zulassung zum Studium, z. B. Härtefälle; Wechsel des Studienortes/-faches; Zulassung zum Zweitstudium/ Doppelstudium), 4 Versicherungsträger (Rentenfragen, Berufsunfähigkeit, Begründung psychotherapeutischer Interventionen, Rehabilitationsmaßnahmen mit beruflichen Einsatzmöglichkeiten usw.), 4 Gesundheitswesen (im Falle klinisch-psychologischer Interventionen, bei psychiatrischen Fragestellungen, z. B. als Zusatzgutachten; bei Fragen der psychologischen Vorbereitung und Begleitung medizinischer Interventionen, z. B. Operationsvorbereitung, Vorbereitung auf schmerzhafte diagnostische Behandlungen usw.; bei Fragen der psychologischen Nachsorge nach medizinischen Interventionen, z. B. nach entstellenden Operationen oder dauerhaften Funktionseinschränkungen; bei Entscheidungen über ausgewählte medizinische Eingriffe, z. B. Sterilisation, Geschlechtsumwandlung, Schönheitsoperation), 4 öffentliche Verwaltung (Städteplanung, Medien, Namensänderung), 4 Arbeitsamt (Berufseignung, Berufslaufbahn, Beratung), 4 Verkehrsbehörden (insbesondere Fahreignungsuntersuchungen), 4 Kreiswehrersatzamt (Wehrdiensttauglichkeit; Gewissensüberprüfung bei Kriegsdienstverweigerung), 4 und deren Wechselwirkungen (Subskript I). deren«) 4 soziale Variablen (S; soziale Intelligenz, Normen, Einflüsse von »bedeutsamen An- Kapitel 5 · Der diagnostische Prozess Auswahl von Informationsquellen 388 (S.410-415) Nutzenerwägungen (S.408-409) Festsetzung von Testtrennwerten (S.404-408) Entscheidungsfehler (S.401-404) Einstufige vs. mehrstufige Entscheidungsstrategien (S.399-401) Kompensatorische und konjunktive Entscheidungsstrategien (S.396-399) Arten diagnostischer Entscheidungen Zuordnungs- und Klassifikationsstrategien 6 Institutionelle Entscheidung Entscheidungen setzen Alternativen voraus Arten diagnostischer Entscheidungen 1. 2. 3. 4. 5. 6. Nutzen der Entscheidungen geht zugunsten Annahme Behandlungen Möglichkeit von Ablehnungen Informationsdimensionen Entscheidungen Institution festgelegt singulär ja univariat terminal vs. vs. vs. vs. vs. vs. Individuum variabel multipel nein multivariat investigatorisch . Tabelle 6.1. Arten diagnostischer Entscheidungen. (Nach Cronbach & Gleser, 1965, S. 16) Es ist bereits mehrfach darauf hingewiesen worden, dass moderne Diagnostik einen Finalitätscharakter besitzt, d. h. mit einer konkreten Zielvorstellung vorgenommen wird, die über die Beschreibung eines bestimmten Zustandes hinausgeht. Auf der Basis der erhobenen diagnostischen Informationen müssen Entscheidungen über anstehende Fragen gefällt werden, etwa der Art, ob ein Bewerber die ausgeschriebene Stelle erhält, welche Schüler zweckmäßigerweise welchen Unterrichtseinheiten zugeordnet werden, ob bei einem Klienten eine Gesprächs- oder Verhaltenstherapie angemessen ist usw. In einem allgemeinen Sinn gehören die Arbeitsstelle, Unterrichtseinheiten und therapeutische Eingriffe in die Kategorie von Interventionen, d. h. Maßnahmen, die aus den verschiedensten Gründen eingeleitet werden. Sie setzen an diagnostischen Feststellungen an, mit dem Ziel, Veränderungen auf organisatorischer oder individueller Ebene herbeizuführen. Im angloamerikanischen Raum ist dafür der Terminus »treatment«, also Behandlung, gebräuchlich. Die intendierten Effekte sind erwartungsgemäß dann besonders positiv, wenn die Passung zwischen Diagnose und Intervention in optimaler Weise ausfällt. Nachfolgend sollen die Probleme, Fehler und Lösungsmöglichkeiten erörtert werden, die sich bei der Zuordnung von diagnostischen Daten zu Interventionen ergeben. Die für jede Zuordnung notwendigen Entscheidungen setzen voraus, dass mindestens 2 Alternativen vorhanden sind (z. B. Annahme oder Ablehnung). Sofern nicht von einer vollständigen Gültigkeit des diagnostischen Instrumentariums für das anstehende Problem ausgegangen werden kann, sind die Entscheidungen mit Unsicherheit oder dem Risiko des Irrens behaftet. Klassifiziert werden diagnostische Entscheidungen nach einem Raster, das auf das nachgerade epochale Buch von Cronbach und Gleser (1965) zurückgeht (. Tab. 6.1). Aus der Kombination aller Klassifikationskriterien mit allen anderen resultieren 26 = 64 verschiedene Arten von diagnostischen Entscheidungen. Viele davon haben in der Praxis jedoch nur eine untergeordnete Bedeutung, so dass in diesem Abschnitt eine Beschränkung auf die häufiger vorkommenden Konstellationen erfolgen kann. Eine Entscheidung ist von institutioneller Art, wenn eine Organisation (z. B. ein Betrieb oder eine Fortbildungsanstalt) nach einem standardisierten Vorgehen alle Personen in der gleichen Weise einem Verfahren unterzieht. So müssen z. B. alle Personen ein und denselben Test bearbeiten oder an einem Vorstellungsgespräch teilnehmen, dessen Ergebnisse dann für die »Behandlung« relevant sind. In solchen Fällen wird eine Entscheidungsregel gesucht, die den Nutzen vieler (gleichartiger) Entscheidungen über alle Entscheidungssituationen hinweg für die Institution maximiert, die die Eignungsprüfungen organisiert, weil sie ein Interesse daran hat, die bestgeeigneten Personen für Arbeit, Training oder Unterweisung heranzuziehen. 6.1 Kapitel 6 · Zuordnungs- und Klassifikationsstrategien Diagnose und Intervention 396 a C Score y1 B A Zuordnung Zuordnung Zuordnung zu zu zu Behandlung Behandlung Behandlung Score y1 Ablehnung Annahme b Ganz anders gelagert sind dagegen die Verhältnisse, wenn ein Individuum auf einen Diagnostiker oder eine Institution zugeht (z. B. um Rat über die anstehende Berufswahl oder eine Therapieform einzuholen) und dort je nach Biographie, Vorkenntnissen oder Beschwerden ein spezifisches Untersuchungsprogramm mit dem Ziel zusammengestellt wird, die beste Handlungsalternative für die nachfragende Person herauszufinden. Hierbei interessiert allein der individuelle Nutzen (der sich über alle Personen hinweg auch als institutioneller Nutzen, z. B. für den gesamten Gesellschaftsverband, begreifen lässt). Um festgelegte Annahmequoten handelt es sich dann, wenn z. B. nur eine bestimmte Zahl von Therapie- oder Ausbildungsplätzen zur Verfügung steht, denen die Interessenten oder Bewerber zugeordnet werden müssen. Übersteigt die Zahl der Personen diejenige der vorhandenen Plätze, kann diese Zuordnung nur dann rational erfolgen, wenn von allen Personen die diagnostischen Daten vorliegen. Die Entscheidungen über einzelne Personen erfolgen dann aber nicht unabhängig voneinander, weil ein Votum zugunsten bestimmter Personen implizit zu Lasten anderer geschieht und jedenfalls auf einem Vergleich von zumindest einer Ordinalrelation beruht. Hingegen ist bei nichtfestgelegten oder variablen Annahmequoten wechselseitige Unabhängigkeit der Entscheidungen über die einzelnen Probanden gegeben. Dies trifft beispielsweise zu, wenn die Eltern aller Kinder, die im 7. Lebensjahr noch einnässen, einer psychologischen Exploration unterzogen werden. Unter Behandlung werden allgemein höchst unterschiedliche Interventionen subsumiert. Es mag sich dabei um eine eng umschriebene Maßnahme handeln (wie z. B. die Therapie eines Klienten) oder um eine Kombination vieler einzelner »treatments« (wie z. B. den Einbezug der Familie oder der Arbeitskollegen in den Behandlungsplan). Hauptsächlich denken Cronbach und Gleser (1965, S. 16) aber, wie Erläuterungen erkennen lassen, an die Unterscheidung zwischen einstufigen und mehrstufigen (sequentiellen) Testungen. Im ersten Fall erfolgt die Zuordnung auf der Basis einer punktuell-einmaligen Diagnose, im letzten als Resultat eines gestuften Vorgehens in mehreren Schritten (mehr dazu 7 unten). Sind Ablehnungen aufgrund von Testungen möglich, liegt die klassische Struktur von Selektionsparadigmen vor. Verbleiben hingegen alle Probanden im System und werden infolge der Diagnoseerstellung nur horizontal oder vertikal zu spezifischen Interventionen »verschoben«, spricht man von Platzierung (. Abb. 6.1a und b). Platzierungen federn gleichsam die harschen Schnitte einfacher Selektionen insofern ab, als niemand von einer (positiven) Intervention ausgeschlossen wird. Für eine Selektion ist nicht notwendig, dass – wie in der . Abb. 6.1 dargestellt – 2 Variablen vorliegen; vielmehr genügt dazu bereits ein Prädiktor. Damit wird zu einem weiteren Punkt übergeleitet: Die diagnostische Information kann sich auf eine Dimension beschränken (z. B. Allgemeine Intelligenz oder die Abiturnote), also univariat vorliegen, oder aus mehreren Dimensionen stammen und somit multivariat beschaf- 6.1 · Arten diagnostischer Entscheidungen Score y2 6 . Abb. 6.1. a Platzierung; b Selektion (Aus Cronbach & Gleser, 1965, S. 13) Univariate vs. multivariate Informationen Einstufige vs. mehrstufige Testungen Behandlung Variable Annahmequoten Festgelegte Annahmequoten Individuelle Entscheidung 397 6 Zielsetzung und Strategie Regelkreismodell Terminale vs. investigatorische Entscheidung C B A Test 1 fen sein. Meist werden zur Erhöhung der Validität und damit auch der Entscheidungssicherheit mehrere Prädiktoren herangezogen, weil damit verschiedene Facetten des Kriteriums abgedeckt werden können. Zudem erlauben nur multivariate Ansätze die Vornahme einer Klassifikation, d. h. der Zuweisung von Probanden entsprechend einer ermittelten Merkmalskonfiguration, wie sie in . Abb. 6.2 am Beispiel einer Zuordnung zu einem von mindestens 3 Treatments dargestellt ist. Der Begriff »Klassifikation« steht hier also für eine ganz bestimmte Art von Klassenzuweisung, nämlich einer nach Maßgabe der Merkmalsstruktur. Wie Janke (1982) deutlich gemacht hat, wird der Term in der Literatur zum Teil auch in anderer Bedeutung gebraucht, so z. B. für die Methoden zur Bildung von Klassen (Typenbildung, Gruppierung, Clusteranalyse) und solche zur Trennung der Klassen voneinander (z. B. Diskriminanzanalyse). Zur Differenzierung der verschiedenen Arten von Klassen selbst sei auf die Darstellung von Kallus und Janke (1992) verwiesen. Wird auf der Basis der diagnostischen Information ein Proband einer Behandlung zugeführt, in der er mehr oder weniger lange verbleibt (z. B. einer Sonder- anstelle der Grundschule, Übertragung einer neuen Verantwortung, Aufnahme in ein Ausbildungsprogramm), handelt es sich um eine terminale Entscheidung. Mit der Zuweisung ist die diagnostische Aufgabe abgeschlossen. Soll die Maßnahme, der eine Person als Ergebnis diagnostischer Datensammlung zugeordnet wird, hingegen nur vorläufigen, weil weiter erkundenden Charakter haben (wie z. B. eine Anstellung auf Probe, um die Bewährung an konkret anfallenden Anforderungen abschätzen zu können; eine spezifische Medikation, um zu sehen, wie der Patient »darauf anspricht« usw.), sprechen wir von einer investigatorischen Entscheidung. Somit ist das Ergebnis einer investigatorischen Entscheidung eine neue Frage oder ein ganzer Satz von neuen Fragen. Tack (1976) hat verschiedene Komponenten des diagnostischen Entscheidungsprozesses, darunter die terminalen und investigatorischen Entscheidungen, in einer Art Regelkreismodell zusammengestellt (. Abb. 6.3), dessen Grundaufbau auf Cronbach und Gleser (1965, S. 18) zurückgeht. Neu darin ist die Zielsetzung. Sie spielt eine wesentliche Rolle für die im Verlauf des diagnostischen Prozesses überhaupt in Betracht kommenden Einzelentscheidungen. So sind etwa die potentiellen Behandlungen bei Eheleuten, die wegen Partnerschaftsschwierigkeiten um Rat fragen, grundsätzlich andere als diejenigen bei depressiven Klienten oder verhaltensauffälligen Kindern. Die Einweisung in eine von mehreren freien Stellen folgt völlig anderen Prinzipien als die Beratung über mögliche berufliche Optionen. Insofern wirkt die jeweilige Zielsetzung auch auf eine Strategie, die im Zentrum des Modells steht. Strategien sind Regeln, um zu Entscheidungen zu Test 2 Kapitel 6 · Zuordnungs- und Klassifikationsstrategien . Abb. 6.2. Klassifikation, d. h. Zuweisung zu einer von 3 verschiedenen Maßnahmen auf der Basis von 2 Prädiktoren. (Nach Cronbach & Gleser, 1965, S. 12) 398 Frage C Frage B Frage A terminale Entscheidung Ergebnis investigatorische Entscheidung Strategie Zielsetzung Behandlung C Behandlung B Behandlung A Kompensatorische und konjunktive Entscheidungsstrategien Die lineare Kombination von Prädiktionswerten zu einem Rechenmaß, das eine maximale (multiple) Korrelation mit dem jeweiligen Kriterium gewährleistet, impliziert ein sog. kompensatorisches Modell. Das heißt, ein und derselbe (globale) Prädiktionswert kann durch ganz verschiedene Merkmalskonfigurationen in den Einzeltests erreicht werden, oder mit anderen Worten: Niedrige Leistungen in einigen Prädiktoren können durch hohe in anderen wettgemacht werden. Eine solche Kompensation gelingt dann besonders leicht, wenn hohe Scores in jenen Tests erzielt werden, die innerhalb der Batterie hohe β-Gewichte aufweisen. Kompensatorische Modelle liegen der diagnostischen Praxis sehr häufig zugrunde. Etwa kann das Ziel der Versetzung in die nächste Schulklasse auch bei starken Defiziten in bestimmten Fächern erreicht werden, wenn diese durch besonders gute Leistungen in anderen ausgeglichen werden (eine Fünf in einem Nebenfach ist durch eine Zwei in einem anderen kompensierbar, hingegen bedarf es bei einer Fünf in einem Hauptfach guter Noten in mehreren anderen Fächern usw.). Ein ordentlicher Verkäufer mag eine Qualifikation erreichen, indem er mit bestechender Sachkenntnis seine holprigen Umgangsformen überspielt usw. 6.2 gelangen, oder, wie es Tack (1976, S. 105) formuliert: »Darunter verstehen wir ein (normatives) System von Regeln, die angewandt auf vorliegende Informationen unter Berücksichtigung der jeweiligen Zielsetzung zu einer bestimmten Entscheidung führen.« Die wichtigsten Grundmuster derartiger Strategien sollen nachfolgend vorgestellt werden. ••• Informationen über eine Person Problemstellung 6.2 · Kompensatorische und konjunktive Entscheidungsstrategien ••• 6 Prädiktionswerte durch unterschiedliche Merkmalskonfigurationen . Abb. 6.3. Schematische Darstellung des diagnostischen Entscheidungsprozesses. (Aus Tack, 1976, S. 105) 399 6 . Abb. 6.4a,b. Entscheidungsstrategien: a kompensatorische, b konjunktive. (Aus Wieczerkowski & Oeveste, 1982, S. 931) Trennwerte »Und-Konzept« Abweisung -3 -2 -1 0 1 2 3 (Z1) a Kompensatorisches Modell -3 -2 0 1 2 2 2 Zulassung Abweisung 3 -3 -2 -1 1 b Konjunktives Modell -3 -2 0 -1 0 1 -1 2 Zŷ = -1 1 (Z 2) 3 Zulassung 2 (Z 2) 3 3 (Z1) Nur ein kleiner Schritt ist es von der kombinatorisch-kompensatorischen Strategie zu einem »Oder-Konzept«. Dort ist es nicht notwendig, die Summe aus Teilkompetenzen zu bilden, sondern es genügen entsprechend hohe Punktwerte in einem der Prädiktoren. Eine solche Auswahlstrategie liegt dann nahe, wenn die durch das Kriterium geforderte Leistung entweder auf die eine oder andere Weise erbracht werden kann, dass also für beide Prädiktoren Mindestanforderungen gestellt werden, aber ein Bewerber nur die Mindestanforderung in einem Prädiktor erfüllen muss, um zugelassen zu werden. Gute Leistungen in der Schule können beispielsweise durch Fleiß oder Begabung erreicht werden. Ein guter Lehrer mag sich für seinen Beruf durch große Fähigkeit in Mathematik oder in Geschichte empfehlen usw. Kompensatorische Strategien sind immer dort dysfunktional, wo in jedem Teilbereich bestimmte Mindestleistungen unabdingbar vorliegen müssen, um eine Tätigkeit erfolgreich ausführen zu können. Beispielsweise kann ein Chirurg nicht mangelnde feinmotorische Kompetenz durch Intelligenz kompensieren, ein Pilot nicht fehlende Sehtüchtigkeit durch gute räumliche Orientierung, ein Systemüberwacher nicht Ausfälle der Daueraufmerksamkeit durch kognitive Flexibilität usw. Hier besteht also die Forderung nach Leistungen in dem einen und dem anderen Bereich, weshalb diese Modelle auch konjunktive bzw. »Und-Strategien« heißen. Ein kompensatorisches und ein konjunktives Modell sind in . Abb. 6.4a und b für den Fall graphisch veranschaulicht, dass der für die Zulassung kritische Testtrennwert mit zŷ = –1 festgelegt worden wäre. Nach der kompensatorischen Strategie (. Abb. 6.4a) fallen alle Probanden in die Kategorie »Zulassung«, bei denen die Kombination aus z1 und z2 mindestens den Wert zŷ = –1 ergibt (also z1 = +2, z2 = –3; z1 = +1, z2 = –2 usw.). Da ein z-Wert von –1 einem Prozentrang von 16 entspricht, gehören 84% aller Probanden in die Kategorie »Zulassung«, deren Grenze durch die schräge Gerade in . Abb. 6.4a markiert wird. Dem konjunktiven Modell (. Abb. 6.4b) zufolge ist der kritische Trennwert in jeder der beiden Variablen bei z = –1 angesetzt worden. Daraus resultiert ein insgesamt konservativeres Vorgehen, d. h. die Anforderungen sind höher, um in die Kategorie der Zugelassenen zu gelangen. Dementsprechend fallen nunmehr die mit 1 und 2 bezeichneten Segmente – im Gegensatz zur kompensatorischen Strategie – unter die Abgelehnten. Gleichwohl gäbe es auch einige Probanden, die unter den gegebenen Randbedingungen unter der konjunktiven, aber nicht unter der kompensatorischen Strategie zugelassen werden. Sie sind mit 3 gekennzeichnet. Sofern die Aufnahmequoten fest vorgegeben sind, führen die kombinatorische (kompensatorische bzw. Oder-Strategie) sowie die konjunktive Und-Strategie zu unterschiedlichen Trennwerten, wie aus . Abb. 6.5 hervorgeht. Kapitel 6 · Zuordnungs- und Klassifikationsstrategien »Oder-Konzept« 400 1T2 Oder-Strategie x X1 Einstufige vs. mehrstufige Entscheidungsstrategien 1 x1T Kombinatorische (kompensatorische) Strategie Und - Strategie Persönliche Entscheidungen erfolgen meist als Elemente einer langen Endloskette. So trifft ein Abiturient vielleicht die Entscheidung zugunsten eines bestimmten Studiums. Nach dem ersten Semester stellt er fest, dass ihn die Materie weit weniger interessiert, als er zuvor angenommen hat und wechselt deshalb zu einem anderen Fach. Dort fühlt er sich überfordert und wendet sich wieder seiner ursprünglichen Wahl zu, diesmal jedoch mit anderen Schwerpunkten. Nach dem Examen geht er in die freie Wirtschaft, gründet später selbst eine Firma, die aber nach einigen Jahren wegen starker Konkurrenz eingeht, was eine erneute Umorientierung nötig macht usw. Ähnliches gilt für institutionelle Entscheidungen: Zu Vorprüfungen in einigen Studiengängen wird nur zugelassen, wer die notwendigen Leistungsnachweise in einzelnen Lehrveranstaltungen erbracht hat (. Abb. 6.6). Wiederholtes Nichtbestehen der Zwischenprüfungen führt zum Ausschluss aus dem System (d. h. dem Studiengang). Aber auch nach dem Ablegen der Zwischenprüfungen muss in weiteren Lehrveranstaltungen und Prüfungen unter Beweis gestellt werden, dass man vom Angebot des Treatments »Lehre« in hinreichender Weise profitiert hat. Das heißt, die Institution Universität sammelt im Sinne investigatorischen Vorgehens fortwährend diagnostische Informationen über den Leistungs- (und Motivations-)stand jedes Studierenden. Ganz ähnlich geht es in Behörden, Betrieben und auch im Bereich des sportlichen Wettkampfes zu. Setzt man Tests an die Stelle der Tätigkeiten, so wird klar, dass definitiv »terminale« Entscheidungen selten oder auf jene Fälle beschränkt sind, in denen eine institutionelle Entscheidungsinstanz eine Person aus ihrem System entlässt und damit keine weiteren Informationen mehr über sie erhebt. Umgekehrt ist sequentielles Vorgehen in der Lebenswirklichkeit offenkundig die Regel. 6.3 1 x2T 2 x2T X2 6.3 · Einstufige vs. mehrstufige Entscheidungsstrategien 6 »Terminale« Entscheidungen sind selten Institutionelle Entscheidungen Persönliche Entscheidungen . Abb. 6.5. Festlegung der Trennwerte (T1 und T2) in 2 Prädiktoren (X1 und X2) bei festen Selektionsraten und unterschiedlichen Auswahlstrategien 401 6 . Abb. 6.7a-e. Zwei nichtsequentielle (a und b) und 3 sequentielle (c–e) Auswahlstrategien. (Aus Cronbach & Gleser, 1965, S. 73) Sequentielles Vorgehen Einstufiges Vorgehen IV c Vorauswahl I III I II III II I IV III II e Vollständige sequentielle Strategie b Einzelteststrategie d Vorentscheidung I a Nichtsequentielle Batterie IV III Innerhalb des sequentiellen Vorgehens sind die folgenden 3 Grundmuster möglich: 4 Vorauswahl-(Pre-reject-)Strategie (. Abb. 6.7c): Nach einem ersten Test werden alle Probanden, die einen bestimmten Score nicht erreichen, von weiteren Untersu- In der diagnostischen Praxis kommt aus Zeit- und Kostengründen das einstufige Vorgehen recht häufig vor. Hier unterscheidet man die 4 »nichtsequentielle Batterie« (. Abb. 6.7a): Die gesamte Batterie wird an alle Probanden vorgegeben, und es werden diejenigen ausgewählt (III), die in dem optimal gewichteten Summenwert die höchsten Scores erzielen, und den 4 »single screen« (. Abb. 6.7b): Auf einem Test allein (Annahmebereich = II) fußen alle weiteren Entscheidungen. Kapitel 6 · Zuordnungs- und Klassifikationsstrategien . Abb. 6.6. Zu universitären Zwischen- und Abschlussprüfungen werden oft nur diejenigen Studierenden zugelassen, die bestimmte Leistungsnachweise erbracht haben 402 Das Auswahlverfahren der »Studienstiftung des Deutschen Volkes« ähnelt sehr stark der Vorauswahlstrategie: Nur mit jenen Kandidaten wird sich eingehender befasst, die aufgrund ihrer schulischen oder akademischen Leistungen aus dem Gros der Mitschüler bzw. Kommilitonen herausragen und deshalb als Kandidaten der Stiftung gegenüber nominiert werden. Unter ihnen wird mit Hilfe eines Verfahrens, das seinerseits sequentiell strukturiert ist (Gruppentestung, später Interviews mit den Testbesten), nach den vermutlich geeignetsten Personen gesucht (. Abb. 6.8). Hingegen wies die Zulassung zum Medizinstudium bis 1996/97 einige Elemente der Vorentscheidungsstrategie auf: Hier wurde ein bestimmtes Kontingent der Plätze für die nach Schulnoten Besten reserviert, des Weiteren ein Kontingent für die Besten unter denjenigen, die sich dem mehrstündigen TMS (7 Abschn. 1.6) unterzogen hatten. Für die restlichen Bewerber galt ein Zulassungsschlüssel, in den die Schulnoten und Testergebnisse mit unterschiedlichen Gewichtszahlen eingingen. Die relative Überlegenheit von sequentiellen zu nichtsequentiellen Strategien ist bei institutionellen Entscheidungen an Nutzenüberlegungen (7 dazu Abschn. 6.6) gekoppelt, d. h. die Gewinne, die eine Organisation daraus erwirtschaftet, dass auf der Basis von diagnostischen Untersuchungen die Bestgeeigneten identifiziert werden, im Vergleich zu den Kosten, die eben diese Testungen verursachen (. Abb. 6.7a–e). Dabei spielen, wie noch zu zeigen sein wird, vor allem die Validität und der Prozentanteil auszuwählender Bewerber eine wichtige Rolle. Ungeachtet der dadurch notwendigen Differenzierungen sind sequentielle Strategien den einstufigen Vorgehensweisen generell überlegen, doch verschwindet diese Überlegenheit bei extremen Selektionsraten (Cronbach & Gleser, 1965, S. 77 ff.). chungen ausgeschlossen und zurückgewiesen (I). Die verbleibenden Probanden absolvieren weitere Verfahren. Die Entscheidung über Annahme (III) vs. Ablehnung (IV) wird aus der Kombination zwischen Erst- und Folgetests getroffen. 4 Vorentscheidungs-(Pre-accept-)Strategie (. Abb. 6.7d): Nach einem ersten Teil werden alle Probanden, die einen bestimmten Trennwert überschreiten, bereits (terminal) akzeptiert (II). Mit den verbleibenden Probanden wird analog zur Vorauswahlstrategie verfahren. 4 Vollständige sequentielle Strategie (. Abb. 6.7e): Kombination der beiden vorgenannten Vorgehensweisen. Nach Maßgabe der Punktwerte in einem Test erfolgt eine Aufteilung aller Probanden in 3 Gruppen, eine, die (terminal) akzeptiert (II), eine andere, die definitiv abgewiesen (I) und eine dritte, die mit einem Folgetest untersucht wird. 6.3 · Einstufige vs. mehrstufige Entscheidungsstrategien 6 . Abb. 6.8. Beispiel für eine Pre-reject-Strategie: Zur praktischen Fahrprüfung werden nur diejenigen Bewerber zugelassen, die bereits die theoretische Prüfung bestanden haben Überlegenheit der sequentiellen Strategien Beispiel für Pre-accept Beispiel für Pre-reject 403 6 Entscheidungsfehler Risiko: 1 – α ^ ) p(KA– Risiko: α ^ ) p(KA+ ^ ^ ^ p(K A− ∩ K A − ) TN Ⳏ p(K A − ) FN + TN : Prädiktiver Wert einer negativen Zuordnung (Anteil der richtig diagnostizierten Gesunden in der Gruppe der als gesund diagnostizierten Personen) Prädiktiver Wert einer positiven Zuordnung (Anteil der richtig diagnostizierten Kranken an allen als krank diagnostizierten Personen) ^ ^ p(K A+ ∩ K A+ ) TP Ⳏ p(K A+ ) TP + FP : ^ ^ Spezifität der Zuordnungsregel (Anteil der richtig diagnostizierten Gesunden in der Gruppe der Gesunden) 1 p(KA–) p(K A− ∩ K A− ) TN Ⳏ p(K A− ) FP + TN : ^ p( TN) = p(K A − ∩ K A− ) p(FP ) = p(K A + ∩ K A− ) ^ Richtige Zuordnung (–; –) TN (wahre Negative) richtig als gesund identifizierte Gesunde Risiko: β falsche Zuordnung Typ 1 (+; –) FP (falsche Positive) fälschlich als krank bezeichnete Gesunde Risiko: 1 – β p(KA+) Sensitivität der Zuordnungsregel (Anteil der richtig diagnostizierten Kranken in der Gruppe der Kranken) KA(gesund) ^ p(FN) = p(K A− ∩ K A+ ) p( TP) = p(K A + ∩ K A+ ) ^ falsche Zuordnung Typ 2 (–; +) FN (falsche Negative) fälschlich als gesund bezeichnete Kranke richtige Zuordnung (+; +) TP (wahre Positive) richtig als krank identifizierte Kranke Grundrate K– (Diagnose »gesund«) p(K A+ ∩ K A+ ) TP Ⳏ p(K A+ ) TP + FN : Tatsächliche Zugehörigkeit KA+ (krank) Grundrate KÂ+ (Diagnose »krank«) Zuordnung aufgrund des Prädiktors . Tabelle 6.2. Arten richtiger und falscher Klassenzuordnung, zusammen mit den Zuordnungsregeln und Risiken für Fehlentscheidungen bei der statistischen Hypothesentestung. (Überarbeitet nach Kallus & Janke, 1992, S. 175 und 178) Die zentrale Aufgabe von Zuordnungsstrategien besteht darin, Fehler bei der Klassenzuordnung zu vermeiden. Derartige Fehler liegen immer dann vor, wenn die Zuordnung aufgrund der Prädiktorvariablen nicht mit der tatsächlichen Klassenzugehörigkeit übereinstimmt. Für den Fall von 2 Klassen sind in . Tab. 6.2 die 4 möglichen Kombinationen von Übereinstimmung/ Nichtübereinstimmung der Vorhersagen des 6.4 Sequentielle Entscheidungen lassen sich stets auf eine Folge einstufiger Klassenzuordnungen reduzieren. Deshalb genügt es, nachfolgend einige grundlegende Probleme nur für einstufige Strategien zu besprechen. Kapitel 6 · Zuordnungs- und Klassifikationsstrategien Fehler bei der Klassenzuordnung vermeiden 404 Sensitivität und Spezifität lassen sich unabhängig von den Grundraten oder der Prävalenz bestimmen; hingegen unterliegen die Prädiktions- oder Vorhersagewerte sehr stark deren Einfluss. Das wird sogleich deutlich, wenn man sich den Grundlagen der Selektion und dort insbesondere den Bemühungen von Taylor und Russell (1939) um eine Verbesserung der Effizienz von Auswahlentscheidungen zuwendet. Beide Autoren haben erstmals gezeigt (und dafür ausführliche Tabellenwerke erstellt), dass es auch bei Tests mit einer nur mäßigen Validität möglich ist, hochgradig effizient auszuwählen, d. h. weitgehend nur diejenigen Bewerber, die später auch erfolgreich sein werden. Voraussetzungen dafür sind allerdings hohe Grundraten der ohne Testung Erfolgreichen und eine niedrige Selektionsrate. Die Prinzipien sind schematisch in . Abb. 6.9 veranschaulicht. (Test und Kriterium sind hier – dem Regelfall entsprechend – positiv gepolt, d. h. höhere Werte stehen jeweils für höhere Leistungen im Test und höheren »Erfolg« im Kriterium. Um die Gegebenheiten aus . Tab. 6.2, wo es um die Identifikation von Krankheiten ging, darauf zu übertragen, müssten höhere Werte in T und K mit größerer Wahrscheinlichkeit von »Krankheit« gleichgesetzt werden, was durchaus Sinn macht, wenn man etwa Skalen für Krankheitsdisponiertheit einsetzt; die Erfüllung des Kriteriums »Krankheit« wäre in diesem Sinne der Vorhersage gemäß ein »Erfolg«, obwohl Krankheit als solche üblicherweise damit nicht gleichgesetzt wird.) Das Verhältnis der im Kriterium erfolgreichen Probanden zur Gesamtzahl aller Meßwertträger, also der Quotient (TP+FN)/N definiert die Basisrate; dafür ist auch die Bezeichnung »natürlicher Eignungsquotient« geläufig (»Success without use of test«). Die Effizienz der Auslese bemisst sich nach dem Anteil der Geeigneten an allen Ausgewählten, also gemäss TP/(TP+FP). Dieser Term heißt »selektiver Eignungsquotient«, und er ist, wie ein vergleichender Blick auf Tab. 6.2 lehrt, identisch mit dem dort aufgeführten »positiven Prädiktionswert«. Verändert man den Testtrennwert, der über Annahme oder Ablehnung entscheidet, von x1 zu x′1, so stellt sich ein positiver Prädik- Im Anschluss an . Tab. 6.2 sind die Gütekriterien aufgeführt, die zur Beschreibung einer Entscheidungsstrategie errechnet werden können (nach Noack & Petermann, 1992, S. 299): 4 Sensitivität: die Wahrscheinlichkeit, mit der ein vorliegender positiver Zustand als solcher erkannt wird. 4 Spezifität: die Wahrscheinlichkeit, mit der ein vorliegender negativer Zustand als solcher erkannt wird. 4 Positiver Prädiktionswert: die Wahrscheinlichkeit, mit der eine positive Diagnose zutreffend ist. 4 Negativer Prädiktionswert: die Wahrscheinlichkeit, mit der eine negative Diagnose zutreffend ist. Prädiktors mit der »wahren« Kategorienzugehörigkeit zusammengestellt, und zwar der besseren Anschaulichkeit halber mit den aus der klinischen Diagnostik dafür gebräuchlichen Begriffen. KA+ bzw. KA– bezeichnen die Kategorien der klinisch Kranken und Gesunden. KÂ+ und K– stehen für die aufgrund der Prädiktoren geschätzte Klassenzugehörigkeit. Demnach sind 2 Arten von Zuordnungsfehlern zu unterscheiden: 4 Fehler erster Art: FP = falsche Positive, d. h. Personen werden als krank bezeichnet, obwohl sie gesund sind. 4 Fehler zweiter Art: FN = falsche Negative, d. h. Personen werden als gesund diagnostiziert, obwohl sie der Krankengruppe angehören. 6.4 · Entscheidungsfehler Selektiver Eignungsquotient Effizienz der Entscheidungen Taylor-Russell-Tafeln Gütekriterien einer Entscheidungsstrategie Fehler 1. und 2. Art 405 6 6 Entscheidungsregeln Bedingte Fehlerzuordnungswahrscheinlichkeiten Bedeutung der Fehlerarten unterschiedlich TN FN x1 FP TP x1' x1'' T tionswert von 1,0 ein (d. h. alle durch den Test Ausgewählten sind auch tatsächlich erfolgreich). Dieser ist allerdings auch abhängig von der Grundrate, denn wenn diese anstelle von y1 durch den Kriteriumstrennwert y′1 definiert wäre, würde ein Trennwert x′1 noch einen kleinen Teil von FP mit auswählen (in der Abbildung andersfarbig schraffiert gekennzeichnet). Deshalb bedürfte es eines noch weiter hinausgeschobenen Testtrennwertes x″1, um auch bei der niedrigeren Rate natürlicher Eignung einen höchstmöglichen positiven Prädiktionswert zu gewährleisten. Es fällt also leichter, bei einer hohen Grundrate geeigneter Probanden effektiv im Sinne dieser Konzeption zu arbeiten, oder mit anderen Worten: Die Güte des Zuordnungsverfahrens hängt stark von der Grundrate ab. Was diese Güte angeht, so wird sie allgemein in dem Sinne definiert, dass eine Regel »zulässig« ist, wenn es keine andere gibt, die besser ist. »Besser« bedeutet mindestens so gute Trefferraten in jeder der Klassen und Überlegenheit in mindestens einer weiteren. Dabei können Nutzenerwägungen eine Rolle spielen, die Abhebung von Zufallstreffern oder eine besondere Gewichtung spezifischer Kategorien. So kann beispielsweise die Zuordnung zur Kategorie KÂ+ in . Tab. 6.2 als eine Entscheidung mit der größeren Bedeutung (»Alternativhypothese«) angesehen werden, weil nur dies die Einleitung einer Behandlung sicherstellt. Deshalb kommt es darauf an, die Wahrscheinlichkeit einer fälschlichen Nicht-Zuordnung zu dieser Klasse (also die Annahme der Nullhypothese bei gültiger Alternativhypothese) zu minimieren (= Fehler zweiter Art, FN, β-Fehler). Damit sind die Prinzipien der statistischen Hypothesenprüfung angesprochen. Um diese anwenden zu können, müssen die bedingten Fehlerzuordnungswahrscheinlichkeiten herangezogen werden. Das heißt, die in den Feldern von . Tab. 6.2 eingetragenen absoluten Wahrscheinlichkeiten müssen auf die jeweiligen Grundraten relativiert werden (woraus sich die Formeln im unteren Teil der Tabelle ergeben). Um die Fehler bei Zuordnungsverfahren gering zu halten, bieten sich mehrere Arten von Entscheidungsregeln an (nach Kallus & Janke, 1992, S. 179): y1 y1' K Kapitel 6 · Zuordnungs- und Klassifikationsstrategien . Abb. 6.9. Anteile von: Richtig klassifiziert Positiven (TP), falsch klassifiziert Positiven (FP), falsch klassifiziert Negativen (FN) und richtig klassifiziert Negativen (TN). Im Fall von FP lautet die Diagnose aufgrund des Tests »erfolgreich«, obwohl die Probanden im Kriterium nicht erfolgreich sind, im Fall von FN »nicht erfolgreich«, obwohl Erfolg tatsächlich vorliegt 406 p(x i /K A + ) >c p(x i /K A − ) (6.1) Wird c = 1 gesetzt, ergibt sich die Zuordnung nach dem Prinzip der maximalen Gruppenzugehörigkeitswahrscheinlichkeit. Durch Einsetzen anderer Werte für c lässt sich die Sensitivität zu Lasten der Spezifität und vice versa beeinflussen. Desgleichen können Multiplikatoren von c herangezogen werden, um Kosten-NutzenÜberlegungen mit einzubinden. Bei einer Berücksichtigung der Grundraten muss der Likelihood-Quotient anhand der empirischen Wahrscheinlichkeiten errechnet werden. 4 Regressionstechniken: Durch Einsetzen der individuellen Prädiktionswerte in die für das anstehende Problem ermittelte Regressionsgleichung werden individuelle Kriteriumswerte ermittelt. Die Zuordnung zu den Kategorien erfolgt durch Differenzbildung mit kritischen Kriteriumswerten. xi = Vektor aller Prädiktoren eines Individuums i. L(x i ) = Je nach diagnostischer Fragestellung ist einer der vorgenannten Regeln der Vorzug zu geben. Die Analyse von Zuordnungsfehlern setzt voraus, dass zuvor eine Zuordnung bereits stattgefunden hat. Diese kann sich verschiedener Methoden bedienen: 4 Zugehörigkeitswahrscheinlichkeiten: Auf der Basis von Wahrscheinlichkeitstafeln, wie sie Taylor und Russell (1939) erarbeitet haben, erfolgt die Zuordnung zu derjenigen Klasse, der das Individuum nach Maßgabe der Ausprägung im Prädiktor mit der größten Wahrscheinlichkeit angehört. Dafür wird der Likelihood-Quotient herangezogen: Likelihood-Quotient Zuordnungsmethoden Minimum-Loss Minimax 6 ROC-Kurve: Unabhängige Bestimmung von Spezifität und Sensitivität Cattellsche Formel Euklidische Distanz Kapitel 6 · Zuordnungs- und Klassifikationsstrategien 2 ⋅ χ 0,5( k )2σ 2 − D2 2 ⋅ χ 0,5( k )2σ 2 + D2 (6.3) Festsetzung von Testtrennwerten Je nachdem, zu welchem der Gruppenvergleichsprofile die größere Ähnlichkeit bzw. geringere Distanz besteht, geschieht die Zuordnung des Einzelfalles. Allerdings setzt die Berechnung der Distanz D die Unabhängigkeit der Prädiktoren voraus, die nur in den wenigsten Fällen vorliegen dürfte. Die Mahalanobis-Distanz als Verallgemeinerung der Euklidischen Distanz verlangt diese Voraussetzung nicht (zu den Details und Einschränkungen s. Kallus & Janke, 1992). k = Anzahl der Freiheitsgrade, σ = Standardabweichung der Profilnormen. ri = Desgleichen ist die von Lienert (1989) adaptierte Cattellsche Formel gebräuchlich: Aus der Beschäftigung mit den positiven Prädiktions- oder Vorhersagewerten bzw. dem selektiven Eignungsquotienten im vorangegangenen Abschnitt ist bekannt, dass sich diese Größen durch Verschiebung des Trennwertes vergleichsweise einfach verändern lassen: Je weiter der kritische Cut-off in Richtung auf das zu identifizierende Merkmal (z. B. Krankheit oder Eignung) hin angehoben wird, um so höher fallen die besagten Quotienten aus. Allerdings wird damit nur der Fehler einer falsch positiven Entscheidung (FP, . Abb. 6.9) ins Kalkül gezogen, nicht aber derjenige der falsch negativen. Zudem sind für die Festlegung des Testtrennwertes die Grundrate bzw. der natürliche Eignungsquotient von Bedeutung. Mit Hilfe der sog. ROC-Kurve (von Receiver-Operating Characteristic aus der Signal-Entdeckungs-Theorie; s. Schäfer, 1989) lassen sich simultan Spezifität und Sensitivität unabhängig von den Basisraten für verschiedene Testtrennwerte bestimmen, sofern aufgrund empirischer Untersuchungen die Verteilungskennwerte der unterschiedlichen Gruppen ermittelt werden konnten. In 6.5 (6.2) dj = Profildifferenz von 2 Probanden (oder Gruppen von Merkmalsträgern) in einem Test. D = ∑d j 2 gleichbar, nur noch einfacher. Denn durch Einsetzen der individuellen Testwerte in die Diskriminanzfunktion resultiert ein Wert, der entweder größer, gleich oder kleiner ist als der kritische Diskriminationswert, der die Klassen voneinander trennt. Entsprechend kann anhand des individuellen Diskriminationswertes unmittelbar die Zuordnung zu einer der Gruppen vorgenommen werden. 4 Ähnlichkeits- bzw. Distanzmaße: Häufig wird ein individuelles Testwerteprofil mit dem durchschnittlichen Profil verschiedener Gruppen von Personen (z. B. Schülern des sprachlichen oder mathematischen Zweiges; Angehörigen verschiedener Berufe; erfolgreichen und nichterfolgreichen Stelleninhabern usw.) verglichen. Dafür stehen verschiedene Maße zur Verfügung, z. B. das Ähnlichkeitsmaß (Euklidische Distanz) von Osgood und Suci (1952): Verschiebung des Entscheidungskriteriums 408 4 Diskriminanzanalyse: Das Verfahren ist demjenigen der multiplen Regression ver- 6 entscheidungen in die Klassenzuordnungsunterscheidung mit einzubeziehen. Sein Prinzip besteht darin, das Modell der statistischen Hypothesenprüfung auf die Klassenzuordnungsentscheidung anzuwenden. In Analogie zur Festlegung des kritischen Wertes der Teststatistik bei der Hypothesenprüfung wird das Entscheidungskriterium so verschoben, dass das Risiko für den Fehler erster Art unterhalb eines frei bestimmbaren Wertes liegt (z. B. α < 0,05 oder 0,01 usw.). Allerdings wächst mit der Reduzierung des Fehlers erster Art derjenige zweiter Art, und zwar in einem unbekannten Ausmaß. Deshalb ist ein solches Modell nur in Situationen sinnvoll, in denen Fehlentscheidungen zweiter Art vergleichsweise unbedeutend sind. In der klinischen Diagnostik dürften solche Fehler aber gravierendere Ausmaße aufweisen als diejenigen erster Art (weil die Vorenthaltung einer Behandlung im Zweifelsfall die Gefahr größerer Fehlentwicklungen beinhaltet als die Vornahme einer überflüssigen Behandlung und die damit möglicherweise einhergehende Stigmatisierung). 4 Nach dem Minimax-Kriterium wird der maximale Zuordnungsfehler (betrachtet in allen Klassen) möglichst klein gehalten. Der Betrag des größten Zuordnungsfehlers aller Klassen/Kategorien/Gruppen ist am geringsten. 4 Das Minimum-Loss-Kriterium minimiert die Zuordnungsfehler über alle Klassen hinweg. Dies kann im Vergleich zum Minimax-Kriterium bedeuten, dass eine Konstellation gewählt wird, bei der ein Zuordnungsfehler einer Kategorie/Klasse/Gruppe im Vergleich zu allen anderen relativ hoch ist. 407 4 Das Neyman-Pearson-Kriterium erlaubt es, unterschiedliche Risiken von Fehl- 6.4 · Entscheidungsfehler x2 x3 Testwert z. B. IQ mögliche Cut-off-Werte x1 Verteilung der positiven bzw. geeigneten Personen 1,0 0,0 b x3 x2 x1 ROC- Kurve 409 Die engen Beziehungen zur Fairness-Problematik liegen auf der Hand (7 Abschn. 2.3.2.2). »Die Festsetzung kritischer Trennwerte stellt somit ein Problem dar, für das es eine eindeutige Lösung nicht gibt, weil sie zugleich ein Werturteil erfordert, das nicht allein wissenschaftlich begründbar ist, sondern stets auch auf persönlichen, sozialen und ökonomischen Werten sowie auf praktischen Erwägungen beruht« (Wieczerkowski & Oeveste, 1982, S. 929f.). . Abb. 6.10a und b ist dafür ein Beispiel gegeben. Auf der Abszisse ist nicht die Spezifität, sondern die Rate Falsch-Positiver (=1-Spezifität) abgetragen. Wie ersichtlich, geht mit der Heraufsetzung des Testtrennwertes von X1 über X2 nach X3 ein Rückgang der Fehlerrate vom Typ 1, FP (d. h. eine Zunahme an Spezifität) sowie eine Zunahme der Fehler vom Typ 2, FN (d. h. eine Abnahme der Sensitivität) einher. Damit sind die betreffenden Kennwerte zwar »unter einen Hut gebracht«, doch bedarf es auch in solchen Fällen einer zusätzlichen Bewertung der einzelnen Ausgänge und Fehlermöglichkeiten, die völlig unabhängig von methodischen Zugängen ist. Wieczerkowski und Oeveste (1982, S. 929) zitieren ein Beispiel aus der Literatur zum Zusammenhang zwischen einem Prädiktor und dem Erfolg im Studium. Zwingen etwa die Kosten für die Ausbildung und knappe öffentliche Gelder dazu, das Risiko des Scheiterns möglichst niedrig zu halten, würden nur Bewerber zugelassen, bei denen die Wahrscheinlichkeit für Erfolg bei – sagen wir – 75% liegt; das hätte einen Trennwert von 112 zur Folge. Sprächen aber gesellschaftliche Werte und pädagogisch relevante Gründe dafür, den Schülern eine möglichst große Wahlfreiheit einzuräumen, könnte man sich auch mit einer nur ca. 25%igen Erfolgsaussicht zufrieden geben, was einem Trennwert von 82 entspräche. Im ersten Entscheidungsfall würde die Zahl fälschlich zugelassener Schüler verringert, aber der Anteil fälschlich abgewiesener erhöht, im zweiten der Anteil fälschlich abgewiesener vermindert und die größere Rate fälschlich zugelassener in Kauf genommen. 1,0 6 Kritische Trennwerte beinhalten Werturteile Zusätzliche Bewertung der möglichen Ausgänge Komplementäre Veränderung der Fehler Fehlerrate = 1 - Spezifität . Abb. 6.10a,b. Verteilungen von 2 Gruppen unterschiedlicher Eignung (a) für die eingetragenen Optionen möglicher Trennwerte (b) und ROC-Kurve (Aus Noack & Petermann, 1992, S. 300) a Verteilung der negativen bzw. ungeeigneten Personen 6.5 · Festsetzung von Testtrennwerten Sensitivität 6 Strategiematrix Nutzenfunktionen Nutzenerwägungen 1 > xiTe 0 0 ≤ xiTe 1 ≤ 2,5 1 0 0 0 0 0 1 0 .05 .90 .00 .80 .95 .05 .20 .10 – probabilistisch + !d +b –c alternativ Entscheidungen t > 2,5 Informationsklassen r Anmerkung. a Hohe Schulnoten stehen hier für gute Leistungen. b + = Akzeptieren (terminal). c - = Ablehnen (terminal) d ! = weitere Informationen einholen (investigatorisch). e x = Testtrennwert. iT Intelligenzquotient Schulnoten a Informationsquelle .00 .05 .80 .10 ! . Tabelle 6.3. Strategiematrix für zwei unterschiedliche Informationsquellen und dichotome bzw. kontinuierlich abgestufte Entscheidungswahrscheinlichkeiten Institutionelle und individuelle Entscheidungen werden getroffen, weil sich die jeweiligen Organisationen bzw. Personen im Fall richtiger Entscheidungen etwas davon versprechen, nicht zuletzt positive ökonomische Auswirkungen, also Gewinne, während bei falschen Entscheidungen die Gefahr von Verlusten droht. So mögen sich für ein Unternehmen die erheblichen Investitionen für das Auffinden, Abwerben und Einstellen einer fähigen Führungskraft um ein Vielfaches wieder auszahlen, wenn es die richtige Wahl war. Umgekehrt kann eine krasse Fehlbesetzung an wichtiger Stelle den Konzern an den Rand des Ruins bringen, wie viele Beispiele aus der Gegenwart anschaulich vor Augen führen. Auch individuelle Entscheidungen für Ausbildung und Beruf können sich in »Mark und Pfennig« bemerkbar machen, weil bei richtigen Entscheidungen unter sonst gleichen Voraussetzungen ein vergleichsweise höherer Erfolg als bei falschen zu erwarten steht. Cronbach und Gleser (1965) haben diese ökonomische Dimension bei institutionellen Entscheidungen formalisiert und Nutzenfunktionen entwickelt, mit deren Hilfe sich der Gesamtnutzen einer Entscheidungsstrategie bestimmen lässt. Dafür ist eine sog. Strategiematrix unabdingbare Voraussetzung. In ihr sind die Regeln festgehalten, nach denen auf der Basis von diagnostischen Informationen Entscheidungen getroffen werden sollen. Die Werte einer solchen Matrix geben die Wahrscheinlichkeit an, mit der ein Proband, von dem die Information xr vorliegt, der Behandlung t zugeführt wird: p(t|xr). In . Tab. 6.3 ist ein Beispiel für eine solche Strategiematrix wiedergegeben. Wie ersichtlich, verlangt die Strategie in der diskreten Formulierung, dass bei überdurchschnittlichen Schulnoten der Proband akzeptiert, bei unterdurchschnittlichen dagegen weiter untersucht wird. Im Fall der IQ-Testung ist eine solche investigatorische Entscheidung nicht vorgesehen. Anstelle der imperativen 0/1-Regel sind auch probabilistische Verknüpfungen möglich, wie sie im rechten Teil der Tabelle angegeben sind. 6.6 Kapitel 6 · Zuordnungs- und Klassifikationsstrategien Gewinne bei richtigen Entscheidungen 410 p(1/2t) >xiTe ≤xiTe p(2/2t) p(2/1t) .35 .15 .20 p(3/2t) p(3/1t) .30 .25 .05 nicht erfolgreich (3) 1.00 .50 .50 Summe U ec = Utility, = Nutzen der Kriteriumsleistung c, II III U = N∑p(x r )∑p(t|x r )∑p(c|x r ,t )ec − N∑p(x r ) ⋅ cr r t c r IV I (6.4) Darüber hinaus bedarf es einer Verknüpfung zwischen den vorgenommenen Behandlungen und deren Ergebnis, gleichsam dem Erfolg im Kriterium. Diese Verknüpfung wird festgehalten in der sog. Validitätsmatrix. Deren Einträge geben die Wahrscheinlichkeit dafür an, dass ein Proband mit xr und der Behandlung t den Kriteriumswert cr erlangt: p(c|xr,t). Die Kriteriumswerte können im einfachsten Fall dichotome Kategorien (erfolgreich/nicht erfolgreich; gesund/krank) bilden; möglich sind auch kontinuierliche Abstufungen. . Tabelle 6.4 gibt ein Beispiel für eine Validitätsmatrix. Analoge Matrizen müssten auch für die beiden anderen Behandlungen in . Tab. 6.3 angefertigt werden. (Daraus werden bereits die empirischen Schwierigkeiten deutlich, denn die Abgelehnten kommen möglicherweise auf einem anderen Weg, z. B. in einer anderen Schule, doch zum Erfolg.) Schließlich ist es erforderlich, jeder Kriteriumsklasse C einen Nutzenvektor ec und jeder Informationsklasse einen Kostenvektor cc zuzuordnen. Der Nutzen ist der Wert, der sich bei jeder Stufe des Kriteriums für die auslesende Institution ergibt; die Kosten gelten den Aufwendungen, die zur Gewinnung der jeweiligen Information notwendig sind. Eine erfolgreiche Führungskraft, eingestellt im Alter von 45 Jahren, kann dem Unternehmen vielleicht 500.000 € wert sein (jährliches Gehalt von 100 000 € mal 20 absehbare Berufsjahre. Vermutlich stellt dieser Ansatz jedoch eine Unterschätzung dar, weil der Mitarbeiter angeworben wurde, um den Profit des Unternehmens zu mehren, er also »mehr wert« ist, als es seinem Gehalt entspricht) und eine mäßig erfolgreiche Kraft vielleicht nur die Hälfte, während ein Versager mit einem Minusbetrag von angenommen 500.000 € zu Buche schlägt. Wichtig ist, dass Nutzen und Kosten auf derselben Skala abgetragen sein und mindestens Intervallniveau aufweisen müssen. Für monetäre Einheiten, also Geld, sind diese Erfordernisse erfüllt. Gestützt auf die Eintragungen in der Strategiematrix und den Validitätsmatrizen sowie die Werte des Nutzen- und Kostenvektors lässt sich die folgende nichtparametrische Nutzenfunktion aufstellen (nach Crombach & Gleser, 1965, S. 24): .35 .10 .25 p(1/1t) Testwerte weniger erfolgreich (2) Kriteriumsklassen C erfolgreich (1) Informationsklassen . Tabelle 6.4. Beispiel einer Validitätsmatrix für die Behandlung tA (Annahme), zwei Informations- und drei Kriteriumsklassen. In den Feldern der Matrix bedingte Wahrscheinlichkeiten für das Eintreten der Ereignisse 6.6 · Nutzenerwägungen Voraussetzungen: Intervall-Skalen-Niveau Vektoren für Nutzen und Kosten Validitätsmatrix 411 6 6 Netto-Nutzen A-priori-Nutzen Nutzenmodell von Brodgen = Wert aus der Validitätsmatrix für die Behandlung t, = Wert aus der Strategiematrix, = Wahrscheinlichkeit der Informationsklasse r, = Kosten für die Einholung der Information r, = Anzahl der Probanden, auf die die Strategie angewendet wird, = erwarteter Nutzen eines Individuums im Kriterium, wenn es sich in Informationsklasse r befindet und es der Behandlung t zugeführt wird, = erwarteter Nutzen eines Individuums in der Informationsklasse r, = erwarteter Nutzen eines Individuums (= Mittelwert über Kriteriumsklassen, Behandlungen und Informationsklassen), = erwartete Kosten zur Informationseinholung über einen Probanden. = durchschnittlicher Nutzen, den ein Proband bei Treatment A (Annahme) der Institution bringt, = Streuung der erwarteten Nutzenwerte, = Korrelation zwischen Prädiktor und (Nutzenunterschieden im) Kriterium, et(A), se, rxe müssen vor der Testanwendung in der Grundgesamtheit bestimmt werden, = Ordinate der Standardnormalverteilung im (standardisierten) Testtrennwert xiT, = Selektionsrate beim Trennwert xiT, = Kosten. (6.5) (6.6) (6.7) Geteilt durch die Zahl der getesteten Probanden, erhält man den Nettonutzen »per man tested« (Cronbach & Gleser, 1965, S. 308), also pro untersuchte Person. Wie aus den Gleichungen hervorgeht, spielen die Validität des Tests, die Variabilität der Nutzen und die Selektionsquote für den Nutzen eine Rolle; wenn beispielsweise die Selektionsquote extrem hoch oder niedrig ist, kann auch der Einsatz eines hochvaliden Tests keinen Nutzen bringen. U − U o = N ⋅ s e ⋅ rxe ⋅ V( xiT) − NC x Der Nutzen durch Anwendung des Tests (Nettonutzen) an N Probanden bemisst sich deshalb als U o = Nφ( xiT) e t ( A ) Der A-priori-Nutzen ist jener, der daraus resultiert, wenn N · φ(xiT) Personen aus der Grundgesamtheit durch Zufall ausgewählt werden: φ(xiT) C V(xiT) se rxe et(A) U = N ⋅ s e ⋅ rxe V( xiT) + N ⋅ φ( xiT) e t ( A ) − NC x Wenn Nutzen und Kosten mit der Zahl der untersuchten Probanden multipliziert werden, so ergibt die Formel den erwarteten Nettonutzen einer Strategie, insoweit diese auf eine Gruppe von N Individuen angewendet wird. Werden für die Informations- und Kriteriumskategorien Kontinuitätsannahmen gemacht, konstante Kosten für alle Probanden unterstellt und eine lineare Beziehung zwischen Testwerten und Nutzen angenommen, dann geht das Modell in dasjenige von Brogden (1949) über. Dessen zentrale Formel lautet: IV II III p(c|xr,t) p(t|xr) p(xr) cr N I Kapitel 6 · Zuordnungs- und Klassifikationsstrategien Nettonutzen einer Strategie 412 Zwischenzeitlich sind die geschilderten Modelle unter anderem durch die Berücksichtigung des Zeitfaktors und des Kalkulationszinsfußes sowie den Einfluss der Gewinnsteuern und die Diskontierung für sofort anfallende Kosten präzisiert worden (s. die Übersicht bei Boudreau, 1991). Auch sind wesentliche Fortschritte erzielt worden bei der Methodik zur Bestimmung der Leistungsstreuung. Die Voraussetzung des linearen Zusammenhanges zwischen Prädiktor und Nutzen wird vielfach nicht erfüllt sein. Etwa ist denkbar, dass an Probanden gewisse Mindestanforderungen gestellt werden müssen, d. h. erst ab einem bestimmten Testwert steigt die Regressionsgerade sprunghaft an. Auch sind Gegebenheiten leicht vorstellbar, bei denen eine umgekehrt U-förmige Regressionslinie besteht, weil vielleicht die im Test besonders leistungsfähigen Probanden durch die auszuführende Tätigkeit unterfordert werden und deshalb mäßigere Kriteriumsleistungen erbringen. Abgesehen von diesen spezifischen Gesichtspunkten bereitet es größte Schwierigkeiten, die Werte für die Validitätsmatrizen zu erhalten, denn es darf für deren Bestimmung keine vorherige Selektion gemäß der Entscheidungsstrategie vorgenommen worden sein, oder mit anderen Worten: Die in Betracht kommenden Personen hätten (nach Zufall) auf die vorhandenen Treatments aufgeteilt und längsschnittlich begleitet werden müssen, um die Erfolgsraten adäquat ermitteln zu können. Neben diesem Grundsatzproblem stellt sich die Bestimmung der Geldwertäquivalente als vergleichsweise einfach dar. Zumindest die Kosten scheinen hier auf den ersten Blick in den Griff zu bekommen sein (. Abb. 6.11), weil leicht zu eruieren ist, was man für den Test selbst sowie für dessen Administration und Auswertung bezahlen muss. Korrekterweise müssten allerdings auch die Aufwendungen für die Entwicklung eines Verfahrens und die Ausbildung des Diagnostikers umgelegt werden. Schwerer zu beziffern ist dagegen der Verlust, der bei (richtiger oder fälschlicher) Abweisung entsteht. Cronbach und Gleser (1965, S. 36 ff.) stellen im Hinblick darauf lapidar fest: 6.6 · Nutzenerwägungen 6 . Abb. 6.11. Die praktischen und finanziellen Konsequenzen einer »Fehlbesetzung« von verantwortungsvollen Positionen können beträchtlich sein Bestimmung der Geldwertäquivalente Linearität des Zusammenhanges 413 6 Kalkulation der Nutzenwerte Kostensenkung durch Psychotherapie Dies ist ein sehr einfacher Ansatz, der der bisherigen Praxis in Institutionen allerdings wohl noch am besten gerecht wird. Betriebswirtschaftlich müsste man von Opportunitätskosten sprechen im Sinne eines dadurch entgangenen Gewinns, dass ein geeigneter Bewerber fälschlicherweise nicht angenommen worden ist. Für den Bildungsbereich und auch für therapeutische Zwecke ist eine direkte Übertragung eines solchen Ansatzes, der die institutionelle Perspektive verfolgt, nicht prinzipiell ausgeschlossen, selbst wenn weiterhin eine angemessene Berücksichtigung auch der individuellen Kosten und Nutzen in den Modellen nicht geleistet wird. In gewissen Grenzen müssen zudem individuelle Verluste als gesellschaftliche Kosten verstanden werden, weil in einem Sozialstaat der Einzelne nicht einfach seinem Schicksal überlassen bleibt, auch wenn er von einer oder mehreren Institutionen abgewiesen wurde. In einem solchen Sinne und unter Heranziehung von Anhaltspunkten über die Effektivität eines Trainings bzw. die relative Wirksamkeit einer Behandlung konnte gezeigt werden, dass sich durch psychotherapeutische Intervention bei Alkoholismus, bei Asthma bronchiale, Angst- und Panikattacken sowie psychosomatischen Störungen die Kosten, die anderenfalls durch Inanspruchnahme von stationären medizinischen Diensten, Arbeitsunfähigkeit und Frühberentung entstanden wären, in ganz erheblicher Weise senken ließen (7 die Übersicht bei Amelang, 1999). Die Kalkulation der Nutzenwerte ist bei elementaren Leistungen (wie z. B. Stückzahlen im Akkord oder am Fließband) noch vergleichsweise einfach, bereitet aber auch bei komplexeren Tätigkeiten keine unüberwindlichen Schwierigkeiten. So war in der Studie von Brandstätter (1970) die durchschnittliche Gesamtleistung der nach Schulzeugnis und psychologischen Tests ausgewählten Rechtspfleger um ca. 16.000 DM nützlicher als die Durchschnittsleistung der nur nach dem Schulzeugnis ausgewählten Bewerber - doch orientierte sich die Untersuchung am Erfolg in der Ausbildung und nicht demjenigen in der beruflichen Praxis. Gösslbauer (1981) beziffert den Nutzen der Auswahl für Studienplätze auf den negativen Betrag von U = –115.700.000 DM. Demgegenüber erzielte ein biographischer Fragebogen, der zur Auswahl von Mitarbeitern einer Versicherungsgesellschaft benutzt wurde und eine inkrementelle Validität von nur r = .18 im Vergleich zu den Daten aus den Bewerbungsunterlagen und Erstgesprächen aufwies, für 3 Anwendungsperioden und 4 Jahre Wirkung einer Anwendung einen Netto-Barwert-Nutzen von nicht weniger als einer halben Million DM; das Verhältnis von Kosten zu Erträgen lag bei 1:5 (s. Barthel & Schuler, 1989). Für ein neues Auswahlverfahren in Forschung und Entwicklung ermittelten Schuler, Funke, Moser und Donat (1995) selbst unter der Annahme ungünstigster Bedingungen (Durchführung nur eines Assessment Centers pro Jahr mit 10 Bewerbern, von denen die Hälfte angenommen würde; inkrementelle Validität r = .20) noch einen Gewinn von nahezu 100.000 DM für das Unternehmen. Weitere Anwendungsbeispiele finden sich bei Weinstein und Fineberg (1980). Hunter und Schmidt (1992) haben die beträchtlichen Auswirkungen auf die Produktivität einer ganzen Nation herausgestellt, wenn die Arbeitsplätze auf den unterschiedlichen Ebenen der Beschäftigungshierarchien nach Gesichtspunkten einer optimierten Platzierung vergeben werden. Ein anderer Ansatz zur Schätzung des Nutzens bezieht sich nicht auf die Parameter der Cronbach- und Gleser-Gleichungen, sondern geht von einer durchschnittlichen volkswirtschaftlichen Wertschöpfung jedes unselbstständig Beschäftigten von ca. »Die Entscheidung, einen Bewerber zurückzuweisen, bedeutet meist, dass er keinen weiteren Kontakt mit der Institution hat. Wir können daher das Ergebnis einer solchen Entscheidung so betrachten, als habe es einen Wert von Null.« Kapitel 6 · Zuordnungs- und Klassifikationsstrategien Individuelle und gesellschaftliche Kosten und Nutzen 414 Abschließende Bemerkungen Entscheidungstheoretische Prinzipien haben in der psychologischen Praxis bislang keine breite Anwendung erfahren. Das liegt unter anderem daran, dass beispielsweise im klinisch-therapeutischen Alltag, z. T. aber auch im Bildungswesen - abgesehen von Grobkategorien wie Gesprächs- oder Verhaltenstherapie, ambulant oder stationär vorgenommene Behandlungen usw. - keine klar abgrenzbaren Treatments vorliegen. Die einzelnen Behandlungen können zudem in der Interaktion von Therapeut und Klient individuell abgewandelt werden, so dass es eine unüberschaubare Zahl von Interventionsmöglichkeiten gibt, für die die Erfolgschancen im einzelnen unmöglich ermittelt werden können. Gleiches gilt für die noch vorgeordnete Problematik einer Quantifizierung bedingter Wahrscheinlichkeiten für die Zugehörigkeit zu einzelnen Klassen. Angesichts dieser grundsätzlichen Probleme verlassen sich viele Praktiker bei der Bewältigung der einzelnen Fälle auf ihre »Erfahrung« und verschreiben sich somit mehr den sog. klinischen als den statistischen Verfahrensweisen. Ein Ansatz, dabei wenigstens Nutzenerwägungen praktisch umsetzen zu können, besteht in der sog. MAUT-Technik (Multi-Attributive Utility-Technique; s. Slovic et al., 1977). Dabei werden alle bedeutsam erscheinenden Aspekte von Nutzen (und nicht nur der ökonomische) zunächst generiert und im Hinblick auf ihre Wichtigkeit eingeschätzt. Das Produkt aus relativer Wichtigkeit eines Aspektes und aus dem Nutzen der Alternativen für diesen Aspekt wird für jede Behandlungsalternative errechnet. Der höchste Wert gibt den Ausschlag dafür, welche Intervention angewendet wird. 6.7 Insgesamt handelt es sich bei den Nutzenfunktionen um einen eminent wichtigen Beitrag, der die psychologische Diagnostik um die ökonomische Dimension erweitert. Sie wird in einer Zeit zunehmenden Wettbewerbes in allen Bereichen menschlichen Handelns eine weiter wachsende Bedeutung erfahren. So überzeugend die vorgetragenen Überlegungen und Modelle auch sind, wirft die konkrete Ermittlung der relevanten Parameter doch schwierige Fragen auf. Deren Beantwortung geschieht in weitem Maße auf höchst unsicherer Grundlage, so dass es sich bei dem Gewinn an Präzision durch Anwendung der Formeln partiell um eine nur scheinbare Genauigkeit handelt. Davon abgesehen lenken die Modelle von Cronbach und Gleser (1965) den Blick auf die Notwendigkeit, dass sich psychologische Diagnostik im weitesten Sinne auch »rechnen« lassen muss. Dabei ist es aber dringend geboten, die institutionelle Perspektive durch die individuelle zu ergänzen. Fazit 60.000 DM aus. Nimmt man nur eine Leistungssteigerung von 5% durch den Einsatz psychologischer Diagnostik an (eine Marge, die unschwer zu erreichen sein dürfte), so ergibt sich daraus ein Nutzen von 3.000 DM pro Besetzungsentscheidung und Jahr oder – für den Fall einer 10jährigen Verweildauer auf der neuen Position – von 30.000 DM für jeden psychodiagnostisch ausgewählten Mitarbeiter. Davon müssen zwar die Investitionen und die Kapitalverzinsung eines Unternehmens für die Anstellung eines Psychologen sowie die für dessen Arbeit notwendigen zusätzlichen Ressourcen abgezogen werden, doch verbleibt immer noch ein Netto-Überschuss in zweistelliger Milliardenhöhe für die Volkswirtschaft durch psychodiagnostische Eignungsauswahl (Wottawa, 1997). 6.7 · Abschließende Bemerkungen 6 MAUT-Technik Entscheidungstheoretische Prinzipien bisher kaum angewandt Erwiesener Nutzen von psychodiagnostischer Eignungsauswahl für Volkswirtschaft 415 (S.432-438) Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression (S.427-430) Moderation: Identifikation von Personengruppen mit einer besonders hohen Vorhersagbarkeit (S.420-427) Kontextuelle Faktoren und technische Verbesserungen Probleme und Differenzierungen von Prognosen 7 Beispiel: Extravertiertes Verhalten unter hohem vs. niedrigem situativem Druck Auslesesituation: Konformes Verhalten angeregt Projektive Tests: Individuelles Verhalten angeregt Kontextuale Faktoren und technische Verbesserungen Bei projektiven Tests, wie den Klecksbildern von Rorschach (o.J.), den Bildern des Thematischen Apperzeptionstests von Murray (1936) oder den Aufnahmen des FotoHandtests von Belschner (1970), sind bereits die Wahrnehmungsvorlagen unbestimmt oder unscharf, um auf diese Weise den Probanden einen höchstmöglichen Spielraum für ihre persönlichkeitseigene »Deutung« einzuräumen. Umgekehrt üben Konkurrenz- und Auslesesituationen für die Beantwortung von Persönlichkeitsfragebogen offenkundig einen so massiven Druck im Hinblick auf die Abgabe sozial erwünschter Antworten aus, dass die Testwerte für die ins Auge gefassten Ziele unbrauchbar sind. (In dieser Hinsicht sind Leistungstests den Persönlichkeitsfragebogen grundsätzlich überlegen: Man kann darin nicht »nach oben« schwindeln, d. h. einen fähigeren Eindruck erwecken, als es aufgrund der individuellen Kompetenzen möglich ist.) Monson et al. (1982) sind diesem Aspekt gezielt nachgegangen. In 2 experimentell realisierten Bedingungen bestand für die Versuchspersonen ein hoher situativer Druck in Richtung auf extravertiertes bzw. introvertiertes Verhalten; eine dritte Situation war diesbezüglich neutral. Mit der von unabhängigen Beurteilern eingeschätzten Gesprächigkeit der Versuchspersonen während der experimentellen Aufgabe korrelierten die präexperimentell (also unter diagnostischen Standardbedingungen) erhobenen Extraversionswerte numerisch nur unter jener Situation befriedigend und signifikant (r=.56 gegenüber .18 und .38), die für die Versuchspersonen unbestimmt und mehrdeutig war. Dieser Effekt war, wie nicht anders zu erwarten, hauptsächlich durch die zwangsbedingt verminderte Streuung der Kriteriumswerte verursacht. In einer zweiten Studie der Autoren fungierten insgesamt 4 Papier- und Bleistiftszenarien als Kriterien, zu denen die Versuchspersonen ihre wahrscheinlichste Verhaltensweise angeben mussten. So sollten sich die Probanden vorstellen, an ihrer Universität, an der sie gerade neu eingeschrieben ten zu zeigen, schwinden traitgeleitete individuelle Verhaltensunterschiede. ! Besteht in einer gegebenen Situation ein hoher Druck, ein bestimmtes Verhal- Bestimmte Situationen engen den Verhaltensspielraum in einem Maße ein, dass interindividuelle Unterschiede nahezu verschwinden. Damit aber droht der Ansatz sinnfrei zu werden, auf der Basis von Eigenschaftsmaßen Vorhersagen und Varianzaufklärung vornehmen zu wollen. So stellt z. B. Rotlicht bei Verkehrsampeln für alle Kraftfahrer einen »starken« Stimulus mit hohem Uniformitätsdruck dar. Ähnlich verhält es sich mit dem Erscheinen des Pfarrers in der Kirche oder dem Heben des Taktstocks durch den Dirigenten, was i. Allg. alle Unterhaltungen binnen kurzem verstummen lässt. Diese Erwartung konformer Verhaltensweisen kann auch zum Konzept von prototypischen Situationen gewendet bzw. verallgemeinert werden (s. Schutte et al., 1985), die ganz spezifische Verhaltensmuster nahelegen bzw. mit unterschiedlich starkem Nachdruck verlangen (. Abb. 7.1a–c). Wenn dabei allerdings der situative Druck soweit geht, traitgeleitete Unterschiede in Handlungstendenzen obsolet zu machen (Stagner, 1977), schwindet die individuelle Variabilität und damit die Aussicht, diese durch Testmaße aufklären zu können. Vielmehr verlangt der eigenschaftstheoretische Ansatz außerhalb des Leistungsbereiches zwingend solche Situationen, die eher schwach oder uneindeutig strukturiert sind und für verschiedene Individuen eine unterschiedliche Bedeutung aufweisen. Diese Forderung gilt gleichermaßen für die Erhebung von Prädiktor- wie von Kriteriumsmaßen. 7.1.1 Verhaltensvariabilität 7.1 Kapitel 7 · Probleme und Differenzierungen von Prognosen Situativer Druck führt zu Verhaltenskonformität 420 c a b 7.1 · Kontextuale Faktoren und technische Verbesserungen 7 . Abb. 7.1a–c. Intraindividuelle Variabilität erklärt sich häufig als Folge veränderter situativer Anforderungen(a, b). Mitunter verlangt der situative Kontext interindividuelle Uniformität des Verhaltens (c) 421 7 . Abb. 7.2. Mittlere Korrelation zwischen einem Punktwert im Verhaltensprätest und (selbstberichteten) »Kriteriumsmaßen« als Funktion des Kriteriumsumfanges (1, 2, 3 oder 4 Szenarien) und der Wahrscheinlichkeit, eine vorhersagbare (nicht durch Druck gekennzeichnete) Situation zu enthalten 1 2 3 4 Alle Kriterien Kriterien, die mindestens eine vorhersagbare Situation enthalten Umfang des Kriteriums (aggregierte Verhaltensszenarien) Kriterien, die keine vorhersagbare Situation enthalten .00 0.1 0.2 0.3 0.4 0.5 seien, wäre eine »get acquainted-party« für den Samstagabend anberaumt worden. Sie hätten bis dahin noch kaum eine Gelegenheit gehabt, die Bekanntschaft anderer Leute zu machen, und diese Veranstaltung böte die Chance, gleich viele auf einmal kennenzulernen. Druck in Richtung auf extra- und introvertiertes Verhalten wurde dadurch erzeugt, dass Zusatzinformationen gegeben wurden wie: die meisten anderen Kommilitonen würden einen ermutigt haben, zur Party zu gehen, der nach wie vor begehrte Ex-Partner würde die Veranstaltung ebenfalls besuchen, bzw. dass der Besuch der Party mit den Verpflichtungen des Studiums kollidieren oder die Wahrnehmung eines Teilzeitjobs unmöglich machen würde. Im Mittel der 4 Szenarios korrelierten die unbeeinflusst erhobenen Extraversionstestwerte mit dem Verhalten unter schwachem Druck zu r = .42, mit dem unter starkem Druck geäußerten (Kriteriums-)Verhalten zu r = .12, was insofern die früheren Resultate bestätigte bzw. weiter differenzierte. Zusätzlich bedeutsam war die Frage, wie die Kombination der Szenarios zu unterschiedlich großen »Aggregaten« (7 7.1.3) die Validität beeinflussen würde. Die Resultate sind in . Abb. 7.2 zusammengestellt. Wie die Resultate lehren, beeinflusst die Zahl der situativen Zusatzinformationen mit den jeweils gewählten Verhaltensweisen, die in ein Kriterium eingehen, nicht wesentlich die Korrelation (»Validität«), wenn die Wahrscheinlichkeit konstant gehalten wird, dass im Kriterium eine vorhersagbare und damit nicht durch Druck gekennzeichnete Situation enthalten ist. Sofern die Wahrscheinlichkeit für das Vorhandensein einer Kapitel 7 · Probleme und Differenzierungen von Prognosen Einfluss des Kriteriumsumfanges auf die Validität von Verhaltenstests 422 Durchschnittliche Korrelationen In einer zwischenzeitlich sehr bekannt gewordenen Untersuchung haben Pryor et al. (1977) das Ausmaß von selbstzentrierter Aufmerksamkeit dadurch erhöht, dass ein Teil der Probanden beim Ausfüllen von inhaltsvaliden Tests zur Soziabilität einen Spiegel vor sich auf dem Tisch stehen hatte (. Abb. 7.3). Gegenüber einem wenige Tage später erhobenen Verhaltensmaß zur Soziabilität (Kombination aus Fremdrating und Zahl von Worten in einer Wartesituation) korrelierten die unter den üblichen Bedingungen gelieferten Fragebogenpunktwerte nur gering (r = .16). Hingegen war die Korrelation für die Probanden hoch (r = .62; Differenz signifikant), die während der ersten Sitzung mit einem Spiegel konfrontiert waren. »Die Induktion selbstzentrierter Aufmerksamkeit scheint also bei einem inhaltsvaliden Messverfahren ein Instrument zu sein, die Vorhersagevalidität eines Selbstberichtes zu erhöhen« (Wicklund, 1977, S. 402). Weitere Experimente haben entsprechende Resultate auch zu anderen Eigenschaftsdimensionen erbracht (u. a. Wicklund, 1982). Solche Befunde nähren den Verdacht, dass die üblicherweise für Fragebogen gegebene Instruktion, bei der Beantwortung »nicht lange nachzudenken«, einen folgenschweren Missgriff darstellt. Damit hoffen Testautoren implizit, Überlegungen auf Seiten der Probanden, welche Antwort sie in einem günstigeren Licht erscheinen lassen würde, abzukürzen. Aber vieles spricht da- 7.1.2 Aktuelle Selbstaufmerksamkeit Sofern es nicht um Leistungen geht, müssen die kontextualen Rahmenbedingungen sowohl bei der Erhebung der Prädiktor- als auch derjenigen der Kriterienwerte von einer Art sein, die individuelle Unterschiede in der Häufigkeit, der Intensität und dem Stil des Verhaltens hervortreten lässt. Nur unter diesen Voraussetzungen ist es sinnvoll, mit Hilfe des eigenschaftstheoretischen Ansatzes Varianzaufklärung bzw. Verhaltensvorhersagen vornehmen zu wollen. Hilfreich ist die zusätzliche Erfassung der subjektiven Besonderheiten bei der Wahrnehmung und Verarbeitung der Informationen über die Anforderungsmerkmale einer Situation. Fazit vorhersagbaren Situation 1.0 beträgt (7 obere Linie in Abb. 7.2), verändert sich die Korrelation nicht bedeutsam mit einer Zunahme im Umfang des Kriteriums. Gleiches gilt, wenn die besagte Wahrscheinlichkeit .00 beträgt (untere Linie), das Verhalten also in allen Szenarien durch hohen situativen Druck beeinflusst wird. Variiert jedoch die Wahrscheinlichkeit für vorhersagbare Situationen, stellt sich die typische Beziehung zwischen Höhe der Korrelation und Umfang des Kriteriums ein. Aber auch stark einengende Situationsfaktoren mögen individuell verschieden aufgenommen und interpretiert werden. Deshalb ist eine Berücksichtigung der als Mediatoren zwischen Persönlichkeitseigenschaften und konkreten Verhaltensweisen fungierenden individuellen Perzeptionen und Kognitionen zweckmässig. Mischel (1977) hat vorgeschlagen, das individuelle Kategorisierungsverhalten von Situationen festzuhalten, ferner die Erwartungen, die durch bestimmte Situationen geweckt und im Hinblick auf antizipierte Handlungsfolgen gehegt werden. Soweit hier allgemeinere Strategien für Klassen von Situationen ausfindig gemacht werden könnten, ist eine Operationalisierung vergleichbar mit derjenigen zu den generalisierten Erwartungen Rotters (1954) (internale vs. externale Bekräftigungsüberzeugung, zwischenmenschliches Vertrauen) naheliegend. 7.1 · Kontextuale Faktoren und technische Verbesserungen 7 Bedenkzeit bei Fragebogen durchaus sinnvoll Selbstaufmerksamkeit erhöht Validität von Selbstberichten Berücksichtigung individueller Perzeptionen und Kognitionen 423 7 Aggregation von Kriteriumsverhalten Reliabilitätsverbesserung auf Prädiktorenseite Die Prinzipien der Reliabilitätsverbesserung durch Verlängerung von Skalen sind seit Spearman-Brown (7 2.1.1.4) allgemein bekannt. Sie wurden auf die verschiedensten Prädiktoren ganz selbstverständlich immer wieder angewendet. Es bedurfte jedoch des Beitrages von Epstein (1979), um deren Effektivität auch auf der Seite der Kriterien drastisch vor Augen zu führen: Wurde die Stabilität des vorherzusagenden Verhaltens durch Aggregation (d. h. durch Mittelung prinzipiell ein und desselben Verhaltens über mehrere Beobachtungszeitpunkte) auf ein akzeptables Niveau gehoben, stellten sich bei einigen Skalen Test-Kriteriums-Korrelationen um rtc = .40 bis .50 ein – aber nur unter eben den besagten Bedingungen (= Reliabilitätserhöhung durch Aggregation über »occasions« mit indirekten Auswirkungen auf die Validität). Eine substantielle 7.1.3 Aggregation von Maßen ! Die Validität von Selbstbeschreibungen kann durch Induktion erhöhter Selbstaufmerksamkeit während der Testsituation gesteigert werden. für, dass gerade Antworten im Sinne sozialer Erwünschtheit sehr rasch gegeben werden können, sodass im Zweifelsfall durch die Tempobetonung eher reflektive Gedanken über die eigene Persönlichkeit unterbunden werden, was die Validität der Selbstbeschreibung beeinträchtigen müsste. Auch wenn bislang bei einer Variation der Instruktion »spontanes Antworten« vs. »genaues Überlegen« nur Mittelwertsunterschiede, aber keine Validitätsdifferenzen gefunden wurden (s. Krämer & Schneider, 1987, deren Stichprobenumfänge allerdings für die zufallskritische Absicherung von Korrelationsunterschieden viel zu klein waren), kann für die psychodiagnostische Praxis eine sinnvolle Empfehlung nur darin bestehen, durch geeignete Massnahmen, wie z. B. ein einführendes Gespräch oder eine ausführlichere Exploration, situative Rahmenbedingungen dafür zu schaffen, dass die Testperson sich selbst in möglichst adäquater Weise beschreiben kann. Kapitel 7 · Probleme und Differenzierungen von Prognosen . Abb. 7.3. Eine erhöhte Selbstaufmerksamkeit kann die Validität von Selbstbeschreibungen erhöhen 424 1 Geleitet von verschiedenen Techniken der Validitätserhöhung und der dabei erzielten Erfolge sind noch folgende Wendungen in der Literatur gebraucht worden: »Predicting more of the people more of the time« (Bem & Funder, 1978), »On predicting most of the people much of the time« (Epstein, 1979), »Vorhersagen für einige Personen in vielen Merkmalen« (Amelang & Borkenau, 1981a) und »Vorhersagen für einige Personen in einigen Dimensionen« (Borkenau & Amelang, 1983), doch ein Beitrag etwa des Inhalts »Predicting all of the people all of the time« ist noch in Vorbereitung (Bem & Funder, 1978). Ein durchgängiger Argumentationsstrang der bisherigen Ausführungen ging dahin, dass durch Erhöhung der Reliabilität im Prädiktor und/oder Kriterium im Regelfall auch Validitätsgewinne zu erwarten sind, und zwar unbeschadet der Prinzipien des sog. »Verdünnungsparadoxons« (zur Wechselbeziehung zwischen Reliabilität und Validität 7.1.4 Validität ohne Stabilität ! Reliabilitätserhöhungen durch Aggregation über Beobachtungszeitpunkte, Verhaltensweisen und Situationen können zu einer substantiellen Erhöhung der Validität führen. Erhöhung der Validität lässt sich auch erzielen, wenn auf seiten der Prädiktoren und/ oder Kriterien über »modes« aggregiert wird. So fasste beispielsweise Moskowitz (1982) Verhaltensweisen wie Kommandieren, Nahelegen, Drohen u. Ä. zu »multiple referents« für Dominanz als der einen Dimension und Hilfesuchen, Berühren, Aufmerksamkeit heischen etc. für Abhängigkeit als einer anderen Dimension zusammen. Mit diesen durch mehrere Indikatoren repräsentierten Traitmaßen korrelierten die Einzelindizes wesentlich höher als paarweise untereinander. Im Grunde entspricht das einer Berechnung von Trennschärfekoeffizienten bzw. Iteminterkorrelationen. Dabei ist im vorliegenden Fall die für Persönlichkeitsfragebogen (also: selbstberichtetes Verhalten) wiederkehrend angestellte Beobachtung auch auf fremdbeobachtetes Verhalten übertragbar: Sogenannte »single acts« in Form einzelner Verhaltensweisen, selbst- oder fremdeingeschätzt, korrelieren infolge ihrer geringen Stabilität und hohen Spezifität nur relativ niedrig miteinander, hingegen vergleichsweise hoch mit dem »Aggregat« oder »Konglomerat« anderer für das Konstrukt einschlägiger Verhaltensweisen. Die Summierung über verschiedene Verhaltensweisen bewirkt nicht nur eine Erhöhung der Reliabilität, sondern auch eine solche der Heterogenität und inhaltlichen Breite, mit der Folge höherer Validitäten und transsituativer Verhaltenskonsistenzen. Diese Regeln standen auch bei der Entwicklung der Multiple Act Criteria (Fishbein & Ajzen, 1974) sowie einer Multiple Act Criterion Scale (Jaccard, 1974) Pate. Schließlich kommt noch die Aggregation über Situationen in Betracht. Bei einer Klumpung von Verhaltensstichproben aus verschiedenen Situationen konnte Moskowitz (1982) die transsituative Konsistenz der Maße für Dominanz beträchtlich erhöhen. »The strategy used in this study (provided) average predictions of moderate accuracy for many people« bemerkt Moskowitz (1982, S. 765) in Abwandlung des bekannten Titels der Arbeit von Bem und Allen (1974): »On predicting some of the people some of the time.«1) Wie Schwenkmezger (1984) allerdings feststellt, ist die Aggregation über Situationen nur sinnvoll, wenn das Durchschnittsverhalten in einer Klasse von ähnlichen Situationen interessiert; hier kann durch Reduktion des Messfehlers die Vorhersagegenauigkeit erhöht werden. Steht hingegen die Reaktion von Individuen in ganz spezifischen Situationen im Vordergrund des Interesses, verdeckt eine solche Aggregation eher die situationsspezifischen Varianzanteile. 7.1 · Kontextuale Faktoren und technische Verbesserungen 7 Aggregation über Situationen Erhöhung von Reliabilität, Heterogenität und inhaltlicher Breite Validitätserhöhung durch multipel repräsentierte TraitDimensionen 425 7 . Abb. 7.4. Schwankungen der Messwerte von 4 hypothetischen Probanden um einen gemeinsamen Mittelwert. ----/––– denkbare Schwellen (Aus Wottawa & Hossiep, 1987, S. 14) Andere Indizes zur Reliabilitätsbestimmung 6 Die referierten Untersuchungen belegen an inhaltlichen Beispielen die Prinzipien, die bereits in allgemeiner Form unter den methodischen Gesichtspunkten (7 oben die Ausführungen zur Reliabilität) behandelt wurden. Sie zeigen, dass für eine Reliabilitätserhöhung primär eine Aggregation von (ein und demselben) Verhalten über Fazit 7 Abschn. 2.3.3). Nun sind aber Fälle denkbar, für die hohe Reliabilitätsanforderungen im Sinne von Reteststabilitäten dysfunktional oder abwegig sind, weil diese dem spezifischen Anspruch, sensitiv auf Änderungen anzusprechen, nachgerade entgegenstehen. Dieses trifft auf die Verfahren zur Erfassung von States zu. Gerade weil sich die aktuellen Zustände durch eine gewisse Flüchtigkeit, also Instabilität auszeichnen, kann hier die Retestung kein angemessener Zugang zur Abschätzung der Stabilität sein. Generell gilt das für alle Fälle, in denen der wahre Wert nennenswerte Oszillationen aufweist, wie es z. B. auch für Schwankungen der Aufmerksamkeit unterstellt werden kann. Wottawa und Hossiep (1987) haben dies, wie es in . Abb. 7.4 zu sehen ist, veranschaulicht. Das Beispiel ist so gewählt, dass die 4 Probanden zwar denselben Mittelwert aufweisen, aber mit unterschiedlicher Wellenlänge um das mittlere Niveau oszillieren. Es ergibt sich eine Nullstabilität, wenn 2 beliebige Zeitpunkte herausgegriffen und miteinander in korrelative Beziehung gesetzt werden, obwohl die Muster der Schwankungen für sich idealtypisch stabil sind. In solchen Fällen, in denen also die herkömmlichen Reliabilitätsschätzungen als Anteil der wahren an der Messwertevarianz versagen, müssen andere Indizes gewählt werden. Einfach wäre es, für das in der Abbildung gewählte Beispiel die jeweils höchste Amplitude während eines längeren Beobachtungsausschnittes zu wählen (was zu 2 unterschiedlichen Scores führt) und 2 derartige Messstrecken miteinander zu vergleichen. Aufwändiger sind Verfahren wie die Fourier-Analysen, bei denen die beobachtbaren Schwankungen spektralanalytisch, d. h. in Anteile von Frequenzbändern zerlegt werden, was in der EEG-Forschung eine der Standardtechniken darstellt. Eine Übersicht der Kennwerte zur Charakterisierung derartiger Modelle gibt u. a. Sammer (1994). Kapitel 7 · Probleme und Differenzierungen von Prognosen Änderungssensitivität bei der Erfassung von States 426 427 7 Moderation: Identifikation von Personengruppen mit einer besonders hohen Vorhersagbarkeit Moderatorvariablen: Einfluss auf die Validität Leistungsbereichs nach Testsituationen, die eher schwach oder uneindeutig strukturiert sind und durch verschiedene Individuen mit verschiedenen Bedeutungen ausgefüllt werden. Werden traitgeleitete Unterschiede in Handlungstendenzen durch situativen Druck obsolet gemacht, sinkt die individuelle Variabilität und damit die Vorhersagemöglichkeit durch einen Testwert. Ad 2. Pryor et al. (1977) stellten einem Teil der Probanden (Versuchsgruppe) beim Ausfüllen eines inhaltsvaliden Fragebogens zur Soziabilität einen Spiegel auf den Tisch, in dem sie sich selber sehen konnten. Gegenüber einem wenige Tage später erhobenen Verhaltensmaß zur Soziabilität erwies sich die Vorhersagevalidität (Korrelation der Fragebogenwerte mit dem Verhaltensmaß) in der Versuchsgruppe als sehr viel höher als in der Kontrollgruppe, deren Selbstaufmerksamkeit nicht gezielt erhöht worden war. Ad 3. Wenn das Durchschnittsverhalten von Individuen in einer Klasse von ähnlichen Situationen interessiert; nicht jedoch, wenn die Reaktion von Individuen in ganz spezifischen Situationen im Vordergrund steht. ! Ad 1. Der eigenschaftstheoretische Ansatz verlangt außerhalb des Erstmals ist es Ghiselli (1963) gelungen, ein gesondertes Testverfahren zu konstruieren, nach dessen Punktwert entschieden werden konnte, für welche Probanden in einer Stichprobe von Taxifahrern (aus deren Punktwerten in Leistungstests) Vorhersagen über das Ausmaß der allgemeinen Fahrtauglichkeit möglich waren und für welche nicht. Der fragliche Teil war damit ein Test zur individuellen Prognostizierbarkeit, weil er mit der Differenz zwischen den jeweils standardisierten Leistungspunktwerten und den Kriteriumswerten für Fahreignung oder, was dasselbe ist: Mit dem Zusammenhang zwischen diesen beiden Messwertreihen korrelierte. Seitdem hat es an Bemühungen zum Auffinden solcher Moderatorskalen, die also mit der Validität korrelieren, nicht gefehlt. Häufig waren die Befunde jedoch nicht replizierbar, was u. a. daran liegt, dass teils die Suche nach Moderatoren vorwiegend 7.2 3. Wann ist die Aggregation von Verhaltensweisen über Situationen zur Erhöhung der Validität sinnvoll? sind an Testsituationen zu stellen, wenn mit Hilfe des eigenschaftstheoretischen Ansatzes Verhaltensvorhersagen gemacht werden sollen? 2. Wodurch wurde in der Untersuchung von Pryor et al. (1977) selbstzentrierte Aufmerksamkeit erzeugt und welche Auswirkungen hatte sie auf die Vorhersagevalidität? ? 1. Welche Anforderungen Übungsfragen (zu Abschn. 7.1) verschiedene Zeitpunkte ein probates Mittel darstellt. Teils als Konsequenz davon, teils durch die zusätzliche Aufnahme anderer Verhaltensweisen im Prädiktor sowie im Kriterium bietet die Aggregation über Modes die Aussicht auf eine zusätzliche Steigerung der Validität. Erfolgt zudem eine Aggregation über Situationen, so wird dieses die Validität gegenüber einem breiten Spektrum möglicher Kontextbedingungen allgemein positiv beeinflussen, und zwar zu Lasten von einzelnen (im Vergleich zu vielen und verschiedenen) Kriterien. 7.2 · Moderation: Identifikation von Personengruppen 7 Die einfachste und deshalb in der Literatur am häufigsten verwendete Methode bei der Suche nach Moderatorfunktionen besteht darin, die Gesamtstichprobe nach Maßgabe einer theoretisch belangvollen Variablen in (meist 2–3) homogenere Subgruppen aufzuteilen und für jede dieser Untergruppen getrennt die Test-Kriteriums-Korrelationen zu ermitteln. Unterscheiden sich diese Validitätskoeffizienten signifikant voneinander, so übt die Teilungsvariable einen bedeutsamen Moderatoreffekt aus. Im Falle der Untersuchung von Todt (1966; 7 Beispiel) trifft dies auf die Differenz R = .11 und R = .63 Frederiksen und Melville (1954) hatten herausgefunden, dass sich relativ zwanghafte Studenten in allen Lehrfächern nahezu gleichmäßig einsetzten, und zwar ungeachtet ihrer jeweiligen Interessensschwerpunkte, während sich nichtzwanghafte Personen nur gemäß ihrer Neigungen engagierten. Das legt die Hypothese nahe, dass sich akademische Leistungen nichtzwanghafter Studenten aus Interessentests viel besser vorhersagen lassen als diejenigen ihrer zwanghaften Kommilitonen – was auch der Fall war. An dieser Beobachtung knüpft Todt (1966) an. Seinen Erhebungen zufolge war die mittlere Schulnote von Schülern ein Jahr vor dem Abitur aus ganz unterschiedlichen Prädiktorenkombinationen vorhersagbar, je nachdem, ob es sich um Besucher des sprachlichen oder naturwissenschaftlichen Zweiges handelte. Bei den Sprachlern ergab die optimale Gewichtung von 6 Skalen des Differentiellen Interessentests (7 3.2.5) mit einer Subskala aus dem Differentiellen Kenntnistest und dem Intelligenztest von Wilde (s. Jäger & Todt, 1964) eine multiple Korrelation von R = .44; hingegen bestand die optimale Prädiktorenkombination bei den Naturwissenschaftlern aus 3 Intelligenz- und 4 Kenntnissubskalen, die zu R = .38 mit dem Kriterium korrelierten. Daraus ließ sich unter Bezugnahme auf die Befunde aus den USA die Hypothese ableiten, dass Zwanghaftigkeit nur bei den Sprachlern die Validität der Prognosebatterie (die fast nur aus Interessentests bestand) moderieren würde, nicht aber bei den Naturwissenschaftlern, weil deren Interessen für die Vorhersage des Schulerfolges praktisch ohne Belang waren. Als Diagnostikum der Zwanghaftigkeit stand die Skala Rigidität von Brengelmann und Brengelmann (1960) zur Verfügung. In der Tat errechnete sich für die relativ rigiden Schüler aus dem sprachlichen Zweig ein R = .11, hingegen für die relativ flexiblen ein R = .63. In der Gruppe der Naturwissenschaftler lauteten die Koeffizienten R = .44 bzw. .51 – was die Hypothese in überzeugender Weise bestätigte. Innerhalb der Sprachler wiesen somit zwar Interessen den besten Vorhersagewert auf, und zwar im deutlichen Unterschied zu den Naturwissenschaftlern, doch waren diese für flexible Schüler von wesentlich größerer Bedeutung als für rigide. Diese Studie belegt nachdrücklich, dass es innerhalb von größeren Personengruppen Substichproben mit ganz unterschiedlicher Vorhersagbarkeit gibt. Sie wirft aber auch die Frage auf, welche Instrumente bei den nur mäßig prognostizierbaren Personen erfolgreich angewendet werden können. Die Vorhersage des Schulerfolges bei rigiden und flexiblen Schülern Beispiel »blind-analytisch« vor sich ging, teils einige methodische Probleme bei der Verwendung von Moderatorvariablen ausser acht gelassen wurden (s. Zedeck, 1971). Einiges spricht dafür, dass positive Resultate dann zu erwarten sind, wenn theoriegeleitet geforscht wird (7 Beispiel). Kapitel 7 · Probleme und Differenzierungen von Prognosen Suche nach Moderatoreffekten 428 Saunders (1956) hat deshalb ein Modell vorgeschlagen, mit dem die eben geschilderten Unzulänglichkeiten regressionsanalytisch umgangen werden. Zentral darin ist der Gedanke, die Steigung der einfachen linearen Regression eines Kriteriums auf einen Prädiktor mit Hilfe einer weiteren Variablen, dem Moderator, zu beschreiben. Das Modell ist für diesen einfachsten Fall in . Abb. 7.5 grafisch veranschaulicht. ! Zur Identifikation einer Moderatorvariablen ist die Fraktionierung einer Stichprobe dann sinnvoll, wenn die zu prüfende Variable alternativ oder mehrklassig diskret ist. Ist die Variable kontinuierlich-quantitativ abgestuft, ist ein regressionsanalytisches Modell besser geeignet. zu, die auf dem 5%-Niveau signifikant ist. Dementsprechend stellt die Rigiditätsskala eine Moderatorvariable dar. Die Methode einer solchen Fraktionierung von Gruppen ist immer dann angemessen, wenn die auf ihre potentielle Moderatorfunktion geprüfte Variable alternativ (z. B. Geschlecht: männlich/weiblich) oder mehrklassig diskret ist (z. B. ethnische Herkunft: kaukasoid/negroid/ mongolid; Körperbau: pyknisch/leptosom/athletisch). Handelt es sich bei der Unterteilungsvariablen aber um eine Skala mit kontinuierlich-quantitativen Abstufungen (so z. B. der Rigiditätstest in der Todtschen Studie), weist die Fraktionierungsmethode einige Nachteile auf. Vorrangig ist diesbezüglich die Vergrößerung des Stichprobenfehlers zu nennen, die es nach Halbierung oder Drittelung der Gesamtstichprobe reichlich erschwert, Unterschiede zwischen den dann relativ kleinen Substichproben zufallskritisch abzusichern. Zudem erfolgt die Trennung am Median bzw. an Perzentilwerten in gewisser Weise willkürlich, jedenfalls nicht nach psychologisch plausiblen Ableitungen. Es kann nämlich kaum davon ausgegangen werden, dass sich mit der Überschreitung beispielsweise des Medians in einer Verteilung kontinuierlich abgestufter Werte die zugrundeliegenden Prozesse in einem qualitativen Sprung ändern. Darüber hinaus hängt der jeweilige Trennungspunkt davon ab, welche Probanden mit welchen Merkmalsausprägungen jeweils Eingang in die Untersuchungsstichprobe gefunden haben. Ferner erlaubt eine Zwei- oder Dreiteilung nicht die Beschreibung der Moderatorfunktion in Art einer mathematischen Funktion, ganz abgesehen von den Problemen, die sich daraus ergeben mögen, dass die potentielle Moderatorvariable vielleicht selbst mit dem Kriterium und/oder den Prädiktoren korreliert. 7.2 · Moderation: Identifikation von Personengruppen 7 . Abb. 7.5. Räumliche Darstellung einer moderierten Regression des Kriteriums Y auf den Prädiktor X bei linearer Moderatorfunktion der Variablen Z: Die Steigungskoeffizienten der Regressionsgeraden AB, CD, EF, GH, IJ, KL und MN stellen eine lineare Funktion von Z dar. (Aus Bartussek, 1970, S. 59) Regressionsanalytisches Modell Fraktionierung von Stichproben 429 7 Prüfung quadratischer Moderatorfunktionen Vorhersage mit Prädiktor- und Moderatorvariablen Lineare Regressionsgleichung (7.1) b = d + fZ (7.2) a = c + eZ (7.3) (7.5) (7.4) Die Formel (7.5) entspricht einer herkömmlichen Regressionsgleichung für die Vorhersage des Kriteriums Y auf der Basis von 3 Prädiktoren. Neben X und Z sind die individuellen Kreuzpunkte zwischen X und Z als dritter Prädiktor hinzugekommen. Durch die Multiplikation der X- und Z-Werte trägt dieser Prädiktor jenen Anteil zur Vorhersage des Kriteriums bei, der sich analog zu den varianzanalytischen Wechselwirkungen experimenteller Versuchspläne interpretieren lässt. Sofern die multiple Korrelation zur Vorhersage des Kriteriums Y aus X und Z durch Hinzunahme des Terms XZ signifikant ansteigt, liegt mit der Skala Z ein bedeutsamer Moderator vor. Bartussek (1970) hat dieses Modell auf die Prüfung quadratischer (also U- bzw. umgekehrt U-förmiger) Moderatorfunktionen erweitert. Inhaltlich bedeutet das die Hypothese einer unterschiedlichen Prognostizierbarkeit der Probanden, die auf der Moderatorvariablen extrem niedrig oder hoch scoren im Vergleich zu denjenigen im Mittelbereich. Solche Gegebenheiten liegen etwa im Fall des Antwortstils Akquieszenz bei der Bearbeitung von Fragebogen vor: Die ausgeprägten »Ja-Sager« sind den notorischen »Nein-Sagern« (»Yeah-« vs. »Nay-Sayer«) insofern ähnlich, als sie vom Iteminhalt offenkundig keine rechte Notiz nehmen und statt dessen in stereotyper Weise nur mit einer individuell präferierten Antwortkategorie reagieren. Von daher wäre für Ŷ = c + dX + eZ + fXZ Nach Auflösen der Klammern und Umstellen der Formel erhält man Ŷ = (c + eZ) + (d + fZ)X Die Formel (7.3) beschreibt die unterschiedlichen Schnittstellen der Regressionen Y auf Z mit der Regressionsfläche Y auf X (die Geraden AM, OP, QR, ST und BN in . Abb. 7.5). Setzt man (7.2) für b und (7.3) für a in (7.1) ein, so ergibt sich: Z Eine Änderung des b in (7.2) aufgrund der linearen Abhängigkeit von Z hat eine Änderung von a in (7.1) zur Folge, da sich durch die Drehung der Regressionslinie für jeden Z-Wert andere Schnittpunkte der Regressionsgeraden mit Y ergeben müssen. Auf diese Weise entspricht jedem Zb ein bestimmtes Za, sodass gilt: f = Ausmaß der Änderung von Zb mit Z, d = Zb für Z = 0. Z Die Steigung b dieser Regressionsgeraden soll nun eine lineare Funktion des Moderators Z sein, sodass sich auf jeder Stufe von Z eine andere Steigung Zb ergibt: Ŷ = a + bX. Die Steigungskoeffizienten der Regressionsgeraden AB, CD, EF usw. bis MN stellen eine lineare Funktion von Z dar (aus Bartussek, 1970, S. 59). Für die Prüfung der Frage, ob in Gestalt der Variablen Z ein potentieller Moderator vorliegt (d. h. eine Variable, von der der Steigungskoeffizient byx linear abhängt), sind folgende Erwägungen bzw. Ableitungen anzustellen: Die lineare Form einer Regression von Y auf X lautet bekanntlich (7 S. 57 ff.): Kapitel 7 · Probleme und Differenzierungen von Prognosen Lineare Moderatorfunktion 430 7 Suppression Paradoxe Qualität von Prädiktoren Validitätsverbesserung durch mehrere Prädiktoren Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression Ad 2. Zentral ist der Gedanke, die Steigung der einfachen linearen Regression eines Kriteriums auf einem Prädiktor mit Hilfe einer weiteren Variablen, dem Moderator, zu beschreiben. theoretisch belangvollen Variablen in homogene Subgruppen aufzuteilen bzw. zu fraktionieren und für jede dieser Gruppen getrennt die Test-Kriteriums-Korrelationen zu ermitteln. ! Ad 1. Sie besteht darin, die Gesamtstichprobe nach Maßgabe einer 6 Eines der ersten empirischen Beispiele für Suppression berichtet Horst (1966) aus den Versuchen, im Zweiten Weltkrieg den Erfolg von Ausbildungsprogrammen für Piloten vorherzusagen. In einer dieser Studien bestand die Testbatterie aus 4 Mechanical ability (M), 4 Numerical ability (N), Validitätsgewinn durch Unterdrückung irrelevanter Prädiktorenvarianz Beispiel Die Kombination von verschiedenen Prädiktoren führt bekanntlich dann zu besonders markanten Zuwächsen an Validität, wenn jede einzelne der herangezogenen Skalen bereits für sich selbst möglichst hoch mit dem Kriterium und möglichst niedrig mit den anderen Prädiktoren korreliert. In einem solchen Fall deckt jeder Prädiktor einen anderen Aspekt des Kriteriums ab, was sich für die Validität der Testbatterie als Ganzes sehr positiv auswirkt. Ähnliche Konsequenzen ergeben sich aber auch dann, wenn die Rahmenbedingungen gegenteiliger Art sind, nämlich Variablen in eine Testbatterie zusätzlich aufgenommen werden, die mit dem Kriterium niedrig, aber möglichst hoch mit den anderen Prädiktoren korrelieren. Weil die Validitätserhöhung in einer derartigen Konstellation trotz (oder, wie noch zu zeigen sein wird, gerade wegen) der Nullkorrelation mit dem Kriterium auftritt, handelt es sich gleichsam um eine paradoxe Qualität. Sie kommt dadurch zustande, dass aufgrund der hohen Korrelation einer oder mehrerer zusätzlicher Variablen mit den übrigen Prädiktoren deren kriteriumsirrelevante Varianzanteile gebunden oder unterdrückt werden; dementsprechend heisst die Bezeichnung für dieses Phänomen der Validitätssteigerung »Suppression«. 7.3 Methode bei der Suche nach Moderatorfunktionen, wenn die auf die Moderatorfunktion geprüfte Variable alternativ oder mehrklassig diskret ist? 2. Welches ist der zentrale Gedanke in Saunders’ Modell (1956) für Skalen mit kontinuierlich-quantitativen Abstufungen? ? 1. Welches ist die einfachste (zu Abschn. 7.2) schen Verfahren, die gerade das Letztere leisten, ist bislang allerdings ein empfindlicher Mangel zu beklagen. Kapitel 7 · Probleme und Differenzierungen von Prognosen Übungsfragen 432 nc n x + nc ⋅ n y + nc (7.7) 7 = .44. 9+7 ⋅ 9+7 Wenn 8 der 9 für die Vorhersage des Kriteriums durch p irrelevanten Elemente durch den Suppressor erklärt werden (p–s), der für sich selbst keinerlei Überlappung mit dem Kriterium aufweist, lauten die Korrelationen wie folgt: rpc = Im Beispiel von . Abb. 7.6 besteht das Kriterium c aus insgesamt 16 Elementen, von denen 7 mit dem Prädiktor gemeinsam sind (c–p). Der Prädiktor setzt sich gleichfalls aus 16 Elementen zusammen, von denen 9 für das Kriterium irrelevant sind (8×(p–s) + 1p). Gemäß (7.7) errechnet sich daraus die Korrelation nx = Zahl der Elemente spezifisch für x, ny = Zahl der Elemente spezifisch für y, nc = Schnittmenge der Elemente aus x und y. rxy = Das Zustandekommen von Suppressionseffekten kann auf methodische Weise mit Hilfe eines Scheibchendiagramms und durch Rückgriff auf die Interpretation von Korrelationen als Folge gemeinsamer Elemente (McNemar, 1962) veranschaulicht werden (. Abb. 7.6). Die allgemeine Formel für die »Common-elements-Korrelation« lautet: Die ersten 3 Faktoren korrelierten positiv mit dem Kriterium. Verbales Geschick stand mit dem Kriterium nicht in Beziehung, korrelierte aber mit den anderen Skalen. Trotz der Nullkorrelation zwischen verbalen Leistungen und dem Trainingserfolg verbesserte die Hinzunahme von Verbal ability die Validität der Batterie erheblich. Horst interpretierte diesen Effekt psychologisch, indem er feststellte, dass die verbalen Fähigkeiten zwar mit dem Ergebnis des Flugtrainings nichts zu tun haben mochten, wohl aber eine hohe Ausprägung in V den Erhalt hoher Punktwerte in den übrigen Prädiktoren begünstigte, und zwar vermutlich über das bessere Verständnis der Testinstruktion und der allgemeinen Prinzipien zum Lösen der Aufgaben. Von daher kam es darauf an, eben jene durch V »verursachten« Varianzanteile zu eliminieren bzw. von der sonstigen Prädiktionsvarianz abzuziehen. Denn für den Flugtrainingserfolg war es wichtig, hohe Punktwerte in erster Linie in den Skalen M, N und S zu erzielen, weil damit Komponenten abgedeckt werden, die für die Steuerung eines Flugzeuges unabdingbar sind. Hingegen war es eher irrelevant für die Vorhersage, wenn Probanden hohe Punktwerte in der Batterie hauptsächlich durch ihre verbalen Fähigkeiten erreichten. In der Tat führte der Abzug der Varianz zu Lasten von V, d. h. ein negatives β-Gewicht in der Linearkombination der Prädiktoren, zu einer bedeutsamen Validitätsverbesserung der Gesamtbatterie. 4 Spatial ability (S) und 4 Verbal ability (V). 7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression Prädiktor-Kriterium Common-elementsKorrelation Methodische Veranschaulichung des Suppressoreffekts 433 7 7 Klassischer Fall: Suppressorvariable wird abgezogen Erhöhte Validität durch Suppressoreffekt Suppressor-Kriterium Prädiktor-Suppressor c c c c c c-p c-p c-p c-p c-p c c-p c-p p s 7 = .62. 1+ 7 ⋅ 9 + 7 Bei der Ermittlung der Regressionsgleichung auf der Basis der bivariaten Korrelationen zeigen die Vorzeichen der Regressionsgewichte (0,66p–0,50s), dass die gewichtete s-Variable von den Prädiktorwerten abgezogen werden muss, um die kriteriumsirrelevante Varianz zu entfernen. Das stellt den »klassischen Fall« des Suppressionsparadigmas dar. Eine Quelle möglicher Konfusionen tut sich aber auf, wenn alle Variablen mit negativen β-Gewichten in Prädiktionskombinationen als »negative Suppressoren« bezeichnet werden. Lubin (1957) und Darlington (1968) verfahren so und belegen mit diesem Begriff solche Variablen, die positiv mit dem Kriterium, aber negativ mit anderen Prädiktoren korrelieren. Das mag deshalb zu Missverständnissen führen, weil zahlreiche Dimensionen außerhalb des Leistungsbereiches bipolarer Art sind, wie an Skalen zur Erfassung von Einstellungen oder Persönlichkeitsmerkmalen sowie kognitiven Stilen zu erkennen ist, deren Scorungsrichtung und positive Bewertung innerhalb gewisser Grenzen von willkürlichen Festlegungen abhängt. Auf diese Weise aber könnte ein Prädiktor (wie z. B. Extraversion oder Flexibilität) durch einfache Reflektion zu einem Suppressor (Introversion bzw. Rigidität) konvertiert werden. Zur Vermeidung solcher konzeptueller Unschärfen soll hier an der restriktiven Definition eines Suppressors festgehalten werden, in der die Nullkorrelation mit dem Kriterium eine entscheidende Rolle einnimmt. rpc = Weil es bei der Korrelation zwischen s und c keine gemeinsamen Elemente gibt, steht im Zähler der Common-elements-Korrelation zwischen Suppressor- und Kriteriumsvariablen Null, deshalb: rsc = 0,00. Nun lässt die Betrachtung von . Abb. 7.6 erkennen, dass es trotz der Irrelevanz von s für c nützlich ist, die »frei schwebenden« Elemente in p, d. h. jene, die keine Kommunalität mit c zeigen, durch s zu »binden«. In einem solchen Fall weist p nur noch 8 andere Elemente auf (1p sowie 7c–p), und die Prädiktor-Kriteriums-Korrelation beläuft sich dann auf suppressor (s) p-s p-sp-s p-s p-s p-s p-s p-s 8 = .67. 8 + 8 ⋅ 1+ 8 criterion (c) c rps = c c predictor (p) Kapitel 7 · Probleme und Differenzierungen von Prognosen . Abb. 7.6. Veranschaulichung der Korrelation zwischen je einer Prädiktor-, Suppressor- und KriteriumsVariablen als Folge gemeinsamer Elemente. (Aus Conger & Jackson, 1972, S. 582) 434 1− rps 2 rcp − rcsrps (7.8) rcp 1− rps 2 (7.9) 2 1− rcs rcp − rcs ⋅ rps 1− rps 2 (7.10) 6 Unter idealen Suppressorbedingungen vereinfacht sich (7.10) ebenfalls zu (7.9). Bei suboptimalen Gegebenheiten muss der resultierende Koeffizient etwas höher ausfallen als (7.8), weil im Vergleich zum Partkoeffizienten im Nenner rcs zusätzlich berücksichtigt wird. rc( p ⋅ s ) = Die Formel (7.9) besagt, dass der Partkoeffizient immer dann höher als rcp (= die Validität) ausfällt, wenn rps ungleich Null ist. Soll der Einfluss einer Drittvariablen aus 2 anderen Variablen herausgezogen werden (z. B. der Suppressor gleichermaßen aus dem Prädiktor und dem Kriterium), ist die Partialkorrelation angemessen, also rc( p ⋅ s ) = Falls die Korrelation zwischen s und c Null beträgt (= ideale Suppressorvoraussetzung), vereinfacht sich (7.8) zu c = Kriterium, p = Prädiktor, s = Suppressor (oder Variable, die eine kleinere Korrelation mit c aufweist als p). rc( p ⋅ s ) = Die Formel für die Partkorrelation lautet: Wie Conger und Jackson (1972) deutlich gemacht haben, bestehen enge Beziehungen zwischen dem Suppressionskonzept und der Part- bzw. Partialkorrelation: Wird nämlich der Einfluss einer Variablen von einer anderen eliminiert und mit einer dritten Variablen korreliert, liegt eine Konstellation vor, in der eine Partkorrelation angemessen ist (. Abb. 7.7). Genau das ist auch das Rationale für Suppressoreffekte. Zur Beziehung der Suppression zu Part- und Partialkorrelation Exkurs 7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression 7 . Abb. 7.7. Konstellation für eine Partkorrelation sowie einen Suppressoreffekt. P = Prädiktor, C = Kriterium, S = Suppressor Partialkorrelation Partkorrelation 435 7 . Abb. 7.8. Zunahmen an Validität (Ordinate) als Funktion der Korrelationen zwischen Suppressor und Prädiktor (rps; Abszisse) sowie der originalen Test-Kriteriums-Validitäten (Linienschwarm) Ausmaß der Validitätssteigerung 1− rps 2 rcp 2 + rcs 2 − 2rcprcsrps (7.11) 0,00 0,20 0,40 0,60 0,80 1,00 0,20 0,98 0,95 -1– 0,40 0,92 δ = rcp ((1-r 2sp ) 2 -1) 0,995 δ = r'c·sp - rcp 0,87 0,60 0,80 0,70 0,80 0,60 0,50 0,40 0,30 1,00 0,20 0,10 rps Das Ausmaß der möglichen Validitätssteigerung durch einen Suppressor hängt nicht nur von der Enge der Korrelation zu den anderen Prädiktoren der Batterie ab, sondern auch von der originalen Prädiktor-Kriteriums-Validität. Die dafür maßgeblichen Funktionen sind aus . Abb. 7.8 ersichtlich. Wenn die Validität beispielsweise mit rcp = .40 gleich hoch ist wie die Interkorrelation rps, bedeutet das einen Zugewinn um rund 0,04 Einheiten oder ca. 10%. Erst bei sehr hohen Werten für rps fallen die Validitätszunahmen ernsthaft ins Gewicht. Eben diese Voraussetzung aber war in den bislang durchgeführten empirischen Untersuchungen nicht erfüllt (s. die Zusammenstellung bei Holling, 1981), weshalb die Resultate insgesamt höchst unbefriedigend ausgefallen sind. Um dafür ein Beispiel zu geben: In einer äußerst aufwändigen Studie prüfte Vagt (1974) die Hypothese, ob Aspekte der Testangst und Testmotivation als Suppressoren wirken. Zusätzlich zu vorliegenden Skalen entwickelte er eigens Fragebogen u. a. zur Erfassung von Angst vor der R = rc( p⋅s ) = Bei Verletzung der idealen Suppressorbedingungen liefert, wie bei einem Vergleich der beiden Formeln deutlich wird, die multiple Korrelation den höheren Validitätskoeffizienten: Kapitel 7 · Probleme und Differenzierungen von Prognosen Mulitiple Korrelation 436 rcq 2 rcp + rcq 2 2 (7.13) (7.12) Das bedeutet nichts Anderes, als dass die Suppressorvarianz 4mal soviel Varianz im Prädiktor wie der zweite Prädiktor an Varianz im Kriterium erklären muss, um den gleichen Effekt in Bezug auf die Validitätssteigerung zu erzielen. rps 2 = Werden die Zuwächse miteinander gleichgesetzt, so gilt: p = 1. Prädiktor, q = 2. Prädiktor (und potentieller Suppressor). δ p = rc⋅pq − rcp ⋅ rcp2 + rcq 2 − rcp Testsituation und den Testkonsequenzen, vor Psychologen und unangenehmer Selbsterkenntnis bzw. Tests zur Feststellung der Wichtigkeit von Psychologie für das Bedürfnis nach Selbsterkenntnis und des Vertrauens in die Gültigkeit von Prüfungen u. Ä. Diese Skalen wurden zusammen mit Intelligenztests in einer Situation vorgegeben, deren ernster, bedrohlicher Charakter durch verschiedene Maßnahmen betont wurde. Das Kriterium bestand aus einem Maß für sprachliche Ausdrucksfähigkeit, das aus 2 Aufsätzen gewonnen wurde, die freiwillig und in einer entspannten Atmosphäre geschrieben worden waren. Die Validität des Intelligenztests für dieses Kriterium betrug an N = 253 Schülern rcp=.66. Die Korrelationen zwischen einer der Suppressorskalen und dem Kriterium lagen ganz überwiegend bei Null (höchste Koeffizienten rcs = –.25, .14, und .12). Allerdings korrelierten die Suppressorvariablen auch mit dem Prädiktor bestenfalls zu rps = –.25 (Angst vor Psychologen und der Psychologie) und rps = .23 (Leistungsmotivation), sodass von daher kaum Aussicht auf einen nennenswerten Validitätsgewinn durch Suppression bestand. Die einzige signifikante Erhöhung der Validität war im Falle der Wichtigkeit von Psychologie mit rcs = .12 und rps = .04 weniger eine Folge von Suppression als vielmehr eine solche der Hinzunahme eines weiteren unabhängigen Prädiktors. Desgleichen mussten die Bemühungen von Goldberg et al. (1970), verschiedene Antwortstilskalen auf ihre Suppressionseffekte gegenüber dem California Psychological Inventory zu untersuchen, schon im Ansatz als aussichtslos angesehen werden, weil Antwortstile mit den inhaltlichen Skalen nicht in einem Ausmaß korrelieren, das für eine substantielle Validitätserhöhung Voraussetzung ist. Um aber die bestechende Brillanz des Suppressionskonzeptes praktisch nutzen zu können, bedarf es auch einer hohen Korrelation rps mit den Prädiktoren, die im Regelfall leichter zu erzielen ist als eine entsprechende Validität (rcp). Allerdings gibt es einen Grund, warum entsprechende Bemühungen nicht mit dem zu erwartenden Nachdruck entfaltet wurden: Im Vergleich zu dem Validitätsgewinn durch einen Suppressor, wie er sich in . Abb. 7.6 als Formel für δ eingetragen findet, beträgt der Zugewinn im Falle eines weiteren Prädiktors 7.3 · Bindung von kriteriumsirrelevanter Prädiktorenvarianz: Suppression 7 Weiterer Prädiktor effektiver als Suppressor Validitätsgewinn durch zusätzlichen Prädiktor Beispiel: Antwortstil als Suppressor Beispiel: Testangst und Testmotivation als Suppressoren 437 7 der Suppression? ditätserhöhung beitragen können, obwohl sie mit dem Kriterium nicht oder nur gering korrelieren. Aufgrund der hohen Korrelationen der zusätzlichen Variablen mit den übrigen Prädiktoren werden deren kriteriumsirrelevante Varianzanteile gebunden oder unterdrückt. ! Ad 1. Suppression bezeichnet die Feststellung, dass Variablen zur Vali- Conger, 1974; Holling, 1981. Weiterführende Literatur ? 1. Was bezeichnet der Begriff (zu Abschn. 7.3) Fazit Insgesamt zeigen die Forschungen zum Suppressorkonzept, dass es neben der direkten Erhöhung der Validität durch Einsatz von weiteren Prädiktoren auch die Möglichkeit gibt, Variablen zu erheben, die keinen oder einen nur sehr geringen Zusammenhang zum Kriterium aufweisen. Die Brillanz des Suppressionskonzeptes liegt darin, irrelevante Varianzanteile der Prädiktoren zu binden oder zu unterdrücken. Kapitel 7 · Probleme und Differenzierungen von Prognosen Übungsfragen 438 (S.472-473) Diagnostik und Intervention bei Gruppen (S.468-471) Tätigkeitsbezogene Diagnostik und Intervention (S.444-447, 449-451, 453-455, 458-465) Personalbeurteilung (S.440-443) Diagnostik und Entwicklung von Organisationen Diagnostik in der Arbeits-, Betriebsund Organisationspsychologie 8 Strukturdiagnostik Aufgaben der Organisationsdiagnostik Bereiche der Diagnostik und Intervention Diagnostik und Entwicklung von Organisationen Eine so verstandene Organisationsdiagnostik stellt allerdings »eher ein Programm als eine Sozialtechnologie« (von Rosenstiel, 1992, S. 358) dar, denn es gibt kaum genormte Verfahrensweisen in diesem Bereich (. Abb. 8.1). Allgemein lassen sich 2 grundlegende Muster voneinander unterscheiden, nämlich die Strukturdiagnostik und die Prozessdiagnostik. 4 Die Strukturdiagnostik stellt das Mittel der Wahl in der vergleichenden Organisationsforschung dar, die dem sog. Kontingenzansatz verpflichtet ist. »Damit wird die Annahme gekennzeichnet, dass Unterschiede zwischen Organisationsstrukturen »Die psychologische Organisationsdiagnose dient dazu, die psychologischen Aspekte des Erlebens und Verhaltens von Mitgliedern in Organisationen zu diagnostizieren, um Regelhaftigkeiten im Erleben, im Verhalten und in den Interaktionen zu beschreiben, zu erklären und zu prognostizieren« (Büssing 1993, S. 445). Definition Im Gegensatz zu den mehr betriebswirtschaftlich ausgerichteten Organisationsanalysen, in denen es um »die systematische Untersuchung des gegebenen Gesamtzustandes einzelner Organisationen mit dem Ziel der Aufdeckung vorhandener Organisationsprobleme und die Vorbereitung von Organisationsänderungen zum Zwecke der Verringerung oder Beseitigung dieser Probleme« (Klages, 1980, zit. nach Büssing, 1993, S. 446) geht, ist die Aufgabe der psychologisch ausgerichteten Organisationsdiagnostik mehr am Verhalten und Erleben der Mitglieder in Organisationen ausgerichtet: 8.1.1 Organisationsdiagnostik Dabei gelten Organisationsdiagnostik und -entwicklung als Felder, in denen der Versuch einer Integration der 3 anderen Bereiche unternommen wird. Im Hinblick auf den sich daraus ergebenden Überordnungsstatus soll nachfolgend zuerst darauf eingegangen werden. Vier Bereiche sind es vor allem, innerhalb derer Diagnostik und Intervention einen wichtigen Stellenwert einnehmen (s. von Rosenstiel, 1992; Bungard & Antoni, 1993): 4 Individuen, 4 Aufgaben, 4 Gruppen (darin auch Konflikte zwischen Personen) und 4 Organisationen. 8.1 Von Anfang an waren Diagnostik und Intervention in der ABO-Psychologie sehr eng auf die praktischen Bedürfnisse von Organisationen (und zwar vor allem im industriellen Bereich) bezogen. Zu ihren Anwendungsfeldern zählen auf einer mehr abstrakten Ebene die Diagnostik und Entwicklung von Organisationen, und auf etwas konkreterem Niveau einerseits die am Individuum ausgerichtete Beurteilung und Entwicklung von Personal sowie andererseits die an den Arbeitsbedingungen ansetzende Analyse und psychologische Gestaltung der Arbeit. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Diagnostik und Entwicklung von Organisationen, Personal- und Arbeitsbedingungen 440 Angesichts der Verschiedenheit der Anforderungen, die in den einzelnen Anwendungsbereichen an die psychologische Diagnostik gestellt werden, ist evident, dass eine übergreifende und hinreichend kohärente Organisationsdiagnostik nur sehr schwer zu operationalisieren ist. Ein Versuch in diese Richtung stellt das Organisationsanalyseinstrumentarium OAI von van de Ven und Ferry dar (1980, zit. nach Büssing, 1993). Fünf verschiedene »Module«, zu denen jeweils Fragebogen vorliegen, sollen den komplexen Anforderungen organisatorischen Geschehens gerecht werden: 1. Macroorganizational module: Dient der Messung der Gesamtstruktur der Organisation, 2. Interunit relations module: Hebt auf die Messung der Koordination zwischen organisationalen Einheiten ab, auf Unterschiede in den Situationen zurückzuführen sind, in denen sich die jeweiligen Organisationen befinden« (Büssing, 1993, S. 452). Solche »Situationen« können z. B. bestimmte Technologien oder die Größe der Unternehmen sein, die dann innerhalb der Strukturdiagnose erfasst werden. 4 Die Prozessdiagnostik geht demgegenüber davon aus, dass »eine Vielzahl von Merkmalen und Bedingungen in Organisationen einer fortwährenden Veränderung unterliegt« (Büssing, 1993, S. 453). Organisationsdiagnostik kann sich bei einer solchen Sichtweise im Gegensatz zu strukturdiagnostischen Vorgehensweisen nicht in einer einmaligen Datengewinnung erschöpfen, sondern muss einen mehrstufigen Vorgang bilden. Sie wird besonders häufig angewandt bei der Diagnose von 5 organisationalen Veränderungen, 5 sozialer Interaktion und Kommunikation innerhalb von Organisationen und 5 Wechselwirkungen zwischen Strukturmerkmalen, situativen Faktoren und dem Erleben/Verhalten in Organisationen. 8.1 · Diagnostik und Entwicklung von Organisationen 8 Organisationsanalyseinstrumentarium OAI Prozessdiagnostik . Abb. 8.1. Auch die Raumgestaltung in Organisationen kann Hinweise auf die Unternehmenskultur liefern 441 8 SORK-Paradigma Intervention in Organisationen Beispiel: Diagnose des Organisationsklimas Unter Organisationsentwicklung versteht man eine geplante, meist mehrjährige Intervention in der gesamten Organisation (also nicht nur in einzelnen Bereichen oder Gruppen). Was die Zielsetzung solcher Interventionen angeht, soll es nicht um »klassische Rationalisierungsprojekte (gehen), die ausschließlich auf eine Erhöhung der Produktivität abzielen; vielmehr steht zum einen die Forderung der Selbstverwirklichung und Autonomie der Mitarbeiter im Vordergrund, (zum anderen soll) durch die Konzipierung und Implementation geeigneter Arbeits-, Führungs- und Kooperationsformen ein hohes Maß an Commitment sowie eine hinreichende leistungsbezogene Effizienz aller Organisationsmitglieder sichergestellt werden« (. Abb. 8.2, Gebert, 1993). Beruhend auf dem S(Stimulus)-O(Organismus)-R(Reaktion)-K(Konsequenz)Paradigma unterscheidet Gebert (1993) einen personalen und einen strukturalen 8.1.2 Organisationsentwicklung Die darauf gerichteten Untersuchungen ergaben am Ende aber, dass sich das Konstrukt des Organisationsklimas, obgleich konzeptuell eigenständig, empirisch, also in der Praxis, von »Betriebsklima« und »Arbeitszufriedenheit« kaum unterscheiden lässt (s. von Rosenstiel, 1992). Auf weitere Beispiele für die Diagnostik in anderen Teilbereichen von Organisationen wird in 7 Abschn. 8.1.2 eingegangen. Vom OAI einmal abgesehen, handelt es sich bei Organisationsdiagnostik mehr um eine theoretische Fiktion denn um ein konkretes Diagnostikinstrumentarium. So ist es in der Praxis durchaus üblich, jeweils nur Teilbereiche diagnostisch zu erfassen, was am Beispiel der Messung des »Organisationsklimas« kurz dargestellt werden soll: Das Konstrukt des »Organisationsklimas« unterscheidet sich von dem mehr industriesoziologischen Ansatz des »Betriebsklimas«. Unter Letzterem wird die bewertende Beschreibung einer Organisation durch ein aggregiertes soziales Kollektiv verstanden, wohingegen das Organisationsklima für eine nichtbewertende Beschreibung der Organisation durch den Einzelnen steht. In diesem Sinne zielen Untersuchungsinstrumente zum Organisationsklima z. B. auf die folgenden, rein deskriptiv zu verstehenden Gesichtspunkte: 4 Betrieb als Ganzes, 4 Kollegen, 4 Vorgesetzte, 4 Aufbau- und Ablauforganisation, 4 Information und Mitsprache, 4 Interessenvertretung, 4 betriebliche Leistung. 3. Organizational unit module: Erfasst die Aufgaben, Strukturen und Prozesse auf verschiedenen Arbeitsebenen, 4. Job design module: Misst Merkmale einzelner Arbeitsplätze einschließlich ihrer strukturellen Anforderungen und der Einstellung sowie die Zufriedenheit der Arbeitenden, 5. Performance module: Richtet sich an die Effizienz und Effektivität auf den verschiedenen Arbeitsebenen. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Begriff »Organisationsdiagnostik« eher theoretische Fiktion 442 rung der Arbeitswelt sowie die Erhöhung von Effizienz und Commitment der Organisationsmitglieder abzielen. ! Die Organisationsentwicklung umfasst Maßnahmen, die auf die Humanisie- Das allgemeine Anliegen der Organisationsentwicklung besteht darin, solche (Rahmen-)Bedingungen in Organisationen zu schaffen, die einer Verwirklichung der oben angeführten Ziele dienlich sind. Dabei muss hauptsächlich zu Beginn von entsprechenden Maßnahmen sowohl auf Seiten des Managements als auch auf Seiten der Belegschaft viel Überzeugungsarbeit geleistet werden, um neue, partizipativere Arbeits- und Führungsstile dauerhaft verwirklichen zu können. Konkret können dafür Führungstraining und Teamfähigkeitstraining vonnöten sein, oder auch die Auswahl von Mitarbeitern, die eine besondere Schulung erfahren, um die neuen Formen der Arbeit optimal vorstellen zu können. Hand in Hand damit sollte eine Enthierarchisierung innerhalb der Organisationsstrukturen angestrebt werden, um den Mitarbeitern im Sinne der Humanisierung der Arbeitswelt mehr Mitsprachemöglichkeiten und Autonomie zu geben. Diese Beispiele sollen auf die große Zahl und Bandbreite denkbarer Organisationsentwicklungsmaßnahmen auf den unterschiedlichsten Organisationsebenen hinweisen. In der Praxis sind häufig genug ökonomische Erwägungen oder anderweitige Sachzwänge (z. B. die Einführung neuer Techniken) für die Realisierung solcher Maßnahmen entscheidend. Die in der Theorie und Programmatik gewöhnlich in den Vordergrund gerückten humanistischen Ziele stellen meist nur (durchaus willkommene) Nebeneffekte dar. Ansatz der Organisationsentwicklung. Dabei sollten im Idealfall beide Ansätze gleichzeitig verwirklicht werden: 4 Der personale Ansatz richtet sich auf die Kategorien O und R und beinhaltet beispielsweise gruppendynamische Trainings- sowie Weiterbildungsmaßnahmen. 4 Der strukturale Ansatz bezieht sich auf die Elemente S und K und beinhaltet, grob vereinfacht, die sog. »neuen Formen der Arbeitsgestaltung« (u. a. »job enrichment«) sowie die Implementierung von Gruppenarbeitsmodellen. 8.1 · Diagnostik und Entwicklung von Organisationen 8 Humanisierung der Arbeitswelt Schaffung von Rahmenbedingungen Strukturaler Ansatz Personaler Ansatz . Abb. 8.2. Besonders in der Automobilindustrie sind Beispiele für die Einrichtung »teilautonomer Arbeitsgruppen« bekannt geworden, deren Vor- und Nachteile heftig diskutiert wurden 443 8 Regelmäßige Leistungsbeurteilungen Rückmeldungen zum Arbeitsverhalten 3 Ebenen der Beurteilung Personalbeurteilung Personalbeurteilung Leistungseinschätzung, Zielsetzung 2. Ebene Leistungsbeurteilung Fähigkeitseinschätzungen, Prognosen Verhaltenssteuerung, Lernen 1. Ebene Day-to-day-Feedback 3. Eben Potentialbeurteilung Funktion Ebene Eignungsdiagnose, Assessment Center systematische Beurteilung Gespräch, Unterstützung Verfahrensweise . Tabelle 8.1. 3 Ebenen der Personalbeurteilung. (Nach Schuler & Prochaska, 1992, S. 178) Dabei lassen sich 3 Ebenen der Beurteilung unterscheiden (. Tab. 8.1). Die erste Ebene bezieht sich hauptsächlich auf das alltägliche Arbeitsverhalten. Hier hat sich gezeigt, dass Feedback, wie aus den experimentellen Laborstudien nicht anders zu erwarten, dann am wirksamsten ist, wenn dem Akteur die Kontingenzen zwischen Verhalten und dessen Konsequenzen klar vor Augen geführt werden können. Solche Rückmeldungen sind von großer Bedeutung für das Verhalten der Beurteilten, weil das fragliche Verhalten noch relativ gegenwärtig oder »greifbar« ist. Da die methodischen Ansprüche auf dieser Ebene vergleichsweise gering sind, kann meist auf ein systematisches Beurteilungsverfahren verzichtet werden. Die zweite Ebene wird markiert durch die regelmässig stattfindenden Leistungsbeurteilungen, die für Zwecke der Personalentwicklung und des Personalmanagements unentbehrlich sind (z. B. für Platzierungs- und Beförderungsentscheidungen). Die Beurteilung erfolgt meist auf der Basis eines Gespräches zwischen Vorgesetztem/ Vorgesetzter und Mitarbeiter/Mitarbeiterin, wobei dieses Gespräch aus Gründen der Objektivitätsoptimierung zumindest in halbstandardisierter Form erfolgen sollte. Neben konkret-objektiven Indikatoren wie Verkaufs- und Umsatzzahlen, den Diskrepanzen zwischen Soll- und Ist-Zuständen u. a. werden gewöhnlich auch potentielle individuelle Förderungsmassnahmen und solche zur Erhöhung der persönlichen Bewährungswahrscheinlichkeit und Einsatzbreite einen Themenschwerpunkt bilden. Wichtig ist für den Ertrag der Unterredung eine besondere Schulung des Vorgesetzten in Ge- »Leistungs- und Potentialdaten werden im organisationalen Kontext zum Zwecke der individuellen Auswahl, Beurteilung und Förderung erhoben, um Über- und Unterforderung von Mitarbeitern zu vermeiden, Entwicklungsmöglichkeiten zu sichern und gleichzeitig die Effizienz von Organisationen zu steigern« (Schuler & Prochaska, 1992, S. 158). Die auf Individuen bezogene Diagnostik lässt sich in 2 Bereiche untergliedern: 4 Im Rahmen der Eignungsdiagnostik werden Daten über die Eignung von Bewerbern für Stellen oder Funktionen erhoben. 4 Die (systematische) Personalbeurteilung schließt eignungsdiagnostische Aussagen häufig ein, geht andererseits in jenen Fällen darüber hinaus, wo es um die Abschätzung von Potentialen und die Zuführung zu Personalentwicklungsmaßnahmen geht. 8.2 Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Eignungsdiagnostik 444 Dabei sind 3 prototypische Konstellationen identifizierbar, zwischen denen aber fließende Übergänge auftreten (zit. nach von Rosenstiel, 1992): 4 Es sind mehrere freie Stellen, aber nur ein Bewerber oder eine Bewerberin vorhanden. Diese(r) soll auf jene Stelle kommen, die ihr/ihm am besten entspricht (Auswahl der bestgeeigneten Funktion oder Stelle; »Eignungsdiagnostik«). »Unter Berufseignungsdiagnostik wird die Gesamtheit aller wissenschaftlichen und wissenschaftsgeleitet-praktischen Bemühungen verstanden, die auf dem Wege über eine gedankliche Zuordnung von beruflichen Situationen zu Personen oder von Personen zu beruflichen Situationen die Ziele ›Maximierung beruflicher Zufriedenheit‹ und ›Maximierung beruflicher Leistung‹ anstreben« (Eckardt & Schuler, 1992, S. 534). Definition 8.2.1 (Berufs-)Eignungsdiagnostik sprächsführung. Hilfreich können für den Beurteiler auch Einstufungsverfahren, wie z. B. Skalen zur Verhaltensbeobachtung, sein. Von der dritten Ebene wird allgemein eine besondere prognostische Funktion erwartet, sie wird deshalb auch als Potentialbeurteilung bezeichnet und liefert die Grundlage für nachfolgende Personalentwicklungsmaßnahmen. Die methodischen Ansprüche an diese Form der Mitarbeiterbeurteilung sind hoch, sodass neben der Ergebnis- bzw. Verhaltensbeurteilung durch einen Vorgesetzten mehr und mehr Elemente der Assessment-Center-Technik zum Tragen kommen. 8.2 · Personalbeurteilung 8 3 Aufgabenstellungen möglich Potentialbeurteilung . Abb. 8.3. In Dienstleistungsberufen sollte z. B. auch »kundenorientiertes Verhalten« bei einer Personalbeurteilung berücksichtigt werden 445 8 446 In den so genannten »Leitsätzen« werden allgemeine Empfehlungen zum Vorgehen formuliert. Beispielsweise sollte zur Aufklärung über die Untersuchungssituation gehören, dass die Kandidaten erfahren, welche Personen an der Untersuchung mitwirken, 4 Für die Anbieter entsprechender Dienstleistungen (»Auftragnehmer«): Leitfaden für die Planung und Durchführung von Eignungsbeurteilungen. 4 Für die Personen und Institutionen, die Eignungsbeurteilungen durchführen lassen (»Auftraggeber«): Maßstab für die Bewertung von externen Angeboten. 4 Für die Personalverantwortlichen: Qualitätssicherung und -optimierung von Personalentscheidungen. 4 Für die Personen, deren Eignung beurteilt wird: Schutz vor unsachgemäßer oder missbräuchlicher Anwendung von Verfahren. Zweck der DIN 33430 DIN 33430 zu berufsbezogenen Eignungsbeurteilungen: Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen Zur Feststellung der berufsbezogenen Eignung wurden in der Vergangenheit häufig Verfahren mit fraglicher Validität herangezogen. Umgekehrt ist in der beruflichen Praxis die Akzeptanz für nachweislich hoch valide Verfahren gering (. Tab. 8.2). Aus der Unzufriedenheit mit der Praxis der beruflichen Eignungsdiagnostik entwickelte sich eine Initiative zur Etablierung eines Standards für eine wissenschaftlich fundierte Vorgehensweise. Der Berufsverband Deutscher Psychologinnen und Psychologen (BDP) stellte 1995 beim Deutschen Institut für Normierung e.V. (DIN e.V.) den formalen Antrag, eine Norm zur beruflichen Eignungsdiagnostik zu erarbeiten. Unterstützung fand der BDP durch die Deutsche Gesellschaft für Psychologie (DGPs). Am 9. Juni 1997 nahm ein Ausschuss des Deutschen Instituts für Normung, der mit Vertretern aus Wissenschaft und Praxis, Unternehmen, Behörden, Verbänden und Verlagen besetzt war, unter Vorsitz von Prof. Hornke die Arbeit auf (7 auch Interview mit Prof. Hornke). Das Ergebnis dieser Arbeit ist letztlich ein Konsens, der auch von Interessen der Beteiligten geprägt ist. Im Jahr 2002 erfolgte die Veröffentlichung der »Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen: DIN 33430« (Beuth-Verlag, Berlin). Auf 15 Seiten Text (der durch sieben Seiten Glossar ergänzt wird) werden Qualitätsstandards sowohl für die Personen, die als Auftragnehmer oder Mitwirkende die Eignungsbeurteilung durchführen, als auch an die dabei eingesetzten Verfahren definiert. Die DIN 33430 ist nicht rechtsverbindlich. Das Deutsche Institut für Normung ist ein privater Verein, der auf Antrag Dritter den Normerstellungsprozess koordiniert. Es steht potentiellen Anwendern frei, sich künftig nach der Norm zu richten. Allerdings darf die Norm nicht beliebig zu Werbezwecken benutzt werden; bei Missbrauch droht eine Abmahnung. Denkbar ist, dass sich Gerichte künftig bei Klagen von abgewiesenen Bewerbern an der DIN 33430 orientieren. nete Person soll ermittelt werden (»Konkurrenzauslese«). 4 Nur eine Stelle ist frei, für die sich mehrere Interessenten bewerben. Die bestgeeig- Ziel ist die wechselseitige optimale Zuordnung oder Platzierung. 4 Die Anzahl der offenen Stellen und die Anzahl der Bewerber entsprechen einander. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Anforderungsbezug Kandidaten vorab möglichst Informationen über den Arbeitsplatz geben Vorgehensweise der Vorauswahl und die Auswahlkriterien vorab festlegen Gesetzliche Vorgaben (u. a. Schweigepflicht, Datenschutz) beachten Kandidaten vorab über die Untersuchungssituation aufklären und diese angemessen gestalten. Bei den Personen, die an der Eignungsuntersuchung beteiligt sind, wird zwischen Auftraggeber, Auftragnehmer und »Mitwirkenden« unterschieden, die einzelne Verfahren durchführen und auswerten können. Auftraggeber kann z. B. ein Unternehmen sein, das freie Stellen besetzen möchte. Der eignungsdiagnostische Prozess kann von Mitarbeitern des Unternehmens in Eigenregie durchgeführt werden, es können aber auch externe Experten beauftragt werden. In beiden Fällen wären diese Personen Auftragnehmer. Der Auftragnehmer ist hauptverantwortlich für den gesamten Prozess, der von der Planung und Durchführung der Untersuchung über die Auswertung und Interpretation der Ergebnisse bis zum Bericht an den Auftraggeber reicht. Er muss die zur Verfügung stehenden Verfahren und Prozesse kennen. Dazu gehören auch Kenntnisse über die Konstrukte (z. B. Intelligenz) und über die Qualität und Einsatzvoraussetzungen der Verfahren. Bestimmte Teilprozesse, insbesondere die Durchführung und Auswertung einzelner Verfahren, kann er an »Mitwirkende« delegieren. Von den Verfahren wird verlangt, dass sie grundsätzlich einen Bezug zu den Anforderungen aufweisen. Ein Verfahren, das bei einer Fragestellung passend ist, kann bei einer anderen völlig unangemessen sein. Es werden jedoch auch allgemein gültige Auswahlkriterien genannt. So sollen in den Unterlagen zu einem Verfahren die Handhabung erklärt und Angaben gemacht werden, die zu einer kritischen Bewertung nötig sind. Konkrete Anforderungen werden an die Objektivität, Zuverlässigkeit, Gültigkeit und die Normen formuliert. In einem Anhang der DIN-Norm finden sich detaillierte Forderungen, welche Informationen über ein Verfahren verfügbar sein sollten (z. B. zur Zielsetzung, der theoretischen Grundlage, bestimmte Aspekte der Reliabilität). Nach gegenwärtigem Stand (Juli 2005) ist nur eine Lizenzierung von Personen realisiert worden. Organisiert werden die Prüfungen von der Deutschen Psychologenakademie (DPA), einer Bildungseinrichtung des BDP, die auch ein öffentlich zugängiges Register lizenzierter Personen führt. Für die Zulassung zur Prüfung ist kein bestimmter Berufs- oder Studienabschluss erforderlich, wohl aber ein Nachweis angeleiteter Praxiserfahrung. Informationen zur DIN-Prüfung, aber auch weitere aktuelle Informationen zur DIN 33430 finden sich über die Homepage des BDP (http://www.bdp-verband. org/bdp/politik/din.shtml). Das Grundwissen zur DIN 33430, das zugleich auch für die Zertifizierung nach DIN 33430 prüfungsrelevant ist, liegt in einem von Westhoff et al. (2005) herausgegebenen Band vor. 4 4 4 4 4 Leitsätze für die die Vorgehensweise bei berufsbezogenen Eignungsbeurteilungen welche Folgen eine mangelnde Kooperation haben kann und wer von den Ergebnissen der Untersuchung erfährt. 8.2 · Personalbeurteilung 447 8 Um Antworten auf jede dieser Fragestellungen zu erhalten, bedient sich die berufliche Eignungsdiagnostik nahezu der gesamten Palette verfügbarer Instrumente, vielleicht mit Ausnahme der projektiven Verfahren. Innerhalb des Entscheidungsprozesses, der zur Einstellung bzw. zur Ablehnung eines Bewerbers führt, kommt auch heute noch dem Bewerbungsgespräch die Funktion eines Eckpfeilers zu (. Tab. 8.2). Darin ist allerdings eine gewisse Gefahr insofern enthalten, als implizite Theorien auf Seiten des Gesprächsleiters eine informationssuchende und entscheidungsleitende Funktion übernehmen können, und zwar zu Lasten einer sachlichen Angemessenheit. Daher sind strukturierte Interviews gegenüber unstrukturierten wegen ihrer höheren Validität und Fairness - die Bewerber werden weitgehend gleich behandelt - zu bevorzugen. Was Tests angeht, so kommen hauptsächlich solche zur Allgemeinen Intelligenz zur Anwendung. Insbesondere der Zusammenhang der Allgemeinen Intelligenz mit der Leistungshöhe im Beruf ist durch zahllose Untersuchungen empirisch gut belegt, und zwar für nahezu alle Gruppen von beruflichen Tätigkeiten (s. Eckardt & Schuler, 1992, S. 538). Weitere Merkmale, die mittels Leistungstests erfasst werden, gehören je nach den Anforderungen der zu besetzenden Stellen zu den Bereichen der anschauungsge- Wird in Zukunft eine einheitliche europäische Norm angestrebt? Die DIN 33430 auf europäischem Parkett zu präsentieren und u. a. dort zu etablieren ist eine sinnvolle und folgerichtige Idee, aber so schwierig es war, sich national zu einigen, so schwierig wird es sein, sich europäisch zu einigen. In Österreich hat man zwischenzeitlich die DIN 33430 in eine Önorm übernommen. Vorbildlich sind zwar die Vorstellungen der British Psychological Society, die A-, B-, C-Lizenzen für Testanwender vorsehen. Aber die DIN 33430 rückt ja gerade vom Test ab und betont den gesamten Prozess der Eignungsbeurteilungsarbeit. Das ist weit mehr als Testanwenden! < Woran kann beispielsweise ein Bewerber erkennen, dass seine berufliche Eignung professionell nach den DIN-Standards beurteilt wird? Zunächst einmal daran, dass die Rückmeldung, die jemand nach der Eignungsbeurteilung erhält, die eigenen Leistungen und Neigungen angemessen widerspiegelt. Problematisch wird das naturgemäß dann, wenn Bewerber sich anders sehen als sie von Eignungsbeurteilern erlebt werden. Aber die DIN 33430 will da ja gerade helfen, Willkür in der Eignungsbeurteilung abzustellen. Was bedeutet DIN 33430 für Absolventen eines Psychologiestudiums, die in ihrem angestrebten Beruf berufliche Eignungsdiagnostik betreiben wollen? Zunächst bedeutet es, dass Absolventen der Psychologie sich auf Augenhöhe mit den Angehörigen anderer Berufsgruppen messen müssen, wenn es um Mitarbeit in der beruflichen Eignungsbeurteilung geht. Sie alle haben über solides Wissen zu verfügen und auftragsangemessen zu planen sowie eignungsbezogene Informationen zu erheben. eine Fortbildungsserie für in der Eignungsbeurteilung Tätige entwickelt (s. http://www. dpa-bdp.de/willkommen__21.html). Deshalb wurde auch eine Lizenzprüfung konzipiert und zwischenzeitlich schon über 40mal durchgeführt. Deshalb wurde ein öffentliches Register erstellt, in das sich - auch psychologiefremde - Personen nach erfolgreicher Lizenzprüfung eintragen lassen können. Deshalb wird weiter für die DIN 33430 geworben, damit aus der Normungsidee eine normierte, gute Praxis wird, bei der nicht einfach Schritte weggelassen oder vergessen werden, die für die so entscheidende Beurteilung der Eignung von Personal wesentlich sind. 8.2 · Personalbeurteilung Tests zur Allgemeinen Intelligenz Bewerbungsgespräch 449 8 8 Prognosegüteb .51 .54 .48 .51 .38 .41 .37 .35 .26 .02 Berufserfolg Einsatzhäufigkeit (%) a 3 12 5 50 51 5 12 14 32 3 Ausbildungserfolg Prognosegüteb .56 _ – .35 .35 .38 – .30 .23 – Einsatzhäufigkeit (%) a 32 20 40 55 28 10 6 11 5 0 bundenen Intelligenz (Wahrnehmungsgeschwindigkeit und -genauigkeit) sowie der Psychomotorik (Hand- und Fingergeschicklichkeit, sensomotorische Koordination). Insbesondere wird jedoch den letzteren gewöhnlich ein sehr viel geringeres Gewicht als den kognitiven Fähigkeitsfaktoren zugemessen. In . Tab. 8.2 sind unter »Leistungstests« Verfahren zusammengefasst, die berufsrelevantes Wissen erfassen. Leistungsmotivation stellt weithin verbreiteten Überzeugungen zufolge eine ganz wesentliche Voraussetzung für beruflichen Erfolg dar. Spangler (1992) führte eine Metaanalyse über insgesamt 105 empirische Untersuchungen zum Zusammenhang zwischen Leistungsmotivation und verschiedenen Leistungsmaßen durch. Die Leistungsmotivation wurde entweder durch Fragebogen (193 Korrelationen, N = 15.328) oder durch einen projektiven Test, den TAT (190 Korrelationen; N = 12.961) gemessen. Unter den analysierten Leistungsmaßen stellen reale Leistungen im Leben, bspw. Einkommen oder Verkaufserfolge, das härteste Validitätskriterium dar. Fragebogenmaße korrelierten durchschnittlich zu .13 mit realen Leistungen, TAT-Maße zu .22. Bei den Koeffizienten handelt es sich um beobachtete, unkorrigierte Werte. Die leichte Überlegenheit des projektiven Verfahrens ist möglicherweise auf eine Konfundierung mit Intelligenz zurückzuführen. Intelligentere Personen produzieren eher längere Geschichten zu den TAT-Bildern, und mit der verbalen Produktivität steigt das Motivmaß an. Eine weitere Metaanalyse (Robbins, Lauver, Le, Davis, Langley & Carlstrom, 2004) galt der Beziehung zwischen psychosozialen Faktoren, unter anderem auch von – mit Fragebogen erfasster – Leistungsmotivation und Studienerfolg. Die Autoren errechneten eine mittlere Korrelation von .26 (korrigiert .30) zwischen Leistungsmotivation und a Anmerkung. Leicht modifiziert nach Schmidt-Atzert (2005, S. 227). Ergebnisse zu ausgewählten Verfahren. Weitere Erläuterungen im Text. Einsatzhäufigkeit in deutschen Unternehmen nach Schuler, Frier und Kaufmann (1993); prozentualer Anteil der Unternehmen, die das Verfahren zur externen Personalauswahl bei Auszubildenden/(Fach-) Arbeitern, Angestellten ohne Führungsaufgaben, Trainees und Führungskräften einsetzen. Bei Interview jeweils höchste Nennungshäufigkeit aus Personalabteilung oder Fachabteilung. b nach Schmidt und Hunter (1998). c Zur Spezifizierung dieser Verfahren 7 Text. Kognitive Leistungstests Arbeitsproben Leistungstestsc Interview, strukturiert Interview, unstrukturiert Persönlichkeitstestsc Assessment Center Biograf. Fragebogen Referenzen Graphologie Verfahren . Tabelle 8.2. Einsatzhäufigkeit und Prognosegüte verschiedener Verfahren zur Vorhersage von Ausbildungs- und Berufserfolg Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Leistungsmotivation 450 6 bei der Bundeswehr« Wie viele Psychologen arbeiten bei der Bundeswehr, welche Anforderungen müssen sie bei der Einstellung erfüllen, und wie werden sie weiter für ihre Einstellung qualifiziert? Zahl der Psychologinnen und Psychologen bei der Bundeswehr: 180. Anforderungen bei der Einstellung: 4 Hauptdiplom in Psychologie einer Universität, 4 Uneingeschränkte Bereitschaft zum Einsatz im gesamten Bundesgebiet, 4 Uneingeschränkte Bereitschaft zur truppenpsychologischen Ausbildung und zur Teilnahme an Auslandseinsätzen der Bundeswehr (ggf. im Soldatenstatus), > Interview mit Dr. Dieter Hansen zum Thema »Psychodiagnostische Verfahren Studienleistungen in Form von Noten (17 Korrelationen, N = 9.330). Fazit: Trotz der plausiblen Annahme, dass berufliche Leistungen oder Studienleistungen erheblich von der Leistungsmotivation abhängen, lassen sich zwar positive, aber doch nur schwache Korrelationen finden. Zwischen den »Big-Five«-Persönlichkeitsmerkmalen und Berufserfolg besteht nur ein schwacher Zusammenhang. Barrick, Mount und Judge (2001) haben insgesamt 15 Metaanalysen dazu vorgefunden und die Ergebnisse daraus aggregiert. Der höchste Zusammenhang besteht mit einer Korrelation von .12 für Gewissenhaftigkeit (Mittelwert von 239 Studien, N = 48.000). Nach Korrektur für Varianzeinschränkung und Reliabilität entspricht dem eine Korrelation von .27 auf Konstruktebene. In Tab. 8.2 sind unter »Persönlichkeitstests« Ergebnisse zu einer speziellen Variante von Fragebögen aufgeführt, nämlich Integritätstests. Diese Verfahren wurden entwickelt, um kontraproduktives Verhalten im Unternehmen (Diebstahl, Alkohol- oder Drogenkonsum, Beschädigung oder Zerstörung von Sachen etc.) vorherzusagen. Integritätstests weisen nicht nur eine beachtliche Validität auf, sie haben zudem eine inkrementelle Validität gegenüber der Intelligenz (Schmidt & Hunter, 1998). In Deutschland finden Integritätstests kaum Verwendung. Relativ gute Validitäten erbringen biografische Fragebogen, deren Grundgedanke darin besteht, »dass vergangene Erfahrungen und deren subjektive Verarbeitung brauchbare Prädiktoren künftigen Verhaltens sein müssten« (Schuler & Prochaska, 1992, S. 171). Metaanalysen ergaben allerdings, dass die Höhe der Validitätskoeffizienten stark von der jeweiligen Gruppe abhängt, sodass z. B. akzeptable Werte bei Militärs und Wissenschaftlern, nur sehr niedrige hingegen (aus verständlichen Gründen) bei Jugendlichen zu beobachten waren (zusammenfassend s. Schuler & Prochaska, 1992). Die bei den erwähnten und weiteren Prädiktortypen als durchschnittlich ermittelten Validitätskoeffizienten sind in . Tab. 8.2 zusammengestellt. Die in der ersten Spalte aufgeführten Befragungsergebnisse zeigen, dass die Anwendungshäufigkeit eines Verfahrens mehrfach nicht mit der Validität korrespondiert. So haben sich kognitive Leistungstests, andere Leistungstests und Arbeitsproben zur Vorhersage von Berufserfolg bewährt. Den Befragungsergebnissen zufolge werden sie dennoch relativ selten eingesetzt. Eine Institution, in der Personalauswahl in großem Umfang betrieben wird, ist die Bundeswehr. Das 7 Interview mit Dr. Hansen gibt einen Einblick in die Praxis der Personalauswahl und informiert über die Anforderungen an Psychologen, die bei der Bundeswehr tätig sein wollen. 8.2 · Personalbeurteilung Biografische Fragebogen Andere Persönlichkeitsmerkmale 451 8 Ein wiederkehrendes Problem eignungsdiagnostischer Untersuchungen besteht darin, dass Testverfahren zum Einsatz gelangen, die nicht in ausreichendem Maße auf die üblichen Testgütekriterien hin überprüft wurden. Das liegt vielfach daran, dass zahlreiche Betriebe aufgrund sehr spezifischer Voraussetzungen und Anforderungen der jeweiligen Stellen zunächst eigene Testverfahren entwickeln, die dann aus Zeit- oder Geldmangel, mitunter auch weil nach einer Stellenbesetzungsphase nicht mehr die ! Eignungsdiagnostische Untersuchungen werden durchgeführt, um größtmögliche Übereinstimmung zwischen beruflichen Anforderungen und optimaler Bewerberauswahl und -zuordnung zu erreichen. Dazu bedient sie sich nahezu der gesamten Palette verfügbarer Instrumente. Besondere Bedeutung kommt dem Bewerbungsgespräch zu. In welchem Verhältnis steht nach Ihren Erfahrungen der personelle Aufwand der psychologischen Eignungsdiagnostik zu dessen Nutzen? Militärische Ausbildungsgänge sind im Allgemeinen mit hohen Kosten verbunden (z. B. kostet die Ausbildung eines Kampfpiloten 1,5 Mio Euro). Darüber hinaus können Fehlleistungen von Spezialpersonal, das fälschlicherweise ausgewählt wurde, in risikoreichen Situationen (z. B. Flugsicherheit) zu dramatischen Konsequenzen führen. Personalauswahl dient insofern nicht nur dazu, die Versagerraten in der Ausbildung auf einem vertretbar niedrigen Niveau zu halten, sondern auch der Gewährleistung der Sicherheit und Effektivität im Einsatz. Sowohl aus qualitativer als auch aus ökonomischer Sicht hat sich der Einsatz der psychologischen Eignungsdiagnostik mit dem damit verbundenen personellen Aufwand im Rahmen der Bundeswehr ausgezahlt. < Wie ist es Ihren Erfahrungen zufolge um die prognostische Validität der eingesetzten diagnostischen Verfahren bestellt? Die Erfassung der prognostischen Validität der in der Bundeswehr eingesetzten diagnostischen Verfahren bereitet erhebliche Probleme, da die Verfahren häufig geändert werden (Berücksichtigung neuer Anforderungen in der Ausbildung und im beruflichen Einsatz), und weil die Zeitspanne zwischen Testdurchführung und der Verfügbarkeit von Leistungsergebnissen aus der Ausbildung bzw. aus der beruflichen Bewährung zumeist mehrere Jahre beträgt. Einige Analysen zeigen, dass die Validitätskoeffizienten der simulationsgestützten Arbeitsproben im Mittel über .50 liegen, während Intelligenz- und Konzentrationsverfahren mittlere Werte um .40 erreichen. Weniger valide sind Interview und Gruppensituationsverfahren. Für den Laien müssten Integritätstests in einer Organisation wie der Bundeswehr eine große Bedeutung haben, stimmt das? Sog. Integritätstests finden bei der Bundeswehr keine Verwendung. Für Außenstehende kommen Fragen der Belastbarkeit eine besondere Bedeutung innerhalb militärischer Belange zu; stimmt das, und welcher Art sind die darauf gerichteten Instrumente? Das Merkmal »Belastbarkeit« ist in der Tat für die Mehrzahl der militärischen Verwendungen von besonderer Bedeutung. Belastbarkeit wird mit folgenden Instrumenten bewertet: 4 teilstandardisiertes Interview (Prüfgruppe aus Psychologen und Offizieren), 4 Verhaltensbeobachtung bei simulationsgestützten Arbeitsproben, 4 Verhaltensbeobachtung bei Gruppensituationsverfahren. 8.2 · Personalbeurteilung 8 Problem: Mangelnde Testgüte der Verfahren 453 8 Platzierung Selektion guter Eindruck vorwiegend Leistungsmerkmale nicht unbedingt erforderlich Messgegenstand Normen Welcher Proband passt am besten zu dem Beruf? Ziel des Probanden Fragestellung unbedingt erforderlich auch Interessen und Persönlichkeit realistisches Bild Welcher Beruf passt zum Eignungsprofil des Probanden? Platzierung . Tabelle 8.3. Unterschiede zwischen Selektion und Platzierung Notwendigkeit weiterer Testuntersuchungen besteht oder sich die Gegebenheiten im Umfeld ändern, keiner weiteren Überprüfung mehr unterzogen werden. Ein weiterer Problembereich liegt darin, dass Eignungsdiagnostik in aller Regel Status- und nicht Prozessdiagnostik ist. Damit bestimmt gleichsam die Tagesform der Bewerber ihre Chance, und die punktuellen Messungen eröffnen nur geringe Möglichkeiten, treffsichere Aussagen über künftige Entwicklungen der Bewerber zu machen. Um die Statusdiagnostik durch die Perspektive des Prozessualen zu erweitern, wurden u. a. die Entwicklungen des Assessment Centers (7 Abschn. 8.2.2) vorangetrieben. Bei dieser Technik werden mehrere Personen für meistens 2–3 Tage unter gleichsam »kasernierten« Bedingungen zusammengeführt. In derartigen Settings bearbeiten die Probanden nicht nur vielfältige Leistungs- und Persönlichkeitstests, sondern nehmen auch an Gruppen- und Kommunikationsübungen teil, simulieren Arbeits- und Gruppenprozesse usw. Die Ergebnisse werden i. Allg. von Führungskräften des betreffenden Konzerns und von Psychologen beurteilt. Trotz des relativ hohen Aufwandes an Kosten und Personal finden Assessment Center wegen ihrer relativ hohen Validität zunehmend mehr Anwendungsbereiche. In vielen Fällen dürfte die »Methode der Wahl« in der Realisierung einer möglichst langen Probezeit liegen. Allerdings erhalten darin nur die bereits eingestellten Bewerber die Chance, sich in der konkreten Arbeitssituation zu bewähren. Während in Unternehmen und Behörden vorrangig eine Konkurrenzauslese betrieben wird, stellt sich bei der Berufsberatung die Frage nach der richtigen Platzierung. Welcher Beruf oder welche Berufsausbildung ist für den Ratsuchenden am besten geeignet? Diese Frage wird an Psychologen der Bundesagentur für Arbeit gerichtet (7 dazu auch Interview mit Prof. Hilke). Selektion und Platzierung unterscheiden sich in mehrfacher Hinsicht (. Tab. 8.3). Bei einer Selektion genügt es, einige wenige Merkmale der Bewerber zu erfassen, die einer Anforderungsanalyse und Validitätsuntersuchungen zufolge für den einen Beruf relevant sind. Auch wenn mehrere Bewerber geeignet sind, wird nur der beste ausgewählt; die Auswahl bezieht sich auf Personen. Für eine Berufswahlentscheidung werden die Anforderungen mehrerer Berufe mit dem Eignungsprofil des Ratsuchenden abgeglichen; hier bezieht sich die Auswahl auf Berufe. In einer Auswahlsituation werden sich die Bewerber günstig darzustellen versuchen. Beim Einsatz von Fragebögen und Interviews ist deshalb mit Verfälschungen zu rechnen. Auch in einem Assessment Center besteht die Gefahr, dass sich Bewerber so präsentieren, wie es ihnen vorteilhaft erscheint. In einer Beratungssituation ist die Motivlage eine andere; der Proband wird sich eher so darstellen, wie es für ihn typisch ist. Deshalb kommen in dieser Situation auch Verfahren in Frage, die leicht verfälscht wer- Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Problem: Meist nur Statusdiagnostik 454 6 Wie viele Psychologen arbeiten bei der BA, welche Anforderungen müssen sie bei ihrer Einstellung erfüllen, und wie werden sie weiter für ihre Tätigkeit qualifiziert? Insgesamt arbeiten im PD der BA 443 Psychologinnen und Psychologen, 410 in den Agenturen, 20 in den Regionaldirektionen und 13 im BA-Servicehaus und der Zentrale. Worin unterscheiden sich die Tests, die vom Psychologischen Dienst der BA verwendet werden, von den Tests, die von den Testverlagen zum Kauf angeboten werden? Wir müssen im Rahmen von psychologischen Begutachtungen auch Aussagen machen, auf die Entscheidungen über finanzielle Leistungen der BA gestützt werden können. Wir müssen deshalb auf den Testschutz besonderen Wert legen. Dies ist der zentrale Grund für die Entwicklung BA-eigener Testverfahren. Bei der Entwicklung der Verfahren orientieren wir uns an denselben Konstruktionsprinzipien und wissenschaftlichen Kriterien wie andere Testkonstrukteure auch. Wir haben allerdings den nicht zu unterschätzenden Vorteil, Auswahl bzw. Konstruktion der Einzeltests stärker populations- und fragestellungsbezogen vornehmen zu können als ein Testautor, der für den Markt produziert. Zudem stellen wir bei den BA-eigenen computergestützten Tests durch verzweigte Testinstruktionen sicher, dass die Ratsuchenden mit dem Testmaterial vertraut sind, bevor der eigentliche Test beginnt. Für die im Rahmen der Entwicklung der Tests notwendigen empirischen Studien können wir in der Regel auf relativ große Stichproben zurückgreifen und haben damit eine gute »empirische Basis« für unsere Verfahren. scher Verfahren bei Berufseignungsuntersuchungen« Wie viele Berufseignungsuntersuchungen führt die Bundesagentur für Arbeit (BA) jedes Jahr durch und zu welchem Zweck wird von der BA Diagnostik betrieben? Eignungsurteile werden im Rahmen jeder beruflichen Beratung und bei jeder Vermittlung durch eine Vermittlungs- und Beratungsfachkraft der BA abgegeben. Es sind im Jahr etwa 240.000 solcher Untersuchungen. Wir unterscheiden fünf Arten von Begutachtungen; das Spektrum reicht von der »Begutachtung nach Aktenlage« über die »Standardisierte Eignungsuntersuchung« mit dem Berufswahltest (BWT) bis zur »Psychologischen Begutachtung von hochgradig Sinnesbeeinträchtigten«. Es geht dabei immer um Fragen der beruflichen Eignung, aber zumeist nicht um Fragen der Eignung alleine. Zum Psychologischen Dienst (PD) kommen Menschen im Alter von 14 Jahren bis über 50 Jahre, Menschen jedes Bildungsniveaus, geistig behinderte Menschen ebenso wie Akademiker und Menschen mit Behinderungen, deren berufliche Eingliederung der Agentur-Psychologe unterstützt. Er muss Eignungsaussagen zu etwa 800 Berufen machen. Eigentlich müsste ich von der Agentur-Psychologin sprechen, denn wir haben bald mehr weibliche Psychologen beschäftigt als männliche. > Interview mit Prof. Dr. Reinhard Hilke zum Thema »Anwendung diagnosti- den können. Persönlichkeitsmerkmale und (berufliche) Interessen sind für die Platzierung relevant und werden daher berücksichtigt. Da für die einzelnen Berufe Mindestanforderungen (z. B. eine mindestens durchschnittliche Intelligenz) feststehen, sind normierte Werte erforderlich. Die Verfahren müssen nicht nur normiert sein, es ist auch erforderlich, dass berufsbezogene Vergleichswerte von erfolgreichen Stelleninhabern verfügbar sind. 8.2 · Personalbeurteilung 8 Prof. Dr. Reinhard Hilke, Leiter des Psychologischen Dienstes der Bundesagentur für Arbeit 455 8 Unbestimmt bleibt in dieser Definition allerdings noch das »diagnostische Modell«: Dieses entwickelte sich aus einer Überwindung der Vorstellungen, dass es eine Art »Führungspersönlichkeit« gebe, die in der Lage sei, ein weites Spektrum von Anforderungen zu meistern und als eine Funktion stabiler Persönlichkeitsmerkmale verstanden werden müsse. Dagegen wird mittlerweile davon ausgegangen, dass es – anstelle von breit generalisierten Führungskompetenzen – individuelle Stärken und Schwächen der Mitarbeiter zu berücksichtigen gelte, die mit den speziellen Anforderungen der Führungsposition verglichen werden müssten; nur im Hinblick auf diese Anforderungen könne Führungseignung sachgerecht diagnostiziert werden. Im AC wird versucht, die zukünftigen Anforderungssituationen zu simulieren, um so individuelle Fähigkeiten im Verhalten beobachtbar (und damit diagnostizierbar) zu machen. »Ein Assessment Center ist ein umfassendes, standardisiertes Verfahren, im Rahmen dessen unterschiedlichste Beurteilungs- und Bewertungsverfahren, wie beispielsweise situative Übungen, Interviews, Unternehmungsplanspiele, Tests, Gruppendiskussionen und eine Vielzahl von Simulationen eingesetzt werden, um einzelne Mitarbeiter im Hinblick auf verschiedene Zielsetzungen zu beurteilen. Eine Anzahl ausgebildeter Beurteiler, die nicht im direkten Vorgesetztenverhältnis zu den Teilnehmern stehen sollen, verbringen 3 bis 5 Tage mit der Beobachtung der Kandidaten und bewerten sie abschließend hinsichtlich ihres Managementpotentials und ihres Weiterbildungsbedarfs. Die Beurteilungsergebnisse werden den vorgesetzten Stellen mitgeteilt und dienen dann als Grundlage personalpolitischer Entscheidungen, wie Beförderung, Versetzung und Karriereplanung. Wenn die Ergebnisse auch den Teilnehmern bekanntgegeben werden, sollen sie zur eigenen individuellen Entwicklungsplanung beitragen.« Beschreibung des AC Neues Modell der Führungseignung Diagnostische Zielsetzungen und Prinzipien: Das Assessment Center (AC) ist eine Methode der Personalauswahl und -entwicklung. Ursprünglich wurde dieses zeitlich und finanziell aufwändige Verfahren vor allem zur Auswahl von Führungskräften, Spezialisten und Trainees eingesetzt. Erst seit Mitte der 70er Jahre findet es auch als Instrument der Personalentwicklung verstärkt Anwendung. Die meisten Organisationen kombinieren heute beide Aspekte miteinander. Bemerkenswerterweise bilden in Deutschland Hochschulabsolventen die größte Zielgruppe von AC-Seminaren, sofern es um die Auswahl für Trainingsprogramme geht (s. Obermann, 1992, S. 31). Eine nähere Gegenstandsbeschreibung, die alle wesentlichen Elemente eines AC aufzeigt, stammt von Blumenfeld (1971, zit. nach Stehle, 1982, S. 50): 8.2.2 Exkurs: Assessment Center Fazit Es kann festgehalten werden, dass ein »gemischtes« Verfahren mit möglichst verschiedenen Prädiktionselementen und auch einigen Interventionsansätzen, wie es im Assessment Center praktiziert wird, die insgesamt verlässlichsten Prognosen liefern dürfte. Unabdingbare Bestandteile darin wären (zumindest halbstandardisierte) Vorstellungs- oder Bewerbungsgespräche, bewährte Leistungstests zu kognitiven Funktionen sowie Verhaltensbeobachtungen zu simulierten Arbeitsproben, die den zukünftigen Tätigkeiten möglichst weitgehend ähneln. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Zielsetzungen des AC 458 Zudem erfolgt im Anschluss an die Absolvierung des AC-Programms für jeden Teilnehmer ein Rückmeldegespräch mit individuellem Feedback in Bezug auf das konkrete Anforderungsprofil. Diese Offenheit und Transparenz führen dazu, dass die Akzeptanz des AC durch die Teilnehmer weit über derjenigen anderer eignungsdiagnostischer Methoden liegt. Steht die Optimierung einer Selektionsentscheidung im Zuge der Personalauswahl im Vordergrund, spricht man von Auswahl- oder Beurteilungsseminaren. Kommt es hingegen bei der Veränderung von Personen oder Bedingungen als Teil der Personalentwicklung auf eine Modifikationsentscheidung an, ist eine Bezeichnung als Entwicklungs- oder Förderungs-Seminar üblich (Jeserich, 1981, S. 36). Der Einsatz eines AC als Bestandteil der Personalauswahl ist nach Obermann (1992, S. 16) immer dann sinnvoll, wenn überfachliche Eigenschaften eine wesentliche Rolle für den Berufserfolg spielen. Es eignet sich dabei gleichermaßen zur Unterstützung der Selektion externer wie auch interner Bewerber. Von diesen Annahmen ausgehend ist das AC folgenden Prinzipien verpflichtet (vgl. Neubauer, 1980, S. 125): 4 Verhaltensorientierung: Nicht Persönlichkeitseigenschaften, sondern Verhaltensweisen als Indikatoren der Eignung bilden die Grundlage der Beurteilung. Zur Provokation von Verhaltensweisen bedarf es der möglichst realistischen Simulation der zukünftigen Führungsanforderungen. Die Ähnlichkeit der situativen Übungen/ Arbeitsproben mit den tatsächlichen Aufgaben bestimmt die Genauigkeit der Vorhersage (= Repräsentationsschluss der Verhaltenstheorie, 7 Abschn. 1.4 und 1.6). 4 Anforderungsbezogenheit: »Die Diagnose kann nicht besser sein als die Vorstellung darüber, wodurch sich geeignete von weniger geeigneten Mitarbeitern unterscheiden« (Jeserich, 1981, S. 53). Neubauer (1980, S. 125) spricht davon, dass Eignung sich nur durch das »geeignet wofür« bestimmen lässt. Von daher ist für jedes AC eine detaillierte Anforderungsanalyse unabdingbar notwendig. 4 Methodenvielfalt: Das Prinzip der Methodenvielfalt dient dazu, die Fehlerquellen einzelner Verfahren auszugleichen. Einzelne Anforderungskriterien müssen in Rollenübungen, Gruppendiskussionen, Simulationen usw. mehrfach und unabhängig voneinander beobachtbar sein, um Beurteilungen zuverlässig vornehmen zu können. 4 Mehrfachbeurteilung: Gewöhnlich wird jeder Teilnehmer eines AC-Seminars von mehreren Personen (in der Regel Führungskräfte des Unternehmens) beobachtet, und zwar abwechselnd in verschiedenen Einzelübungen, um etwaige Beobachtungs- und Beurteilungsfehler auszugleichen. Das Verhältnis von Teilnehmern zu Beobachtern ist meist 2:1. Die Verhaltensbeobachtung erfordert ein intensives Training und wiederholte Schulung der Führungskräfte. Diese aus dem eigenen Unternehmen für die Aufgaben innerhalb der AC-Seminare zu rekrutieren, bringt eine Reihe von Vorteilen mit sich: Kenntnis der Unternehmenskultur und damit der angestrebten »Passung« zwischen Anforderungen und Bewerbern, Möglichkeiten der Selbstdarstellung und Repräsentation des Unternehmens, Kontaktanbahnung zur kommenden Führungsgeneration u. a. 4 Transparenz: Schon bei der Konstruktion, später auch bei der Durchführung, liegen die Anforderungen und Beobachtungskriterien offen. Der Zusammenhang zwischen Verfahren und Ziel ist evident, die inhaltliche Verwandtschaft der Übungs- und Simulationselemente zur Zielfunktion und dem Soll-Zustand stellt eine Besonderheit dar, die gleichsam eine Art Gegenpol zu den projektiven Verfahren markiert. 8.2 · Personalbeurteilung 8 Auswahl- oder Entwicklungsseminare Rückmeldung Transparenz Mehrfachbeurteilung Methodenvielfalt Anforderungsbezogenheit Verhaltensorientierung Prinzipien des AC 459 8 Verfahren der Anforderungsanalyse. Eine exakte und umfassende Anforderungsmessung und der aus ihr abgeleitete Anforderungsrahmen liefern den Maßstab für die Beurteilung der Teilnehmerleistungen im AC. Die Strukturierung des Anforderungskataloges erfordert auf der höchsten Abstraktionsebene einen Satz von Kategorien, denen ein Komplex von spezifischen Verhaltensweisen bzw. Tätigkeiten (Merkmale) zugeordnet ist. Bei der Konstruktion von Übungselementen muss darauf geachtet werden, dass diese Anforderungsmerkmale für den Beurteiler im Verhalten beobachtbar sind. Durch die Gewichtung der Anforderungen entsteht das Anforderungsprofil, das in der Regel die gewünschte Mindestausprägung bzw. die Ausprägungsspanne des Merkmals für eine bestimmte Position definiert. Bei der Durchführung des AC mit Entwicklungszielsetzung sind die Anforderungen weniger eng und konkret auf eine bestimmte Position bezogen definiert. Es wird vielmehr eine breitere organisationsspezifische Vorstellung von Führungsfähigkeiten realisiert. Die Methoden der Anforderungsanalyse teilt Obermann (1992, S. 77) in 2 große Blöcke ein, die er »Bottom-up-« und »Top-down-Verfahren« nennt. Die Gruppe der »Bottom-up-Vorgehensweisen« hilft die Frage zu beantworten, wie sich gegenwärtig erfolgreiche von weniger erfolgreichen Positionsinhabern unterscheiden. Durch die Orientierung an momentan bestehenden Strukturen gerät aber der Versuch, zukünftige Veränderungen und Entwicklungen mit zu berücksichtigen, zu einem äußerst schwierigen Unterfangen. Die »Top-down-Methoden« hingegen orientieren sich nicht am Bestehenden, sondern an strategischen Unternehmungszielen, Marktentwicklungen und Werten, die das Unternehmen in Zukunft prägen sollen. Damit wird die Vorwegnahme von zukünftigen Entwicklungen zur Leitlinie für die Beurteilung von Mitarbeitern. Zwei prototypische Vertreter der »Bottom-up-Vorgehensweise« sind: Anforderungsanalyse Top-down Bottom-up Operationalisierung durch beobachtbare Verhaltensweisen Mehr Raum nehmen AC-Veranstaltungen hingegen unter der Perspektive der Personalentwicklung ein. Diesbezüglich eröffnen sich u. a. die folgenden Anwendungsmöglichkeiten (nach Obermann, 1992, S. 18 ff.): 4 Trainingsbedarfsanalysen: Diagnostizierte und präzise umschriebene Schwächen von Mitarbeitern liefern den Ansatz für individuell abgestimmte bedarfsorientierte Trainingsmaßnahmen, 4 Potentialanalyse: Insbesondere im Hinblick auf weiterführende Aufgaben, 4 Kompetenzerweiterung: Z. B. in Kommunikation oder Führung, 4 Entwicklung der Unternehmenskultur: Förderung der Identifikation der Mitarbeiter mit unternehmerischen Werten, 4 Laufbahnplanung/Ausbildungsberatung, 4 Hilfsmittel der Arbeitsplatzgestaltung: Die Ergebnisse von AC-Veranstaltungen müssen sich nicht auf Veränderungen an Personen beschränken, sondern können auch solche von bestehenden Arbeitsbedingungen mit einschließen, etwa in Form der Erweiterung von Aufgaben, Verantwortung und Herausforderung (darunter Job enlargement, Job enrichment, Job rotation, 7 Abschn. 8.4), 4 Trainingsevaluation, 4 berufliche Rehabilitation: AC-Untersuchungen an Rehabilitanden können nicht nur das Ausmaß an Einschränkung und Behinderung attestieren, sondern auch positiv aufzeigen, in welchen Bereichen welche Kompetenzen vorhanden sind (s. Schuler & Stehle, 1983, S. 40). Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie AC zur Personalentwicklung 460 6 1. Auf »Verhaltensindikatoren« gestützte Verfahren. Aus eigenschaftsorientierten Methoden wie – Intelligenztests, – allgemeinen Leistungstests, – Interessentests lassen sich nur unter Rekurs auf psychologische Theorien Vorhersagen über konkretes Verhalten ableiten. Solche Verfahren sind dem AC gemeinhin wesensfremd, doch wird – trotz ihrer geringen Transparenz und Akzeptanz – gelegentlich zu Zwecken der Grobklassifikation darauf zurückgegriffen. Kategorien der AC-Übungen nach Neubauer (1980, S. 129 ff.) Übungen des AC-Verfahrens. Zwar besteht die Möglichkeit, Standardübungen – ggf. mit Modifikationen – anzuwenden, doch spricht die Spezifität der jeweiligen Anforderungen eher dafür, gesonderte (»maßgeschneiderte«) Übungen zu konstruieren. Ungeachtet ihrer Vielfalt und Spezifität lassen sich dabei jedoch nach Neubauer (1980, S. 129 ff.) die in der 7 Übersicht dargestellten Kategorien unterscheiden. gen Strukturen (Bottom-up) oder an zukünftigen Entwicklungszielen (Topdown) einer Organisation orientieren. ! Die Methoden der Anforderungsanalyse können sich entweder an gegenwärti- Weitere Verfahren sind bei Jeserich (1981) und Obermann (1992) beschrieben, darunter auch der Fragebogen zur Arbeitsanalyse von Frieling und Hoyos (1978), der unter 7 Abschn. 8.4 kurz vorgestellt wird. 1. Die Critical Incident Technique (CIT). Die von Flanagan (1954) entwickelte CIT verlangt von den Führungskräften der Zielebene, dass sie mehr oder weniger typische Vorfälle, darunter insbesondere wichtige und plötzliche/unerwartete Ereignisse, auflisten. Der erhaltene Katalog wird Führungskräften vorgelegt, die die Zielposition kennen. Diese sollen beurteilen, mit welchen Verhaltensweisen erfolgreiche und mit welchen weniger erfolgreiche Stelleninhaber diese Vorfälle meistern. Über die Gewichtung und Systematisierung der Verhaltensweisen gelangt man zu einem Anforderungsprofil. Ein Vorteil dieser Methode besteht darin, dass aus der CIT sowohl kritische Verhaltensweisen und somit Beurteilungsdimensionen als auch Situationsaspekte und somit Bausteine für AC-Übungen abgeleitet werden können. 2. Die Repertory-Grid-Technik (REP). In einer Modifikation der auf Kelly (1955) zurückgehenden Methode werden von den Führungskräften mehrere erfolgreiche und weniger leistungsfähige Kollegen genannt. Deren Namen, auf Karten geschrieben, werden in verschiedenen Dreiergruppen Experten vorgelegt. Diese sollen die Gemeinsamkeiten von 2 Personen benennen, die diese beiden von der dritten Person unterscheiden. Ähnlichkeit bzw. Unterschiedlichkeit sollen sich auf die konkrete Funktion der Personen als Führungskräfte beziehen und in Form beobachtbaren Verhaltens beschrieben werden. Daraus resultiert eine Liste von Gegensatzpaaren, die zu einem Fragebogen zusammengefasst und mit Skalen versehen wird. Mit Hilfe dieses Fragebogens wird das Verhalten von erfolgreichen und weniger erfolgreichen Stelleninhabern eingeschätzt. 8.2 · Personalbeurteilung 8 AC-Übungen Beispiel: Benennung von Gemeinsamkeiten Beispiel: Auflistung typischer Vorfälle 461 8 Validität. In Abhängigkeit von der Zielsetzung eines AC, dessen inhaltlichen Bausteinen, der Stichprobe der daran teilnehmenden Personen und den verfügbaren Kriterien tenz und Retestung) kommt beim AC als weiterer Zugang die Prüfung der Übereinstimmung zwischen den Beurteilern hinzu. Je nachdem, ob nur einzelne Übungen oder deren Gesamtheit eingeschätzt werden und je nachdem, ob die Beurteiler unabhängig voneinander vorgehen oder nicht, schwanken die Werte für die Interraterreliabilität erheblich und liegen zwischen .50 und .90. Ähnliches gilt für Maße der internen Konsistenz. Kommen sehr verschiedene Aspekte von Leistungen zum Tragen, können die betreffenden Koeffizienten allenfalls mittlere Höhen erreichen (um .50; s. Hinrichs & Haanperä, 1976). Wiederholungsuntersuchungen fehlen wegen der damit verbundenen Kosten und auch deshalb, weil durch ein AC Veränderungen induziert werden sollen: Ein erneutes AC-Seminar mit der gleichen Zielsetzung würde nicht mehr an den gleichen personalen Voraussetzungen anknüpfen. Reliabilität. Zu den üblichen Ansätzen der Reliabilitätsabschätzung (interne Konsis- Auswertung. Grundsätzlich sollte eine strikte Trennung in die zwei Abschnitte von Beobachtung einerseits und Beurteilung andererseits stattfinden. In der ersten Phase werden lediglich Daten gesammelt, in der zweiten diese den Beurteilungskriterien zugeordnet. Die strenge Trennung soll gewährleisten, dass nicht bereits durch erste und diffuse Eindrücke die Qualität der Daten gemindert wird. Den Ergebnissen von Thornton et al. (1987) zufolge lässt sich die Auswertungsobjektivität durch die Hinzuziehung von Psychologen und Managern, die die Anforderungen gut kennen und im Hinblick darauf die gezeigten Leistungen angemessen interpretieren können, verbessern. Methodenvielfalt und Einsatz mehrerer Beobachter sind der Auswertungsobjektivität deshalb förderlich, weil sich dadurch ein Fehlerausgleich (potentiell) erzielen lässt. Trennung von Beobachtung und Beurteilung Prüfung der Beurteilerübereinstimmung Durchführung. Obgleich in der eingangs gegebenen Definition von »Standardisierung« die Rede war, ist Objektivität der Durchführung beim AC nicht gegeben, was mit den Besonderheiten situativer Übungen zu tun hat. 2. Auf »früheres Verhalten« gestützte Verfahren. Nach dem Credo der Verhaltenstheorie »The best predictor of future performance is past performance« (Wernimont & Campbell, 1968, S. 372) kommen hier in Betracht: – Hintergrundinterviews, – biographische Fragebogen. 3. Auf »aktuelles Verhalten« gestützte Verfahren. Sie bilden das Kernstück der AC-Methodologie: – schriftliche Einzelübungen (Ausarbeitungen; Postkörbe), – mündliche Einzelübungen (Vorträge und Präsentationen; Interviewsimulation und Rollenspiele). 4. Gruppendiskussionen. 5. Sonstige Verfahren. Mischformen aus den vorgenannten Verfahren; Lockerungsübungen ohne Bewertungsdruck, Peer-ratings, computersimulierte Unternehmensplanspiele. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Keine Durchführungsobjektivität 462 .37 .36 .53 .33 .35 .36 Beförderung Frühe Identifikation Auswahl Forschung .30 .46 .41 .48 Resultate – unterteilt nach Zielen des AC Leistung Potential Dimensionen Training Karriere Resultate – unterteilt nach Kriterienmaßen Gesamtresultat Validitätsmittelwert .0293 .0000 .0032 .0000 .0203 .0373 .0998 .0197 .0000 .0172 Varianz .04 bis .64 .46 bis .46 .30 bis .52 .48 bis .48 .08 bis .64 .15 bis .91 –.29 bis .95 .07 bis .63 .36 bis .36 .11 bis .63 Konfidenzintervall 65 0 9 0 43 64 77 69 0 46 P . Tabelle 8.4. Ergebnisse der Metaanalyse von Thornton et al. (1987). (Aus Obermann, 1992, S. 255) P »wahre« Varianz der Validität in den Studien ist eine erhebliche Streuung der Validitätskoeffizienten zu erwarten. In die Metaanalyse von Thornton et al. (1987) gingen 50 Einzelstudien ein, deren Validität zwischen rtc = –.25 und +.78 variierte. Bei den Kriterien handelte es sich um Einschätzungen der Arbeitsleistung, des Leistungspotentials, der Leistungen in den im AC verwendeten Dimensionen und der Leistungen in einem Managertrainingsprogramm sowie um Maße der Karriereentwicklung wie Gehaltserhöhungen und Anzahl der Beförderungen. Nach einer Artefaktkorrektur für die Stichprobenfehler aufgrund der wechselnden (und häufig nur mäßigen) Gruppengrößen der Einzelstudien, für die mangelnde Reliabilität der Kriterien und für die aufgrund der starken Vorselektion eingeschränkte Messwertestreuung (nicht aber für die Unreliabilität der Prädiktoren) betrug die mittlere prädiktive Validität rtc = .37 (. auch Tab. 8.2). Die getrennt für die einzelnen Kriterienmaße und Ziele der AC ermittelten Validitätskoeffizienten sind aus . Tab. 8.4 ersichtlich. Die Frage nach der Generalisierbarkeit der Validität kann bejaht werden, da die Berechnung des 95%-Konfidenzintervalles einen unteren Wert von rtc = .11 ergab, der auf dem 1%-Niveau von Null verschieden ist. Weitere Untersuchungen, darunter solche zur inkrementellen Validität einzelner Bausteine des AC, haben Neubauer und Volkmann (1989) zusammengestellt. Nicht alle der in der Literatur berichteten Validitätskoeffizienten sind direkt mit denjenigen herkömmlicher Tests vergleichbar, und zwar deshalb nicht, weil die Ergebnisse des AC gewöhnlich den Teilnehmern und anderen Führungskräften detailliert mitgeteilt werden. Daraus mögen Effekte im Sinne einer »self-fulfilling prophecy« resultieren, und zwar auch deshalb, weil Beförderungs- und Besetzungsentscheidungen vom Wissen der AC-Ergebnisse beeinflusst sein können, somit das Kriterium vom Prädiktor nicht unabhängig ist. Außerdem kann jemandem, dem beispielsweise in einer AC-Veranstaltung herausragende Entwicklungspotentiale zuerkannt wurden, später nur schwer völliges Versagen attestiert werden, zumal dann nicht, wenn die Beurteiler der AC-Leistungen und derjenigen aus dem regulären Arbeitsablauf teilweise dieselben 8.2 · Personalbeurteilung Mangelnde Vergleichbarkeit mit herkömmlichen Tests Erhebliche Streuung der Vailiditätskoeffizienten 463 8 8 Einengung anderer Validitätsaspekte Im Vergleich zu anderen eignungsdiagnostischen Verfahren wie Praktika, Schulnoten, Tests, biografischen Daten und graphologischen Gutachten nimmt das AC hinter dem Vorstellungsgespräch Platz 2 in Bezug auf die soziale Validität ein. Die berichteten Ergebnisse gelten allerdings ausschließlich dem AC als Selektionsinstrument; über analoge Einordnungen unter der Entwicklungsperspektive fehlen zunächst Anhaltspunkte. Mit dem hohen Ausmaß an sozialer Validität geht andererseits eine gewisse Einengung anderer Validitätsaspekte einher. So beklagt Neubauer (1980, S. 154 ff.) die Ausrichtung auf einen ganz bestimmten »Erfolgstyp«, einen »Vielredner mit eindrucksvollem Auftreten und Durchsetzungsvermögen«, des Weiteren »übungsspezifische Filtereffekte«, da das Medium aller Übungen die verbale Ausdrucksfähigkeit sei. Generell muss zudem damit gerechnet werden, dass die demotivierenden Effekte auf Seiten nichterfolgreicher Teilnehmer besonders gravierend sind. In Bezug auf jeden der Gesichtspunkte ist das AC anderen Methoden deutlich überlegen. Der Zusammenstellung von Obermann (1992, S. 269 ff.) folgend gilt: 4 das AC wird als wenig angst- und stressinduzierend erlebt, 4 es hat eine hohe Augenschein-(Face-)Validität, 4 nach Teilnahme verschiebt sich die positive Einschätzung der sozialen Validität noch mehr zugunsten des AC, hängt aber verständlicherweise auch z. T. vom Abschneiden selbst ab. Positive Beurteilung der AC Soziale Validität AC zumindest »gleichwertig« Personen sind. Von daher besteht die Gefahr einer direkten Kriterienkontamination (s. dazu Klimoski & Brickner, 1987) und artifiziell erhöhter Validitäten. Von eminent wichtiger Bedeutung ist deshalb die berühmte AT & T-Studie von Bray et al. (1974), in der die AC-Ergebnisse gegenüber Teilnehmern und Vorgesetzten geheim gehalten wurden. Dessen ungeachtet belief sich auch unter diesen Gegebenheiten die prädiktive Validität nach einem Vorhersageintervall von 8 Jahren auf rtc = .46. Angesichts solcher Befunde gelangt Hossiep (1994, S. 96) in seiner Würdigung des AC, die sich an dem Kriterienkatalog des Testkuratoriums orientiert (7 Abschn. 2.3), zu der Feststellung, »dass die AC in ihrer Vorhersagekraft für Beförderungskriterien und subjektive Leistungskriterien alternativen Prädiktoren eher überlegen, zumindest aber gleichwertig erscheinen«. Mit dem Begriff der »sozialen Validität« haben Schuler und Stehle (1983) eine Art Kontrastkonzept zur empirisch-technischen Vorhersagevalidität geschaffen. Damit werden die Reaktionen der Getesteten auf die eignungsdiagnostischen Untersuchungen in den Vordergrund von Erwägungen gerückt. Die soziale Validität betrifft den sozialen Kontext der Diagnostik und ist durch 4 Aspekte gekennzeichnet: 4 Berücksichtigung sozialpsychologischer Anforderungen (insbesondere die Information über die zur Selbstselektion relevanten Charakteristika von Arbeitsplatz und Organisation), 4 Partizipation der Betroffenen (sowohl bei der Entwicklung als auch der Durchführung von Untersuchungen), 4 Transparenz, 4 angemessene wechselseitige Kommunikation (darunter Urteilskommunikation, Feedback in rücksichtsvoller, verständlicher und nachvollziehbarer Form). Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Gefahr direkter Kriterienkontamination 464 6 Worin bestand im vorliegenden Fall Ihre Leistung? Auf der Basis umfangreicher Anforderungs- und Sollprofil- Analysen haben wir ein umfangreiches Management Assessment (MA) zusammengestellt. Dieses MA wird von den Managern der oberen Ebenen besucht. Im Rahmen der umfangreichen Verhaltensdiagnostik wird ein Stärken- und Schwächenbild der einzelnen Teilnehmer und in der Aggregation der Führungsmannschaft erstellt. Im Rahmen von Feedbacksitzungen werden aus den individuellen Ergebnisreports individuelle Entwicklungsmaßnahmen abgeleitet. Aus welchen Gründen entscheiden sich Unternehmen dafür, Ihre Dienste in Anspruch zu nehmen? Vielleicht können Sie das an einem Beispiel erläutern. Aktuell ist unsere Auftragslage durch die wirtschaftliche Situation geprägt. Fragestellungen der Verhaltens- und Leistungsdiagnostik (Management Diagnostik) in Zeiten der Reorganisation oder der Akquisition haben eine entsprechende Nachfrage. Aber es gibt auf der anderen Seite auch die Kunden, die ihre Entwicklungsprogramme weiter elaborieren. So führt aktuell ein Kunde, Marktführer im Bereich der technischen Kommunikation, eine Zusammenführung beider Fragestellung in der Art durch, dass er mit unserer Hilfe umfangreiche Potentialassessments im Top-Management umsetzt, um im Anschluss daran die Weiterentwicklung des Managements differentiell und damit gezielter gestalten zu können. Managementberatung« Herr Dries, stellen Sie doch bitte erst einmal Ihre Firma kurz vor. Wie viele Psychologen sind bei Ihnen beschäftigt und worauf haben Sie sich spezialisiert? Wir, das kölner institut für managementberatung, sind eine Unternehmensberatung, die sich auf die Kompetenzfelder Personalmanagement und Organisationsberatung spezialisiert hat. Durch die wissenschaftlich-psychologische Ausbildung unserer 15 fest angestellten Mitarbeiter und die enge Zusammenarbeit mit verschiedenen Hochschulen bearbeiten wir Fragestellungen der Praxis auf der Basis neuester wissenschaftlicher Erkenntnisse und Methoden. Insbesondere im AC Bereich gehören wir zu den führenden Anbietern in Deutschland. So vergeht kein Tag im Kalenderjahr, an dem nicht einer unserer Berater im nationalen oder internationalen Kontext ein Assessment durchführt. > Interview mit Dr. Christian Dries zum Thema »Assessment Center in der Praxis: »Das Assessment Center leistet einen wichtigen Beitrag zu Auswahlprozessen in Wirtschaft und Verwaltung... Der Trend zum Assessment Center ist... ungebrochen, da gleichermaßen eine durchgängig hohe Akzeptanz durch Unternehmen und Bewerber gegeben ist und Inhalt wie Ablauf von Gruppenauswahlverfahren als anforderungsnah erlebt werden. Anwendungsgebiete, Zielgruppen und Erfassungsbreite des Verfahrens sind denkbar groß...« (Hossiep, 1994, S. 102), die Ökonomie des Verfahrens im diametralen Gegensatz dazu äußerst gering. Von den Hauptgütekriterien kann nur die Validität zufriedenstellen, die im Einzelfall sehr stark von der Sorgfalt in Entwicklung und Durchführung abhängt. Die hohe soziale und die Augenscheinvalidität sind potentielle Hinderungsgründe für die Notwendigkeit von kontrollierten Bewährungsstudien. Fazit 8.2 · Personalbeurteilung Dipl.- Psych. Dr. Christian Dries, Geschäftsführer des kölner instituts für managementberatung. 465 8 8 . Abb. 8.4. Die Wirkung von Kontext- und ContentVariablen auf Unzufriedenheit und Zufriedenheit. (Aus von Rosenstiel, 1992, S. 77) Motivatoren und Satisfaktoren Hygienefaktoren Tätigkeitsbezogene Diagnostik und Intervention 1. Die sog. Hygienefaktoren, die die Rand- und Folgebedingungen der Arbeit betreffen: Sie werden auch als Kontextvariablen bezeichnet. Diese Art von Variablen affiziert die extrinsische Arbeitsmotivation, und sie können Unzufriedenheit abbauen, ohne deshalb Zufriedenheit zu erzeugen. Im Hinblick darauf ist auch eine Bezeichnung als »Dissatisfaktoren« gebräuchlich. Zu dieser Ebene zählen u. a. Faktoren wie 5 Führungsstil, 5 Arbeitsbedingungen, 5 interpersonale Beziehungen, 5 Gehalt. 2. Demgegenüber betreffen die Contentvariablen die intrinsische Arbeitsmotivation (deshalb auch die Bezeichnung »Motivatoren«). Bei entsprechender Ausprägung führen sie zu Zufriedenheit (»Satisfaktoren«). Dazu gehören u. a. 5 Leistung, 5 Anerkennung (der eigenen Leistung), 5 Verantwortung. Zweifaktorentheorie der Arbeitszufriedenheit von Herzberg et al. (1959) Für die Ausgestaltung tätigkeitsbezogener Maßnahmen, also jener, die an konkreten Handlungen innerhalb einer Organisation ansetzen, war die Zweifaktorentheorie der Arbeitszufriedenheit von Herzberg et al. (1959) von maßgeblichem Einfluss. Selbst wenn diese Theorie und mehr noch die daran ansetzenden Operationalisierungen während der letzten 25 Jahre mannigfaltige Kritik erfahren haben, soll sie dennoch hier vorgestellt werden. Herzberg unterscheidet zwei Ebenen, die für die Arbeitszufriedenheit verantwortlich sind (7 Übersicht). . Abbildung 8.4 veranschaulicht diese Theorie als dimensionales System. 8.4 verwandt, bei dem ein älteres Organisationsmitglied einen ihm zugeordneten jüngeren Mitarbeiter berät und unterstützt. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Zweifaktorentheorie von Herzberg 468 6 Instruktion und Beispielitems für die Bereiche Informationsaufnahme und Gefährdungsarten 1. Informationsaufnahme und Informationsverarbeitung Arbeitselemente 1.01 bis 1.66 1.1. Quellen der Arbeitsinformation Hinweise zur Einstufung der Arbeitselemente 1.01 bis 1.20 Stufen Sie die Arbeitselemente danach ein, wie häufig sie als Informationsquellen vom Stelleninhaber benutzt werden, um die Aufgaben erfolgreich erledigen zu können. Fragebogen zur Arbeitsanalyse (FAA) Beispiel Die daraus ableitbaren praktischen Implikationen sind mannigfach; zumindest einige können hier angesprochen werden: Auf der Ebene der Kontextfaktoren kommt die Optimierung von Bereichen bzw. Variablen wie Lärmpegel am Arbeitsplatz, Beleuchtungsverhältnisse (man denke an das berühmte 1939 publizierte Hawthorne-Experiment), Arbeitsmodelle (z. B. Auswirkung von Schichtarbeit auf psychische, vegetative und psychosomatische Variablen) und weitere potentielle Stressoren in Betracht. Etwa hat die Einführung der Computer am Arbeitsplatz ganz neue Probleme geschaffen. Viele der daran tätigen Menschen klagen z. B. über Kopf- und Rückenschmerzen oder Augenreizung usw. Das vorrangige Interventionsziel der Psychologie in diesem Bereich besteht dementsprechend darin, möglichst günstige Arbeitsrahmen- bzw. Arbeitsplatzbedingungen zu schaffen. Dadurch soll der Umfang an Beeinträchtigungen in erträglichem Ausmaß gehalten werden, etwa in Gestalt verbesserter Beleuchtungsverhältnisse, der Schaffung von Ruheräumen, der Bereitstellung von strahlungsarmen Bildschirmen usw. Auch die Erhebung und Umsetzung möglichst wenig belastender Schichtarbeitsmodelle gehört hierher. Vielen Untersuchungen zufolge ziehen verbesserte Arbeitsplatzbedingungen auch bessere Leistungen nach sich, sodass Maßnahmen der besagten Art auch im Interesse der Unternehmensleitung liegen, ganz abgesehen von den Vorgaben des Programms zur »Humanisierung der Arbeitswelt« (zusammenfassend s. Frieling & Sonntag, 1987). Verbesserungen in diesen Bereichen würden im Sinne der Theorie die Unzufriedenheit reduzieren, ohne Einfluss auf die Arbeitszufriedenheit zu nehmen. Hauptsächlich auf diese Ebene bezieht sich der in Deutschland weit verbreitete »Fragebogen zur Arbeitsanalyse FAA« von Frieling und Hoyos (1978), der aus dem im angloamerikanischen Raum gebräuchlichen »Position Analysis Questionnaire PAQ« (McCormick et al., 1969) hervorgegangen ist. Die annähernd 200 Items gelten Variablengruppen wie kognitiven Prozessen (u. a. Informationsaufnahme), dem Arbeitsoutput, der Beziehung zu anderen Personen, der Arbeitsumgebung u. a. (7 Beispiel). Das »Ziel des FAA ist es, explizit das Was der Tätigkeit zu analysieren« (Gebert & von Rosenstiel, 1989, S. 232). Die Beantwortung der Fragen geschieht teilweise durch Befragungen, teilweise durch Beobachtungen. Das Verfahren eignet sich hauptsächlich zur Beschreibung und Bewertung motorischer Tätigkeiten und weniger für diejenige geistiger Arbeiten. Die erhaltenen Resultate erlauben nicht zuletzt auch einen Vergleich verschiedener Tätigkeiten miteinander. 8.4 · Tätigkeitsbezogene Diagnostik und Intervention 8 FAA: Befragung und Beobachtung FFA zur Arbeitsanalyse Humanisierung der Arbeitswelt Bessere Leistungen Praktische Implikationen: Bessere Arbeitsbedingungen 469 8 Wie häufig dient Zahlenmaterial (Material, das aus Zahlen oder Beträgen besteht; z. B. numerische Angaben, Rechnungen, technische Daten oder Zahlentabellen) als Quelle der Arbeitsinformation? H 1.03 Wie häufig dient handgeschriebenes Material (z. B. Entwürfe für Briefe, Notizen, handschriftliche Anweisungen oder Stenogramme) als Quelle der Arbeitsinformation? H 1.02 Optische Quellen der Arbeitsinformation Wie häufig dient gedrucktes, maschinengeschriebenes oder in Druckschrift geschriebenes Material (z. B. Bücher, Zeitschriften, Zeitungen, Berichte, Dienstschreiben, Texte oder Briefe) als Quelle der Arbeitsinformation? H 1.01 Auf der Ebene der »Satisfaktoren« bietet sich u. a. das Verfahren der »Subjektiven Arbeitsanalyse SAA« von Udris und Alioth (1980) an, dessen 50 Items sich auf die folgenden Bereiche richten (von denen die letzten beiden mehr zu den Dissatisfaktoren gehören): Gefährdung durch Hitze bzw. Feuer H 4.19 (Der Stelleninhaber ist bei seiner Arbeit der Gefahr von Verbrennungen ausgesetzt; z. B. beim Schweißen, beim Kochen oder beim Löschen von Bränden) Gefährdung durch »Arbeit an erhöhten Plätzen« H 4.18 (Der Stelleninhaber arbeitet auf Leitern, Gerüsten, Dächern, Kaminen usw. Berücksichtigen Sie bei der Einstufung, dass die Unfallgefährdung durch die Wettereinflüsse noch gesteigert werden kann) Gefährdung durch sich bewegende oder fallende Objekte H 4.17 (Der Stelleninhaber steuert oder bedient Fahrzeuge und/oder Transportgeräte, oder er arbeitet an Transporteinrichtungen, Hebezeugen oder Hochregalen; z. B. Anschläger, Gabelstaplerfahrer, Kranführer oder Lagerist) Gefährdungsarten Gefährdung durch Werkzeuggebrauch H 4.16 (Der Stelleninhaber benutzt unfallträchtige Werkzeuge; z. B. Schnitt- und Stechwerkzeuge, Sägen oder Skalpelle) 1.1.1 Die Häufigkeit soll dabei auf die Gesamtheit aller am Arbeitsplatz auftretenden Arbeitsprozesse bezogen werden. Schlüssel (H) Häufigkeit 0 trifft nicht zu 1 sehr selten 2 selten 3 mittel 4 häufig 5 sehr häufig Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie SAA zur subjektiven Arbeitsanalyse 470 »Mit Hilfe der SAA kann die Arbeitssituation, wie sie subjektiv wahrgenommen wird, in theoretisch relevanten Aspekten erfasst werden, wobei das Verfahren den Vorteil hat, zur Analyse recht unterschiedlicher Arbeitstätigkeiten eingesetzt werden zu können« (von Rosenstiel, 1992, S. 71). Handlungsspielraum (z. B. Autonomie), Transparenz (z. B. im sozialen Bereich), Verantwortung (z. B. für eine gemeinsame Aufgabe), Qualifikation (Anforderung, Einsatz, Chance), soziale Struktur (z. B. Unterstützung durch Kollegen), Arbeitsbelastung. Die sog. »neuen Wege psychologischer Arbeitsgestaltung« beinhalten im Grunde all solche Maßnahmen, die im Sinne der Herzbergschen Theorie die intrinsische Arbeitsmotivation erhöhen können und somit den negativen Folgen der tayloristischen Vereinzelung und Entfremdung (»innere Kündigung«, höhere Fluktuation und Fehlzeiten) entgegenwirken. Des Weiteren zielen sie auch auf eine sinngebende und zufriedenstellende Arbeitssituation, eine Erhöhung der Partizipation der Arbeitenden, und sie richten sich in der Regel an den Vorgaben der »Humanisierung der Arbeitswelt« aus: Job enlargement: Erweiterungen der Aufgaben im horizontalen Sinne. Ausführung von verschiedenen Tätigkeiten an einem Arbeitsplatz, die zuvor von mehreren, stärker spezialisierten Arbeitskräften verrichtet wurden. Eine solche Form der Arbeitsumgestaltung bringt allerdings keine Autonomie oder Partizipation mit sich, sondern nur eine Vergrösserung des Tätigkeitsspielraumes. Job rotation: Geplanter Arbeitsplatztausch innerhalb eines Bereiches. Auch dieser Ansatz zielt vor allen Dingen auf eine höhere Qualifikation des Arbeitenden ab. Job enrichment: Ausweitung des Arbeitsbereiches in horizontaler und vertikaler Richtung; letzteres bedeutet Zugestehen von Autonomie- und Entscheidungsspielräumen. Konkret könnten einem Beschäftigten nicht nur zusätzliche Arbeitselemente, sondern in gewissen Grenzen auch die Planung und Endkontrolle seiner Tätigkeit übertragen werden. Der Ansatz der teilautonomen Arbeitsgruppen vereint die 3 vorgenannten Konzepte. Darunter versteht man »kleine funktionale Einheiten der regulären Organisationsstruktur (ca. 3 bis 10 Personen), die konstant zusammenarbeiten und denen die Erstellung eines kompletten (Teil-)Produkts oder einer Dienstleistung mehr oder weniger eigenverantwortlich übertragen wurde« (Bungard & Antoni, 1993, S. 391). Obwohl auch die Autonomie solcher Arbeitsgruppen im konkreten Fall recht eingeschränkt sein mag, überzeugt der Gedanke in konzeptioneller Hinsicht als eine perspektivenreiche Alternative, die Arbeitenden mehr in das Geschehen der Organisation einzubinden. Eine weitere Maßnahme auf dem Weg zu einer Erhöhung der intrinsischen Arbeitsmotivation besteht in der Implementierung von »Qualitätszirkeln«, deren Aufgabe primär darin besteht, innerhalb der eigenen Gruppe Problembereiche in moderierten Gesprächsrunden zu thematisieren und Lösungsvorschläge aufzuzeigen. Wie bereits dargelegt, dürften die »humanitären« Gesichtspunkte kaum ausschlaggebend dafür sein, sie in der Praxis umzusetzen, um damit zu einer Erhöhung der Arbeitszufriedenheit beizutragen. Vielmehr werden es eher ökonomische Überlegungen sein, die auf Seiten der Unternehmensleitung handlungsbestimmend sind. Das Motto von der Humanisierung der Arbeitswelt stellt insofern im Regelfall wohl nur eine sozial 4 4 4 4 4 4 8.4 · Tätigkeitsbezogene Diagnostik und Intervention Ökonomische Ziele handlungsbestimmend Qualitätszirkel Teilautonome Arbeitsgruppen Umfassende Ausweitung des Arbeitsbereiches Arbeitsplatztausch Tätigkeitsspielraum Erhöhung der intrinsischen Arbeitsmotivation 471 8 8 Verbesserung der Kommunikation Interpersonale Kommunikation als Problemfeld Konfliktdiagnostik Diagnostik und Intervention bei Gruppen Angesichts der zunehmenden Verwirklichung von Gruppenarbeitskonzepten (wie teilautonome Arbeitsgruppen, Qualitätszirkel u. a.) in Organisationen befasst sich neuerdings die ABO-Psychologie auch mehr und mehr mit gruppenspezifischen Diagnostikund Interventionsfragestellungen. Dabei wird allerdings fast ausschließlich auf bekannte Ansätze aus der Sozialpsychologie zurückgegriffen, sodass es genügt, hier ganz kurz einige Beispiele herauszustellen. Von zentralem Interesse ist u. a. die Konfliktdiagnostik, die etwa anhand strukturaler Organisationsmerkmale erfolgen könnte (dazu würden u. a. die Wettbewerbshaltung innerhalb von und zwischen den Gruppen gehören, des Weiteren vielleicht gleiche oder unklare Machtverhältnisse zwischen oder innerhalb der Gruppen usw.). In einem solchen Fall müsste es dem Psychologen darum gehen, die Bedingungen herauszufinden, die zur Entstehung, Aufrechterhaltung und Förderung von Konflikten führen. Diese Faktoren können auch individueller Art sein und das Verhalten der einzelnen Beschäftigten beeinflussen, wie z. B. Überbetonung der eigenen Ziele, Verheimlichung der »eigentlichen« Interessen, Hintergehen der anderen Gruppen, »mobbing« u. Ä. Aus den sozialpsychologischen Experimentalanordnungen aus dem Arbeitskreis um Sherif (Sherif et al., 1961) ist bekannt, dass konfliktuöse Situationen zur Intensivierung des Gruppenzusammenhaltes, zu einer steigenden Zielorientierung und der Bereitschaft, autoritäre Führungsstile zu akzeptieren, beitragen. Als denkbare Lösung kommt u. a. in Betracht, die Kooperation durch Konzipierung von Zielen zu fördern, die nur gemeinsam erreichbar sind. Ein weiteres Problemfeld, hauptsächlich im Verhältnis zwischen Gruppen, besteht in der interpersonalen Kommunikation. In Bezug auf diese wird die psychologische Diagnostik und Intervention vor allem zur Aufdeckung und Beseitigung von Kommunikationsfehlern eingesetzt. Die Grundfrage diagnostischen Vorgehens lautet gemäß der Laswell-Formel: »Wer sagt was zu wem auf welchem Kanal mit welchem Effekt?« (von Rosenstiel, 1992, S. 295 ff.). Ausgehend von dieser Frage lassen sich insgesamt 5 potentielle Fehlerquellen in einer Kommunikation festmachen, die dann ggf. verändert werden können. Zur Intervention sind 3 allgemeine Ratschläge von Sader (1976) zur Verbesserung der Kommunikation hilfreich: 4 Kurze Wege für den Informationsfluss (wenig Schaltstellen), 4 Berücksichtigung möglicher Informationsveränderungen [man denke an Bartletts Konzeption der Gerüchtebildung (1932)], 4 Bevorzugung der schriftlichen Form. 8.5 sische Motivationsfaktoren für die Arbeitszufriedenheit verantwortlich. Das Modell impliziert eine Reihe von Folgerungen zur Humanisierung der Arbeit, deren praktische Umsetzung in der Regel jedoch ökonomischen Notwendigkeiten untergeordnet ist. ! Dem Modell von Herzberg zufolge sind sowohl intrinsische als auch extrin- erwünschte Bemäntelung einer ökonomischen Ausnützung des Produktivitätsfaktors Gruppenarbeit dar. Kapitel 8 · Diagnostik und Intervention in der Arbeits-, Betriebs- und Organisations-(ABO-)Psychologie Rückgriff auf die Sozialpsychologie 472 lung von Organisationen und auf konkreter Ebene einerseits die am Individuum ausgerichtete Beurteilung und Entwicklung von Personal sowie andererseits die an den Arbeitsbedingungen ansetzende Analyse und psychologische Gestaltung der Arbeit. Ad 2. Innerhalb der Personalbeurteilung unterscheidet man die Eignungsdiagnostik von der (systematischen) Personalbeurteilung. Mit der Eignungsdiagnostik werden Bemühungen umschrieben, größtmögliche Übereinstimmung zwischen beruflichem Anforderungsprofil einerseits und optimaler Bewerberauswahl und -zuordnung andererseits zu verwirklichen. Zur Erreichung dieses Ziels bedient sie sich nahezu der gesamten Palette verfügbarer Instrumente, vielleicht mit Ausnahme der projektiven Verfahren. Eine Sonderstellung nehmen die sog. Assessment Center ein. Die systematische Personalbeurteilung schließt eignungsdiagnostische Aussagen häufig ein, geht aber in jenen Fällen darüber hinaus, wo es um die Abschätzung von Potentialen und die Zuführung zu Personalentwicklungsmaßnahmen geht. Ad 3. Ein Assessment Center (AC) ist ein umfassendes, standardisiertes Verfahren, in dessen Rahmen unterschiedlichste Beurteilungs- und Bewertungsverfahren wie z. B. Tests, Interviews oder Simulationen, eingesetzt werden, um einzelne Mitarbeiter im Hinblick auf Personalauswahl oder -entwicklung zu beurteilen. Es wird dabei versucht, die zukünftigen Anforderungssituationen zu simulieren, um so individuelle Fähigkeiten im Verhalten beobachtbar und diagnostizierbar zu machen. Ad 4. Der Begriff »soziale Validität« stellt ein Kontrastkonzept zur empirisch-technischen Vorhersagevalidität dar. Sie betrifft den sozialen Kontext der Diagnostik und ist durch 4 Aspekte gekennzeichnet: Berücksichtigung sozialpsychologischer Anforderungen, Partizipation der Betroffenen, Transparenz und angemessene wechselseitige Kommunikation. 4. Was bedeutet der Begriff »soziale Validität«? 3. Was ist ein Assessment Center? 2. Welche Bereiche werden in der Personalbeurteilung unterschieden und wie lassen sie sich charakterisieren? ! Ad 1. Auf abstrakter Ebene zählen dazu die Diagnostik und Entwick- 8 zählen zur ABO-Psychologie? 473 ? 1. Welche Anwendungsfelder Übungsfragen Zur historischen Entwicklung der Diagnostik im Führungsbereich, aktuellen Modellen und der Validität von Prädiktoren für Managementpositionen s. Sarges (1994). Weiterführende Literatur Fazit Diagnostik und Intervention in der ABO-Psychologie kommen vor allem praktischen Bedürfnissen in Organisationen nach: Der Auswahl, Beurteilung und Entwicklung von Personal, der Strukturierung von Organisationen oder deren Teilen sowie der Analyse und psychologischen Gestaltung der Arbeit. Sie hat vor allem auf der Ebene des Individuums (Berufseignung, Personalentwicklung und Arbeitsanalyse) theoretische Konzepte und Instrumentarien von Bedeutung hervorgebracht. Im Bereich der Gruppendiagnostik wurden jedoch noch sehr wenige eigenständige Ansätze von Seiten der ABO-Psychologie entwickelt. 8.5 · Diagnostik und Intervention bei Gruppen (S.485-488) Hochbegabtendiagnostik (S.481-485) Diagnostik und Intervention bei der individuellen Schülerhilfe (S.476-481) Diagnostik und Intervention bei der Schullaufbahnberatung Diagnostik und Intervention in der pädagogischen Psychologie 9 Zurückstellung bei mangelnder Schulfähigkeit Bewährung ist bessere Methode Problem: Bereits hohe Grundrate Schulreife Passung von Schulanforderungen und Lernvoraussetzungen Diagnostik und Intervention bei der Schullaufbahnberatung Die Beobachtung, dass Schüler, die den Anforderungen der ersten Schulklasse nicht gewachsen waren, ein Jahr später dem Unterricht folgen konnten, ließ Kern (1951) vermuten, der Schulerfolg sei eine Funktion der Schulreife, die sich bei verschiedenen Schülern zu unterschiedlichen Zeitpunkten von selbst einstelle. Man müsse nur durch den Einsatz geeigneter Schulreifetests verhindern, dass noch nicht schulreife Kinder zu früh eingeschult würden. Der von Kern für diese Zwecke vorgeschlagene Grundleistungstest konnte die Aufgabe jedoch nur sehr unvollkommen erfüllen. Neuere Schulreifetests (7 Abschn. 3.1.5) erwiesen sich als reliabler und auch valider. Nach Berechnung von Tiedemann (1974) können Schulreifetests jedoch die Erfolgsquote von 90% bei Einschulung aller Schüler nur selten erreichen, sodass die Bewährung in der ersten Klasse die bessere diagnostische Methode ist, die überdies den Vorzug hat, konkrete Bewährungskriterien zu liefern anstelle der durch die Tests repräsentierten sehr allgemeinen Leistungsanforderungen. Aus diesen Gründen wäre es ökonomischer, auf Schuleingangstests ganz zu verzichten und das Ergebnis der schulischen Bewährung abzuwarten. Die mit einem schulischen Versagen verbundenen traumatisierenden Lernerfahrungen lassen es jedoch geboten erscheinen, einem noch nicht schulfähigen Kind möglichst bald die ständigen Überforderungserlebnisse zu ersparen. Hier können bei gegebenem Verdacht auf Schulunreife eingesetzte Schuleingangstests Hinweise geben. Die Nachteile einer Zurückstellung haben sich verringert, seit Vorklassen zurückgestellten Schulanfängern eine angemessene Lernumwelt bereitstellen. Will man diese Nachteile weiter reduzieren, müssen die Befunde von Schulreifetests durch den Einsatz weiterer Entwicklungstests abgesichert werden. Empfehlungen für einen Verbleib in der Schule sollten sich jedoch nicht nur auf die genannten Verfahren stützen, sondern auch eine Diagnose des erreichten Kenntnisstandes einbeziehen und detaillierte Ratschläge für eine gezielte Förderung enthalten. 9.1.1 Diagnostik und Intervention beim Schuleintritt Der Einsatz diagnostischer Verfahren bei der Schullaufbahnberatung wird begründet durch den Wunsch nach Optimierung der Passung zwischen Lernvoraussetzungen beim Schüler und schulischen Anforderungen sowie nach Vermeidung frustrierender Erfahrungen durch schulische Überforderungen. 9.1 Diagnostik im Rahmen der Pädagogischen Psychologie war von Anfang an auf Intervention angelegt. Zwei große Bereiche zählen zu ihren Anwendungsfeldern, die Schullaufbahnberatung und die individuumzentrierte Schülerhilfe. Während die Intervention bei der Schullaufbahnberatung sich auf Personen- und/oder Bedingungsselektion im Sinne von Pawlik (1976) beschränkt, kann bei individueller Schülerhilfe eher von Intervention im Sinne von Behandlung gesprochen werden. Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Ausrichtung auf Intervention 476 Die wohl folgenschwerste Aufgabe im Rahmen von Schullaufbahnberatungen hat die pädagogische Diagnostik bei der Überweisung von Schülern in die Sonderschule für Lernbehinderte zu leisten, da diese Maßnahme mit dem Verlust von sozialem Status und späteren Berufs- und Lebenschancen verbunden ist. Die Überweisungsmodalitäten sind in den einzelnen Bundesländern relativ ähnlich und durch Verwaltungsverordnungen geregelt. Sie setzen einen mehr als einjährigen allgemeinen Leistungsrückstand in der Grundschule voraus, der durch eine weitere Klassenwiederholung nicht zu kompensieren ist. Falls sich dieser Leistungsrückstand durch Schulleistungstests objektivieren lässt, muss als weiteres Kriterium ein Intelligenzquotient <85 gegeben sein, um eine Umschulungsempfehlung zu rechtfertigen (vgl. Kautter, 1979). Durch die Anwendung eines objektiven Schulleistungstests soll verhindert werden, dass schwache Schüler in sehr guten Klassen oder etwa bei zu strenger Benotung fälschlicherweise als lernbehindert eingestuft werden. Auch Schüler mit nur partiellen Lernschwierigkeiten sollen auf diese Weise erfasst und von einer Überweisungsprozedur ausgeschlossen werden. Die Intelligenzdiagnostik soll darüber hinaus verhindern, dass Kinder ohne kognitive Retardierungen nur aufgrund ihrer Schulleistungsdefizite in die Lernbehindertenschule abgeschoben werden. Intelligenztests wie der HAWIK-R sind wegen ihrer Sprach- und Schulleistungsabhängigkeit für diese Aufgabe allerdings weniger gut geeignet. Sie würden die Ergebnisse der Schulleistungsüberprüfung vermutlich nur bestätigen. Trotzdem gehört der HAWIK immer noch zu den bevorzugten Verfahren bei der Sonderschulauslese (Probst, 1984). Weniger sprachabhängige Verfahren wie die Tests aus der Raven- oder der CFT-Reihe sind als Verfahren zur Verhinderung vorschneller Sonderschulüberweisungen besser geeignet. Für die immer größer werdende Zahl von Ausländerkindern unter den Schulversagern stellen sie auf jeden Fall die Alternative mit der größeren Testfairness dar. Auf den ersten Blick scheinen damit genügend Sicherungen gegen eine ungerechtfertigte Sonderschulselektion in das Auswahlverfahren eingebaut zu sein. Um so erstaunlicher ist demgegenüber die Zahl der Sonderschüler mit knapp durchschnittlicher oder durchschnittlicher Intelligenz (Kautter, 1975). Eine Ursache für diese offensichtliche Missklassifikation könnte man in der Tatsache vermuten, dass die Ausleseverfahren nicht durch ausgebildete Psychologen, sondern durch Sonderschullehrer durchgeführt werden, die z. T. beharrlich an überalterten Testverfahren festhalten (Probst, 1984). Als Angehörige der aufnehmenden Institution sind sie obendrein nicht neutral. Durch ihr Ausleseergebnis haben sie Einfluss auf Bestand und Ausbau ihrer eigenen Institution. Mit dem Ausbaugrad des Sonderschulwesens erhöhte sich aber auch die Neigung der Grundschulen, Problemschüler in die dafür scheinbar besser qualifizierte Schulform abzuschieben. Weitere Sicherungen gegen eine zu großzügige Sonderschulselektion zeigt eine diagnostische Strategie von Kornmann (1977a; . Abb. 9.1) auf. In den letzten Jahren ist die Unzufriedenheit der Sonderschule mit ihrer Lückenbüßerfunktion für die Unfähigkeit der Grundschule, mit Problemschülern fertigzuwerden, wie auch an dem praktizierten Ausleseverfahren deutlich gewachsen. Nicht auslesen, sondern fördern lautete die Devise eines Symposions, das sich mit Möglichkeiten einer Förderdiagnostik befasste (Kornmann et al., 1983). Die vor allem von den Ausbildern für das Fach Sonderpädagogik ausgehenden Bestrebungen zur Veränderung der Auslesepraxis werden von Probst (1984) allerdings skeptisch bewertet. Förderungsdiagnostische Bemühungen würden von den Grundschulen zu wenig aufgenommen und kämen auch in der Regel zu spät, nämlich erst dann, wenn massive Lernrückstände 9.1.2 Diagnostik und Intervention bei der Sonderschulüberweisung 9.1 · Diagnostik und Intervention bei der Schullaufbahnberatung 9 Fördern statt auslesen Möglichkeiten einer Förderdiagnostik Viele Sonderschüler mit durchschnittlicher Intelligenz Verwendete Testverfahren Maßnahmen gegen vorschnelle Sonderschuleinweisungen Kriterien zur Sonderschulüberweisung Folgenschwere Aufgabe 477 9 Rechtzeitige Diagnose soll Lernprobleme mindern ja ja ja L I– Versuch d. Inter vention I+ KL KL KL 2.3 I– Versuch d. Regulierung I + = Intervention erfolgreich I – = Intervention erfolglos 1.4. Diskrepanz zw. schulischer u. häusl. Erzieh. 1.3. plötzl. Änd. d. Lernu. Lebensbeding. 1.2. Schulver säumnisse ja I+ KL 2.4. Persönlich keitsstörungen 2.3 Behinderung i. S. einer and. So - Schul art 2.2. Hirn schädigung L = Lernbehinderung KL = Keine Lernbehinderung Diagnostiker muss sich beraten lassen nein nein nein nein 2.1. Sozioökonom. u. soziokultur. Fakt. 2. geht nicht auf behebbare Faktoren zurück ja ja ja ja Therap. veranlassen KL weitere Unters. veranl. KL L L entstanden und mit den Mitteln der Grundschule nicht mehr zu beheben seien. Braband und Kleber (1983) versuchten daher, Sonderschullehrer als Diagnostiker und Berater bei Lernschwierigkeiten bereits in der Grundschule einzusetzen, um ein gravierendes Lernversagen erst gar nicht entstehen zu lassen, und hatten dabei gute Erfolge. Sicher wird sich auf diese Weise nur ein Teil der Lernschwierigkeiten beheben lassen. Die Zahl der Sonderschulselektionen zu verringern und auf das absolut notwendige Maß zu reduzieren, ist jedoch ein erstrebenswertes Ziel. Pädagogisch-psychologische 2. nein nein nein nein 1.1. Sinnesstörung 1. geht auf behebbare Faktoren zurück Ist der Leistungsrückstand zeitlich überdauernd und weder mit schulischen noch mit außer schulischen Maßnahmen behebbar ? Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie . Abb. 9.1. Strategie zur Sonderschulauslese. (Aus Kornmann, 1977a) 478 Die früher übliche Praxis, die Eignung von Schülern für weiterführende Schulen nur mit Hilfe von Aufnahmeprüfungen zu ermitteln, wurde schon früh kritisiert. Der Subjektivität der Aufnahmeprüfungen und der Empfehlungen der abgebenden Grundschulen sollten Testverfahren abhelfen, die weniger schulisches Wissen als die Begabung der Schüler erfassen. Die dafür verwendeten Entwicklungstests sowie die eigens zu diesem Zweck konstruierten Übertrittstests (. Abschn. 3.1.5.2) konnten allerdings die Hoffnung, langfristige Prognosen von hinreichender Gültigkeit zu erstellen, trotz Anwendung sophistizierter statistischer Methoden nicht erfüllen. Lediglich im Bereich kurz- bis mittelfristiger Vorhersagen konnten Validitätskoeffizienten bis .60 erzielt werden. In diesem Vorhersagezeitraum konkurrieren sie jedoch mit Schulleistungsergebnissen, die als Indikatoren notwendiger Vorkenntnisse wie der kognitiven Bedingungen zu ihrem Erwerb gelten. Damit käme an sich dem Urteil der abgebenden Grundschule wieder ein größeres Gewicht bei der Empfehlung zu, welche Schulart für einen Schüler am besten geeignet sei. Für eine stärkere Gewichtung der Grundschulempfehlung spricht auch die längere Beobachtung der Schüler, die eine zuverlässigere Einschätzung ermöglicht als eine einmalige Testuntersuchung. Gegen eine Dominanz der Grundschulempfehlung lässt sich allerdings die eingeschränkte Vergleichbarkeit der Schulzensuren sowie eine angesichts der drohenden Auszehrung der Hauptschule zu befürchtende Zurückhaltung mit Übertrittsempfehlungen ins Feld führen. Obendrein vermag kein noch so zuverlässiges und valides Lehrerurteil die konkreten Lernbedingungen der aufnehmenden Schule, zu denen nicht nur das Anforderungsniveau der jeweiligen Schule, sondern auch die dort unterrichtenden Lehrer gehören, hinreichend zu antizipieren. Die sicherste Methode zur Feststellung der Eignung für eine bestimmte Schulart, die auch die konkreten Anforderungen berücksichtigt, wäre somit, wie bei der Aufnahme in die Grundschule, die Bewährung in der gewählten Schulart. Da eine Aufnahme aller Schüler aus Kapazitätsgründen nicht in Betracht kommt, hat sich inzwischen in einigen Bundesländern ein Verfahren herauskristallisiert, das wichtige Komponenten vereinigt. Auf der Basis der Übertrittsempfehlungen der abgebenden Grundschule wählen die Erziehungsberechtigten kraft Elternrecht die gewünschte Schule. Aufnahmeprüfungen sind nur für den Fall vorgesehen, dass Übertrittsempfehlung und Elternwunsch differieren. An der aufnehmenden Schule ist eine zeitlich begrenzte Bewährungsphase zu durchlaufen, nach deren Abschluss die endgültige Entscheidung über Verbleib oder Umschulung getroffen wird. Was auf den ersten Blick wie eine Bankrotterklärung der pädagogisch-psychologischen Diagnostik aussieht, ist bei genauerem Hinsehen nur die Ersetzung einer unzureichenden, allein auf die Konstanz individueller Differenzen aufbauenden Statusdiagnostik durch eine auch die konkreten Kontextbedingungen einbeziehende Prozessdiagnostik. Diese sollte allerdings nicht den Lehrern allein überlassen bleiben, sondern zumindest im Problemfall auch den psychologischen Experten einbeziehen. Der hierfür zuständige schulpsychologische Dienst ist jedoch noch nicht überall zureichend ausgebaut. 9.1.3 Diagnostik beim Übertritt in weiterführende Schulen Diagnostik, die bereits im Stadium des Entstehens von Lernschwierigkeiten einsetzt und die Basis für eine gezielte Förderung schafft, könnte helfen, dieses Ziel zu erreichen (7 Abschn. 9.2). 9.1 · Diagnostik und Intervention bei der Schullaufbahnberatung 9 Prozessdiagnostik ersetzt Statusdiagnostik Lösung: Bewährungsphase in gewünschter Schulform Vor- und Nachteile der Grundschulempfehlung Nur kurz- und mittelfristige Prognosen möglich Probleme langfristiger Prognosen Probleme von Aufnahmeprüfungen 479 9 Das wirft die Frage auf, welche Fächer bzw. Fächer-Gruppen voneinander unterschieden werden müssen, um gegebenenfalls dafür gesonderte Verfahren vorzusehen. Ne- Welche Fächer bilden homogene Gruppen? Forschungsbedarf Ziel: Passung von Anforderungen und Personenmerkmalen Kombination von Abiturnoten, Tests und Interviews In der Bundesrepublik Deutschland übertrifft seit geraumer Zeit die Nachfrage nach Studienplätzen das von den Universitäten vorgehaltene Angebot um etwa den Faktor 2, d. h. es haben sich ungefähr doppelt so viele Studierende eingeschrieben, wie Plätze für sie vorhanden sind. Es steht zu befürchten, dass auch in Zukunft eine Beschränkung von Zulassungen unausweichlich ist, was die Frage aufwirft, nach welchen Gesichtspunkten das vergleichsweise rare Gut »Studienplätze« vergeben werden soll. Dieser Frage kommt eine besondere Aktualität deshalb zu, weil den Hochschulen eine stärkere Autonomie eingeräumt werden soll, in deren Rahmen es ihnen dann auch freisteht, zumindest einen Teil »ihrer« Studierenden selbst auszuwählen. Im Fach Medizin war für die Selektion der TMS (7 Abschn. 1.6) entwickelt worden, doch wurde beschlossen, ihn 1997 letztmalig einzusetzen, weil durch die Beschränkung der Niederlassungsfreiheit für Ärzte nunmehr weniger Studienbewerber in das Fach drängen, was den Aufwand nicht mehr rechtfertigen würde. Ansetzend an den positiven Erfahrungen mit einem Auswahlverfahren, in dem Tests eine Rolle spielen, und geleitet von der Absicht, das Dilemma zu überwinden, das aus der partiellen Unvereinbarkeit von Autonomie der einzelnen Hochschulen einerseits und Einheitlichkeit des Zulassungssystems andererseits resultiert, hat der Deidesheimer Kreis (1997) Empfehlungen zur Feststellung der Studieneignung erarbeitet. Zentral darin ist – neben einer Berücksichtigung der Durchschnittsnote im Abschlusszeugnis als Indikator der allgemeinen Studieneignung – die Entwicklung und flexible Verwendung von studienfach- bzw. studienfeldbezogenen Fähigkeitstests vorgesehen, im Weiteren der lokale Einsatz von Interviews, die den Bewerbern Gelegenheit geben sollen, sich in ihrer Gesamtpersönlichkeit darzustellen und darüber hinaus ihre Motivations- und Interessenstruktur darzulegen. Die Realisierung eines derartigen Verfahrens dürfte zu einer besseren »Passung« von individuellen Voraussetzungen der Studierenden mit den fach- und ortsspezifischen Anforderungen an die Studierenden führen und im Gefolge davon eine Verminderung von Studienabbrüchen, Fachwechseln und Prüfungswiederholungen, allgemein also eine effektivere Nutzung der Kapazitäten bewirken. Einige der Voraussetzungen und Implikationen bedeuten jedoch einen gewissen weiteren Forschungsbedarf: 4 Zur Erreichung des besagten »person-job-fit« gehört nicht nur die Auswahl von Personal, sondern auch dessen Entwicklung, also die Vermittlung von Kenntnissen und Fähigkeiten zur Bewältigung der beruflichen Anforderungen. Über die Sozialisation an und durch Hochschulen ist freilich vergleichsweise wenig bekannt (s. Amelang & Hoppensack, 1977; Hoffmann & Stiksrud, 1994). 4 Die wechselseitige »Passung« und die Entwicklung von Prognosesystemen erfordern systematische Anforderungsanalysen, die sich des besonderen Methodenarsenals der Arbeits- und Organisationspsychologie zu bedienen hätten (s. Sonntag, 1992). Das Pilotprojekt »Profilbildung« der Hochschulrektorenkonferenz (s. Hödl, 1995) ist dafür immerhin ein erster Schritt. 4 Der Gesichtspunkt einer hinreichenden Ökonomie verlangt eine fachübergreifende, das spezifische Anforderungsprofil einer bestimmten Ausbildungsstätte gegebenenfalls eine fachspezifische Prädiktion. 9.1.4 Diagnostik beim Übertritt in den tertiären Bildungsbereich Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Beschränkung der Zulassung wegen Studienplatzknappheit 480 Diagnostik und Intervention bei individueller Schülerhilfe Über diese Kernvariablen hinaus werden Kontextfaktoren wie Unterrichtsklima sowie Stimulation oder Beeinträchtigung durch Bedingungen der Peer-Group und des Elternhauses als für die Schulleistung bedeutsam angenommen. Die häufigsten Anlässe für Diagnose und Intervention im Aufgabenbereich der Pädagogischen Psychologie sind individuelle Lernschwierigkeiten. Sie äußern sich in negativen Abweichungen der Schülerleistungen von klassenbezogenen Normen oder individuellen Erwartungen. Für die Beurteilung einer konkreten Schülerleistung bildet in der Regel die Durchschnittsleistung der Klasse den Bezugsrahmen. Wird sie deutlich und nicht nur vorübergehend unterschritten, ist Anlass für diagnostische Maßnahmen gegeben, da ohne sie zielgerichtete Interventionen nicht ergriffen werden können. Aber auch ein Nachlassen der Leistungen eines bislang guten Schülers kann diagnostische Maßnahmen initiieren, wenn seine Leistungen dauerhaft hinter den individuellen Erwartungen zurückzubleiben drohen. Da Lernschwierigkeiten nach übereinstimmender Auffassung als multifaktoriell bedingt angesehen werden, stellt sich die Frage, an welchem Punkt diagnostische Maßnahmen sinnvollerweise anzusetzen sind. Ein Modell von Haertel et al. (1983) nimmt an, dass Erfolg und Misserfolg im Unterricht von 5 Bedingungen abhängig sind, und zwar von: 1. der zur Bewältigung einer Aufgabe vom Schüler benötigten Lernzeit, 2. der von ihm konkret aufgewandten Lernzeit, 3. seiner Fähigkeit, Instruktionen zu verstehen, 4. der ihm vom Lehrer zugestandenen Lernzeit und 5. der Qualität des Unterrichts. 9.2 Gleichwohl liegen Arbeiten vor, die in der Tat eigenständige Validitätsaspekte von Interviews für die Vorhersage des Studienerfolges belegen (s. z. B. Hojat et al., 1993). In Nachuntersuchungen an jenen Studierenden, die über das Auswahlgespräch einen Studienplatz in Medizin erhielten, fanden Ittner und Halsig (1993) zwar eine leistungsmäßige Unterlegenheit gegenüber den nach Leistungsquoten Zugelassenen, aber auch Unterschiede in verschiedenen Kategorien des Studienerlebens und des Selbstbildes, die als sehr positiv zu bewerten sind. ben einer konventionell-rationalen Klassifikation, wie sie im Arbeitskreis um Trost (Blum & Trost, 1982; Blum et al., 1982; Fay et al., 1982) mit Tests für Ingenieurwissenschaften, Mathematik, Naturwissenschaften, Philologie sowie Rechts- und Wirtschaftswissenschaften vorgenommen wurde, ist auch ein analytisch-induktives Vorgehen denkbar. Giesen et al. (1986) haben diesen Weg sehr erfolgreich eingeschlagen und u. a. gezeigt, dass eine Polarität zwischen einem eher mathematisch-naturwissenschaftlichen und einer eher kultur- und geisteswissenschaftlichen Orientierung besteht, und auf einer anderen Dimension soziale und pädagogische Neigungen von Interesse an Politik und Wirtschaft getrennt werden. 4 Ein Interview als Bewerbungsgespräch verspricht gewöhnlich gleichermaßen der interviewenden und der interviewten Person hochgradige subjektive Evidenzen über die inhaltliche Richtigkeit, die häufig genug in diametralem Gegensatz zur empirischen Befundlage stehen. 9.2 · Diagnostik und Intervention bei individueller Schülerhilfe Bedingungen des Schulerfolgs Hilfe bei Lernschwierigkeiten Validität von Interviews 481 9 9 Neue Sicht der »Faulheit« Fähigkeit, Anstrengung, Aufgabenschwierigkeit, Zufall Modell der Lernmotivation Entwicklungsprozess zur nächsten Lernzielebene Ermittlung der basalen Lernzielebene Die von einem Schüler zur Bewältigung einer konkreten Lernaufgabe aufgewendete Lernzeit ist der Verhaltensbeobachtung zugänglich und ein Indikator seiner Lernmotivation. Nach einem Modell der Lernmotivation von Heckhausen und Rheinberg (1980) ist die Bereitschaft eines Schülers, sich für eine Lernaufgabe zu engagieren, abhängig von dessen subjektiver Einschätzung, ob er das Ergebnis durch eigenes Handeln beeinflussen kann, ob das Ergebnis positive Konsequenzen hat, und ob ihm diese Konsequenzen auch wünschenswert erscheinen. Der Vergleich eines Handlungsergebnisses mit einem Gütemaßstab entscheidet darüber, ob dieses als Erfolg oder Misserfolg bewertet werden kann. Je nachdem, ob ein Handlungsergebnis auf eigene Fähigkeit, Anstrengung, Aufgabenschwierigkeit oder Zufall zurückgeführt wird, empfindet der Handelnde Befriedigung und Stolz oder Unzufriedenheit und Scham. Die Erklärung von Misserfolgen durch mangelnde eigene Fähigkeiten würde die zukünftige Anstrengungsbereitschaft beeinträchtigen, da eigene Anstrengungen als zwecklos angesehen werden. Ein Zurückführen von Misserfolgen auf mangelnde Anstrengung eröffnet dagegen Verbesserungschancen. Auf der anderen Seite würden Erfolge eine geringere positive Wertigkeit in der Selbstbewertungsbilanz erhalten, wenn sie entweder auf Glück oder zu geringe Aufgabenschwierigkeit zurückgeführt würden. Die von Lehrern beobachtete Unwilligkeit eines Schülers mit Lernschwierigkeiten, die ihm zugestandene Lernzeit hinreichend zu nützen, könnte somit darin begründet sein, dass er die Erfolgschancen der eigenen Handlungsmöglichkeiten in einer konkreten Lernsituation aufgrund zurückliegender Erfahrung als so gering einstuft, dass ihm jede Eigenaktivität aussichtslos erscheint. Aber selbst wenn ein Lernergebnis erreichbar erschiene, könnten eigene Anstrengungen ausbleiben, falls keine positiven Ergebnisfolgen antizipiert oder als nicht attraktiv genug bewertet würden. 9.2.2 Diagnostik und Beeinflussung der aufgewendeten Lernzeit Je unzureichender die aufgabenspezifischen Lernvoraussetzungen eines Schülers sind, desto mehr Lernzeit muss er zur Erreichung eines Lernziels aufwenden. Das Fehlen spezifischer Vorkenntnisse gilt inzwischen als wichtigste Ursache zur Erklärung von Lernschwierigkeiten und steht deshalb im Vordergrund der zu ihrer Aufklärung anzusetzenden diagnostischen Bemühungen. Fachspezifische Schulleistungstests können helfen, den Bereich der Lernvoraussetzungen grob zu strukturieren. Zur Feindiagnostik eignen sich informelle Lernzielkontrollen, die neueren Unterrichtswerken inzwischen immer häufiger beigegeben werden. Ziel einer Vorkenntnisdiagnose ist die Ermittlung jener basalen Lernzielebene, auf der der Schüler mit Lernschwierigkeiten keine oder nur geringfügige Vorkenntnisdefizite hat (Gagné, 1973). Von dieser Ebene ausgehend, haben Interventionsmaßnahmen das Erreichen der nächst höheren Lernzielebene anzustreben und die Konsolidierung der Leistungen auf diesem Niveau zu sichern. Durch zwischengeschaltete Lehrzieltests ist dieser Entwicklungsprozess zur jeweils nächsthöheren Lernzielebene diagnostisch so lange zu begleiten, bis der Schüler den Anschluss an seine Lerngruppe gefunden und seine Kenntnisse in einem Abschlusstest unter Beweis gestellt hat. Liegen Vorkenntnisdefizite zu weit zurück, müssen schulische Interventionsbemühungen eventuell durch außerschulische Nachhilfemaßnahmen ergänzt werden. 9.2.1 Diagnostik und Beeinflussung der benötigten Lernzeit Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Mangelnde Vorkenntnisse als Ursache von Lernschwierigkeiten 482 Die quantitativen unterrichtsorganisatorischen Rahmenbedingungen werden durch das Ausmaß an zugestandener Lernzeit definiert, die unterrichtsdidaktischen durch die Qualität des Unterrichts. Ob in einer Klasse die zugestandene Lernzeit zu knapp 9.2.4 Diagnostik und Verbesserung des Unterrichts Ist das Verständnis für sprachliche Instruktionen reduziert, haben Schüler zwangsläufig Probleme, dem Unterricht zu folgen. Traditonellerweise wird diese Fähigkeit durch sprachliche Intelligenztests überprüft. Da diese Verfahren Instruktionsverständnis meist nur mittelbar erfassen, sind Tests vorzuziehen, die, wie der Anweisungs- und Sprachverständnistest von Kleber und Fischer (1982) oder der Hörverstehenstest von Urban (1986), speziell auf diesen Bereich zugeschnitten sind und ihn deshalb differenzierter erfassen können. Dadurch bieten sie prinzipiell bessere Ansatzpunkte für Interventionsmaßnahmen als traditionelle Intelligenztests. In der Praxis erweist sich die Förderung der sprachlichen Verstehenskompetenz jedoch als schwierig. Nach einer Metaanalyse (Kavale, 1990) war psycholinguistisches Training von Sprachverständnis mit einer Effektstärke von .20 nur wenig erfolgreich. Auch existiert derzeit im deutschen Sprachraum mit dem psycholinguistischen Sprachförderungsprogramm von Lug (1985) lediglich ein formelles Verfahren, das eine Förderung auf diesem Gebiet verspricht. Über seine Effektivität liegen derzeit noch keine verlässlichen Angaben vor. Es stellt sich auch die Frage, ob anstelle des Versuchs, allgemeines Sprachverständnis zu fördern, nicht besser Übungen geeignet wären, die fachspezifisch ansetzen. Berichte von Palinscar und Brown (1984) über ein Gruppentraining zur Förderung von Textverständnis, bei dem die Gruppenmitglieder nach Maßgabe ihres erreichten Verständnisgrades immer aktiver in Gruppendiskussionen einbezogen werden, bis sie selbst Instruktionsaufgaben übernehmen können, klingen recht ermutigend. 9.2.3 Diagnostik und Beeinflussung von Instruktionsverständnis Motivationale Diagnostik kann sich folglich nicht mit der Feststellung ungenügender Ausnützung der zur Verfügung stehenden Lernzeit begnügen, sondern muss die subjektive Einschätzung des Schwierigkeitsgrades konkreter Aufgaben, die Erwartung positiver Handlungsfolgen und deren subjektive Bewertung einbeziehen. Schätzt ein Schüler eine Aufgabe als zu schwer ein, ist deren Schwierigkeitsgrad so weit zu reduzieren, dass dem Schüler ein Erfolg durch eigene Anstrengung möglich erscheint. Bei Schülern mit häufigen Lernschwierigkeiten reicht diese Maßnahme oft nicht aus, da sie sich für nicht befähigt genug halten. Ihnen müssen zumindest zeitweilig zusätzliche Anreize in Form von Lob oder Belohnungen angeboten werden, damit sich für sie die Anstrengung lohnt (Lukan & Blöschl, 1977). Welche Anreize jeweils wirksam sind, lässt sich durch Vorgabe sog. Verstärkerlisten (Windheuser & Niketta, 1972) diagnostizieren, die auch eine Einschätzung der subjektiven Wertigkeit der einzelnen Verstärker erlauben. Erfolge, die durch die genannten Maßnahmen ermöglicht werden, reichen jedoch oft nicht aus, die negativen Folgen häufig erlebter Misserfolge zu kompensieren, solange ein Schüler mangelnde eigene Fähigkeiten für sein Versagen verantwortlich macht. Erst wenn es durch ein entsprechendes Attributionstraining gelingt, ihn davon zu überzeugen, dass der entscheidende Faktor für den Erfolg die eigene Anstrengung ist, ergeben sich nach Befunden von Borkowski et al. (1988) reliable Leistungsverbesserungen. 9.2 · Diagnostik und Intervention bei individueller Schülerhilfe 9 Diagnostik der Unterrichtsqualität Förderung von Sprachverständnis schwierig Tests zur Prüfung von Instruktionsverständnis Langfristige Verbesserungen durch Attributionstraining Aufgaben einer Motivationsdiagnostik 483 9 Einfluss auf Lernschwierigkeiten und Verhaltensstörungen Verbesserung des Klimas Diagnostik des Unterrichtsklimas Probleme der praktischen Umsetzung Einer der wichtigsten sozialen Kontextfaktoren für Erfolg und Misserfolg in der Schule ist das Unterrichtsklima. Ein Verfahren, das Unterrichtsklima mit Hilfe eines Fragebogens zu diagnostizieren, konstruierten v. Saldern und Littig (1987). Es erfasst die sozialen Beziehungen zwischen Schülern wie die zwischen Lehrer und Schülern sowie allgemeine Unterrichtsmerkmale. Da soziale Probleme von der Zusammensetzung der einzelnen Gruppe abhängen und sich somit jeweils anders darstellen, müssen Interventionsmaßnahmen die spezielle Situation berücksichtigen. Hierzu kann der genannte Fragebogen wichtige Informationen beitragen. Eine vielversprechende generelle Maßnahme scheint die Umstellung von einem Wettbewerbsklima auf kooperative Arbeitsstrukturen zu sein (Johnson et al., 1981). Sie führt offenbar nicht nur zu größerer Zufriedenheit und gegenseitiger Akzeptanz der Schüler, sondern auch zu verbesserten Einzelleistungen. Da mit Leistungsverbesserungen wiederum eine Reduktion von Verhaltensproblemen verbunden ist (Winett & Roach, 1973), könnte dieser Ansatz geeignet sein, sowohl Lernschwierigkeiten als auch mit ihnen verbundene Verhaltensstörungen anzugehen. 9.2.5 Diagnostik und Beeinflussung von Kontextfaktoren bemessen wird, lässt sich durch Unterrichtsbeobachtung oder Befragung der Schüler ermitteln. Von zu engen zeitlichen Vorgaben ist auszugehen, wenn nicht nur einzelne Schüler, sondern ganze Gruppen die Lernziele in der vorgegebenen Zeit nicht voll erreichen. Eine Intervention muss hier auf Gewährung von ausreichender Lernzeit, die auch eine Sicherung der Lernergebnisse erlaubt, ausgerichtet sein. Eine Diagnose der Unterrichtsqualität kann sich dagegen nicht nur an äußerlichen Merkmalen orientieren. Dass ein Unterricht, der Vorkenntnisdefizite nicht zu verhindern oder beheben sucht, Lernschwierigkeiten Vorschub leistet, gilt nach Bloom (1976) als hinreichend gesichert. Als Hauptaufgabe einer Unterrichtsdiagnose ist folglich zu prüfen, wie mit Vorkenntnislücken umgegangen wird. Die Bereitstellung zusätzlicher Lernzeit ist dabei ein wesentliches quantitatives Indiz. Weitere qualitative Merkmale sind nach Weinert et al. (1990) intensive Nutzung der zur Verfügung stehenden Unterrichtszeit, Konzentration auf Lernziele, Kontrolle der Lernaktivitäten der Schüler, ständige Überwachung des Lernfortschritts, Vermeidung von Schülerfehlern durch präzise Aufgabenstellungen und einfache Fragen sowie die sofortige Verfügbarkeit von Hilfsmaßnahmen, wenn Lernschwierigkeiten auftreten. Die Effektivität derartiger Maßnahmen, auch unter dem Oberbegriff direkter Unterricht bekannt, ist vielfach belegt (Brophy & Good, 1986; Helmke et al., 1986). Als wichtigstes Merkmal erwies sich nach Weinert et al. (1989) der unterstützende Kontakt des Lehrers mit dem Schüler. Seine Anpassung an die Bedürfnisse der Schüler und seine Geduld mit langsamen Lernern wirkten sich auch positiv auf deren Lernmotivation aus (Weinert et al., 1992). So plausibel die angeführten Ansätze für eine Unterrichtsdiagnose erscheinen mögen, so schwierig ist ihre Umsetzung in die Praxis. Es bedarf hierzu einmal der Bereitschaft des Lehrers, Fehler auch im eigenen pädagogischen Handeln zuzugestehen und fachkundigen Rat einzuholen. Zum Anderen mangelt es an institutionellen Einrichtungen für informelle pädagogische Beratung. Ohne pädagogische Ausbildung fehlt Schulpsychologen häufig die hierzu notwendige Qualifikation. Sonderschullehrer, wie sie in dem Schulversuch von Braband und Kleber (1983) in Regelschulen eingesetzt wurden, könnten diese Lücke eventuell schließen. Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Qualitätsmerkmale des Unterrichts 484 Hochbegabtendiagnostik Definitionsprobleme. Ein wesentliches Problem bei der Diagnostik von Hochbegabung liegt bereits in der Begriffsbestimmung von Hochbegabung. Vor allem ist die inhaltliche Breite des Konzepts strittig. Über die verschiedenen Hochbegabungskonzepte und -modelle informieren Holling und Kanning (1999) sowie Rost, Sparfeldt und Schilling (im Druck). Einige Autoren präferieren eine Hochbegabtendiagnostik ausschließlich anhand der Allgemeinen Intelligenz, andere schließen auch andere Fähigkeitsbereiche wie Soziale Intelligenz oder Kreativität mit ein. Dementsprechend wird je nach Begriffsverständnis das Urteil, ob eine Hochbegabung vorliegt, unterschiedlich ausfallen. Vor allem reduziert sich bei einem mehrdimensionalen Definitionsansatz die Zahl der Hochbegabten. Hanses und Rost (1998) haben berechnet, wie viele Personen in Abhängigkeit von der Anzahl der geforderten Kriterien (bei einem festgelegten CutOff-Wert) untersucht werden müssen, um 50 Hochbegabte zu finden. Daraus lässt sich ablesen, wie hoch der Anteil der Hochbegabten in der Population sein muss. Verlangt 9.3 Ein weiterer sozialer Kontextfaktor ist die soziale Stellung innerhalb der Schulklasse. Korrelationen zwischen dem Beliebtheitsgrad eines Schülers und seinen Schulleistungen (Bless, 1986) weisen auf bedeutsame Zusammenhänge hin und lassen die Diagnostik seines sozialen Ranges mittels soziometrischer Befragungen geboten erscheinen (Müller, 1980; Petillon, 1980). Weniger einfach sind Versuche, den sozialen Rang von Schülern mit Lernschwierigkeiten zu verbessern. Sitzplatzveränderungen nach soziometrischen Präferenzen verschärften die sozialen Probleme sogar (Johansen, 1972). Zwar finden sich Hinweise darauf, dass z. B. positive Verstärkungen durch den Lehrer zu Statusverbesserungen führen können (Retish, 1973), doch ergeben sich gerade bei Lernschwierigkeiten oft nicht genug Gelegenheiten hierzu. Ein weiteres Problem stellen die mit Lernschwierigkeiten häufig verbundenen Verhaltensprobleme dar. Versuche, diese isoliert anzugehen, waren, wie Analysen von Bryan und Lee (1990) zeigen, wenig erfolgreich. Die Beobachtung, dass der Zusammenhang zwischen sozialem Status und Lernerfolg von Klasse zu Klasse stark schwanken kann (Selg, 1965), deutet vielmehr darauf hin, dass dieses Problem im konkreten sozialen Kontext gesehen und gelöst werden muss. Familiäre Ursachen von Lernschwierigkeiten entziehen sich i. Allg. systematischer Diagnostik, da die jeweilige Familienkonstellation von Fall zu Fall stark variiert. Die diagnostische Methode der Wahl ist deshalb das Gespräch, in dem am besten auf die spezielle Problematik eingegangen werden kann. Zur Erfassung des Erziehungsstils existieren Verfahren, mit deren Hilfe wesentliche Aspekte, wie Unterstützung, Strenge und Zuwendung im Selbstbericht (Baumgärtel, 1979) oder aus der Sicht der Schüler (Krohne & Pulsack, 1990), erfasst werden können. Über weitere familiendiagnostische Verfahren informiert Cierpka (1987). Erfolgreiche Behandlung familiärer Probleme setzt die Bereitschaft der Familienmitglieder zur Mitwirkung voraus. Diese hängt mit davon ab, wie Eltern sich das Zustandekommen der Schwierigkeiten erklären. Wenn sie eine Mitverantwortung bejahen, sind sie eher zur Mitarbeit bereit (Strey, 1993). Für die Behandlung tieferliegender Familienprobleme hat sich seit einigen Jahren die familientherapeutische Sichtweise durchgesetzt, bei der die betroffenen Familienmitglieder nicht als Einzelpersonen, sondern als Teil eines dynamischen Systems gesehen werden, das als Ganzes behandelt werden muss (Schneewind, 1991). 9.3 · Hochbegabtendiagnostik 9 Definitionsprobleme Familientherapie: Mitglieder als Teil eines dynamischen Systems Probleme einer Intervention Diagnostik des sozialen Ranges 485 9 Anforderungen an Intelligenztest. Welche Anforderungen sind an einen Intelligenztest zur Feststellung von Hochbegabung zu stellen? Erstens sollte der Test ein breites Anforderungen an Intelligenztest Overachiever Achiever Underachiever Begabung und Leistung. Unter Intelligenz wird das Potential einer Person verstanden, kognitive Leistungen zu erbringen. Eine hoch intelligente Person kann, muss aber nicht gute Leistungen in der Schule oder etwa im Beruf zeigen. Motivationale Gründe oder ungünstige Arbeitsbedingungen können dazu führen, dass die Person nicht die Leistungen zeigt, zu der sie eigentlich fähig wäre. Die strikte Unterscheidung zwischen Fähigkeit (Potential) und Performanz führt dazu, dass - bei einer kategorialen Betrachtung - zwei Typen von Hochbegabten resultieren: Underachiever (die Leistungen sind niedriger, als nach dem Potential zu erwarten wäre) und Achiever (Hochbegabte, deren Leistungen ihren Fähigkeiten entsprechenden). Dass es auch Hochbegabte geben kann, deren Leistungen über ihrem Potential liegen, ist hier unerheblich. Wird zunächst nur auf eine außergewöhnliche Performanz (z. B. sehr gute Leistungen in der Schule) geachtet, fallen beide Typen von Hochbegabten nicht gleichermaßen auf. Hochbegabte Underachiever sind benachteiligt. Eine diagnostische Entscheidung wird durch Einsatz eines Intelligenztests herbeigeführt. In die Gruppe der diagnostizierten Hochbegabten werden bei dieser Vorselektion nicht alle tatsächlich Hochbegabten eingehen (siehe auch »Hochbegabtendiagnostik durch Lehrer«). Viele hochbegabte Underachiever werden darin fehlen. Mit anderen Worten: Es gibt noch unentdeckte Hochbegabte. Am Rande sei angemerkt, dass sich messfehlerbedingt unter den diagnostizierten Hochbegabten auch Personen mit einem wahren IQ von etwas weniger als 130 befinden werden. Es sind normal begabte Overachiever, die durch herausragende Leistungen aufgefallen sind und in der diagnostischen Untersuchung die magische IQ-Grenze von 130 erreicht haben. Potential für kognitive Leistungen »Die Feststellung einer intellektuellen Hochbegabung orientiert sich als Richtwert an einem Intelligenzquotienten (IQ) von 130 bzw. einem Prozentrang (PR) von 98« (Amtsblatt des Hessischen Kultusministeriums, 2001, S. 518; zit. nach Rost et al., im Druck). Definition von Hochbegabung Definition man, dass ein Hochbegabter in einem Kriterium (z. B. Intelligenz) zu den oberen 2% der Verteilung gehört, sind 2.500 Personen zu untersuchen. Schon bei zwei Kriterien (Annahme: Sie korrelieren zu .30) erhöht sich die Zahl auf 30.048. Die Hinzunahme eines zweiten Kriteriums führt dazu, dass jetzt nicht mehr 2% der Population als hochbegabt gelten, sondern nur noch 0.17 Prozent. Bei drei Kriterien (die ebenfalls .30 miteinander korrelieren) verringert sich der Anteil der Hochbegabten bereits auf 0.03%. Diese Modellrechnung macht deutlich, dass die Vorannahmen über das Konzept der Hochbegabung enorme praktische Konsequenzen haben. Durch die Forderung nach immer weiteren Kriterien lässt sich die Hochbegabung schlicht wegdefinieren. Außerdem wird mit jedem weiteren Kriterium konzeptuell unklarer, was die Kombination von Multitalenten inhaltlich bedeutet. Gut begründbar und auch weitgehend konsensfähig sind die Festlegung auf ein Kriterium, und zwar das der Allgemeinen Intelligenz, und die Festsetzung der unteren Grenze für Hochbegabung bei zwei Standardabweichungen über dem Populationsmittelwert (vgl. Holling & Kanning, 1999; Rost et al., im Druck). Diese Konzeption ist vor allem auch für die Praxis nützlich, da sie eine klare diagnostische Entscheidung ermöglicht. Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Festlegung auf ein Kriterium: Die Allgemeine Intelligenz 486 Hochbegabtendiagnostik durch Lehrer. Die Schule ist der Ort, an dem Hochbegabte vor allem auffallen sollten. Können Lehrer aber eine herausragende intellektuelle Begabung ohne Zuhilfenahme von Tests erkennen? Wild (1993) hat in einer groß angelegten Studie an Drittklässlern die Übereinstimmung zwischen Lehrerurteilen und Intelligenztestergebnissen überprüft. Die Lehrerstichprobe umfasste 388 Lehrkräfte, die insgesamt über 7.000 Schüler beurteilten. Die Intelligenz wurde mit drei Tests gemessen: Grundintelligenztest – Skala 2 (CFT 20), Zahlen-Verbindungs-Test (ZVT) und Sprachliche Analogien 3/4 (SPA). Die Lehrer stuften die Intelligenz ihrer Schüler auf siebenstufigen Ratingskalen von »extrem schwach« bis »exzellent« ein. Sie erhielten Informationen über Inhalt (auch Itembeispiele) und Aufbau der Intelligenztests, an denen ihr Urteil später überprüft werden sollte. Sie gaben für jeden der drei Tests eine Prognose ab. Weiterhin nominierten sie einige ihrer Schüler. Dazu diente eine Liste von 15 begabungsrelevanten Merkmalen (z. B. formal-logisches Denken, Merkfähigkeit; solche Checklisten finden z. T. in der Hochbegabungsdiagnostik Verwendung). Pro Item durften die Lehrer maximal drei Schüler mit hoher Merkmalsausprägung benennen. Die Korrelationen zwischen den Testleistungen und Ratings sowie den Nominationen variierten sehr stark zwischen den Klassen. Einige Lehrer schätzten die Intelligenz ihrer Schüler also recht gut ein, andere erwiesen sich als schlechte Diagnostiker. Über alle Klassen hinweg korrelierte die Intelligenztestleistung (aggregiert über die drei Tests) mit den ebenfalls gemittelten Lehrer-Einschätzungen zu .59. Für die Nomination fiel die vergleichbare Korrelation mit .47 niedriger aus. Von großer praktischer Bedeutung sind die Trefferquoten, die mit einem Intelligenzrating und einem Nominationsverfahren erzielt werden. Als Kriterium für Hochbegabung wird eine Gesamttestleistung von mindestens zwei Standardabweichungen über dem Mittelwert festgesetzt, was einem IQ über 130 entspricht. Von den Schülern, die nach dem Lehrerurteil »exzellent« begabt sind, erwiesen sich - gemäß den Intelligenztests – 35,1% als tatsächlich hochbegabt. Der Rest hatte zu niedrige Intelligenztestergebnisse. Eine andere Frage ist, wie viele der tatsächlich hochbegabten Schüler (IQ>130) durch eine Lehrerbeurteilung entdeckt würden. Es sind gerade 16,4%. Mit der Frage, welche ihrer Schüler exzellent begabt sind, lassen sich also die meisten Hochbegabten (83,6%) nicht auffinden. Auch die Nominationsmethode erwies sich als ineffi- g-Maß darstellen, die Intelligenz also über mehrere Teilbereiche prüfen. Werden beispielsweise nur numerische Testaufgaben verwendet, kann der Testwert, bedingt etwa durch besondere schulische Förderung in Mathematik, im Vergleich zu anderen Begabungsbereichen erhöht sein und zu einer Überschätzung der Intelligenz führen. Umgekehrt führen eine Teilleistungsschwäche oder eine mangelnde schulische Förderung dazu, dass die Allgemeine Intelligenz unterschätzt wird. Anstelle eines einzigen breiten Tests kann auch eine Kombination mehrerer Intelligenztests verwendet werden, wobei darauf zu achten ist, dass diese unterschiedliche Intelligenzkomponenten abdecken. Zweitens sind aktuelle Normen zu fordern. Durch die beobachtete Zunahme der Intelligenztestleistungen im Laufe der Zeit (Flynn-Effekt) muss die Verwendung überalterter Normen dazu führen, dass zu viele Personen als hochbegabt diagnostiziert werden. Drittens muss der Test im oberen Leistungsbereich gut differenzieren. Dazu sollen die Normen weit über einen IQ von 130 hinausgehen, und die Lösung einer weiteren Aufgabe darf zu keinen Sprüngen im IQ führen. Selbstverständlich ist zu fordern, dass die Eichstichprobe repräsentativ für die jeweilige Altersgruppe (also beispielsweise keine Übergewichtung von Gymnasiasten) und hinreichend groß ist. 9.3 · Hochbegabtendiagnostik 9 Intelligenzrating und Nominationsverfahren 487 9 Talent 4 4 4 4 4 4 Vorzeitige Einschulung Überspringen einer Klasse Besuch einer Sonderklasse für Hochbegabte Stärkere innere Differenzierung im Unterricht Einsatz als Tutor im regulären Unterricht Spezielle Freizeitangebote für Hochbegabte (Feriencamps etc.) Ausgewählte Fördermaßnahmen für Hochbegabte Interventionen. Nach der Diagnose »Hochbegabung« fragen sich die Betroffenen, meist sind es die Eltern eines Kindes und dessen Lehrer, was nun zu tun ist. Zunächst einmal ist festzustellen, dass Hochbegabung nicht mit einer Benachteiligung in anderen Merkmalsbereichen »bezahlt« wird. Es ist ein Mythos, der von einigen Elternvereinigungen mit Hinweis auf Einzelfälle genährt wird, dass hochbegabte Kinder im sozialen oder emotionalen Bereich als Folge ihrer Hochbegabung leiden. Im Gegenteil: »Hochbegabte Kinder gehen beispielsweise stärker aus sich heraus, sind warmherziger, emotional stabiler, ruhiger, fröhlicher, enthusiastischer, natürlicher als Schüler mittlerer oder unterer Intelligenz« (Rost, 2001, S. 180). Da eine Begabung nicht automatisch zu entsprechenden Leistungen führt, liegt es nahe, über Fördermaßnahmen nachzudenken, die Hochbegabten hilft, ihr Potential zu entfalten. Im Einzelfall ist unter Berücksichtigung der individuellen Lern- und Lebensbedingungen zu erwägen, ob eine Fördermaßnahme überhaupt angebracht ist und wenn ja, welche. Spezialbegabungen. Menschen können – neben der Intelligenz – auch in anderen Bereichen besonders begabt sein. Beispiele sind Mathematik, Kunst, Sport und Musik. Diese Begabungen oder Talente sollten nicht zum Begriff der Hochbegabung zählen, der für eine sehr hohe Allgemeine Intelligenz reserviert bleiben sollte. Im Einzelfall stellt sich aber die Frage, ob eine Spezialbegabung nicht Ausdruck einer außergewöhnlich hohen Intelligenz ist. Kognitive Fähigkeiten sind positiv korreliert. Herausragende Leistungen in der Mathematik werden meist mit einer sehr hohen Intelligenz einhergehen. Für eine explizit nicht intellektuelle Spitzenbegabung sollte der Begriff Talent verwendet werden (Rost, 2001). zient. Als Kriterium für Hochbegabung laut Nomination legte Wild fest, dass ein Schüler bei mindestens 12 der 15 Merkmale benannt sein musste. Von den so als hochbegabt beurteilten Schülern wiesen 33% einen IQ über 130 auf. Von den per Test als hochbegabt diagnostizierten Schüler wurden lediglich 14,9% auch mit dem Nominationsverfahren als hochbegabt erkannt. Insgesamt belegt diese Untersuchung eindruckvoll, dass Lehrerurteile wenig brauchbar sind, um Hochbegabte zu entdecken. Lehrerurteile lassen sich aus pragmatischen Gründen für eine Vorselektion verwenden. Damit möglichst viele wirklich Hochbegabte gefunden werden, muss man den Ergebnissen dieser Studie zufolge alle Schüler einer gründlichen Intelligenzdiagnostik unterziehen, die von den Lehrern mindestens als »gut« begabt (3. Stufe auf der 7stufigen Skala) beurteilt werden. Bei einer derart groben Vorauswahl würden lediglich 1,5% der Hochbegabten nicht entdeckt. Neben Lehrern können auch andere Personen zur Entdeckung von Hochbegabten beitragen. Neben den Eltern sind hier Peers (Mitschüler, Freunde) und auch die Hochbegabten selbst zu nennen. Die Güte dieser Quellen ist allerdings als kritisch zu beurteilen (s. Rost et al., im Druck). Kapitel 9 · Diagnostik und Intervention in der pädagogischen Psychologie Lehrerurteile als Vorselektion 488 (S.554-559) Verkehrspsychologische Diagnostik (S.543-546, 548-553) Rechtspsychologische Diagnostik Diagnostik und Intervention in weiteren Anwendungsfeldern Rechtspsychologische Diagnostik Glaubhaftigkeit von Zeugenaussagen. In Strafverfahren kommt der Aussage von Zeugen oft eine große Bedeutung zu. Wenn es stimmt, was der Zeuge berichtet, wird der Beschuldigte verurteilt – oder auch nicht, wenn es sich um eine entlastende Zeugenaussage handelt. Manchmal sind jedoch Zweifel an der Zeugenaussage angebracht. In diesem Fall kann das Gericht eine Begutachtung veranlassen. Grundsätzlich ist zwischen der Glaubhaftigkeit der Aussage und der Glaubwürdigkeit der Person des Zeugen zu unterscheiden (Steller & Volbert, 1997). Auch wenn ein Zeuge sich um eine korrekte Aussage bemüht, können ihm Fehler unterlaufen. Beobachtungen (und Aussagen darüber) decken sich oft nicht mit den Fakten, die beobachtet werden. Vielen Menschen unterlaufen teilweise gravierende Beobachtungsfehler, wie in empirischen Untersuchungen mit gestellten oder im Film gezeigten Ereignissen eindrucksvoll demonstriert wurde (z. B. Loftus, 1979). Inzwischen konnten zahlreiche Faktoren, die sich auf die Identifikation durch Augenzeugen Die Fragestellungen sind so heterogen, dass ein einheitliches Vorgehen völlig abwegig wäre. Deshalb wird exemplarisch auf vier Bereiche eingegangen, die in der Praxis eine große Bedeutung haben: Die Beurteilung der Glaubhaftigkeit von Zeugenaussagen, der Schuldfähigkeit von Straftätern, die Kriminalprognose und schließlich – aus dem zivilgerichtlichen Bereich – auf Sorgerechtsentscheidungen. In Strafverfahren: – Glaubwürdigkeit einer Zeugenaussage – Schuldfähigkeit eines Täters – Strafrechtliche Verantwortlichkeit bei jugendlichen Tätern In Zivilverfahren: – Entzug der Geschäftsfähigkeit – Umgangs- und Sorgerecht für ein Kind nach Scheidung der Eltern – Entzug der elterlichen Sorge In Sozialgerichtsverfahren: – Arbeits- und Erwerbfähigkeit – Voraussetzungen für eine Umschulungsmaßnahme – Berufsunfähigkeit Im Strafvollzug: – Erstellen eines Vollzugsplans – Vollzugslockerung – Kriminalprognose (vorzeitige Entlassung, Sicherheitsverwahrung) Diagnostische Fragestellungen in der Rechtspsychologie Klassische diagnostische Aufgaben in der Rechtspsychologie sind die Erstellung von Gerichtsgutachten zu Fragen der Schuldfähigkeit von Straftätern, der Glaubhaftigkeit von Zeugenaussagen oder etwa des Sorgerechts in Scheidungsverfahren sowie die Untersuchung von Straftätern, die bereits überführt sind und sich nun in einer Haftanstalt befinden. Damit soll eine fundierte Auswahl von Behandlungsmaßnahmen gewährleistet und gegebenenfalls gegen Ende des Strafvollzugs eine Rückfallprognose erstellt werden. 11.2 11.2 · Rechtspsychologische Diagnostik 11 Beobachtungen decken sich oft nicht mit den Fakten Aussage oder Person des Zeugen untersuchen Aufgaben und Fragestellungen 543 11 Eigenschaften der Person des Zeugen „Realkennzeichen“ der Aussage Logische Konsistenz Schilderungen von Komplikationen im Handlungsverlauf Schilderung ausgefallener Einzelheiten Schilderung eigener psychischer Vorgänge Eingeständnis von Erinnerungslücken Schließlich richtet sich die Aufmerksamkeit auf die Person des Zeugen. Ist die Person aufgrund ihres Urteilsvermögens grundsätzlich in der Lage, zu dem Sachverhalt eine gültige Aussage zu machen? Eine niedrige Intelligenz, fehlender Erfahrungshinter- 4 4 4 4 4 Beispiele für Realkennzeichen (das Vorliegen spricht für eine glaubwürdige Aussage) Die vorliegende Aussage wird inhaltlich danach analysiert, ob sie bestimmte Kriterien für Glaubhaftigkeit aufweist. Der Gutachter sucht dabei nach so genannten »Realkennzeichen« (vgl. Steller & Volbert, 1997). Diese Realkennzeichen (7 Übersicht) differenzieren zwischen Aussagen, die auf selbst versus nicht selbst erlebten Ereignissen beruhen. Das Vorliegen vieler Realkennzeichnen in einer Aussage spricht dafür, dass der Zeuge das Ereignis selbst erlebt hat und keine »Erfindungen« präsentiert. Ein Problem besteht darin, dass es keine verbindlichen Standards (Normen) dafür gibt, wie viele Realkennzeichnen vorliegen müssen, damit eine Aussage als sehr wahrscheinlich authentisch eingestuft werden kann. Es bleibt also dem Gutachter überlassen, die Zahl der vorgefundenen Realkennzeichen richtig zu interpretieren. Interpretationsobjektivität ist also nicht gegeben. 4 »Hat der Mann gesagt, du sollst mitkommen?« (der Sachverhalt, dass der Mann das gesagt hat, wird unterstellt). 4 »Könnte es sein, dass das Messer schon am Tatort lag?« (Aufforderung zu einer Spekulation, implizite Erwartung). 4 Verstärkung von Antworten (Nicken, »ahja«, »gut beobachtet«), die ins Konzept des Interviewers passen (der Zeuge erfährt, welche Antworten erwünscht sind). 4 Wiederholung einer Frage im Verlauf des Interviews (erzeugt Druck, nun endlich die »richtige« Antwort zu geben). Beispiele für eine suggestive Befragung auswirken, durch experimentelle Untersuchungen identifiziert werden (für eine Übersicht siehe Wells & Olsen, 2003). Insgesamt belegen diese Untersuchungen, wie trügerisch es sein kann, sich auf menschliche Beobachtungen zu verlassen. Bei der Begutachtung von Zeugenaussagen werden aus diesen Gründen zuerst die Umstände, unter denen die Aussage zustande gekommen ist, analysiert. Dabei spielen die Wahrnehmungsbedingungen (z. B. Beobachtungsdauer, mögliche Ablenkung der Aufmerksamkeit, sensorische Wahrnehmungsbedingungen) ebenso eine Rolle wie die Bedingungen, unter denen die Aussage aufgenommen wurde. Besonders bei Kindern kann sich eine (ungewollt) suggestive Befragung auf die Aussagen auswirken (Volbert, 2000). Günstig sind Aufforderungen, zu einem Thema zu erzählen (»Beschreibe doch einmal, wie der Mann aussah«) und offene Fragen (»Was hat der Mann zu dir gesagt?«). Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Entstehungsbedingungen der Aussage analysieren 544 § 20 StGB Schuldunfähigkeit und verminderte Schuldfähigkeit eines Täters. In § 20 des deutschen Strafgesetzbuchs wird festgelegt: »Ohne Schuld handelt, wer bei Begehung der Tat wegen einer krankhaften seelischen Störung, wegen einer tiefgreifenden Bewusstseinsstörung oder wegen Schwachsinns oder einer schweren anderen seelischen Abartigkeit unfähig ist, das Unrecht der Tat einzusehen oder nach dieser Einsicht zu handeln«. Eine verminderte Schuldfähigkeit liegt nach § 21 StGB vor, wenn »die Fähigkeit des Täters, das Unrecht der Tat einzusehen oder nach dieser Einsicht zu handeln, aus einem der in § 20 bezeichneten Gründe bei Begehung der Tat erheblich vermindert« ist. In diesem Fall kann die Strafe gemildert werden. Die Begutachtung der Schuldfähigkeit bzw. einer verminderten Schuldfähigkeit setzt an den in § 20 StGB genannten möglichen Bedingungen an. Es genügt jedoch nicht, dass eines dieser Kriterien vorliegt. Vielmehr muss daraus eine Aufhebung oder § 21 StGB Verfahren zur Begutachtung von Zeugen Motive für Falschaussage 545 Für die Begutachtung der Person des Zeugen finden Akteninformationen (Gerichtsakten) Verwendung, weitere Informationen werden im diagnostischen Interview gewonnen. Wenn sich die Frage nach einer psychischen Störung stellt, bieten sich dazu ein strukturiertes klinisches Interview sowie bestimmte klinische Fragebogen an. Je nach Sachlage kommen auch Testverfahren (Intelligenztests, Konzentrationstests, Gedächtnistests etc.) zum Einsatz. Antje F. (20 Jahre) sagt in einem Strafverfahren gegen Herrn S. aus. Der Zuhälter habe sie in der Wohnung eingeschlossen, ihr Rauschgift verkauft und sie zur Prostitution gezwungen. Nach 10 bis 11 Monaten wurde sie »seelisch und körperlich heruntergekommen« vom Zuhälter in die Klinik gebracht. Ihre Glaubwürdigkeit als Zeugin wird dadurch erschüttert, dass ihr Erinnerungsvermögen möglicherweise durch mehrjährigen Heroingebrauch beeinträchtigt ist. Es liegt langjähriger Alkohol- und Drogenkonsum vor; bereits mit etwa 17 Jahren hat sie auch Heroin (ca. 3 g pro Tag) konsumiert. Drogengebrauch über längere Zeit kann die Persönlichkeit, die Konzentrationsfähigkeit, die Gedächtnisleistung etc. negativ verändern. Die Untersuchung ergibt, dass ihre Aussagen als glaubhaft erscheinen, da Kriterien wie Detailfülle, folgerichtige Handlungsverkettungen, teils widersprüchliche, aber geklärte Aussagen und Selbstbezichtigung erfüllt sind. In Tests zur Messung der Intelligenz, der Konzentrationsfähigkeit und der Merkfähigkeit erreicht sie durchschnittliche bis leicht überdurchschnittliche Werte. Der Gutachter kommt zu dem Schluss, dass keine Verschlechterung der intellektuellen Leistungsfähigkeit (hierzu stellt er einen Vergleich mit den früheren Schulleistungen an) erkennbar ist, keine Hinweise auf cerebralpathologische Abbauprozesse vorliegen, und die Erinnerungsfähigkeit nicht eingeschränkt ist. Er bejaht die Glaubwürdigkeit der Zeugin und die Glaubhaftigkeit ihrer Aussagen. Das Gericht hatte keine Zweifel an ihren Aussagen. Angesichts dieser Situation ließ sich der Angeklagte auf die wesentlichen Punkte der Anklageschrift ein (Quelle: Reichert, 1997). Beispiel grund, bestimmte psychische Störungen oder Alkohol- oder Drogenkonsum können Zweifel an dem Urteilsvermögen begründen. Hat die Person besondere Gründe, die sie zu einer Falschaussage veranlassen könnte? Möglicherweise hat sie Motive, sich für etwas zu rächen oder würde von einer Verurteilung profitieren (das Sorgerecht für das Kind erhalten, einen ungeliebten Konkurrenten loswerden). 11.2 · Rechtspsychologische Diagnostik 11 11 Weitreichende Konsequenzen Tiefgreifende Bewusstseinsstörung Schwere seelische Abartigkeit Schwere seelische Störung 6 Entlassung aus der Sicherheitsverwahrung? Franz H. (51 Jahre), wurde vor 13 Jahren wegen sexueller Nötigung zu 3 Jahren Freiheitsstrafe und anschließender Sicherheitsverwahrung verurteilt. Das Gericht hat zu entscheiden, ob die restlichen 6 Monate zur Bewährung ausgesetzt werden können oder ob nach § 67, Abs. 3 StGB eine Fortdauer der Sicherheitsverwahrung über die 10 Jahre hinaus angeordnet werden muss. Das vom Gericht in Auftrag gegebene Gutachten soll klären, ob weitere erhebliche Straftaten zu erwarten sind, insbesondere solche, die zur Sicherheitsverwahrung führten. Ferner soll der Gutachter vorbereitende Maßnahmen vorschlagen, die eine Entlassung aus der Sicherheitsverwahrung ohne Gefährdung der Allgemeinheit ermöglichen. Der dafür erforderliche Zeitraum soll angegeben werden. Vorgeschichte laut Akten: Herr H. hatte 1986 eine flüchtige Bekannte in deren Wohnung aufgesucht, mit ihr einige Gläser Wein getrunken, getanzt und geschmust und sie schließlich zum Geschlechtsverkehr aufgefordert. Sie weigerte sich und er schlug ihr daraufhin ins Gesicht, riss ihr Teile der Kleidung vom Leib. Die Frau konnte Beispiel Kriminalprognose. Die Prognose des zukünftigen Verhaltens eines Straftäters hat eine erhebliche Bedeutung für die Auswahl und Bemessung der Strafe bzw. anderer Maßnahmen (z. B. Sicherheitsverwahrung), die Ausgestaltung des Strafvollzugs und für dessen Beendigung (Dahle, 1997, 2000). Beispielsweise hat ein Straftäter einen Großteil seiner Strafe verbüßt, und es steht nun eine Entscheidung über eine vorzeitige Haftentlassung auf Bewährung an. In bestimmten Fällen wird nach Verbüßung einer Haftstrafe geprüft, ob die Notwendigkeit einer Sicherheitsverwahrung besteht. Einschränkung des Unrechtsbewusstsein oder der Steuerungsfähigkeit bei der Tat herrühren. Die juristischen Begriffe können nicht eins zu eins in psychologische oder auch psychiatrische Kategorien übersetzt werden. Am einfachsten ist aus psychologischer Sicht mit dem Begriff des Schwachsinns umzugehen, der als intellektuelle Minderbegabung bzw. geistige Behinderung aufzufassen ist. Zur Feststellung sind Intelligenztests geeignet. Eine wichtige Informationsquelle stellen auch biografische Daten wie Art und Dauer des Schulbesuchs, die Beschäftigung oder die Unterbringung in einem Heim für geistig behinderte Menschen dar. Bezugspersonen können im Interview nach Kompetenzen des Täters zur Bewältigung alltäglicher Probleme befragt werden. Die Feststellung einer schweren seelischen Störung oder einer schweren anderen seelischen Abartigkeit fällt in die klinische Diagnostik (7 Kap. 10), denn hier geht es um psychiatrische Diagnosen. Die anderen schweren seelischen Abartigkeiten sind überwiegend im Bereich gravierender Persönlichkeitsstörungen und bei Suchterkrankungen zu suchen. Eine tiefgreifende Bewusstseinsstörung muss nicht krankhaft sein; auch ein psychisch gesunder Täter kann sich bei der Tat in einer hochgradigen affektiven Erregung befunden haben. Bei der Begutachtung kommt daher der Analyse des Tatablaufs und der Vorgeschichte, die zur Tat geführt hat, eine besondere Bedeutung zu. Weitere Faktoren sind etwa die Persönlichkeit des Täters, seine Beziehung zum Opfer und Erinnerungsstörungen nach der Tat. Die nötigen Informationen erhält der Gutachter durch Auswertung der gerichtlichen Akten, durch ein Interview mit dem Täter, aber auch mit Persönlichkeitsfragebogen oder projektiven Verfahren. Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Intellektuelle Minderbegabung 546 11 Deshalb sind grundsätzlich nur Wahrscheinlichkeitsaussagen möglich (»es ist zu erwarten, dass…«). Die Folgen einer Fehleinschätzung des Rückfallrisikos sind schwerwiegend, und zwar im einen Fall für die Opfer, und im anderen Fall für den Straftäter, wenn ihm unbegründet die Freiheit vorenthalten wird. Bei der Begutachtung können statistische Erkenntnisse über Rückfallrisiken in vergleichbaren Fällen genutzt werden. Die statistische Vorhersage muss sich auf Merkmale der Tat und der Delinquenten konzentrieren, die allgemein verfügbar sind. Kriminalprognosetafeln enthalten daher Merkmale wie die Art der Straftat, Alter, Geschlecht und (in den USA) die Hautfarbe des Delinquenten. Sie helfen, das Risiko abzuschätzen, können aber nicht erklären, warum ein Straftäter rückfällig wird. Die Hautfarbe hat in den USA eine hohe Priorität; eine schwarze Hautfarbe kann jedoch nicht direkt kausal dafür verantwortlich sein, dass jemand wieder eine Straftat begeht. Eine schwarze Hautfarbe geht normalerweise mit vielen anderen Merkmalen einher. Durch gründliche Forschung kann manchmal aufgedeckt werden, dass andere, hinter dem leicht erfassbaren Merkmal stehende Faktoren für die Kriminalprognose entscheidend sind. Der Faktor Hautfarbe verliert bei der Prognose von künftigen Gewalttaten seine Vorhersagekraft, wenn die Kriminalität in der Nachbarschaft, in die sich der ehemalige Straftäter nach seiner Entlassung begibt, berücksichtigt wird (Monahan, 2003; 7 Abschn. 5.2). Die statistische Prognose vernachlässigt zwangsläufig die seltenen, nicht bei allen Personen vorhandenen Risikofaktoren und protektiven Faktoren. Gretenkord (2002) hat einen treffenden Vergleich für die Nutzung statistischer Vorhersagen gefunden: Beim Verkauf eines Autos kann der Verkäufer mit einem Programm nach Eingabe von Typ, Baujahr und Kilometerleistung einen Listenpreis suchen lassen. Er kann sich nach diesem Preis richten, wenn er sein Fahrzeug anbietet; er kann aber auch davon abweichen, weil er Besonderheiten seines Autos wie etwa eine kleine Beule oder die wenig gefragte Wagenfarbe berücksichtigt. Der aus der Liste ermittelte Preis dient als Anhaltspunkt; einen realistischen Verkaufspreis findet er, indem er diesen Preis korrigiert. Genauso beachtet der Gutachter die statistischen »Gesetzmäßigkeiten« von Prognosetafeln und stellt vielleicht fest, dass der Proband aufgrund seines Alters, seiner Vorstrafen etc. ein hohes Rückfallrisiko von 30% hat. Bis dahin hat sich der Gutachter nicht der Gefahr von Urteilsfehlern (z. B. Ignorieren von Basisraten; 7 Abschn. 5.2) ausgesetzt. . Tabelle 11.4 zeigt ein Beispiel für eine Prognosetafel. Zu deren Erstellung hatte Gretenkord (2002) 188 Straftäter, die im Durchschnitt acht Jahre lang in einer Klinik für gerichtliche Psychiatrie untergebracht waren, nach drei Variablen klassifiziert, die Nur Wahrscheinlichkeitsaussagen möglich Beispiel für Prognosetafel Individuelle Besonderheiten Grenzen der statistisch begründeten Prognose Kriminalprognosetafeln Statistische Urteilsbildung Prognosen über künftiges delinquentes Verhalten sind schwer zu stellen, da gleich mehrere ungünstige Bedingungen zusammentreffen (vgl. Dahle, 2000): 4 Das vorherzusagende Verhalten tritt (zumindest bei zahlreichen Delikten) selten auf. Viele Gewalttäter und gewalttätige Sexualstraftäter bleiben Jahre oder gar Jahrzehnte lang unauffällig, um dann plötzlich wieder einschlägige Straftaten zu begehen. 4 Verhalten wird immer auch durch die Situation determiniert. In welche Situationen der Straftäter einmal kommen wird, die ihn wieder in Versuchung bringen, ist ungewiss. Auch ungünstige Lebensumstände wie Arbeitslosigkeit oder das Zerbrechen einer Beziehung oder Ehe sind schwer vorherzusehen. Günstige Randbedingungen, die anfangs vorhanden sind und bei der Begutachtung berücksichtigt wurden (z. B. Alkoholabstinenz), können später wegfallen. 4 Der Geltungszeitraum der Prognose ist gerade bei jungen Straftätern sehr lang. Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Schwierige Randbedingungen für Prognose 548 nein ja nein ja 36% 65% 16% 39% 15% 37% 16% 38% 6% 18% 6% 16% 2% 6% 6& 17% 2% 7% 2% 6% 1% 2% 60 Jahre der internationalen Forschung zufolge (46 Studien) zur Vorhersage des Rückfallrisikos gut geeignet sind: Vorliegen einer Persönlichkeitsstörung (meist Psychopathie), früheres Gewaltdelikt, Gewalttätigkeit während der Unterbringung und Alter. Er überprüfte, ob die Patienten in einem Zeitraum von durchschnittlich acht Jahren nach ihrer Entlassung einen Eintrag im Bundeszentralregister erhalten hatten, also wieder straffällig geworden waren. . Tabelle 11.4 lässt sich entnehmen, dass das Rückfallrisiko deutlich mit dem Alter abnimmt. Prognostisch ungünstig sind eine Persönlichkeitsstörung, Vorstrafen wegen eines Gewaltdeliktes und Gewalttätigkeit während des Maßregelvollzugs. Das höchste Risiko (Rückfallwahrscheinlichkeit von 65%) haben Patienten, die jung sind (Altersgruppe 20 Jahre) und drei weitere Risikomerkmale (. Tab. 11.4) aufweisen. Am unwahrscheinlichsten ist ein Rückfall bei älteren Patienten (Altersgruppe 60 Jahre), die weder eine Persönlichkeitsstörung noch eine Vorstrafe wegen eines Gewaltdelikts haben oder trotz einschlägiger Vorstrafe während ihres Klinikaufenthaltes nicht gewalttätig geworden sind oder eine Persönlichkeitsstörung haben, aber weder aufgrund ihrer Vorstrafen noch durch ihr Verhalten während des Maßregelvollzugs als gewalttätig gelten. Die Rückfallwahrscheinlichkeit liegt hier nur bei 1 oder 2%. Liegen Prognosetafeln vor, überlegt der Gutachter im nächsten Schritt, ob es gute Gründe gibt, die statistische Vorhersage zu korrigieren. Dazu befasst er sich mit den Besonderheiten des Delinquenten und bezieht sie in sein Urteil ein. Beispielsweise ist der Proband zwar wegen eines Gewaltdelikts vorbestraft, aber es handelt sich nur um ein kleines Delikt, das zudem schon sehr lange zurückliegt. Die Prognose kann in diesem Fall günstiger ausfallen. Dahle (2000) spricht bei diesem Vorgehen von »klinischen Prognosen« – der Begriff darf nicht mit der »klinischen« Urteilsbildung (. Abschn. 5.2) verwechselt werden, die Dahle als »intuitive« Prognose bezeichnet. Die klinische Prognose im Sinne von Dahle orientiert sich an der statistischen Vorhersage, versucht diese aber durch Berücksichtigung von individuellen Besonderheiten zu optimieren. Ziel ist es letztlich, ein Erklärungsmodell für den Straftäter zu entwickeln. Dieses sollte sparsam sei, vor allem mit theoretisch oder empirisch nicht belegbaren Zusatzannahmen. Gutachter, die sich diesem Ansatz verpflichtet fühlen, werden etwa folgende Fragen stellen: Ja Nein nein ja Ja Ja nein ja Nein Nein 6% 17% 20 Jahre 40 Jahre Entlassungsalter Persönlichkeitsstörung Mind. 2 x gewalttätig Vorstrafe mit Gewaltdelikt Risikofaktor . Tabelle 11.4. Beispiel für eine Prognosetafel zur Rückfallwahrscheinlichkeit von männlichen Straftätern nach Entlassung aus dem Maßregelvollzug 11.2 · Rechtspsychologische Diagnostik 11 Erklärungsmodell für den Straftäter Korrektur der statistischen Vorhersage möglich Kombination von Risikofaktoren entscheidend Rückfallrisiko ablesen 549 11 Gemeinsamer Elternvorschlag gewichtig Personen- und Vermögensvorsorge Hauptanlass Scheidungsverfahren recht für die Kinder, führt das Familiengericht eine Entscheidung herbei, wobei das Streit um das Sorgerecht. Kommt es dagegen zu einem Streit der Eltern um das Sorge- Elterliche Sorge. Die elterliche Sorge gilt von der Geburt bis zur Volljährigkeit des Kindes und umfasst die Personen- und die Vermögensfürsorge. Zur Personenfürsorge gehören die Fürsorge für das körperliche Wohl des Kindes, die Erziehung, Aufenthaltsbestimmung, Aufsichtspflicht und die Umgangsbestimmung. Die Vermögensfürsorge betrifft die Vertretung des Kindes in finanziellen Angelegenheiten. Die Ausübung der elterlichen Fürsorge ist nicht nur ein Recht, sondern auch eine Pflicht. Kein Elternteil kann darauf verzichten. Möglich ist es allerdings, die Fürsorge dem anderen Elternteil oder einer dritten Person zu überlassen; dies ist jederzeit widerrufbar. In einem Scheidungs- oder Trennungsverfahren müssen die Eltern angeben, ob gemeinsame minderjährige Kinder betroffen sind. Legen sie eine einvernehmliche Regelung zur elterlichen Sorge und zum Umgang mit den Kindern vor, besteht seitens des Gerichts normalerweise kein Handlungsbedarf. Der gemeinsame Elternvorschlag steht sogar über dem Kindeswohl, sofern dieses nicht erkennbar beeinträchtigt ist. Viele Begutachtungen ergeben sich durch Scheidungsverfahren, von denen minderjährige Kinder betroffen sind. Laut Statistischem Bundesamt (Pressemitteilung vom 13. Juli 2005, s. www.destatis.de/presse/deutsch/pm2005/p2980023.htm) wurden 2004 in Deutschland insgesamt 213.691 Ehen geschieden und in etwa 50% der Fälle hatten die Ehepartner ein oder mehrere minderjährige Kinder. Familiengericht: Sorgerechtsentscheidungen. Im Rahmen von familiengerichtlichen Verfahren können psychologische Gutachten zu sehr unterschiedlichen Fragestellungen angefordert werden (Salzgeber, 2001). Fragestellungen, die z. B. selten vorkommen, sind: 4 die Beurteilung der Ehemündigkeit von heiratswilligen Minderjährigen, 4 die Frage, ob eine Minderjährige die Folgen und die Tragweite eines Schwangerschaftsabbruchs einschätzen kann oder 4 die Frage, ob die Aufrechterhaltung einer Ehe eine besondere Härte darstellt. Die dazu benötigten Informationen finden sich in den Akten über die früheren Straftaten, in früher erstellten Gutachten, in der Dokumentation des Haftverlaufs, in Interviews mit dem Täter und evtl. auch mit wichtigen Bezugspersonen (z. B. der Ehefrau). Zur Beurteilung der Persönlichkeit können auch Persönlichkeitsfragebögen oder projektive Verfahren herangezogen werden. Je nach Fragestellung kann auch ein Intelligenztest oder ein anderer Leistungstest eingesetzt werden. Unter welchen Bedingungen wurde die Straftat begangen? Wie kann die Entstehung der damaligen Straftat erklärt werden? Wie hat sich die Persönlichkeit des Delinquenten in der Haft verändert? Welche therapeutischen Maßnahmen wurden mit welchem Erfolg durchgeführt? Wie ist der »soziale Empfangsraum« nach der möglichen Entlassung (Arbeitsplatz, Unterkunft, soziale Beziehungen)? 4 Welche Lebensperspektiven (berufliche Möglichkeiten, Partnerschaft, Familie etc.) hat der Delinquent? 4 Wie hoch ist die Wahrscheinlichkeit, dass kritische Umstände auftreten, unter denen bei dieser Person die Gefahr einer erneuten Straftat groß ist? 4 4 4 4 4 Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Diagnostische Verfahren 550 der Scheidungen mit minderjährigen Kindern einigen sich die Eltern darauf. Dass dieser Entscheidung Vermittlungsbemühungen vorausgegangen sein können, wurde bereits oben erwähnt. In strittigen Fällen kann der Antrag eines Elternteils jedoch auch anders lauten. In der Übersicht sind einige Entscheidungsmöglichkeiten in Sorgerechtsverfahren aufgeführt, die oft nicht die Zustimmung eines Elternteils oder die eines über 14jährigen Kindes finden, und die zur Hinzuziehung eines Sachverständigen führen können. Gerade der letzte Punkt, die Umgangsregelung, kann sich im Detail als schwierig und strittig erweisen. Ziel der Regelung des Umgangs des Kindes mit seinen Eltern ist es, eine harmonische Eltern-Kind-Beziehung mit beiden Elterteilen auch nach deren Fragestellungen. Die gemeinsame elterliche Sorge stellt den Regelfall dar; in über 90% Psychologischer Sachverständiger. In familiengerichtlichen Verfahren, die ein Kind betreffen, hat der Familienrichter eine Ermittlungspflicht. Es steht im Ermessen des Familienrichters, ein Sachverständigengutachten einzuholen. Die erforderliche fachliche Kompetenz findet das Gericht nicht nur bei Psychologen, sondern, je nach Fragestellung, auch manchmal bei Ärzten für Kinder- und Jugendpsychiatrie, selten auch bei Kinderärzten oder Diplompädagogen. Wen der Richter im Einzelfall beauftragt, steht ihm frei. In Bayern gibt es öffentlich bestellte und beeidigte Sachverständige, die nach der Zivilprozessordnung anderen Sachverständigen vorgezogen werden sollen. Bei der Auswahl des Sachverständigen spielen sicherlich auch Kriterien wie wissenschaftliche Reputation, Prozesserfahrung, Ansehen bei Rechtsanwälten und Bewährung in Prozessen eine wesentliche Rolle. Formal betrachtet steht der Sachverständige dem Richter in der Rolle des Gehilfen oder Helfers gegenüber. Kindeswohl und Kindeswille. Bei der Suche nach einer Lösung der Sorgerechtsfrage hat das Gericht wie auch ein hinzugezogener Sachverständiger aufgrund gesetzlicher Vorgaben das Kindeswohl, sowie bei über 14jährigen Kindern auch den Willen des Kindes, zu beachten. Das Kindeswohl umfasst das leibliche und das geistig/seelische Wohl des Kindes. Der Begriff ist juristisch nicht definiert; zur Beurteilung des Kindeswohls sind vor allem sozialwissenschaftliche Erkenntnisse anzuwenden. Das Kindeswohl hat in einem Sorgerechtsverfahren eine zentrale Bedeutung. Kommt das Gericht, etwa aufgrund eines psychologischen Gutachtens, zu der Erkenntnis, dass das Kindeswohl gefährdet ist, kann es weit reichende Maßnahmen beschließen. So kann es die Wohnung ausschließlich einem der Elternteile zuweisen, einem Elternteil oder einem Dritten den Zutritt zum Haus bzw. der Wohnung verbieten oder vorschreiben, das Stadtgebiet nicht mehr zu betreten. Es kann sogar einem Elternteil oder auch beiden Eltern das Sorgerecht entziehen. Bei der Sorgerechtsentscheidung ist ferner der Kindeswille zu berücksichtigen. Ein über 14jähriges Kind darf selbst einen Vorschlag zum Sorgerecht machen. Wenn das Kind einem gemeinsamen Elternvorschlag zur Regelung des Sorgerechts explizit nicht zustimmt, trifft das Gericht eine Entscheidung, die sich am Kindeswohl orientiert. Gericht auf eine einvernehmliche Regelung der Betroffenen hinwirken sollte. Bevor es jedoch zu einer gerichtlichen Entscheidung kommt, müssen Schlichtungs- und Vermittlungsversuche unternommen werden. Wird ein psychologischer Sachverständiger vom Gericht hinzugezogenen, gilt dieser Grundsatz auch für ihn. Diagnostik und Intervention (Hinwirken auf eine Einigung, Vermittlung, Beratungsangebot etc.) sind in diesem Fall eng verzahnt. 11.2 · Rechtspsychologische Diagnostik 11 Umgangsregelung Strittige Entscheidungsmöglichkeiten Auswahlkriterien für Sachverständige Kindeswohl im Sorgerechtsverfahren von zentraler Bedeutung Diagnostik und Intervention verzahnt Einvernehmliche Regelung angestrebt 551 11 4 4 4 4 4 4 4 4 4 Ist die Erziehungsfähigkeit durch eine Erkrankung eingeschränkt? Liegt sexueller Missbrauch vor? Ist die Bereitschaft vorhanden, elterliche Verantwortung zu übernehmen? Sind die Betreuungs- und Versorgungsmöglichkeiten ausreichend? Wie stark ist die Bindung des Kindes an einen Elternteil? Was ist der Kindeswille? Wie groß ist die Förderkompetenz des Elternteils? Liegt ein Mangel an erzieherischer Kompetenz vor? Wendet ein Elternteil unzulässige Erziehungsmaßnahmen an? Beispiele für psychologische Fragen in Sorgerechtsentscheidungen: Diagnostisches Vorgehen. Bei den in der Übersicht aufgeführten Fragestellungen handelt es sich um juristische Fragen, aus denen zunächst psychologische Fragen abgeleitet werden. Familienrichter werden in der Regel nur dann einen psychologischen Sachverständigen hinzuziehen, wenn sie psychologische Fragestellungen sehen, die sie nicht selbst beantworten können. Für die Ableitung der psychologischen Fragen sind nicht nur Vorinformationen über den individuellen Fall erforderlich, sondern auch Kenntnisse der einschlägigen Gesetze und der Rechtssprechung. Welche konkreten psychologischen Fragen gestellt werden, ergibt sich oft erst nach einem Aktenstudium oder einem ersten Gespräch mit den Eltern. Ein Richter kann aber auch die Fragestellung von Anfang an auf eine oder mehrere Teilfragen einengen. Trennung zu ermöglichen. Wenn sich ein Elternteil als problematisch erweist, kann das Gericht beispielsweise einen beaufsichtigten Umgang anordnen, oder den Kontakt zum Kind für eine bestimmte Zeit untersagen. Auch der Umgang mit weiteren Personen (z. B. neuer Partner eines Elternteils, Großeltern, Stiefeltern) kann Gegenstand einer Umgangsregelung sein. 4 Alleinige elterliche Sorge (einem Elternteil wird die Sorge übertragen), 4 Aufteilung der Sorge (ein Elternteil z. B. zuständig für die schulische Erziehung etc.), 4 Aufhebung der gemeinsamen Sorge (die gemeinsame Sorge wird in eine alleinige umgewandelt), 4 Entzug der elterlichen Sorge oder Teilen der elterlichen Sorge (eventuell auch Übertragung auf eine dritte Person), 4 Rückführung eines Kindes nach dem Haager Übereinkommen (das Kind lebt bei einem Elternteil in einem anderen Staat), 4 Meinungsverschiedenheiten der Eltern bei gemeinsamem Sorgerecht (Uneinigkeit in Angelegenheiten, die für das Kind wichtig sind, beispielsweise Auswahl der Schule), 4 Regelung des Umgangs des Kindes mit seinen Eltern (das Kind lebt bei einem Elternteil, hat aber auch Umgang mit dem anderen Elternteil oder weiteren Personen). Fragestellung bei und nach Trennung oder Scheidung der Eltern: Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Psychologische Fragen aus Vorinformationen und Rechtssprechung herleiten 552 Welche Art von psychodiagnostischen Verfahren fehlt in Ihrem Arbeitsbereich am meisten? Die Arbeit einer Familienrichterin sollte weniger rückwärtsgewandt/aufklärend als lösungsorientiert sein. Wichtig wären also Tests, mit deren Hilfe zukünftiges Verhalten/ Einstellungen prognostiziert bzw. beeinflusst werden könnten. 6 Sind die dabei erstellten Gutachten von Psychologen für Sie nachvollziehbar und schlüssig? Inwiefern hilft es Ihnen? Nachvollziehbar und schlüssig: Ja. Normalerweise sind die psychologischen Gutachten in einen Anamnese- und Beobachtungs- sowie einen Diagnostikteil gegliedert. Die angewendeten Testverfahren sind bekannt bzw. werden erläutert. Die eingeholten Gutachten helfen mir. Nicht immer bringen sie für mich »neue« Erkenntnisse. Aber es ist einerseits hilfreich, wenn die eigene Meinung »fundiert« bestätigt wird, andererseits lässt sich durch Übersendung bzw. Erläuterung des Gutachtens an die Parteien oft ein Ergebnis besser vermitteln, wodurch die Akzeptanz für eine zutreffende Entscheidung erhöht bzw. im besten Falle eine Entscheidung sogar entbehrlich wird, weil die Eltern auf der Grundlage des Gutachtens eine eigenverantwortliche Lösung treffen. In welcher Art von Fällen nehmen Sie die spezifische Kompetenz von Psychologen in Anspruch? Sorge- und Umgangsrechtsstreitigkeiten zwischen getrennt lebenden Eltern, selten zwischen Eltern und Pflegeeltern. achten in der Rechtssprechung« Wie häufig ziehen Sie Psychologen zu Rate? Ein- bis höchstens zweimal jährlich. > Interview mit Dr. Ulrike Schmidt-Aßmann zum Thema »Psychologische Gut- Diagnostische Verfahren. Auf die psychologischen Fragen sucht der Diagnostiker mit Hilfe von Aktenanalysen, diagnostischem Interview, Verhaltensbeobachtung, Persönlichkeitsfragebogen, Leistungstests oder auch projektiven Verfahren eine Antwort. Die Auswahl der Verfahren richtet sich stark nach der spezifischen Fragestellung. Beispielsweise stellt sich die Frage, ob die Erziehungsfähigkeit durch eine (dem Gutachter bekannte) hirnorganische Erkrankung eingeschränkt ist. In diesem Fall wird der Gutachter mit Hilfe von neuropsychologischen Tests (7 Abschn. 11.1) versuchen, die Schwere der Funktionsbeeinträchtigungen abzuschätzen. In einem anderen Fall ist der Verdacht aufgekommen, dass ein Elternteil das alleinige Sorgerecht anstrebt, um Unterhaltsforderungen stellen zu können oder um den Partner dafür zu »bestrafen«, dass er die Ehe zerstört hat. In diesem Fall ist die Bereitschaft zu hinterfragen, elterliche Verantwortung zu übernehmen. Durch ein diagnostisches Interview kann der Gutachter eruieren, welche konkreten Zukunftspläne bezüglich Kindesbetreuung, Freizeitgestaltung und Umgang mit anstehenden Problemen ein Elternteil hat und wie dieser in der Vergangenheit seine Elternrolle ausgefüllt hat. Zur Beurteilung der Bindung des Kindes an einen Elternteil bietet sich bei Kleinkindern die Verhaltensbeobachtung der Eltern-Kind-Interaktion bei einem Hausbesuch an. Ferner können die Eltern befragt werden. Bei älteren Kindern kommen auch ein diagnostisches Interview mit dem Kind in Frage sowie projektive Tests wie der Familien-Beziehungs-Test (Howells & Lickorish, 2003). 11.2 · Rechtspsychologische Diagnostik 11 Dr. Ulrike SchmidtAßmann, seit 1979 Familienrichterin am Amtsgericht Heidelberg; ausgebildete Familienmediatorin (BAFM); vielfältig in der Aus- und Weiterbildung tätig. Bindung des Kindes an einen Elternteil feststellen Auswahl durch Fragestellung geleitet Breites Spektrum an Verfahren 553 11 Alkoholproblematik häufigster Untersuchungsanlass Statistik der Bundesanstalt für Straßenwesen Untersuchungsanlässe. Für eine medizinisch-psychologische Begutachtung kommen verschiedene Anlässe in Frage. Eine Statistik der Bundesanstalt für Straßenwesen gibt Aufschluss über die Art und die Häufigkeit der einzelnen Untersuchungsanlässe sowie über das Ergebnis der Begutachtung (. Tab. 11.5). Neben einem positiven oder negativen Ergebnis besteht für die Gutachter in den meisten Fällen auch die Möglichkeit, eine Nachschulung vorzuschlagen und gegebenenfalls festzustellen, ob der Proband nachschulungsfähig ist. Über die Hälfte der Begutachtungen fällt wegen einer Alkoholproblematik an. Maßgeblich sind hier § 13, Nr. 2 der FeV (7 Übersicht). Fahrerlaubnis-Verordnung. Die rechtliche Grundlage für eine Begutachtung der Fahreignung stellt die »Verordnung über die Zulassung von Personen zum Straßenverkehr« (kurz Fahrerlaubnis-Verordnung) vom 18. August 1998 (BGBl. I S. 2214) in der Fassung des Inkrafttretens vom 01.07.2004 dar (s. www.verkehrsportal.de/fev/fev. php). Rechtliche Grundlage für Begutachtung Verkehrspsychologische Diagnostik Im Volksmund gibt es das böse Wort »Idiotentest« für die psychodiagnostische Untersuchung, der sich viele Kraftfahrer nach dem Verlust des Führerscheins unterziehen müssen. Dass die Betroffenen überwiegend ablehnend reagieren, ist zumindest nachvollziehbar. Schwer zu verstehen ist hingegen, dass sich verkehrsunauffällige Kraftfahrer und sogar Automobilclubs mit denen solidarisieren, die stark alkoholisiert am Steuer gesessen haben oder etwa durch aggressives Fahrverhalten Leben und Gesundheit ihrer Mitmenschen gefährdet haben. 11.3 Haben die psychologischen Gutachten erfahrungsgemäß eher einen geringen oder großen Einfluss bei der Entscheidungsfindung? Wenn schon ein Gutachten eingeholt wird, hat es auch eher einen erheblichen Einfluss auf die Entscheidungsfindung. < Wie ist es um Rückmeldungen über die Treffsicherheit der Gutachterempfehlungen in Ihrem Arbeitsbereich bestellt? Die Frage scheint mir nicht richtig formuliert. Nicht der Gutachter hat zu entscheiden, also »treffsicher« zu sein, sondern ich als Richterin. Dafür benötige ich die Hilfe des Gutachters. Habe ich Zweifel am Gutachten, werde ich mir das Gutachten mündlich erläutern lassen. Natürlich gibt es unterschiedliche Einschätzungen. Inwieweit befürchten Sie, dass die Klienten bei familienrechtlichen Gutachtenfällen durch persönliche Verstellung das Ergebnis des Gutachtens in Ihrem Sinne beeinflussen können? Selbstverständlich wollen die Klienten sich gegenüber dem/der GutachterIn besonders gut darstellen. Ich sehe keine Gefahr darin, dass dadurch Ergebnis und Qualität des Gutachtens beeinflusst werden. Es ist ein bekanntes Phänomen. Wichtig ist die Art der Fragestellung an den Gutachter. Je weniger es um eine klassische Diagnostik mit Beschreibung eines »Ist-Zustandes«, je mehr es um lösungsorientierte Hilfestellung geht, umso weniger groß ist die Beeinflussung durch persönliche Verstellung. Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern „Idiotentest“ emotional besetzt 554 1.678 Sonstige Anlässe 100% 1.5% 4.1% 1.0% 1.4% 1.4% 1.7% 9.1% 10.1% 18.4% 39.1% 2.5% 9.6% Anteil 45% – 91% 43% 48% 47% 43% 38% 49% 40% 43% 45% 44% 15% – – 8% 6% 17% 6% 16% 9% 14% 17% 17% 26% Schulung 40% – 9% 49% 46% 36% 51% 46% 42% 46% 39% 38% 30% negativ Ergebnis der Begutachtung positiv 6 [Die Fahrerlaubnisbehörde ordnet an, dass] 1. ein ärztliches Gutachten (§ 11, Abs. 2 Satz 3) beizubringen ist, wenn Tatsachen die Annahme von Alkoholabhängigkeit begründen oder die Fahrerlaubnis wegen Alkoholabhängigkeit entzogen war oder sonst zu klären ist, ob Abhängigkeit nicht mehr besteht, oder 2. ein medizinisch-psychologisches Gutachten beizubringen ist, wenn a) nach dem ärztlichen Gutachten zwar keine Alkoholabhängigkeit, jedoch Anzeichen für Alkoholmissbrauch vorliegen oder sonst Tatsachen die Annahme von Alkoholmissbrauch begründen, b) wiederholt Zuwiderhandlungen im Straßenverkehr unter Alkoholeinfluss begangen wurden, FeV § 13 Klärung von Eignungszweifeln bei Alkoholproblematik Anmerkungen. Quelle: Bundesanstalt für Straßenwesen, Oktober 2004 (www.bast.de/htdocs/ aktuelles/presse/2004/mpu_2003.pdf ). Nur Untersuchungsanlässe mit mind. 1.000 Fällen pro Jahr aufgeführt. 110.776 4.571 FeV §10: Abweichung vom Mindestalter Gesamt 1.152 1.516 Verkehrsauffälligkeit + Medikamente/Drogen Sonstige Mehrfachfragestellungen 1.913 Alkohol + Verkehrs- oder strafrechtl. Auffälligkeit 1.585 10.076 Betäubungsmittel- & Medikamentenaufällige Verkehrsauffälligkeit + strafrechtl. Auffälligkeit 11.194 Alkoholauffälligkeit, wiederholt Alkohol + Medikamente/Drogen 43.330 20.408 Alkoholauffälligkeit, erstmalig 2.754 10.599 Verkehrsauffälligkeiten Sonstige strafrechtl. Auffälligkeiten Anzahl Untersuchungsanlass . Tabelle 11.5. Begutachtungen bei den Medizinisch-Psychologischen Untersuchungsstellen 2003 113 · Verkehrspsychologische Diagnostik 555 11 11 Paradigmenwechsel: Modifizierbares Verhalten statt Dispositionen relevant Verhaltensgewohnheiten, Persönlichkeit oder Leistungsfähigkeit entscheidend Spezifizierung der Anforderungen Begutachtungs-Leitlinien. Für die Begutachtung stellen heute »Begutachtungs-Leitlinien zur Kraftfahrereignung« (Lewrenz, 2000) ein wichtiges Hilfsmittel dar (auch unter www.fahrerlaubnisrecht.de/Begutachtungsleitlinien/BGLL%20Inhaltsverzeichnis.htm). Die Leitlinien wurden von dem so genannten Paritätischen Ausschuss unter befasst sich mit unterschiedlichen Aspekten der Fahreignung. Je nach Begutachtungsanlass und Fragestellung liegt der Schwerpunkt etwa auf Verhaltensgewohnheiten im Umgang mit Alkohol, der Persönlichkeit des Fahrers oder auf bestimmten Merkmalen der Leistungsfähigkeit. Im Fall der Fahrerlaubnis zur Fahrgastbeförderung oder bei Zweifeln an der psychischen Leistungsfähigkeit stehen eindeutig kognitive Leistungsmerkmale im Vordergrund: Optische Orientierung, Konzentrationsfähigkeit, Aufmerksamkeit, Reaktionsfähigkeit und Belastbarkeit. Bei Straftaten, die im Zusammenhang mit der Kraftfahreignung oder der Teilnahme am Straßenverkehr stehen, können das Aggressionspotential, die Neigung zu rücksichtsloser Durchsetzung eigener Anliegen oder die Bereitschaft zu ausgeprägt impulsivem Verhalten begutachtungsrelevant sein. Damit kommt wieder das diagnostische Interview als Methode in Frage, eventuell auch Fragebogen zur Erfassung von Persönlichkeitsmerkmalen (z. B. Aggressivität), die jedoch verfälschbar sind. In den letzten Jahrzehnten fand in der verkehrspsychologischen Eignungsdiagnostik ein Paradigmenwechsel statt. Früher spielte die Annahme stabiler Dispositionen (Persönlichkeitsmerkmale, Leistungsdefizite) eine wichtige Rolle, heute hat sich die Ansicht durchgesetzt, dass das Verhalten wichtig ist, und dass Verhalten auch modifizierbar ist. Dem wird mit dem Konzept der Nachschulung Rechnung getragen (Wittkowski & Seitz, 2004). Psychologische Fragen und diagnostisches Vorgehen. Die Fahreignungsdiagnostik Viele andere Fragestellungen ergeben sich aus der Anwendung von § 11 der FeV, der sich auf die Eignung der Führerscheininhaber, speziell auf die »notwendigen körperlichen und geistigen Anforderungen« bezieht. Eine Begutachtung ist unter anderem vorgesehen »bei erheblichen oder wiederholten Verstößen gegen verkehrsrechtliche Vorschriften oder bei Straftaten, die im Zusammenhang mit dem Straßenverkehr oder im Zusammenhang mit der Kraftfahrereignung stehen oder bei denen Anhaltspunkte für ein hohes Aggressionspotential bestehen« (§ 11, Abs. 3;4). Wer eine Fahrerlaubnis zur Fahrgastbeförderung anstrebt, also beispielsweise als Taxifahrer oder als Busfahrer tätig sein will, braucht dazu eine spezielle Fahrerlaubnis, deren Erteilung in § 48 geregelt ist. »Die Fahrerlaubnis zur Fahrgastbeförderung ist zu erteilen, wenn der Bewerber… [u. a.] seine geistige und körperliche Eignung gemäß § 11, Abs. 9 in Verbindung mit Anlage 5 nachweist.« In Anlage 5 der Fahrerlaubnisverordnung werden folgende Anforderungen spezifiziert: Belastbarkeit, Orientierungsleistung, Konzentrationsleistung, Aufmerksamkeitsleistung, Reaktionsfähigkeit. c) ein Fahrzeug im Straßenverkehr bei einer Blutalkoholkonzentration von 1,6 Promille oder einer Atemalkoholkonzentration von 0,8 mg/l oder mehr geführt wurde, d) die Fahrerlaubnis aus einem der unter Buchstabe a bis c genannten Gründe entzogen war oder e) sonst zu klären ist, ob Alkoholmissbrauch nicht mehr besteht. Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern »Geistige Anforderungen« erfüllt? 556 Beispiel Alkoholproblematik. Am Beispiel der Alkoholproblematik sollen die Begutachtungsgrundsätze in knapper Form erläutert werden. In den Leitlinien wird zwischen Alkoholmissbrauch und Alkoholabhängigkeit unterschieden. Die Diagnostik einer Alkoholabhängigkeit erfolgt nach den üblichen ICD-10-Kriterien (7 Kap. 10). Menschen, die alkoholabhängig sind, dürfen kein Kraftfahrzeug führen. Für die Feststellung, dass keine Abhängigkeit mehr vorliegt, wird der Nachweis verlangt, dass eine dauerhafte Abstinenz besteht. In der Regel sind eine erfolgreiche Entwöhnungsbehandlung und eine einjährige Abstinenz nach der Entgiftungs- und Entwöhnungszeit nachzuweisen. Außerdem dürfen keine sonstigen eignungsrelevanten Mängel vorliegen. Auch Alkoholmissbrauch (nach ICD-10 »schädlicher Gebrauch«) ist unvereinbar mit dem Führen eines Kraftfahrzeugs. Missbrauch liegt vor, wenn der Proband, ohne bereits alkoholabhängig zu sein, vor der Teilnahme am Straßenverkehr nicht zuverlässig auf Alkoholkonsum verzichtet, der die Fahrsicherheit beeinträchtigt. Ein sicherer diagnostischer Hinweis ist, wenn der Proband wiederholt ein Fahrzeug unter unzulässig hoher Alkoholwirkung geführt hat. Als starker Hinweis auf Alkoholmissbrauch gilt auch, wenn er nur einmal mit hoher Alkoholkonzentration gefahren ist, ohne dass dabei weitere Anzeichen einer Alkoholwirkung (Ausfallserscheinungen) erkennbar waren. In diesem Fall ist eine extreme Gift-/Trinkfestigkeit anzunehmen. Dass ein Alkoholmissbrauch abgestellt wurde, kann unter anderem anhand folgender Kriterien beurteilt werden: 4 Das Trinkverhalten wurde ausreichend geändert. 4 Die Änderung im Umgang mit Alkohol ist stabil und motivational gefestigt. Selbstverständlich ersetzen die Leitlinien nicht eine individuelle Begutachtung und Begründung des Gutachtens. Sie zeigen Beurteilungsgrundsätze und Begründungen auf und dienen als Entscheidungshilfe. der Leitung des Bundesministeriums für Verkehr, Bau- und Wohnungswesen erstellt. Sie führen die Begutachtungs-Leitlinien »Krankheit und Kraftverkehr« mit dem »Psychologischen Gutachten Kraftfahreignung« zusammen. Aktuelle Stellungnahmen der relevanten medizinischen und psychologischen Fachgesellschaften und gutachtliche Erfahrungen fanden Berücksichtigung. So verbinden die Leitlinien Erfahrungen aus der Praxis der Begutachtung mit einschlägigen wissenschaftlichen Erkenntnissen. Die Leitlinien gehen in einem allgemeinen Teil auf Themen von grundsätzlicher Bedeutung (z. B. Anforderungen an die psychische Leistungsfähigkeit) und auf organisatorische und rechtliche Bedingungen der Begutachtung (z. B. rechtliche Stellung des Gutachters) ein. Im speziellen Teil werden einzelne eignungsausschließende und -einschränkende körperlich-geistige (psychische) und charakterliche Mängel beim Fahrerlaubnisbewerber und Fahrerlaubnisinhaber behandelt. Einige sind rein medizinischer Art (z. B. verschiedene Herz- und Gefäßkrankheiten), andere fallen in den Kompetenzbereich von Medizinern und Psychologen (z. B. psychische Störungen, Alkohol) und ein kleiner Teil (z. B. intellektuelle Leistungseinschränkungen, Thema Fahrgastbeförderung) wird am ehesten von einem Psychologen begutachtet werden. Für die Begutachtungspraxis erfüllen die Leitlinien vor allem zwei wichtige Funktionen: 4 Zusammenstellung aller wichtigen eignungsausschließenden und -einschränkenden Merkmale; 4 Argumentationshilfe: Der Gutachter kann sich im Einzelfall auf die BegutachtungsLeitlinien beziehen und muss nicht jede gutachterliche Schlussfolgerung eingehend erläutern. 113 · Verkehrspsychologische Diagnostik 11 Alkoholmissbrauch abgestellt? Diagnostische Kriterien für Alkoholmissbrauch Alkoholabhängigkeit und Alkoholmissbrauch schließen Führen eines Kraftfahrzeugs aus Beurteilungsgrundsätze und Entscheidungshilfe Spezieller Teil: konkrete eignungsrelevante Merkmale Allgemeiner Teil Praxis und Wissenschaft vereint 557 11 Inhaltsanalytische Auswertung von Gutachten Eigenes Fehlverhalten erkennen und ändern Fakten von Beschönigungen unterscheiden Leistungstests Akteninformationen Diagnostisches Interview von zentraler Bedeutung Qualität der Gutachten. Für die Erstellung von Gutachten zur Kraftfahrereignung gelten die gleichen Anforderungen wie für andere Gutachten (7 Abschn. 5.3). Wittkowski und Seitz (2004) haben insgesamt 122 Gutachten aus 39 medizinisch-psychologischen Begutachtungsstellen analysiert. Anlass war immer das Fahren unter Alkoholeinfluss. Die Beurteiler überprüften jedes Gutachten anhand einer umfangreichen Merkmalsliste. Mit diesem inhaltsanalytischen Vorgehen konnten sie zahlreiche Stärken und Schwächen der Gutachten aufdecken. Die Ergebnisse sind zu umfangreich, um Was sollte der Betroffene sagen, um ein positives Gutachten zu bekommen? Unter dieser Überschrift gibt ein Rechtsanwalt folgenden Rat: »Ganz allgemein kann aber gesagt werden, dass von dem Betroffenen eine kritische Auseinandersetzung mit dem eigenen Verhalten verlangt wird. Es wird verlangt, dass der Betroffene sein früheres Fehlverhalten erkannt hat und sich damit intensiv auseinandergesetzt hat, um dann zu einer in Hinsicht auf die Kraftfahreignung »besseren« Lebensweise zu kommen…«. Wer im Rahmen einer MPU angibt, er habe einfach Pech gehabt, weil andere ja auch ständig gegen Verkehrsvorschriften verstoßen, ohne dabei erwischt zu werden, hat keine Aussicht auf ein positives Gutachten. Auch mit dem Hinweis, man habe ja schließlich z. B. zu schnell fahren müssen, weil der Chef einen ständig unter Druck setze, ist das negative Gutachten in der Praxis schon vorprogrammiert. Bei einer solchen Haltung wird nämlich gerade nicht deutlich, dass man sein eigenes Fehlverhalten als solches erkannt hat und aufgrund einer Aufarbeitung des eigenen Fehlverhaltens eine Verhaltensänderung herbeigeführt hat.« (www.verkehrsportal.de/verkehrsrecht/mpu_05.php) Problem der Verfälschung. Die Klienten werden bestrebt sein, einen »guten« Eindruck zu hinterlassen, um den Führerschein (wieder) zu erlangen. Das diagnostische Interview hat bei vielen Fragestellungen einen hohen Stellenwert. Die Fragen müssen daher so ausgewählt werden, dass diagnostisch relevante Fakten von beschönigenden Darstellungen unterschieden werden können. Für jedes dieser Kriterien finden sich in den Leitlinien Hinweise zur Operationalisierung. So ist eine stabile und motivational gefestigte Änderung des Trinkverhaltens unter anderem daran zu erkennen, dass der Änderungsprozess nachvollziehbar aufgezeigt werden kann und die mit der Verhaltensänderung erzielten Wirkungen positiv erlebt werden. Die Beurteilungsgesichtspunkte lassen bereits erkennen, welche diagnostischen Verfahren bei Annahme einer Alkoholproblematik nahe liegen. Zur Feststellung von Alkoholmissbrauch oder -abhängigkeit kommt dem diagnostischen Interview eine zentrale Bedeutung zu. Nur dieses Verfahren kann die nötigen Informationen über Trinkund Verhaltensgewohnheiten sowie über Problembewusstsein, eingeleitete Therapiemaßnahmen etc. liefern. Der Gutachter kann schriftliche Belege über Therapiemaßnahmen verlangen. Dem Interview geht eine Auswertung der Akten voraus. Wichtige Informationen sind die Höhe des Blutalkoholspiegels, das Verhalten unter Alkoholeinfluss (unauffälliges Verhalten spricht für eine hohe Alkoholtoleranz), eventuelle Vorgutachten, medizinische Befunde zu alkoholbedingten Schädigungen, Laborwerte etc. Zur Überprüfung von Leistungs- oder Funktionsbeeinträchtigungen nach einer überwundenen Alkoholabhängigkeit finden Leistungstests Verwendung. ren Alkoholmissbrauchs fehlen. 4 Verkehrsrelevante Leistungs- oder Funktionsbeeinträchtigungen als Folgen frühe- Kapitel 11 · Diagnostik und Intervention in weiteren Anwendungsfeldern Verhaltensnahe Operationalisierung 558 Welche forderdringlichen Entwicklungsnotwendigkeiten sehen Sie in der verkehrspsychologischen Diagnostik? Es werden Testverfahren benötigt, die gerade im unteren Skalenbereich besonders gut differenzieren, da für das Führen eines Kraftfahrzeuges, eines Flugzeuges, eines Triebfahrzeuges oder auch eines Motorbootes, Mindestvoraussetzungen erfüllt sein müssen, 6 in der Verkehrspsychologie« Für welche Aufgabenbereiche innerhalb der Verkehrspsychologie sehen Sie einen besonderen Nutzen der psychologischen Diagnostik? Bei der medizinisch-psychologischen Begutachtung spielen diagnostische Verfahren aus verschiedenen Fachgebieten der Psychologie, z. B. Explorationstechniken, Erfassung psychofunktionaler Leistungsvoraussetzungen (v. a. Konzentration, Orientierung, Belastbarkeit, Reaktion, Aufmerksamkeit) und Persönlichkeitsmerkmale (v. a. Eigenkritikfähigkeit und Selbstkontrolle) sowie intellektuelle Leistungsvoraussetzungen eine besondere Rolle. Hinzu kommen verschiedene Befunde aus der Medizin (z. B. Laborparameter, klinische Befunde), sozialanamnestische und soziodemografische Daten. Einen besonderen Nutzen sehe ich im Einsatz leistungsdiagnostischer Testverfahren bei der Fahreignungsdiagnostik. Hier werden modernste Verfahren eingesetzt, die sich mehr als in der Vergangenheit am Grundlagenwissen der Psychologie orientieren und nach neuen Technologien – z. B. nach dem Konstituentenansatz – konstruiert und theoriegeleitet validiert sind. Ihre Relevanz für die Beantwortung von diagnostischen Fragestellungen an die Fahreignungsbegutachtung, z. B. nach dem Vorliegen alkohol-, drogen-, oder altersbedingter Leistungsbeeinträchtigungen, ist durch empirische Untersuchungen belegt. Die verwendeten Verfahren sind kein Ersatz für Fahrverhaltensbeobachtungen, sondern erlauben es, Leistungsbesonderheiten heraus zu präparieren und Hinweise für zielgerichtete Intervention sowie therapeutische Maßnahmen abzuleiten, z. B. bei der Rehabilitation von Alkoholabhängigen und der Bewertung der Abstinenzbehauptung. Die diagnostische Besonderheit dieses Begutachtungsprozesses besteht darin, dass die im Einzelnen erhobenen Befunde aus Psychologie und Medizin widerspruchsfrei im Sinne der zu beantwortenden - vom Gericht oder von der Behörde veranlassten - Fragestellung zu integrieren und interpretieren sind. > Interview mit Dr. Wolfgang Schubert zum Thema »Psychologische Diagnostik Insgesamt unterstreicht diese Untersuchung, dass die abgelieferten Gutachten in vielen Fällen (noch) nicht den Standards entsprechen. hier wiedergegeben zu werden. Exemplarisch sind im Folgenden einige Bewertungsaspekte aufgeführt (in Klammern der Anteil von Gutachten mit Mängeln): 4 Gutachtenauftrag wörtlich wiedergegeben (81%) 4 Quellen zur Feststellung des bisherigen Sachverhalts benannt (23%) 4 Fragestellungen in konkrete Untersuchungsvariablen überführt (39%) 4 Vollständige Angaben zur Art der Informationsquellen wie Akten, Testverfahren etc. (25%) 4 Im Ergebnisbericht Trennung von Informationen und deren Interpretation (2%) 4 Ergebnisse für den Leser klar und eindeutig formuliert (61%) 4 Integrative Befunde (sofern vorhanden) durch Mehrfachbelege gestützt (52%) 4 Fragestellung klar und unmissverständlich beantwortet (97%) 4 Vollständiges Literaturverzeichnis am Ende des Gutachtens (80%) 113 · Verkehrspsychologische Diagnostik 11 Dr. rer. nat. Wolfgang Schubert, Dipl.-Psych., Leiter des Fachbereiches Verkehrspsychologie der DEKRA Automobil GmbH, 1. Vorsitzender des Vorstandes der Deutschen Gesellschaft für Verkehrspsychologie e. V. Gutachten teilweise unzulänglich 559 Abels, D. (1974). Konzentrations-Verlaufs-Test KVT. Göttingen: Hogrefe. Allehoff, W. (1984). Berufswahl und berufliche Interessen. Göttingen: Hogrefe. Allen, B. P. & Potkay, Ch. R. (1981). On the arbitrary distinction between states and traits. Journal of Personality and Social Psychology, 41, 916-928. Allport, G. W. (1953). The trend in motivational theory. American Journal of Orthopsychiatry, 32, 107-119. Amelang, M. (1978). Hochschulzugang. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (S. 1013-1022). Düsseldorf: Schwann. Amelang, M. (1985). Historische Bedingtheit der empirisch orientierten Persönlichkeitsforschung. In T. Herrmann & E. Lantermann (Hrsg.), Persönlichkeitspsychologie. Ein Handbuch in Schlüsselbegriffen (S. 9-19). München: Urban & Schwarzenberg. Amelang, M. (1987). Fragebogen-Tests und experimentalpsychologische Variablen als Korrelate der Persönlichkeitsdimensionen Extraversion/Introversion (E/I) und Neurotizismus (N). In M. Amelang (Hrsg.), Bericht über den 35. Kongress der Deutschen Gesellschaft für Psychologie in Heidelberg 1986 (Bd. 2, S. 403-416). Göttingen: Hogrefe. Amelang, M. (1994). Über die Prozesse bei Selbsteinschätzungen. Eine Reaktionszeitanalyse von State- und Trait-Urteilen. In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 241-257). Göttingen: Hogrefe. Amelang, M. (1999). Zur Lage der Psychologie: Einzelaspekte von Ausbildung und Beruf unter besonderer Berücksichtigung der ökonomischen Implikationen psychologischen Handelns. Psychologische Rundschau, 50, 2-13. Amelang, M. & Bartussek, D. (1990). Differentielle Psychologie und Persönlichkeitsforschung (3. Aufl., 5. Aufl. 2001). Stuttgart: Kohlhammer. Amelang, M. & Borkenau, P. (1981a). Vorhersagen für einige Personen in vielen Merkmalen. Oder: Konsistenz über Variable und Kontextbedingungen als Eigenschaft. In W. Michaelis (Hrsg.), Bericht über den 32. Kongreß der Deutschen Gesellschaft für Psychologie in Zürich 1980 (S. 495-498). Göttingen: Hogrefe. Amelang, M. & Borkenau, P. (1981b). Untersuchungen zur Validität von Kontroll-Skalen für Soziale Erwünschtheit und Akquieszenz. Diagnostica, 27, 295-312. Amelang, M. & Borkenau, P. (1982). Über die faktorielle Struktur und externe Validität einiger Fragebogen-Skalen zur Erfassung von Dimensionen der Extraversion und emotionalen Labilität. Zeitschrift für Differentielle und Diagnostische Psychologie, 3, 119-146. Amelang, M. & Borkenau, P. (1986). Zur faktorenanalytischen Kontrolle sozialer Erwünschtheitstendenzen. Eine Untersuchung anhand des Freiburger Persönlichkeitsinventars. Zeitschrift für Differentielle und Diagnostische Psychologie, 7, 17-28. Amelang, M., Gold, A. & Külbel, E. (1984). Über einige Erfahrungen mit einer deutschsprachigen Skala zur Erfassung des zwischenmenschlichen Vertrauens (Interpersonal Trust). Diagnostica, 30, 198-215. Amelang, M., Herboth, G. & Oefner, J. (1991). A prototype strategy for construction of a creativity scale. European Journal of Personality, 5, 261-285. Amelang, M. & Hoppensack, Th. (1977). Persönlichkeitsstruktur und Hochschulbesuch I. Merkmalsveränderungen während des Studiums bei Studierenden verschiedener Fachrichtungen. Psychologische Beiträge, 19, 161-188. Amelang, M. & Pielke, M. (1992). Effects of erotica upon men’s and women’s loving and liking responses for their partners. Psychological Reports, 71, 1235-1245. Amelang, M., Schäfer, A. & Yousfi, S. (2002). Comparing verbal and nonverbal personality scales: Psychometric properties, the influence of social desirability, and the effects of fake good instruction. Psychologische Beiträge, 44, 24-41. Amelang, M., Schwarz, G. & Wegemund, A. (1989). Soziale Intelligenz als Trait-Konstrukt und TestKonzept bei der Analyse von Verhaltensauffälligkeiten. Zeitschrift für Differentielle und Diagnostische Psychologie, 10, 37-57. Literaturverzeichnis 567 568 Literaturverzeichnis Amelang, M. & Vagt, G. (1970). Warum sind die Schulnoten von Mädchen durch Leistungstests besser vorherzusagen als diejenigen von Jungen? Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 2, 210-220. American Psychiatric Association. (1987). Diagnostic and statistical manual of mental disorders DSM-III-R. Washington: American Psychiatric Association. American Psychiatric Association. (1994). Diagnostic and statistical manual of mental disorders DSM-IV. Washington: American Psychiatric Association. Amthauer, R. (1953). Intelligenz-Struktur-Test IST (2. Aufl. 1955). Göttingen: Hogrefe. Amthauer, R. (1957). Über die Prüfung der Zuverlässigkeit von Tests – erörtert am IST. Psychologische Rundschau, 8, 165-171. Amthauer, R. (1972). Test zur Untersuchung des praktisch-technischen Verständnisses PTV. Göttingen: Hogrefe. Amthauer, R. (1973). IST 70 (4. Aufl., 1. Aufl. 1970). Göttingen: Hogrefe. Amthauer, R., Brocke, B., Liepmann, D. & Beauducel, A. (2001). Intelligenz-Struktur-Test 2000 (IST 2000). Göttingen: Hogrefe. Andersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38, 123-140. Andersen, E. B. (1980). Discrete statistical models with social science applications. Amsterdam: North Holland. Andersen, E. B. (1995). Polytomous Rasch models and their estimation. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 271-291). New York: Springer. Anderson, N. R. & West, M. A. (1994). The Team Climate Inventory. Windsor: Berks ASE. Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561-573. Angleitner, A. (1993). Zur Konvergenz von verbalen und nicht-verbalen Erfassungstechniken von Persönlichkeitsmerkmalen. Bielefeld: Unveröffentlichter Praktikumsbericht. Angleitner, A. (1997). Minnesota Multiphasic Personality Inventory (MMPI). Rezension. Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 4-10. Antonovsky, A. (1979). Health, stress, and coping. San Francisco: Jossey-Bass. Arbeitskreis OPD. (1996). Operationalisierte psychoanalytische Diagnostik. Bern: Huber. Arentewicz, G. & Schmidt, G. (1986). Sexuell gestörte Beziehungen. Konzept und Technik der Paartherapie. Berlin, Heidelberg, New York: Springer. Armstrong, M. A. S. (1954). Children’s responses to animal and human figures in thematic pictures. Journal of Consulting Psychology, 18, 76-70. Atkinson, J. W. (1978). Motivational determinants of intellective performance and cumulative achievement. In J. W. Atkinson & J. O. Raynor (Eds.), Personality, motivation, and achievement (pp. 221-212). Washington: Hemisphere. Barrick, M. R., Mount, M. K. & Judge, T. A. (2001). Personality and performance at the beginning of the new millenium: What do we know and where do we go next? International Journal of Selection and Assessment, 9, 9-30. Bartenwerfer, H. (1964). Allgemeine Leistungstests. In R. Heiss (Hrsg.), Handbuch der Psychologie, Psychologische Diagnostik (S. 385-410). Göttingen: Hogrefe. Bartenwerfer, H. (1983). Allgemeine Leistungsdiagnostik. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 2: Intelligenz- und Leistungsdiagnostik (S. 482-521). Göttingen: Hogrefe. Barthel, D. & Schuler, H. (1989). Nutzenkalkulationen eignungsdiagnostischer Verfahren am Beispiel eines biographischen Fragebogens. Zeitschrift für Arbeits- und Organisationspsychologie, 33, 73-83. Bartlett, F. C. (1932). Remembering. A study in experimental and social psychology. Cambridge: Cambridge University Press. Bartling, G., Fiegenbaum, W. & Krause, R. (1980). Reizüberflutung. Theorie und Praxis. Stuttgart: Kohlhammer. Bartling, G., Echelmeyer, L., Engberding, M. & Krause, R. (2005). Problemanalyse im therapeutischen Prozess (5. Aufl.). Stuttgart: Kohlhammer. Bartussek, D. (1970). Eine Methode zur Bestimmung von Moderatoreffekten. Diagnostica, 16, 57-76. Bartussek, D. (1982). Modelle der Testfairness und Selektionsfairness. Trierer Psychologische Berichte, 9, Heft 2. Bartussek, D. (1988). Beurteilung der deutschen Form des 16 PF-Tests. Diagnostica, 34, 367-379. Bartussek, D. & Amelang, M. (1992). Verschränkungen mit der Differentiellen Psychologie. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. veränderte Aufl., S. 50-64). Weinheim: Psychologie Verlags Union Bartussek, D., Raatz, U., Stapf, K. H. & Schneider, B. (1986). Die Evaluation des Tests für Medizinische Studiengänge, 3. Zwischenbericht. Bonn: Ständige Konferenz der Kultusminister der Länder. Basler, H.-D. & Kröner-Herwig, B. (Hrsg.), (1995). Psychologische Therapie bei Kopf- und Rückenschmerzen. Ein Schmerzbewältigungsprogramm zur Gruppen- und Einzeltherapie. München: Quintessenz. Bastine, R. (Hrsg.). (1992a). Klinische Psychologie (Bd. 2). Stuttgart: Kohlhammer. Bastine, R. (1992b). Klinische Psychodiagnostik. In R. Bastine (Hrsg.), Klinische Psychologie (Bd. 2, S. 1-55). Stuttgart: Kohlhammer. Bastine, R. (1992c). Psychotherapie. In R. Bastine (Hrsg.), Klinische Psychologie (Bd. 2, S. 179-308). Stuttgart: Kohlhammer. Bastine, R. (1998). Klinische Psychologie (Bd. 1, 3. Aufl.). Stuttgart: Kohlhammer. Bastine, R. & Tuschen, B. (1996). Klinisch-psychologische Diagnostik. In A. Ehlers & K. Hahlweg (Hrsg.), Psychologische und biologische Grundlagen der Klinischen Psychologie. Enzyklopädie der Psychologie: Themengebiet D, Serie 2, Klinische Psychologie, Bd. 1 (S. 195-268). Göttingen: Hogrefe. Baumann, U. (1981). Indikationen zur Psychotherapie. München: Urban & Schwarzenberg. Baumann, U. (1990). Klinisch-Psychologische Diagnostik: Gibt es Alternativen zur klassischen Diagnostik? Zeitschrift für Klinische Psychologie, 19, 179-182. Baumann, U., Fähndrich, E., Stieglietz, R. D. & Woggon, B. (Hrsg.). (1990). Veränderungsmessung in Psychiatrie und Klinischer Psychologie. München: Profil-Verlag. Baumgärtel, F. (1979). Hamburger Erziehungsverhaltensliste für Mütter. Göttingen: Hogrefe. Bäumler, G. (1974b). Lern- und Gedächtnistest LGT 3. Göttingen: Hogrefe. Bäumler, G. (1985). Farb-Wort-Interferenztest FWIT. Göttingen: Hogrefe. Beauducel, A., Brocke, B. & Liepmann, D. (2001). Perspectives on fluid and crystallized intelligence: facets for verbal, numerical, and figural intelligence. Personality and Individual Differences, 30, 977-994. Beck, A. T. & Emery, G. (1981). Kognitive Verhaltenstherapie bei Angst und Phobien. Tübingen: Deutsche Gesellschaft für Verhaltenstherapie. Beck, A. T., Freeman, A. & Associates (1995). Kognitive Therapie der Persönlichkeitsstörungen (3. Aufl.). Weinheim: Psychologie Verlags Union. Beck, A. T., Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar (BDI). (2., überarb. Aufl.). Göttingen: Hogrefe. Beck, A. T., Rush, A. J., Shaw, B. F. & Emery, G. (1996). Kognitive Therapie der Depression (5. Aufl., 1. Aufl. 1992). Weinheim: Psychologie Verlags Union. Becker, P. (1982). Psychologie der seelischen Gesundheit. Göttingen: Hogrefe. Becker, P. (1987). Interaktions-Angstfragebogen IAF (2. Aufl., 1. Aufl. 1982). Weinheim: Beltz. Becker, P. (1988). Ein Strukturmodell der emotionalen Befindlichkeit. Psychologische Beiträge, 30, 514-536. Becker, P. (1996). Der Gießen-Test (GT) und ein Sechs-Faktoren-Modell der Persönlichkeit. Trierer Psychologische Berichte, 23, Heft 3. Becker, P. (1999). Beyond the Big Five. Personality and Individual Differences, 26, 511-530. Becker, P. (2003). Trierer Integriertes Persönlichkeitsinventar TIPI. Göttingen: Hogrefe Becker, P., Bös, K. & Woll, A. (1994). Ein Anforderungs-Ressourcen-Modell der körperlichen Gesundheit: Pfadanalytische Überprüfungen mit latenten Variablen. Zeitschrift für Gesundheitspsychologie, 2, 25-48. Becker, P. & Hänsgen, K. D. (1994). Persönlichkeitsvergleich von Ost- und Westdeutschen in Indikatoren der seelischen Gesundheit und der Verhaltenskontrolle. Report Psychologie, 19, 2841. Becker, P., Krieger, W., Kamm, U. & Schoerer, S. (1989). Alltagskorrelate und -verläufe der emotionalen Befindlichkeit: Literaturüberblick sowie zeitreihenanalytische Studien an fünf Paaren über 100 Zeitpunkte. Trierer Psychologische Berichte, 16, Heft 3. Becker, P., Schaller, S. & Schmidtke, A. (1978). Coloured Progressive Matrices CPM. (Deutsche Version). Weinheim: Beltz. Literaturverzeichnis 569 570 Literaturverzeichnis Beckmann, D., Brähler, E. & Richter, H.-E. (1990). Der Gießen-Test (4. Aufl.). Bern: Huber. Beckmann, D., Brähler, E. & Richter, H.-E. (1991). Der Gießen-Test GT. Ein Test für die Individual- und Gruppendiagnostik. Handbuch (4. Aufl., 1. Aufl. 1972). Bern: Huber. Bellak, L. & Bellak S. S. (1965). Children’s apperception test. (Human figures). New York: CPS. Belschner, F. (1970). Der Foto-Handtest (FHT). Über die Entwicklung eines projektiven Verfahrens zur Erfassung aggressiven Verhaltens. Diagnostica, 16, 123-138. Belschner, F., Lischke, G. & Selg, H. (1971). Foto-Hand-Test (FHT) zur Erfassung der Aggressivität. München: Alber. Bem, D. J. & Allen, A. (1974). On predicting some of the people some of the time: The search for cross-situational consistencies in behavior. Psychological Review, 81, 506-520. Bem, D. J. & Funder, D. C. (1978). Predicting more of the people more of the time: Assessing the personality of situations. Psychological Review, 85, 485-501. Bene, E. & Anthony, J. (1957). Family Relations Test. London: National Foundation for Educational Research. Benjamin, L. S. (1974). Structural Analysis of Social Behavior. Psychological Review, 81, 392-425. Benton-Sivan, A. B. & Spreen, O. (1996). Der Benton Test (7., vollst. überarb. Aufl.). Göttingen: Hogrefe. Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. In C. W. Harris (Ed.), Problems in measuring change (pp. 3-20). Madison: University of Wisconsin Press. Bergeman, N. & Johann, G. K. (1993). Berger-Skala zur Erfassung der Selbstakzeptanz. Göttingen: Hogrefe. Biermann-Ratjen, E. M., Eckert, J. & Schwartz, H. J. (2003). Gesprächspsychotherapie. Verändern durch Verstehen (9. Aufl.). Stuttgart: Kohlhammer. Binet, A. & Simon, Th. (1905). Methodes nouvelles pour le diagnostique du niveau intellectuel des arnomaux. Année Psychologique, 11, 191-244. Binz, U. & Wendt, G. (1986). Kurz-Skala Stimmung/Aktivierung KUSTA. Weinheim: Beltz. Birbaumer, N. & Schmidt, R. F. (1966). Biologische Psychologie (3. Aufl.). Berlin, Heidelberg, New York: Springer. Birnbaum, A. (1968). Some latent trait models. In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 395-479). Reading, MA: Addison-Wesley. Bless, G. (1986). Der soziometrische Status des integrierten Hilfsschülers. Untersuchung in Regelklassen mit heilpädagogischer Schülerhilfe. Vierteljahresschrift für Heilpädagogik und ihre Nachbargebiete, 55, 49-58. Block, J. (1961). The Q-Sort method in personality assessment and psychiatric research. Springfield: C. C. Thomas. Bloom, B. S. (1976). Human characteristics and school learning. New York: McGraw. Blum, F., Hengsen, A. & Trost, G. (1982). Studienfeldbezogener Beratungstest Naturwissenschaften (SFT-NW). Bonn: Institut für Test- und Begabungsforschung. Blum, F. & Trost, G. (1982). Studienfeldbezogener Beratungstest Ingenieurwissenschaften (SFT-IW). Bonn: Institut für Test- und Begabungsforschung. Blum, G. S. (1950). Blacky pictures. New York: Psychological Corporation. Bolm, W. (1994). Goal Attainment Scaling: Gütemaß und praktische Erfahrungen bei 397 psychiatrischen Behandlungsverläufen. Zeitschrift für Klinische Psychologie, Psychopathologie und Psychotherapie, 42, 128-138. Bölte, S., Adam-Schwebe, S., Englert, E., Schmeck, K. & Poustka, F. (2000). Zur Praxis der psychologischen Testdiagnostik in der deutschen Kinder- und Jugendpsychiatrie: Ergebnisse einer Umfrage. Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie, 28, 151-161. Bommert, H. (1987). Grundlagen der Gesprächspsychotherapie (4. Aufl.). Stuttgart: Kohlhammer. Bommert, H. & Hockel, M. (Hrsg.). (1982). Therapieorientierte Diagnostik. Stuttgart: Kohlhammer. Borkenau, P. (1986). Untersuchungen zur internen Konsistenz und externen Validität der deutschsprachigen Form des 16 PF-Tests von Schneewind, Schröder & Cattell. Diagnostica, 32, 100110. Borkenau, P. & Amelang, M. (1983). Vorhersagen für einige Personen in einigen Dimensionen. Oder: Individuelle Angemessenheit von Eigenschaftskonstrukten und Differentielle Validität. In G. Lüer (Hrsg.), Bericht über den 33. Kongreß der Deutschen Gesellschaft für Psychologie in Mainz 1982, Bd. 1 (S. 468-472). Göttingen: Hogrefe. Borkenau, P. & Amelang, M. (1985). Individuelle Angemessenheit von Eigenschaftskonstrukten als Moderatorvariable für die Übereinstimmung zwischen Selbst- und Bekannten-Ratings. Diagnostica, 31, 105-118. Borkenau, P. & Amelang, M. (1986). Zur faktorenanalytischen Kontrolle sozialer Erwünschtheitstendenzen. Eine Untersuchung anhand des Freiburger-Persönlichkeits-Inventars. Zeitschrift für Differentielle und Diagnostische Psychologie, 7, 17-28. Borkenau, P. & Ostendorf, F. (1993). NEO-Fünf-Faktoren Inventar (NEO-FFI) nach Costa & McCrae. Göttingen: Hogrefe. Borkowski, J. G., Weyhing, R. S. & Carr, M. (1988). Effects of attributional retraining on strategybased reading comprehension in learning disabled students. Journal of Educational Psychology, 80, 46-53. Bös, K. (Hrsg.). (2001). Handbuch Motorische Tests: Sportmotorische Tests, Fragebogen zur körperlich-sportlichen Aktivität und sportpsychologische Diagnoseverfahren (2., vollständig überarbeitete und erweiterte Auflage). Göttingen: Hogrefe. Bös, K. & Mechling, H. (1985). Der Bilder-Angst-Test für Bewegungssituationen. Göttingen: Hogrefe. Boudreau, J. W. (1991). Utility Analysis for decisions in human resource management. In N. I. Dunnette & L. N. Lough (Eds.), Handbook of industrial and organisational psychology (Vol 2, pp. 621-745). Palo Alto, CA: Consulting Psychologists Press. Braband, H. & Kleber, E. W. (1983). Sonderpädagogische Interventionen in der Grundschule als integriertes Analyse-Interventions- und Beratungssystem. In R. Kornmann, H. Meister & J. Schlee (Hrsg.), Förderungsdiagnostik (S. 160-170; 2. Aufl. 1986). Heidelberg: Schindele. Brackmann, A. (2000). Zur Konvergenz verbaler und nonverbaler Erfassungstechniken von Persönlichkeitsmerkmalen. Unveröffentlichte Diplomarbeit am Psychologischen Institut, Universität Heidelberg. Brähler, E. & Beckmann D. (1981). Stabilität der Gießen-Test-Skalen. Diagnostica, 27, 110-126. Brähler, E. & Beckmann D. (1984). Die Erfassung von Partnerbeurteilungen mit dem Gießen Test. Diagnostica, 30, 184-197. Brähler, E. & Brähler, Ch. (1993). Paardiagnostik mit dem Gießen-Test. Bern: Huber. Brähler, E., Holling, H., Leutner, D. & Petermann, F. (Hrsg.). (2002). Brickenkamp Handbuch psychologischer und pädagogischer Tests (3., vollständig überarbeitete und erweiterte Aufl.). Göttingen: Hogrefe. Brandstätter, H. (1970). Leistungsprognose und Erfolgskontrolle. Bern: Huber. Brandstätter, H. (1978). Organisationsdiagnose. In A. Mayer (Hrsg.), Organisationspsychologie (S. 4371). Stuttgart: Poeschel. Brandstätter, V. (2005). Der objektive Leistungsmotivations-Test OLMT von L. Schmidt-Atzert. Rezension. Zeitschrift für Personalpsychologie, 4, 132-137. Bray, D. W. Campbell, R. J. & Grant, D. L. (1974). Formative years in business: A longterm AT and T study of managerial lives. New York: Wiley. Brengelmann, J. C. & Brengelmann, L. (1960). Deutsche Validierung von Fragebogen der Extraversion, neurotischen Tendenz und Rigidität. Zeitschrift für Experimentelle und Angewandte Psychologie, 7, 291-331. Brickenkamp, R. (1986). Handbuch apparativer Verfahren in der Psychologie. Göttingen: Hogrefe. Brickenkamp, R. (1994). Test d2 (8. Aufl., 1. Aufl. 1962). Göttingen: Hogrefe. Brickenkamp, R. (2002). Test d2: Aufmerksamkeits-Belastungs-Test (9., überarbeitete und neu normierte Aufl.). Göttingen: Hogrefe. Brickenkamp, R., Merten T. & Hänsgen, K.-D. (1997). d2-C Computersystem Hogrefe Testsystem. Göttingen: Hogrefe. Brickenkamp, R. & Zillmer, E. (1998). The d2 Test of Attention. Seattle: Hogrefe and Huber Publishers. Brocke, B., Beauducel, A. & Tasche, K. (1995). Der Intelligenz-Struktur-Test: Analysen zur theoretischen Grundlage und technischen Güte. Technische Universität Dresden: Forschungsberichte, 2. Brodbeck, F., Anderson, N. & West M. (2000). Teamklima-Inventar TKI. Göttingen: Hogrefe. Brody, N. (1988). Personality. In search of individuality. San Diego: Academic Press. Brogden, H. E. (1949). When testing pays off. Personnel Psychology, 2, 171-185. Literaturverzeichnis 571 572 Literaturverzeichnis Bronisch, T., Hiller, W., Zaudig, M. & Mombour, W. (1995). IDCL-P Internationale Diagnose Checklisten für Persönlichkeitsstörungen nach ICD-10 und DMS-IV. Bern: Huber. Brophy, J. E. & Good, T. L. (1986). Teacher behavior and student achievement. In M. C. Wittrock (Ed.), Handbook of research on teaching (3rd ed., pp. 328-375). New York: Macmillan. Broughton, R. (1984). A prototype strategy for construction of personality scales. Journal of Personality and Social Psychology, 47, 1334-1346. Bryan, T. & Lee, J. (1990). Training social skills with learning disabled children and adolescents: The state of the art. In T. E. Scruggs & B. Y. L. Wong (Eds.), Intervention research in learning disabilities. Berlin, Heidelberg, New York: Springer. Bühler, C. & Hetzer, H. (1932). Kleinkindertests. Leipzig: Barth. Bühner, M. & Schmidt-Atzert, L. (2004). Überprüfung der Äquivalenz einer Test d2-Version für ältere Probanden. Zeitschrift für Neuropsychologie, 15, 7-13. Bühner, M., Schmidt-Atzert, L., Grieshaber, E. & Lux, A. (2001). Faktorenstruktur verschiedener neuropsychologischer Tests. Zeitschrift für Neuropsychologie, 12, 181-187. Bungard, W. (1987). Zur Problematik von Reaktivitätseffekten bei der Durchführung eines Assessment Centers. In H. Schuler & W. Stehle (Hrsg.), Assessment Center als Methode der Personalentwicklung (S. 99-125). Stuttgart: Verlag für Angewandte Psychologie. Bungard, W. & Antoni, C. H. (1993). Gruppenorientierte Interventionstechniken. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 377-404). Bern: Huber. Burisch, M. (1984). Approaches to personality inventory construction. A comparison of merits. American Psychologist, 39, 214-227. Buse, L. (1975). Dimensionen und Komponenten des Interesses. Unveröffentlichte Dissertation, Universität Hamburg. Buss, D. M. & Craik, K. H. (1980). The frequency concept of dispostion: Dominance and prototypically dominant acts. Journal of Personality, 48, 379-392. Buss, D. M. & Craik, K. H. (1984). Acts, dispositions, and personality. In B. A. Maher & W. B. Maher (Eds.), Progress in experimental personality research (Vol. 13, pp. 241-301). New York: Academic Press. Büssing, A. (1993). Organisationsdiagnose. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 445-479). Bern: Huber. Campbell, G. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the multitraitmultimethod matrix. Psychological Bulletin, 56, 81-105. Cantor, N. & Mischel, W. (1979). Prototypes in person perception. In L. Berkowitz (Ed.), Advances in experimental social psychology (Vol. 12, pp. 3-52). New York: Academic Press. Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. New York: Cambridge University Press. Caspar, F. (1986). Die Plananalyse als Konzept und Methode. Verhaltensmodifikation, 7, 235-256. Caspar, F. (Hrsg.). (1996). Psychotherapeutische Problemanalyse. Tübingen: DGVT-Verlag. Catron, D. W. (1978). Immediate test-retest changes in WAIS scores among college males. Psychological Reports, 43, 279-290. Cattell, R. B. (1966). The data box: Its ordering of total resources in terms of possible relational systems. In R. B. Cattell (Ed.), Handbook of multivariate experimental psychology (pp. 67-128). Chicago: Rand McNally. Cattell, R. B. (1972). The 16PF and basic personality structures: A reply to Eysenck! Journal of Behavioral Science, 17, 169-187. Cattell, R. B. & Warburton, F. W. (1967). Objective personality and motivation tests. Urbana: University of Illinois Press. Chaiken, A. L., Derlerga, V. J. & Miller, S. J. (1976). Effects of room environment on self-disclosure in a counceling analogue. Journal of Counseling Psychology, 23, 479-481. Chamberlin, R. W. (1969). A study of an interview method for identifying family authority patterns. Genetic Psychology Monograph, 80, 129-148. Chambless, D. L. (1993). Task force on promotion and dissemination of psychological procedures. Report of Division 12. Washington: American Psychological Association. Chambless, D. L. & Hollon, S. D. (1998). Defining empirically supported therapies. Journal of Consulting and Clinical Psychology, 66, 7-18. Christensen, L. & Mendoza, J. L. (1986). A method of assessing change in a single subject: An alteration of the RC Index. Behavior Therapy, 17, 305-308. Cierpka, M. (Hrsg.). (1987). Familiendiagnostik. Berlin, Heidelberg, New York: Springer. Cierpka, M. (Hrsg.). (1996). Handbuch der Familiendiagnostik. Berlin, Heidelberg, New York, Tokio: Springer. Cleary, T. A. (1968). Testbias: Prediction of grades of negro and white students in integrated colleges. Journal of Educational Measurement, 5, 115-124. Clement, U. & Löwe, B. (1996). Fragebogen zum Körperbild. Göttingen: Hogrefe. Cole, N. S. (1973). Bias in selection. Journal of Educational Measurement, 10, 237-255. Colvin, C. R. & Funder, D. C. (1991). Predicting personality and behavior: A boundary on the acquaintanceship effect. Journal of Personality and Social Psychology, 60, 884-894. Comer, R. J. (2001). Klinische Psychologie (2. Aufl.). Heidelberg: Spektrum Akademischer Verlag. Conger, A. J. (1974). A revised definition for suppressor variables. Educational and Psychological Measurement, 34, 35-46. Conger, A. J. & Jackson, D. N. (1972). Suppressor variables, prediction, and the interpretation of psychological relationships. Educational and Psychological Measurement, 32, 579-599. Conrad, W., Baumann, E. & Mohr, V. (1980). Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösens MTP. Göttingen: Hogrefe. Conrad, W., Büscher, P., Hornke, L., Jäger, R., Schweizer, H., Stünzner, W. v. & Wiencke, W. (1986). Mannheimer Intelligenztest MIT (2. Aufl., 1. Aufl. 1971). Weinheim: Beltz. Constantinople, A. (1970). Some correlates of average level of happiness among college students. Developmental Psychology, 2, 447. Costa, P. T. & McCrae, R. R. (1989). NEO PI/FFI manual supplement. Odessa, FL: Psychological Assessment Resources. Costa, P. T. & McCrae, R. R. (1992). Revised NEO Personality Inventory (NEO PI-R) and NEO Five Factor Inventory. Professional manual. Odessa, FL: Psychological Assessment Resources. Cranach, M. v. (1983). Present State Examination PSE (2. Aufl., 1. Aufl. 1978). Weinheim: Beltz. Cranach, M. v., Kalbermatten, U., Indermühle, K. & Gugler, B. (1980). Zielgerichtetes Handeln. Bern: Huber. Crick, N. R. & Dodge, K. A. (1994). A review and reformulation of social information-processing mechanisms in children’s social adjustment. Psychological Bulletin, 115, 74-101. Cronbach, L. J. & Gleser, G. C. (1965). Psychological tests and personnel decisions (2. Aufl., 1. Aufl. 1957). Urbana, JL: University of Illinois Press. Curran, J. P. & Cattell, R. B. (1970). Eight State Questionnaire. Champaign, JL: Institute for Personality and Ability Testing. Dahl, G. (1971). Zur Berechnung des Schwierigkeitsindex bei quantitativ abgestufter Aufgabenbewertung. Diagnostica, 17, 139-142. Dahle, K-P. (1997). Kriminalprognosen im Strafrecht: Psychologische Aspekte individueller Verhaltensvorhersagen. In M. Steller & R. Volbert (Hrsg.), Psychologie im Strafverfahren: Ein Handbuch (S. 119-140). Bern: Huber. Dahle, K. P. (2000). Psychologische Begutachtung zur Kriminalprognose. In H.-L. Kröber & M. Steller (Hrsg.), Psychologische Begutachtung im Strafvervahren: Indikationen, Methoden und Qualitätsstandards (S. 77-111). Darmstadt: Steinkopff. Dahme, G., Bleich, C., Jungnickel, D. & Rathje, H. (1992). Ermutigende Befunde zur Reliabilität und enttäuschende Ergebnisse zur Konstruktvalidität des HAKEMP: Daten aus einer Felduntersuchung. Zeitschrift für Differentielle und Diagnostische Psychologie, 13, 139-160. Dahmer, J. (1973). Anamnese und Befund. Stuttgart: Thieme. Daniels, J. C. (1967). Figure Reasoning Test. London: Crosby Lockwood. Darlington, R. B. (1968). Multiple regression in psychological research and practice. Psychological Bulletin, 69, 161-182. Davier, M. v. & Rost, J. (o. J.). WINMIRA. Windows 3.x – Programmsystem zur Analyse von RaschModell, Mixed Rasch-Modell und Latent Class Analyse. Kiel: Institut für Pädagogik der Naturwissenschaften. Davison, G. C. & Neale, J. M. (2002). Klinische Psychologie (6. Aufl.). Weinheim: Psychologie Verlags Union. Deidesheimer Kreis (1997). Hochschulzulassung und Studieneignungstests. Göttingen, Zürich: Vandenhoeck & Ruprecht De Jong-Gierveld, J. & Kamphuis, F. (1985). The development of a Rasch-type loneliness scale. Applied Psychological Measurement, 9, 3, 289-299. Literaturverzeichnis 573 574 Literaturverzeichnis Deneke, F.-W. & Hilgenstock, B. (1989). Das Narzißmusinventar. Göttingen: Hogrefe. Deusinger, I. M. (1986). Frankfurter Selbstkonzeptskalen FSKN. Göttingen: Hogrefe. Dieterich, R. (1973). Psychodiagnostik. Grundlagen und Probleme. München: Reinhardt. Dilling, H. & Freyberger, H. J. (Hrsg.). (2001). Taschenführer zur ICD-10-Klassifikation psychischer Störungen der Weltgesundheitsorganisation (2. Aufl.). Bern: Huber. Dilling, H., Mombour, W. & Schmidt, M.H. (1993). Internationale Klassifikation psychischer Störungen, ICD-10 Kapitel V (2. Aufl.). Bern: Huber. Dilling, H., Mombour, W., Schmidt, M.H. & Schulte-Markwort, E. (1994). Internationale Klassifikation psychischer Störungen, ICD-10 Kapitel V; Forschungskriterien. Bern: Huber. DiNardo, P. A. (1975). Social class and diagnostic suggestion as variables in clinical judgement. Journal of Consulting and Clinical Psychology, 43, 363-368. Dreesmann, H. (1979). Zusammenhänge zwischen Unterrichtsklima, kognitiven Prozessen bei Schülern und deren Leistungsverhalten. Zeitschrift für Empirische Pädagogik, 3, 121-133. Dudek, F. J. (1979). The continuing misinterpretation of the standard error of measurement. Psychological Bulletin, 86, 335-337. Duhm, E. & Hansen, J. (1957). Der Rosenzweig P-F-Test, Form für Kinder. Göttingen: Hogrefe. Düker, H. & Lienert, G. A. (1965). Konzentrations-Leistungs-Test KLT. Göttingen: Hogrefe. Düker, H., Lienert, G. A., Lukesch, H. & Mayrhofer, S. (2001). KLT-R. Konzentrations-Leistungs-Test (revidierte Fassung). Göttingen: Hogrefe. Ebel, O. & Lienert, G. A. (1960). Ein Index zur numerischen Bestimmung der Niveau-Eigenschaften eines psychologischen Tests. Metrica. Zeitschrift für theoretische und angewandte Statistik, 3, 117-123. Eckardt, H. H. & Schuler, H. (1992). Berufseignungsdiagnostik. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 533-551). Weinheim: Psychologie Verlags Union. Eggert, D. (1974). Lincoln-Oseretzky-Skala. KF. 18 (2. Aufl., 1. Aufl. 1971). Weinheim: Beltz. Eggert, D. (1976). Hannover-Wechsler-Intelligenztest für das Vorschulalter HAWIVA. Bern: Huber. Ehlers, A. (1999). Posttraumatische Belastungsstörung. Göttingen: Hogrefe. Ehlers, A. (2000). Psychologische Grundlagen der Verhaltenstherapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (S. 69-87). Heidelberg: Springer. Ehlers, A., Margraf, J. & Chambless, D. (2001). Fragebogen zu körperbezogenen Ängsten, Kognitionen und Vermeidung AKV (2. Aufl.). Weinheim: Beltz. Ellis, A. & Grieger, R. (1995). Praxis der rational-emotiven Therapie (2. Aufl., 1. Aufl. 1979). Weinheim: Psychologie Verlags Union. Emmelkamp, P.M.G. & van Oppen, P. (2000). Zwangsstörungen. Göttingen: Hogrefe. Endler, N. S., Hunt, J. McV. & Rosenstein, A. J. (1962). An S-R-inventory of anxiousness. Psychological Monographs, 76, No. 17. Epstein, S. (1979). The stability of behavior: I. On predicting most of the people much of the time. Journal of Personality and Social Psychology, 37, 1097-1126. Erzigkeit, H. (1993). Kurztest zur Erfassung von Gedächtnis- und Aufmerksamkeitsstörungen SKT (5., neubearb. Aufl.). Weinheim: Beltz. Exner, J. E. Jr. (2003). The Rorschach: A comprehensive system (4th ed.). New York: Wiley. Eysenck, H. J. (1953). The structure of human personality. London: Methuen. Eysenck, H. J. (1957). The dynamics of anxiety and hysteria. London: Routledge. Eysenck, H. J. (1967). The biological basis of personality. Springfield, IL: Ch. Thomas. Eysenck, H. J. (1970). EPI Eysenck Personality Inventory. London: University of London Press. Fahrenberg, J. (1964). Objektive Tests. In R. Heiss (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik (S. 488-532). Göttingen: Hogrefe. Fahrenberg, J. (1987). Multimodale Diagnostik - eine Einleitung. Diagnostica, 33, 185-187. Fahrenberg, J. (1994). Freiburger Beschwerden-Liste. Göttingen: Hogrefe. Fahrenberg, J., Hampel, R. & Selg, H. (2001). Das Freiburger Persönlichkeitsinventar: FPI; Revidierte Fassung FPI-R und teilweise geänderte Fassung FPI-A1 (7. Aufl., 1. Aufl. 1970). Göttingen: Hogrefe. Fahrenberg, J. & Selg, H. (1970). Das Freiburger Persönlichkeitsinventar FPI. Göttingen: Hogrefe. Faßnacht, G. (1979). Systematische Verhaltensbeobachtung (1. Aufl., 2. verb. Aufl. 1994). München: Reinhardt. Fay, E. (1992). Über die Übbarkeit der Leistung in einem Durchstreichverfahren zur Messung der Konzentrationsfähigkeit. Diagnostica, 38, 301-311. Fay, E. (2003). Bochumer Matrizentest (BOMAT – advanced – short version). In E. Fay (Hrsg.), Tests unter der Lupe 4: Aktuelle psychologische Testverfahren – kritisch betrachtet (S. 24-35). Göttingen: Vandenhoeck & Ruprecht. Fay, E., Mausfeld, R., Niederée, R., Stumpf, H. & Trost, G. (1982). Studienfeldbezogener Beratungstest Mathematik (SFT-MATH). Bonn: Institut für Test- und Begabungsforschung. Fay, E. & Stumpf, H. (1995). Leistungsdaten. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 380-396). München, Weinheim: Psychologie Verlags Union. Fels, M. & Geissner, E. (1997). Neglect-Test (NET) (2., korrigierte Aufl.). Göttingen: Hogrefe. Feuerlein, W., Küfner, H., Ringer, Ch. & Antons, K. (1989). Kurzfragebogen für Alkoholgefährdete KFA. Weinheim: Beltz. Feuerlein, W., Ringer, Ch., Küfner, H. & Antons, K. (1979). Münchner Alkoholismus-Test MALT. Weinheim: Beltz. Fiedler, P. (2001). Persönlichkeitsstörungen (5. Aufl.). Weinheim: Psychologie Verlags Union. Fiedler, P., Stieglitz, R. D., Baumann, U. & Freiberger, H. J. (Hrsg.). (2001). Interaktionsdiagnostik bei Paaren und Familien. Psychodiagnostik in Klinischer Psychologie, Psychiatrie und Psychotherapie. Stuttgart: Thieme. Fiegenbaum, W. & Tuschen, B. (2000). Reizkonfrontation. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 413-426). Heidelberg: Springer. Fieguth, G. (1977). Die Entwicklung eines kategoriellen Beobachtungsschemas. In U. Mees & H. Selg (Hrsg.), Verhaltensbeobachtung und Verhaltensmodifikation (S. 33-42). Stuttgart: Klett. Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber. Fischer, G. H. (1978). Probabilistic test models and their application. The German Journal of Psychology 2, 298-319. Fischer, G. H. (1983). Neuere Testtheorie. In J. Bredenkamp & H. Feger (Hrsg.), Messen und Testen (S. 604-692). Göttingen: Hogrefe. Fischer, G. H. (1988). Spezifische Objektivität. Eine wissenschaftstheoretische Grundlage des Rasch-Modells. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 87-111). Weinheim: Psychologie Verlags Union. Fischer, G. H. (1995a). Linear logistic models for change. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 157-180). New York: Springer. Fischer, G. H. (1995b). The linear logistic test model. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 131-155). New York: Springer. Fischer, G. H. (1996). IRT-Modelle als Forschungsinstrumente der Differentiellen Psychologie. In K. Pawlik (Hrsg.), Grundlagen und Methoden der Differentiellen Psychologie (S. 673-729). Göttingen: Hogrefe. Fischer, G. H. & Molenaar, I. W. (Eds.). (1995). Rasch models: Foundations, recent developments, and applications. New York: Springer. Fischer, G. H. & Parzer, P. (1991). An extension of the rating scale model with an application to the measurement of treatment effects. Psychometrika, 56, 637-651. Fischer, G. H. & Ponocny, I. (1995). Extended rating scale and partial credit models for assessing change. In G. H. Fischer & I. W. Molenaar (Eds.). Rasch models: Foundations, recent developments, and applications (pp. 353-370). New York: Springer. Fischer, G. H. & Spada, H. (1973). Die psychometrischen Grundlagen des Rorschachtests und der Holtzman Inkblot Technique. Bern: Huber. Fishbein, M. & Ajzen, I. (1974). Attitudes towards objects as predictors of single and multiple behavioral criteria. Psychological Review, 81, 59-74. Fiske, D. W. & Butler, J. M. (1963). The experimental conditions for measuring individual differences. Educational and Psychological Measurement, 23, 249-266. Fisseni, H. J. (1982). Persönlichkeitsbeurteilung. Zur Theorie und Praxis des Psychologischen Gutachtens. Göttingen: Hogrefe. Fisseni, H. J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen: Hogrefe. Flanagan, J. (1954). The critical incident technique. Psychological Bulletin, 51, 327-358. Fleischmann, U. M. (2000). Gerontoneuropsychologie - Diagnostik, Therapie und Intervention. In W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 663-673). Lisse, NL: Swets & Zeitlinger. Literaturverzeichnis 575 576 Literaturverzeichnis Fleishman, E. A. & Hempel, W. P. (1955). The relation between abilities and improvement with practice in a visual discrimination reaction task. Journal of Experimental Psychology, 49, 301312. Fliegel, S. (1996). Rollenspiele. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 353359). Berlin, Heidelberg, New York: Springer. Fliegel, S., Groeger, W., Künzel, R., Schulte, D. & Sorgatz, H. (1998). Verhaltenstherapeutische Standardmethoden: Ein Übungsbuch (3. Aufl.). Weinheim: Psychologie Verlags Union. Flor, H., Behle, D. J. & Hermann, C. (1992). Psychophysiologische Methoden bei der Diagnose chronischer Schmerzen. In E. Geissner & G. Jungnitsch (Hrsg.), Psychologie des Schmerzes (S. 171-187). Weinheim: Psychologie Verlags Union. Florin, I. (1989). Verhaltensmedizin. Bedeutung eines interdisziplinären Ansatzes für die Erforschung und Therapie körperlicher Krankheiten. In I. Florin, G. Haag, U. Brack & E. M. Fahrner (Hrsg.), Perspektive Verhaltensmedizin (S. 1-9). Berlin: Springer. Föderation Deutscher Psychologenvereinigungen (1988). Richtlinien für die Erstellung Psychologischer Gutachten. Bonn: Deutscher Psychologenverlag. Formann, A. K. (1984). Die Latent-Class-Analyse. Weinheim: Beltz. Formann, A. K. (1993). Some simple latent class models for attitudinal scaling in the presence of polytomous items. Methodika, 7, 62-78. Formann, A. K. & Piswanger, K. (Hrsg.). (1979). Wiener Matrizen-Test WMT. Ein Rasch-skalierter sprachfreier Intelligenztest. Weinheim: Beltz. Frank, L. K. (1948). Projective methods. Springfield, IL: C. C. Thomas. Franke A. (1991). Gruppentraining gegen psychosomatische Störungen (2. Aufl.). Weinheim: Psychologie Verlags Union. Franke, G. H. (2000). Brief Symptom Inventory von Derogatis (BSI). Göttingen: Hogrefe. Franke G. H. (2002). SCL-90-R. Die Symptom-Checkliste von Derogatis – Deutsche Version. Göttingen: Beltz-Test. Frankenburg, W. K. & Dodds, J. B. (1967). The Denver developmental screening test. Journal of Pediatrics, 7, 181-191. Frederiksen, N. & Melville, S. D. (1954). Differential predictability in the use of test scores. Educational and Psychological Measurement, 14, 647-656. Freud, S. (1952). Gesammelte Werke, 18 Bände. Frankfurt: Fischer. Fricke, R. (1972). Testgütekriterien bei lehrzielorientierten Tests. Zeitschrift für erziehungswissenschaftliche Forschung, 6, 150-175. Fricke, R. (1974). Kriterienorientierte Leistungsmessung. Stuttgart: Kohlhammer. Frieling, E. & Hoyos, C. Graf (1978). Fragebogen zur Arbeitsanalyse (FAA). Deutsche Bearbeitung des PAQ. Bern: Huber. Frieling, E. & Sonntag, K. H. (1987). Arbeitspsychologie. Bern: Huber. Fröse, S., Mölders, R. & Wallrodt, W. (1986). Kieler Einschulungsverfahren KEV. Weinheim: Beltz. Fruhner, R., Schuler, H., Funke, U. & Moser, K. (1991). Einige Determinanten der Bewertung von Personalauswahlverfahren. Zeitschrift für Arbeits- und Organisationspsychologie, 35, 170-178. Funder, D. C., Block, J. H. & Block, J. (1983). Delay of gratification: Some longitudinal personality correlates. Journal of Personality and Social Psychology, 44, 1198-1213. Funder, D. C. & Colvin, C. R. (1988). Friends and strangers: Acquaintanceship, agreement, and the accuracy of personality judgment. Journal of Personality and Social Psychology, 55, 149-158. Funder, D. C. & Dobroth, K. M. (1987). Differences between traits: Properties associated with interjudge agreement. Journal of Personality and Social Psychology, 52, 409-418. Funder, D. C. & West, S. G. (1993). Consensus, self-other agreement, and accuracy in personality judgment: an introduction. Journal of Personality, 61, 457-476. Funke, W., Funke, J., Klein, M. & Scheller, R. (1987). Trierer Alkoholismus-Inventar TAI. Göttingen: Hogrefe. Fydrich, T. (1995). Fragebogen zur sozialen Angst; Deutsche Bearbeitung des Social Phobia and Anxiety Inventory (SPAI) von Turner und Beidel. Unveröffentlichtes Manuskript. Heidelberg. Fydrich, T. (1996). Komorbidität psychischer Störungen. Empirische Untersuchungen zu einem umstrittenen Konzept. Habilitationsschrift, Universität Heidelberg. Fydrich, T. (2002a). Beck-Inventar zu kognitiven Schemata (B-IKS). In E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 51-55). Göttingen: Hogrefe. Fydrich, T. (2002b). SPAI – Soziale Phobie und Angst Inventar. In E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 335-338). Göttingen:Hogrefe. Fydrich, T. (2002c). F-SozU – Fragebogen zur sozialen Unterstützung. In E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 150-153). Göttingen: Hogrefe. Fydrich, T. (2003). Soziale Phobie. Psychologisches Störungsmodell und kognitiv-verhaltenstherapeutische Behandlung. Psychotherapie im Dialog, 4 (1), 10-16. Fydrich, T. & Bürgener, F. (2005). Ratingskalen für soziale Kompetenz. In N. Vriends & J. Margraf (Hrsg.), Soziale Kompetenz – Soziale Unsicherheit – Soziale Phobie (3. Aufl., S. 81-96). Baltmannsweiler: Schneider-Verlag Hohengehren. Fydrich, T., Geyer, M., Hessel, A., Sommer, G. & Brähler, E. (1999). Fragebogen zur sozialen Unterstützung (F-SozU): Normierung an einer repräsentativen Stichprobe. Diagnostica, 45, 112-126 Fydrich, T., Laireiter, A. R., Saile, H. & Engberding, M. (1996). Diagnostik und Evaluation in der Psychotherapie. Zeitschrift für Klinische Psychologie, 25, 161-168. Fydrich, T., Renneberg, B., Schmitz, B. & Wittchen, H.-U. (1997). SKID-P. Strukturiertes Klinisches Interview für DSM-IV, Achse II (Persönlichkeitsstörungen). Göttingen: Hogrefe. Fydrich, T., Schmitz, B., Hennch, C. & Bodem, M. (1996). Zuverlässigkeit und Gültigkeit diagnostischer Verfahren zur Erfassung von Persönlichkeitsstörungen. In B. Schmitz, T. Fydrich & K. Limbacher (Hrsg.), Persönlichkeitsstörungen: Diagnostik und Psychotherapie (S. 91-113). Weinheim: Psychologie Verlags Union. Fydrich, T. & Sommer G. (2003). Diagnostik sozialer Unterstützung. In M. Jerusalem & H. Weber (Hrsg.), Psychologische Gesundheitsförderung (S. 79-104). Göttingen: Hogrefe. Fydrich, T., Sommer, G. & Brähler, E. (2004). Fragebogen zur sozialen Unterstützung (F-SozU). Göttingen: Hogrefe. Fydrich, T., Sommer, G., Menzel, U. & Höll, B. (1987). Fragebogen zur sozialen Unterstützung (Kurzform; SOZU-K-22). Zeitschrift für Klinische Psychologie, 16, 434-436. Gagné, R. M. (1973). Die Bedingungen menschlichen Lernens. Hannover: Schroedel. Galton, F. (1869). Natural inheritance. London: Macmillan. Gardner, H. (2002). Intelligenzen: Die Vielfalt des menschlichen Geistes. Stuttgart: Klett Cotta. Gatterer, G. (1990). Alterskonzentrationstest AKT. Göttingen: Hogrefe. Gaul, D. (1990). Rechtsprobleme psychologischer Eignungsdiagnostik. Bonn: Deutscher Psychologen Verlag. Gebert, D. (1993). Interventionen in Organisationen. In H. Schuler (Hrsg.), Lehrbuch der Organisationspsychologie (S. 481-494). Bern: Huber. Gebert, D. & v. Rosenstiel, L. (1989). Organisationspsychologie (2. Aufl.). Stuttgart: Kohlhammer. Gerhard, U. (1981). Zur Diagnose und Bedeutung von Zwangsphänomenen. Weinheim: Beltz. Ghiselli, E. E. (1963). Moderating effects and differential reliability and validity. Journal of Applied Psychology, 47, 81-86. Gierschmann, F. (2003). Raven´s Progressive Matrices (PPM). In E. Fay (Hrsg.), Tests unter Lupe 4: Aktuelle psychologische Testverfahren - kritisch betrachtet (S. 105-123). Göttingen: Vandenhoeck & Ruprecht. Giesen, H., Gold, A., Hummer, A. & Jansen, R. (1986). Prognose des Studienerfolgs. Ergebnisse aus Längsschnittuntersuchungen. Frankfurt am Main: Unveröffentlichter Projektbericht. Gittler, G. (1990). Dreidimensionaler Würfeltest (3DW). Ein Rasch-skalierter Test zur Messung des räumlichen Vorstellungsvermögens. Weinheim: Beltz. Gittler, G. & Wild, B. (1988). Der Einsatz des LLTM bei der Konstruktion eines Itempools für das adaptive Testen. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 115-139). Weinheim: Psychologie Verlags Union. Glanzmann, P. (1985). Zusammenhänge zwischen Angstneigung und Zustandsangst in unterschiedlichen Stress-Situationen. Zeitschrift für Differentielle und Diagnostische Psychologie, 6, 161-173. Glas, C. A. W. & Verhelst, N. D. (1989). Extensions of the partial credit model. Psychometrika, 54, 635-659. Goldberg, L. R. (1965). Diagnosticians vs. diagnostic signs: The diagnosis of psychosis vs. neurosis from the MMPI. Psychological Monographs: General and Applied, 79 (9, Whole No. 602). Goldberg, L. R., Rorer, L. G. & Green, M. M. (1970). The usefulness of »stylistic« scales as potential suppressors or moderator variables in prediction from the CPI. Research Bulletin, 10. Eugene, OR: Research Institute. Literaturverzeichnis 577 578 Literaturverzeichnis Goldfried, M. R. & Kent, R. N. (1976). Herkömmliche gegenüber verhaltenstheoretischer Persönlichkeitsdiagnostik: Ein Vergleich methodischer und theoretischer Voraussetzungen. In D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (S. 3-23). München: Urban & Schwarzenberg. Goodenough, F. L. (1949). Mental testing. New York: Rinehart. Goodman, L. A. (1974). Exploratory latent structure analysis using both identifiable and unidentifiable models. Biometrika, 61, 215-231. Gösslbauer, J. P. (1981). Grundprinzipien der Entscheidungstheorie in der Psychologischen Diagnostik. In E. G. Wehner (Hrsg.), Psychodiagnostik in Theorie und Praxis (S. 214-258). Bern: Lang. Gough, H. G. (1969). Manual for the California Psychological Inventory. Palo Alto: Consulting Psychologists Press. Gough, H. G. & Heilbrun, A. B. (1980). Adjective Check List manual. Palo Alto, CA: Consulting Psychologists Press. Graczyk, W. (1990). Der Wilde-Intelligenz-Test (WIT). Diagnostica, 30, 310-320. Gräser, H. (1979). Überprüfung der faktoriellen Struktur einer deutschsprachigen Version des »Eight State Questionnaire« mittels Ketten-P-Technik. Diagnostica, 25, 49-58. Graumann, C. F. (1960). Eigenschaften als Problem der Persönlichkeitsforschung. In Ph. Lersch & H. Thomae (Hrsg.), Persönlichkeitsforschung und Persönlichkeitstheorie. Handbuch der Psychologie (Bd. IV, S. 87-154). Göttingen: Hogrefe. Grawe, K. (1982). Der Veränderungsprozeßbogen (VPB). In M. Zielke (Hrsg.), Diagnostik in der Psychotherapie (S. 231-252). Stuttgart: Kohlhammer. Grawe, K. (1991). Über den Umgang mit Zahlen. In K. Grawe, R. Hänni, N. Semmer & F. Tschan (Hrsg.), Über die richtige Art, Psychologie zu betreiben (S. 89-105). Hogrefe: Göttingen. Grawe, K. (1992). Psychotherapieforschung zu Beginn der neunziger Jahre. Psychologische Rundschau, 43, 132-162. Grawe, K., Caspar, F. & Ambühl, H. (1990). Differentielle Therapieforschung: Vier Therapieformen im Vergleich. Zeitschrift für Klinische Psychologie, 19, 292-376. Grawe, K., Donati, R. & Bernauer, F. (1994). Psychotherapie im Wandel. Von der Kofession zur Profession (2. Aufl.). Göttingen: Hogrefe. Gregory, R. J. (1992). Psychological testing: History, principles, and applications. Boston: Allyn and Bacon. Greif, S. (1970). Untersuchungen zur deutschen Übersetzung des 16 PF-Fragebogens. Psychologische Beiträge, 12, 186-213. Gretenkord, L. (2002). Prognose im Maßregelvollzug (§ 63 StGB) – wie lassen sich die Ergebnisse von Rückfallstudien nutzen? In T. Fabian, G. Jacobs, S. Nowara & I. Rode (Hrsg.), Qualitätssicherung in der Rechtspsychologie (S. 347-360). Münster: LIT-Verlag. Griffith, R. M. (1951). The test-retest similarities of the Rorschachs of patients without retention, Korsakoff. Journal of Projective Techniques, 15, 516-525. Griffith, R. (1954). The abilities of babies: A study in mental measurement. New York: McGraw-Hill. Grimm, H. & Schöler, H. (1985). Sprachentwicklungsdiagnostik. Göttingen: Hogrefe. Grimm, H. & Schöler, H. (1991). Heidelberger Sprachentwicklungstest HSET (2. Aufl., 1. Aufl. 1978). Braunschweig: Westermann. Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E. & Nelson, C. (2000). Clinical versus mechanical prediction: A meta-analysis. Psychological Assessment, 12, 19-30. Gruhle, H. W. (1948). Verstehende Psychologie. Stuttgart: Thieme. Guilford, J. P. (1964). Persönlichkeit. Weinheim: Beltz. Guilford, J. P. (1974). Persönlichkeitspsychologie. Stuttgart: Kohlhammer. Guilford, J. P. (1976). Apitude for creative thinking: One or many? Journal of Creative Behavior, 10, 165-169. Gulliksen, H. (1950). Theory of mental tests. New York: Wiley. Guttmann, G. & Ettlinger, S. C. (1991). Susceptibility to stress and anxiety in relation to performance, emotion, and personality: The ergopsychometric approach. In C. D. Spielberger, I. G. Sarason, J. Strelau & J. M. T. Brebner (Eds.), Stress and anxiety, Vol. 13 (pp. 23-52). New York: Hemisphere Publishing Corporation. Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer (Ed.), The American soldier. Studies in social psychology in World War II. Princeton: Princeton University Press. Häcker, H. (1982). Objektive Tests zur Messung der Persönlichkeit. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie Diagnostik, Bd. 3: Persönlichkeitspsychologie (S. 132-185). Göttingen: Hogrefe. Häcker, H., Leutner, D. & Amelang, M. (Hrsg.). (1998). Standards für pädagogisches und psychologisches Testen. Diagnostica und Zeitschrift für Differentielle und Diagnostische Psychologie, Supplementum. Häcker, H., Schmidt, L. R., Schwenkmezger, P. & Utz, H. E. (1975). OATB 75 Objektive Testbatterie Manual. Weinheim: Beltz. Häcker, H., Schwenkmezger, P. & Utz, H. E. (1979). Über die Verfälschbarkeit von Persönlichkeitsfragebogen und Objektiven Persönlichkeitstests unter SD-Instruktion und in einer Auslesesituation. Diagnostica, 25, 7-23. Haertel, G. D., Walberg, H. J. & Weinstein, T. (1983). Psychological models of educational performance: A theoretical synthesis of constructs. Review of Educational Research, 53, 75-91. Hageböck, J. (1994). Computerunterstützte Diagnostik in der Psychologie – Die Entwicklung eines computergestützten Diagnosesystems für die Einzelfallhilfe in der Schulpsychologie. Göttingen: Hogrefe. Hahlweg, K. (1986). Partnerschaftliche Interaktion. München: Röttger. Hahlweg, K. (1996). Fragebogen zur Partnerschaftsdiagnostik (FDP). Handanweisung. Göttingen: Hogrefe. Hahlweg, K., Dürr, H. & Müller, U. (1995). Familienbetreuung schizophrener Patienten. Weinheim: Psychologie Verlags Union. Hahlweg, K., Schindler, L. & Revenstorf, D. (1982). Partnerschaftsprobleme: Diagnose und Therapie. Berlin, Heidelberg, New York: Springer. Hahn, M. G. (1992). Modelle für den Urteilsprozeß: Kritische Betrachtung formaler Urteilsmodelle am Beispiel klinischer Aufgaben. Frankfurt: Lang. Hake, A. (2000). Aggregatbezogene statistische Kennwerte bei der Einzelfallanalyse. Heidelberg: Dissertation in der Fakultät für Sozial- und Verhaltenswissenschaften. Hambleton, R. K. & Swaminathan, H. (1985). Item response theory. Principles and applications. Boston: Kluwer-Nijhoff Publishing. Hamilton, M. (1986). The Hamilton rating scale for depression. In N. Sartorius & T.A. Ban (Eds.), Assessment of depression (pp. 278-296). Berlin: Springer. Hampel, R. & Klinkhammer, F. (1978). Verfälschungstendenzen beim Freiburger PersönlichkeitsInventar in einer Bewerbungssituation. Psychologie und Praxis, 22, 58-69. Hamster, W, Langner, W. & Mayer, K. (1980). Neuropsychologische Testbatterie TÜLUC. Weinheim: Beltz. Hanses, P. & Rost, D. H. (1998). Das »Drama« der hochbegabten Underarchiever – »Gewöhliche« oder »außergewöhnliche« Underarchiever? Zeitschrift für Pädagogische Psychologie, 21, 53-71. Hany, E. A. (1987). Psychometrische Probleme bei der Identifikation Hochbegabter. Zeitschrift für Differentielle und Diagnostische Psychologie, 8, 173-191. Hardesty, F. P. & Priester, H. J. (1956). Hamburg-Wechsler-Intelligenztest für Kinder HAWIK. Bern: Huber. Hartje, W. (2004). Neuropsychologische Begutachtung. Göttingen: Hogrefe. Hartje, W. & Rixecker, H. (1978). Der Recurring-Figures-Test von Kimura. Normierung an einer deutschen Stichprobe. Nervenarzt, 49, 354-356. Harris, C. W. (Ed.). (1963). Problems in measuring change. Madison: University of Wisconsin Press. Härting, C., Markowitsch, H. J., Neufeld, H., Calabrese, P. & Deisinger, K. (2000). Wechsler Gedächtnis Test – Revidierte Fassung (WSM-R). Deutsche Adaptation der revidierten Fassung der Wechsler-Memory-Scale. Göttingen: Hogrefe. Hasemann, K. (1983). Verhaltensbeobachtung und Ratingverfahren. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie Diagnostik, Bd. 4: Verhaltensdiagnostik (S. 434488). Göttingen: Hogrefe. Hasenbring, M. (1994). Kieler Schmerz-Inventar. Bern: Huber. Hathaway, S. R. & McKinley, J. C. (1951). The Minnesota Multiphasic Personality Inventory Manual revised. New York: The Psychological Corporation. Hathaway, S. R., McKinley, J. C. & Engel, R. R. (2000). MMP-2. Manual. Bern: Huber. Häusler, J. & Sommer, M. (2006). Neuronale Netze: Nichtlineare Methoden der statistischen Urteilsbildung in der psychologischen Eignungsdiagnostik. Zeitschrift für Personalpsychologie, 5, 4-15. Literaturverzeichnis 579 580 Literaturverzeichnis Hautzinger, M. (1994). Diagnostik in der Psychotherapie. In R.-D. Stieglitz & U. Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 284-295). Stuttgart: Enke. Hautzinger, M. (2002). Hamilton Depressions-Skala. In: E. Brähler, J. Schumacher & B. Strauß (Hrsg.), Diagnostische Verfahren in der Psychotherapie (S. 183-186). Göttingen: Hogrefe. Hautzinger, M. & Bailer, M. (1993). Allgemeine Depressions-Skala ADS. Weinheim: Beltz. Hautzinger, M., Bailer, M. & Keller, F. (1995). Beck-Depressions-Inventar BDI (2. Aufl.). Bern: Huber. Hautzinger, M., Stark, W. & Treiber, R. (1997). Kognitive Verhaltenstherapie bei Depressionen (4. Aufl.). Weinheim: Psychologie Verlags Union. Haynes, S. N. & Horn, W. F. (1982). Reactive effects of behavioral observation. Behavioral Assessment, 4, 443-469. Heckhausen, H. (1963). Hoffnung und Furcht in der Leistungsmotivation. Meisenheim: Hain. Heckhausen, H. & Rheinberg, F. (1980). Lernmotivation im Unterricht, erneut betrachtet. Unterrichtswissenschaft, 8, 7-47. Hehl, F. J. & Hehl, R. (1975). Persönlichkeitsskalen System 25, PSS 25. Weinheim: Beltz. Hehl, F. J. & Wirsching, M. (1983). Psychosomatischer Einstellungs-Fragebogen (PEF). Göttingen: Hogrefe. Heil, F. E. (1984). Zur Erfassung von Coorientierungsstrukturen in Partnerschaften. Grundlegung, Entwicklung und Evaluation des Trierer Partnerschaftsinventars. Trier: Dissertation im Fachbereich Psychologie. Heil, F. E. (1993). Partnerschaftszufriedenheit: Eine theoretisch fundierte Alternative zu traditionellen Diagnoseverfahren. In L. Montada (Hrsg.), Bericht über den 38. Kongreß der Deutschen Gesellschaft für Psychologie in Trier 1992 (Bd. 2, S. 580-588). Göttingen: Hogrefe. Heil, F. E. (1998). Das Trierer Partnerschaftsinventar (TPI). Manual Entwurf. Trier: Fachbereich Psychologie. Heilmann, K. (1999). Das Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung (BIP). In E. Fay (Hrsg.), Tests unter der Lupe II (S. 19-38). Lengerich: Pabst. Heimberg, R. G, Juster, H. R., Hope, D. A. & Mattia, J. I. (1995). Cognitive behavioral group treatment for social phobia: Description, case presentation, and empirical support. In M. B. Stein (Ed.), Social phobia: Clinical and research perspectives (pp. 293-321). Washington: American Psychiatric Press. Heinemann, M. & Höpfner, C. (1993). Screeningverfahren zur Erfassung von Sprachentwicklungsverzögerungen SEV. Weinheim: Beltz. Heller, K. A. (Hrsg.), (1992). Hochbegabung im Kindes- und Jugendalter. Göttingen: Hogrefe. Heller, K. A. (1997). Grundintelligenztest Skala 2 (CFT 20). Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 53-55. Heller, K. A, Gaedike, A. K. & Weinläder, H. (1985). Kognitiver Fähigkeits-Test für 4. bis 13. Klassen KFT 4-13 (2. Aufl., 1. Aufl. 1976). Weinheim: Beltz. Heller, K. A, Rosemann, B. & Steffens, K. H. (1978). Prognose des Schulerfolgs. Weinheim: Beltz. Helmke, A. (1983). Prüfungsangst. Psychologische Rundschau, 34, 7-47. Helmke, A., Schneider, W. & Weinert, F. E. (1986). Quality of contribution to the IEA classroom environment study. Teaching and Teacher Education, 2, 1-31. Hermans, H., Petermann, F. & Zielinski, W. (1978). Leistungs-Motivations-Test LMT. Amsterdam: Swets & Zeitlinger. Hermans, H. (1976). Leistungsmotivationstest für Jugendliche LMT-J (deutsche Fassung von Udo Undeutsch). Amsterdam: Swets. Hermans, H. J. M. (1976). Prestatie Motivatie Test (1. Aufl. 1968). Amsterdam: Swets & Zeitlinger. Herrle, J. & Kühner, C. (1994). Depression bewältigen. Ein kognitiv-verhaltenstherapeutisches Programm nach P. M. Lewinsohn. Weinheim: Beltz, Psychologie Verlags Union. Herrmann, Th. (1976). Lehrbuch der empirischen Persönlichkeitsforschung. Göttingen: Hogrefe. Hersch, J. (1974). Die Unfähigkeit, Freiheit zu ertragen – Reden und Aufsätze. Zürich, Köln: Bezinger. Herzberg, F., Mausner, B. & Snyderman, B. B. (1959). The motivation to work (2nd ed.). New York: Wiley. Hetzer, H. & Tent, L. (1971). Weilburger Test für Schulanfänger. Weinheim: Beltz. Heubrock, D. (1995). Neuropsychologische Diagnostik bei Simulationsverdacht: Ein Überblick über Forschungsergebnisse und Untersuchungsmethoden. Diagnostica, 41, 303-321. Heyde, G. (1995). Inventar komplexer Aufmerksamkeit (INKA). Frankfurt: Swets Test Services. Heyde, G. (2004). INKA - Inventar Komplexer Aufmerksamkeit. In G. Büttner & L. Schmidt-Atzert (Hrsg.), Diagnostik von Konzentration und Aufmerksamkeit (S. 133-142). Göttingen: Hogrefe. Hiller, W., Zaudig, M. & Mombour, W. (1995). ICD-10 Checklisten. Bern: Huber. Hinrichs, J. R. & Haanperä, S. (1976). Reliability of measurement in situational exercises: An assessment of the assessment center method. Personnel Psychology, 29, 31-40. Hobi, V. (1985). Basler Befindlichkeits-Skala. Weinheim: Beltz. Hödl, E. (1995). Hochschulberichtssystem und Profilbildung. Forschung und Lehre, 6, 322-324. Hofer, M. (1969). Die Schülerpersönlichkeit im Urteil des Lehrers. Weinheim: Beltz. Hofer, M. (Hrsg.). (1981). Informationsverarbeitung und Entscheidungsverhalten von Lehrern. Beiträge zu einer Handlungstheorie des Unterrichtens. München: Urban & Schwarzenberg. Hofmann, H. & Stiksrud, A. (1994). Zufriedenheit mit einem Psychologie-Lehrbetrieb. Aspekte der Evaluation von Evaluatoren. Empirische Pädagogik, 8, 169-198. Hofmann, K. & Kubinger, K. D. (2001). Herkömmliche Persönlichkeitsfragebogen und Objektive Persönlichkeitstests im »Wettstreit« um (Un-)Verfälschbarkeit. Report Psychologie, 26, 298-304. Hofstee, W. K. B. (1994). Who should own the definition of personality? European Journal of Personality, 8, 149-162. Hohenberger, E. & Schindler, L. (1984). Ein verhaltenstherapeutisches Programm zur Behandlung von Schlafstörungen. In J. C. Brengelmann & G. Bühringer (Hrsg.), Therapieforschung in der Praxis (S. 55-71). München: Röttger. Hojat, M., Robeson, M., Damjanov, L., Veloski, J. J., Glaser, K. & Gonnella, J. S. (1993). Students psychosocial characteristics as predictors of academic performance in medical school. Academic Medicine, 68, 635-637. Holden, R. R., Wood, L. L. & Tomashewski, L. (2001). Do response time limitations counteract the effect of faking on personality inventory validity? Journal of Personality and Social Psychology, 81, 160-169. Holling, H. (1981). Das Suppressor Konzept. Eine systematische Analyse und Neudefinition. Zeitschrift für Differentielle und Diagnostische Psychologie, 2, 123-150. Holling, H. & Kanning, U. P. (1999). Hochbegabung: Forschungsergebnisse und Fördermöglichkeiten. Göttingen: Hogrefe. Hollmann, H. (1988). Das Freiburger Persönlichkeitsinventar. Diagnostica, 34, 277-285. Hollmann, H. (1993). Validität der Eignungsdiagnostik. Göttingen: Hogrefe. Holmes, D. S. (1968). Dimensions of projection. Psychological Bulletin, 69, 248-268. Holmes, D. S. & Tyler, J. D. (1968). Direct versus projective measurement of achievement motivation. Journal of Consulting and Clinical Psychology, 32, 712-717. Holtzman, W. H, Thorpe, I. S, Swartz, J. D. & Herron, E. W. (1961). Inkblot perception and personality. Austin: University of Texas Press. Holzkamp, K. (1966). Begutachtung als Kommunikation. In A. O. Jäger & F. Merz (Hrsg.), Prognose und Bewährung in der psychologischen Diagnostik (S. 19-40). Göttingen: Hogrefe. Hörmann, H. (1964). Aussagemöglichkeiten psychologischer Diagnostik. Göttingen: Hogrefe. Hörmann, H. (1978). Theoretische Grundlagen der projektiven Tests. In R. Heiss, K.-J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik (S. 71-112). Göttingen: Hogrefe. Hörmann, H. (1982). Theoretische Grundlagen der projektiven Verfahren. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 3: Persönlichkeitsdiagnostik (S. 173-247). Göttingen: Hogrefe. Horn, A. & Bonz, G. (1969). Persönlichkeitsuntersuchungen mit dem Rorschach-Test bei bewegungsbehinderten Kindern. Schweizerische Zeitschrift für Psychologie, 28, 39-48. Horn, J. L. & Cattell R. B. (1966). Refinement and test of theory of fluid and crystallized intelligence. Journal of Educational Psychology, 57, 253-270. Horn, R. (2003). Eine kritische Anmerkung zum K-ABC. Report Psychologie, 28, 189. Horn, W. (1969). Prüfsystem für Schul- und Bildungsberatung PSB. Göttingen: Hogrefe. Horn, W. (1972). Begabungstestsystem BTS (2. Aufl.). Göttingen: Hogrefe. Horn, W. (1983). Leistungs-Prüf-System LPS (2. Aufl., 1. Aufl. 1962). Göttingen: Hogrefe. Horn, W., Lukesch, H., Kormann, A. & Mayrhofer, S. (2002). PSB-R 4-6: Prüfsystem für Schul- und Bildungsberatung für 4. bis 6. Klassen – revidierte Fassung. Göttingen: Hogrefe. Horn, W., Lukesch, H., Mayrhofer, S. & Kormann, A. (2003). PSB-R 6-13: Prüfsystem für Schul- und Bildungsberatung für 6. bis 13. Klassen – revidierte Fassung. Göttingen: Hogrefe. Literaturverzeichnis 581 582 Literaturverzeichnis Hornke, L. F. & Kersting, M. (2004). Checkliste zur DIN 33430. In L. F. Hornke & U. Winterfeld (Hrsg.), Eignungsbeurteilungen auf dem Prüfstand: DIN 33430 zur Qualitätssicherung (S. 273-324). Heidelberg: Spektrum Akademischer Verlag. Hornke, L. F. & Etzel, S. (1993/1995). Theoriegeleitete Konstruktion und Evaluation von computergestützten Tests zum Merkmalsbereich »Gedächtnis und Orientierung«. Untersuchungen des Psychologischen Dienstes der Bundeswehr 1993/1995 (Bd. 2), 183-296. Hornke, L. F., Rettig, K. & Hutwelker, R. (1988). Theoriegeleitete Konstruktion eines Tests zur Messung des räumlichen Vorstellungsvermögens. Untersuchungen des Psychologischen Dienstes der Bundeswehr, 23, 145-222. Hornke, L. F. & Storm, G. (1993/1995). Theoriegeleitete Konstruktion von Items zur Messung visueller Analyseleistungen III. Untersuchungen des Psychologischen Dienstes der Bundeswehr 1993/1995 (Bd. 2), 37-182. Horowitz, L. M., Strauß, B. & Kordy, H. (2000). Inventar zur Erfassung interpersonaler Probleme (IIP-D) (2. Aufl.). Weinheim: Beltz. Horst, P. (1966). Psychological measurement and prediction. Belmont, CA: Wadsworth. Hossiep, R. (1994). Das Assessment-Center. Diagnostica, 40, 89-104. Hossiep, R. & Paschen, M. (1998). Das Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung BIP. Göttingen: Hogrefe. Hossiep, R., Turck, D. & Hasella, M. (1999). BOMAT – advanced. Bochumer Matrizentest. Göttingen: Hogrefe. Hossiep, R., Turck, D. & Hasella, M. (2001). BOMAT – advanced – short version. Bochumer Matrizentest. Göttingen: Hogrefe. Hossiep, R. & Wottawa, H. (1993). Diagnostik. In A. Schorr (Hrsg.), Handwörterbuch der Angewandten Psychologie (S. 131-136). Bonn: Deutscher Psychologen Verlag. Howells, J. G. & Lickorish, J. R. (2003). Familien-Beziehungs-Test (FBT) (6. Aufl.).München: Ernst Reinhardt Verlag. Huber, W., Poeck, K., Weniger, D. & Willmes, K. (1983). Aachener Aphasietest AAT. Göttingen: Hogrefe. Huffcutt, A. I., Conway, J. M., Roth, P. L. & Klehe, U. C. (2004). The impact of job complexity and study design on situational and behavior description interview validity. International Journal of Selection and Assessment, 12, 262-273. Hundleby, J., Pawlik, K. & Cattell, R. B. (1965). Personality factors in objective test devices. San Diego: Knapp. Hunter, J. E. & Schmidt, F. L. (1976). Critical analysis of the statistical and ethical implications of various definitions of test bias. Psychological Bulletin, 83, 1053-1071. Husslein, E. (1978). Der Schulangst-Test. Göttingen: Hogrefe. Hylla, E. & Kraak, B. (1976). Aufgaben zum Nachdenken AZN (3. Aufl., 1. Aufl. 1965). Weinheim: Beltz. Ihl, R. & Weyer, G. (1993). Alzheimer’s Disease Assessment Scale ADAS. Weinheim: Beltz. Ingenkamp, K. (1988). Pädagogische Diagnostik. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 423-436). München: Psychologie Verlags Union. Ingenkamp, K., Jäger, R. S. & Horn, R. (Hrsg.). (1981). Tests und Trends. Jahrbuch der Pädagogischen Diagnostik. Weinheim: Beltz. Ingenkamp, K., Wolf, B., Christmann, H., Lißmann, U., Knapp, A. & Haenisch, H. (1977). Bildungs-Beratungs-Test für 4. bis 6. Klassen BBT 4-6. Weinheim: Beltz. Institut für Test- und Begabungsforschung. (1990). Test für Medizinische Studiengänge TMS (3. Aufl., 1. Aufl. 1987). Göttingen: Hogrefe. Irle, M. & Allehoff, W. (1984). Berufs-Interessen-Test II (BIT II). Göttingen: Hogrefe. Iseler, A. (1967). Zur varianzanalytischen Schätzung der Auswertungsobjektivität von psychologischen Tests. Diagnostica, 13, 135-148. Ittner, E. & Halsig, N. (1993). Prognostische Relevanz des Auswahlgesprächs als qualitativ neue Methode beim Zugang zum Studium der Medizin. In F. Baumgärtel (Hrsg.), Klinische Psychologie im Spiegel ihrer Praxis (S. 113-119). Bonn: Deutscher Psychologenverlag. Jaccard, J. J. (1974). Predicting social behavior from personality traits. Journal of Research in Personality, 1, 358-367. Jäckel, U. (1980). Partnerwahl und Ehe-Erfolg. Stuttgart: Enke. Jackson, D. N. (1967). Manual for the Personality Research Form (2nd ed. 1974). Goshen: Research Psychologists Press. Jacobi, C., Thiel, A. & Paul, T. (1995). Kognitive Verhaltenstherapie bei Anorexia und Bulimia nervosa. Weinheim: Psychologie Verlags Union. Jacobson, N. S, Folette, W. C. & Revenstorf, D. (1984). Psychotherapy outcome research: Methods for reporting variability and evaluating clinical significance. Behavior Therapy, 15, 336-352. Jacobson, N. S. & Revenstorf, D. (1988). Statistics for assessing the clinical significance of psychotherapy techniques: Issues, problems, and new developments. Behavioral Assessment, 10, 133-145. Jacobson, N. S. & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful change in psychotherapy research. Journal of Consulting and Clinical Psychology, 59, 12-19. Jäger, A. O. (1963). Der Wilde Test, ein neues Intelligenzdiagnostikum. Zeitschrift für Experimentelle und Angewandte Psychologie, 10, 260-278. Jäger, A. O. (1984). Intelligenzstrukturforschung: Konkurrierende Modelle, neue Entwicklungen, Perspektiven. Psychologische Rundschau, 35, 21-35. Jäger, A. O. & Althoff, K. (1994). Wilde-Intelligenztest WIT (1. Aufl.age 1983). Göttingen: Hogrefe. Jäger, A. O, Süß, H.-M. & Beauducel, A. (1997). Berliner Intelligenzstruktur-Test (Form 4; BIS-4). Göttingen: Hogrefe. Jäger, A. O. & Todt, E. (1964). Zur Faktorenstruktur des WIT bei 17jährigen; Faktorenanalyse der WIT-Langformen. Diagnostica, 10, 3-14. Jäger, R. S. (1970). Personalauslese. In A. Mayer & B. Herwig (Hrsg.), Handbuch der Psychologie, Bd. IX: Betriebspsychologie (S. 613-667). Göttingen: Hogrefe. Jäger, R. S. (1982). Diagnostische Urteilsbildung. In K. J. Groffmann & L. Michel (Hrsg.). Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 1: Grundlagen psychologischer Diagnostik (S. 295-375). Göttingen: Hogrefe. Jäger, R. S. (1986). Der diagnostische Prozeß (2. Aufl., 1. Aufl. 1983). Göttingen: Hogrefe. Jäger, R. S. (1986). Measuring examiner and examinee reactions to each other and to the psychodiagnostic situation. In B. Nevo & R. S. Jäger (Eds.), Psychological testing: The examinee perspective (pp. 129-149). Göttingen: Hogrefe. Jäger, R. S. (1988). Der diagnostische Prozeß. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 382-386). München: Psychologie Verlags Union. Jäger, R. S., Mattenklott, A. & Schröder, R. D. (Hrsg.). (1984). Diagnostische Urteilsbildung in der Psychologie. Göttingen: Hogrefe. Jäger, R. S. & Petermann, F. (1992). Psychologische Diagnostik (2. veränderte Aufl.). Weinheim: Psychologie Verlags Union. Janke, W. (1971). Klassifikation. In R. Heiss, K. J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie in 12 Bänden, Bd. 6: Psychologische Diagnostik (3. Aufl., S. 901-929). Göttingen: Hogrefe. Janke, W. (1973). Das Dilemma von Persönlichkeitsfragebogen. Einleitung des Symposiums über Konstruktion von Fragebogen. In G. Reinert (Hrsg.), Bericht über den 27. Kongreß der Deutschen Gesellschaft für Psychologie in Kiel 1970. Göttingen: Hogrefe. Janke, W. (1982). Klassenzuordnung. In K. J. Groffmann & L. Michel (Hrsg.), Grundlagen psychologischer Diagnostik (S. 376-466). Göttingen: Hogrefe. Janke, W. & Debus, G. (1978). Die Eigenschaftswörterliste EWL. Göttingen: Hogrefe. Janke, W. & Erdmann, G. (Hrsg.). (1996). Streßverarbeitungsfragebogen (SVF 120). Kurzbeschreibung und grundlegende Kennwerte. Göttingen: Hogrefe. Janke, W. & Erdmann, G. (2002). SVF 78: Eine Kurzform des Stressverabeitungsfragebogens SVF 120. Göttingen: Hogrefe. Janke, W., Erdmann, G. & Kallus, W. (1985). Streßverarbeitungs-Fragebogen SVF. Göttingen: Hogrefe. Janke, W., Erdmann, G. & Kallus, K. W. (2002). SVF mit SVF 120 und SVF 78. Stressverarbeitungsfragebogen (3., erweiterte Auflage). Göttingen: Hogrefe. Janke, W. & Hüppe, M. (1991). Emotionalität. In W. D. Oswald, W. M. Herrmann, S. Kanowski, U. M. Lehr & H. Thomae (Hrsg.), Gerontologie (2. Aufl., S. 88-124). Stuttgart: Kohlhammer. Jensen, A. R. (1980). Bias in mental testing. London: Methuen. Jeserich, W. (1981). Mitarbeiter auswählen und fördern: Assessment Center-Verfahren. München: Hanser. Joerin, S., Stoll, F., Bergmann, C. & Eder, F. (2000). EXPLORIX - das Werkzeug zur Berufswahl und Laufbahnplanung. Deutschsprachige Adaptation des Self-directed Search (SDS) nach John Holland. Bern: Huber. Literaturverzeichnis 583 584 Literaturverzeichnis Johansen, I. (1972). Gruppenbildung und Soziometrie. In E. Meyer (Hrsg.), Gruppenpädagogik zwischen Moskau und New York (S. 140-149). Heidelberg: Quelle & Meyer. Johnson, D. W., Maruyama, G., Johnson, R., Nelson, D. & Skon, L. (1981). Effects of cooperative, competitive, and individualistic goal structures on achievement: A metaanalysis. Psychological Bulletin, 89, 47-62. Jungnitsch, G. (1992). Schmerz- und Krankheitsbewältigung bei rheumatischen Erkrankungen. München: Quintessenz. Kaiser, A. & Hahlweg, K. (1996). Kommunikations- und Problemlösetraining. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 371-385). Berlin, Heidelberg, New York: Springer. Kallus, K. W. & Janke, W. (1992). Klassenzuordnung. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (S. 170-186). Weinheim: Psychologie Verlags Union. Kaminski, G. (1970). Verhaltenstheorie und Verhaltensmodifikation. Stuttgart: Klett. Kämmerer, A. (1983). Die therapeutische Strategie »Problemlösen«. Theoretische und empirische Perspektiven ihrer Anwendung in der Kognitiven Psychotherapie. Münster: Aschoff. Kanfer, F. H., Reinecker, H. & Schmelzer, D. (2006). Selbstmanagement-Therapie (4. Aufl.). Berlin: Springer. Kanfer, F. H. & Saslow, G. (1976). Verhaltenstheoretische Diagnostik. In D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (2. Aufl., 1. Aufl. 1974; S. 24-59). München: Urban & Schwarzenberg. Kanfer, R., Dugdale, B. & Mc Donald, B. (1994). Empirical findings on the action control scale in the context of complex skill aggression. In J. Kuhl & J. Beckmann (Eds.), Volition and personality. Action vs. state orientation (pp. 61-77). Seattle: Hogrefe und Huber. Kanning, U. P. (2003). Sieben Anmerkungen zum Problem der Selbstdarstellung in der Personalauswahl. Zeitschrift für Personalpsychologie, 2, 193-195. Karnath, H.-O. (2000). Vernachlässigung – Neglect. In W. Sturm, M. Herrmann & C. W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 366-374). Lisse, NL: Swets & Zeitlinger. Kastner, M. (1978). Zur Problematik von Tests zum Übergang an weiterführende Schulen. Psychologie in Erziehung und Unterricht, 25, 9-15. Kaufman, A. S., Kaufman, N. L., Melchers, P. & Preuß, U. (2001). Kaufman Assessment Battery for Children, Deutsche Version (6., teilweise ergänzte Auflage). Göttingen: Hogrefe. Kautter, H. (1975). Zur Klassifikation und schulischen Plazierung von Lernbehinderten. Zeitschrift für Heilpädagogik, 26, 222-238. Kautter, H. (1979). Der Übergang zu Sonderschulen. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (Bd. 4, S. 977-988). Düsseldorf: Schwann. Kavale, K. A. (1990). Variances and varieties in learning disability interventions. In T. E. Scruggs & B. Y. L. Wong (Eds.), Intervention research in learning disabilities (pp. 3-33). Berlin, Heidelberg, New York: Springer. Keats, J. A. (1957). Estimation of error variances of test scores. Psychometrika, 22, 29-41. Kelly, G. A. (1955). The psychology of personal constructs. New York: Norton. Kemmler, L. (1967). Erfolg und Versagen auf der Grundschule. Göttingen: Hogrefe. Kent, R. N., O’Leary, K. D., Dietz, A. & Diamant, C. (1979). Comparision of observational recordings in vivo via mirror and via television. Journal of Applied Behavior Analysis, 12, 517522. Kenrick, D. T. & Stringfield, D. O. (1980). Personality traits and the eye of the beholder: Crossing some traditional boundaries in the search for consistency in all of the people. Psychological Review, 87, 88-104. Kern, A. (1951). Sitzenbleiberelend und Schulreife. Freiburg: Herder. Kersting, M. (1995). Der Einsatz »westdeutscher« Tests zur Personalauswahl in den Neuen Bundesländern und die Fairneßfrage. Report Psychologie, 20, 32-41. Kersting, M. (1999a). Diagnostik und Personalauswahl mit computergestützten Problemlöseszenarien? Zur Kriteriumsvalidität von Problemlöseszenarien und Intelligenztests. Göttingen: Hogrefe. Kersting, M. (1999b). Intelligenz-Struktur-Test 2000 (IST 2000). In E. Fay (Hrsg), Tests unter der Lupe II (S. 88-115). Lengerich: Pabst. Keßler, B. H. (1976). Elternanamnese zur Erziehungsberatung. In L. R. Schmidt & B. H. Keßler (Hrsg.), Anamnese (S. 294-305). Weinheim: Beltz. Keßler, B. H. (1982). Biographische Diagnostik. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 3: Persönlichkeitsdiagnostik (S. 1-56). Göttingen: Hogrefe. Keßler, B. H. (1988). Daten aus dem Interview. In R. S. Jäger (Hrsg.), Psychologische Diagnostik – ein Lehrbuch (363-372). München: Psychologie Verlags Union. Kessler, J., Denzler, P. & Markowitsch, H. J. (1988). Demenztest. Weinheim: Beltz. Kessler, J. & Kalbe, E. (2000). Gerontoneuropsychologie – Grundlagen und Pathologie. In W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 648-673). Lisse, NL: Swets & Zeitlinger. Kessler, J., Markowitsch, H. J. & Denzler, P. (1990). Mini Mental Status Test MMST. Weinheim: Beltz. Kessler, J., Schaaf, A. & Mielke, R. (1993). Fragmentierter Bildertest. Göttingen: Hogrefe. Kici, G. & Westhoff, K. (2000). Anforderungen an psychologisch-diagnostische Interviews in der Praxis Report Psychologie, 25, 428-436. Kiesler, D. J., Anchin, J. C., Perkins, M. J., Chirico, B. M., Kyle, E. M. & Federman, E. J. (1976). The Impact Message Inventory IMI. Richmond: Virginia Commonwealth University. Kind, H. (1973). Leitfaden für die psychiatrische Untersuchung. Berlin, Heidelberg, New York: Springer. Kiresuk, T., Smith, A. & Cardillo, J. E. (Eds.). (1994). Goal attainment scaling: Applications, theory, and measurement. Hillsdale: Lawrence Erlbaum Associates. Kisser, R. (1992). Adaptive Strategien. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 161-170). Weinheim: Psychologie Verlags Union. Klages, H. (1980). Organisationsanalyse in der öffentlichen Verwaltung. In E. Grochla (Hrsg.), Handwörterbuch der Organisation (S. 1460-1468). Stuttgart: Poeschel. Klages, U. (1989). Zur Entwicklung eines Fragebogens irrationaler Einstellungen: Ergebnisse einer Repräsentativbefragung. Zeitschrift für Psychologie, Psychopathologie und Psychotherapie, 37, 5-13. Klages, U. (1989). Fragebogen irrationaler Einstellungen FIE. Göttingen: Hogrefe. Klauer, K. C. (1991). An exact and optimal standardized person fit test for assessing consistency with the Rasch model. Psychometrika, 56, 213-228. Klauer, K. C. (1995). The assessment of person fit. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 97-110). New York: Springer. Klauer, K. J. (1972). Zur Theorie und Praxis des binomialen Modells lehrzielorientierter Tests. In K. J. Klauer, R. Fricke, M. Herbig, H. Rupprecht & F. Schott (Hrsg.), Lehrzielorientierte Tests (S. 161-201). Düsseldorf: Schwann. Klauer, K. J. (1987). Kriteriumsorientierte Tests. Göttingen: Hogrefe. Klauer, K. J., Fricke, R., Herbig, M., Rupprecht, H. & Schott, F. (Hrsg.), (1972). Lehrzielorientierte Tests. Düsseldorf: Schwann. Kleber, E. W. (1979). Tests in der Schule. München: Reinhardt. Kleber, E. W. & Fischer, R. (1982). Anweisungs- und Sprachverstehenstest. Weinheim: Beltz. Klein, F. J. (1982). Die Rechtmäßigkeit psychologischer Tests im Personalbereich. Gelsenkirchen: Manhald. Klepsch, R., Zaworka, W., Hand, I., Lünenschloß, K. & Jauernig, G. (1993). Hamburger Zwangsinventar-Kurzform HZI-K. Weinheim: Beltz. Klimoski, R. & Brickner, M. (1987). Why do assessment centers work? The puzzle of assessment center validity. Personnel Psychology, 40, 243-260. Klinck, D. (2002). Computergestützte Diagnostik: Beeinflusst das Medium der Testverarbeitung die Testcharakteristika, die Testfairness oder das Erleben der Testsituation? Göttingen: Hogrefe. Knowles, E. S. (1988). Item context effects on personality scales: Measuring changes the measure. Journal of Personality and Social Psychology, 55, 312-320. Koch, C. (1981). Fragebogen zur Abschätzung psychosomatischen Krankheitsgeschehens FAPK. Weinheim: Beltz. Köhler, T. (1979). Teststatistische Anforderungen an ein State-Meßinstrument. Diagnostica, 25, 64-75. Köller, O. (1993). Die Identifikation von Ratern bei Leistungstests mit Hilfe des Mixed-RaschModells. Vortrag auf der 1. Tagung der Fachgruppe Methoden der Deutschen Gesellschaft für Psychologie in Kiel. Empirische Pädagogik (o. A.). Literaturverzeichnis 585 586 Literaturverzeichnis Koppenhöfer, E. (2004). Kleine Schule des Genießens. Ein verhaltenstherapeutisch orientierter Behandlungsansatz zum Aufbau positiven Erlebens und Verhaltens. Lengerich: Pabst. Kormann, A. (Hrsg.). (1987). Beurteilen und Fördern in der Erziehung. Salzburg: Müller. Kornmann, R. (1977a). Diagnose von Lernbehinderungen. Weinheim: Beltz. Kornmann, R. (1977b). Testbatterie zur Untersuchung entwicklungsrückständiger Schulanfänger TES. Weinheim: Beltz. Kornmann, R., Meister, H. & Schlee, J. (Hrsg.). (1983). Förderungsdiagnostik (2. Aufl. 1986). Heidelberg: Schindele. Kraak, B. & Nord-Rüdiger, D. (1989). Fragebogen zu Lebenszielen und zur Lebenszufriedenheit FLL. Göttingen: Hogrefe. Krämer, H.-J. & Schneider, J. F. (1987). Validität von Fragebogendaten in Abhängigkeit von Antwort-Zeit-Instruktionen und der intraindividuellen Variabilität der Probanden. Psychologische Beiträge, 29, 458-468. Krampen, G. (1981). IPC – Fragebogen zur Erfassung generalisierter Kontrollüberzeugungen. Göttingen: Hogrefe. Krampen, G. (1986). Zur Validität der deutschen Form des 16 PF. Faktorielle Validität und Beziehungen zum FPI. Diagnostica, 32, 91-99. Krampen, G. (1996). Kreativitätstest für Vorschul- und Schulkinder. Version für die psychologische Anwendungspraxis (KVS-P). Handanweisung. Göttingen: Hogrefe. Krauth, J. (1995). Testkonstruktion und Testtheorie. Weinheim: Beltz, Psychologie Verlags Union. Kröber, H.-L. & Steller, M. (Hrsg.). (2000). Psychologische Begutachtung im Strafverfahren: Indikationen, Methoden und Qualitätsstandards. Darmstadt: Steinkopff. Kroger, R. O. & Turnbull, W. (1975). Invalidity of validity scales: The case of the MMPI. Journal of Consulting and Clinical Psychology, 43, 238-260. Krohne, H. W. (1980). Prüfungsangst: Defensive Motivation in selbstwertrelevanten Situationen. Unterrichtswissenschaft, 8, 226-242. Krohne, H. W. & Hindel, C. (1988). Trait anxiety, state anxiety, and coping behavior as predictors of athletic performance. Anxiety Research, 1, 225-234. Krohne, H. W. & Pulsack, A. (1990). Erziehungsstilinventar. Weinheim: Beltz. Kröner-Herwig, B. & Sachse, R. (1988). Biofeedbacktherapie (2. Aufl.). Stuttgart: Kohlhammer. Krüger, C. & Amelang, M. (1995). Bereitschaft zu riskantem Verhalten als Trait-Konstrukt und TestKonzept. Zur Entwicklung eines Fragebogens auf der Basis des Handlungs-Häufigkeits-Ansatzes. Diagnostica, 41, 1-18. Kruse, L. (1980). Privatheit als Gegenstand und Problem der Psychologie. Bern: Huber. Kubinger, K. D. (1987). Adaptives Testen. In R. Horn, K. Ingenkamp & R. S. Jäger (Hrsg.), Tests und Trends – 6. Jahrbuch der Pädagogischen Diagnostik (S. 103-127). München: Psychologie Verlags Union. Kubinger, K. D. (1988). Aktueller Stand und kritische Würdigung der probabilistischen Testtheorie. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 19-83). Weinheim: Beltz. Kubinger, K. D. (Hrsg.). (1988). Moderne Testtheorie. Weinheim: Psychologie Verlags Union. Kubinger, K. D. (Hrsg.). (1989). Moderne Testtheorie – ein Abriß samt neuesten Beiträgen (2. Aufl.). Weinheim: Psychologie Verlags Union. Kubinger, K. D. (1992). Testtheorie: Probabilistische Modelle. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 322-334). Weinheim: Psychologie Verlags Union. Kubinger, K. D. (1995). Einführung in die Psychologische Diagnostik. Weinheim: Psychologie Verlags Union. Kubinger, K. D. (1995). Objektive Diagnostik. In K. Pawlik (Hrsg.), Enzyklopädie der Psychologie. Differentielle Psychologie, 1, Grundlagen und Methoden (S. 507-541). Göttingen: Hogrefe. Kubinger, K. D. (1996). Methoden der psychologischen Diagnostik. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 567-576). Weinheim: Psychologie Verlags Union. Kubinger, K. D. & Ebenhöh, J. (1996). Arbeitshaltungen – Kurze Testbatterie. Anspruchsniveau, Frustrationstoleranz, Leistungsmotivation, Impulsivität/Reflexivität. Frankfurt/M.: Swets. Kubinger, K. D., Fischer, D. & Schuhfried, G. (1993). Begriffs-Bildungs-Test (BBT). Mödling: Dr. G. Schuhfried. Kubinger, K. D., Wagner, M. & Alexandrowicz, R. (1998). Zur Interpretation der Paardiagnostik mit dem Gießen-Test. Psychotherapie, Psychosomatik und Medizinische Psychologie, 49, 249-253. Kubinger, K. D., & Wurst E. (1991). Adaptives Intelligenz Diagnostikum AID. Weinheim: Beltz. Kubinger, K. D., & Wurst, E. (2001). AID 2: Adaptives Intelligenz Diagnostikum 2. Göttingen: Hogrefe. Kuder, G. F. & Richardson, W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151-160. Kuhl, J. (1990). Kurzanweisung zum Fragebogen HAKEMP 90. Unveröffentliches Manuskript. Osnabrück. Kuhl, J. (1994a). A theory of action and state orientations. In J. Kuhl und J. Beckmann (Eds.), Volition and personality. Action vs. state orientation (pp. 9-46). Seattle: Hogrefe & Huber. Kuhl, J. (1994b). Action vs. state orientation: Psychometric properties of the action control scale (ACS-90). In J. Kuhl & J. Beckmann (Eds.), Volition and personality. Action vs. state orientation (pp. 47-59). Seattle: Hogrefe und Huber. Kuhl, J. & Fuhrmann, A. (1995). Funktionskomponenten des Willens im Selbsterleben. Kurzmanual für den Fragebogen VCC. Unveröffentlichtes Manuskript. Osnabrück. Kurth, E. & Büttner, G. (1999). TPK Testreihe zur Prüfung der Konzentrationsfähigkeit (2., neu bearbeitete Auflage). Göttingen: Hogrefe. Kurth, E., & Büttner, G. (2004). Testreihe zur Prüfung der Konzentrationsfähigkeit (TPK). In G. Büttner & L. Schmidt-Atzert (Hrsg.), Diagnostik von Konzentration und Aufmerksamkeit (S. 143-159). Göttingen: Hogrefe. Lakatos, A. & Reinecker, H. (2001). Kognitive Verhaltenstherapie bei Zwangsstörungen – Ein Therapiemanual (2. Aufl.). Göttingen: Hogrefe. Lambert, M. J., Bergin A. E. & Garfield, S. L. (2003). Handbook of Psychotherapy and Behavior Change (5th ed.). New York: Wiley. Lamiell, J. T. (1987). The psychology of personality: An epistemological inquiry. New York: Columbia University Press. Lang, A. (1978). Diagnostik und Autonomie der Person. In U. Pulver, A. Lang & F. W. Schmid (Hrsg.), Ist Psychodiagnostik verantwortbar? (S. 17-30). Bern: Huber. Langer, E. J. & Abelson, R. P. (1974). A patient by any other name: Clinician group difference in labeling bias. Journal of Consulting and Clinical Psychology, 42, 4-9. Langfeldt, H.-P. & Tent, L. (1999). Pädagogisch-psychologische Diagnostik. Bd. 2: Anwendungsbereiche und Praxisfelder. Göttingen: Hogrefe. Laux, L. & Glanzmann, P. G. (1996). Angst und Ängstlichkeit. In M. Amelang (Hrsg.), Enzyklopädie der Psychologie. Differentielle Psychologie (Bd. 3, 107-151). Göttingen: Hogrefe. Laux, L., Glanzmann, P., Schaffner, P. & Spielberger, C. D. (1981). State-Trait-Angst-Inventar STAI. Weinheim: Beltz. Lazarsfeld, P. F. (1950). The logical and mathematical foundation of latent structure analysis. In S. A. Stouffer, L. Guttman, E. A. Suchman, P. F. Lazarsfeld, S. A. Star & J. A. Clausen (Eds.), Studies in social psychology in World War II, Vol IV: Measurement and prediction (pp. 362-472). Princeton, NJ: Princeton University Press. Lazarsfeld, P. F. & Henry, N. W. (1968). Latent structure analysis. Boston: Houghton Mifflin. Lazarus, A. A. (1976). Multimodale Verhaltenstherapie. Frankfurt: Fachbuchhandlung für Psychologie. Lehrl, S. & Gallwitz, A. (1977). Erlanger Depressions-Skala EDS. Göttingen: Hogrefe. Lehrl, S., Merz, J., Erzigkeit, H. & Galster, V. (1974). MWT-A Mehrfachwahl-Wortschatz-Test, Form A. Balingen: Spitta Verlag. Leichner, R. (1979). Psychologische Diagnostik. Grundlagen, Kontroversen, Praxisprobleme. Weinheim: Beltz. Leidig, S. & Pein, A. V. (1994). Stationäre Gruppentherapie für Patienten mit chronifizierten somatoformen Störungen. In M. Zielke & J. Sturm (Hrsg.), Handbuch stationäre Verhaltenstherapie (S. 533-539). Weinheim: Psychologie Verlags Union. Lersch, Ph. (1948). Der Aufbau des Charakters. Leipzig: Johann Ambrosius Barth-Verlag. Lewrenz, H. (2000). Begutachtungs-Leitlinien zur Kraftfahrereignung des Gemeinsamen Beirats für Verkehrsmedizin beim Bundesministerium für Gesundheit. Berichte der Bundesanstalt für Straßenwesen (Heft M 115). Lezak, M. D. (1995). Neuropsychological assessment (3. Aufl.). New York: Oxford University Press. Lienert, G. A. (1964). Mechanisch-technischer Verständnistest MTVT. Göttingen: Hogrefe. Lienert, G. A. (1967a). Testaufbau und Testanalyse (2. Aufl., 1. Aufl. 1961). Weinheim: Beltz. Literaturverzeichnis 587 588 Literaturverzeichnis Lienert, G. A. (1967b). Drahtbiegeprobe. Göttingen: Hogrefe. Lienert, G. A. (1989). Testaufbau und Testanalyse (4. Aufl.). München: Psychologie Verlags Union. Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz. Lienert, G. A. & Schuler, H. (1994). Revidierter Allgemeiner Büro-Arbeitstest ABAT-R (3. Aufl., 1. Aufl. 1967). Göttingen: Hogrefe. Lilienfeld, S. O., Wood, J. M. & Garb, H. N. (2000). The scientific status of projective techniques. Psychological Science in the Public Interest, 1, 27-66. Linden, W. J. van der & Hambleton, R. K. (Eds.). (1996). Handbook of modern item response theory. New York: Springer. Linehan, M. M. (1993). Skills training manual for treating borderline personality disorder. New York: Guilford Press. Linn, R. L. (1973). Fair test use in selection. Review of Educational Research, 43, 139-161. Littmann, E. (2000). Forensische Neuropsychologie – Aufgaben, Anwendungsfelder und Methoden. In H.-L. Kröber & M. Steller (Hrsg.), Psychologische Gutachten im Strafverfahren: Indikationen, Methoden und Qualitätsstandards (S. 57-75). Darmstadt: Steinkopff. Lockowandt, O. (1987). Frostig Entwicklungstest der visuellen Wahrnehmung FEW (5. Aufl., 1. Aufl. 1974). Weinheim: Beltz. Loevinger, J. (1947). A systematic approach to the construction and evaluation of tests of ability. Psychological Monographs, 64, 285. Loevinger, J. (1957). Objective tests as instruments of psychological theory. Psychological Reports, 3, 635-694. Loftus, E. F. (1979). Eyewitness testimony. Cambridge, MA: Harvard University Press. Loranger, A. W. (1996). IPDE. International Personality Disorder Examination. ICD-10 Modul. Deutschsprachige Ausgabe von W. Mombour, M. Zaudig, P. Berger, K. Gutierrez, W. Berner, K. Berger, M. v. Cranach, O. Giglhuber, M. v. Bose. Bern: Huber. Lord, F. M. (1955). Estimating test reliability. Educational and Psychological Measurement, 15, 325-336. Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale: Erlbaum. Lord, F. N. & Novick, M. R. (1974). Statistical theories of mental test scores (2nd ed., 1st ed. 1968). Reading, MA: Addison-Wesley. Lubin, A. (1957). Some formulae for use with suppressor variables. Educational and Psychological Measurement, 17, 286-296. Luborsky, L. (1984). Principles of psychoanalytical psychotherapy. New York: Basic Books. Lück, H. E. & Timaeus, E. (1969). Skalen zur Messung Manifester Angst (MAS) und sozialer Wünschbarkeit (SDS-E und SDS-MC). Diagnostica, 15, 134-141. Lüer, G., Cohen, R. & Nauck, W. W. (1966). Eine Kurzform der Vineland Social Maturity Scale für minderbegabte Kinder. Praxis der Kinderpsychologie und Kinderpsychiatrie, 15, 101-105. Lug, J. M. (1985). Psycholinguistisches Sprachförderungsprogramm. Weinheim: Beltz. Lukan, U. & Blöschl, L. (1977). Verhaltenstherapeutisch orientierte Behandlung von Lernschwierigkeiten. Unterrichtswissenschaft, 5, 325-332. Lutz, R. (1978). Das verhaltensdiagnostische Interview. Stuttgart: Kohlhammer. Lutz, R. (1996). Euthyme Therapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 335-351). Berlin, Heidelberg, New York: Springer. Lutz, R. (2000). Gesundheit und Genuss: Euthyme Grundlagen der Verhaltenstherapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 2, S. 167-182). Heidelberg: Springer. MacAndrew, L. (1965). The differentiation of male alcoholic outpatients from nonalcoholic psychiatric outpatients by means of the MMPI. Quaterly Journal of Studies on Alcohol, 26, 238-246. Maercker, A. (2000a). Operante Verfahren. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 2, S. 541-550). Berlin, Heidelberg, New York: Springer. Maercker, A. (2000b). Systematische Desensibilisierung. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 2, S. 405-412). Berlin, Heidelberg, New York: Springer. Mahoney, M. J. (1977). Kognitive Verhaltenstherapie. Neue Entwicklungen und Integratonsschritte. München: Pfeiffer. Mai, N. (1976). Zur Anwendung der additiven Nutzentheorie bei der Bewertung von Therapien. Zeitschrift für Klinische Psychologie, 5, 180-193. Malloy, T. E., Agatstein, F., Yarlas, A. & Albright, L. (1997). Effects of communication, information overlap, and behavioural consistency on consensus in social perception. Journal of Personality and Social Psychology, 73, 270-280. Manns, M., Schultze, J., Herrmann, C. & Westmeyer, H. (1987). Beobachtungsverfahren in der Verhaltensdiagnostik. Salzburg: Müller. Marchese, M. C. & Muchinski, P. M. (1993). The validity of the employment interview: A metaanalysis. International Journal of Selection and Assessment, 1, 18-26. Marcus, B. (2003). Das Wunder sozialer Erwünschtheit in der Personalauswahl. Zeitschrift für Personalauswahl, 2, 129-132. Margraf, J. (1994). Mini-DIPS. Diagnostisches Kurz-Interview bei psychischen Störungen. Berlin, Heidelberg, New York: Springer. Margraf, J. (2000). Therapieindikation. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, 2. Aufl.; S. 145-154). Berlin, Heidelberg, New York: Springer. Margraf, J. & Schneider, S. (1990). Panik. Angstanfälle und ihre Behandlung. Berlin, Heidelberg, New York: Springer. Margraf, J., Schneider, S. & Ehlers, A. (1994). Diagnostisches Interview bei psychischen Störungen DIPS (2. Aufl., 1. Aufl. 1991). Berlin, Heidelberg, New York: Springer. Mariacher, H. & Neubauer, A. (2005). PAI30: Test zur Praktischen Alltagsintelligenz. Göttingen: Hogrefe. Marks, I. M. & Mathews, A. M. (1990). Angstfragebogen. In G. Hank, K. Hahlweg & N. Klann (Hrsg.), Diagnostische Verfahren für Berater. Materialien zur Diagnostik und Therapie in Ehe-, Familien- und Lebensberatung (S. 263-267). Göttingen: Beltz-Test. Marschner, G. (1972). Revisions-Test (Rev.T.) nach Dr. Berthold Stender: Ein allgemeiner Leistungstest zur Untersuchung anhaltender Konzentration bei geistiger Tempoarbeit. Göttingen: Hogrefe. Marschner, G. (1981a). Büro-Test BT (2. Aufl., 1. Aufl. 1967). Göttingen: Hogrefe. Marschner, G. (1981b). Untersuchungen mit dem Lern- und Gedächtnis-Test LGT 3 bei Facharbeitern. Diagnostica, 27, 261-265. Marschner, G. (1982). Untersuchungen zur Reliabilität und Retest-Stabilität des Prüfsystems für Schul- und Bildungsberatung PSB. Diagnostica, 28, 263-272. Marschner, G., Stender, B. & Hamster, W. (1989). Revisions-Test (4. Aufl., 1. Aufl. 1972). Göttingen: Hogrefe. Martin, B. A., Bowen, C. C. & Hunt, S. T. (2002). How effective are people at faking on personality questionnaires? Personality and Individual Differences, 32, 247-256. Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149-174. Masters, G. N. & Wright B. D. (1984). The essential process in a family of measurement models. Psychometrika, 49, 529-544. Mathews, A. M., Gelder, M. & Johnston, D. (1988). Platzangst - Eine Anleitung zur Durchführung einer Exposition in-vivo unter Einsatz eines Selbsthilfemanuals. Berlin, Heidelberg, New York: Springer. McCormick, E. J., Jeanneret, P. R. & Mecham, R. C. (1969). The development and background of the Position Analysis Questionnaire (PAQ). Purdue University: Occupational Research Center. McDaniel, M. A., Whetzel, D. L., Schmitt, F. L. & Maurer, S. D. (1994). The validity of employment interviews: A comprehensive review and meta-analysis. Journal of Applied Psychology, 79, 599-616. McNemar, J. (1962). Psychological statistics. New York: Wiley. Mead, A. D. & Drasgow, F. (1993). Equivalence of computerized and paper-and-pencil cognitive ability tests: A meta-analysis. Psychological Bulletin, 114, 449-458. Meehl, P. E. (1954). Clinical vs. statistical prediction. Minneapolis: University of Minnesota Press. Mees, U. (1977). Einführung in die systematische Verhaltensbeobachtung. In U. Mees & H. Selg (Hrsg.), Verhaltensbeobachtung und Verhaltensmodifikation (S. 14-32). Stuttgart: Klett. Mees, U. & Selg, H. (Hrsg.), (1977). Verhaltensbeobachtung und Verhaltensmodifikation. Stuttgart: Klett. Meichenbaum, D. (1995). Kognitive Verhaltensmodifikation (2. Aufl.). Weinheim: Psychologie Verlags Union. Melchers, P. & Lehmkuhl, G. (2000). Neuropsychologie des Kindes- und Jugendalters. In W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 613-647). Lisse, NL: Swets & Zeitlinger. Literaturverzeichnis 589 590 Literaturverzeichnis Melchers, P. & Preuß, U. (1994). Kaufman-Assessment Battery for Children K-ABC (1. Aufl. 1991). Lisse, NL: Swets & Zeitlinger. Messick, S. (1991). Psychology and methodology of response styles. In R. E. Snow & D. E. Wiley (Eds.), Improving inquiry in social science: A volume in honor of Lee J. Cronbach (pp. 161-200). Hillsdale, N.J.: Erlbaum. Metzler, P. & Schmidt, K. H. (1992). Rasch-Skalierung des Mehrfachwahl-Wortschatztests (MWT). Diagnostica, 38, 31-51. Meyerhoff, H. & Dony, M. (1970). Die Zuverlässigkeit anamnestischer Angaben zur frühkindlichen Entwicklung. Zeitschrift für Kinderheilkunde, 108, 41-45. Michel, L. (1967). Die Auswertungsobjektivität des Intelligenz-Struktur-Tests (IST). Diagnostica, 13, 148-153. Michel, L. (1977). Hochschuleingangstest für das Studienfeld Medizin. Bonn: Kultusministerkonferenz. Michel, L. & Conrad, W. (1982). Theoretische Grundlagen psychometrischer Tests. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik (Bd. 1, S. 1-129). Göttingen: Hogrefe. Michel, L. & Mai, N. (1968). Entscheidungstheorie und Probleme der Diagnostik bei Cronbach & Gleser. Diagnostica, 14, 99-121. Michel, L. & Mai, N. (1969). Zur varianzanalytischen Schätzung der Auswertungsobjektivität und eine empirische Untersuchung des Hamburg-Wechsler-Intelligenz-Tests für Erwachsene (HAWIE). Psychologische Beiträge, 11, 23-33. Miesen, J., Schuhfried, G. & Wottawa, H. (1999). ELIGO: Eine vorläufige Antwort auf Grundprobleme der testgestützten Eignungsdiagnostik. Wirtschaftspsychologie, 6, 16-24. Milner, J. S. & Moses, T. (1972). Sexual responsivity as a function of test administrator’s gender. Journal of Consulting and Clinical Psychology, 39, 515. Miltner, W., Birbaumer, N. & Gerber, W.-D. (1986). Verhaltensmedizin. Berlin, Heidelberg, New York: Springer. Mischel, W. (1968). Personality and assessment. New York: Wiley. Mischel, W. (1977). The interaction of person and situation. In D. Magnusson & N. S. Endler (Eds.), Personality at the crossroads: Current issues in interactional psychology (pp. 333-352). Hillsdale: Erlbaum. Mittenecker, E. (1971). Subjektive Tests zur Messung der Persönlichkeit. In R. Heiss, K. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie: Bd. 6, Psychologische Diagnostik (3. Aufl., S. 461-427). Göttingen: Hogrefe. Möbus, C. (1978). Zur Fairness psychologischer Intelligenztests: Ein unlösbares Trilemma zwischen den Zielen von Gruppen, Individuen und Institutionen? Diagnostica, 24, 191234. Molenaar, I. W. (1995). Estimation of item parameters. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 39-51). Berlin, Heidelberg, New York: Springer. Molenaar, I. W. & Hoijtink, H. (1990). The many null distributions of person fit indices. Psychometrika, 55, 75-106. Monahan, J. (2003). Violence risk assessment. In A. M. Goldstein & I. B. Weiner (Eds.), Handbook of psychology: Forensic psychology (Vol. 11, pp. 527-540). New York: Wiley. Monson, Th. C., Hesley, J. W. & Chernick, L. (1982). Specifying when personality traits can and cannot predict behavior: An alternative to abandoning the attempt to predict single-act criteria. Journal of Personality and Social Psychology, 43, 385-399. Moog, W. (1955). Der Kinder-Apperzeptions-Test. Deutsche Bearbeitung des Children’s Apperception Test von Bellak & Bellak. Göttingen: Hogrefe. Moos, R. H. (1974a). Family environment scale (FES). Preliminary manual. Palo Alto: Stanford University, Social ecology laboratory Department of Psychiatry. Moos, R. H. (1974b). The Social Climate Scale: An Overview. Palo Alto, CA: Annual Reviews. Moosbrugger, H. (1984). Konzeptuelle Probleme und praktische Brauchbarkeit von Modellen zur Erfassung von Persönlichkeitsmerkmalen. In M. Amelang & H. J. Ahrens (Hrsg.), Brennpunkte der Persönlichkeitsforschung (S. 67-86). Göttingen: Hogrefe. Moosbrugger, H. (1990). Testtheorie und Testkonstruktion. Arbeiten aus dem Institut für Psychologie der Johann Wolfgang Goethe Universität, Heft 1. Moosbrugger, H. (1992). Testtheorie: Klassische Ansätze. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (2. Aufl., S. 310-322). Weinheim: Psychologie Verlags Union. Moosbrugger, H. & Frank, D. (1992). Clusteranalytische Methoden in der Persönlichkeitsforschung. Bern, Göttingen: Huber. Moosbrugger, H. & Frank, D. (1995). Clusteranalytische Verfahren zur typologischen Analyse. In K. Pawlik & M. Amelang (Hrsg.), Enzyklopädie der Psychologie: Serie VIII: Differentielle Psychologie (Bd. 1, S. 731-774). Göttingen: Hogrefe. Moosbrugger, H. & Goldhammer, F. (2005). Computerprogramm zur computergestützten Testauswertung des Frankfurter Aufmerksamkeits-Inventar FAIR (2., aktualisierte Auflage). Göttingen: Apparatezentrum. Moosbrugger, H. & Heyden, M. (1977). Frankfurter Adaptiver Konzentrationsleistungs-Test (FAKT). Bern, Göttingen, Toronto, Seattle: Hogrefe Huber Publishers. Moosbrugger, H. & Heyden, M. (1996). FAKT. Frankfurter Adaptiver Konzentrationsleistungs-Test. Testmanual, Version 1.5. Arbeiten aus dem Institut für Psychologie der Johann-WolfgangGoethe Universität Frankfurt/M., Heft 1. Moosbrugger, H. & Oehlschlägel, J. (1994). Frankfurter Aufmerksamkeitsinventar FAIR. Göttingen: Hogrefe. Moosbrugger, H. & Oehlschlägel, J. (1996). FAIR. Frankfurter Aufmerksamkeits-Inventar. Bern: Huber. Moosbrugger, H. & Zistler, R. (1993). Wie befreit man die Item-Trennschärfe von den Zwängen der Item-Schwierigkeit? Das SPS-Verfahren. Diagnostica, 39, 22-43. Morrison, J. (1995). The first interview. New York: Guilford Press. Moskowitz, D. S. (1982). Coherence and cross-situational generality in personality: A new analysis of old problems. Journal of Personality and Social Psychology, 43, 754-768. Mowrer, O. H. (1960). Learning theory and behavior. New York: Wiley. Müller, H. (1987). A Rasch model for continuous ratings. Psychometrika, 52, 165-181. Müller, H. (1997). Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen. Bern: Huber. Müller, R. (1980). Diagnostisches Soziogramm. Weinheim: Beltz. Mummendey, H. D. (1987). Die Fragebogen-Methode. Göttingen: Hogrefe. Murray, H. A. (1938). Explorations in personality. New York: Oxford University Press. Murray, H. A. (1936). Thematic Apperception Test. New York: Grune & Stratton. Murray, H. A. (1943). Thematic Apperception Test. Cambridge: Harvard University Press. Nährer, W. (1986). Schnelligkeit und Güte als Dimensionen kognitiver Leistungen. Berlin, Heidelberg, New York: Springer. Nauels, H.-U. & Klieme, E. (1994). Wie hat sich das »besondere Auswahlverfahren« bewährt? Prüfungsleistungen und Erfolgsraten von Medizinstudenten, die nach verschiedenen Kriterien zugelassen worden sind. In G. Trost (Hrsg.), Tests für Medizinische Studiengänge (TMS): Studien zur Evaluation (18. Arbeitsbericht) (S. 138-152). Bonn: Institut für Test- und Begabungsforschung. Nedopil, N. & Krupinski, M. (2001). Beispiel-Gutachten aus der Forensischen Psychiatrie. Stuttgart: Thieme. Neisser, U., Boodoo, G., Bouchard, T. J. Jr., Boykin, A. W., Brody, N., Ceci, S. J., Halpern, D. F., Loehlin, J. C., Perloff, R., Sternberg, R. J. & Urbina, S. (1996). Intelligence: Knowns and unknowns. American Psychologist, 51, 77-101. Nell, V. (2003). Konzentrations-Leistungs-Test, revidierte Fassung (KLT-R). In E. Fay (Hrsg.), Tests unter der Lupe 4: Aktuelle psychologische Testverfahren – kritisch betrachtet (S. 59-75). Göttingen: Vandenhoeck & Ruprecht. Nell, V., Bretz, J., & Sniehotta, F. F. (2004). KT 3-4 R. Konzentrationstest für 3. und 4. Klassen (revidierte Fassung). Göttingen: Hogrefe. Neubauer, R. (1980). Die Assessment Center Technik. Ein verhaltenstheoretischer Ansatz zur Führungskräfteauswahl. In R. Neubauer & L. v. Rosenstiel (Hrsg.), Handbuch der Angewandten Psychologie (Bd. 1, S. 122-158). München: Verlag Moderne Industrie. Neubauer, R. (1989). Implizite Eignungstheorien im Assessment Center. In C. Lattmann (Hrsg.), Das Assessment-Center-Verfahren der Eignungsbeurteilung. Sein Aufbau, seine Anwendung und sein Aussagegehalt (S. 191-221). Heidelberg: Physica-Verlag. Literaturverzeichnis 591 592 Literaturverzeichnis Neubauer, R. & Volkmann, D. (1989). Beobachtungs- und Beurteilungsprozesse im Assessment Center. In Arbeitskreis Assessment Center (Hrsg.), Assessment Center in der betrieblichen Praxis: Erfahrungen und Perspektiven (S. 137-159). Hamburg: Windmühle. Neuberger, O. (1989). Assessment Centers – Ein Handel mit Illusionen? In C. Lattmann (Hrsg.), Das Assessment-Center-Verfahren der Eignungsbeurteilung. Sein Aufbau, seine Anwendung und sein Aussagegehalt (S. 291-307). Heidelberg: Physica-Verlag. Neville, D. (1965). The relationship between reading skills and intelligence scores. Reading Teacher, 18, 257-261. Noack, H. & Petermann, F. (1992). Entscheidungstheorie. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (S. 295-310). Weinheim: Psychologie Verlags Union. Norman, W. T. & Goldberg, L. R. (1966). Raters, ratees, and randomness in personality structure. Journal of Personality and Social Psychology, 4, 681-691. Novick, M. R. & Peterson, N. S. (1976). Towards equalizing educational and employment opportunity. Journal of Educational Measurement, 13, 77-88. Obermair, W., Stoll, K. D. & Rickels, K. (1983). Test zur Erfassung der Schwere einer Depression TSD. Weinheim: Beltz. Obermann, C. (1992). Assessment Center. Wiesbaden: Gabler. O’Connor, Jr., E. F. (1972). Extending classical test theory to the measurement of change. Review of Educational Research, 42, 73-97. Oden, M. H. (1968). The fulfillment of promise: 40-year follow-up of the Terman gifted group. Genetic Psychology Monographs, 77, 3-93. Oehlschlägel, J. & Moosbrugger, H. (1991). Konzentrationsleistung ohne Konzentration? Zur Schätzung wahrer Leistungswerte im Aufmerksamkeits-Belastungs-Test d2. Diagnostica, 37, 42-51. Ones, D. S., Viswesvaran, C. & Reiss, A. D. (1996). Role of social desirability in personality testing for personnel selection: The red herring. Journal of Applied Psychology, 81, 660-679. Orendi, B., Pabst, J. & Udris, J. (1986). Kooperation in Arbeitsgruppen – Gruppentrainings zur Förderung sozialer Handlungskompetenzen. Zürich: ETH. Orgass, B. (1982). Token Test TT. Weinheim: Beltz. Osgood, Ch. E. & Suci, G. J. (1952). A measure of relation determined by both mean differences and profile information. Psychological Bulletin, 49, 251-262. Ostendorf, F. & Angleitner, A. (2004). NEO-PI-R: NEO-Persönlichkeitsinventar nach Costa und McCrae, revidierte Fassung. Göttingen: Hogrefe. Ostendorf, F., Angleitner, A. & Ruch, W. (1986). Die Multitrait-Multimethod Analyse. Konvergente und diskriminante Validität der Personality Research Form. Göttingen: Hogrefe. O’Sullivan, M., Guilford, J. P. & De Mille, R. (1965). The measurement of social intelligence. Los Angeles: Reports from the Psychological Laboratory, 34. Oswald, W. D. & Fleischmann, U. M. (1995). Nürnberger Alters-Inventar (NAI) (3., überarb. & erg. Aufl.). Göttingen: Hogrefe. Oswald, W. D. & Hagen, B. (1997). Test d2. Aufmerksamkeits-Belastungs-Test (Rezension). Zeitschrift für Differentielle und Diagnostische Psychologie, 18 (1/2), 87-89. Oswald, W. D. & Roth, W. (1987). Der Zahlen-Verbindungs-Test (ZVT). Göttingen: Hogrefe. Palinscar, A. S. & Brown, A. L. (1984). Reciprocal teaching of comprehension-fostering and monitoring activities. Cognition and Instruction, 1, 175-177. Parry, H. J. & Crossley, H. M. (1950/51). Validity of response to survey questions. Public Opinion Quaterly, 14, 61-80. Paterson, D. G. & Tinker, M. A. (1930). Time-limit versus work-limit methods. American Journal of Psychology, 42, 101-112. Paul, G. L. (1967). Strategy of outcome research in psychotherapy. Journal of Consulting Psychology, 31, 109-118. Paulhus, D. L. (1984). Two-component models of socially desirable responding. Journal of Personality and Social Psychology, 46, 598-609. Paulhus, D. L. & Martin, C. L. (1987). The structure of personality capabilities. Journal of Personality and Social Psychology, 52, 354-365. Pauls, C. A. & Crost, N. W. (2004). Effects of faking on self-decption and impression management scales. Personality and Individual Differences, 37, 1137-1151. Pauls, C. A. & Crost, N. W. (2005). Effects of different instructional sets on the construct validity of the NEO-PI-R. Personality and Individual Differences, 39, 297-308. Paunonen, S. V. (1989). Consensus in personality judgments: Moderating effects of target-rater acquaintanceship and behavior observability. Journal of Personality and Social Psychology, 56, 823-833. Paunonen, S. V. & Jackson, D. N. (1986). Idiothetic inquiry and the toil of sisyphus. Journal of Personality, 54, 470-477. Paunonen, S. V. & Jackson, D. N. (1988). Nichtsprachlicher Persönlichkeitsfragebogen. London, Canada: University of Western Ontario. Paunonen, S. V., Jackson, D. N. & Keinonen, M. (1990). The structured nonverbal assessment of personality. Journal of Personality, 58, 481-502. Paunonen, S. V., Jackson, D. N., Trzebinski, J. & Forsterling, F. (1992). Personality structure across cultures: A multimethod evaluation. Journal of Personality and Social Psychology, 62, 447-456. Pawlik, K. (1976). Modell- und Praxisdimensionen psychologischer Diagnostik. In K. Pawlik (Hrsg.), Diagnose der Diagnostik (S. 13-43). Stuttgart: Klett. Pekrun, R. (1984). An expectancy-value model of anxiety. In H. M. van der Ploeg, R. Schwarzer & C. D. Spielberger (Eds.), Advances in test anxiety research (Vol. 3, pp. 52-73). Hillsdale, NJ: Erlbaum. Perrez, M. (1985). Diagnostik in der Psychotherapie - ein anachronistisches Ritual? Psychologische Rundschau, 36, 106-109. Perrez, M. & Baumann, U. (Hrsg.). (1990). Lehrbuch der Klinischen Psychologie, Bd. 1: Grundlagen, Diagnostik, Ätiologie. Bern: Huber. Perrez, M. & Baumann, U. (Hrsg.). (1990). Lehrbuch der Klinischen Psychologie, Bd. 2: Intervention. Bern: Huber. Perrez, M. & Baumann, U. (Hrsg.). (2006). Lehrbuch Klinische Psychologie – Psychotherapie. Bern: Huber. Pervin, L. A. (1970). Personality: Theory, assessment, and research. New York: Wiley. Pervin, L. A. (1981). Persönlichkeitstheorien. München: Reinhardt. Petermann, F. (1978). Veränderungsmessung. Stuttgart: Kohlhammer. Petermann, F. (1987). Kontrollierte Praxis. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 113116). München: Psychologie Verlags Union. Petermann, F. (Hrsg.). (1995). Lehrbuch der Klinischen Kinderpsychologie. Göttingen: Hogrefe. Petillon, H. (1980). Soziometrischer Test für 4. bis 13. Klassen. Weinheim: Beltz. Petry, J. (1996). Alkoholismustherapie: Vom Einstellungswandel zur kognitiven Therapie (3. Aufl., 1. Aufl. 1985). München: Urban & Schwarzenberg. Piel, E., Hautzinger, M. & Scherbarth-Roschmann, P. (1991). Analyse der Freiburger Beschwerden-Liste (FBL-K) mit Hilfe des stochastischen Testmodells von Rasch. Diagnostica, 37, 226235. Posthuma, R. A., Morgeson, F. P. & Campion, M. A. (2002). Beyond employment interview validity: A comprehensive narrative review of recent research and trends over time. Personnel Psychology, 55, 1-81. Preusche, I. & Leiss, U. (2003). Intelligenztests für Kinder. HAWIK-III, AID 2 und K-ABC im Vergleich. Report Psychologie, 28, 12-26. Priester, H.-J. (1958). Die Standardisierung des Hamburg-Wechsler-Intelligenztests für Kinder. Bern, Stuttgart: Huber. Probst, H. (1984). Die pädagogisch-psychologische Begutachtung bei der Sonderschuleinweisung. In H. A. Hartmann & R. Haubl (Hrsg.), Psychologische Begutachtung (S. 254-276). München: Urban & Schwarzenberg. Pryor, J. B., Gibbons, F. X., Wicklund, R. A., Fazio, R. H. & Hood, R. (1977). Self-focused attention and self-report validity. Journal of Personality, 45, 513-527. Pudel, V. & Westhöfer, J. (1989). Fragebogen zum Eßverhalten FEV. Göttingen: Hogrefe. Querido, J., Eyberg, S., Kanfer, R. & Krahn, G. (2001). The process of the clinical child assessment interview. In C. E. Walker & M. C. Roberts (Eds.), Handbook of clinical child psychology (3rd. ed.) (pp. 75-89). New York: Wiley. Rabin, A. I. & Haworth, M. R. (Eds.). (1965). Projective techniques with children. New York: Grune & Stratton. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Kopenhagen: The Danish Institute for Educational Research. Literaturverzeichnis 593 594 Literaturverzeichnis Rasch, G. (1961). On general laws and the meaning of measurement in psychology. In J. Neyman (Ed.), Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability (Vol. 4, pp. 321-333). Berkeley, CA: University of California Press. Rathus, S. A. & Nenid, J. S. (1977). Behavior therapy. Strategies of solving problems in living. Bergenfield, NY: New American Library. Rauh, H. (1988). Verschränkungen mit der Entwicklungspsychologie. In R. S. Jäger (Hrsg.), Psychologische Diagnostik (S. 49-58). München, Weinheim: Psychologie Verlags Union. Raven, J. G. (1965). Standard Progressive Matrices. Cambridge: University Press. Raven, J. C., Bulheller, S. & Häcker, H. (2002). CPM. Coloured Progressive Matrices (3., neu normierte Auflage). Göttingen: Hogrefe. Rehfisch, H.-P., Basler, H.-D. & Seemann, H. (1989). Psychologische Schmerzbehandlung bei Rheuma – Manuale zur Verhaltenstherapie. Berlin, Heidelberg, New York: Springer. Reichert, J. (1997). Begutachtung des Erinnerungsvermögens einer Zeugin mit mehrjährigem Drogenmissbrauch – Antje F., 20 Jahre. In K. D. Kubinger & H. Teichmann (Hrsg.), Psychologische Diagnostik und Intervention in Fallbeispielen (S. 121 ff.). Weinheim: Psychologie Verlags Union. Reicherts, M. & Perrez, P. (1992). Fragebogen zum Umgang mit Belastungen im Verlauf. Göttingen: Hogrefe. Reimann, G. (2004). Arbeits- und Anforderungsanalyse. In K. Westhoff, L. Hellfritsch, L. F. Hornke, K. Kubinger, F. Lang, H. Moosbrugger, A. Püschel & G. Reimann (Hrsg.), Grundwissen für die berufsbezogene Eingungsbeurteilung nach DIN 33430 (S. 105-120). Lengerich: Pabst. Reinecker, H. S. (1994). Zwänge. Diagnose, Theorie und Behandlung (2. Aufl.). Bern, Göttingen, Toronto, Seattle: Hans Huber. Reinert, G. (1964). Entwicklungstests. In R. Heiss, K. J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie, Bd. 6: Psychologische Diagnostik (S. 280-351). Göttingen: Hogrefe. Reitan, R. M. & Wolfson, D. (1985). The Halstead-Reitan neuropsychological test battery: Theory and clinical interpretation. Tuscon: Neuropsychology. Renneberg, B. (1991). Personality disorders and interactional behavior of agoraphobic outpatients. Dissertationsschrift, Phillips-Universität Marburg. Renneberg, B. (1996). Verhaltenstherapeutische Gruppentherapie bei Patienten mit selbstunsicherer Persönlichkeitsstörung. In B. Schmitz, T. Fydrich & K. Limbacher (Hrsg.), Persönlichkeitsstörungen: Diagnostik und Psychotherapie (S. 344-358). Weinheim: Psychologie Verlags Union. Rennen-Allhoff, B. & Allhoff, P. (Hrsg.). (1987). Entwicklungstests für das Säuglings-, Kleinkind- und Vorschulalter. Berlin, Heidelberg, New York: Springer. Renner, G. & Fricke, T. (2001). Der Hamburg-Wechsler-Intelligenztest für Kinder-III [Rezension]. Report Psychologie, 26, 460-477. Retish, P. M. (1973). Changing the status of poorly esteemed students through teacher reinforcement. Journal of Applied Behavioral Science, 9, 44-50. Revenstorf, D. (1993-1996). Psychotherapeutische Verfahren (Bd. I-IV, 2. Aufl.). Stuttgart: Kohlhammer. Revers, W. J. (1973). Der Thematische Apperzeptions-Test TAT (3. Aufl.). Bern: Huber. Revers, W. J. & Taeuber, K. (1968). Der Thematische Apperzeptionstest. Bern: Huber. Revers, W. J. & Widauer, H. (1985). Thematischer Gestaltungstest (Salzburg). TGT-S. Weinheim: Beltz. Rheinberg, F. (2004). Motivationsdiagnostik. Göttingen: Hogrefe. Richardson, M. W. & Kuder, G. F (1939). The calculations of test reliability coefficients based on the method of rational equivalence. Journal of Educational Psychology, 30, 681. Rief, W. (1996). Therapeutische Settings. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1 (S. 449-467). Berlin, Heidelberg, New York: Springer. Rief, W. & Birbaumer, N. (2000). Biofeedback Therapie – Grundlagen, Indikation und praktisches Vorgehen. Stuttgart: Schattauer. Rief, W. & Hiller, W. (1998). Somatisierungsstörung und Hypochondrie. Göttingen: Hogrefe. Rief, W., Schäfer, S. & Fichter, M. M. (1992). SOMS: Ein Screening-Verfahren zur Identifizierung von Personen mit somatoformen Störungen. Diagnostica, 38, 228-241. Rief, W., Hiller, W. & Heuser, J. (1997). SOMS: Screening für somatoforme Störungen. Göttingen: Hogrefe. Riemann, D. & Backhaus, J. (1996). Behandlung von Schlafstörungen. Weinheim: Psychologie Verlags Union. Riemann, R. (1991). Repertory Grid Technik. Göttingen: Hogrefe. Riemann, R. (1992). Konstruktion und Validierung eines Inventars zur Erfassung von Persönlichkeits-Fähigkeiten. Bielefeld: Unveröffentlichtes Manuskript. Riemann, R. & Abels, D. (1994). Personality abilities: Construct validation. In B. deRaad, W. K. B. Hofstee & G. L. van Heck (Eds.), Personality psychology in Europe (Vol. 5). Tilburg, NL: Tilburg University Press. Riemann, R. & Schumacher F. J. (1996). Zur Validität der Deutschen Personality Research Form: Vorhersage des Verkaufserfolges von Außendienst-Mitarbeitern. Zeitschrift für Differentielle und Diagnostische Psychologie, 17, 4-13. Robbins, S. B., Lauver, K., Le, H., Davis, D., Langley, R. & Carlstrom, A. (2004). Do psychosocial and study skill factors predict college outcomes? A meta-analysis. Psychological Bulletin, 130, 261288. Roder, V., Brenner, H. D., Kienzle, N. & Hockel, B. (1995). Integriertes psychologisches Therapieprogramm für schizophrene Patienten IPT (3. Aufl., 1. Aufl. 1988). Weinheim: Psychologie Verlags Union. Roether, D. (1984). Tempoleistungen und Merkfähigkeit Erwachsener (TME). Berlin: Psychodiagnostisches Zentrum. Rogers, C. R. (1973). Die klientbezogene Gesprächstherapie. München: Kindler. Rogers, C. R. (1981). Der neue Mensch. Stuttgart: Klett-Cotta. Rohracher, H. (1965). Kleine Charakterkunde. Wien: Urban & Schwarzenberg. Rorschach, H. (1921). Psychodiagnostik. Der Rorschach-Test. Bern: Huber. Rosch, E. (1975). Cognitive representations of sematic categories. Journal of Experimental Psychology, General, 104, 192-233. Rosenstiel, L. von (1992). Grundlagen der Organisationspsychologie. Stuttgart: SchäfferPoeschel. Rosenzweig, S. (1950). Levels of behavior in psychodiagnosis with special reference to the PictureFrustration-Study. American Journal of Orthopsychiatry, 20, 63-72. Roskam, E. E. (1996). Latent-Trait-Modelle. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 431-458). Weinheim: Psychologie Verlags Union. Rost, D. H. (2001). Hochbegabung. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (2., überarb. & erw. Aufl., S. 239-248). Weinheim: Beltz, PVU. Rost, D. H., Sparfeldt, J. R. & Schilling, S. R. (im Druck). Hochbegabung. In: K. Schweizer (Hrsg.), Leistung und Leistungsdiagnostik. Berlin: Springer. Rost, J. (1988). Quantitative und qualitative probabilistische Testtheorie. Bern: Huber. Rost, J. (1990). Rasch models in latent classes: An integration of two approaches to item analysis. Applied Psychological Measurement, 14, 271-282. Rost, J. (1995). Die testdiagnostische Erfassung von Typen. In K. Pawlik (Hrsg.), Bericht über den 39. Kongreß der Deutschen Gesellschaft für Psychologie in Hamburg 1994 (S. 392-398). Göttingen: Hogrefe. Rost, J. (1996). Lehrbuch Testtheorie – Testkonstruktion. Bern: Huber. Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion (2. Aufl.). Bern: Huber. Rost, J. & Langenheine, R. (Eds.). (1996). Applications of latent trait and latent class models in the social sciences. Münster: Waxmann. Rost, J. & Spada, H. (1977). Probabilistische Testtheorie. In K. J. Klauer (Hrsg.), Handbuch der pädagogischen Diagnostik (Bd. 1, S. 59-97). Düsseldorf: Schwann. Rost, J. & Spada, H. (1983). Die Quantifizierung von Lerneffekten anhand von Testdaten. Zeitschrift für Differentielle und Diagnostische Psychologie, 4, 29-49. Rost, J. & Strauß, B. (1992). Review: Recent developments in psychometrics and test-theory. The German Journal of Psychology, 16, 2, 91-119. Roth, J. (1978). Fragebogen zum Trinkverhalten Alkoholabhängiger FTA. Göttingen: Hogrefe. Rotter, J. B. (1954). Social learning and clinical psychology. Englewood Cliffs, NY: Prentice Hall. Rotter, J. B. (1967). A new scale for measurement of interpersonal trust. Journal of Personality, 35, 651-665. Rüdiger, D. (1987). Der Übertritt auf weiterführende Schulen. In A. Kormann (Hrsg.), Beurteilen und Fördern in der Erziehung (S. 98-121). Salzburg: Müller. Literaturverzeichnis 595 596 Literaturverzeichnis Rüdiger, D., Peez, H. & Kormann, A. (1985). Analyse der Schulleistung. Studienbrief 4 des Fernstudienlehrgangs zur Ausbildung von Beratungslehrern. Tübingen: Deutsches Institut für Fernstudien. Rudolf, G. (1981). Psychischer und Sozial-Kommunikativer Befund PSKB. Weinheim: Beltz. Rudolf, G. (1991). PSKB-Se – Ein psychoanalytisch fundiertes Instrument zur Patienten-Selbsteinschätzung. Zeitschrift für Psychosomatische Medizin und Psychoanalyse, 37, 350-360. Rudolf, G. (1993). Psychischer und Sozial-Kommunikativer Befund (PSKB). Ein Instrument zur standardisierten Erfassung neurotischer Befunde. Göttingen: Hogrefe. Sack, P. M. & Witte, E. H. (1990). Untersuchungen zur Konstruktvalidität des HAKEMP 85 von J. Kuhl. Zeitschrift für Differentielle und Diagnostische Psychologie, 11, 17-26. Sader, M. (1976). Psychologie der Gruppe. München: Juventa. Sader, M. & Keil, W. (1966). Bedingungskonstanz in der psychologischen Diagnostik. Archiv für die gesamte Psychologie, 118, 279-308. Saldern, M. v. & Littig, K. E. (1987). Landauer Skalen zum Sozialklima für 4. bis 13. Klassen. Weinheim: Beltz. Salgado, J. F. & Moscoso, S. (2002). Comprehensive meta-analysis of the construct validity of the employment interview. European Journal of Work and Organizational Psychology, 11, 299-324. Saltstone, R., Skinner C. & Tremblay, P. (2001). Conditional standard error of measurement and personality scale scores: An investigation of classical test theory estimates with 4 MMPI scales. Personality and Individual Differences, 30, 691-698. Salzgeber, J. (2001). Familienpsychologische Gutachten: Rechtliche Vorgaben und sachverständiges Vorgehen (3., überarb. Aufl.). München: Beck. Sammer, G. (1994). Nichtlineare Dynamik im EEG: Ein weiterführender Ansatz zur Psychophysiologischen Untersuchung individueller Unterschiede? In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 131-145). Göttingen: Hogrefe. Sarges, W. (1994). Eignungsdiagnostische Überlegungen für den Management-Bereich. In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 415-434). Göttingen: Hogrefe. Saß, H., Wittchen, H.-U. & Zaudig, M. (1996). Diagnostisches und statistisches Manual psychischer Störungen (DSM-IV). Göttingen: Hogrefe. Saß, H., Wittchen, H. U., Zaudig, M. & Houben, I. (1998). Diagnostische Kriterien des Diagnostischen und Statistischen Manuals Psychischer Störungen(DSM-IV). Göttingen: Hogrefe. Saß, H., Wittchen, H.-U. & Zaudig, M. & Houben, I. (2003). Diagnostisches und statistisches Manual psychischer Störungen – Textrevision – (DSM-IV.TR). Göttingen: Hogrefe. Sartorius, N., Kaelber, C. T., Cooper, J. E., Roper, M. T., Rae, D. S., Gulbinat, W., Üstün, T. B. & Regier, D. A. (1993). Progress toward achieving a common language in psychiatry. Results from the field trial of the Clinical Guidelines accompanying the WHO classification of mental and behavioural disorders in ICD-10. Archives of General Psychiatry, 50, 115-124. Saunders, D. R. (1956). Moderator variables in prediction. Educational and Psychological Measurement, 16, 209-222. Sawyer, J. (1966). Measurement and prediction, clinical and statistical. Psychological Bulletin, 66, 178200. Schaaf, A., Kessler, J., Grond, M. & Fink, G. R. (1992). Memo-Test. Weinheim: Beltz. Schäfer, H. (1989). Constructing a cut-off point for a quantitative diagnostic test. Statistics in Medicine, 8, 1381-1391. Schallberger, U., Tewes, U. & Rossmann, P. (2001). Bemerkungen zur Rezension des HAWIK-III von Renner und Fricke (2001) – eine Replik. Report Psychologie, 26, 478-481. Schandry, R. (1998). Lehrbuch der Psychophysiologie. Studienausgabe. Körperliche Indikatoren psychischen Geschehens (4. Aufl.). Weinheim: Psychologie Verlags Union. Scheiblechner, H. (1972). Das Lernen und Lösen komplexer Denkaufgaben. Zeitschrift für experimentelle und angewandte Psychologie, 19, 476-506. Scheiblechner, H. (1996). Item-Response-Theorie: Prozeßmodelle. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 459-466). Weinheim: Psychologie Verlags Union. Scheier, M. F. & Carver, C. S. (1985). Optimism, coping, and health: Assessment and implications of generalized outcome expectancies. Health Psychology, 4, 219-247. Schellig, D. & Schächtele, B. (2001). Visueller und Verbaler Merkfähigkeitstest (VVM). Göttingen: Hogrefe. Schindler, L., Hohenberger-Sieber, E. & Halweg, K. (1990). Stundenbeurteilungsbogen für Klienten und Therapeuten (SB-K, SB-T). In G. Hank, K. Hahlweg & N. Klann (Hrsg.), Diagnostische Verfahren für Berater. Materialien zur Diagnostik und Therapie in Ehe, Familien- und Lebensberatung (S. 331-339). Göttingen: Beltz-Test. Schlippe, A. v. & Schweitzer, J. (2004). Lehrbuch der systemischen Therapie und Beratung (11. Aufl.). Göttingen: Vandenhoeck &. Ruprecht. Schmale, H. & Schmidtke, H. (1984). Berufseignungstest BET (2. Aufl., 1. Aufl. 1967). Göttingen: Hogrefe. Schmalt, H. D. (1976). Das LM-Gitter. Ein objektives Verfahren zur Messung des Leistungsmotivs bei Kindern. Göttingen: Hogrefe. Schmidt, F. L. & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology. Psychological Bulletin, 124, 262-274. Schmidt, J. U. & König, F. (1986). Untersuchungen zur Validität der revidierten Form des Freiburger Persönlichkeitsinventars (FPI-R). Diagnostica, 3, 197-208. Schmidt, K. H. & Metzler, P. (1992). Wortschatztest (WST). Weinheim: Beltz. Schmidt, L. R. (1975). Objektive Persönlichkeitsmessung in Diagnostischer und Klinischer Psychologie. Weinheim: Beltz. Schmidt, L. R. (1995). Psychodiagnostisches Gutachten. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (3., korr. Aufl., S. 468-478). Weinheim: Beltz & Psychologie Verlags Union. Schmidt, L. R., Häcker, H. & Schwenkmezger, P. (1985). Differentialdiagnostische Untersuchungen mit objektiven Persönlichkeitstests und Fragebogen im psychiatrischen Bereich. Diagnostica, 31, 22-37. Schmidt-Atzert, L. (2001). Rezension des »Leistungsmotivationsinventar (LMI)« von H. Schuler und M. Prochaska. Zeitschrift für Arbeits- und Organisationspsychologie, 45, 142-145. Schmidt-Atzert, L. (2002). Intelligenz-Struktur-Test 2000-R (Rezension). Zeitschrift für Personalpsychologie, 1, 50-56. Schmidt-Atzert, L. (2004). Objektiver Leistungsmotivations Test OLMT (unter Mitarbeit von Markus Sommer, Markus Bühner und Astrid Jurecka). Mödling: Schuhfried. Schmidt-Atzert, L. (2004). Test d2: Aufmerksamkeits-Belastungs-Test. In G. Büttner & L. Schmidt Atzert (Hrsg.), Diagnostik von Aufmerksamkeit und Konzentration (S. 87-101). Göttingen: Hogrefe. Schmidt-Atzert, L. (2005). Ergebnisse einschlägiger Evaluationsstudien. In: K. Westhoff, L. Hellfritsch, L.F. Hornke, K. Kubinger, F. Lang, H. Moosbrugger, A. Püschel & G. Reimann (Hrsg.), Grundwissen für die berufsbezogene Eignungsbeurteilung nach DIN. 33430 (2., überarb. Aufl., S. 225-230). Lengerich: Pabst. Schmidt-Atzert, L. (2005). Prädiktion von Studienerfolg bei Psychologiestudenten. Psychologische Rundschau, 56, 131-133. Schmidt-Atzert, L. & Bühner, M. (1998). Fehlertypen im Aufmerksamkeits-Belastungs-Test d2. Diagnostica, 44(3), 142-152. Schmidt-Atzert, L., Bühner, M. & Enders, P. (2006). Messen Konzentrationstests Konzentration? Eine Analyse von Konzentrationstestleistungen. Diagnostica, im Druck. Schmidt-Atzert, L., Bühner, M., Rischen, S. & Warkentin, V. (2004). Erkennen von Simulation und Dissimulation im Test d2. Diagnostica, 50, 124-133. Schmidt-Atzert, L., Büttner, G. & Bühner, M. (2004). Theoretische Aspekte von Aufmerksamkeits-/ Konzentrationsdiagnostik. In G. Büttner & L. Schmidt-Atzert (Hrsg.), Diagnostik von Aufmerksamkeit und Konzentration (S. 3-22). Göttingen: Hogrefe. Schmidt-Atzert, L., & Deter, B. (1993). Intelligenz und Ausbildungserfolg: Eine Untersuchung zur prognostischen Validität des I-S-T 70. Zeitschrift für Arbeits- und Organisationspsychologie, 37, 52-63. Schmidt-Atzert, L., Hommers, W. & Heß, M. (1995). Der IST 70: Eine Analyse und Neubewertung. Diagnostica, 41, 108-130. Schmidt-Rathjens, C., Amelang, M. & Czemmal, J. (1997). Persönlichkeit, Krebs und koronare Herzerkrankungen: Weitere empirische Evidenzen aus dem Heidelberg-Projekt. Zeitschrift für Gesundheitspsychologie, 5, 1-16. Literaturverzeichnis 597 598 Literaturverzeichnis Schmidt-Rathjens, C., Benz, D., van Damme, D., Feldt, K. & Amelang, M. (1997). Über zwiespältige Erfahrungen mit Fragebögen zum Kohärenzsinn sensu Antonovsky. Diagnostica, 43, 327-346. Schmitt, M. (1992). Interindividuelle Konsistenzunterschiede als Herausforderung für die Differentielle Psychologie. Psychologische Rundschau, 43, 30-45. Schmolck, P. (1983). Ein einfaches Verfahren zur Optimierung empirischer Skalenkonstruktion durch Selektion von Suppressor-Items, demonstriert an MacAndrew’s Alkoholismus Skala. Diagnostica, 29, 203-219. Schneewind, K. A. (1987a). Die Familienklimaskalen (FKS). In M. Cierpka (Hrsg.), Familiendiagnostik (S. 232-255). Berlin: Springer. Schneewind, K. A. (1987b). Das »Familiendiagnostische Testsystem« (FDTS): Ein Fragebogeninventar zur Erfassung familiärer Beziehungsaspekte auf unterschiedlichen Systemebenen. In M. Cierpka (Hrsg.), Familiendiagnostik (S. 320-342). Berlin: Springer. Schneewind, K. A. (1991). Familienpsychologie. Stuttgart: Kohlhammer. Schneewind, K. A. & Graf J. (1998). Der 16-Persönlichkeits-Faktoren-Test Revidierte Fassung 16 PF-R. Testmanual. Bern: Huber. Schneewind, K. A, Schröder, G. & Cattell, R. B. (1994). Der 16-Persönlichkeitsfaktoren-Test (16 PF) (3. Aufl.). Bern: Huber. Schneider, R. (1982). Das Therapieprogramm der Fachklinik Furth im Wald. In R. Schneider (Hrsg.), Stationäre Behandlung von Alkoholkranken (S. 53-134). München: Röttger. Schneider, S. (1996). Psychische Störungen des Kindes- und Jugendalters. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 2, S. 337-361). Berlin: Springer. Schneider, S., In-Albon, T. & Margraf, J. (2006). DIPS: Diagnostisches Interview bei psychischen Störungen (3. Auflage). Berlin: Springer. Schneider, W., Basler, H.-D. & Beisenherz, B. (1989). Fragebogen zur Messung der Psychotherapiemotivation FMP. Weinheim: Beltz. Schorr, A. (1995). Stand und Perspektiven diagnostischer Verfahren in der Praxis. Ergebnisse einer repräsentativen Befragung westdeutscher Psychologen. Diagnostica, 41, 3-20. Schramm, E. (Hrsg.). (1996). Interpersonelle Psychotherapie bei Depressionen und anderen psychischen Störungen. Therapiemanual nach Klerman, Weissman, Rounsaville & Chevron. Stuttgart: Schattauer. Schramm, E., Hohagen, F., Graßhoff, U. & Berger, M. (1991). Strukturiertes Interview für Schlafstörungen nach DSM-III-R. Weinheim: Beltz. Schuerger, J. M., Zarrella, K. L. & Hotz, A. S. (1989). Factors that influence the temporal stability of personality by questionnaire. Journal of Personality and Social Psychology, 56, 777-783. Schuhfried, G. (o. J.). Wiener Testsystem. Mödling: Schuhfried. Schuler, H. (1987). Assessment Center als Auswahl- und Entwicklungsinstrument: Einleitung und Überblick. In H. Schuler & W. Stehle (Hrsg.), Assessment Center als Methode der Personalentwicklung (S. 1-35). Stuttgart: Verlag für Angewandte Psychologie. Schuler, H. (1992). Das Multimodale Einstellungsinterview. Diagnostica, 38, 281-300. Schuler, H., Frier, D. & Kauffmann, M. (1993). Personalauswahl im Europäischen Vergleich. Göttingen: Verlag für Angewandte Psychologie. Schuler, H. & Funke, U. (1989). Berufseignungsdiagnostik. In E. Roth (Hrsg.), Enzyklopädie der Psychologie, Serie III: Wirtschafts-, Organisations- und Arbeitspsychologie, Bd. 3: Organisationspsychologie (S. 281-320). Göttingen: Hogrefe. Schuler, H., Funke, U., Moser, K. & Donat, M. (1995). Personalauswahl in Forschung und Entwicklung. Göttingen: Hogrefe. Schuler, H. & Moser, K. (1995). Die Validität des Multimodalen Interviews. Zeitschrift für Arbeitsund Organisatonspsychologie, 39 (1), 2-12. Schuler, H. & Prochaska, M. (1992). Ermittlung personaler Merkmale: Leistungs- und Potentialbeurteilung von Mitarbeitern. In K. H. Sonntag (Hrsg.), Personalentwicklung in Organisationen (S. 157-186). Göttingen: Hogrefe. Schuler, H. & Prochaska, M. (2001). LMI Leistungsmotivationsinventar. Göttingen: Hogrefe. Schuler, H. & Schmitt, N. (1987). Multimodale Messung in der Personalpsychologie. Diagnostica, 33, 259-271. Schuler, H. & Stehle, W. (1983). Neuere Entwicklungen des Assessment-Center-Ansatzes unter dem Aspekt der sozialen Validität. Psychologie und Praxis – Zeitschrift für Arbeits- und Organisationspsychologie, 27, 33-44. Schulte, D. (1976). Diagnostik in der Verhaltenstherapie. München: Urban & Schwarzenberg. Schulte, D. (1987). Standardized treatment vs. individualized treatment (Paper presented at the 18th annual meeting of the Society for Psychotherapy Research, June 16-20). Ulm. Schulte, D. (1993). Wie soll Therapieerfolg gemessen werden? Zeitschrift für Klinische Psychologie, 22, 374-392. Schulte, D. (1996). Therapieplanung. Göttingen: Hogrefe. Schulte, D. & Wittchen, H.-U. (1988). Wert und Nutzen klassifikatorischer Entscheidungen. Diagnostica, 34, 85-98. Schutte, N. S., Kenrick, D. T. & Sadalla, E. K. (1985). The search for predictable settings: situational prototypes, constraint, and behavioral variation. Journal of Personality and Social Psychology, 49, 121-128. Schwenkmezger, P. (1984). Kann durch das Prinzip der Aggregation von Daten die Konsistenzannahme von Eigenschaften beibehalten werden? Zeitschrift für Differentielle und Diagnostische Psychologie, 5, 251-272. Schwenkmezger, P. (1997). 16-Persönlichkeits-Faktoren-Test (16PF) (Rezension). Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 113-115. Schwenkmezger, P., Hodapp, V. & Spielberger, C. D. (1992). Das State-Trait-Ärgerausdrucks-Inventar (STAXI). Bern: Huber. Schwenkmezger, P. & Laux, L. (1986). Trait anxiety, worry, and emotionality in athletic competition. In C. D. Spielberger & R. Diaz-Guerrero (Eds.), Cross-cultural anxiety (Vol. 3, pp. 65-77). Washington, DC: Hemisphere. Segal, D. L., Hersen, M. & Van-Hasselt, V. B. (1994). Reliability of the Structured Clinical Interview for DSM-III-R: An evaluative review. Comprehensive Psychiatry, 35, 316-327. Seidenstücker, G. & Baumann, U. (1987). Multimodale Diagnostik als Standard in der Klinischen Psychologie. Diagnostica, 33, 243-258. Selg, H. (1965). Über den Zusammenhang zwischen Schultüchtigkeit und Beliebtheit in Schulklassen. Psychologische Forschung, 28, 587-597. Semmer, N. & Pfäfflin, M. (1978). Interaktionstraining. Ein handlungstheoretischer Ansatz zum Training sozialer Fertigkeiten. Weinheim: Beltz. Shepard, R. N. & Metzler, J. (1971). Mental rotation of three-dimensional objects. Science, 171, 701-703. Sherif, M., Harvey, O. J., White, B. J., Hood, W. R. & Sherif, C. W. (1961). Ingroup conflict and cooperation: The robber’s cave experiment. Norman, OK: University of Oklahoma. Sherman, M. (1979). Personality. New York: Pergamon. Shneidman, E. S. (1947). Make-A-Picture-Story-Test. New York: Psychological Corporation. Sieveking, N. A. & Chappell, J. E. (1970). Reactions to the names »counseling center« and »psychological center«. Journal of Consulting and Clinical Psychology, 34, 124-127. Simons, H. & Möbus, C. (1976). Untersuchungen zur Fairness von Intelligenztests. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 8, 1-12. Slovic, P., Fishhoff, B. & Lichtenstein, S. (1977). Behavioral decision theory. Annual Review of Psychology, 28, 1-39. Snijders, J. T. & Snijders-Oomen, N. (1991). Nicht-verbale Intelligenztestreihe SON-R. Revidierte Neufassung. Groningen: Wolters-Noordhoff. Sommer, G. & Fydrich, T. (1989). Soziale Unterstützung, Diagnostik, Konzepte, Fragebogen F-SOZU. Tübingen: Deutsche Gesellschaft für Verhaltenstherapie. Sommer, G. & Fydrich, T. (1991). Entwicklung und Überprüfung eines Fragebogens zur sozialen Unterstützung. Diagnostica, 37, 160-178. Sonntag, K. (1992). Ermittlung tätigkeitsbezogener Merkmale: Qualitätsanforderungen und Voraussetzungen menschlicher Aufgabenbewältigung. In K. Sonntag (Hrsg.), Personalentwicklung in Organisationen (S. 135-155). Göttingen: Hogrefe. Sonntag, K. & Schaper, N. (1992). Förderung beruflicher Handlungskompetenzen. In K. Sonntag (Hrsg.), Personalentwicklung in Organisationen (S. 187-210). Göttingen: Hogrefe. Sorembe, V. & Westhoff, K. (1985). Skala zur Erfassung der Selbstakzeptierung SESA. Göttingen: Hogrefe. Spangler, W. D. (1992). Validity of questionnaire and TAT measures of need for achievement: Two meta-analyses. Psychological Bulletin, 112, 140-154. Literaturverzeichnis 599 600 Literaturverzeichnis Spearman, C. (1904). »General intelligence«, objectively determined and measured. American Journal of Psychology, 15, 201-293. Spearman, C. (1910). Correlation calculated from faulty data. British Journal of Psychology, 3, 281ff. Spielberger, C. D., Gorsuch, R. L. & Lushene, R. E. (1970). Manual for the State-Trait-Anxiety-Inventory. Palo Alto, CA: Consulting Psychologists Press. Spinath, F. M. (1999). Validität von Fremdbeurteilungen: Einflussfaktoren auf die Konvergenz von Selbst- und Fremdbeurteilungen in Persönlichkeitseinschätzungen. Lengerich: Pabst Science Publisher. Spinath, F. M. (2000). Validität von Fremdbeurteilungen: Einflussfaktoren auf die Konvergenz von Selbst- und Fremdbeurteilungen in Persönlichkeitseinschätzungen. Lengerich: Pabst. Spinath, F. M. & Angleitner, A. (1995). Convergence of verbal and nonverbal personality assessment techniques. A German study using the NPQ. Bielefeld: Unpublished manuscript. Spitznagel, A. (1964). Die diagnostische Situation. Ein Beitrag zur Theorie und Psychologie der Datengewinnung. Habilitationsschrift, Universität Freiburg (Unveröff.). Spitznagel, A. (1968). Die Situation als Problem der Persönlichkeitspsychologie. In K. J. Groffmann & K. H. Wewetzer (Hrsg.), Person als Prozeß (S. 183-212). Bern: Huber. Spitznagel, A. (1982a). Die diagnostische Situation. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik, Bd. 1: Grundlagen psychologischer Diagnostik (S. 248-294). Göttingen: Hogrefe. Spitznagel, A. (1982b). Grundlagen, Ergebnisse und Probleme von Formdeuteverfahren. In K. J. Groffmann & L. Michel (Hrsg.), Enzyklopädie der Psychologie, Serie II: Psychologische Diagnostik. Bd. 3: Persönlichkeitsdiagnostik (S. 186-257). Göttingen: Hogrefe. Spitznagel, A. & Vogel, H. (1964). Formdeuteverfahren. In R. Heiss, K. J. Groffmann & L. Michel (Hrsg.), Handbuch der Psychologie, Bd. 6: Psychologische Diagnostik (S. 556-634). Göttingen: Hogrefe. Spreen, O. (1963). MMPI Saarbrücken. Handbuch. Bern: Huber. Stäcker, K.-H. (1978). Projektive und thematische Verfahren. In L. R. Schmidt (Hrsg.), Lehrbuch der Klinischen Psychologie (S. 256-275). Stuttgart: Enke. Stagner, R. (1977). On the reality and relevance of traits. The Journal of General Psychology, 96, 185-207. Stangier, U. & Fydrich T. (Hrsg). (2002). Soziale Phobie, soziale Angststörungen. Göttingen: Hogrefe. Steck, P. (1993). Gutachten. In A. Schorr (Hrsg.), Handwörterbuch der Angewandten Psychologie (S. 320-323). Bonn: Deutscher Psychologen Verlag GmbH. Steck, P. (1996). Die Prüfung der Dauerkonzentration mit einer Apparateversion des Pauli-Tests. Diagnostica, 42, 332-351. Steck, P. (1997). Psychologische Testverfahren in der Praxis: Ergebnisse einer Umfrage unter Testanwendern. Diagnostica, 43, 267-284. Stehle, W. (1982). Die Assessment Center Methode als Methode der Auswahl von Führungskräften. In H. Schuler & W. Stehle (Hrsg.), Psychologie in Wirtschaft und Verwaltung (S. 49-66). Stuttgart: Poeschel. Steinberg, L. (1994). Context and serial-order effects in personality measurement: Limits on the generality of measuring changes the measure. Journal of Personality and Social Psychology, 66, 341-349. Steinhausen, H. C. & Aster, M. (Hrsg.). (1993). Handbuch Verhaltenstherapie und Verhaltensmedizin bei Kindern und Jugendlichen. Weinheim: Psychologie Verlags Union. Steller, M. & Volbert, R. (1997). Glaubwürdigkeitsbegutachtung. In M. Steller & R. Volbert (Hrsg.), Psychologie im Strafverfahren: Ein Handbuch (S. 12-39). Bern: Huber. Stelzl, I. (1993). Testtheoretische Modelle. In L. Tent & I. Stelzl. Pädagogisch-Psychologische Diagnostik (S. 39-202). Göttingen: Hogrefe. Stern, W. (1911). Intelligenzproblem und Schule. Leipzig: Teubner. Steyer, R. & Eid, M. (1993). Messen und Testen. Berlin, Heidelberg, New York: Springer. Steyer, R., Femming, D. & Schmitt, M. (1992). States and traits in psychological assessment. European Journal of Psychological Assessment, 8, 79-98. Steyer, R., Macjen, A.-A., Schwenkmezger, P. & Buchner, A. (1989). A latent state-trait anxiety model and its application to determine consistency and specificity coefficients. Anxiety Research, 1, 281-299. Stieglitz, R. D. (1988). Klinische Selbst- und Fremdbeurteilungsverfahren. Diagnostica, 34, 28-57. Stieglitz, R. D. & Baumann, U. (Hrsg.). (1994). Psychodiagnostik psychischer Störungen. Stuttgart: Enke. Strauß, B., Köller, O. & Möller, J. (1996). Geschlechtsrollentypologien – eine empirische Prüfung des additiven und des balancierten Modells. Zeitschrift für Differentielle und Diagnostische Psychologie, 17, 67-83. Strauß, B. & Schuhmacher, J. (Hrsg.). (2005). Klinische Interviews und Ratingskalen. Göttingen: Hogrefe. Strehl, U. & Birbaumer, N. (1996). Verhaltensmedizinische Intervention bei Morbus Parkinson. Weinheim: Psychologie Verlags Union. Strelau, J. (1983). Temperament-personality-activity. London: Academic Press. Strelau, J. (1986). Zur biologischen Determination von Persönlichkeitsdimensionen. In V. Sarris (Hrsg.), Die Zukunft der experimentellen Psychologie (S. 195-206). Weinheim: Beltz. Strey, B. (1993). Elterliche Kausalattributionen von Erziehungsschwierigkeiten. Dissertation, Universität Heidelberg. Stumpf, H., Angleitner, A., Wieck T., Jackson, D. N. & Beloch-Till, H. (1985). German Personality Research Form (PRF). Göttingen: Hogrefe. Stumpf, H. & Fay, E. (1987). Neuere Befunde zum Schlauchfiguren-Test. Diagnostica, 33, 156-163. Stumpf, H. & Fay, E. (1991). Zur prognostischen Validität des Tests für Medizinische Studiengänge TMS in den Studiengängen Tier- und Zahnmedizin. Diagnostica, 37, 213-225. Stumpf, H. & Nauels, H. U. (1990). Zur prognostischen Validität des Tests für Medizinische Studiengänge TMS im Studiengang Humanmedizin. Diagnostica, 35, 16-32. Sturm, W. (2000). Aufgaben und Stratgien neurposychologischer Diagnostik. In W. Sturm, M. Herrmann & C. W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 265-276). Lisse, NL: Swets & Zeitlinger. Sturm, W. & Hartje, W. (1989). Aufgaben und Untersuchungsverfahren der neuropsychologischen Diagnostik. In K. Poeck (Hrsg.), Klinische Neuropsychologie (2. Aufl., S. 71-88). Stuttgart: Thieme. Sturm, W., Herrmann, M. & Wallesch, C.-W. (Hrsg.). (2000). Lehrbuch der Klinischen Neuropsychologie. Grundlagen, Methoden, Diagnostik. Lisse, NL: Swets & Zeitlinger. Sturm, W., Willmes, K. & Horn, W. (1993). Leistungsprüfsystem 50+ LPS 50+. Göttingen: Hogrefe. Supprian, U. (1976). Eppendorfer Stimmungs-Antriebs-Skala ESTA. Pharmakopsychiatrie, 1, 8-25. Süß, H. M. (2001). Prädiktive Validität der Intelligenz im schulischen und außerschulischen Bereich. In E. Stern & J. Guthke (Hrsg.), Perspektiven der Intelligenzforschung. Ein Lehrbuch für Fortgeschrittene (S. 1-27). Lengerich: Pabst. Tack, W. H. (1976). Diagnostik als Entscheidungshilfe. In K. Pawlik (Hrsg.), Diagnose der Diagnostik. Beiträge zur Diskussion der Psychologischen Diagnostik in der Verhaltensmodifikation (S. 103130). Stuttgart: Klett. Tack, W. H. (1986). Reliabilitäts- und Effektfunktionen – ein Ansatz zur Zuverlässigkeit von Meßwertänderungen. Diagnostica, 32, 48-63. Taplin, P. S. & Reid, J. B. (1972). Effects of instructional set and experimenter influence on observer reliability. Child Development, 44, 547-554. Tarnai, C. & Rost, J. (1990). Identifying aberrant response patterns in the Rasch model. The Q Index. Sozialwissenschaftliche Forschungsdokumentation. Münster: Institut für sozialwissenschaftliche Forschung e.V. Taylor, H. C. & Russell, J. T. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection: Discussion and tables. Journal of Applied Psychology, 23, 565585. Taylor, J. A. (1953). A personality scale of manifest anxiety. Journal of Abnormal and Social Psychology, 48, 285-290. Taylor, R. B., DeSoto, D. B. & Lieb, R. (1979). Sharing secrets: Disclosure and discretion in dyads and tryads. Journal of Personality and Social Psychology, 37, 1196-1203. Tent, L. (1969). Die Auslese von Schülern für weiterführende Schulen. Göttingen: Hogrefe. Terman, L. M. (assisted by Butterwieser, P., Ferguson, L. W., Johnson, W. B. & Wilson, D. P.). (1938). Psychological factors in marital happiness. New York: McGraw-Hill. Terman, L. M. & Merrill, M. A. (1960). Stanford Binet intelligence scale: Manual for the third revision. Form L-M. Boston: Houghton-Mifflin. Literaturverzeichnis 601 602 Literaturverzeichnis Testkuratorium der Föderation deutscher Psychologenverbände (1986). Beschreibung der einzelnen Kriterien für die Testbeurteilung. Diagnostica, 32, 358-360. Tewes, U. (1985). Hamburg-Wechsler-Intelligenztest für Kinder Revision 1983 HAWIK-R (2. Aufl., 1. Aufl. 1983). Bern: Huber. Tewes, U., Rossmann, P. & Schallberger, U. (1999). HAWIK-III: Hamburg-Wechsler-Intelligenztest für Kinder – dritte Auflage. Bern: Huber. Thomä, H. & Kächele, H. (2006). Lehrbuch der psychoanalytischen Therapie (3. Aufl., Bd. 1 & 2). Berlin Heidelberg New York: Springer. Thorndike, R. L. (1971). Concepts of culture-fairness. Journal of Educational Measurement, 8, 63-70. Thornton, G. C., Gaugler, B. B., Rosenthal, D. & Bentson, C. (1987). Die prädiktive Validität des Assessment Centers – eine Metaanalyse (aus dem Englischen übersetzt). In H. Schuler & W. Stehle (Hrsg.), Assessment Center als Methode der Personalentwicklung (S. 36-60). Stuttgart: Verlag für Angewandte Psychologie. Thornton, G. C. & Gierasch, P. F. (1980). Fakability of an empirically derived selection instrument. Journal of Personality Assessment, 44, 48-51. Thurner, F. & Tewes, U. (1975). Der Kinder-Angst-Test KAT. Göttingen: Hogrefe. Thurstone, L. L. & Thurstone, T. G. (1941). Factorial studies of intelligence. Chicago, IL: University of Chicago Press. Tiedemann, J. (1974). Die Problematik der Schuleingangsdiagnose unter entscheidungstheoretischem Aspekt. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 6, 124-132. Todt, E. (1966). Untersuchungen zur Vorhersage von Schulnoten. Psychologische Forschung, 29, 32-51. Todt, E. (1971). Differentieller Interessentest (DIT) (2. Aufl.). Bern: Huber. Toggweiler, S., Jungo, D. & Stoll, F. (2004). Der Foto-Interessentest Serie FIT 2003. Zur Erfassung von Berufsinteressen mittels fotografischer Stimuli. Zeitschrift für Personalpsychologie, 3, 34-42. Tönnies, S. (1986). Inventar zur Selbstkommunikation für Erwachsene ISE (2. Aufl., 1. Aufl. 1982). Weinheim: Beltz. Triebe, J. K. & Ulich, E. (1977). Eignungsdiagnostische Zukunftsperspektiven: Möglichkeiten einer Neuorientierung. In J. K. Triebe & E. Ulich (Hrsg.), Beiträge zur Eignungsdiagnostik (S. 241-273). Bern: Huber. Trost, E. (1985). Pädagogische Diagnostik beim Hochschulzugang, dargestellt am Beispiel der Zulassung zu den medizinischen Studiengängen. In K. Ingenkamp, R. Horn & R. S. Jäger (Hrsg.), Tests und Trends 4 (S. 41-81). Weinheim: Beltz. Trost, G., Bickel, H., Blum, F., Christian, H. & Steinhart, J. (1980). Modellversuch »Tests für den Studiengang Pharmazie«, 1. Arbeitsbericht. Bonn: Institut für Test- und Begabungsforschung. Trost, G., Ebnet, U., Deter, B., Fay, E. & Stumpf, H. (1978). Modellversuch »Tests für Medizinische Studiengänge«, 1. Zwischenbericht. Bonn: Kultusministerkonferenz. Trost, G. & v. Hayn, S. (2001). Auswahlgespräche mit Studienbewerbern. Handreichung für die Hochschulen. Bonn: ITB. Consulting. Tucha, O. & Lange, K. W. (2004). Turm von London – Deutsche Version (TL-D). Göttingen: Hogrefe. Tucker, L., Damarin, F. & Messick, S. (1966). A base-free measure of change. Psychometrika, 31, 457-473. Turner, R. B. & Horn, J. M. (1977). Personality scale and item correlates of WAIS abilities. Intelligence, 1, 281-297. Tuschen, B. (1996). Problemanalyse. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 179-187). Berlin, Heidelberg, New York: Springer. Tuschen, B. & Fiegenbaum, W. (1996). Kognitive Verfahren. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (Bd. 1, S. 387-399). Berlin, Heidelberg, New York: Springer. Tuschen, B. & Fliegenbaum, W. (2000). Systemimmanente kognitive Therapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (S. 499-508). Heidelberg: Springer. Tuschen, B. & Florin, I. (2002). Teufelskreis Bulimie. Göttingen: Hogrefe. Udris, J. & Alioth, A. (1980). Fragebogen zur »Subjektiven Arbeitsanalyse« (SAA). In E. Martin, J. Udris, U. Ackermann & K. Oegerli (Hrsg.), Monotonie in der Industrie (S. 61-68). Bern: Huber. Ullrich, R. & Ullrich, R. (1976a). Das Assertivitäts-Trainingsprogramm ATP. München: Pfeiffer. Ullrich, R. & Ullrich, R. (1976b). Das Emotionalitätsinventar EMI. München: Pfeiffer. Ullrich, R. & Ullrich, R. (1976c). Die Situationsbewertungsskala SB. München: Pfeiffer. Ullrich, R. & Ullrich, R. (1976d). Der Unsicherheitsfragebogen UF. München: Pfeiffer. Ullrich-deMuynck, R. & Ullrich, R. (1976). Das Assertivitäts-Trainings-Programm ATP. Einübung von Selbstvertrauen und sozialer Kompetenz (Teil 1). München: Pfeiffer. Ullrich-deMuynck, R. & Ullrich, R. (1977). Der Unsicherheitsfragebogen (Testmanual U). München: Pfeiffer. Unnewehr, S., Schneider, S. & Margraf, J. (1994). Kinder-DIPS: Diagnostisches Interview bei psychischen Störungen im Kindes- und Jugendalter. Berlin: Springer. Urban, K. K. (1986). Hörverstehenstest für 4. bis 7. Klassen. Weinheim: Beltz. USES (1962). Guide to the use of the General Aptitude Test Battery: Section III. Development. Washington: Government Printing Office. Uzgiris, I. & Hunt, J. McV. (1975). Assessment in infancy: Ordinal scales of psychological development. Urbana: University of Illinois Press. Vagt, G. (1974). Suppressor- und Moderator-Effekte verschiedener Testeinstellungs-Variablen bei Tests zur sprachlichen Ausdrucksfähigkeit. Dissertation, Universität Hamburg. Vernon, P. E. (1950). The structure of human abilities. London: Methuen. Volbert, R. (2000). Standards der psychologischen Glaubhaftigkeitsdiagnostik. In H.-L. Kröber & M. Steller (Hrsg.), Psychologische Begutachtung im Strafverfahren - Indikationen und Qualitätsstandards (S. 113-145). Darmstadt: Steinkopff. Vormbrock, F. & Neuser, J. (1983). Konstruktion zweier spezifischer Trait-Fragebogen zur Erfassung von Angst in sozialen Situationen. Diagnostica, 29, 165-182. Vroom, V. H. & Yetton, P. (1973). Leadership and decision-making. Pittsburgh: University of Pittsburgh Press. Waadt, S., Laessle, R. G. & Pirke, K.-M. (1992). Bulimie. Ursachen und Therapie. Berlin, Heidelberg, New York: Springer. Wagner, H. & Baumgärtel, G. (1978). Hamburger Persönlichkeitsfragebogen für Kinder (HAPEF-K). Handanweisung. Göttingen: Hogrefe. Wahl, D., Weinert, F. E. & Huber, G. L. (1984). Psychologie für die Schulpraxis. München: Kösel. Wakenhut, R. (1974). Messung gesellschaftlich-politischer Einstellungen mit Hilfe der RaschSkalierung. Bern: Huber. Wallasch, R. (1979). Hintergrund-Interferenz-Verfahren HIV. Weinheim: Beltz. Wallesch, C.-W. & Herrmann, M. (2000). Klinische Neurologie. In W. Sturm, M. Herrmann & C.-W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 96-125). Lisse, NL: Swets & Zeitlinger. Walsh, E. B. & Maxey, E. J. (1972). Validity of self report and personality. Journal of Counseling Psychology, 19, 563-564. Watson, D. (1988). Intraindividual and interindividual analyses of positive and negative affects: Their relation to health complaints, perceived stress and daily activities. Journal of Personality and Social Psychology, 54, 1020-1030. Wechsler, D. (1939). The measurement of adult intelligence. Baltimore: Williams & Wilkins. Wechsler, D. (1958). The measurement and appraisal for adult intelligence. Baltimore: Williams & Wilkins. Wechsler, D. (1981). Wechsler Adult Intelligence Scale-Revised. New York: Psychological Corporation. Weidlich, S. (1972). Diagnosticum für Cerebralschäden (DCS). Bern: Huber. Weidlich, S. & Lamberti, G. (1993). Diagnosticum für Cerebralschädigung DCS (3. Aufl., 1. Aufl. 1972). Bern: Huber. Weiler, C. (2000). Bildgebende Verfahren – Aktivierungsstudien mit PET und FMRT. In W. Sturm, M. Herrmann & C. W. Wallesch (Hrsg.), Lehrbuch der Klinischen Neuropsychologie: Grundlagen, Methoden, Diagnostik, Therapie (S. 204-218). Lisse, NL: Swets & Zeitlinger. Weinert, F. E., Helmke, A. & Schneider, W. (1989). Individual differences in learning performance and school achievement. In H. Mandl, E. de Corte, N. Bennet & H. F. Friedrich (Eds.), Learning and instruction (pp. 461-479). Oxford: Pergamon Press. Weinert, F. E., Helmke, A. & Schrader, F. W. (1992). Research on the model teacher and the teaching model. In F. K. Oser, A. Dick & J. L. Patry (Eds.), Effective and responsible teaching (pp. 249-260). San Francisco: Jossey-Bass. Literaturverzeichnis 603 604 Literaturverzeichnis Weinert, F. E., Schrader, F. W. & Helmke, A. (1990). Educational expertise: Closing the gap between educational research and classroom practise. School Psychology International, 11, 1633170. Weinstein, M. C. & Fineberg, H. V. (1980). Clinical decision analysis. Philadelphia: Saunders. Weise, G. (1994). Gütekriterien – speziell die Objektivität – von Tests in Abhängigkeit von der Art der Auswertung: Manuelle vs. Computerauswertung. In D. Bartussek & M. Amelang (Hrsg.), Fortschritte der Differentiellen Psychologie und Psychologischen Diagnostik (S. 307-317). Göttingen: Hogrefe. Weiß, R. H. (1991). Grundintelligenztest Skala 2 – CFT 20 mit Wortschatztest und Zahlenfolgetest (3., verb. und erw. Aufl.). Braunschweig: Westermann. Weiß, R. H. (1997). Replik zur Rezension des CFT 20. Zeitschrift für Differentielle und Diagnostische Psychologie, 18, 56-61. Weiß, R. H. (1998). Grundintelligenztest Skala 2 CFT 20 mit Wortschatztest (WS) und Zahlenfolgentest (ZF) (4., überarbeitete Auflage). Göttingen: Hogrefe. Weiss, D. J. & Davison, M. L. (1981). Test theory and methods. Annual Review of Psychology, 32, 629-658. Weiss, L., Katzmann, M. & Wolchik, S. (1989). Bulimie. Ein Behandlungsplan. Bern: Huber. Wellek, A. (1955). Ganzheitspsychologie und Strukturpsychologie. Bern: Huber. Wells, G. L. & Olsen, E. A. (2003). Eyewitness testimony. Annual Review of Psychology, 54, 277295. Wernimont, P. F. & Campbell, J. P. (1968). Signs, samples and criteria. Journal of Applied Psychology, 52, 372-376. Westhoff, K. (1985). Erste Prüfung einer Konzentrationstheorie. Diagnostica, 31, 310-319. Westhoff, K. (1989). Übungsabhängigkeit von Leistungen in Konzentrationstests. Diagnostica, 35, 122-130. Westhoff, K. (1995). Aufmerksamkeit und Konzentration. In M. Amelang (Hrsg.), Enzyklopädie der Psychologie: Bd. C VIII 2, Verhaltens- und Leistungsunterschiede (S. 375-402). Göttingen: Hogrefe. Westhoff, K. & Hagemeister, C. (2005). Konzentrationsdiagnostik. Lengerich: Pabst. Westhoff, K., Hellfritsch, L. J., Hornke, L. F., Kubinger, K., Lang, F., Moosbrugger, H., Püschel, A. & Reimann, G. (Hrsg.). (2004). Grundwissen für die berufsbezogene Eignungsbeurteilung nach DIN 33430. Lengerich: Pabst. Westhoff, K., Hellfritsch, L. J., Hornke, L. F., Kubinger, K., Lang, F., Moosbrugger, H., Püschel, A., Reimann, G. (Hrsg.). (2005). Grundwissen für die berufsbezogene Eignungsbeurteilung nach DIN 33430 (2., überarb. Aufl.). Lengerich: Pabst. Westhoff, K. & Kluck, M. L. (1984). Ansätze einer Theorie konzentrativer Leistungen. Diagnostica, 29, 310-319. Westhoff, K. & Kluck, M. L. (1991). Psychologische Gutachten schreiben und beurteilen. Berlin, Heidelberg, New York: Springer. Westhoff, K. & Kluck, M. L. (2003). Psychologische Gutachten schreiben und beurteilen (4., vollst. überarb. und erw. Aufl.). Berlin: Springer. Wicklund, R. A. (1977). Selbstzentrierte Aufmerksamkeit, Selbstkonsistenz und Moralität. In L. Montada (Hrsg.), Brennpunkte der Entwicklungspsychologie (S. 399-407). Stuttgart: Kohlhammer. Wicklund, R. A. (1982). Self-focused attention and the validity of self-reports. In M. P. Zanna, E. T. Higgins & C. P. Herman (Eds.), Consistency in social behavior: The Ontario Symposion (Vol. 2). Hillsdale: Erlbaum. Wieczerkowski, W., Bastine, R., Fittkau, B., Nickel, H., Tausch, R. & Tewes, U. (1969). Verminderung von Angst und Neurotizismus bei Schülern durch positive Bekräftigung von Lehrern im Schulunterricht. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 1, 3-12. Wieczerkowski, W. & Oeveste, H. Z. (1982). Zuordnungs- und Entscheidungsstrategien. In K. J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik (Bd. 2, Studienausgabe, S. 919-951). Düsseldorf, Schwann. Wietersheim, J. v., Ennulat, A., Probst, B., Wilke, E. & Feiereis, H. (1989). Konstruktion und erste Evaluation eines Fragebogens zur sozialen Integration. Diagnostica, 35, 359-363. Wild, K.-P. (1993). Hochbegabtendiagnostik durch Lehrer. In: D. H. Rost (Hrsg.), Lebensumweltanalyse hochbegabter Kinder (S. 236-261). Göttingen: Hogrefe. Willerman, L., Turner, R. B. & Peterson, M. (1976). A comparison of the predicitve validity of typical and maximal personality measures. Journal of Research in Personality, 10, 482492. Windheuser, J. & Niketta, R. (1972). Eine deutsche Form der »Reinforcement Survey Schedule« von Kautela und Kastenbaum. In D. Schulte (Hrsg.), Diagnostik in der Verhaltenstherapie (S. 264-272). München: Urban & Schwarzenberg. Winett, R. A. & Roach, A. M. (1973). The effects of reinforcing academic performance on social behavior: A brief report. Psychological Record, 23, 391-396. Wittchen, H.-U., Pfister, H. & Garczynski, E. (1997). Composite International Diagnostic Interview (CIDI) nach ICD-10 und DSM-IV. Göttingen: Hogrefe. Wittchen, H.-U., Schramm, E., Zaudig, M., Spengler, P., Rummler, R. & Mombour, W. (1990). Strukturiertes Klinisches Interview für DSM-III-R. Weinheim: Beltz. Wittchen, H.-U. & Semler, G. (1991). Composite International Diagnostic Interview (CIDI) nach ICD10 und DSM-IV. Weinheim: Beltz. Wittchen, H.-U., Semler, G., Schramm, E. & Spengler, P. (1988). Diagnostik psychischer Störungen mit strukturierten und standardisierten Interviews: Konzepte und Vorgehensweisen. Diagnostica, 34, 58-84. Wittchen, H.-U., Wunderlich, U., Gruschwitz, S. & Zaudig, M. (1997). Strukturiertes Klinisches Interview für DSM-IV, Achse-I (SKID). Göttingen: Hogrefe. Wittchen, H.-U., Zaudig, M. & Fydrich, T. (1997). SKID-I und SKID-II. Strukturiertes Klinisches Interview für DSM-IV. Achse I: Psychische Störungen/Achse II: Persönlichkeitsstörungen. Göttingen: Hogrefe. Wittchen, H.-U., Zaudig, M., Spengler, P., Mombour, W., Hiller, W., Essau, C. A., Rummler, R., Spitzer, R. L. & Williams, J. (1991). Wie zuverlässig ist operationalisierte Diagnostik? - Die TestRetest-Reliabilität des Strukturierten Klinischen Interviews für DSM-III-R. Zeitschrift für Klinische Psychologie, 20, 136-153. Wittkowski, J. & Seitz, W. (2004). Praxis der verkehrspsychologischen Eignungsbegutachtung: Eine Bestandsaufnahme unter besonderer Berücksichtigung alkoholauffälliger Kraftfahrer. Stuttgart: Kohlhammer. Wittmann, W. (1987). Grundlagen erfolgreicher Forschung in der Psychologie: Multimodale Diagnostik, Multiplismus, multivariate Reliabilitäts- und Validitätstheorie. Diagnostica, 33, 209-226. Wolff, J. (2000). BIP. Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung. Wirtschaftspsychologie, 7, 74-83. Wollenberg, A. L. van den (1988). Testing a latent trait model. In R. Langeheine & J. Rost (Eds.), Latent trait and latent class models (pp. 31-50). New York: Plenum. Wolpe, J. (1958). Psychotherapy by reciprocal inhibition. Stanford: Stanford University Press. Wolpe, J. & Lang, P. J. (1964). A Fear Survey Schedule for use in behavior therapy. Behavior Research and Therapy, 2, 27-30. Woodworth, R. S. (1918). Personal data sheet. Chicago: Stoelting. Wottawa, H. (1997). Ökonomische Dimensionen psychodiagnostischen Arbeitens. Bochum: Persönliche Mitteilung. Wottawa, H. & Amelang, M. (1980). Einige Probleme der »Testfairness« und ihre Implikationen für Hochschulzulassungsverfahren. Diagnostica, 26, 199-221. Wottawa, H. & Hossiep, R. (1987). Grundlagen psychologischer Diagnostik. Göttingen: Hogrefe. Wright, B. D. & Masters, G. N. (1982). Rating scale analysis. Chicago: MESA Press. Wrightsman, L. S. (1974). Assumptions about human nature: A social-psychological approach. Monterey, CA: Brooks. Zaworka, W., Hand, I., Jauernig, G. & Lünenschloß, K. (1983). Hamburger Zwangs-Inventar HZI. Weinheim: Beltz. Zedeck, S. (1971). Problems with the use of »moderator« variables. Psychological Bulletin, 76, 295-310. Zerssen, D. v. (1976a). Befindlichkeits-Skala Bf-S. Weinheim: Beltz. Zerssen, D. v. (1976b). Depressivitäts-Skala DS. Weinheim: Beltz. Zerssen, D. v. (1976c). Die Beschwerden-Liste (B-L). In G. Hank, K. Hahlweg, N. Klann (Hrsg.), Diagnostische Verfahren für Berater (S. 319-321). Göttingen: Beltz-Test. Zielke, M. (1979). Kieler Änderungssensitive Symptomliste KASSL. Weinheim: Beltz. Literaturverzeichnis 605 606 Literaturverzeichnis Zielke, M. & Kopf-Mehnert, C. (1978). Veränderungsfragebogen des Erlebens und Verhaltens VEV. Weinheim: Beltz. Zimmer, D. (1989). Fragebogen zu Sexualität und Partnerschaft FSP. Materialie 19. Tübingen: DGVT. Zimmer, D. & Echelmeyer, L. (1978). Fragebogen zur Lebensgeschichte. Tübingen: DGVT-Verlag. Zimmer, R. & Volkamer, M. (1984). Motorik-Test für 4 bis 6jährige Kinder MOT 4-6. Weinheim: Beltz. Zimmermann, P. & Fimm, B. (1993). Testbatterie zur Aufmerksamkeitsprüfung (TAP). Würselen: Vera Fimm Psychologische Testsysteme. Zuckerman, M., Koestner, R., DeBoy, T., Garcia, T., Maresca, B. C. & Satoris, J. M. (1988). To predict some of the people some of the time: A reexamination of the moderator variable approach in personality theory. Journal of Personality and Social Psychology, 54, 1006-1019. Zuschlag, B. (1992). Das Gutachten des Sachverständigen. Göttingen Stuttgart: Verlag für Angewandte Psychologie.