Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Methodische
Grundlagen der
Umfrageforschung
Methodische Grundlagen
der Umfrageforschung
Frank Faulbaum
Methodische Grundlagen
der Umfrageforschung
Frank Faulbaum
Universität Duisburg-Essen
Duisburg, Deutschland
Springer VS
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die
nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung
des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikro-
verfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen
etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die
Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des
Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten.
Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Infor-
mationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind.
Weder der Verlag noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder
implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt
im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten
Karten und Institutionsadressen neutral.
Springer VS ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden
GmbH und ist ein Teil von Springer Nature.
Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany
Inhalt
Vorwort ......................................................................................................... XV
II.1 Überblick....................................................................................................... 95
II.2 Grundlegende Dimensionen der Kommunikationsform ....................... 96
II.2.1 Administrationsformen und Kommunikationskanäle ......... 96
II.2.2 Befragungstechnologien .......................................................... 99
II.2.2.1 Allgemeines ........................................................... 99
II.2.2.2 Interviewer-administrierte Verfahren mit
Computerunterstützung .................................... 102
II.2.2.3 Selbst-administrierte Verfahren mit
Computerunterstützung (CASI bzw. CASQ) .. 106
II.3 Funktionsweise der Software-Unterstützung in ausgewählten CAI-
Anwendungen ............................................................................................ 112
II.3.1 Die Funktionsweise von CATI-Systemen............................. 112
II.3.1.1 Allgemeine Struktur ........................................... 112
II.3.1.2 Funktionen der CATI-Verwaltungssoftware .. 113
II.3.2 Funktionsweise internet-basierter Befragungstechnologien ..... 118
II.3.2.1 Internetdienste und Typen internetbasierter
Befragungen ........................................................ 118
II.3.2.2 Software-Komponenten zur Realisation
internetbasierter Umfragen ............................... 119
II.4 Zusammenfassung der Vor- und Nachteile computerunterstützter
Interviews .................................................................................................... 125
II.4.1 Vorteile computerunterstützter Interviews .......................... 125
Inhalt VII
Teil VII: Auf dem Weg von der Zielpopulation zur Nettostichprobe ......... 495
VII.7.2.1
Allgemeine Aspekte ........................................... 533
VII.7.2.2
Ansätze zur Modellierung der
Teilnahmebereitschaft ........................................ 536
VII.8 Maßnahmen zur Erhöhung der Responserate ....................................... 541
VII.8.1 Einführende Bemerkungen und Überblick ......................... 541
VII.8.2 Ankündigungen ....................................................................... 543
VII.8.3 Zuwendungen .......................................................................... 544
VII.8.4 Form und Inhalt der Kontaktaufnahme ............................... 549
VII.8.5 Interviewer-Performanz und Maßnahmen zu ihrer
Optimierung ............................................................................ 551
VII.8.5.1 Empirische Befunde zum Interviewer-Verhalten 551
VII.8.5.2 Organisations- und trainingsbezogene
Maßnahmen zur Optimierung der
Interviewer-Performanz..................................... 556
VII.8.6 Wahl der Kommunikationsform .......................................... 561
VII.8.7 Rekrutierungsaufwand, Nonresponse und Datenqualität . 564
VII.9 Dokumentation von Nonresponse-Gründen ......................................... 570
VII.9.1 Erfassungsformen .................................................................... 570
VII.9.2 Verweigerungsgründe ............................................................. 575
VII.10 Anpassungsgewichtung ............................................................................. 578
VII.10.1 Einführende Bemerkungen .................................................... 578
VII.10.2 Antwortmechanismen ............................................................ 579
VII.10.3 Gewichtungen ohne Hilfsvariablen: Der gewichtete
Klassenschätzer ........................................................................ 580
VII.10.4 Postratifikationsgewichte ....................................................... 581
VII.10.5 Raking ....................................................................................... 586
VII.10.6 Kalibrierung ............................................................................ 588
VII.10.7 Gewichtung nach dem Verfahren des minimalen
Informationsverlusts ............................................................... 591
VII.10.8 Propensity-Gewichtung ......................................................... 593
VII.10.9 Gewichtungen bei Internet-basierten Umfragen ................ 595
VII.10.9.1 Einleitende Bemerkungen ................................. 595
VII.10.9.2 Postratifikationsgewichtung .............................. 597
XIV Inhalt
den. Eine populäre Definition des Begriffs „Big Data“ basiert auf folgenden Ei-
genschaften (vgl. Japek et al., 2015, p. 841): (1) extremer Umfang der Datenmenge
(„volume“), die für die Analyse zur Verfügung steht, wobei die Daten aus unter-
schiedlichen Quellen stammen können; (2) hohe Geschwindigkeit, mit der die
Datenerhebung erfolgt („velocity“); (3) Unterschiedlichkeit und Komplexität der
Formate; (4) Variabilität („variability“) im Sinne einer Inkonsistenz der Daten über
die Zeit; (5) Bereitschaft, der Korrektheit der Daten zu trauen („veracity“); (6) Not-
wendigkeit, unterschiedliche Datenquellen zu verknüpfen. Beispiele für Typen von
„Big Data“ sind Daten aus den sozialen Medien, sensorische Daten, administrative
Daten, durch Tracking gewonnene persönliche Daten. Viele dieser Daten wurden
und werden im Unterschied zu Umfragedaten nicht-reaktiv erhoben.
Die Methoden der Datengewinnung durch Umfragen bestehen in einer vernetz-
ten Struktur vieler Teilschritte bzw. Komponenten, die auch als Umfrageprozess be-
zeichnet wird (vgl. Teil I.2; Abbildung I.3) und die als komplexes Messinstrument
zur Messung gesellschaftlicher Zustände aufgefasst werden kann. Jeder Schritt im
Umfrageprozess, von der Stichprobenauswahl bis zur Erstellung des Datensatzes
verlangt nach spezifischen Qualitätskriterien, deren Missachtung spezifische Feh-
ler bzw. Verzerrungen zur Folge haben können, die sich zu einem Gesamtfehler
einer Umfrage (totaler Umfragefehler; eng.: total survey error; vgl. Abschnitt I.4.2)
addieren können (vgl. Groves, 2004). Um den Umfragefehler möglichst gering zu
halten, bedarf es zumindest bei Umfragen von großer gesellschaftlicher und/oder
wissenschaftlicher Bedeutung der Zusammenarbeit von Fachleuten in den Schwer-
punkten, die in den Schritten des Umfrageprozesses angesprochen sind (vgl. hierzu
auch Faulbaum, 2016).
In dieser Monographie wird das Methodenpanorama der Umfrageforschung in
den wesentlichen Grundzügen dargestellt. Dabei ließ sich nicht vermeiden, dass
an einigen Stellen auf methodisches Vorwissen der Leser zurückgegriffen werden
muss. Dies ist vor allen in den eher statistisch geprägten Abschnitten des Buches
der Fall. Insbesondere Erfahrungen mit mathematischen Notationen sind sicher-
lich hilfreich. In jedem Fall sollte aber zumindest die Intention der dargestellten
Methoden erkennbar und damit auch eine Einschätzung ihrer Bedeutung im Um-
fragedesign und im gesamten Umfrageprozess möglich sein.
Das Buch ist so aufgebaut, dass im ersten Teil zunächst ein Gesamtüberblick
über Ablauf und Inhalt der Stufen des Umfrageprozesses sowie über die Rolle von
Umfragen im Forschungsprozess gegeben wird. Es war dabei auch ein Anliegen,
einige allgemeine Probleme unter Einschluss des Verwertungszusammenhangs
anzusprechen. In diesem Teil werden auch rechtliche Rahmenbedingungen an-
gesprochen. Der zweite Teil wendet sich den Kommunikationsformen zu, in de-
nen mit Kontaktpersonen und Interviewpartnern kommuniziert wird. Der Begriff
XVIII Vorwort
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 1
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_1
I.1 Einführende Charakterisierung von Umfragen und
einige Grundbegriffe
Umfragen unterscheiden sich von anderen Methoden der Datenerhebung vor al-
lem dadurch, dass Daten unter Einsatz systematischer Methoden der Befragung mit
dem Ziel der quantitativen Beschreibung einer Zielpopulation (auch: Grundgesamt-
heit) von Elementen hinsichtlich bestimmter Merkmale (auch: Variablen) erhoben
werden, wobei die Zielpopulation in der Regel Teil einer Gesamtpopulation (engl.:
total population) ist. Ein Beispiel wäre die Zielpopulation der in Privathaushalten
lebenden Personen im Alter ab 18 Jahren als Teilpopulation aller in Privathaus-
halten lebenden Personen der BRD. Elemente von Zielpopulationen können sein:
Personen, Haushalte, Unternehmen, Organisationen, Vereine, soziale Netzwerke,
etc., sie können also durchaus unterschiedlichen Analyseebenen angehören. Bei
der Erhebung ausgewählter Merkmale von Elementen höherer Analyseebenen wie
z.B. Unternehmen und Organisationen (engl.: business surveys oder establishment
surveys; vgl. DesRoches, 2008; Snijkers et al., 2013) muss je nach Element allerdings
zusätzlichen Problemen Rechnung getragen werden. Dazu gehören etwa die Fest-
legung der Informationsbeschaffung über geeignete Auskunftsperson(en) und die
besondere Beachtung der durch sie eingeführten Fehlerquellen (vgl. hierzu Bavdaž,
2010). Auch die Erhebungsinstrumente für Unternehmensbefragungen bedürfen
hinsichtlich ihres Designs besonderer Überlegungen (vgl. Morrison, Dillman &
Christian, 2010). Die mit der inhaltlichen Fragestellung verbundenen Variablen
heißen Zielvariablen (auch: Survey-Variablen, Studienvariablen, Untersuchungsva-
riablen; engl.: target variables, goal variables oder survey variables).
Aus Gründen wie zeitlichen Restriktionen, Kostengründen, etc. ist es insbe-
sondere bei großen Populationen in der Regel nicht möglich, im Rahmen einer
Totalerhebung alle Elemente der Population in eine Umfrage einzubeziehen, so dass
die Auswahl einer Stichprobe notwendig wird (vgl. Abbildung I.1).
Daraus ergibt sich die Aufgabe, statistische Eigenschaften von Merkmalen und/
oder Merkmalszusammenhängen in der Zielpopulation auf Basis der nach Ab-
schluss der Datenerhebung resultierenden Stichprobe, möglichst genau zu schätzen
(vgl. Abbildung I.2 in Bezug auf die Schätzung von Parametern univariater Ver-
teilungen). Aus der vereinfachten Darstellung der Abbildung geht allerdings nicht
hervor, dass zwischen der gezogenen Ausgangsstichprobe und der resultierenden
finalen Stichprobe noch der gesamte Erhebungsprozess mit seinen verschiedenen
Einfallstoren für Verzerrungen liegt.
4 I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe
Screenings erhobene Daten. Eine wichtige Funktion von Paradaten besteht in der
Verwendung als Hilfsvariablen bei Gewichtungsverfahren zur Korrektur von Aus-
fällen durch Nonresponse, da bestimmte Paradaten oft auch bei Personen erhoben
werden können, die die Interviewteilnahme verweigern.
Mit einer Umfrage sind stets bestimmte inhaltliche Zielsetzungen und damit
auch die Auswahl bestimmter Untersuchungsvariablen für die Erhebung verbun-
den, die Operationalisierungen der zentralen thematischen Dimensionen darstel-
len und die in ihrer inhaltlichen Funktion von sog. Hilfsvariablen (engl.: auxiliary
variables) unterschieden werden können, die der Unterscheidung verschiedener
Subpopulationen dienen (vgl. z.B. Bethlehem, Cobben & Schouten, 2010, p. 28)
und die zur Optimierung der Schätzungen von Populationswerte auf Grundlage
der Umfragedaten eingesetzt werden. Auf die Rolle der Hilfsvariablen wird in den
Teilen VI und VII näher eingegangen.
Sieht man von Umfragen ab, die ohne Bezug auf besondere methodische Über-
legungen und ohne Berücksichtigung von Qualitätsmerkmalen nur durchgeführt
werden, um Ergebnisse mit Unterhaltungswert zu produzieren, die sich in Boule-
vardzeitschriften oder Unterhaltungssendungen gut präsentieren lassen oder die
nur durchgeführt werden, um eine Einrichtung zwecks Selbstvermarktung in den
Medien zu lancieren, so wird es bei einer Umfrage in erster Linie darum gehen,
die statistischen Eigenschaften der zentralen Variablen der Untersuchungsfrage-
stellung in der Population so genau wie möglich auch in der Stichprobe abzubilden.
Mit dieser Abbildungsgenauigkeit wird oft der Begriff Repräsentativität verbunden
(siehe Teil VI). Die Abbildungsgenauigkeit wird nie perfekt sein, allein schon da-
rum, weil statt der Population nur eine Stichprobe untersucht wird und weil die
nach Durchführung der Umfrage resultierende finale Stichprobe (Menge der re-
alisierten Interviews; auch: Nettostichprobe) durch die Qualität der zur Stichpro-
benauswahl zur Verfügung stehenden Auswahlgrundlage und durch verschiedene
Arten von Nichtteilnahme im Vergleich zur Zielpopulation stets Verzerrungen auf-
weisen wird. Umso wichtiger erscheint es, vor und nach der Erhebung geeignete
Maßnahmen zur Optimierung der Schätzungen der relevanten Populationswerte
zu ergreifen. Dies kann nach der Erhebung etwa durch Anwendung geeigneter
Gewichtungsverfahren zur Korrektur von Schätzungen (vgl. Teile VI und VII) ge-
schehen. Die zusammenfassende Betrachtung aller Fehlerquellen, die im Verlauf
der Realisierung einer Umfrage auftreten können, führt zum Konzept des totalen
Umfragefehlers (engl.: total survey error; siehe Abschnitt I.4.2).
In wissenschaftlichen Forschungsprojekten geht es entweder um die Überprü-
fung von auf eine Population bezogenen, mehr oder weniger komplexen statisti-
schen Hypothesen bzw. Modellen des Forschers (konfirmatorische Nutzung der
erhobenen Umfragedaten) oder um die Exploration von Eigenschaften und Struk-
8 I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe
fahren wie das Matching nach dem nächsten Nachbarn oder nach dem identischen
Zwilling (vgl. z.B. Bacher, 2002).
Bereits aus dem Ziel der quantitativen Beschreibung einer Grundgesamtheit
folgt, dass alle Stichprobenelemente in einer Umfrage vergleichbar, d.h. objektiv,
gemessen sein müssen. Dies bedeutet, dass die Fragen, auf denen die angestreb-
ten quantitativen Aussagen beruhen, für alle Einheiten in gleicher Weise gestellt
werden sollten. Dies heißt aber wiederum im Detail, dass Frageformulierung,
Antwortformate, die Position der Frage im Fragebogen sowie Layout, und Inter-
viewer-Anweisungen (bei Interviewer-administrierten Interviews) oder Befrag-
ten-Anweisungen (bei selbstadministrierten Interviews) identisch sind. Da bei
Interviewer-administrierten Befragungen (zum Begriff der Administration vgl.
Teil II) das Antwortverhalten des Befragten durch das Verhalten der Interviewer
beeinflusst werden kann, sollte im Rahmen der stets notwendigen Schulung (Inter-
viewer-Schulung bzw. Interviewer-Training) auch ein möglichst vergleichbares In-
terviewer-Verhalten erreicht werden. Man fasst die genannten Bedingungen unter
dem Begriff Standardisierung (vgl. hierzu Schaeffer & Maynard, 2008) zusammen.
Zur Herstellung dieser Bedingungen lassen sich bestimmte Regeln zur Durchfüh-
rung standardisierter Interviews formulieren (vgl. Prüfer & Stiegler, 2002). Die
Vergleichbarkeit der Messungen wird überdies weiter dadurch erhöht, dass über-
wiegend geschlossene Antwortformate verwendet werden.
Es ist vor allem die Standardisierung und nicht so sehr die Zählbarkeit und
Quantifizierung der Antworten, die Umfragen von qualitativen Erhebungsmetho-
den unterscheidet. Mit zunehmender Standardisierung eines Erhebungsinstru-
ments werden die grundsätzlich denkbaren Reaktionen der Befragten auf solche
eingeschränkt, die vorgegebenen Antwortformaten entsprechen, d.h. auf adäquate
Antworten. Dies bedeutet z.B., dass es Befragten im Unterschied zu den Bedingun-
gen eines Gesprächs nicht gestattet ist, auf eine Frage mit einer Rückfrage oder mit
einer anderen Reaktion als der durch das Antwortformat vorgegebenen zu antwor-
ten. Bei Nachfragen zum Verständnis und anderen nicht-adäquaten Reaktionen
durch den Befragten ist der Interviewer angehalten, in seiner Reaktion sog. neutrale
Techniken zu verwenden, um die Befragten zu einer adäquaten Antwort zu bewe-
gen.
Diese Form der standardisierten Kommunikation zwischen Befragten und
Interviewern unterscheidet Umfragen von weniger strukturierten, qualitativen
Erhebungen. Viele Einwände der qualitativen Forschung in Bezug auf Umfragen
unter menschlichen Individuen haben mit der Befürchtung zu tun, der Mensch als
reflexiv handelndes menschliches Subjekt könnte im Rahmen der Befragung auf
einen Reiz-Reaktionsmechanismus reduziert werden und damit eine reine Variab-
lensoziologie bedienen (vgl. z.B. Blumer, 1956; Groeben, 1986). Richtig ist aber viel-
10 I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe
mehr nur, dass die Reflexion des Befragten durch eine Frage angestoßen wird und
in eine Antwort unter einer Menge zugelassener Antworten mündet. Allerdings
entfällt die Weiterführung der Antwort durch ein Gespräch. Zwischen Frage und
Antwort können mehr oder weniger komplexe kognitive und emotionale Prozesse
einschließlich selbstreflexiver Prozesse intervenieren. Mit einer standardisierten
Form der Befragung wird im Grunde ein ähnliches Frage-Antwortverhalten wie
auch in manchen Situationen des Alltags realisiert, in denen ebenfalls im Rahmen
etablierter Konventionen kommuniziert wird. Schwierig wird die Anwendung des
standardisierten Interviews allerdings bei Dialogen, die mit der Absicht geführt
werden, eine gemeinsame Antwort auf ein Problem zu finden, etwa dann, wenn
eine Einigung über die Interpretation eines Textes oder eines Ereignisses erzielt
werden soll. Auch hier lässt sich aber die Anwendbarkeit von formalisierten Ver-
fahren wie der Delphi-Methode prüfen, bei der in mehreren Runden versucht wer-
den kann, Expertenmeinungen zusammenzuführen (vgl. Häder, 2014).
Viele Restriktionen, Bedingungen und Unvereinbarkeiten in der Anwen-
dung von Umfragemethoden lassen sich im Grunde auf ein bekanntes Dilemma
der Kommunikationstheorie zurückführen. Dieses als Bandbreite-Übertragungs-
treue-Dilemma (engl.: bandwidth-fidelity dilemma) (vgl. Cherry 1957; Cronbach &
Gleser, 1965) bezeichnete Dilemma beschreibt das Problem, dass unter bestimmten
zeitlichen Restriktionen mit einer Erhöhung der Bandbreite eine Reduktion der
Übertragungstreue einhergeht. Ein Beispiel wäre, dass unter der Bedingung, dass
ein Interview nur 20 Minuten dauern darf, entweder nur sehr wenige Fragen mit
längeren Fragetexten oder viele Fragen mit nur kurzen Fragetexten gestellt werden
können, oder dass auf umfassendere Antworten auf offene Fragen zugunsten weni-
ger informativer Antworten auf geschlossene Fragen verzichtet werden muss.
Dieses Dilemma kann entsprechend erweitert werden, wenn auch noch die ko-
gnitive Komplexität und das mentale Leistungsvermögen der Befragten als Nadel-
öhr einbezogen wird, da ein bestimmtes Leistungsvermögen des Befragten auch
nur eine bestimmte Komplexität von Fragen zulässt.
Die Standardisierung von Interviews stellt zwar immer noch ein wesentliches
Merkmal von Umfragen dar, jedoch weisen einige Entwicklungen in der Umfrage-
forschung darauf hin, dass zukünftig nicht zuletzt auf Grund von technologischen
Entwicklungen auch Abweichungen vom Prinzip der vollständigen Standardisie-
rung nicht nur sinnvoll, sondern auch notwendig sein können. Ein Beispiel hierfür
ist die Integration von Hilfefunktionen, die Befragten zur Verfügung gestellt wer-
den, um zusätzliche Informationen abrufen zu können wie z.B. Begriffsklärungen
(vgl. Conrad & Schober, 2000; Schober & Conrad, 1997; Schober & Conrad., 2002;
Schober & Conrad, 2008). Die Integration solcher Hilfen erfordert eine Reform des
Standardisierungsbegriffs in Richtung auf eine stärkere Konversationspraxis (vgl.
I.2 Forschungsprozess, Umfragedesign und Umfrageprozess 11
Schaeffer & Maynard, 2008), woraus sich natürlich auch eine Reduktion des kon-
zeptuellen Abstands zwischen qualitativen Erhebungsverfahren und der Erhebung
von Umfragedaten ergibt.
Die Umfrageforschung wird in ihrer Entwicklung, wie einige andere Diszip-
linen auch, durch die Entwicklung neuer Technologien, insbesondere Kommu-
nikationstechnologien, beeinflusst, die einige Konsequenzen für die Form der
Interviewführung und die Darstellung von Informationen beinhaltet. So haben
sich etwa durch die Integration unterschiedlicher Medien (z.B. Video- und Audio-
komponenten) in das Interview neue Möglichkeiten ergeben, Gegenstände der
Beurteilung darzustellen, Erinnerungshilfen zu geben, etc. Zusätzliche Arten von
Paradaten wie z.B. Aufnahmen des Gesichtsausdrucks während der Beantwortung
von Fragen sind nun prinzipiell möglich geworden. Viele der Möglichkeiten wie
etwa die visuelle und auditive Einspielung von Informationen zur Stützung von
Gedächtnisleistungen werden immer noch nicht stärker genutzt. Ein Beispiel wäre
die Einspielung des „Toor, Toor, Toor“ des Rundfunkkommentators Werner Zim-
mermann im Endspiel zur Fußballweltmeisterschaft 1954 als Gedächtnisstütze in
ein CAPI- oder CATI-Interview (zu den Begriffen vgl. Teil II) in einer Umfrage
unter älteren Menschen zu Ereignissen jener Zeit.
Die Entscheidung für die Durchführung einer Umfrage und die Festlegung der
Umfrageziele erfolgen im Rahmen des übergeordneten Forschungsprozesses, der
umfassender ist als das Design der Umfrage. Erst wenn sich der Forscher im Rah-
men des Forschungsprozesses an Stelle alternativer Datenerhebungsmethoden, z.B.
an Stelle von nicht-reaktiven Beobachtungsverfahren, für eine Umfrage als Erhe-
bungsmethode entschieden hat, entsteht durch Konkretisierung des Forschungs-
prozesses der Umfrageprozess (engl. survey process; vgl. Lyberg et al., 1997, Biemer
& Lyberg, 2003, p. 27; Groves et al., 2009; Weisberg, 2005). Der Umfrageprozess
besteht in einer Reihe von Schritten, die im Rahmen von Vorbereitung und Durch-
führung einer Umfrage notwendig sind (vgl. Abbildung I.3).
Einige Schritte des Umfrageprozesses, der in der einschlägigen Forschungsli-
teratur mehr oder weniger detailliert beschrieben wird, sind nicht nur spezifisch
für den Umfrageprozess, sondern sind Bestandteil jedes Forschungsprozesses. So
ist etwa die Spezifikation der Umfrageziele nicht von der Spezifikation der For-
12 I.2 Forschungsprozess, Umfragedesign und Umfrageprozess
Festlegungen dieser Art werden unter dem Begriff des Umfragedesigns zusam-
mengefasst (vgl. Biemer & Lyberg, 2003, p. 44). Das Umfragedesign (engl.: survey
design) betrifft also die Ausgestaltung aller Schritte der Vorbereitung und Durch-
führung der Umfrage unter Berücksichtigung aller organisatorischen Randbedin-
gungen.
Ziel eines responsiven Designs sollte nach Lundquist und Särndal (2013) sein, eine
finale Menge von Respondenten anzustreben, die sich durch messbare und günsti-
ge Eigenschaften auszeichnet. Dabei können sich Eingriffe in den Erhebungsablauf
als sinnvoll erweisen, die zu einer finalen Antwortmenge führen, die für die Ge-
samtstichprobe repräsentativer ist (zum Begriff der Repräsentativität vgl. Abschnitt
VI.5.) und die Auswirkungen von Ausfällen (Nonresponse) reduziert.
Die Phase, in der Daten von Elementen einer Stichprobe erhoben werden sollen, wol-
len wir als Datenerhebungsphase (engl.: data collection period) bezeichnen. Sie setzt
sich aus einer Kontakt- und Screeningphase und der Interviewphase zusammen. Ziel
der Kontaktphase ist die Kontaktaufnahme mit der Zielperson, die im Fall Intervie-
wer-administrierter Interviews auf Grund von Faktoren wie Nichterreichbarkeit, etc.
häufig eine Vielzahl von Kontaktversuchen erfordern kann und oft erst über den
Kontakt mit einer Kontakt- oder Haushaltsperson (Haushaltskontakt) hergestellt
werden kann. Oft kann die Zielperson erst im Rahmen eines sog. Screenings ermit-
telt werden, bei der die definierenden Merkmale der Zielpopulation (z.B. Person in-
nerhalb einer bestimmten Altersgruppe, Person mit bestimmtem Migrationshinter-
grund) erhoben werden müssen. Der Screening-Aufwand kann reduziert werden,
wenn die Auswahlgrundlage, aus der die Ausgangsstichprobe gezogen wird (vgl. Teil
VI), bereits identifizierende Merkmale der Zielpopulation (Identifikatoren) enthält,
die zumindest eine teilweise Einschränkung der Auswahlgrundlage auf die Elemente
der Zielpopulation erlauben. Bei der Stichprobenauswahl aus Melderegistern kann
z.B. bereits eine Einschränkung der Stichprobe nach Altersgruppen erfolgen, so dass
das Alter nicht mehr im Rahmen eines Screenings erhoben werden muss.
Im Rahmen des schließlich erfolgten Erstkontakts mit der Zielperson werden
nach der Kurzdarstellung der Studienziele Auftraggeber und Umfrageinstitut ge-
nannt sowie die im Datenschutzrecht vorgesehenen Zusicherungen (z.B. Freiwil-
16 I.3 Die Datenerhebungsphase
Wesentlicher Teil des Umfrageprozesses ist die Feldarbeit und deren wesentlicher
Bestandteil, die praktische Durchführung bzw. Realisation von Interviews. Die
Durchführung von Interviews lässt sich als Prozess betrachten, an dem die folgen-
den Komponenten beteiligt sind:
In der Regel sind die genannten Komponenten in einen sequentiellen Ablauf einge-
bunden, des Stufen die in Abbildung I.5 dargestellte Struktur besitzen.
Alle Komponenten des Interviewprozesses müssen miteinander kompatibel
sein. Dies bedeutet insbesondere, dass das Erhebungsinstrument, die Kompeten-
zen des Administrators, die Kompetenzen des Befragten und die Sinneskanäle auf-
einander abgestimmt sein müssen. So sollte der Administrator in der Lage sein,
eine Repräsentation des Erhebungsinstruments in der gewählten Sinnesmodalität
zu erzeugen und der Befragte in der Lage sein, das Instrument in dieser Modali-
tät zu empfangen. Aus der Realisierung eines Interviews als sequentieller Ablauf
von dyadischen Interaktionen mit Personen in ihrer Rolle als Befragte zieht bereits
eine Reihe methodischer Fragestellungen nach sich wie z.B. die Beeinflussung der
20 I.3 Die Datenerhebungsphase
Antworten auf eine Frage durch die Antworten auf in der Sequenz vorangehende
Fragen (vgl. Teil III).
Abbildung I.5: Struktur einer Stufe des Interviewprozesses (n: Anzahl der Fragen)
der Teilnehmer klar verständlich sein sollten (vgl. hierzu auch die Ausführungen in
Faulbaum, Prüfer & Rexroth 2009).
Für das Verständnis sowohl der Bedingungen, unter denen ein Befragter an ei-
nem Interview teilnimmt als auch für die Einschätzung der Befragten-Reaktionen
erweist es sich oft als hilfreich, wenn Interviewer und Befragter als bewusst han-
delnde Personen gesehen werden, die unter Einbeziehung verfügbarer Informatio-
nen und unter Verfolgung bestimmter Interessen Fragen stellen und Antworten ge-
ben. Nicht nur das Stellen von Fragen, sondern auch die Antworten des Befragten
können als Konsequenzen bewusster Entscheidungen aufgefasst werden. Für den
Befragten sind es oft Entscheidungen unter Risiko, da er subjektiv keine Kenntnis,
sondern nur Vermutungen darüber hat, was mit seinen Antworten weiter geschieht,
was zu entsprechenden Bedenken, z.B. Anonymitätsbedenken, führen kann.
Wie bereits in Abschnitt I.1 erwähnt, verlaufen die Interviewprozesse bei Um-
fragen weitgehend über alle Befragten standardisiert. Standardisierung bedeutet,
dass für alle Befragten die gleichen Befragungsbedingungen gelten:
• gleiche Einleitungstexte;
• gleiche Fragen und gleiche Antwortvorgaben;
• die gleiche Reihenfolge der Fragen;
• die gleichen Befragungshilfen (z.B. Listen, Kärtchen, etc. bei Face-to-Face-In-
terviews);
• Anweisungen an den Administrator die Bestandteile des Erhebungsinstru-
ments in der vorgegebenen Form zu handhaben.
Die methodische Bedeutung der Standardisierung liegt in der Reduktion des In-
terviewer-Einflusses bzw. der durch den Interviewer erzeugten Varianz der Unter-
suchungsvariablen (vgl. hierzu auch Groves et. al. 2009, S. 295) und damit in der
Erhöhung der Objektivität der durchgeführten Messungen, indem sie die Funktion
des Administrators auf die reine Präsentation der Fragen und das kommentarlose
Registrieren der Antworten beschränkt. Ist der Administrator ein Computer, sind
die Anweisungen bereits programmiert, so dass die Administrator-Varianz bei der
Präsentation der Fragen entfällt. Die Regeln des standardisierten Interviews legen
fest, wie sich der Interviewer bei der Klärung von Nachfragen seitens der Befragten
und wie er bei nicht-adäquaten Antworten die relevanten Informationen verhalten
sollte (vgl. Prüfer & Stiegler, 2002).
22 I.4 Umfragequalität und Umfragefehler
Aus den Ausführungen des Abschnitts I.2 sollte bereits deutlich geworden sein,
dass sich die Qualität einer Umfrage als Qualität eines aus mehreren Schritten be-
stehenden Prozesses darstellt. Man spricht in diesem Fall auch von der Prozess-
qualität (engl.: process quality) von Umfragen (vgl. Lyberg et al., 1997; Schuman &
Kalton, 1985). Die Art und Weise, wie die einzelnen Schritte des Umfrageprozesses
realisiert werden, ist maßgebend für deren Qualität und damit für die Qualität der
gesamten Umfrage einschließlich der aus ihr resultierenden Daten; d.h. die Opti-
mierung einer Umfrage beinhaltet die Optimierung aller Schritte (vgl. Lyberg et
al., 1997; Biemer & Lyberg, 2003). Jeder einzelne Schritt des Umfrageprozesses be-
sitzt eigene Qualitätsmerkmale, die bei seiner Realisierung beachtet werden sollten.
Die Optimierung beginnt bereits bei der Präzisierung der Forschungsfragestellung
und der in ihr verwendeten Begriffe sowie der Operationalisierung, in der die the-
oretischen Begriffe durch Zuordnung empirischer Indikatoren messbar gemacht
werden müssen. Suboptimale Realisierungen sind mit Abweichungen von der er-
reichbaren Qualität verbunden. Qualitätseinbußen in einzelnen Stufen lassen sich
nach Abschluss einer Umfrage in der Regel nicht mehr oder nur mit einem z.T.
erheblichen methodisch/statistischen Zusatzaufwand korrigieren. Die Prozessop-
timierung erfordert eine entsprechende Ausbildung und Training des an Planung
und Durchführung einer Umfrage eingesetzten Personals (vgl. Faulbaum, 2016).
Mit Recht weist eine Denkschrift der Deutschen Forschungsgemeinschaft (vgl.
Kaase, 1999, S. 96) darauf hin, dass sich Methodenstudien in der Umfragefor-
schung in der Regel nur mit einzelnen Aspekten und Teilfragen befassen und dass
eine Methodologie der Qualitätsbewertung von Umfragen eher eine ganzheitliche
Perspektive einnehmen müsste. Die Denkschrift der DFG schlägt den Begriff des
Verfahrensmodells als Beschreibung eines Umfragetypus vor. Ein Verfahrensmodell
besteht aus der Spezifikation verschiedener Komponenten oder Dimensionen des
Gesamtablaufs einer Umfrage, wobei folgende Komponenten unterschieden wer-
den:
• Ausgangsstichprobe (Adäquation, coverage)
• Ausfälle in der Befragung (nonresponse)
• Interviewmethode (mode effects)
• Datenerfassung und -verarbeitung (Fehlermöglichkeiten/Fehlervermeidung)
• Zeitbedarf (Schnelligkeit)
• Dokumentation (Transparenz)
I.4 Umfragequalität und Umfragefehler 23
In der genannten Denkschrift wird in Bezug auf die Qualitätsbewertung die Tren-
nung von zwei Ebenen vorgeschlagen (vgl. Kaase, 1999, S. 107):
• die erreichbare Qualität der jeweiligen Verfahrensmodelle;
• die erreichte Qualität der Verfahrensmodelle.
Bei der Qualitätsbewertung mittels eines solchen Vergleichs wird man sich aller-
dings der Gefahr einer vorschnellen Relativierung auf niedrige Qualitätsnormen
bewusst sein müssen.
Der Vergleich zwischen erreichbarer und erreichter Qualität lässt sich durchaus
quantifizieren. Einen Vorschlag für die Quantifizierung der Abweichung einer Pa-
rameterschätzung unter den tatsächlichen Bedingungen der konkreten Durchfüh-
rung einer Umfrage vom Parameter unter Vorgabe der idealen Ziele haben Han-
sen, Hurwitz und Pritzker (1967; vgl. hierzu auch Dippo, 1997, pp. 461) gemacht.
Sie zerlegen den mittleren quadratischen Fehler der Abweichung des Schätzers auf
Basis der unter den konkreten operationalen und organisatorischen Bedingun-
gen realisierten Stichprobe vom idealen Wert in drei Abweichungskomponenten:
die Abweichung der konkreten Schätzung vom Erwartungswert (Mittelwert) des
Schätzers in Bezug auf die konkrete Realisierung, die Abweichung dieses Erwar-
tungswerts vom Erwartungswert des Schätzers unter den in der Planung getrof-
fenen Festlegungen für die Umfrage und die Abweichung dieses Erwartungswerts
vom idealen Parameter (zu den Begriffen „Parameter“, „mittlerer quadratischer
Fehler“ und „Schätzer“ siehe Teil VI).
Die Qualität von Umfragen steht auch im Mittelpunkt des Konzepts des totalen
Umfragefehlers (engl.: total survey error; kurz: TSE). Thematisiert werden in diesem
Konzept die Fehlerquellen, die während der Datenerhebung von der Stichprobenaus-
wahl bis zum vorliegenden, bereinigten Datensatz die Schätzung der Populationspa-
rameter verzerren könnten. Die mit dem Konzept verbundene Absicht ist also, die
Abweichung der Parameterschätzung (Schätzung von Populationsparametern wie
Mittelwert, Varianz, etc.) auf der Basis des (bereinigten) finalen Datensatzes auf ver-
schiedene Fehlerquellen zurückzuführen, die auf unterschiedlichen Stufen des Erhe-
bungsprozesses in unterschiedlichem Ausmaß zur Gesamtabweichung der Parame-
terschätzung vom wahren Populationswert beitragen. (Groves, 2004; Weisberg, 2005;
Faulbaum, 2018 ; vgl. auch die praktischen Anwendungen des Konzepts in Biemer et
al., 2017). Die Komponenten des TSE sind in Abbildung I.6 dargestellt.
24 I.4 Umfragequalität und Umfragefehler
Da haben wir zunächst den Stichprobenfehler, der einfach dadurch entsteht, dass
statt der vollständigen Grundgesamtheit nur eine Stichprobe erhoben wird. Dieser
Fehler wird gelegentlich noch einmal zerlegt in einen Schätzfehler (engl.: estimation
error) und einen Auswahlfehler (engl.: selection error) (vgl. Bethlehem 2009, p. 181).
Der Schätzfehler betrifft den Sachverhalt, dass bei einer Zufallsauswahl (zum Be-
griff der Zufallsstichprobe vgl. Teil VI) bei jeder Ziehung eine andere Schätzung re-
sultiert, die vom Populationswert mehr oder weniger stark abweicht. Der Auswahl-
fehler entsteht dadurch, dass in der Formel für den Schätzer des Populationswerts
die falschen Wahrscheinlichkeiten für die Auswahl einer Stichprobe eingesetzt wer-
den. In einigen Kommunikationsformen (zum Begriff der Kommunikationsform
vgl. Teil II) wie etwa in Webumfragen sind die Auswahlwahrscheinlichkeiten oft
unbekannt. In diesem Fall kann auch nicht mehr von einer Zufallsauswahl im sta-
I.4 Umfragequalität und Umfragefehler 25
tistischen Sinn gesprochen werden, da von einer Zufallsauswahl die Kenntnis bzw.
die Berechenbarkeit der Auswahlwahrscheinlichkeiten gefordert wird.
Vom Stichprobenfehler unterschieden sind die verschiedenen Arten des so
genannten Nicht-Stichprobenfehlers (engl.: nonsampling error), der weiter aufge-
schlüsselt werden kann in Nicht-Beobachtungsfehler (engl.: nonobservation error),
Beobachtungsfehler (engl.: observation error) und Spezifikationsfehler (engl.: speci-
fication error).
Nicht-Beobachtungsfehler betreffen einerseits die Abdeckung der Grundgesamt-
heit in der Auswahlgrundlage, andererseits die verschiedenen Arten von Nichtant-
wort (engl.: nonresponse), die entweder im Ausfall einer ganzen Untersuchungsein-
heit (engl.: Unit-Nonresponse) und oder im Ausfall von Antworten auf spezifische
Fragen (engl.: Item Nonresponse) (siehe Teil VII) bestehen kann.
Beobachtungsfehler werden im Rahmen des TSE-Ansatzes noch einmal unter-
teilt in Messfehler (engl.: measurement errors), Verarbeitungsfehler (engl.: processing
errors) und technische Fehler (engl.: technical errors). Beispiele für Verarbeitungs-
fehler sind Editierfehler, Eingabefehler, Tabellierungsfehler und Gewichtungsfehler
(vgl. Biemer & Lyberg, 2003, p.39). Letztere bestehen in der falschen Berechnung
von Gewichten zur Korrektur der Schätzer. Technische Fehler werden nicht immer
separat aufgeführt. Sie bekommen aber durch neue technologische Innovationen
in der Datenerhebung stärkeres Gewicht. Geräteausfälle, fehlerhafte Software, etc.
können zu technischen Fehlern führen, die das Antwortverhalten der Befragten
beeinflussen können. Von besonderer Bedeutung für die Datenqualität ist der
Messfehler. Er beschreibt, wie stark die tatsächliche Messung von der wahren Mes-
sung abweicht. Seine Formulierung basiert auf der klassischen Testtheorie mit ihrer
Zerlegung einer Messung in eine wahre Messung und in einen Fehler, wobei der
Fehler auch systematische Komponenten enthalten kann, die auf den Interviewer,
die Befragungssituation, etc. zurückgeführt werden können. Je größer dieser Feh-
ler, desto geringer die sogenannte Zuverlässigkeit bzw. Reliabilität einer Messung.
Diese Konzepte werden in Teil IV näher erläutert.
Der Spezifikationsfehler schließlich betrifft den Grad der Übereinstimmung
zwischen dem, was gemessen werden soll und dem, was tatsächlich gemessen wird,
also die sog. Validität bzw. Gültigkeit einer Messung. Je größer der Spezifikationsfeh-
ler, desto gefährdeter ist die inhaltliche Interpretierbarkeit der Daten. Theoretisch
wäre es möglich, dass sich die Parameterschätzung einer im Übrigen fehlerfreien
Umfrage auf eine falsch spezifizierte Variable bezieht, was bedeuten würde, dass die
Interpretation aller statistischen Ergebnisse, die sich auf diese Variable beziehen, in
Zweifel zu ziehen wäre. Der Spezifikationsfehler lässt sich im Rahmen spezifischer
Umfrage- und/oder Fragebogendesigns quantifizieren wie etwa durch Korrelation
eines empirischen Indikators mit dem durch ihn gemessenen Konstrukts (theoreti-
26 I.4 Umfragequalität und Umfragefehler
sche Validität; vgl. Teil IV). Im Falle der Validität von Modellen spielt insbesondere
die korrekte Spezifikation der Modellstruktur eine Rolle. Fehlspezifikationen der
Modellstruktur äußern sich vor allem in Defiziten der Modellanpassung.
Mit den genannten unterschiedlichen Fehlerarten kann immer auch eine
Stichprobenverzerrung (engl.: bias) oder eine Verzerrung durch Messfehler un-
terschiedlichen Ausmaßes verbunden sein, von denen Teilgruppen der Stichprobe
unterschiedlich stark betroffen sein können.
Die Frage bleibt, ob mit der Aufteilung des totalen Stichprobenfehlers alle
Einflüsse auf die Datenqualität erfasst sind. Im Rahmen ihrer kritischen Betrach-
tung des Konzepts des totalen Umfragefehlers und seiner Rolle in der Umfrage-
forschung zählen Groves und Lyberg (2010) einige Unzulänglichkeiten des in Ab-
bildung I.4 dargestellten Rahmenkonzepts vor, das nach wie vor eine akzeptable
Hintergrundfolie für die Optimierung des Umfragedesigns darstellt. Die Autoren
kritisieren insbesondere das Fehlen nicht-statistischer Qualitätsindikatoren wie
Transparenz, Glaubwürdigkeit, etc. sowie den Aufwand für die Messung bestimm-
ter Fehlerkomponenten, der die Messung in praktischen Anwendungen erschwert.
Sie fordern außerdem im Rahmen von Kausalanalysen eine verstärkte Suche nach
den Fehlerursachen sowie eine Betrachtung der Korrelationen zwischen den Feh-
lerkomponenten. Ähnlich wie Groves und Lyberg argumentiert auch Smith (2011),
der eine weitere Vervollständigung der Fehlerkomponenten und eine Anpassung
an die Erfordernisse des interkulturellen Vergleichs vorschlägt. Versucht werden
kann, weitere Prozessinformationen (Paradaten) zur Minimierung von Fehlern zu
verwenden (vgl. Kreuter, 2013a), wobei die Zuverlässigkeit dieser Daten immer
wieder hinterfragt werden muss.
Aufgabe, seine Fragen und die in ihnen formulierten Aufgaben so zu gestalten, dass
die Antwortqualität optimiert wird.
Zu den zentralen empirischen Indikatoren der Qualität einer Antwort auf eine
Frage zählt zunächst deren Adäquatheit. Als adäquat bezeichnen wir eine Antwort
des Befragten dann, wenn sie in das vorgegebene Antwortformat passt, d.h. wenn
sie einer der vorgegebenen Antwortalternativen oder einem zulässigen Skalenwert
entspricht. In allen anderen Fällen spricht man von einer nicht-adäquaten Antwort.
Nicht-adäquate Antworten signalisieren Probleme des Befragten mit der Frage. Sie
stellen somit Indikatoren für mögliche Qualitätsgefährdungen dar wie Probleme
des Verständnisses des Fragetextes, generell Probleme mit der Lösung der im Fra-
getext beschriebenen Aufgabe, die der Befragten im Beantwortungsprozess erbrin-
gen muss und die von ihm eine bestimmte Leistung erfordert. Um einen Befrag-
ten nach einer nicht-adäquaten Antwort zu einer adäquaten Antwort zu bewegen,
bedarf es auf Seiten des Interviewers der Anwendung sog. neutraler Techniken,
die geeignet sind, auf den Befragten nicht beeinflussende Weise bei diesem eine
adäquate Antwort hervorzurufen. Die Vermittlung neutraler Techniken gehört zu
den Regeln des standardisierten Interviews und ist notwendiger Bestandteil des In-
terviewer-Trainings (vgl. Prüfer & Stiegler, 2002). Wir werden die Adäquatheit von
Antworten im Zusammenhang mit dem Antwortverhalten in Teil III noch einmal
genauer thematisieren.
Allerdings ist die Adäquatheit einer Antwort zwar notwendige Bedingung für
die Qualität einer Antwort, aber keine hinreichende Bedingung. Eine adäquate Ant-
wort kann auch dann erfolgen, wenn sie ohne Ernsthaftigkeit oder zufällig gegeben
wird, oder wenn die Frage im Befragten Wirkungen auslöst wie „Angst“, „Ärger“,
„Bedenken“, etc., die aus Sicht des Forschers Nebeneffekte darstellen, aber durch-
aus dazu führen könnten, dass die Antwort eines Befragten zwar adäquat ist, aber
von der Antwort abweicht, die der korrekten Lösung der im Fragetext beschriebe-
nen Aufgabe entspricht. Fragetexte, die solche Wirkungen entfalten, werden in der
Regel als sensitiv bezeichnet. Schließlich gibt es auch Antworten, die der Befragte
nach bestem Gewissen gibt, die aber dennoch verzerrt sein können wie etwa die
bekannte Überschätzung von Häufigkeiten oder Wahrscheinlichkeiten, fehlerhafte
Prozentangaben, etc. Solche Antworten, die mitunter schwer zu validieren sind,
stellen aus Sicht des Respondenten korrekte Antworten dar (er weiß es nicht bes-
ser), aus Sicht des Forschers sind sie aber nicht korrekt. Sie beeinflussen zweifellos
die Validität, was aber vom Forscher nicht unbedingt überprüft werden kann.
Für die Qualität einer adäquaten Antwort auf eine Frage bzw. der Einstufung
eines Items sind natürlich der zu den Beobachtungsfehlern gehörende Messfeh-
ler und die Gütekriterien der auf einer adäquaten Antwort beruhenden Messung
von entscheidender Bedeutung. Dem Begriff der Messung und ihrer Gütekriterien
28 I.4 Umfragequalität und Umfragefehler
der Validität und Reliabilität ist ein getrennter Abschnitt gewidmet (vgl. Teil IV).
Das Konzept der Reliabilität thematisiert die Abweichung einer auf einer Antwort
beruhenden Messung von einer wahren Messung, wobei der Begriff der wahren
Messung durchaus unterschiedliche Bedeutungen haben kann. Wichtige Varianten
sind:
• Die wahre Messung ist zwar prinzipiell beobachtbar wie z.B. ein faktisches Er-
eignis, das tatsächlich stattgefunden haben muss (z.B. Geburt eines Kindes),
das aber dem Forscher verborgen und nur dem Befragten bekannt sein kann.
Wird das Ereignis vom Befragten genannt, muss der Forscher dieser Informati-
on Glauben schenken und kann bei Fehlen unabhängiger objektiver Unterlagen
nicht beurteilen, ob die Information korrekt ist. In diesem Fall kann also die be-
obachtete Messung (z.B. des Geburtsdatums der Großmutter) von der wahren
Messung (tatsächliches Geburtsdatum) abweichen. Zur Fehlerkorrektur könn-
ten z.B. administrative Daten herangezogen werden.
• Die wahre Messung ist prinzipiell nicht beobachtbar wie z.B. im Fall einer Ein-
stellungsmessung, von Bewertungen, etc. Gibt der Befragte z.B. einen bestimm-
ten Zufriedenheitswert auf einer Zufriedenheitsskala an, so weiß der Forscher
nicht, ob dieser Zufriedenheitswert die „wahre“ Ausprägung repräsentiert. Um
dies sicherzustellen, müssen Maßnahmen ergriffen werden, um „störende“ Ein-
flüsse auf den wahren Wert zu kontrollieren oder zu eliminieren.
Diese Effekte werden später an geeigneter Stelle näher beschrieben (vgl. Teil III).
Sie können sowohl die Parameterschätzungen als auch die Interpretation der sta-
tistischen Ergebnisse beeinflussen. Wenn etwa statt der Variablen „häusliche Ge-
walt“ die Variable „soziale Erwünschtheit“ (zum Begriff „Soziale Erwünschtheit“
vgl. Teil III) gemessen wird, weil der Befragte sich nicht auf den Inhalt der Frage
bezieht, sondern auf seine Außendarstellung sind alle Interpretationen statistischer
Modelle, welche die Variable „häusliche Gewalt“ einschließen, wertlos.
Selbstverständlich tragen alle Maßnahmen, die eine Reduktion des totalen Umfrage-
fehlers und seiner Komponenten bewirken, dazu bei, die Umfragequalität zu erhö-
hen. Schon an dieser Stelle soll aber eine zentrale theoretische Perspektive vorgestellt
werden, aus der sich Empfehlungen ableiten lassen, die eine Reduktion von Kompo-
30 I.4 Umfragequalität und Umfragefehler
nenten des totalen Umfragefehlers erwarten lassen. Eine solche Perspektive wurde
von Don Dillman vorgeschlagen. Dillman (2000, Dillman, Smyth & Christian, 2014)
hat versucht, aus soziologischer Perspektive einen Ansatz zur Verbesserung der Um-
fragequalität zu entwickeln. Unter der Bezeichnung maßgeschneidertes Design (engl.:
tailored design) hat Dillman eine Reihe von Verfahren und Prinzipien für selbstadmi-
nistrierte Interviews zusammengefasst, die zu einer erhöhten Datenqualität führen
sollen. Diese Verfahren können aber analog durchaus auch für Interviewer-adminis-
trierte Interviews gelten. Sie betreffen sowohl den Entwurf von Erhebungsinstrumen-
ten als auch die Erhöhung der Teilnahmebereitschaft und die Reduktion der Anzahl
fehlender Werte, insbesondere bei heiklen Fragen. Dillman entwickelt seinen Ansatz
auf Grundlage der Theorie des sozialen Austausches (engl.: social exchange theory).
(vgl. Blau, 1964; Homans 1958). Diese postuliert, dass Beziehungen zwischen Part-
nern (Individuen, Organisationen, etc.) auf einer Kosten-Nutzen-Analyse basieren.
Eine Beziehung zwischen sozialen Akteuren wird aufgenommen und aufrechterhal-
ten, wenn und solange die Kosten den Nutzen nicht übersteigen. Nach dieser Theorie
sind Handlungen von sozialen Akteuren durch das motiviert, was sie durch diese
Handlungen als Gegenleistung erhalten. Der Ansatz legt also als Modell der Befrag-
ten-Entscheidung einen Rational-Choice-Ansatz bzw. ein „cost/benefit“-Ansatz (vgl.
Schnell, 1997; Singer, 2011) zugrunde. Dillmans schlägt vor, die folgenden Empfeh-
lungen im Umfragedesign zu berücksichtigen:
Diese Prinzipien liegen implizit oder explizit vielen Empfehlungen anderer Auto-
ren zur Reduktion von Nonresponse und zur Messqualität zugrunde. Zahlreiche
Untersuchungen bestätigen direkt oder indirekt das Konzept. Sie sollen nicht an
dieser Stelle aufgezählt werden, doch wird der Leser keine Schwierigkeiten haben,
diese Perspektive später im Zusammenhang mit Modellen der Teilnahmebereit-
schaft oder Ergebnissen zur Reduktion von Nonresponse und zur Erhöhung der
Antwortqualität wiederzufinden. Die obigen Empfehlungen lassen sich zwar nicht
bei allen Forschungsfragestellungen berücksichtigen und sind sicherlich auch un-
vollständig, in jedem Fall sollte man aber diese Gesichtspunkte dort, wo es sinnvoll
und möglich erscheint, in die eigenen Designüberlegungen einbeziehen. In Bezug
auf den Entwurf von Fragebögen und Fragen ergibt sich aus dem Ansatz vor allem
die Konsequenz, die Belastungen des Befragten, seien es kognitive, emotionale Be-
lastungen oder Belastungen durch schlechte Benutzerfreundlichkeit des Fragebo-
gens, gering zu halten (vgl. Teil III). Bei selbstadministrierten Interviews ergeben
sich aus diesen Prinzipien Vorschläge für die Gestaltung des Layouts (vgl. Dillman,
Smyth & Christian, 2014).
32 I.5 Methodenspektrum im Umfrageprozess
gesichert werden kann. Einen Überblick über die Verfahren der Editierung geben
Van de Waal, Pannekoek und Scholtus (2011).
Der Aufwand für den Editierprozess kann mehr oder weniger hoch sein (vgl.
Granquist & Kovar, 1997), was entsprechende Kosten nach sich zieht. Er sollte aber
Prüfungen und ggf. Korrekturen der folgenden Komponenten einbeziehen (vgl.
Pierzchala, 1990):
Bereichsfehler und Filterfehler lassen sich bereits in der Testphase des Fragebogens
identifizieren. Programmierungen können auf die Algorithmen von Fellegri und
Holt (1976) zurückgreifen. Alle identifizierten Fehler sollten in einem Fehlerproto-
koll sorgfältig dokumentiert werden. Das einzuleitende Maßnahmenpaket und die
Randbedingungen seiner Anwendung (z.B. Übereinstimmung der Randverteilun-
36 I.5 Methodenspektrum im Umfrageprozess
gen des editierten Datensatzes mit den dem Datensatz der unbeanstandeten Fälle)
müssen präzise definiert und begründet sein.
Mit einer Fehleranalyse ist die Qualität eines Datensatzes aber noch nicht er-
schöpfend analysiert. Sie kann ergänzt werden durch Analysen von Interviewer-Ef-
fekten, von Einflüssen der Interviewsituation und von Antwortstrategien der Be-
fragten.
Oft treten bei Planung, Vorbereitung und Durchführung von Umfragen in der Re-
gel methodische Probleme auf, die nicht zuletzt mit den Fehlern bzw. Verzerrungen
zusammenhängen, die sich im Rahmen des Umfrageprozesses einstellen und die
die gesamte Qualität einer Umfrage negativ beeinflussen können. Einige Probleme
kann man durch entsprechende methodische Entscheidungen und die Anwendung
bestimmter Methoden zu minimieren versuchen. Andere Probleme lassen sich
nicht ohne weiteres lösen. Hier seien einige Entscheidungsprobleme aufgeführt,
mit denen immer zu rechnen ist:
• zwischen dem Leistungsvermögen der Befragten und der Komplexität der Fra-
gen, die gestellt werden können;
• zwischen den Belastungen (engl.: work load) von Befragten und Interviewern
und der Länge des Fragebogens;
• zwischen den Kosten der Umfrage und Merkmalen der Umfragequalität; z.B.
zwischen Kosten der Umfrage und der Länge des Erhebungsinstruments, der
gewählten Kommunikationsform oder dem Stichprobenumfang;
• zwischen der verfügbaren Interviewzeit, der Anzahl der Fragen und der Fra-
genkomplexität;
• zwischen der Kompetenz des Umfragedesigners und der Qualität des Fragebo-
genentwurfs;
• zwischen der soziokulturellen Heterogenität einer Stichprobe und der Formulierung
von Fragen, die für alle Subgruppen in gleicher Weise verstanden werden können.
tion der Situation stellen können in der Regel nur Vermutungen angestellt werden.
Durch die Art der Kontaktaufnahme kann eine gewisse Steuerung der Interpreta-
tion versucht werden.
Die Einbindung in das kulturell geprägte Alltagsleben und die Lebenswelt des
Befragten kann sich ebenfalls in den Bedeutungszuordnungen, die Befragte den
Fragetexten geben, also in der Interpretation der Frageformulierungen ausdrücken,
was wiederum Auswirkungen auf die Relevanz und die Form von kognitiven Inter-
views bei der Evaluation von Fragen haben kann (vgl. Miller, 2011). Die Lebens-
welt spielt infolgedessen insbesondere bei interkulturellen Umfragen eine Rolle,
bei denen mit unterschiedlichen Lebenswelten gerechnet werden muss. Da die Ge-
sellschaft kulturell inhomogen ist, ist beim Entwurf von Fragen die soziokulturel-
le Heterogenität auch bei nationalen Umfragen immer mit in Betracht zu ziehen.
Selbst durch kognitive Pretests (vgl. Teil V) wird man oft keine sichere Kenntnis
über die Interpretationen der Befragten erhalten können, da die Ergebnisse nicht
immer reichhaltig und präzise genug sind. Das Hinterfragen der von den Befragten
gelieferten Interpretationen kann wiederum problematisch werden, da die Fragen
des Forschers ihrerseits immer wieder vom Befragten interpretiert werden müssen,
d.h. die Nachfragen müssten ihrerseits wieder einem Pretest unterworfen werden,
etc. Das Problem ist ähnlich gelagert wie beim hermeneutischen Zirkel (Gadamer,
1990, S. 270) oder dem Basisproblem in der Wissenschaftstheorie (vgl. Popper,
1976, S. 60). Die Frage könnte hier sein, wie viele geschachtelte Pretests sind not-
wendig, um sichere Kenntnis von der Interpretation der Befragten zu erlangen? Als
weiteres Problem ergibt sich, dass mit Sicherheit in diesem Fall nur die subjektive
Sicherheit des Forschers gemeint sein kann.
Im Grunde gibt es drei Ebenen der Ergebnisinterpretation (vgl. Abbildung I.9): Auf
der untersten Ebene 1 haben wir die Schätzungen der Populationswerte (Parame-
terschätzungen), auf der zweiten Ebene haben wir die Ebene der Bewertung der
statistischen Daten und auf der dritten Ebene haben wir die inhaltlichen Schluss-
folgerungen.
Abbildung I.10 stellt ein fiktives Beispiel dieser dreistufigen Ergebnisinterpreta-
tion dar. Dargestellt ist, wie aus der Schätzung des Anteils rechtsradikaler Antwor-
ten eine inhaltliche Schlussfolgerung entstehen könnte.
Eine von der in Abbildung I10 abweichende Interpretation könnte den 12% An-
teil der Radikalen als gering einstufen, womit sich auch die inhaltlichen Schlussfol-
gerungen auf Ebene 3 ändern würden. Anstatt der Betrachtung der Ergebnisse zu
einem Zeitpunkt wäre die Betrachtung der statistischen Veränderungen in der Zeit,
I.6 Grundsätzliche Probleme der Umfrageforschung 41
also Anstieg oder Abnahme der Anteile. Voraussetzung ist allerdings, dass Ergeb-
nisse zu mehreren Zeitpunkten vorliegen. Der Umfrageforscher sollte sich dieser
Problematik insbesondere im Umgang mit den Medien bewusst sein, weil Stufe 3
oft den Medien überlassen wird.
Variablen untersucht werden soll, konfundiert sein können. So kann etwa der Ein-
fluss der Häufigkeit eines Kontakts mit Migranten auf die Einstellung konfundiert
sein mit dem Geschlecht, indem etwa Männer oder Frauen eine niedrigere oder
höhere Kontakthäufigkeit aufweisen. Dieser Sachverhalt führt dazu, dass Effekte
auf die abhängigen Variablen nicht eindeutig auf die unabhängigen Variablen, de-
ren Einfluss geprüft werden soll und die im Fokus der Analysefragestellung stehen,
zurückgeführt werden können. Damit ist eine Isolation von Ursachen nicht mehr
ohne weiteres möglich. Mit der Konfundierung zwischen Experimentalvariablen
und Störvariablen ist eine Verminderung der internen Validität verbunden.
Eine Präzisierung des Begriffs der konfundierenden Variablen (engl.: con-
founding variable, confounder) liefern Szlklo und Nieto (zit. nach Weisberg, 2010,
p.128). Eine konfundierende Variable
• hängt kausal mit der Outcome-Variablen zusammen;
• hängt kausal oder nicht kausal mit dem Treatment zusammen;
• ist keine vermittelnde Variable auf dem Weg zwischen Treatment und Outcome.
Die Vermutung, dass konfundierende Variablen die Beziehung zwischen zwei Va-
riablen beeinflussen können, führt zur Frage nach den Möglichkeiten ihrer Kon-
44 I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen
trolle. Die Kontrollierbarkeit setzt voraus, dass man die konfundierende Variable in
der Erhebung beobachten konnte und sie im Datensatz vorhanden ist. Ist dies der
Fall bieten sich folgende Kontrollmöglichkeiten an:
Multivariate Analyse
Im Rahmen von Regressionsmodellen können die konfundierenden Variablen als
Kontrollvariablen (auch: Kovariate; engl.: covariate) in das Regressionsmodell auf-
genommen werden. Die Effekte der unabhängigen Variablen stellen dann Effekte
unter Konstanthaltung der Kontrollvariablen dar. Ein enstprechendes Vorgehen
stellt die Kovarianzanalyse dar, bei der die Effekte der konfundierenden Variablen
aus den Effekten der Faktorvariablen herausgerechnet sind.
Eine Variante des Matching stellt die Subklassifikation nach Propensity Scores
dar. Liegen zwei Gruppen von Untersuchungseinheiten mit ihren Messungen sowie
eine Reihe möglicher konfundierender Variablen vor, so kann der Einfluss dieser
Kovariaten auf die dichotome Variable „Gruppenzugehörigkeit“ im Rahmen eine
verallgemeinerten linearen Modells, z.B. logistisches Modell, Probit-Modell, etc.,
statistisch überprüft werden. In der Regel wird eine binäre logistische Regressi-
on gewählt. Die Wahrscheinlichkeit, einer der beiden Gruppen an der Stelle einer
bestimmten Merkmalskombination der Kovariaten anzugehören, wird auch als
Propensity Score bezeichnet (siehe auch die Ausführungen in Teil VI). Rosenbaum
und Rubin (1983: 44, Theorem 1) bewiesen, dass die Zuordnung von Untersu-
chungseinheiten zu zwei Treatments und die beobachteten Kovariaten unter der
Bedingung eines Propensity Scores von einander statistisch unabhängig sind, in
Symbolen:
x ⊥⊥ z | e ( x )
wobei x ein Vektor von Kovariaten, z die Behandlungszuordnung und e(x) der
Propensity Score. Dieses Theorem gilt für alle sog. balancing scores. Unter einem
balancing score b(x) ist eine Funktion der beobachteten Kovariaten zu verstehen, so
dass die bedingte Verteilung gegeben den balancing score unabhängig davon ist,
welcher Treatment-Gruppe eine Untersuchungseinheit zugordnet ist.
I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen 45
Aus dem genannten Theorem folgt, dass unter Konstanthaltung der Propensity
Scores, die multivariaten Verteilungen der konfundierenden Kovariaten in beiden
Gruppen gleich sein müssten bzw. sich die multivariaten Verteilungen der Kovari-
aten in beiden Gruppen nur zufällig unterscheiden dürften, was zugleich bedeutet,
dass Gruppenunterschiede für Untersuchungseinheiten mit dem gleichen Propen-
sity Score nur noch auf den Einfluss der Untersuchungsvariablen zurückzuführen
sind. Empfohlen wird eine Kategorisierung der Propensity Scores durch Intervall-
bildung und die Durchführung der Analysen innerhalb eines Propensity-Intervalls
(vgl. Rosenbaum & Rubin, 1984; vgl. auch die leicht verständliche Darstellung und
das epidemiologische Beispiel in Rubin, 1997).
Diese Form der Analyse findet sich in zahlreichen Methodenstudien der Um-
frageforschung, insbesondere bei der Kontrolle von Effekten der Kommunikations-
form (siehe Teil II). Die Verteilungsgleichheit innerhalb der Propensity-Kategorien
lässt sich durch Verteilungstests überprüfen. Sind die Verteilungen signifikant un-
terschieden, so kann man versuchen, die Kategorisierung der Propensity Scores zu
ändern.
Neben diesen drei Kernannahmen werden gelegentlich noch eine Reihe weiterer
Annahmen aufgestellt (vgl. Klein, 1987). Dazu gehören die Annahme, dass die Ein-
46 I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen
Umfragen in Fallstudien
Im Zentrum von Fallstudien steht die Untersuchung einzelner Fälle (Untersu-
chungseinheiten). Fälle können sein: Personen, Gruppen, Schulklassen, Städte,
Stadtviertel, Kulturen, Haushalte, Betriebe, Organisationen, etc. Ziel ist die ge-
naue Beschreibung eines einzelnen Falls hinsichtlich verschiedener Aspekte eines
Forschungsproblems. Dabei steht oft nicht so sehr die Überprüfung von Theorien
und Hypothesen im Vordergrund, sondern die Zustandsbeschreibung sowie die
Hypothesengenerierung und Exploration. In diesem Zusammenhang werden oft
weniger strukturierte Erhebungsverfahren eingesetzt und eine große Vielfalt von
48 I.8 Umfragen im Rahmen spezieller Forschungsdesigns
Umfragen in Querschnittsstudien
In der Regel werden Umfragen im Rahmen von Querschnittsstudien (engl.: cross-sec-
tional studies) durchgeführt. Erhoben werden bei Querschnittsuntersuchungen
die Merkmalsausprägungen eines oder mehrerer Merkmale (Variablen) bei einer
großen Stichprobe von Individuen zu einem bestimmten Zeitpunkt bzw. einer be-
stimmten Gelegenheit (engl.: occasion). In der Regel handelt es sich bei den Zeit-
punkten um durch die Dauer der Erhebung (auch: Feldzeit) definierte Zeiträume.
Umfragen in Längsschnittstudien
Umfragedaten werden aber auch in verschiedenen Formen von Längsschnittstudi-
en erhoben. Zu den Längsschnittstudien werden Trendstudien, Panelstudien, Zeit-
reihenstudien und Studien, welche Ereignisse erheben, gezählt.
Trendstudien bestehen in zu mehreren Gelegenheiten erhobenen Querschnit-
ten; d.h.: mehrere Variablen werden zu mehreren Zeitpunkten erhoben, wobei die
Stichprobe der zu untersuchenden Einheiten von Zeitpunkt zu Zeitpunkt variiert.
Zu jedem Zeitpunkt wird also eine mit dem gleichen Auswahlverfahren ausgewähl-
te unterschiedliche Stichprobe von Personen gezogen und bezüglich der gleichen
Merkmale untersucht. Die Analyse von Trenddaten ermöglicht die Darstellung
statistischer Kennwerte bzw. Parameterschätzungen im Zeitverlauf, jedoch keine
Analyse und Messung individueller Veränderungen.
Bei einer Panelstudie wird dieselbe Menge von Untersuchungseinheiten über
mehrere Gelegenheiten (Wellen; engl.: waves) hinweg bezüglich einer Menge von
Merkmalen untersucht, wobei die Menge der Messzeitpunkte relativ klein ist. Zu-
mindest eine Teilmenge der Merkmale, manchmal sogar alle Variablen, ist über die
Messzeitpunkte hinweg identisch. Der Vorteil von Panelstudien besteht darin, dass
sie Aussagen über Art, Richtung und Ausmaß von Veränderungen gestatten. Neh-
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 49
men wir als fiktives Beispiel z.B. an, wir hätten zu zwei verschiedenen Zeitpunkten
t1 und t2 die gleichen 100 Personen befragt, ob sie gegenwärtig erwerbslos sind
oder nicht und die Ergebnisse in der in Abbildung I.11 dargestellten Übergangsta-
belle (engl.: turnover bzw. crossover-Tabelle) zusammengefasst.
erwerbslos t1 0 50 50
nicht erwerbslos t1 50 0 50
Summe t2 50 50 100
Wie man erkennt, würde man im Fall einer Trendstudie zu beiden Zeitpunkten
keine Veränderung feststellen können, obwohl sich eine enorme Dynamik entfaltet
hat: Alle zum Zeitpunkt t1 Erwerbslosen gehen zum Zeitpunkt t2 einer Erwerbstä-
tigkeit nach und umgekehrt. Solche Veränderungen, auch wenn sie nicht so radikal
sind wie im dargestellten Beispiel, lassen sich nur im Rahmen von Panelstudien
beschreiben und analysieren.
Die Ziele von Panelstudien lassen sich wie folgt zusammenfassen:
Außer Trenddaten, Paneldaten und Zeitreihendaten gibt es eine weitere Art zeitab-
hängiger Daten, die als Ereignisdaten (vgl. Aalen, Borgan & Gjessing, 2008; Bloss-
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 53
feld, Hamerle & Mayer, 1988; Blossfeld & Rohwer, 2001; Yamaguchi, 1999) bezeich-
net werden. Ereignisdaten sind Daten über Lebensereignisse, ihren Wechsel und
ihre Dauer (z.B. Untersuchung der Zeit bis zum ersten Eintritt in den Beruf, Ehe-
zeiten, etc.), die im Rahmen der Ereignisanalyse (engl.: event history analysis; Analy-
se von Verweildauern, Wartezeiten, etc.) statistisch analysiert werden. Ereignisdaten
lassen sich auch im Rahmen von Querschnittsuntersuchungen erheben. Beispie-
le für Umfragen, in denen u.a. auch solche Daten erhoben werden oder wurden,
sind das Soziökonomische Panel des Deutschen Instituts für Wirtschaftsforschung
(DIW) in Berlin oder die Lebenslaufstudie des Max-Planck-Instituts für Bildungs-
forschung in Berlin. Auch Zeitbudgetstudien erheben solche Daten. Ihre Erhebung
erfordert oft den Einsatz spezifischer Erhebungsinstrumente wie z.B. Kalendarien.
Umfragen in Netzwerkstudien
Umfragen erlauben auch die Erhebung sozialer, egozentrierter Netzwerke (vgl.;
Bien & Marbach, 2008; Burt, 1984; McCallister & Fisher, 1978), wobei die Erhe-
bung von Netzwerken auch über das Web erfolgen kann (vgl. z.B. Manfreda, Veho-
var & Hlebec, 2004).
Umfragen in Kohortenstudien
Bei Kohortenstudien werden Individuen, bei denen zum annähernd gleichen Zeit-
punkt ein spezielles Lebensereignis eingetreten ist, untersucht. Ein Beispiel stellen
Geburtenkohorten dar. Kohorten wurden etwa in der oben erwähnten Lebenslauf-
studie erhoben. Kohortenstudien erlauben Intra- und Interkohortenvergleiche.
Durch spezifische Designs lassen sich Perioden- von Alters- und Periodeneffekte
trennen (vgl. z.B. Mayer & Huinink, 1990).
Umfragedaten in Simulationsstudien
Umfragedaten können die Datenbasis für Mikrosimulationen abgeben (vgl. z.B. Es-
ser 1991; Gilbert & Troitzsch, 2005; Heike & Sauerbier, 1997; Leim 2008; Sauerbier,
2002; Troitzsch & Möhring, 1988). Dabei werden Daten von Umfragen wie des So-
zioökonomischen Panels oder des Mikrozensus in ein formales Simulationsmodell
eingespeist, das dann auf dieser Basis zukünftige demographische Entwicklungen
berechnet.
duen und die Einheiten der ersten Stufe durch die Messzeitpunkte definiert. Anwen-
dungen lassen sich auch in der Analyse von Interviewer-Einflüssen finden, wenn die
Interviewer als Einheiten der zweiten Ebene und die Messwerte als Einheiten erster
Stufe eingeführt werden. So untersuchten Pickery und Loosveldt (1999, 2001, 2004)
mit Hilfe der Mehrebenenanalyse verschiedene Interviewereffekte, wobei u.a. gezeigt
wird, wie mit diesem Verfahren Ausnahmeinterviewer identifiziert werden können.
Sinibaldi, Durrant und Kreuter (2013) führen als zweite Ebene Kreuzklassifikationen
von Regionen und Interviewern ein, um deren Auswirkungen auf die Korrektheit
von Interviewer-Beobachtungen als Paradaten zu prüfen. Weitere Beispiele für das
Studium von Interviewer-Effekten geben Campanelli und O’Muircheartaig (2002),
Hox, De Leeuw und Kreft (1991) und Hox (1994).
Bei einem Access-Panel handelt es nicht, wie der Name vermuten ließe, um eine Pa-
nelstudie im klassischen Sinn (siehe oben), sondern um einen Pool von Befragten,
die sich im Verlauf eines Rekrutierungsvorgangs bereit erklärt haben, an weiteren
Befragungen. teilzunehmen. Mit einem Access-Panel lassen sich unterschiedliche
Studiendesigns realisieren (vgl. Abbildung I.10). Ein Access-Panel
• gestattet die Beobachtung und Messung von Richtung und Ausmaß an Verän-
derungen (gilt auch für die klassische Panelstudie);
• bietet die Möglichkeit der gezielten Befragung von Substichproben, die sich
durch bestimmte Merkmale (z.B. soziodemografische Merkmale, wie eine be-
stimmte Geburtskohorte oder bestimmte Gesundheitsmerkmale) auszeichnen,
ohne dass diese Spezialstichproben neu rekrutiert werden müssen (Verkürzung
der Kontaktphase);
• erlaubt interventionsbezogene, evaluative Erhebungen, in denen der Erfolg von
Maßnahmen (z.B. amtliche Verordnungen) abgeschätzt werden kann, die große
Bevölkerungsteile betreffen;
• erlaubt flexible Forschungsdesigns, insbesondere auch für unterschiedliche Ar-
ten von Längsschnittdesigns;
• erlaubt kurzfristige Ad-hoc-Erhebungen, die sich auf kurzfristig relevant ge-
wordene Inhalte beziehen;
• spart Rekrutierungskosten bei Folgebefragungen;
58 I.9 Durchführung von Umfragen auf der Basis von Access-Panels
Die Entscheidung für den Aufbau eines Access-Panels ist strenggenommen ei-
gentlich keine Frage des Forschungsdesigns, sondern betrifft eher eine praktische
Form der zielorientierten Rekrutierung von Stichproben und hätte daher auch in
Teil V vorgestellt werden können. Für die Einbeziehung an dieser Stelle spricht,
dass ein Access Panels die Grundlage für die Realisierung unterschiedlicher For-
schungsdesigns sein kann. Stichprobentheoretisch wird mit der Auswahl von Stich-
proben für Umfragen aus einem Access-Panel ein Zweiphasendesign realisiert.
Mikrozensus
Der Mikrozensus wird vom Statistischen Bundesamt der Bundesrepublik orga-
nisatorisch und technisch betreut. Die Erhebung erfolgt durch die Statistischen
Landesämter. Der Mikrozensus erhebt seit 1957, in den neuen Bundesländern seit
1991, Daten zur Bevölkerungsstruktur, die wirtschaftliche und soziale Lage der Be-
völkerung, der Familien, Lebensgemeinschaften und Haushalte, die Erwerbstätig-
keit, Arbeitsuche, Aus- und Weiterbildung, Wohnverhältnisse und Gesundheit. Für
eine Reihe kleinerer Erhebungen der empirischen Sozial- und Meinungsforschung
sowie der amtlichen Statistik dient der Mikrozensus als Hochrechnungs-, Adjus-
tierungs- und Kontrollinstrument. Ein wichtiges Instrument für europäische und
nationale Nutzer ist daneben die in den Mikrozensus integrierte Arbeitskräftestich-
probe, die in allen EU-Mitgliedsstaaten harmonisiert ist und Vergleiche zu Fragen
der Erwerbsbeteiligung und Erwerbslosigkeit ermöglicht. Die meisten Merkmale
der Arbeitskräfteerhebung sind zugleich Merkmale des Mikrozensus. Der Mikro-
zensus beinhaltet eine Zufallsstichprobe von 1% der Bevölkerung, bei der jeder
Haushalt die gleiche Wahrscheinlichkeit besitzt, in die Stichprobe zu kommen. Die
Durchführung des Mikrozensus wird auf der Grundlage spezieller gesetzlicher Be-
stimmungen durchgeführt. Für die ausgewählten Teilnehmer besteht Auskunfts-
pflicht.
I.10 Beispiele für Umfragen 63
Website:
http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Presse/
abisz/Mikrozensus,templateId=renderPrint.psml
Website:
http://www.pairfam.uni-bremen.de/
IAB-Betriebspanel
Das Betriebspanel des Instituts für Arbeitsmarkt- und Berufsforschung befragt jähr-
lich im Zeitraum von Juni bis Oktober eine Zufallsstichprobe aus der Betriebsdatei
der Bundesagentur für Arbeit ca. 16.000 Betriebe aller Wirtschaftszweige und Grö-
ßenklassen zu betrieblichen Merkmalen wie Bestimmungsgrößen der Beschäfti-
gungsentwicklung (Produktion, Umsatz, Arbeitszeiten, Investitionen, Auslastung),
Personalnachfrage und Beschäftigungserwartungen (Vakanzen, offene Stellen, Fluk-
tuation, betriebliche Beschäftigungspolitik), Stand und Entwicklung der Technik und
Organisation sowie deren Auswirkungen auf Arbeitsplätze, Einflussgrößen auf die
Produktivität, z.B. technische, organisatorische und betriebswirtschaftliche Faktoren,
Daten zur Biografie von Betrieben, Inanspruchnahme von Fördermaßnahmen, Akti-
vitäten in der Aus- und Weiterbildung.
Website:
http://www.iab.de/de/erhebungen/iab-betriebspanel.aspx/
I.10 Beispiele für Umfragen 65
Deutscher Alterssurvey
Der Deutsche Alterssurvey (DEAS) ist eine bundesweit repräsentative Quer- und
Längsschnittbefragung von Personen, die sich in der zweiten Lebenshälfte befinden
(d.h. 40 Jahre und älter sind). Der DEAS wird aus Mitteln des Bundesministeriums
für Familie, Senioren, Frauen und Jugend (BMFSFJ) gefördert. Die umfassende
Untersuchung von Personen im mittleren und höheren Erwachsenenalter dient
dazu, Mikrodaten bereitzustellen, die sowohl für die sozial- und verhaltenswissen-
schaftliche Forschung als auch für die Sozialberichterstattung genutzt werden. Die
erste Welle wurde im Jahr 1996 durchgeführt, die zweite Welle im Jahr 2002. Die
dritte Welle fand im Jahr 2008 statt. Erneut wurden Personen umfassend zu ihrer
Lebenssituation befragt, unter anderem zu ihrem beruflichen Status oder ihrem
Leben im Ruhestand, zu gesellschaftlicher Partizipation und nachberuflichen Ak-
tivitäten, zu wirtschaftlicher Lage und Wohnsituation, zu familiären und sonstigen
sozialen Kontakten sowie zu Gesundheit, Wohlbefinden und Lebenszielen. Der
DEAS wird vom Deutschen Zentrum für Altersfragen in Berlin betreut.
Website:
http://www.dza.de/nn_11404/DE/Forschung/Alterssurvey/alterssurvey__
node.html?__nnn=true
Politbarometer
Das Politbarometer ermittelt in repräsentativen Umfragen seit 1977 regelmä-
ßig Einstellungen zu Parteien, zur politischen Agenda und zu Spitzenpolitikern.
Gleichzeitig werden Meinungen zu aktuellen politischen und gesellschaftlichen
Themen erfragt und in leicht verständlicher Form in der ZDF-Sendereihe Polit-
66 I.10 Beispiele für Umfragen
Labors Statistics. Mit diesen Surveys sind zahlreiche Methodenstudien der Umfra-
geforschung verbunden.
I.10.3 Datenzugang
Forschungsdatenzentrum im Forschungsdatenzentrum am
Bundesinstitut für Berufsbildung Institut zur Qualitätsentwicklung im
(BIBB-FDZ) Bildungswesen (IQB)
Forschungsdatenzentrum des Forschungsdatenzentrum ALLBUS
Sozioökonomischen Panels bei GESIS (FDZ ALLBUS)
(FDZ-SOEP)
Forschungsdatenzentrum Forschungsdatenzentrum Wahlen bei
Internationale Umfrageprogramme GESIS (FDZ Wahlen)
bei GESIS (FDZ Internationale
Umfrageprogramme)
Forschungsdatenzentrum des Survey Forschungsdatenzentrum des
of Health, Ageing and Retirement in Deutschen Zentrums für Altersfragen
Europe (SHARE) (FDZ SHARE) (FDZ-DZA)
Forschungsdatenzentrum Forschungsdatenzentrum des
PsychData des Leibniz-Zentrums Beziehungs- und Familienpanels
für Psychologische Information und (FDZ-pairfam)
Dokumentation
(FDZ PsychData des ZPID)
Forschungsdatenzentrum Ruhr LMU-ifo Economics & Business Data
am RWI-Leibniz-Institut für Center (EBDC)
Wirtschaftsforschung
(FDZ Ruhr am RWI)
Forschungsdatenzentrum Forschungsdatenzentrum German
„Gesundheitsmonitoring“ am Robert Microdata Lab bei GESIS
Koch-Institut (RKI) (FDZ GML)
(FDZ Gesundheitsmonitoring am
RKI)
Internationales Datenservicezentrum Forschungsdatenzentrum Betriebs-
des Forschungsinstituts zur Zukunft und Organisations-Daten (FDZ-BO)
der Arbeit (IZA)
Forschungsdatenzentrum Bildung am Forschungsdatenzentrum der
Deutschen Institut für Internationale Bundeszentrale für gesundheitliche
Pädagogische Forschung (DIPF) Aufklärung (FDZ BZgA)
(FDZ Bildung)
72 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien
Neben der Bereitstellung von Scientific Use-Files als sog. Off-Site-Nutzung gibt es
ferner die Möglichkeit der On-Site-Nutzung über kontrollierte Datenfernverarbei-
tung oder die Nutzung von Arbeitsplätzen für Gastwissenschaftler.
2013 wurde bei GESIS eine Registrierungsagentur für Sozial- und Wirtschafts-
daten da|ra gegründet, in der Wissenschaftler einen Zugang zu ihren Daten ermög-
lichen können (Website: http://www.da-ra.de/de/home/).
Für nichtöffentliche Stellen gilt dieses Gesetz für die ganz oder teilweise automati-
sierte Verarbeitung personenbezogener Daten sowie die nichtautomatisierte Verar-
beitung personenbezogener Daten, die in einem Dateisystem gespeichert sind oder
gespeichert werden sollen, es sei denn, die Verarbeitung durch natürliche Personen
erfolgt zur Ausübung ausschließlich persönlicher oder familiärer Tätigkeiten.
Weiter unten geht es in Absatz 4 um die Anwendung des Gesetzes auf nichtöf-
fentliche Stellen, wozu auch Institute der Markt- und Sozialforschung gehören:
Auf nichtöffentliche Stellen findet es Anwendung, sofern
Für die Umfrageforschung ist §27 von besonderer Bedeutung. Dort wird die Daten-
verarbeitung zu wissenschaftlichen oder historischen Forschungszwecken und zu
statistischen Zwecken geregelt. Dort heißt es:
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 75
1. Abweichend von Artikel 9 Absatz 1 der Verordnung (EU) 2016/679 ist die
Verarbeitung besonderer Kategorien personenbezogener Daten im Sinne
des Artikels 9 Absatz 1 der Verordnung (EU) 2016/679 auch ohne Einwilli-
gung für wissenschaftliche oder historische Forschungszwecke oder für statisti-
sche Zwecke zulässig, wenn die Verarbeitung zu diesen Zwecken erforderlich
ist und die Interessen des Verantwortlichen an der Verarbeitung die Interes-
sen der betroffenen Person an einem Ausschluss der Verarbeitung erheblich
überwiegen. Der Verantwortliche sieht angemessene und spezifische Maß-
nahmen zur Wahrung der Interessen der betroffenen Person gemäß § 22
Absatz 2 Satz 2 vor.
2. Die in den Artikeln 15, 16, 18 und 21 der Verordnung (EU) 2016/679 vor-
gesehenen Rechte der betroffenen Person sind insoweit beschränkt, als diese
Rechte voraussichtlich die Verwirklichung der Forschungs- oder Statistik-
zwecke unmöglich machen oder ernsthaft beinträchtigen und die Beschrän-
kung für die Erfüllung der Forschungs- oder Statistikzwecke notwendig ist.
Das Recht auf Auskunft gemäß Artikel 15 der Verordnung (EU) 2016/679
besteht darüber hinaus nicht, wenn die Daten für Zwecke der wissenschaft-
lichen Forschung erforderlich sind und die Auskunftserteilung einen unver-
hältnismäßigen Aufwand erfordern würde.
3. Ergänzend zu den in § 22 Absatz 2 genannten Maßnahmen sind zu wis-
senschaftlichen oder historischen Forschungszwecken oder zu statistischen
Zwecken verarbeitete besondere Kategorien personenbezogener Daten im
Sinne des Artikels 9 Absatz 1 der Verordnung (EU) 2016/679 zu anonymi-
sieren, sobald dies nach dem Forschungs- oder Statistikzweck möglich ist,
es sei denn, berechtigte Interessen der betroffenen Person stehen dem ent-
gegen. Bis dahin sind die Merkmale gesondert zu speichern, mit denen Ein-
zelangaben über persönliche oder sachliche Verhältnisse einer bestimmten
oder bestimmbaren Person zugeordnet werden können. Sie dürfen mit den
Einzelangaben nur zusammengeführt werden, soweit der Forschungs- oder
Statistikzweck dies erfordert.
4. Der Verantwortliche darf personenbezogene Daten nur veröffentlichen,
wenn die betroffene Person eingewilligt hat oder dies für die Darstellung von
Forschungsergebnissen über Ereignisse der Zeitgeschichte unerlässlich ist.
76 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien
1. Hat eine Form der Verarbeitung, insbesondere bei Verwendung neuer Tech-
nologien, aufgrund der Art, des Umfangs, der Umstände und der Zwecke
der Verarbeitung voraussichtlich ein hohes Risiko für die Rechte und Frei-
heiten natürlicher Personen zur Folge, so führt der Verantwortliche vorab
eine Abschätzung der Folgen der vorgesehenen Verarbeitungsvorgänge für
den Schutz personenbezogener Daten durch. Für die Untersuchung mehre-
rer ähnlicher Verarbeitungsvorgänge mit ähnlich hohen Risiken kann eine
einzige Abschätzung vorgenommen werden.
2. Der Verantwortliche holt bei der Durchführung einer Datenschutz-Folgen-
abschätzung den Rat des Datenschutzbeauftragten, sofern ein solcher be-
nannt wurde, ein.
3. Eine Datenschutz-Folgenabschätzung gemäß Absatz 1 ist insbesondere in
folgenden Fällen erforderlich:
a) systematische und umfassende Bewertung persönlicher Aspekte natür-
licher Personen, die sich auf automatisierte Verarbeitung einschließlich
Profiling gründet und die ihrerseits als Grundlage für Entscheidungen
dient, die Rechtswirkung gegenüber natürlichen Personen entfalten oder
diese in ähnlich erheblicher Weise beeinträchtigen;
b) umfangreiche Verarbeitung besonderer Kategorien von personenbezo-
genen Daten gemäß Artikel 9 Absatz 1 oder von personenbezogenen
Daten über strafrechtliche Verurteilungen und Straftaten gemäß Artikel
10 oder
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 79
(4) Verarbeiten ist das Speichern, Verändern, Übermitteln, Sperren und Löschen
personenbezogener Daten.
Im Einzelnen ist, ungeachtet der dabei angewendeten Verfahren:
1. Speichern das Erfassen, Aufnehmen oder Aufbewahren personenbezogener
Daten auf einem Datenträger zum Zweck ihrer weiteren Verarbeitung oder
Nutzung,
2. Verändern das inhaltliche Umgestalten gespeicherter personenbezogener Daten,
3. Übermitteln das Bekanntgeben gespeicherter oder durch Datenverarbeitung
gewonnener personenbezogener Daten an einen Dritten in der Weise, dass
a) die Daten an den Dritten weitergegeben werden oder
b) der Dritte zur Einsicht oder zum Abruf bereitgehaltene Daten einsieht
oder abruft,
4. Sperren das Kennzeichnen gespeicherter personenbezogener Daten, um ihre
weitere Verarbeitung oder Nutzung einzuschränken,
5. Löschen das Unkenntlichmachen gespeicherter personenbezogener Daten.
ǻśǼȱĵȱist jede Verwendung personenbezogener Daten, soweit es sich nicht
um Verarbeitung handelt.
(6) Anonymisieren ist das Verändern personenbezogener Daten derart, dass die
Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder
nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Ar-
beitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet
werden können.
(6a) Pseudonymisieren ist das Ersetzen des Namens und anderer Identifikations-
merkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffe-
nen auszuschließen oder wesentlich zu erschweren.
(7) Verantwortliche Stelle ist jede Person oder Stelle, die personenbezogene Da-
ten für sich selbst erhebt, verarbeitet oder nutzt oder dies durch andere im Auf-
trag vornehmen lässt.
(8) Empfänger ist jede Person oder Stelle, die Daten erhält. Dritter ist jede Person
oder Stelle außerhalb der verantwortlichen Stelle. Dritte sind nicht der Betrof-
fene sowie Personen und Stellen, die im Inland, in einem anderen Mitgliedstaat
der Europäischen Union oder in einem anderen Vertragsstaat des Abkommens
über den Europäischen Wirtschaftsraum personenbezogene Daten im Auftrag
erheben, verarbeiten oder nutzen.
82 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien
(9) Besondere Arten personenbezogener Daten sind Angaben über die rassische
und ethnische Herkunft, politische Meinungen, religiöse oder philosophische
Überzeugungen, Gewerkschaftszugehörigkeit, Gesundheit oder Sexualleben.
(10) Mobile personenbezogene Speicher- und Verarbeitungsmedien sind Daten-
träger,
1. die an den Betroffenen ausgegeben werden,
2. auf denen personenbezogene Daten über die Speicherung hinaus durch die
ausgebende oder eine andere Stelle automatisiert verarbeitet werden können
und
3. bei denen der Betroffene diese Verarbeitung nur durch den Gebrauch des
Mediums beeinflussen kann.
(11) Beschäftigte sind:
1. Arbeitnehmerinnen und Arbeitnehmer,
2. zu ihrer Berufsbildung Beschäftigte,
3. Teilnehmerinnen und Teilnehmer an Leistungen zur Teilhabe am Arbeitsle-
EHQVRZLHDQ$ENOlUXQJHQGHUEHUXÀLFKHQ(LJQXQJRGHU$UEHLWVHUSUREXQJ
(Rehabilitandinnen und Rehabilitanden),
4. in anerkannten Werkstätten für behinderte Menschen Beschäftigte,
5. nach dem Jugendfreiwilligendienstgesetz Beschäftigte,
6. Personen, die wegen ihrer wirtschaftlichen Unselbständigkeit als arbeitneh-
merähnliche Personen anzusehen sind; zu diesen gehören auch die in Heim-
arbeit Beschäftigten und die ihnen Gleichgestellten,
Website:
http://www.aapor.org/Standards-Ethics/Standard-Definitions-(1).aspx
Für die ethische Orientierung sollte der folgende Codex konsultiert werden:
WAPOR Code of professional ethics and practices
Website:
http://wapor.unl.edu/wapor-code-of-ethics/
Die Kernprobleme im Datenschutzrecht und für das Standesrecht der demoskopi-
schen Umfrageforschung sind in einer spezifischen Verlautbarung zusammenge-
fasst, die auf der Website des ADM (http://www.adm-ev.de/) abgerufen und herun-
tergeladen werden kann.
Es wird dringend empfohlen, sich mit diesen Richtlinien vertraut zu machen,
da eine Missachtung entsprechende datenschutzrechtliche und standesrechtliche
Konsequenzen nach sich ziehen kann. Wichtige Hinweise wie der Hinweis auf
die strikte Trennung von Umfrageforschung und forschungsfremden Tätigkeiten
wie Dialogmarketing, der Hinweis darauf, dass selbst bei Einwilligung der Befrag-
ten eine Weitergabe personenbezogener Daten nicht gestattet ist, etc. sind diesen
Richtlinien zu entnehmen. Die Weitergabe personenbezogener Daten sollte sich
stattdessen auf eine gesetzliche Erlaubnisnorm stützen.
Website:
http://www.adm-ev.de/
Website:
http://www.ratswd.de/
Website:
http://www.destatis.de/
I.13 Zusammenfassung
Die vorangegangenen Abschnitte haben gezeigt, welche Schritte während der Vor-
bereitung und Durchführung einer Umfrage durchlaufen werden müssen. Wird
eine optimale Qualität der Daten angestrebt, sollten alle Schritte gleichermaßen op-
timiert werden. Um dies zu erreichen ist ein Team von Spezialisten (Umfrageope-
ratoren) notwendig, die für die Schritte einschlägig ausgebildet sind und die über
einschlägige Erfahrungen verfügen. Der Blick auf die Optimierung aller Schritte
des Umfrageprozesses ist insbesondere für alle Umfragen von wissenschaftlichem
und/oder gesellschaftlichem Interesse notwendig, deren Daten für die gesellschafts-
wissenschaftliche Forschung und die amtliche Statistik von besonderer Bedeutung
sind und die auf eine möglichst präzise Beschreibung einer Zielpopulation auf der
Basis von Stichprobendaten abzielen.
Der beschriebene Anspruch sollte immer in den Blick genommen werden, auch
wenn er sich unter Kosten- und Ressourcengesichtspunkten nicht realisieren lässt.
Wer mit der praktischen Durchführung von Umfragen vertraut ist, weiß, dass sich
dieser Anspruch nie vollständig umsetzen lässt. Zu vielfältig sind auch die nicht
vorhersehbaren internen und externen Einflüsse. Auf der anderen Seite erlaubt nur
der Blick auf das, was optimal an Qualität erreichbar wäre, eine Beurteilung der
möglichen Einflussfaktoren auf Qualitätsdefizite der Daten.
Wir werden in den Medien immer wieder mit Ergebnissen von Umfragen un-
terschiedlicher Thematik überschüttet, von denen wir nicht wissen, nach welchen
Qualitätsmaßstäben gearbeitet wurde. Viele Umfragen dienen nur der Unterhal-
tung bzw. der Moderation von Unterhaltungsveranstaltungen. Trotzdem erfolgt
die auf ihnen basierende Berichterstattung mit einer gewissen Ernsthaftigkeit. Erst
wenn man einen Eindruck davon hat, welche methodischen Defizite zu welchen
Ergebnisverzerrungen führen können und wie unterschiedlich interpretierbar Um-
frageergebnisse sind, kann man sie mit der notwendigen Vorsicht interpretieren.
Natürlich unterscheiden sich Umfragen in ihrer Komplexität. Manchmal han-
delt es sich nur um einen einfachen Fragebogen mit einfachen Fragen oder von
Fragen, die bereits mehrfach geprüft wurden, so dass man eventuell auf umfang-
reiche Pretest-Verfahren verzichten kann. Auch können eventuell einige Nicht-
beobachtungsfehler ausgeschlossen werden, so dass eine Unterrepräsentation der
Zielpopulation in der Auswahlgrundlage ausgeschlossen werden kann. Aber schon
die Unwägbarkeiten der Teilnahmebereitschaft und der Erreichbarkeit können zu
Beeinträchtigungen der Datenqualität führen.
Können bestimmte Standards aus verschiedenen Gründen nicht erfüllt werden,
heißt dies nicht unbedingt, das die Ergebnisse unbrauchbar sind, es heißt aber, dass
die Ergebnisinterpretation mit Vorsicht vorgenommen werden muss. Eventuell
I.13 Zusammenfassung 91
empfehlen sich nur sehr grobe Trendaussagen. In der Forschung erlauben Umfra-
gedaten wegen des eher hohen Stichprobenumfangs eine präzisere Beschreibung
der statistischen Eigenschaften der Grundgesamtheit, komplexere Analysen von
Verursachungszusammenhängen und Vergleiche von Subpopulationen. Die Ein-
bettbarkeit in unterschiedliche Forschungsdesigns erlaubt eine flexible Nutzung in
unterschiedlichen Forschungsfragestellungen.
Die Durchführung von Umfragen sollte transparent und unter Berücksichti-
gung der einschlägigen Qualitätsrichtlinien erfolgen. Die Beachtung der Daten-
schutz-Grundverordnung stellt eine Selbstverständlichkeit dar.
Teil II: Kommunikationsformen (Modes) und
ihre Wirkungen
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 93
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_2
II.1 Überblick
II.2.2 Befragungstechnologien
II.2.2.1 Allgemeines
CAPI
CAPI stellt die computerunterstützte Variante der Interviewer-administrierten
„Paper und Bleistift“- Methode dar. In CAPI-Interviews sucht der Interviewer die
Befragten mit einem tragbaren Computer, in der Regel einem Notebook, einem Ta-
blet oder auch einem Smartphone, (allgemein: mit einem mobilen Gerät) auf. Der
Fragebogen wird dem Interviewer auf dem Monitor präsentiert und den Befragten
vorgelesen. Die Antworten der Befragten werden vom Interviewer in den Com-
puter eingegeben. Nach Beendigung des Interviews können die Daten entweder
per E-Mail an einen zentralen Rechner geschickt oder entweder direkt über eine
sichere Verbindung per E-Mail oder ggf. auch durch Versand von Disketten bzw.
CD-ROMs an die Feldleitung geschickt werden. Interviewer-Instruktionen oder
Adressmaterial kann auf dem gleichen Weg an den Interviewer übermittelt werden.
Die Vorteile von CAPI gegenüber PAPI ergeben sich nicht zuletzt aus der Program-
mierung des Fragebogens, die die Möglichkeit eröffnet, Fehlerquellen wie unzuläs-
sige Eingaben oder Filterfehler bereits bei der Programmierung auszuschließen.
Hinzu kommt die bessere Lesbarkeit der Interviewer-Eingaben. Nachteile ergeben
sich möglicherweise bei kurzen Fragebögen durch längere Interviewzeiten (vgl.
Baker, Bradburn & Johnson, 1995). Bestimmend für die Interviewdauer sind aber
auch schlechte Beleuchtung, Schwierigkeiten, den Bildschirm zu lesen und hoher
Tipp-Aufwand. Um für Interviewer tragbar zu sein, sollte ein Notebook nicht mehr
als 7-8 Pfund wiegen (vgl. Couper & Groves, 1992). Durch die Nutzung von Tablets
und anderen mobilen Technologien spielt dieses Problem aber keine nennenswerte
Rolle mehr. Allerdings ergeben sich neue Probleme wie die des in seiner Größe ein-
geschränkten Screens, etc., welche vor dem Einsatz eine Erprobung auf die Hand-
habbarkeit (engl.: usability) des Geräts und damit auch eine entsprechende Gestal-
tung des Betriebssystems, des Browsers und der eingesetzten Software erfordert.
Neben dem Notebook können als Befragungsinstrumente auch sog. PDAs (Per-
sönliche Digitale Assistenten) zum Einsatz kommen. Bei den PDAs handelt es sich
II.2 Grundlegende Dimensionen der Kommunikationsform 103
CATI
CATI stellt die älteste Form des computerunterstützten Interviews dar (vgl. Cou-
per & Nicholls II, 1998). Die erste CATI-Befragung wurde zu Beginn der 70er
Jahre vom Marktforschungsinstitut Chilton Research in Zusammenarbeit mit AT
&T durchgeführt. Ursprünglich wurden dabei Minicomputer-Systeme verwendet.
Heute werden Computernetzwerke eingesetzt, über welche die Interviewstationen
(Telefonplätze) miteinander verbunden sind. Alle Stationen können auf einen zen-
tralen Rechner (Server) zugreifen, auf dem die Adressdateien mit den dazugehö-
rigen Telefonnummern liegen. Die Interviewer sitzen, mit einer Sprecheinrichtung
(Headsets) versehen, an ihrem mit Telefon, Computer und Bildschirm eingerichte-
ten Telefonplatz und lesen die Fragen vom Bildschirm ab. Die Antworten der Be-
fragten werden per Tastatur in den Computer eingegeben, der diese direkt auf den
Server überträgt. Die Anwahl der Telefonnummern kann entweder über den Inter-
viewer oder über den Rechner erfolgen (sog. Autodialing, siehe unten). Die gesamte
Steuerung des Feldes wird von einer CATI-Verwaltungssoftware übernommen, die
sich auf einem Server befindet und die die Anruf-, Kontakt- und Terminverwaltung
übernimmt (siehe Abschnitt 3.1.2). Bei Terminvereinbarung mit einer Zielperson
wird die entsprechende Telefonnummer zum vereinbarten Termin auf einen freien
Interviewer- bzw. Telefonplatz gelegt. Das Verwaltungsprogramm kann so einge-
stellt werden, dass bei einem Besetztzeichen die Telefonnummer nach einem vor-
gegebenen, aber einstellbaren Zeitintervall (z.B. 40 Minuten) erneut vorgelegt wird.
Auch die Anzahl der Kontaktversuche kann vorher eingestellt werden.
In der Regel können vor Feldbeginn auch Quoten vorgegeben werden, die
durch Kombinationen mehrerer Merkmale (z.B. Alterskategorien und Geschlecht)
definiert sind. Sind die Quoten (z.B. 30 Männer im Alter zwischen 40 und 50 Jah-
104 II.2 Grundlegende Dimensionen der Kommunikationsform
Neben dem Server und den Telefonplätzen gibt es noch einen oder mehrere Ar-
beitsplätze für die Supervisoren. Supervisoren überwachen die Durchführung der
Interviewsitzungen und können von ihrem Arbeitsplatz aus die aktuellen Daten
der Sitzung abrufen und sich gegebenenfalls nach Einholung der entsprechenden
Einwilligung in die Interviews einschalten, um sich von der ordnungsgemäßen
Durchführung der Interviews zur überzeugen, Fälschungen auszuschließen und
die Fähigkeiten der Interviewer zu überprüfen. Sie überwachen ferner den techni-
schen Ablauf und führen am Ende einer Sitzung die Datensicherung durch.
Vor allem kommerzielle Institutionen und Marktforschungsunternehmen ver-
fügen oft über geographisch auseinanderliegende regionale Zentren, die über die
Bundesrepublik, Europa oder darüber hinaus gestreut sind. Dabei werden entwe-
der getrennte regionale Umfragen durchgeführt oder eine Umfrage wird auf ver-
schiedene Niederlassungen verteilt. Dies macht vor allem die Fallverwaltung (siehe
unten) komplizierter. Man kann damit auf unterschiedliche Weise umgehen. Eine
Möglichkeit ist, die Stichprobe unter den einzelnen Zentren aufzuteilen, eine an-
dere die, den Zentren einen Online-Zugriff auf eine zentrale Datenbank zu gestat-
ten. Eine weitere Variante ist die, sich täglich Fälle und die Unterlagen über die
Tagesplanung von einem zentralen Host abzuholen und am Ende des Tages die
Ergebnisse dem Host zu übermitteln.
106 II.2 Grundlegende Dimensionen der Kommunikationsform
fahren einer Administration über einen MP3 Player als ASAQ (Audio Self-Admi-
nistered Questionnaire).
Unter den Begriffen CASI bzw. CSAQ werden alle Verfahren der computerun-
terstützten Selbstadministration zusammengefasst (vgl. De Leeuw, 2008); De Leeuw
& Collins, 1997). Durch das Voransetzen des Buchstaben „A“ werden die unter-
schiedlichen Verfahren mit auditiver Präsentation der Fragen, durch Voransetzen
des Buchstabens „T“ die Verfahren mit telefonischer Administration bezeichnet.
Da die Bezeichnungen nicht immer konsistent verwendet werden, empfiehlt es sich
immer, die Beschreibungen der Erhebungsmethode in den Veröffentlichungen ge-
nau zu studieren.
CASI-Interviews können wie SAQ-Interviews mit und ohne Anwesenheit des
Interviewers durchgeführt werden. Bei CASI-Interviews ohne Interviewer bittet
das Datenerhebungsinstitut den Befragten, den Fragebogen auf seinem eigenen
Computer zu beantworten. Dabei kann die dazu notwendige Software entweder
auf einer Diskette bzw. einer CD-ROM, die auch als Field Disk bezeichnet wird,
zugeschickt werden oder über ein LAN (Local Area Network), per E- Mail und/
oder per Zugriff auf Websites bereitgestellt werden.
Es kann sich aber auch, insbesondere bei Personen, die beruflich und privat nur
selten mit dem Computer arbeiten, empfehlen, die Befragten mit Notebooks oder
anderen passenden tragbaren Rechnern aufzusuchen, um diese in die Bedienung
des Computers und die Handhabung der Befragungssoftware einzuweisen sowie
für Rückfragen während des Interviews zur Verfügung zu stehen. Auch eine Mit-
arbeiterbefragung in einem Unternehmen oder eine Klassenzimmer-Befragung er-
fordert bei einer Selbst-administrierten Befragung an bereitgestellten Computern
in der Regel die Anwesenheit mindestens eines Interviewers, um bei Bedarf Hilfe-
stellungen zu geben. Diese Methode wird von einigen Autoren als CASIIP („CASI
Interviewer Present“) bezeichnet (Scherpenzeel & Saris, 1997, p.349), während sich
die Bezeichnung „CASI“ nur auf die Selbstapplikation hinsichtlich Lesen des Fra-
gebogens und Eintippen der Antworten bezieht.
Bei Interviews mit sensitiven Teilen kann es sinnvoll sein, CASI auch innerhalb
einer CAPI-Sitzung durchzuführen, indem der Interviewer dem Befragten den
Computer für eine kurze Zeit zur Beantwortung bestimmter Fragen überlässt (sie-
he oben). Eingesetzt wird diese Technik bei sensiblen Fragen und zur Reduktion
von Einflüssen der sozialen Erwünschtheit. Diese Form entspricht entsprechenden
Vorgehensweisen bei PAPI (siehe oben).
Bei einer CASI-Befragung mit Disketten-Versand der Befragungssoftware
spricht man von Disk-by-Mail (DBM)-Umfragen (vgl. Higgins, Dimnik & Green-
wood 1987; Schneid 1995). Nach Einlegen der Diskette rufen die Befragten zur Öff-
nung des Fragebogens eine Ausführungsdatei auf. Der Befragte geht Frage für Fra-
108 II.2 Grundlegende Dimensionen der Kommunikationsform
ge durch und gibt seinen Antworten über die Tastatur seines Computers ein. Nach
dem Ausfüllen des Fragebogens wird die Diskette wieder an das Umfrageinstitut
zurückgeschickt. Der Versand erfolgte früher vorwiegend postalisch, heute aber
in der Regel über ein Attachment zu E-Mails. Im Rahmen der Vorbereitung von
computerunterstützten Telefonumfragen können solche Field Disks zu Zwecken
der Kontrolle des programmierten Fragebogens an den Auftraggeber geschickt
werden, der die Interviewer-Tätigkeit am Computer simulieren kann, in dem er
selbst die Antworten eingibt und dabei inhaltliche Probleme, Layout-Probleme und
Probleme der Navigation aufdecken kann (vgl. auch Test programmierter Fragebö-
gen, Teil III).
Im Fall des Versands eines Fragebogens über E-Mail spricht man von EMS-Um-
fragen (Electronic Mail Surveys; auch: E-Mail-Umfragen). Bei EMS-Umfragen
werden an E-Mail-Nutzer E-Mails mit der Bitte geschickt, an einer Befragung teil-
zunehmen. Wenn sie zustimmen, wird ihnen über ein Interviewprogramm eine
Anzahl von Fragen gestellt oder sie erhalten eine elektronische Form des Fragebo-
gens, die sie später ausfüllen können.
Wie EMS-Umfragen, Informationsaustausch in Newsgroups und sozialen Netz-
werken, Internet-Relay-Chat-Kanäle (IRC) zum synchronen Austausch von Mittei-
lungen, basieren Webumfragen im Internet auf einem Informationsdienst, in diesem
Fall dem „World Wide Web“. Dieser Dienst erlaubt Zugriffe auf durch Hyperlinks
verbundene, ganz unterschiedliche Medientypen wie z.B. Texte, Grafiken, Videos
und Klänge, ähnlich wie bei CASI-Erhebungen per Notebook. Hierin liegen sowohl
Chancen als auch Risiken für die Qualität von Befragungen. Neue Anwendungen
ergeben sich aus der zunehmenden Verbreitung von internetfähigen Smartphones
mit ausreichend großen Displays, wodurch sich die Möglichkeit mobiler Webum-
fragen (engl.: mobile web surveys) ergibt (vgl. Fuchs, 2008, 2012; Fuchs & Busse,
2009; Peytchev & Hill, 2010; vgl. auch die Übersicht zur Nutzung in den Sozialwis-
senschaften von Raento, Oulasvirta & Eagle, 2009). Dabei können Wirkungen des
kleinen Bildschirms und der Tastatur auf das Antwortverhalten auftreten. Wenn
Antwortoptionen oder Fragetexte in den nicht sichtbaren Bereich des Bildschirms
fielen, wurden diese als nicht gesehen behandelt. Auch die Handhabbarkeit einer
kleinen Tastatur kann die Wahl einer Antwort beeinflussen (vgl. Peytchev & Hill,
2010).
Webumfragen gehören zur übergeordneten Klasse der Online-Umfragen. Unter
der Bezeichnung „Online-Umfragen“ werden alle Umfragen zusammengefasst, bei
denen Daten mittels eines Onlinefragebogens erhoben werden, unabhängig vom
benutzten Internetdienst (WWW, E-Mail, etc.) und unabhängig von der Rekru-
tierungsform. Zu den Online-Befragungen zählen auch Umfragen im Intranet ei-
II.2 Grundlegende Dimensionen der Kommunikationsform 109
nes Unternehmens bzw. einer Institution, etwa unter Mitarbeitern im Rahmen von
Mitarbeiterbefragungen.
Interessante Anwendungen ergeben sich durch die Nutzung der Telefonfähig-
keit von Smartphones in Verbindung mit der visuellen Darstellung von Fragen.
Diese Verbindung hat vor allem Vorteile für eine ereignis- und situationsorien-
tierte Auswahl. So wurden z.B. in einer Studie zur Belästigung durch Fluglärm
Palm-Rechner als PDAs (siehe oben) an Befragte verteilt, die zu bestimmten Ta-
geszeiten über das PDA angeläutet wurden. Zu diesen Zeitpunkten konnten die
Befragten eine tageszeitliche Einschätzung des Fluglärms („acute noise“) in das
PDA eingeben (vgl. Schreckenberg & Schümer, 2010). Bei Anwendungen dieser
Art handelt es sich um Beispiele für Erhebungen mit sog. Erfahrungsstichproben
(ESM-Verfahren), bei denen zu bestimmten Zeiten spezifische Erfahrungen von
Personen erhoben werden (vgl. Aellig, 2004; Hormuth, 1986; Pfister, Nussbaum &
Schallberger, 1999; Roduner et al., 2001; Wheeler & Reis, 1991). Erfahrungsstich-
proben können auch eingesetzt werden, um Gedanken, Gefühle und Handlungen
im Alltag der Befragten abzurufen. So kontaktierten Silvia et al. (2013) über 7 Tage
und 8x pro Tag 450 junge Erwachsene, indem sie ein Signal zu PDAs, welche den
Teilnehmern zur Verfügung gestellt wurde, sandten. Die dafür eingesetzte Software
administrierte auch den auszufüllenden Fragebogen. Der ausgefüllte Fragebogen
wurde ausgelesen oder via Mail direkt an das Institut geschickt oder Administrato-
ren übergeben. Die Autoren untersuchten in diesem Zusammenhang die Ursachen
von Nonresponse, z.B. durch die Nichtbeachtung von Signalen.
Statt PDAs lassen sich auch Smartphones einsetzen. Ein Beispiel für die Anwen-
dung von Smartphones in einer Zeitbudget-Studie geben Fernee und Scherpenzeel
(2013).
Entwicklungen wie CAMI (Computer Assisted Mobile Interviewing) versuchen
alle Komponenten zu verbinden, die Befragten zur Verfügung gestellt werden müs-
sen, wenn Fragen an beliebigen Orten über Notebook, Mobiltelefon, etc. beant-
wortet werden sollen. Grundsätzlich muss inzwischen davon ausgegangen werden,
dass alle Medien miteinander verknüpft werden können.
Die Möglichkeiten der Programmierung beziehen sich auf die Formulierung und
Positionierung von Fragetexten, die Wahl der Farben für Text und Hintergrund,
den Entwurf von Hilfen für die Interviewer (Hilfetasten), die Programmierung der
Filterführung in Abhängigkeit vom Ergebnis der Evaluation arithmetischer Aus-
drücke, die Spezifikation von Kriterien der Item-Rotation (z.B. zufällig), die zufälli-
ge Auswahl von Items in Abhängigkeit von bestimmten Befragtengruppen, etc. Die
Möglichkeiten der Bildschirm- und Skalengestaltung sind bei den verschiedenen
Softwareprodukten unterschiedlich flexibel, insbesondere dann, wenn Experimen-
te oder Pretests unter Einbeziehung möglicher Wirkungen unterschiedlicher Bild-
schirmgestaltung geplant sind, kann dieser Gesichtspunkt ein sinnvolles Auswahl-
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 113
• Stichprobenroutinen für die zufällige Auswahl von Stichproben oder die Ver-
wendung von Auswahllisten;
• Vorkehrungen, die es den Interviewern ermöglichen, sich über Fälle und An-
rufe Notizen zu machen;
• Automatisierte Erstellung der Anrufgeschichte, die es erlaubt, über die Zeiten
und Ereignisse im Zusammenhang mit einem Fall den Überblick zu halten;
• Pflege und Berichterstattung aller Ergebnisdaten der Anrufe;
• Verwaltung der Logins des Interviewer-Stabes, Zuordnung von Studien zu In-
terviewern bzw. Teams von Interviewern;
• Überwachungsroutinen, die es erlauben, Inhalte von Bildschirmen der Inter-
viewer auf den Rechnern der Supervisoren darzustellen und bei einigen Syste-
men dem Supervisor ermöglichen zu intervenieren;
• Mechanismen für den Falltransfer, um Teile eines Falls von einem Interviewer
auf den anderen zu legen;
• Fähigkeit, Gruppen von Interviewern und Kategorien von Anrufen zu verwal-
ten.
C. Anlage einer Datei mit den Daten der Befragten und/oder weiteren
Daten
Diese Datei ist Ausgangspunkt für die Konvertierung in eine Systemdatei eines Sta-
tistik-Programmpakets wie SPSS, SAS, STATA, STATISTICA, S-PLUS, etc. In der
Regel verfügen die CATI-Systeme über eigene einfache Auswertungsroutinen wie
z.B. Tabellenkalkulation.
Bei der Anschaffung eines CATI-Programms sollte das Augenmerk vor allem
auf die Beschränkungen gelegt werden. So kann z.B. in bestimmten Umfragen der
Zugriff auf eine umfangreiche externe Datenbank, z.B. eine ACCESS-Datenbank,
notwendig werden. Dies ist etwa dann der Fall, wenn Berechnungen in externen
Datenbanken durchgeführt werden müssen und das Ergebnis im Fragebogen ver-
wendet soll. Nehmen wir als Beispiel, dass eine Umfrage unter Zeitschriftenkäufern
in der Stadt X durchgeführt werden soll und dass in Abhängigkeit von der Entfer-
nung des Geschäfts, in dem die Zeitschrift gekauft wurde, zu einer bestimmten Fra-
ge im Fragebogen gesprungen werden muss. Dazu soll eine externe Datenbank mit
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 117
allen Adressen der möglichen Verkaufsstellen bereitgestellt werden. Nennt der Be-
fragte eine Verkaufsstelle, so wird deren Adresse herausgesucht und mit der Straße
verglichen, in der der Befragte wohnt. Anschließend wird nach einem Algorithmus
die Entfernung berechnet. Überschreitet die Entfernung einen bestimmten Wert,
wird zu einer bestimmten Frage verzweigt.
Ein weiterer wichtiger Gesichtspunkt bei der Anschaffung von CATI-Software
ist die Komplexität der Fragebögen, die vom System akzeptiert werden. Diese Be-
schränkungen verbergen sich z.T. hinter der Anzahl der zugelassenen Filter und
Schleifen.
D. Autodialing
Nahezu alle CATI-Systeme bieten ferner die Möglichkeit des sog. Autodialing in
der einen oder anderen Form. Autodialing-Einrichtungen können weiter unterteilt
werden in:
• Einfaches Autodialing
• Autodetecting
• Predictive Autodialing
Beim einfachen Autodialing wählt nicht der Interviewer, sondern eine Wähleinrich-
tung (z.B. ein Modem) im Server auf Anweisung des Interviewers eine Telefon-
nummer. Dadurch werden Fehler beim Anwählen vermieden. Ein weiterer Vorteil
ist ein schnellerer Wählvorgang als im Falle des manuellen Anwählens.
Beim Autodetecting erkennt eine Hardwarekomponente der telefonischen Sig-
nalverarbeitung gewisse Eigenschaften der Empfängersignale wie Besetztzeichen,
Modems, Fax-Anschlüsse und ungültige Nummern. Der Interviewer hört hier
zwar den Wählvorgang, tritt aber erst in Aktion, wenn er eine Stimme hört. Führt
der Wählvorgang zu keinem Ergebnis, so wird dies direkt dem System zu Num-
mernverwaltung mitgeteilt.
Beim prädiktiven Autodialing (engl.: predictive autodialing) wählt das System die
Nummern automatisch und überträgt die Anrufe an den Interviewer, sobald der
Anruf angenommen wurde. Der Interviewer hat hier auf den Wählvorgang keinen
Einfluss. Im einfachsten Fall führt der prädiktive Dialer dabei die gleichen Aufga-
ben aus wie das Autodetecting. Einige intelligentere Systeme bieten darüber hinaus
die Möglichkeit, reale Stimmen von Anrufbeantwortern zu unterscheiden.
Prädiktive Systeme verwenden Algorithmen, welche die Anzahl der auf einen
Kontakt wartenden Interviewer, die durchschnittliche Länge des Interviews und
die Gesamtzahl der Anrufversuche einbeziehen, um die Verfügbarkeit der Inter-
118 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen
viewer einzuschätzen, den Anruf zu übernehmen (vgl. Edward, Suresh & Weeks,
1998, p.290). Ist ein Interviewer nicht verfügbar, wird der Anruf abgebrochen und
der Hörer aufgelegt. Dabei besteht die Möglichkeit, die Aufgaberate so festzule-
gen und das System an das Wähltempo so anzupassen, dass es im Rahmen der
Aufgaberate bleibt. Im Allgemeinen kann eine große Anzahl potentieller Inter-
viewer eine schnelle Anwählrate bei gleichzeitiger Minimierung der Aufgaberate
aufrechterhalten. Ein großer Pool mit Interviewern erhöht die Wahrscheinlichkeit,
dass wenigstens ein Interviewer verfügbar ist, wenn der prädiktive Dialer eine reale
Stimme entdeckt hat.
Prädiktive Autodialer finden bevorzugt bei Random-Digit-Dialing-Verfahren
Anwendung, wo Telefonnummern zufällig erzeugt werden, von denen eine große
Teilmenge nicht gültig ist. Sie werden entweder als getrennte Einzelprodukte oder
als integrative Komponenten in Verbindung mit der übrigen CATI-Software auf
dem Markt angeboten. Nachteilig bei prädiktiven Autodialern ist, dass erfolgreiche
Anrufe aufgegeben werden müssen, wenn kein Interviewer zur Verfügung steht.
Auch vergeht bei dieser Technologie Antwortzeit bis sich der Interviewer beim An-
gerufenen meldet, mit der Konsequenz, dass die Antwortraten negativ beeinflusst
werden. Blyth (1998) berichtet ein Anwachsen der Interviewer-Produktivität um
70% bei großen Stichproben und bei kurzen Interviews von fünf Minuten und we-
niger nach Einführung des prädiktiven Dialers. Beim Einsatz muss aber auch der
zusätzliche Stress und der Effekt auf das Selbstverständnis des Interviewers bedacht
werden, der sich in einer solchen Situation bemüßigt fühlt, Interviews möglichst
rasch zu realisieren.
Nicht selten wird diese Art von Dialern verwendet, um aus einer Menge zufällig
erzeugter Nummern vor Start der Umfrage die Teilmenge der gültigen Nummern
herauszufiltern, so dass bei der Durchführung der Umfragen nur noch mit der Teil-
menge der gültigen Nummern gearbeitet werden kann.
Aus Kostengründen wie etwa der Einsparung von Interviewer- und Organisations-
kosten und wegen der Möglichkeit, über den WWW-Dienst auf unterschiedliche,
miteinander durch Hyperlinks verbundene Medientypen wie Texte, Grafiken, Vi-
deos und akustische Informationen zuzugreifen (vgl. Bandilla et al. 1999; Bandilla
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 119
& Bosnjak 2000; Birnbaum 2004; Bosnjak 1997), haben sich Webumfragen inzwi-
schen zu einem Standardinstrumentarium der Umfrageforschung entwickelt. Auch
gewisse Vorteile, die z.T. aus der Eigenschaft der Selbstadministration folgen wie
geringere Ausfälle bei sensitiven Fragen habe zu dieser Entwicklung beigetragen.
Über die mit dieser Kommunikationsform verbundenen Mode-Effekte wird später
zu sprechen sein.
Auch wenn die Verwendung des Internets in Umfragen inzwischen keinerlei
Originalität mehr in sich birgt, sollte man doch zumindest grob wissen, welche
Form von Softwareunterstützung man zu erwarten hat. Moderne Software-Systeme
sind in der Lage, wie auch im Fall der CATI-Software die gesamte Feldorganisation
zu übernehmen und relativ rasch Fragen und Antwortskalen zu generieren, so dass
ein Fragebogen einschließlich Layout in Standardanwendungen problemlos erstellt
werden kann. Beispiele für die Umsetzung von bestimmten Fragetypen finden sich
in Teil III. Die Ergebnisse des Feldverlaufs und die Anteile verschiedener Arten von
Ausfällen werden von der Verwaltungssoftware berechnet und zusammengestellt.
Dies gilt auch für die komplexe Verwaltung eines Online-Panels.
Obwohl der Fragebogen für eine einfache internetbasierte Umfrage vom Anwender
selber, z.B. in HTML programmiert werden kann, setzt die eigenständige Program-
mierung von Komponenten der automatischen Feldsteuerung doch Kompetenzen
voraus, die in der Regel bei normalen Anwendern nicht vorhanden sind. Inzwi-
schen gibt es zahlreiche Softwarelösungen für internetbasierte Umfragen. Wie bei
computerunterstützten Telefonumfragen enthält eine typische Software sowohl eine
Komponente zur Programmierung des Fragebogens und einen Verwaltungsteil für
die Feldsteuerung einschließlich einer Dokumentation des Feldverlaufs.
Zur Umsetzung von Online-Umfragen stellt der Markt zahlreiche Software-Sys-
teme zur Verfügung, die dem Benutzer die eigene HTML-Programmierung der
Fragebögen sowie die Schaffung der client- und serverseitigen Voraussetzungen
in unterschiedlichem Ausmaß ersparen und die gesamte Verwaltung der Umfrage
übernehmen. Auch im Bereich von Online-Umfragen gibt es Software, die zumin-
dest in einer Basisversion als Freeware im Internet kostenlos verfügbar ist. Beispiele
sind SurveyMonkey (siehe https://www.surveymonkey.com), Qset oder SurveyWiz
(vgl. Birnbaum, 2000). Die Arbeitsgruppe NEON (Network Online Research) des
Berufsverbandes Deutscher Markt- und Sozialforscher (BVM) hat die Anforderun-
120 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen
Basisanforderungen
A. Technische Basisanforderungen
Technische Basisanforderungen betreffen die Kompatibilität des Online-Fragebogens mit
den üblichen Browsertypen und Browserversionen, die Erfassung jedes Kontakts bei Inter-
zept-Umfragen zur Berechnung der Rücklaufquoten und der Ausschluss von Mehrfachaus-
füllern (z.B. durch Login-Funktion, optionale Setzung eines Cookies, Protokollierung der
IP-Nummern).
1 SSL (Secure Sockets Layer) ist ein Protokoll zur Verschlüsselung von Datenübertragungen
122 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen
Leistungsanforderungen
A. Technische Leistungsanforderungen
Zu den technischen Leistungsanforderungen an eine Online-Software können gezählt
werden: (1) die Browser-Kompatibilität, d.h. das stabile Abfangen veralteter Browser, (2)
Aufrechterhaltung der Grundfunktionen ohne Javaskript, bei Verwendung von Javaskript
sichere Kontrollierbarkeit der Einstellung vor dem Start der Befragung und (3) das Abfan-
gen einer nachträglichen Einstellungsveränderung sowie (4) die Möglichkeit, das Fragebo-
genskript zu editieren und zu modifizieren.
Zahlen eines bestimmten Typs eingegeben werden, wobei in Abhängigkeit vom Zahlenwert
verzweigt werden kann oder bei denen der Abgleich dieser Zahl mit dem Wert einer nu-
merischen Funktion erfolgen kann, die auf der Basis der numerischen Angaben bei einer
anderen Frage berechnet wurde; die Möglichkeit von „Constant Sum Scales“, bei denen eine
vorgegebene Anzahl von Punkten auf mehrere Antwortalternativen erfolgen kann, so dass
die Summe der numerischen Angaben einer festen Summe entspricht; die Möglichkeit zu
Online-Conjoint, d.h. einer automatischen Einstellung von Conjoint-Designs. Weitere Leis-
tungsanforderungen sind die (3) Möglichkeit zur Ausrückung der Kategorie „weiß nicht/
keine Angabe“, (4) die Möglichkeit zur Randomisierung auf Zeilen- und Spaltenebene sowie
die Behandlung von Filtern in der Statusanzeige.
es sinnvoll erscheint), (15) Möglichkeit zur Unterdrückung von Rücksprüngen innerhalb des
Fragebogens, damit keine Filter umgangen werden können.
Gehobene Anforderungen
Gegenüber anderen Technologien wie Papier- und Bleistiftmethoden weist der Ein-
satz des Computers unabhängig von der Administrationsform und unabhängig
vom Übertragungskanal in Befragungen eine Reihe von Vorteilen auf. Dazu gehö-
ren:
• Reduktion von Ausfällen bei sensitiven Fragen (vgl. z.B. Tourangeau & Smith
1998; Tourangeau & Yan, 2007) sowie von sozial erwünschter Antworten;
• Nutzung aller Möglichkeiten des Computers zur Darstellung von Instruktio-
nen, Fragen- und Antwortformaten sowie zur Gestaltung des Layouts;
• Erweiterte Möglichkeiten der Skalendarstellung und der Auswahl von Ant-
wortkategorien bei Selbst-administrierten Befragungen;
• Einbindung von Bildern, Videos und akustischen Dokumenten in das Erhe-
bungsinstrument.
Internet-basierte Umfragen haben darüber hinaus für den Organisator der Um-
frage den Vorteil des geringen organisatorischen Aufwands, der geringen Kosten
und der globalen, weltweiten Erreichbarkeit der Zielpersonen. Für die Zielperso-
nen ergibt sich der Vorteil der zeitlichen Unabhängigkeit und der Ortsunabhängig-
keit in Bezug auf die Durchführung der Interviews. Letztere können überall dort
geführt werden, wo auch immer ein Zugang zum Internet verfügbar ist. Die ver-
breitete Nutzung mobiler Geräte wie Tablets und Smartphones mit Internetzugang
verstärkt die zeitliche und örtliche Unabhängigkeit erheblich, da keine festinstal-
lierten, stationären Geräte mehr aufgesucht werden müssen, um einen Zugang zu
erhalten.
• das Auftreten zusätzlicher Probleme der Handhabbarkeit mit der Folge fehler-
hafter Dateneingabe, zeitlicher Dehnung des Interviews, etc.;
• das mögliche Auftreten technologischer Fehler mit Auswirkungen auf den
Messfehler und Nonresponse, z.B. durch verschiedene Störungen des Systems
wie zu lange Wartezeiten auf die Systemreaktion, mangelnde Verständlichkeit
sprachlicher Informationen durch Störungen des Übertragungskanals, z.B. bei
CATI-Interviews, fehlerhaften Berechnungen, etc.;
• zusätzliche Arten von Nonresponse wie etwa das „Lurking“ bei Online-Inter-
views vgl. (Teil VII) oder Anrufbeantworter bei Telefonumfragen;
• fehlende oder unvollständige Auswahlgrundlagen für Bevölkerungsstichpro-
ben; Probleme der Selbstselektion bei nicht wahrscheinlichkeits-basierten We-
bumfragen (Lösung: Offline-Rekrutierung, z.B. per CATI mit zufälliger Stich-
probenziehung);
• Probleme der Authentifizierung bei internet-basierten Umfragen;
• niedrige Teilnahmebereitschaft (vgl. z.B. Kim et al., 2010 im Vergleich SAQ/
CASI); Manfreda et al., 2008 in Bezug auf reine Webumfragen)
• mangelndes Vertrauen in das Internet (vgl. z.B. Deutschmann & Faulbaum,
2001);
• zusätzliche Arten systematischer Auswahleffekte bei Selbst-administrierten
Befragungen durch Abhängigkeiten vom Vorhandensein und von der Art der
Hard- und Softwareausstattung;
• Gefahr zusätzlicher Einflüsse auf den Messfehler durch das Layout und die ge-
forderte Form der Antworteingabe; unterschiedliche Wirkungen des Layouts
können durch unterschiedliche Browser und unterschiedliche Bildschirmkon-
figurationen entstehen. Die Darstellung des Fragebogens auf dem Monitor des
Designers kann dabei maßgeblich von der Darstellung auf dem Monitor des
Befragten abweichen; bei Papierfragebögen ist das Layout des Fragebogens für
Designer und Befragten identisch.
128 II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-Surveys)
• In einer Panelstudie werden die Daten in späteren Wellen mit einer anderen
Technologie erhoben werden als die davorliegenden Wellen.
Das übergeordnete Ziel eines Mixed-Mode-Designs besteht in der Regel darin, die
verschiedenen Schwächen einzelner Befragungsarten durch Kombination zu mini-
mieren. So dienen Mixed-Mode-Designs etwa dazu, eine optimale Ausschöpfung
der Stichprobe und eine Erhöhung der Teilnahmebereitschaft in der Kontakt- und
Rekrutierungsphase einer Umfrage dadurch zu erreichen, dass die Bevorzugungen
bestimmter Befragungsarten durch die Befragten respektiert werden (vgl. hierzu
Olson, Smyth & Wood, 2012; Shih & Fan, 2002). Durch einen Wechsel der Ad-
ministrationsform kann ferner versucht werden, Item-bezogene Nichtantworten
(Item Nonresponse) bei heiklen Fragen und damit den Einfluss der Sensitivität auf
den Messfehler zu vermindern. Erwartet wird von Mixed-Mode-Designs oft auch
eine Kostenoptimierung. Ferner lassen sich Probleme der Ausstattung minimieren,
indem z.B. jene Personen, die das Internet intensiver nutzen, über das Web befragt
werden, während Befragte, bei denen dies nicht der Fall ist, in einem anderen Mode
befragt werden. Der Übergang von einem Mode zum anderen ist wesentlicher Be-
standteil von responsiven Designs (vgl. Groves & Heeringa, 2006), wo es um die
Verbesserung von Parameterschätzungen sowie der Kostenstruktur durch Mode-
wechsel geht.
Die Verknüpfung verschiedener Kommunikationsformen kann grundsätz-
lich entweder sequentiell oder gleichzeitig erfolgen. Im Rahmen eines sequenti-
ellen Einsatzes unterschiedlicher Kommunikationsformen wird den potentiellen
Befragten zunächst nur eine Kommunikationsform für das Interview, d.h. ein
bestimmter Interviewmode angeboten. Erst, wenn die Befragten sehr lange mit
Ihrer Antwort auf die Bitte um Teilnahme zögern oder verweigern, wird ihnen
eine weitere Kommunikationsform angeboten. Der zuerst angebotene Mode wird
auch als primärer Mode bezeichnet, der danach angebotene Mode als sekundärer
Mode. Prinzipiell könnten danach noch weitere Mode-Angebote folgen. Die se-
quentielle Verknüpfung von Angeboten verschiedener Kommunikationsformen
in der Kontaktphase kann dabei zu einer erhöhten Responserate führen (vgl. Dill-
man et al., 2009).
Bei einer gleichzeitigen Verknüpfung werden den Befragten mehrere, zumeist
zwei, Kommunikationsformen gleichzeitig angeboten, zwischen denen sie wäh-
len können. Die gleichzeitige Verknüpfung besteht oft darin, dass die Befragung
in einem bestimmten Mode durchgeführt wird und ein weiterer Mode als Zu-
satzoption angeboten wird. Ein Beispiel wäre etwa, wenn in einem Mailsurvey
als Zusatzoption angeboten würde, den Fragebogen auch online im Web auszu-
füllen. Eine solche Option kann als Folge eine Reduktion der Responserate im
130 II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-Surveys)
Hauptmode nach sich ziehen. So fanden z.B. Medway & Fulton (2012), dass das
Angebot einer zusätzlichen Weboption die Responserate des Mailsurveys redu-
ziert. Bei einer Verbindung verschiedener Kommunikationsformen sollte immer
überlegt werden, welche Kosten das Angebot einer Kommunikationsform für
den Befragten beinhalten würde.
Für die Teilnahmebereitschaft ist das Zusammenspiel zwischen der Kommu-
nikationsform während Kontaktaufnahme/Rekrutierung (Kontaktmode), in de-
ren Rahmen die Anfrage zur Teilnahme (survey request) vorgetragen wird und
dem Interviewmode von Bedeutung. Wird der Befragte z.B. postalisch kontak-
tiert und ihm ein Interview via Web angeboten, muss bedacht werden, dass der
Befragte z.B. erst den Computer anschalten muss, die Website aufrufen muss,
etc., während er bei einer schriftlichen Bearbeitung des Fragebogens, im gleichen
Mode verbleiben kann. Dadurch kann z.B. zumindest teilweise erklärt werden,
warum die Antwortraten bei schriftlicher Bearbeitung höher sind als bei der Be-
arbeitung von Webfragebögen. Varianten der Verbindung von Web-Befragung
und postalischer Befragung haben Milar und Dillman (2011) experimentell un-
tersucht. Dabei setzten sie verschiedene Möglichkeiten der Übermittlung der Bit-
te um Teilnahme in Verbindung mit dem Angebot, das Interview über das Web
oder schriftlich auszuführen. Sie fanden heraus, dass bei einer Verbindung von
einer postalischen Anfrage gekoppelt mit gleichzeitigen Kontaktaufnahmen via
E-Mail, die Antwortrate der Teilnehmer an der Webumfrage vergleichbar war
mit der Antwortrate per Mail, während die Antwortrate bei einer Webumfrage
darunterlag, wenn nur postalisch kontaktiert wurde. Sie fanden außerdem, dass
das gleichzeitige Angebot der beiden Modes „schriftlich“ und „Web“ zu keiner
höheren Responserate führt als das Angebot „schriftlich“ allein. Dagegen führt
eine vorgetragene Bitte, an einer Webumfrage teilzunehmen zu einer Erhöhung
der finalen Responserate, wenn den Nichtteilnehmern der Wechsel zum Mode
„schriftlich“ angeboten wird. Allerdings wurde das Experiments mit Studieren-
den durchgeführt. Die Frage ist, ob diese Ergebnisse auf allgemeine Bevölke-
rungsumfragen übertragbar sind.
Allgemein ist eine Verbindung von Kommunikationsformen dann besser als
eine andere, wenn sie zu geringeren Kosten führt ohne die Responserate negativ zu
beeinflussen oder wenn sie zu höheren Responseraten führt. Einige Studien fanden
keine Unterschiede in den Responseraten bei verschiedenen Modeverknüpfungen
(vgl. Rodriguez et al., 2006; McMorris, 2009; Dillman et al., 2009). Andere Stu-
di-en berichten in Bezug auf die Reihenfolge „Telefon-Mail“ vs. „Mail-Telefon“ (vgl.
McHorney et al., 1994; Harris et al. 1997) und in Bezug auf „Mail-Web“ vs. „Web-
Mail“ (vgl. Beebe, 2007; Smyth, 2010) unterschiedliche Response-Raten. Vieles
spricht dafür, dass die Folge „Mail-Web“ höhere Responseraten produziert als die
II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-Surveys) 131
CAPI) übergegangen wird. Die Autoren fanden, dass der Übergang von CAPI zu
CASI die Bereitschaft, den Ergänzungsfragebogen zu beantworten, im Vergleich
zum Übergang von PAPI zu SAQ verringert, wobei allerdings angemerkt werden
muss, dass es sich bei der Untersuchung um keine experimentelle Studie handelt
und nicht eingeschätzt werden konnte, wie die Wirkungen von PAPI und CAPI
auf die nachfolgende Nonresponse beim Ergänzungsinterview aussieht. Couper &
Rowe (1996) vermuten, dass die Bereitschaft, an einem CASI-Ergänzungsinterview
teilzunehmen, vor allem durch Lese- und Schreibfähigkeit sowie die Vertrautheit
mit dem Rechner beeinflusst wird.
II.6 Modeeffekte
II.6.1 Allgemeines
Die Wahl der Kommunikationsform kann einen Einfluss auf verschiedene As-
pekte der Umfragequalität und die Komponenten des totalen Umfragefehlers
(vgl. Teil I, Abschnitt 4.2) haben, wobei sowohl Beobachtungsfehler als auch
Nicht-Beobachtungsfehler betroffen sein können. Wie in Abschnitt 5 bereits er-
wähnt, erwartet man sich positive Effekte in Bezug auf eine präzisere Repräsenta-
tion der Zielpopulation und in Bezug auf die Kostenstruktur der Erhebung. Auf
der anderen Seite kann es prinzipiell auch Einflüsse auf die Messung geben, wel-
che eine einheitliche Interpretation der Ergebnisse über die Modes hinweg ge-
fährden.
Die drei wichtigsten Einflüsse von Modes auf Umfrageergebnisse sind:
gungskanal und wieder andere der Technologie zugeordnet werden können, muss
bei den Wirkungen der Kommunikationsform stets auch nach den Merkmalen
gefragt werden, die für diese Wirkungen konkret verantwortlich sind. Zu den
Merkmalen der Administrationsform gehören insbesondere Merkmale der Admi-
nistratoren. Im Fall von Face-to-Face-Umfragen gehören alle sprachlich/akustisch/
stimmlichen Merkmale (z.B. Tonhöhe und -stärke, Redefluss und Sprechgeschwin-
digkeit, Ausdrucksweise und Wortwahl, etc.) sowie alle visuellen äußeren Merk-
male des Interviewers einschließlich aller wahrnehmbaren Verhaltens- und Hand-
lungsmerkmale (z.B. Mimik, Gestik, Kleidung, Haar- und Hautfarbe, Körpergröße,
Body-Mass-Index, etc.). Diese wahrnehmbaren Merkmale ermöglichen es den
Befragten, Zuschreibungen wie „Höflichkeit“, „Hilfsbereitschaft“, „Zuwendung“,
„physische Attraktivität“, etc. zu konstruieren. Grundsätzlich können die wahr-
nehmbaren Merkmale Grundlage sein für die Bildung von Hypothesen über die
Person des Interviewers und seine soziodemographischen Merkmale einschließlich
seines sozialen Status sowie seine Einstellungen und charakterlichen Merkmale.
Verantwortlich sind hier psychologische Prozesse der Eindrucksbildung (engl.: im-
pression formation), zu deren Modellierung wiederum Theorien der Urteilsbildung
und der sozialen Kognition herangezogen werden können. Bei CATI-Umfragen
sind dagegen allein sprachlich/akustische/stimmliche Merkmale wahrnehmbar, so
dass die Befragten ihre Hypothesen über den Interviewer ausschließlich aus diesen
Merkmalen ableiten können.
Relative Effekte der Kommunikationsform auf die Aspekte „Selektion“ und
„Messung“ lassen sich durch einen Vergleich unterschiedlicher Kommunikations-
formen (Modevergleiche; engl.: mode comparisons) identifizieren und quantifizieren
(vgl. z.B. Fleming et al., 2013, Fricker et al., 2005; Yeager et al., 2011 in Bezug auf
Vergleiche Web vs. Telefon; Aquilino & Losciuto, 1990; Holbrook, Green & Kros-
nick, 2003, Gordoni, Schmidt & Gordoni, 2012 in Bezug auf Vergleiche Telefon
vs. Face-to-Face; Ye, Fulton & Tourangeau, 2011 in Bezug auf Telefon vs. andere
Modes; Fowler, Roman & Di, 1998, Denscombe, 2006, Heerwegh & Loosfeldt, 2011
in Bezug auf Telefon vs. Mail; Börkan, 2010; Barrios et al., 2011, Shin, Johnson
& Rao, 2012 in Bezug auf Web vs. Mail; Krysan et al., 1994 in Bezug auf Mail vs.
Face-to-Face; Wright, Aquilino & Supple, 1998 in Bezug auf computerunterstützt
vs. PAPI; Epstein, Barker & Kroutil, 2001 in Bezug auf ACASI vs. Face-to-Face;
McDonald & Thornburg in Bezug auf Telefon vs. Exit Poll; Klausch, Hox & Schou-
ten, 2013 in Bezug auf Face-to-Face, schriftlich, Web und Telefon; Gravlee et al.,
2013 in Bezug auf Face-to-Face vs. Web; De Bruijne & Wijnant, 2013 in Bezug auf
computer-assisted web survey vs. mobile web survey; Heerwegh, 2009; Revilla &
Saris, 2013 in Bezug auf Face-to-Face vs. Web; Kreuter, Presser & Tourangeau, 2008
in Bezug auf CATI vs. IVR vs. Web; Presser & Stinson, 1998 in Bezug auf Intervie-
134 II.6 Modeeffekte
riablen. Dann wäre der Einfluss von M auf Y im Rahmen der Analyse der linearen
Gleichung
Y = β0 + β M M + β Z X + ε
kontrollierbar.
Werden Modes sequentiell zur Optimierung der Responserate eingesetzt, also
etwa dann, wenn nach einer Face-to-Face-Umfrage als primärem Mode den Ver-
weigerern noch einmal die Möglichkeit einer telefonischen Teilnahme eröffnet
wird, lassen sich die Werte des sekundären Modes auch als fehlende Werte behan-
deln, die imputiert werden können (vgl. Kolenikov & Kennedy, 2014).
II.6.2 Selektionseffekte
mit den demographischen Hilfsvariablen wie Alter, Geschlecht, Bildung, etc. ver-
mittelt. Wenn es einen Selektionseffekt in Bezug auf soziodemographische Varia-
blen gibt und diese mit bestimmten Zielvariablen zusammenhängen, ist auch ein
Selektionseffekt in Bezug auf diese Zielvariablen zu erwarten (siehe unten). So
weiß man z.B., dass es immer noch altersspezifische, geschlechtsspezifische und
bildungsspezifische Einflüsse auf die Teilnahme an Webumfragen gibt und dass
dementsprechend die Merkmalsverteilungen dieser soziodemographischen Va-
riablen in der mode-spezifischen Stichprobe der Webteilnehmer von den Vertei-
lungen der Grundgesamtheit abweichen. Es darf angenommen werden, dass dies
auch für jene Zielvariablen gilt, die mit diesen soziodemographischen Variablen
statistisch zusammenhängen können.
Stellen wir bei einer Single-Mode-Umfrage, bei der für die Durchführung der
Interviews nur ein einziger Mode zugelassen ist, Abweichungen von den Vertei-
lungen in der Grundgesamtheit fest, so ist ein eventuell bestehender Modeeffekt
nicht ohne weiteres isolierbar, da andere Ursachen für diese Abweichungen im
verwendeten Mode in Frage kommen (z.B. Sponsorship-Effekte, Effekte des Inter-
esses am Thema, et.). Nur wenn alternative Ursachen durch statistische Kontrolle
ausgeschlossen werden können, wäre ein Selektionseffekt durch den Mode nach-
weisbar. Dieser Nachweis kann auf Grund der Einmaligkeit der Randbedingun-
gen einer Umfrage nicht empirisch/statistisch geführt werden. Lediglich ein rein
theoretisch begründeter Ausschluss anderer Einflüsse auf die Teilnahme könnte
einen Rückschluss auf die Wirksamkeit des eingesetzten Modes ermöglichen. Die
Abschätzung eines Mode-spezifischen Selektionseffekts wäre nur im Rahmen spe-
zieller Umfragedesigns möglich. Wenn es z.B. gelingen würde, die Umfrage mit
den rein zufällig ausgewählten Respondenten unter sonst gleichen Bedingungen
noch einmal zu wiederholen, könnte man bei identischen Abweichungen von den
Merkmalsverteilungen in der Population auf einen Selektionseffekt schließen, der
auf den eingesetzten, spezifischen Mode zurückgeht.
Es gibt vor allem drei wichtige Typen von Ursachen für Selektionseffekte in Be-
zug auf eine wohldefinierte Population U:
Selektionseffekte auf Grund merkmalsabhängiger Verteilungen der Nutzungsvoraus-
setzungen in der Population U:
Diese Situation wäre dann gegeben, wenn die Ausstattungen mit Telefon (beim Te-
lefonmode) oder Zugang zum Internet (bei Webumfragen) in der Gesamtbevölke-
rung in verschiedenen soziodemographischen Teilpopulationen (z.B. Geschlecht-
ergruppen, Bildungsgruppen, Altersgruppen, etc.) unterschiedlich häufig vertreten
sind.
II.6 Modeeffekte 137
Merkmalsabhängige Kontaktierbarkeit:
Unterschiedliche Modes können in ihrer Funktion als Kontakt-Modes zu einer
unterschiedlichen Erreichbarkeit und damit Kontaktierbarkeit führen. Soll eine
Umfrage etwa telefonisch über das Festnetz durchgeführt werden, ist die Kontak-
tierbarkeit abhängig vom Muster der häuslichen Anwesenheit, von Urlaubszeiten,
etc. Grundsätzlich könnte der Fall eintreten, dass mobile Personen, die oft beruflich
unterwegs sind oder Personen, die im Schichtdienst arbeiten, schlechter erreichbar
sind. Ist dieses Merkmal auch noch von bestimmten soziodemographischen Varia-
blen abhängig, überträgt sich die Abhängigkeit auf weitere Merkmale. Dies würde
z.B. gelten, wenn männliche Arbeitnehmer mobiler sind als weibliche Arbeitneh-
merinnen. Natürlich hängt der finale Kontakterfolg auch von situativen Variablen
wie Jahreszeit, Tageszeit, etc. sowie verschiedenen Arten von Paradaten wie etwa
der Anzahl der Kontaktversuche ab.
Merkmalsabhängige Ablehnung oder Bevorzugung des in der Umfrage vorgesehenen
Interview-Modes:
Wenn kontaktierte Befragte bestimmte Modes als Interview-Modes bevorzugen
oder ablehnen, so kann dies zu einer selektiven Teilnahmebereitschaft führen.
Mitbestimmend für die Teilnahmeentscheidung ist in diesem Fall eine latente Prä-
ferenzordnung der Modes (siehe unten). Diese Bevorzugungen sind nicht unab-
hängig von den Nutzungsvoraussetzungen zu sehen, da davon auszugehen ist, dass
jener Mode eher bevorzugt wird, wenn man ihn auch bedienen kann.
Aus Sicht der statistischen Modellierung entstehen Selektionseffekte auf die Teil-
nahmeentscheidung nach erfolgreichem Kontakt dadurch, dass bestimmte, mit
Personen verbundene Merkmale (Individuen-spezifische Variablen), wozu z.B.
auch das soziale Umfeld, die Haushaltsgröße, Einstellungen gehören können, mit
einer Modevariablen, die unterschiedliche Modes als Ausprägungen annehmen
kann, in Wechselwirkung treten und diese Wechselwirkung einen signifikanten Ef-
fekt auf die Teilnahmeentscheidung hat, wenn also z.B. das Geschlecht mit den Mo-
des interagiert, indem Männer an Webumfragen eher teilnehmen als Frauen. Ur-
sache dafür, dass unterschiedliche Personengruppen bei bestimmten Modes eher
teilnehmen als bei anderen, ist also letztlich gleichbedeutend mit dem Effekt einer
Interaktion zwischen einer Menge I von Individuen-spezifischen Variablen und ei-
ner Modevariablen M (z.B. telefonisch, online) auf die Teilnahmeentscheidung. Sei
T eine dichotome abhängige Variable der Teilnahmeentscheidung mit den Werten
T = 1, falls eine Person x teilnimmt und T = 0, falls x nicht teilnimmt, so ergibt sich
die in Abbildung II.6 dargestellte Beziehung.
138 II.6 Modeeffekte
Da die abhängige Variable eine dichotome Variable darstellt, wird als statisti-
sches Modell eine verallgemeinerte lineare Regression (z.B. logistisches Modell,
Probitmodell, etc.) angenommen werden müssen.
Eine empirische Evaluation des beschriebenen Modells ist allerdings nur möglich,
wenn (1) Zielpersonen die Wahl zwischen der gleichen Menge von Modes haben
und wenn (2) die Individuen-spezifischen Variablen sowohl für Respondenten als
auch für die Nichtrespondenten gemessen werden konnten. Die zuletzt genannte
Voraussetzung ist in der Regel nicht gegeben. Sie kann allerdings zumindest dann
teilweise erfüllt werden, wenn die Ausprägungen dieser Variablen für jedes Stich-
probenelement in der Auswahlgrundlage enthalten sind, wenn die Daten also durch
entsprechende administrative Zusatzinformationen ergänzt werden können oder
wenn es gelingt, diesbezügliche Informationen in der Umfrage selbst, z.B. während
der Kontakt- und Screening-Phase etwa durch Einsatz eines Nonresponder-Frage-
bogens oder durch ein gekürztes Instrument zu erheben (vgl. Teil VII). Eine Alter-
native zur Formulierung eines Modells, bei dem alle Zielpersonen zwischen Modes
wählen können, wäre der Vergleich zwischen unabhängigen Zufallsstichproben,
die unterschiedlichen Modes zugeordnet werden (vgl. Abbildung II.7).
II.6 Modeeffekte 139
die Frage nach der „Parteineigung“. Die Konsequenz wäre möglicherweise eine
Überrepräsentation des Alters in der Stichprobe und eine stärkere Bevorzugung
konservativer Parteien als in der Grundgesamtheit zu erwarten gewesen wäre.
C. Problemlose Anwendbarkeit
Manche Modes erfordern in der Anwendung einen besonderen Aufwand. So müs-
sen bei Webumfragen erst ein Gerät angeschaltet sowie Browser und die Website
aufgerufen werden. Schließlich ist in der Regel auch noch die Eingabe eines Zu-
gangscodes erforderlich. Der Ansatz des maßgeschneiderten Designs von Dillman
(vgl. Dillman, 2000; Dillman, Smyth & Christian, 2014) empfiehlt, zur Verbesse-
rung der Teilnahmebereitschaft den Aufwand für den Befragten zu reduzieren.
Dieser Aspekt spielt ins besonderen auch bei Modewechseln, insbesondere auch
vom Kontaktmode in den Interviewmode eine Rolle. So ist etwa der Wechsel von
einem primären Telefon-Mode in einen Online-Mode mit mehr Aufwand verbun-
den als der Wechsel vom schriftlich/postalischen Mode zum Online-Mode (vgl.
hierzu auch Millar & Dillman, 2011). Der Aufwand dürfte auch mit der Gewohn-
heit und der Nutzungshäufigkeit zu tun haben. Der Wechsel von einem häufig ge-
nutzten Mode in einen seltener benutzten Mode wird mit einem zumindest sub-
jektiv höheren Aufwand verbunden sein. Dies ist aber durchaus abhängig von den
alltäglichen Verhaltensweisen des Befragten. Die Problemlosigkeit der Anwendung
muss als möglicher Faktor bei der Nutzenbewertung der Teilnahmeentscheidung
in Betracht gezogen werden.
gerade jener Fähigkeiten, die zur korrekten Beantwortung der Fragen benötigt wer-
den, können auch Auswirkungen auf die Antwortqualität in Sinne eines verstärkten
Auftretens von „Fehlklassifikationen“, „don’t know-Antworten“, „Item-Nonrespon-
se“, etc. nicht ausgeschlossen werden (vgl. Abbildung II.9). Defizite in der Leis-
tungsfähigkeit können wiederum von psychophysischer Belastbarkeit, Konzentra-
tionsfähigkeit, Ermüdbarkeit und verstärkter Neigung zum Satisficing abhängen.
Gemeinsame Ursachen müssen nicht immer beobachtbar sein. Vielmehr kann die
Menge der die Selektion beeinflussenden Variablen auch unbeobachtete Variablen
enthalten. Ein Beispiel sind die latenten Konstruktvariablen „Selbstenthüllungs-
tendenz“ und „Soziale Erwünschtheit“, die zu einer Bevorzugung Selbst-admi-
nistrierter Kommunikationsformen führen können. Eine empirische Analyse der
Auswirkungen latenter Konstruktvariablen erfordert die vorherige Identifikation
empirischer Indikatoren für diese Variablen.
II.6 Modeeffekte 147
II.6.3.1 Messeffekte
M ( f ( X ) ) = P ( X|A = a ) − P ( X|A = b ) .
Der marginale Messeffekt ist also definiert als Differenz zwischen der Wahrschein-
lichkeit von X unter Mode a und der Wahrscheinlichkeit von X unter Mode b.
Die statistische Evaluation des Messeffekts kann im Rahmen eines Designs mit
Messwiederholung durch Überprüfung der Hypothese erfolgen, dass beide Stich-
proben aus derselben Zielpopulation stammen. Dazu eignen sich der t-Test für ab-
hängige Stichproben (bei metrischen Variablen) oder ein vergleichbares nichtpara-
metrisches Verfahren (z.B. Mann-Whitney). Ein signifikanter Unterschied spricht
dann für einen Messeffekt.
148 II.6 Modeeffekte
τ bezeichnet in diesen Formeln die wahre Messung. εMod1 und εMod2 bezeichnen die
Messfehler unter den beiden Modalitäten Mod1 und Mod2 (vgl. auch Abbildung
II.10). Die beobachteten Messungen xMod1 und Mod2 sind identisch, wenn die Mess-
fehler gleich sind.
Randomisierung nach Zufall auf die Modes verteilt werden. Experimentelle De-
signs können auch in Umfragen, d.h. in Beobachtungsstudien integriert werden,
indem die Befragten nach einer Kontakt- und Screeningphase nach Zufall verschie-
denen Modes zugeordnet werden, wobei allerdings nicht garantiert werden kann,
dass die Befragten nach erfolgter Zuordnung immer noch zum Interview bereit
sind, so dass mit einer selektiven Nonresponse gerechnet werden muss. Um diese
Nonresponse-Effekte abzuschätzen, sollte man versuchen, von allen Personen be-
reits in der Screeningphase möglichst viele Informationen zu erheben.
Die Anwendung der oben erwähnten Methoden zur Kontrolle von Selektions-
effekten kann bei einer vom Administrator vorgenommenen zufälligen Zuordnung
der Modes dadurch geschehen, dass beide Zufallsstichproben gepoolt werden und
die gepoolte Stichprobe entsprechend dem oben beschriebenen Vorgehen analy-
siert wird.
Vannieuwenhuyze, Loosfeldt & Molenberghs (2010) zeigen wie Mess- und
Selektionseffekt berechnet werden können, wenn eine Referenzstichprobe aller
Elemente in einem Referenzmode a zur Verfügung steht (erweiterter Mixed-Mo-
de-Vergleich).
II.7.1.1 Allgemeines
zu können. Interviewer-Effekte auf die Messung lassen sich u.a. durch Berechnung
der von den Interviewern verursachten Designeffekte (vgl. Teil VI) abschätzen.
So weit möglich sollten in einer Umfrage erfahrene Interviewer und Interviewer
mit einem positiven Selbstbild und einem Selbstvertrauen in die eigenen Fähig-
keiten eingesetzt werden. Beide Merkmale tragen zusammen mit der Einstellung
zu den Inhalten der Umfrage Erhöhung der Kooperationsbereitschaft bei (vgl.
Durrant et al., 2010; Groves & Couper, 1998; De Leeuw et al., 1998; Hox & De
Leeuw, 2002) Allerdings lässt sich dies nicht immer garantieren, da Neurekrutie-
rungen auf Grund von Fluktuationen unerlässlich sind.
Für die Festlegung der Anzahl der Interviewer für die Feldarbeit in einer kon-
kreten Umfrage sind in erster Linie folgende Gesichtspunkte relevant:
Festlegung, die in Abhängigkeit von der Zielgruppe getroffen werden muss, von
gewisser Bedeutung. Auch die Anzahl der Kontaktversuche in einer bestimmten
Kommunikationsform sollte vorher festgelegt werden.
Wieder andere Aufgaben nimmt der Interviewer wahr, wenn ein Random-Rou-
te-Verfahren (vgl. Abschnitt VI) als Methode der Stichprobenauswahl gewählt
wird. In diesem Fall gehört zu den Aufgaben des Interviewers eine Adressauswahl,
indem in einem wohldefinierten Gebiet, einem sog. Sampling Point, Adressen nach
bestimmten Begehungsvorschriften (Zufallsauswahl der Wege, festgelegter Schritt-
weite, wohldefiniertes Verhalten in Mehrfamilienhäusern) aufgesucht werden. Bei
Random-Route mit vorheriger Auflistung von Adressen, müssen die Adressen vom
Interviewer vor der Interviewphase an das Institut geschickt werden, das dann eine
Auswahl der Adressen vornimmt.
Im Fall einer Quotenstichprobe (vgl. Abschnitt VI) wird der Interviewer ange-
wiesen, eine bestimmte Anzahl von Personen nach vorgeschriebenen Merkmalen
zu befragen. Für die Art der Kontaktaufnahme können bestimmte zusätzliche For-
derungen gestellt werden (z.B. bitte nicht innerhalb des Verwandten- oder Bekann-
tenkreises suchen).
CATI-Umfragen unterscheiden sich von PAPI- und CAPI-Umfragen vor allem da-
durch, dass die Interviews in der Regel in Räumlichkeiten und Telefonplätzen des
Instituts erfolgen. Allerdings sind heute die technischen Möglichkeiten vorhanden,
die Interviews auch durch Interviewer zuhause durchführen zu lassen. Wird der
zuletzt genannte Weg beschritten, muss die Kontrolle der Interviewer nicht nur in
158 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen
Bezug auf die Verifikation der Durchführung, sondern auch in Bezug auf Qualität,
Korrektheit und Datenschutz (sichere Verbindung zum Datenaustauch zwischen
dem Gerät des Interviewers und dem CATI-Server) sichergestellt sein. Der Vorteil
einer Durchführung der CATI-Interviews in den Institutsräumen liegt in den Mög-
lichkeiten einer intensiveren Supervision der Arbeitsweise der Interviewer und der
Funktionstüchtigkeit der Technik, die vor Ort und kontinuierlich erfolgen kann.
Es sollte sichergestellt sein, dass zumindest zwei Supervisoren anwesend sind, die
für die Beantwortung von Fragen und Problemen der Interviewer zur Verfügung
stehen, den Betrieb des CATI-Systems überwachen und für den Abruf relevanter
Systeminformationen sorgen. Ob in einer Umfrage nicht nur im Pretest, sondern
auch in Teilen der Hauptbefragung ein Hineinhören in die Interviews gestattet sein
sollte, hängt von methodischen Erwägungen und Erwägungen zum Datenschutz
ab. Die Wirkungen auf die Befragten sind durchaus nicht klar. Bei sensitiven Fragen
spricht einiges gegen ein solches Vorgehen. Ein Hineinhören ist ohne Zustimmung
der Interviewer und der Befragten nicht gestattet.
II.7.1.4 Interviewer-Schulung
Schulungsstufe 1
Neu eingestellte Interviewer/innen sollten einen mehrstufigen Schulungsprozess
durchlaufen, im Rahmen dessen zunächst in einer mündlichen und schriftlichen
Schulung die Regeln des standardisierten Interviews vermittelt werden. Im Rah-
men dieser Schulung sollten auch die Techniken neutralen Klärens bei Nachfragen
des Befragten und des neutralen Nachfragens durch den Interviewer bei unkla-
ren Antworten des Befragten vermittelt werden. Als Schulungsunterlagen können
die GESIS-Richtlinien zur Durchführung standardisierter Interviews zugrunde
gelegt werden (vgl. Stiegler & Prüfer, 2002). Schon auf dieser Stufe sollten Pro-
beinterviews mit einem Beispielfragebogen durchgeführt werden. Interviewpart-
ner können dabei andere Interviewer und/oder fremde Personen sein. Im Fall von
Telefonumfragen kann leicht eine kleine Stichprobe von Telefonnummern gezogen
werden, mit denen telefonische Trainingsinterviews durchgeführt werden. Auch
ein zusätzliches Training zur Optimierung der Kontaktaufnahme und zur Erhö-
hung der Teilnahmebereitschaft sollte auf dieser ersten Stufe erfolgen, wozu als
wichtige Komponente ein Verweigerungstraining gehört, in dem der argumentative
Umgang mit Verweigerungsäußerungen trainiert wird. Um die Teilnahmebereit-
schaft zu steigern, haben sich bestimmte Strategien als hilfreich erwiesen. Groves
und Gonagle (2001) heben die kombinierte Anwendung von zwei Strategietypen
160 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen
In einem Experiment fanden Groves und Gonagle, dass ein Training der be-
schriebenen Art am effektivsten bei Interviewern ist, die eine geringe Performance
haben.
II.7.2.1 Allgemeines
telefonisch, per E-Mail, bestehen kann, erfolgt der Versand der Befragungsunter-
lagen. Nach dem Versand erfolgt eine Kontrolle des sog. Rücklaufs. Der Rücklauf
betrifft den Prozess des Eintreffens der von den Befragten zurückgeschickten Fra-
gebögen. Bei ungenügendem Rücklauf können sog. Nachfassaktionen durchgeführt
werden. Diese bestehen in Erinnerungen an das Ausfüllen des Fragebogens. Neben
einfachen Erinnerungen in verschiedenen Modes, können sie auch die Form eines
wiederholten Versands der Befragungsunterlagen bestehen. Schließlich müssen die
in den Fragebögen erhobenen Informationen mit Hilfe geeigneter Software in den
Computer eingegeben und ein analysefähiger Datensatz erstellt werden.
Porst (2001) hat die notwendigen Bestandteile eines Versands der Befragungsun-
terlagen zusammengestellt. Sie bestehen im Normalfall aus den folgenden Kompo-
nenten:
• Fragebogen;
• Kuvert für alle Unterlagen;
• Anschreiben;
• weitere Begleitmaterialien wie Referenzen, Datenschutzblatt/Beschreibung der
Maßnahmen zum Datenschutz;
• Publikationen, die über die Umfragen informieren (nicht obligatorisch);
• eventuell Informationen über Incentives (z.B. Informationen über die Teilnah-
me an einem Preisausschreiben, oder direkte Incentives wie Gutscheine, etc.).
• einen seriösen Eindruck vermitteln und sich von den Werbematerialien, die
täglich im Briefkasten zu finden sind, unterscheiden;
• ein Logo oder Absender enthalten; die absendende Institution sollte eindeutig
identifizierbar sein;
• ein DIN-A4-Format aufweisen,
• nach Möglichkeit mit Briefmarke; ein Postwertstempel ist weniger günstig;
• bei Briefmarke, nach Möglichkeit Sonderbriefmarke:
• mit einer vollständigen und korrekten Anschrift versehen und möglichst
persönlich adressiert; falls Zielperson nicht bekannt: Name des Haushalts
mit persönlicher Anrede besser als „Familie…“ oder „An den Haushalt“.
Der Inhalt des Anschreibens sollte eine überzeugende Begründung der Untersu-
chung und der Umfrage enthalten, wobei Wichtigkeit und Sinnhaftigkeit einer Teil-
nahme herausgestellt werden sollten. Der Befragte sollte den Eindruck gewinnen,
dass eine Teilnahme an der Befragung für ihn selbst von Bedeutung ist. Sofern es
später auch wirklich umgesetzt werden kann, erscheint es günstig, den Versand von
Ergebnissen in Kurzform anzukündigen.
Das anzustrebende Format ist das DIN-A4-Format. Dabei sind A3-Bögen, die
man falten und in der Mitte heften kann. Nach Porst (2001) sollte Anzahl der Seiten
nicht über 16 liegen, eher darunter.
Was die Gestaltung des Anschreibens angeht, so sollten Schriftgröße und Schrift-
typ gut lesbar sein. Alle Bestandteile (Fragetexte, Antwortskalen und- vorgaben,
Hinweise) sollten in der gleichen Art und Weise gegeben werden (Standardisie-
rung). Sinnvolle und logische Anordnung der Fragen, Abfolge muss einsehbar sein.
Thematisch zusammenhängende Fragen sollten zu Blöcken zusammengefasst wer-
den.
Die im Fragebogen gestellten Fragen sollten nach Möglichkeit geschlossen
sein. Offene Fragen setzen eine angemessene sprachliche Kompetenz sowie eine
Schreibkompetenz voraus. Wird diese Voraussetzung nicht beachtet, muss mit
Nichtantwort wegen mangelnder Kompetenz gerechnet werden. Auch auf Filterfra-
gen sollten verzichtet werden. Sie stellen eine große Fehlerquelle dar und erwecken
den Anschein, als wären die dazwischenliegenden Fragen nicht so wichtig.
Während man im Fragebogen selbst ablenkende Informationen vermeiden
sollte, kann die Titelseite bzw. das Deckblatt durchaus eine „werbewirksame“ Auf-
machung haben. Die Titelseite sollte umfassen: die durchführende Institution mit
Adresse und Kontaktmöglichkeiten, eventuell Bild auf der Titelseite; auf der In-
nenseite: Hinweise zum Ausfüllen des Fragebogens (Wann darf ich nur ein Kreuz
machen, wo mehrere Kreuze, Hinweise zur angemessenen Verwendung der Skalen,
Funktion der Filtersprünge).
Am Ende des Fragebogens sollte Raum für eigene Bemerkungen zur Befragung
gelassen werden mit einem Hinweis wie (Vorschlag von Porst 2001):
„Falls Sie noch Anmerkungen zur unserer Umfrage haben, oder falls Sie uns noch
etwas mitteilen möchten, können Sie das hier tun. Nehmen Sie kein Blatt vor den
Mund!“
Schließlich bedarf auch noch das Datenschutzblatt einer gesonderten Betrach-
tung. Das Datenschutzblatt kann den Charakter einer Datenschutzerklärung bzw.
eines Datenschutzkonzepts haben. Es besteht eine Verpflichtung zur Beilage des
Datenschutzblatts, wenn mit der Auswertung der Daten zeitlich vor Vernichtung
der Deanonymisierungsmerkmale wie z.B. der Adressen begonnen wird.
166 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen
• wie die Daten verarbeitet werden: Trennung von Adresse und Inhalt, elektroni-
sche Auswertung in anonymer Form und in Gruppen zusammengefasst;
• welche Sicherheitsvorkehrungen getroffen werden: Anonymität, keine Weiter-
gabe an Dritte
• wer für die Einhaltung der Sicherheitsmaßnahmen zuständig ist (z.B. der Insti-
tutsdirektor, der/die Datenschutzbeauftragte)
• Termin für die Löschung der personenbezogenen Informationen (Löschda-
tum).
k
u100.
n
Diese Rücklaufquote wäre dann auch in Bezug auf die Säumigen späterer Nachfass-
aktionen zu erwarten Obige Formel lässt sich rekursiv immer wieder auf die neu
entstandenen Rücklaufquoten der Säumigen anwenden. Nach der i-ten Nachfass-
aktion wäre zum Zeitpunkt i + 1 eine Rücklaufquote von
ki
i −1
× 100.
n − ∑ l =1kl
zu erwarten, wobei ki die Anzahl der Personen, die den Fragebogen in Nachfassak-
tion i zurückgeschickt haben. n – ∑i-1
l=1kl ist der Bestand an Säumigen zum Zeitpunkt
der Nachfassaktion i.
In den Erinnerungsschreiben sollte verdeutlicht werden, dass die Nichtteilnah-
me den Wert der Ergebnisse (Aussagefähigkeit) in Frage stellt. Die Dringlichkeit
sollte für die Befragten spürbar gemacht werden. Die Anzahl der Nachfassaktionen
hängt von Zeit und Geld ab. Von weiteren Nachfassaktionen sollte abgesehen wer-
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 167
den, wenn der zu erwartende Rücklauf in keinem Verhältnis mehr zu den Kosten
steht. Voraussetzung für die Berechnung der Rücklaufquote und die Durchführung
von Nachfassaktionen sind eine vollständige Liste der Adressen und die Ausstat-
tung der Fragebögen mit einer Paginiernummer. Nur wenn die Nummern mit den
Adressen abgeglichen werden können, können Nachfassaktionen realisiert werden.
Abbildung II.12 enthält den Ablauf der Nachfassaktionen einschließlich der emp-
fohlenen Zeiträume zwischen den Aktionen.
II.8 Zusammenfassung
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 169
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_3
III.1 Fragen und ihre Bestandteile
bedeuten, das Fenster zu schließen; d.h. eine Frage wird in diesem Fall als eine
Aufforderungshandlung verstanden. Sie wurde vollzogen durch eine Frage, die mit
einem bestimmten Ziel in einer bestimmten Situation verbunden war. Ebenso kann
mit einer Aufforderung oder einer Bitte die Sprechhandlung einer Frage vollzogen
werden. Einige Autoren ziehen es vor, statt von Fragen (engl.: questions) eher von
Aufforderungen bzw. Bitten um Antworten (engl.: requests) zu sprechen (vgl. z.B.
Saris & Gallhofer, 2014).
Im Fall eines persönlich-mündlichen Interviews wird diese Handlung im Rah-
men einer nach eindeutig festgelegten Regeln verlaufenden Konversation vollzo-
gen. Nach Austin (1962) besteht ein wesentliches Merkmal einer Sprechhandlung
darin, dass eine gewisse Kraft auf den Hörer ausgeübt wird. Er spricht in diesem
Zusammenhang von einer illokutionären Kraft. Mit der Sprechhandlung wird ein
illokutionärer Akt mit bestimmten konventionellen Wirkungen vollzogen wie etwa
die Erzeugung einer Antwort auf eine Frage. Daneben kann es auch nicht-konven-
tionelle Wirkungen geben wie z.B. demütigen, erschrecken, provozieren. Austin
spricht in diesem Zusammenhang von perlokutionären Akten. Wirkungen dieser
Art stellen in einem Interview in der Regel vom Forscher nicht intendierte Ne-
beneffekte dar, die es zu kontrollieren oder sogar zu vermeiden gilt.
Von der Frage als einer Handlung des Forschers/Administrators ist die konkrete
Ausführung der Handlung zu unterscheiden, die in der Übertragung der zur Erzeu-
gung einer Antwort durch den Befragten notwendigen Informationen (Nachricht)
über einen bestimmten Kommunikationskanal besteht. Diese Übertragung kann
z.B. durch das Verhalten von Interviewern (Sprechverhalten) auf akustischem Weg
übertragen werden, oder auf über den visuellen Kanal durch Präsentation auf einem
Bildschirm. In diesem Sinn sind Fragen immer mit bestimmten Befragungsarten
(Modes) verbunden (vgl. Teil II). Die an den Befragten übertragenen Informatio-
nen, die Realisationen von sprachlichen Ausdrücken auf einem Nachrichtenträger
darstellen, müssen mit den Konventionen des Sprachsystems vereinbar sein, d.h. sie
müssen den syntaktischen und semantischen Konventionen genügen. Dazu gehört
nicht nur die grammatikalische Korrektheit, sondern auch die logische Korrektheit
in dem Sinne, dass logisch-falsche Aussagen bzw. Widersprüche vermieden werden.
Auch logisch-wahre Aussagen (Tautologien) sollten nach Möglichkeit aus den über-
mittelten Informationen verbannt werden, da sie keinen Informationsgehalt besitzen.
Eine Frage bzw. Aufforderung erfordert vom Befragten stets die Lösung einer Auf-
gabe wie z.B. das Erinnern eines Ereignisses und damit die Erbringung einer Leistung.
Die Frage ist dann vollständig, wenn sie alle zur Lösung der Aufgabe notwendigen In-
formationen enthält. Dazu gehört auch die Beschreibung der Art und Weise, in welcher
Form der Befragte antworten soll, welche Antwortkategorien er verwenden soll, welche
Vorlagen, z.B. graphische Vorlagen, er zur Mitteilung seiner Antwort verwenden soll.
III.1 Fragen und ihre Bestandteile 173
Es empfiehlt sich, die auf die Antworten bezogenen Informationen von den übrigen
Informationen, die sich auf den Gegenstand der Aufgabe beziehen, zu trennen, so dass
sich die in Abbildung III.1 dargestellte grobe Struktur einer Frage ergibt.
Rechnet man zu den Bausteinen eines Fragebogens nicht nur die Fragen, sondern
auch mögliche Anweisungen zu den konkreten Ausführungsformen an die Inter-
viewer (z.B. „Bitte langsam vorlesen“); Sprung- bzw. Navigationsanweisungen: (z.B.
„bei Antwort „ja“ bitte zu Frage Y übergehen“) oder – bei Selbst-administrierten
Interviews – an die Befragten selbst (z.B. „Lesen Sie die Frage genau durch“), so bie-
tet sich zur Bezeichnung dieser umfassenden Beschreibung eines Fragebogen-Bau-
steins die Bezeichnung „Survey-Item“ an, den einige Autoren verwenden (vgl.
Andrews, 1984; Saris & Gallhofer, 2014, p. 32 und pp. 60; Schnell, 2012). Anwei-
sungen an die Interviewer werden auch als Interviewer-Instruktionen bezeichnet.
Im Fall von programmierten Fragebögen werden Instruktionen an die Interviewer
durch Instruktionen an den Interpreter des Software-Programms ersetzt. Fragen,
die Sprunganweisungen beinhalten, werden oft als Filterfragen bezeichnet.
Wie bereits erwähnt, kann die Aufgabenbeschreibung einer Anforderung weite-
re Elemente enthalten. Dazu gehören:
Szenarios oder Situationsbeschreibungen, auf die sich die Antworten des Befragten
beziehen sollen. Ein Beispiel sind standardisierte Situations- oder Personenbe-
schreibungen, die auch als Vignetten bezeichnet werden und in faktoriellen Surveys
verwendet werden;
174 III.1 Fragen und ihre Bestandteile
Orientierende Ausdrücke wie „Wenn Sie einmal an… denken“. Sie dienen zur kognitiven
und emotionalen Orientierung sowie zur Einstimmung des Befragten und sollen einen
bestimmten kognitiven und/oder emotionalen Zustand im Befragten erzeugen;
Ausdrücke, welche über eventuelle Hilfmittel zur Beantwortung (Befragungshilfen)
informieren wie, „Hier habe ich einige Kärtchen, auf denen Sätze stehen. Bitte….“
oder: „Ich lege Ihnen jetzt eine Liste vor, auf der verschiedene Berufe stehen. Bitte
sagen Sie mir…“. Davon wird vor allem bei Face-to-Face-Interviews ohne Compu-
terunterstützung Gebrauch gemacht.
Definitionen, Erläuterungen und Klärungen durch den Interviewer (bei
Interviewer-administrierten Interviews), in denen die Bedeutung von im Fragetext
verwendeten sprachlichen Ausdrücken präzisiert wird,
Bilder, Videos:
Bei Selbst-administrierten Interviews, insbesondere bei Webinterviews besteht die
Möglichkeit, in die Fragen visuelle Informationen in Form von Bildern oder Videos
einzubetten (vgl. Couper, Tourangeau & Kenyon, 2004; Peytchev & Hill, 2010).
Im Fall des Dependent Interviewing (DI; vgl. Jäckle, 2008, 2009; Lynn et al., 2006,
2012; Mathiowetz & McGonagle, 2000): Bitten an den Befragten sich an Antwor-
ten, die er an früherer Stelle des Interviews oder früher in einem anderen Interview
gegeben hat, zu erinnern, um die Validität der Antworten z.B. durch Vermeidung
von Fehlklassifikationen, insbesondere in Panelerhebungen (z.B. Erinnern an Be-
rufsangaben) in vorangegangenen Wellen) zu erhöhen.
Saris und Gallhofer (2014, pp. 115) fassen die Funktionen möglicher Bestand-
teile von Survey-Items wie folgt zusammen:
• Einführung;
• Motivation;
• Inhaltsinformation;
• Information bezüglich einer Definition;
• Instruktion des Befragten;
• Interviewer-Instruktion;
• Anforderung zur Antwort (engl.: requests);
• Antworten: Kategorien und Antwortskalen.
Einige dieser Elemente sind optional und werden nicht in jeder Administrations-
form benötigt. So sind etwa Instruktionen der Interviewer nur bei Interviewer-ad-
ministrierten Interviews notwendig. Die Anforderungen werden von den Autoren
nach ihrer linguistischen Struktur weiter subklassifiziert.
III.1 Fragen und ihre Bestandteile 175
Von der Frage als Handlung muss der aus sprachlichen Ausdrücken bestehen-
de Fragetext unterschieden werden. Er beinhaltet die an den Befragten über einen
Übertragungskanal übermittelte, strukturierte Nachricht im Sinne konkreter Fra-
geformulierungen (engl. question wording).
III.1.2 Items
Itembatterien werden oft gezielt entwickelt, um ein oder mehrere Konstrukte wie
Rechtsextremismus, Einstellung zu in Deutschland lebenden Ausländern, Politik-
verdrossenheit, etc. zu messen. Einzelitems haben die Bedeutung von Indikato-
ren für die zu messenden Konstrukte. Ein bekanntes Beispiel ist die Messung der
als „Big Five“ bezeichneten Persönlichkeitsfaktoren (vgl. John, Naumann & Soto,
2008), für die es eine Kurzfrom gibt, die in Bevölkerungsumfragen zur Bestim-
mung der menschlichen Ressourcen eingesetzt werden kann (vgl. z.B. Rammstedt,
2004; Rammstedt & John; 2007).
Andere Einteilungsprinzipien von Fragen basieren auf dem Inhalt der Frage bzw.
auf der Art der in der Frage gewünschten Information. Sehr populät ist eine Eintei-
lung nach folgenden Frageinhalten:
III.1 Fragen und ihre Bestandteile 179
Einteilungen dieser Art sind nicht unproblematisch, weil eine Typentrennung nicht
immer ohne Willkür möglich ist. So würde eine Faktfrage nach einem vergangenen
Ereignis unter der Bedingung, dass der Befragte meint, ein Ereignis hätte stattge-
funden, obwohl es niemals stattgefunden hat, eher einer Frage nach einer Überzeu-
gung entsprechen. Der Befragte ist in diesem Fall mehr oder weniger stark davon
überzeugt, dass das Ereignis stattgefunden hat. Auch erfordern Faktfragen oft die
Durchführung kognitiver Operationen wie z.B. Summenbildung wie z.B. bei Fra-
gen nach der Anzahl der Stunden, die ein Befragter in seiner beruflichen Funktion
wöchentlich tätig ist. Es erscheint daher sinnvoller, die vom Befragten geforderten
kognitiven Leistungen in die Kategorisierung der Fragetypen einzubeziehen. So
erörtern Tourangeau, Rips & Rasinski (2000) Faktfragen im Zusammenhang mit
verschiedenen Arten der Urteilsbildung. Die Autoren unterscheiden dabei folgen-
de Arten von Urteilsprozessen, die bei der Beantwortung von Faktfragen eine Rolle
spielen:
• Urteile bezüglich der Vollständigkeit oder Genauigkeit des Gedächtnisabrufs;
• auf dem Gedächtnisabruf basierende Schlussfolgerungen;
180 III.1 Fragen und ihre Bestandteile
Mit einer Frage sind in standardisierten Interviews stets auch bestimmte Antwort-
vorgaben verbunden, in welche die Befragten die von ihnen gewünschten Infor-
mationen einpassen müssen. Im Grenzfall kann eine Frage in einem freien Format
auch offen gestellt werden. Grundsätzlich erfordern bestimmte Fragen konventi-
onell, d.h. nach den in der Gesellschaft gelernten Konversationsregeln spezifische
Arten von Antworten. Einige Fragen können z.B. angemessen nur mit „Ja“ oder
„Nein“ beantwortet werden. Es ist wichtig, dass bei der Konstruktion von Frage-
texten und Antwortkategorien die Sprachkonventionen im Hinblick auf das Ver-
hältnis von Frage und Antwort beachtet werden. Bei geschlossenen Fragen wer-
den den Befragten verschiedene Antwortalternativen (auch: Antwortkategorien,
Antwortvorgaben; engl.: response alternatives) präsentiert, die manchmal eher den
Anforderungen des Forschers an die Qualität der Messung als den Konventionen
der Alltagskommunikation folgen. Stellen Antwortalternativen Abstufungen auf
einer gemeinsamen Dimension bzw. Merkmals wie z.B. „Zufriedenheit“ dar, so
spricht man auch von einer Antwortskala (engl.: response scale). Durch Zuordnung
von Zahlen zu den Antwortkategorien nach bestimmten Regeln entstehen aus den
Merkmalen mit ihren Ausprägungen numerische Variablen mit ihren Werten, die
dann als Messungen einer statistischen Analyse unterzogen werden können. Oft
werden von den Befragten auch direkte numerische Angaben verlangt, so dass sich
eine numerische Codierung erübrigt.
Vom Begriff der Anwortskala ist der messtheoretische Begriff der Skala zu un-
terscheiden (vgl. z.B. Orth, 1976; Suppes & Zinnes, 1963; vgl. Abschnitt IV). Ob
Antworten auf einer Antwortskala eine Skala im messtheoretischen Sinn bilden,
kann nur auf Basis messtheoretischer Analysen entschieden werden.
III.1 Fragen und ihre Bestandteile 181
Antwortskalen, auf denen Urteile abgestuft werden können, heißen auch Ra-
ting-Skalen (engl.: rating scales). In den meisten Fällen handelt es sich um Ab-
stufungen in Form diskreter Kategorien. In diesem Fall spricht man auch von
Kategorialskalen (engl.: category scales). Kategorialen Einstufungen können kon-
tinuierliche latente Bewertungen des Befragten auf einer Dimension zugrunde lie-
gen, die der Befragte in kategoriale Formate übertragen bzw. einfügen muss. In
diesem Fall übersetzt der Befragte seine subjektive Bewertung auf einer latenten
Antwortskala in beobachtbare diskrete Kategorien (zu den Details vgl. Abschnitt
III.1.5). Im Grenzfall kann eine Antwortskala auch dichotom sein wie etwa eine
„Ja/Nein“-Skala.
Werden die Abstufungen auf einer Antwortskala numerisch dargestellt bzw.
benannt und nur die Endpunkte verbalisiert, so spricht man auch von einer nume-
rischen Skala (engl.: numerival scale) Sind alle Abstufungen verbalisiert, so heißt
die Skala Verbalskala oder verbalisierte Skala (engl.: verbal scale). Beispiele für Ant-
wortdimensionen, auf denen Urteile abgestuft werden können, sind:
Bei mündlichem Vortrag wie z.B. in Telefoninterviews werden den Befragten ent-
sprechende Instruktionen gegeben wie etwa in folgendem Beispiel einer Zustim-
mungsskala:
„Ich nenne Ihnen nun einige Aussagen, den man mehr oder weniger stark zustimmen
kann. Bitte sagen Sie mir auf einer Skala von 1 bis 5, wie stark Sie den Aussagen zu-
stimmen. 1 bedeutet „stimmte überhaupt nicht zu“ und 5 bedeutet „stimme voll und
ganz zu“. Mit den Zahlen dazwischen können Sie Ihr Urteil abstufen.“
III.1 Fragen und ihre Bestandteile 183
Ein bekanntes Beispiel für eine Verbalskala stellt jener Typ einer 5stufigen Ant-
wortskala dar, die von Likert (1932) in seiner Methode der summierten Ratings ver-
wendet wurde (vgl. Abbildung III.5).
Auch bei einer bipolaren Skala können die Abstufungen benannt sein wie z.B bei
einer 5-stufigen Wichtigkeitsskala mit den Abstufungen „sehr wichtig“, „eher wich-
tig“, „eher unwichtig“, „sehr unwichtig“.
Statt in irgendeiner Weise Abstufungen zu benennen, können letztere auch rein
visuell, z.B. durch Grautöne signalisiert werden (vgl. Abbildung III.8).
III.1 Fragen und ihre Bestandteile 185
Natürlich könnten auch hier wieder zusätzlich Benennungen, entweder nur an den
Endpunkten oder bei jedem Grauton eingeführt werden. Statt Grautönen wären
prinzipiell auch Farbtöne als Abstufungen einsetzbar. Das Problem bei der Einfüh-
rung solcher Typen von Visualisierungen ist, dass ein eigenständiger Effekt auf das
Antwortverhalten wegen möglicher Farbbevorzugungen nicht ausgeschlossen wer-
den kann. Auch bei unterschiedlich starker Grautönung besteht die Gefahr, dass
Befragte dunkle Abschnitte meiden.
Vielfache Anwendungen, insbesondere bei Imageerhebungen, Erhebungen
von Stereotypen, Erhebungen von Anmutungsqualitäten sowie von konnotativen
Bedeutungen finden Skalen, in denen die Skalenendpunkte durch gegensätzliche
Adjektive gekennzeichnet sind, wobei die Urteile auf einer mehrstufigen Ska-
la abgestuft werden. Eine Zusammenstellung solcher Gegensatzpaare wird auch
als semantisches Differential oder Polaritätsprofil bezeichnet (vgl. Osgood, Suci &
Tannenbaum, 1957; Hofstätter & Lübbert, 1958). Abbildung III.9 enthält den Aus-
schnitt eines Beispiels von Hofstätter (1963, S. 259).
„Bitte sagen Sie mir, wie stark Sie der Aussage zustimmen“, werden die Befragten
um die Bewertung der Items auf der Skala gebeten. Insbesondere in Webfragebö-
gen wird auf die numerischen Bezeichnungen der Abstufungen oft verzichtet. Ab-
bildung III.10 zeigt ein Beispiel aus einem Webfragebogen, wo nur die Endpunkte
verbalisiert sind und die Abstufungen durch sog. Radioknöpfe (radio buttons) dar-
gestellt sind.
Neben Ordinalskalen, die ab ca. fünf Abstufungen statistisch wie metrische Skalen
behandelt werden können (pseudometrische Skalen; vgl. Bentler & Chou 1985),
gibt es auch die Möglichkeit, kontinuierliche Urteile mit Hilfe von visuellen Ana-
logskalen zu erfassen (vgl. Couper, Tourangeau & Conrad 2007). Bei einer visuellen
Analogskala (VAS) werden kontinuierliche Abstufungen durch Markierungen auf
einer Linie vorgenommen (vgl. Abbildung III.11).
III.1 Fragen und ihre Bestandteile 187
Die Ausprägung kann dann direkt gemessen werden. Visuelle Analogskalen sind
auch als Online-Tool verfügbar (vgl. Reips & Funke 2008). Eine ähnliche Skala
stellt die Schiebereglerskala dar, die auch in vielen CAPI- und CASI-Programmen
verwendet wird:
Für wie wichtig halten Sie die folgenden Merkmale für die berufliche Arbeit und
den Beruf?
Hohes Einkommen
VERGLEICHSLINIE
ANTWORTLINIE
ANTWORTLINIE
ANTWORTLINIE
M1 = aM 2β2 / β1 .
In diesem Ausdruck sind M1 und M2 die auf den Modalitäten 1 und 2 abgegeben
Bewertungen. E1 und E2 sind die Exponenten der Funktionen, welche nach Stevens
(1946) die psychophysischen Beziehungen zwischen physikalischen Reizintensitä-
ten und den numerischen Reaktionen kennzeichnen. Diese Exponenten sehen je
III.1 Fragen und ihre Bestandteile 189
nach physikalischer Modalität unterschiedlich aus. Die Skalenwert für ein Item I
ergibt sich durch geometrische Mittelung:
( )
1/2
Si = M1βi1 M 2βi2 .
Bei der Skalenkonstruktion müssen stets die besonderen Eigenschaften der gewähl-
ten Kommunikationsform (siehe Teil II) bedacht werden. Bei Telefonumfragen ist
bei der Nennung von Antwortalternativen zu bedenken, dass Befragte nur wenige
Alternativen im Gedächtnis speichern können (in der Regel nur maximal vier), an-
dernfalls unterliegen die Antworten mit höherer Wahrscheinlichkeit Recency,- und
Primacy-Effekten. Nach Miller (1956) können zwar 7 +/- 2 Alternativen im Kurz-
zeitgedächtnis gespeichert werden. Unter dem subjektiv eher empfundenen Zeit-
druck der telefonischen Fragebeantwortung sollte die Anzahl eher darunter liegen.
Grundsätzlich kann nicht davon ausgegangen werden, das die subjektiven Infor-
mationen (Ergebnisse von Urteilen, Gedächtnisinhalte, allgemein: Ergebnisse von
mentalen Operationen) im gleichen Format vorliegen, wie die vom Fragendesig-
ner vorgegebenen Formate. So kann etwa eine subjektive Wichtigkeitseinstufung
Werte auf einer kontinuierlichen Wichtigkeitsdimension repräsentieren, während
die vom Befragten verlangte Antwort nur die beiden Kategorien „eher wichtig“ vs.
„eher unwichtig“ zulässt. Die Konsequenz aus dieser Überlegung ist, dass zwischen
einer subjektiven Antwort des Befragten und der formatierten Antwort unterschie-
den werden muss. Die Antworten im vom Fragedesigner vorgegebenen Format bil-
den Abstufungen einer beobachtbaren, empirischen Antwortvariablen. Die subjekti-
ve Antwort, die der Befragte durch die formatierte Antwort ausdrücken soll, stellt
dagegen eine unbeobachtete bzw. latente Antwortvariable (engl.: latent response va-
riable) dar. Sie stellt strenggenommen, ähnlich wie die später (vgl. Teil IV) latente
Konstruktvariable eine theoretische Variable im Modell des Forschers dar. Sie ist
aber mit den theoretischen Konstruktvariablen nicht zu verwechseln.
Latente Antwortvariablen (vgl. Maddala, 1983; Muthén, 1979, 1983) sind the-
oretische subjektive Bewertungsdimensionen, von denen angenommen wird, dass
die Befragten auf ihnen ihre Antworten abstufen, ehe sie die beobachteten Ant-
worten geben. Dabei wird angenommen, dass die Erzeugung der beobachteten
Antwort in Abhängigkeit von Schwellenwerte auf der latenten Antwortvariablen
erfolgt. Latente Antwortvariablen werden ebenso wie beobachtete Antwortvaria-
blen in mathematischen Modellen numerisch dargestellt. Prinzipiell können diese
Variablen als stetig im Sinne der Menge der reellen Zahlen oder aber als kategorial
angenommen werden.
In Abbildung III.14 ist am Beispiel einer 3stufigen Zustimmungsskala das Ver-
hältnis zwischen einer stetigen latenten Zustimmungskala und den beobachteten,
III.1 Fragen und ihre Bestandteile 191
⎧1, wenn y * ≤ k1 ⎫
⎪ ⎪
2, wenn k 1 > y* ≤ k2
⎪ ⎪
⎪⎪# ⎪⎪
y=⎨ ⎬
⎪i, wenn ki − 1 > y * ≤ ki ⎪
⎪# ⎪
⎪ ⎪
⎪⎩k, wenn y * > kk − 1 ⎪⎭
In Bezug auf die statistischen Verteilungen der latenten Antwortvariablen y* kön-
nen unterschiedliche Annahmen getroffen werden. In der Regel wird eine Normal-
verteilung der latenten Antwortvariablen angenommen. Die Beziehung zwischen
den Schwellenwerten latenter Antwortvariablen und k beobachteten Antwortkate-
gorien lässt sich folgendermaßen zusammenfassen:
Latente Antwortvariablen können aus theoretischen Überlegungen auch als ka-
tegorial angenommen werden. Ein Beispiel für eine kategoriale latente Antwortva-
riable wäre z.B. die Antwort auf die Frage nach dem höchste allgemeinbildenden
Schulabschluss, wobei die latente Antwort z.B. „Hauptschule“ lauten könnte und
die empirische, vom Befragten geäußerte Antwort ebenfalls „Hauptschule“. In die-
sem Fall wird zwischen den latenten Antworten und der beobachteten Antwort
192 III.1 Fragen und ihre Bestandteile
Der syntaktische Bezug besteht darin, dass Zeichen nach bestimmten grammati-
kalischen Regeln erzeugt sind und insofern wohlgeformte sprachliche Ausdrücke
darstellen. Einen semantischen Bezug haben Zeichen insofern, als sie etwas bedeu-
ten, wobei zwischen der designativen, extensionalen Bedeutung (dem bezeichneten
Gegenstand) und der detonativen, intensionalen Bedeutung (Sinn) unterschieden
wird (vgl. Frege 1892; Morris 1938). Frege verdeutlicht den Unterschied zwischen
diesen beiden Bedeutungsbegriffen in seinem berühmten Beispiel des Planeten Ve-
nus (vgl. Abbildung III.16). Die Worte „Morgenstern“ und „Abendstern“ bezeich-
nen beide den Planeten Venus. Dennoch haben beide Worte eine unterschiedliche
intensionale Bedeutung. Je nachdem, ob dieser Planet situationsabhängig am Mor-
gen oder am Abende betrachtet wird, wird er mit einer unterschiedlichen konnota-
tiven Bedeutung verbunden.
194 III.1 Fragen und ihre Bestandteile
Für die Anwendung auf Fragen und Items bedeutet dies, dass in den Texten ver-
wendete Begriffe in unterschiedlichen soziokulturellen und psychologischem Kon-
texten eine unterschiedliche Bedeutung aufweisen können.
Der pragmatische Bezug thematisiert die Beziehung zwischen den Zeichen und
ihren Nutzern. Er besteht darin, dass Zeichen in bestimmter Weise verwendet wer-
den, etwa um bestimmte Ziele zu verfolgen bzw. bestimmte Wirkungen zu erzielen.
Betrachten wir Fragetexte in einem Fragebogen als Zeichen, so stehen diese eben-
falls in einem syntaktischen, semantischen und pragmatischen Bezug. Der syntak-
tische Aspekt bezieht sich also auf den grammatikalischen Aufbau des Textes, der
zweite auf die Bedeutung des Textes und der dritte Aspekt auf die Verwendung der
Frage und die Wirkung der Frage auf den Befragten.
Von besonderer praktischer Bedeutung sind der semantische und der pragma-
tische Bezug von Fragen und Antwortvorgaben. Es ist wichtig, sich immer wieder
klar zu machen, dass die Befragten nicht auf den Fragetext reagieren, sondern auf
die Bedeutungen, die sie dem Fragetext und den Bestandteilen der Antwortformate
geben. Die Bedeutungen können bei Fragetexten mehr oder weniger komplex sein.
Wenn z.B. in einem Item eine Episode beschrieben wird, besteht die designative
Bedeutung in einer mehr oder weniger komplexen episodischen Struktur. Durch
Worte bezeichnete Begriffe können in eine mehr oder weniger komplexe Struktur
von Begriffen eingebettet sein (vgl. z.B. Collins & Quillian, 1970; Quillian, 1968).
Um die Wirkung sprachlicher Äußerungen zu verstehen, sollte nicht nur die de-
signative Bedeutung ins Kalkül gezogen werden. Vielmehr wird die sprachliche
Bedeutung in semantische Strukturen und Wissensstrukturen integriert. Darüber
hinaus können durch sie auch vergangene Erfahrungen, Ängste, Bilder, etc. ange-
sprochen werden. Dabei steht die Komplexität der semantischen Struktur nicht
unbedingt in direktem Zusammenhang mit der Komplexität der syntaktischen
III.1 Fragen und ihre Bestandteile 195
Struktur. Schon einzelne Worte wie „Behörde“, „Regierung“, „Familie“ müssen als
in umfassendere Wissensstrukturen eingebettet betrachtet werden.
Nicht nur Fragetexte, sondern auch vorgegebene Antwortformate mit den oben
beschriebenen Antwortalternativen und Antwortkategorien einschließlich der
adverbialen Modifikatoren unterliegen der Interpretation. Nicht die sprachlichen
Ausdrücke selbst, sondern die von den Befragten zugeordneten qualitativen oder
quantitativen Interpretationen sind die Basis für die Wahl der Antwortalternati-
ven oder die Wahl einer kategorialen Ausprägung. Die Bedeutungswahrnehmung
adverbialer Modifikatoren kann die Messung wesentlich beeinflussen (vgl. z.B.
Hippler et al., 1991; Moxey & Sanford, 1991, Rohrmann, 1978, 2007; Schwarz et
al., 1993).
Schon sehr früh hat sich die Psychologie mit der Wirkungsstärke, d.h. mit den
quantativen Bedeutungen von adverbialen Modifikatoren beschäftigt. Berühmt ge-
worden ist das oben erwähnte sog. Cliffsche Gesetz (vgl. Cliff, 1959), welches Adver-
bien als auf Multiplikatoren auffasst und die folgende lineare Beziehung postuliert:
Qij (MA) = wMj Qi (A) + K,
wobei
Qij (MA) : Skalenwert des i-ten Adjektivs in Kombination mit dem j-ten Mo-
difikator;
wMj : Multiplikationskoeffizient für den j-ten Modifikator;
Qi (A) : psychologischer Skalenwert des i-ten Adjektivs;
K : Differenz zwischen dem beliebigen Nullpunkt der Skalenwerte und
ihrem psychologischen Nullpunkt.
Die Ableitung der Beziehung erfolgte aggregiert auf der Basis der Methode der suk-
zessiven Intervalle (vgl. z.B. Guilford, 1954). Wegener, Faulbaum und Maag (1982a,
1982b) konnten unter Anwendung der Magnitude-Skalierung zur Abschätzung der
quantitativen Bedeutung von adverbialen Modifikatoren auf Ebene der Individuen
für die ausgewählten Adjektive „wichtig“ und „sicher“ folgende Potenzbeziehung
nachweisen:
Ql (MA) = k Ql (A)wM
bzw.
logQl(MA) = wMlogQl(A) + logk.
Die betrachteten Modifikatoren waren „außerordentlich“, „sehr“, „ziemlich“, „über-
wiegend“, „halbwegs“, „einigermaßen“, „teilweise“, „etwas“, „wenig“. Die Untersuchung
ergab nicht nur die obige Potenzbeziehung, sondern ergab auch Hinweise dafür, dass
196 III.1 Fragen und ihre Bestandteile
die Wirkungsstärke von dem betrachteten Adjektiv abhängt. Tabelle III.1 gibt einen
Überblick über die Wirkungsstärken der Modifikatoren für die Adjektive „sicher“ und
„wichtig“. Man sieht, dass die Wirkungsstärken für das Adjektiv „wichtig“ durchweg
höher sind als für das Adjektiv „sicher“. Die Tabelle enthält außerdem die Korrelatio-
nen (R) zwischen den Einstufungen des Adjektivs und den Einstufungen des Modi-
fikators.
sicher wichtig
wM R wM R
außerordentlich .904 .823 1.063 .882
sehr .837 .846 .944 .887
ziemlich .785 .857 .900 .874
überwiegend .801 .855 .871 .853
halbwegs .693 .849 .739 .817
einigermaßen .681 .823 .665 .789
teilweise .641 .789 .640 .753
etwas .388 .672 .429 .649
wenig .361 .618 .361 .495
Die Autoren fanden, dass sich die Wirkung eines Modifikators zur Wirkung des
nächst stärkeren Modifikators proportional verhält. Mit ähnlichen Methoden der
Magnitude-Schätzung untersuchten Hofmans et al., (2007) im Rahmen von Ex-
perimenten den Einfluss des Kontextes, in dem ein Modifikator steht, auf die mit
ihm verbundene quantitative Bedeutung. Sie fanden Hinweise dafür, dass bei Zu-
stimmungsskalen die Intensität der Modifikatoren nicht von der Orientierung der
Skala („aufsteigend“ vs. „absteigend“) abhängt. Zahlreiche frühe Studien befassen
sich mit der Bedeutung von Worten, die Quantitäten ausdrücken sollen wie z.B.
Häufigkeitsabstufungen (vgl. Griffin, 2013; Hakel, 1968; Hammerton, 1976; Howe,
1962; Lilly, 1968a, 1968b; Schaeffer, 1991). Rohrmann (1978) untersuchte die quan-
titativen Abstände von Modifikatoren und fand, dass folgende Adverbien ungefähr
gleichabständig sind:
III.1 Fragen und ihre Bestandteile 197
Nicht
Wenig
Etwas
Einigermaßen
Ziemlich
Überwiegend
Sehr
In einem weiteren Projekt untersuchte Rohrmann die besten verbalen Benen-
nungen in Bezug auf Gleichabständigkeit, linguistischer Unterscheidbarkeit und
Verständnis bei Skalen mit zwischen 5 und 9 Abstufungen (vgl. Rohrmann, 2007).
Eines der Resultate war, dass die Benennungen „strongly-disagree/disagree/neit-
her-agree-nor-disagrsee/agree/strongly-agree“ der bekannten Zustimmungsskala
nicht gleichabständig sind. So lange die Frage der Gleichabständigkeit nicht geklärt
ist sollten man die Skalen in der Analyse nur ordinal interpretieren (zum Begriff
der Ordinalskala siehe Teil IV).
Grundsätzlich sollte der Forscher davon ausgehen, dass Bedeutungszuordnun-
gen zu Fragetexten und adverbialen Modifikatoren zwischen den Befragten variie-
ren und sich auch von den Bedeutungen unterscheiden können, die der Forscher
mit den sprachlichen Ausdrücken verbindet (vgl. Abbildung III.17). Angestrebt
werden sollte eine Bedeutungsinvarianz zwischen Forscher und Respondenten so-
wie zwischen den Respondenten.
Die Wahl einer Antwortalternative bzw. eines Skalenpunkts ist Ergebnis einer
Urteilsbildung, die im Rahmen einer Frage von Befragten gefordert wird. Im Rah-
men der Urteilsbildung können die in Fragetexten und Skalenbenennungen darge-
botenen Informationen in umfassendere Metaphern eingebunden werden (vgl. z.B.
Lee & Schwarz, 2012; Zhang & Schwarz, 2014). Ein Beispiel ist der Zusammenhang
zwischen der räumlichen Anordnung von Beschreibungen und der zeitlichen Aus-
richtung. So scheinen Vergangenheit und Zukunft mit den Richtungen „links“ und
„rechts“ verbunden zu sein (vgl. Zhang & Schwarz, 2014). Personen wählten zur
Selbstbeschreibung und zur Beschreibung ihres Landes in der Vergangenheit eher
Beschreibungen, die bei einer horizontalen Darbietung eher links lokalisiert waren.
In der Regel wird die Bedeutung von Fragen nicht hinterfragt. Stattdessen legt
der Forscher oft uneingestanden seine eigene Bedeutungswahrnehmung zugrunde
und vergisst, dass die Befragten unterschiedliche Alltagsinterpretationen mit ih-
nen verbinden könnten, die von der von ihmr unterstellten Bedeutung abweichen.
Verantwortlich für unterschiedliche Interpretationen von Fragetexten sind nicht
zuletzt soziodemographische und soziokulturelle Unterschiede.
198 III.1 Fragen und ihre Bestandteile
Unabhängig von der Kommunikationsform spielen Fragen und Items immer die
Rolle von Indikatoren für die Inhalte, über die der Forscher etwas erfahren möch-
te. Bei diesen Inhalten handelt es sich nicht immer um solche, die durch direkt
messbare Begriffe beschrieben werden können wie z.B. das Einkommen oder das
Alter, sondern um unbeobachtete, theoretische (auch: latente) Konstrukte. Die Zu-
ordnung von empirischen Variablen zu Inhalten, die nicht der direkten äußeren
Beobachtung zugänglich sind, heißt auch Operationalisierung. Voraussetzung für
eine gelungene Operationalisierung ist eine Präzisierung der Inhalte und ihrer zen-
tralen Dimensionen im Rahmen einer Konzeptspezfikation (vgl. Abbildung III.19).
Werden empirische Informationen wie z.B. die Höhe des Einkommens durch Fra-
gen erhoben, so sind selbstverständlich auch diese Informationen für den Forscher
nicht direkt beobachtbar, weil diese Informationen in der Regel aus dem Gedächt-
nis des Befragten abgerufen werden müssen, es sei denn, objektive Informationen
wie Kontoauszüge oder Arbeitsverträge und ähnliche Materialien werden bei der
Beantwortung hinzugezogen. Obgleich es sich beim Einkommen um eine nicht
direkt beobachtbare Variable handelt, ist es dennoch prinzipiell beobachtbar. Die
Antwort auf eine direkte Frage nach dem Einkommens ist ein Indikator für die
Höhe des Einkommens. Letzteres hätte aber auch durch einen anderen Indikator
erhoben werden können, wie z.B. die Aufforderung, sich in Einkommenskategori-
en einzuordnen.
202 III.1 Fragen und ihre Bestandteile
III.2.1 Frage-Antwortbeziehungen
Wird eine Frage gestellt, erhält man immer eine Reaktion, insofern man „keine
Reaktion“ zu den prinzipiell möglichen Reaktionen zählt. Nicht jede Reaktion ist
allerdings eine Antwort auf die Frage. Die Reaktionen der Befragten sind dabei
nicht durch den Fragetext allein bestimmt, sondern hängen vielmehr davon ab,
was die Befragten mit dem Fragetext anfangen. Unter einer rein funktionalen Be-
trachtungsweise wird die funktionale Beziehung zwischen Fragetext und Antwort
moderiert durch die körperlichen und psychischen Zustände der Befragten sowie
Vorgänge, die in den Befragten ablaufen (vgl. Abbildung III.25).
Diese Zustände können mehr oder weniger stabile oder auch veränderliche Eigen-
schaften der Befragten sein. Sie definieren z.T. auch, wie etwa im Fall der kognitiven
Fähigkeit, welche interne internen Vorgänge überhaupt möglich sind sowie die Art
und Weise ihrer Ausführung. Nicht immer spiegeln sich Zustände und Vorgänge
in äußerlich wahrnehmbaren Zeichen wie Aussehen, Mimik, Antwortzeiten, etc.,
so dass von zuverlässigen manifesten empirischen Indikatoren für dies Zustände
ausgegangen werden könnte.
Unterstellt man, dass der Fragetext im Sinne des Forschers interpretiert wurde
und die im Fragetext beschriebene Aufgabe verstanden wurde, so hängt die Reakti-
on nicht mehr von interpretativen Prozessen ab, so dass statt nach dem Zusammen-
210 III.2 Von Fragen zu Antworten
hang zwischen Fragetext und Reaktion nach dem Zusammenhang zwischen inter-
pretierten Fragetext bzw. der Aufgabe und der Reaktion gefragt werden kann. Trotz
aufrichtigen Bemühens der Befragungsteilnehmer um eine ernsthafte Lösung der
Aufgabe kann es hier bei bestimmten Aufgaben zu Verzerrungen von Antworten
kommen, die durch immer wieder empirisch bewährte Verhaltensregelmäßigkei-
ten und „Naturkonstanten“ bedingt sind. Beispiele für solche Aufgaben sind Häu-
figkeits- und Wahrscheinlichkeitsschätzungen.
Ein frühes Beispiel stellen die Ergebnisse einer Studie von Preston und Baratta
(1948) dar. Die Forscher fanden heraus, dass objektive Wahrscheinlichkeiten unter
0,05 überschätzt wurden, objektive Wahrscheinlichkeiten über 0.25 aber unter-
schätzt wurden. Zu ähnlichen Ergebnissen kamen auch andere Autoren wie Att-
neave (1953). Ein weiteres Beispiel für systematische Über- und Unterschätzungen
von Größen, ist die Überschätzung von Ereignisdauern durch Frauen (vgl. Loftus
et al., 1987). Diese Ergebnisse bedeuten, dass z.B. Antworten auf Fragen nach der
Wahrscheinlichkeit oder nach Ereignisdauern die objektiven Daten in der einen
oder anderen Richtung verzerrt wiedergeben.
Bei in Fragen gestellten Aufgaben, die objektive Intensitäten mit subjektiven In-
tensitäten verbinden, muss davon ausgegangen werden, dass die Antworten der Be-
fragten das psychophysische Gesetz von Fechner (1889) respektieren. Danach gilt:
R = ClogS.
In dieser Formel sind R eine quantitative Reaktion (z.B. ein quantitatives Urteil), C
eine Konstante und S ein quantitativer Reiz.
Gesetzmäßigkeiten dieser Art muss bei der Ergebnisinterpretation Rechnung
getragen werden. Sie sind durch besondere Maßnahmen wie Anpassungen der Fra-
geformulierungen nicht zu beeinflussen. Dagegen gibt es andere Verhaltensregel-
mäßigkeiten, denen durch Anpassung des Frage- und Antwortformats Rechnung
getragen werden kann wie z.B. Telescoping-Effekten oder Antworttendenzen wie
„Primacy“ oder „Recency“-Effekten (siehe unten).
Fragen und Antworten stehen wie im Alltag so auch im Interview in einer Verbin-
dung, die durch intervenierende Prozesse und Handlungen charakterisiert ist. Ant-
worten entstehen im Interview dadurch, dass eine Person in Übereinstimmung mit
den Regeln des standardisierten Interviews und den Konversationsregeln mit einem
Fragetext konfrontiert wird, in der eine Aufgabe beschrieben wird, die vom Befragten
III.2 Von Fragen zu Antworten 211
gelöst werden muss und als deren Ergebnis eine Selbstauskunft über einen subjektiv
wahrgenommenen und interpretierten Zustand in einem in der Frage vorgegebenen
Antwortformat erwartet wird, der in der Befragungssituation von den Befragten
möglicherweise erst konstruiert wird. Solche Zustände können sein: „Gedächtnisin-
halte“, „Erwartungen“, „Wahrnehmungen von Teilen der Außenwelt“, „Intensitäten
des Glaubens an das Eintreffen von Ereignissen“, „Schätzungen“ etc. Auch auf objekti-
ve Ereignisse und mutmaßliche Fakten bezogene Antworten sind als Indikatoren für
subjektive Zustände zu bewerten, da sie sich auf interne Repräsentationen beziehen,
wobei schon äußere Wahrnehmungen Repräsentationen darstellen.
Insofern sich zwischen Wahrnehmung des Fragetextes und Antwort interne
Handlungen und Prozesse im Befragten vollziehen, stellen Antworten Ergebnis-
se von Handlungen und Prozessen dar, die durch Fragetexte angestoßen wurden
(vgl. Abbildung III.26). Die intervenierenden Prozesse sind mit Ausnahme gewis-
ser nonverbaler Indikatoren (z.B. Minenspiel), nicht extern beobachtbar, sondern
höchstens der internen Selbstbeobachtung des Befragten zugänglich. Extern be-
obachtbar sind in der Regel nur der in einem spezfischen Mode realisierte Fra-
getext und die in einem spezfischen Mode erzeugten Antworten. Was sich zwi-
schen Fragetext und Antwort im Befragten ereignet, stellt aus Sicht des externen
Beobachters/Forschers eine Black Box dar, die durch hyothetische Annahmen über
Inhalt und Struktur aufgefüllt werden kann. Diese Annahmen haben in der Regel
die Form psychologischer Hypothesen über Prozesse, die in der Regel weitere psy-
chologische Theorien wie z.B. Gedächtnistheorien und Theorien der Informations-
verabeitung heranziehen (siehe unten).
Welche Art von Prozessen, kognitive oder emotionale, unbewusste oder be-
wusste, involviert sind, hängt u.a davon ab, wie die Frage verstanden wird, d.h. wie
der Befragte den Fragetext interpretiert (zur Frage, inwieweit bewusste Gedanken
Verhalten beeinflussen können, vgl. Baumeister, Masicampo & Vohs, 2011). Er-
zeugt die Frage im Sinne von Austin’s perlokutionären Akten emotionale Reaktio-
nen wie Angst, Wut, etc. sind emotionale Erregungsprozesse zumindest Bestandteil
des Prozesses der Antworterzeugung.
Auch unter der Bedingung, dass der Fragetext im Fokus der Aufmerksamkeit
des Befragten steht, muss davon ausgegangen werden, dass durch die Bitte um
Beantwortung einer Frage interne Prozesse im Befragten angestoßen werden, in
denen auch Informationen verarbeitet werden, die nicht allein den Fragetext be-
treffen sondern weitere situative Informationen wie Informationen über Inter-
viewermerkmale und Interviewerverhalten, Interviewsituation, etc. und deren
Bewertungen durch den Befragten. Eingabeinformationen können weiterhin das
eigene Antwortverhalten bei vorangegangenen Fragen sein sowie Veränderungen
aller Art, die sich im Verlauf des Interviewprozesses ergeben haben. Es muss also
212 III.2 Von Fragen zu Antworten
damit gerechnet werden, dass die Eingabeinformationen zum Zeitpunkt des Stel-
lens einer Frage nicht nur extern beobachtete Merkmale umfassen, sondern intern
gespeicherte Informationen über den bisherigen Verlauf des Interviewprozesses
sowie möglicher Veränderungen der Interviewsituation. Erst unter diesen Annah-
men werden bestimmte Effekte wie Effekte des Kontextes der Fragebeantwortung
erklärbar.
Voraussetzung für eine Antwort des Befragten auf den Inhalt einer Frage und
die Bewältigung der im Fragetext formulierten Aufgabe (z.B. Erinnerung eines ver-
gangenen Ereignisses, Bildung einer Meinung, etc.) ist, dass der Fragetext wahrge-
nommen und inhaltlich interpretiert wurde. Schon die Interpretationsleistung, d.h.
die Entschlüsselung der Bedeutung des Fragetextes und nicht nur die Lösung der
Aufgabe, erfordert mannigfaltige mentale Operationen. Aus Sicht des Forschers ist
relevant, dass das Ergebnis der Interpretationsleistung, d.h. das Frageverständnis,
mit dem Verständnis des Forschers übereinstimmt, bzw. dass die im Fragetext be-
schriebene und vom Forscher vorgesehene Leistung auf der Basis des Textverständ-
nisses vom Befragten identifiziert werden kann und keine vom Verständnis des
Forschers abweichende Interpretation erfolgt. Im Anschluss an die Interpretation
des Fragetextes durch den Befragten, können Reaktionen des Befragten erfolgen,
die aus Sicht des Forschers unerwünschte Nebeneffekte darstellen. Zu diesen Wir-
kungen gehören etwa die Verweigerung einer Antwort oder Verschiebungen der
III.2 Von Fragen zu Antworten 213
Antwort aus verschiedenen Ängsten, Bedenken, etc. wie Angst for Sanktionierung,
Angst vor Selbstenthüllung, Angst vor negativer Beurteilung, etc. In diesen Fällen
wird der Prozess der Beantwortung u.U. gar nicht erst initialisiert und eine Ant-
wort erzeugt, die keine Lösung der gestellten Aufgabe darstellt. Solche Wirkun-
gen werden eventuell durch bestimmte Merkmale der Kommunikationsform wie
z.B. Anwesenheit des Interviewers oder Frageformulierungen verstärkt oder abge-
schwächt; d.h. sie können durch die mit der Frage verbundenen Kommunikations-
form und den Ausprägungen ihrer Dimensionen „Übertragungskanal“, „Adminis-
trationsform“ und „Technologie“ in positiver oder negativer Richtung moderiert
werden.
Das Bestreben muss selbstverständlich sein, alle Einflüsse, die nichts mit der In-
tention der Frage zu tun haben, zu minimieren bzw. auszuschalten und die mögli-
chen Einflüsse auf die vom Befragten erzeugte Antwort auf den Fragetext und seine
Bedeutung zu beschränken, da für die Beantwortung der Forschungsfragestellung
allein die Operationalisierung von Konstrukten durch Fragen/Items und ihren Be-
deutungen relevant sein sollte. Dennoch empfiehlt es sich, das Design der Umfrage
so zu gestalten, dass eine Kontrolle von Nebeneffekten möglich wird. Wenn z.B.
eine sensitive Faktfrage zur Häufigkeit sexueller Aktivitäten gestellt wird, so muss
der Forscher daran interessiert sein, eine Häufigkeitsangabe zu erhalten, die nicht in
Richtung eines sozial erwünschten Verhaltens verschoben ist. Für eine Forschungs-
fragestellung, welche die soziale Erwünschtheit nicht explizit zum Forschungsthe-
ma macht, sind sensitive Wirkungen, die zu Antwortverschiebungen und damit
zu Erhöhungen des Messfehlers führen, Nebeneffekte, die es zu minimieren oder
auszuschalten gilt. Um dies zu erreichen, können bestimmte Maßnahmen ergriffen
werden wie die Desensitivierung des Fragetextes oder die Wahl einer geeigneten
Kommunikationsform (siehe Teil II).
Durch Zuordnung von Zahlen zu den Antworten des Befragten nach bestimm-
ten Regeln werden aus den Antworten Messungen unterschiedlicher Qualität (zu
den Details siehe Abschnitt IV). Diese Zahlen können entweder direkt im Ant-
wortformat vorgesehen sein und daher direkt vom Befragen geäußert werden oder
erst nach gegebener Antwort nachträglich zugeordnet werden. Da die Antworten
von Prozessen im Befragten abhängen, kann davon ausgegangen werden, dass die
Art und Weise, wie diese Prozesse durchlaufen werden, nicht nur einen Einfluss
auf die Antwort, sondern auch auf die durch Zahlen repräsentierte Messung hat.
Aus der Tatsache, dass die im Befragten ablaufenden Prozesse auch vom physi-
schen Zustand des Befragten abhängen, wird klar, dass die physische Verfassung
des Befragten ebenfalls einen Einfluss auf die Messung haben kann. Die internen
Prozesse des Befragten stellen insofern wichtige Determinanten des Messfehlers
(siehe Abschnitt IV) dar.
214 III.2 Von Fragen zu Antworten
bei Fragen zur gesundheitlichen Absicherung, etc. erforderlich sein können. Ferner
ist in der Spezifikation der Bestandteile des Antwortprozesses noch nicht festge-
legt, wie die dargestellten Prozesse ausgeführt werden (z.B. parallel oder sequenti-
ell) und wie die Abläufe aufeinander bezogen sind. Im Rahmen der „dual proces-
sing“-Ansätze (vgl. Kahnemann & Frederick 2002; Stanovich 1999; Evans 2008)
wird etwa zwischen automatisch ablaufenden und bewusst ablaufenden Prozessen
unterschieden. Eine solche Unterscheidung hätte z.B. Konsequenzen für Annah-
men über die Fähigkeit der Befragten, mentale Prozesse bewusst abzubrechen.
Die in der Beschreibung des Antwortprozesses zur Anwendung kommenden
kognitionspsychologischen Modellvorstellungen basieren auf dem Paradigma der
Informationsverarbeitung, das sich, nicht zuletzt befördert durch Entwicklungen in
der Linguistik, Informatik und in der kognitiven Psychologie durchgesetzt hat und
auch in der Umfrageforschung zur Erklärung des Befragtenverhaltens herangezo-
gen wird (vgl. Hippler, Schwarz & Sudman 1987; Schwarz 1997, 2007; Tourangeau
1984, Tourangeau et al. 2000). Gigerenzer (1991) hat die Bildung dieses Paradigmas
als Weg von Werkzeugen zu Theorien charakterisiert. Fortschritte im Bereich der
neurophysiologischen Forschung und des Neuroimaging legen außerdem neuro-
physiologische Beschreibungen des Antwortprozesses nahe (vgl. z.B. Crites et al.,
1995). Grundsätzlich kämen statt kognitionspsychologischer Erklärungen des Ant-
wortverhaltens auch andere Erklärungsparadigmen, etwa neobehavioristische Pa-
radigmen in Betracht.
Unter dem Informationsverarbeitungsparadigma wird vermutet, dass die er-
folgreiche Beantwortung einer Frage die Realisierung aller aller Abbildung III.22
dargestellten Schritte voraussetzt. Es kann allerdings davon ausgegangen werden,
dass, obwohl eigentlich notwendig, nicht immer und nicht unter allen Bedingun-
gen alle Schritte durchlaufen werden. Beispiele sind spontane Antworten ohne wei-
tere Überlegungen, z.B. als Konsequenz von inhaltsunabhängigen Antworttenden-
zen bzw. Antwortstilen wie etwa der Jasagetendenz oder der inhaltsunabhängigen
Wahl der Mittelkategorie (vgl. z.B. Vaerenbergh & Thomas, 2013). Auch zufällige
willkürliche Antworten sind ein Beispiel. Ob eine Frage ernsthaft beantwortet wird
und die zur Beantwortung erforderlichen Prozesse durchlaufen werden, ist leider
nicht eindeutig durch Beobachtung prüfbar und kann auch nicht aus den Kon-
versationsregeln und einer impliziten oder expliziten Kooperationsvereinbarung
zwischen Interviewern und Befragten abgeleitet werden, sondern wird vom For-
scher vielmehr nicht selten auf Grund vermuteter Umstände wie z.B. Nachlassen
der Konzentration am Ende eines längeren Interviews oder mangelnder Motivation
einfach unterstellt, wenn datenanalytische Befunde Hinweise darauf ergeben.
216 III.2 Von Fragen zu Antworten
Voraussetzung für das Durchlaufen des Antwortprozesses ist, dass der Versuch
unternommen wird, die Frage ernsthaft zu beantworten. Ob dies der Fall ist, lässt
sich an der Antwort auch dann nicht erkennen, wenn sie zulässig bzw. adäquat ist.
Die Zulässigkeit bzw. Adäquatheit einer Antwort, d.h. die beobachtete Überein-
stimmung der Antworten mit dem vorgegebenen Format ist zwar ein notwendiger,
aber nicht hinreichender Indikator für die Ernsthaftigkeit der Fragebeantwortung.
Hinreichend ist sie darum nicht, weil der Befragte eine adäquate Antwort geben
könnte, ohne dass ein erfolgreicher Lösungsversuch der im Fragetext beschriebe-
nen Aufgabe vorliegt und die in der Frage geforderte Leistung erbracht wurde (vgl.
Krosnick 1991; Krosnick & Alwin 1987).
Verschiedene Analysen des Problems der sog. Nonattitudes (vgl. Converse 1964)
zeigen, dass Befragte in Einstellungsfragen eine Meinung äußern, also eine adäqua-
III.3 Einflüsse auf das Antwortverhalten 217
te Antwort geben, auch wenn sie gar keine Meinung haben (vgl. auch Bishop, Ol-
dendick & Tuchfarber 1980; Krosnick et al. 2002). Auch andere Arten adäquater
Antworten werden eventuell nur deshalb gegeben, weil z.B. Nichtwissen verschlei-
ert werden soll. Andererseits zeigen Studien, dass die Wahl von in den Antwortvor-
gaben vorgesehenen „weiß-nicht“-Kategorien kein wirkliches Nichtwissen wider-
spiegelt, sondern auch dann erfolgt, wenn der Antwortprozess unvollständig oder
gar nicht durchlaufen wurde (weak oder strong satisficing, vgl. Abschnitt III.3.1.1).
Die formale Schematisierung des zwischen Frage und Antwort intervenieren-
den Antwortprozesses sollte nicht darüber hinwegtäuschen, dass das Stellen einer
Frage den Eintritt in die soziokulturell geprägte Lebenswelt des Befragten bedeutet,
und dass die Art und Weise ihres möglichen Einflusses auf den Antwortprozess
noch nicht voll verstanden ist.
Antworten auf eine Frage können sich in ihrer Qualität unterscheiden. Eine Mi-
nimalvoraussetzung für eine gute Antwortqualität ist die, dass die verbale Reak-
tion des Befragten auf die Präsentation des Fragetextes einer der zulässigen Ant-
wortalternativen entspricht. Wir wollen die Reaktion in diesem Fall eine adäquate
Antwort nennen (zum Begriff der Adäquatheit vgl. auch Sykes & Collins, 1992).
Dagegen stellt die Reaktion eines Befragten eine nicht-adäquate Antwort dar, wenn
sie nicht zu den zulässigen Antwortalternativen gehört. Zu den nicht-adäquaten
Antworten können gerechnet werden:
218 III.3 Einflüsse auf das Antwortverhalten
Zentral für die Qualitätsbeurteilung einer Antwort auf eine Frage bzw. der Einstu-
fung eines Items sind die Gütekriterien der auf einer adäquaten Antwort beruhenden
Messung (zum Begriff der Messung und ihrer Gütekriterien der Validität und Reli-
abilität vgl. Teil IV; vgl. auch Alwin, 2007, 2011, 2014). Die Gütekriterien betreffen
vor allem die Rolle der Frage-Antwort-Dyaden als Indikatoren für die zu messen-
den Konstrukte. Grundsätzlich können aber auch nicht-adäquate Antworten eine
Validität und eine Reliabilität aufweisen. Nur messen sie in der Regel nicht die vom
Forscher intendierten Konstrukte. So können etwa Antwortverweigerungen Indi-
katoren für unterschiedliche Konstrukte der Sensitivität, das Konstrukt der sozi-
alen Erwünschtheit, die physische Konstitution, die Konzentrationsfähigkeit, etc.
messen, oder auch das Ausmaß des Vorbehalts bzw. der Widerwilligkeit gegen die
Inhalte der Studie insgesamt. Ähnliches gilt für die übrigen Typen nicht-adäquater
Antworten. Voreilige Antworten können auf bestimmte habitualisierte Verhaltens-
weisen hindeuten, die auch in anderen kommunikativen Situationen des Alltags
beobachtbar wären und somit eher Indikatoren für Persönlichkeitsmerkmale wä-
ren.
Optimale Reliabilität hätte eine Antwort auf eine Frage dann, wenn sie als beob-
achtete Messung nicht vom wahren Wert abweicht, also in Bezug auf den wahren
Wert keine Verzerrung beinhaltet. Beispiele für Messfehler bei kategorialen Mes-
sungen und kategorialen wahren Werten sind Fehlklassifikationen (engl.: misclassi-
fications) bzw. falsche Einordnungen von Antworten in Kategorien (z.B. Fehler bei
der Einordnung des Nettoeinkommens in vorgegebene Einkommenskategorien).
Bei metrischen Skalen besteht der Messfehler in quantitativen Abweichungen vom
wahren Wert auf einer Antwortdimension wie Verschiebungen von Zufrieden-
heitsurteilen, Zustimmungsurteilen, etc. Eine mögliche negative Folge des Mess-
fehlers besteht in einer Gefährdung der Umfragequalität durch seinen Einfluss auf
die Parameterschätzungen (vgl. z.B. Sakshaug, Yan & Tourangeau, 2010).
Ist eine Antwort adäquat, so lässt sich ihre messtheoretische Qualität in der Re-
gel für den einzelnen Fall nicht beurteilen. Erst in der statistischen Analyse des
Datensatzes kann sich eventuell ergeben, dass adäquate Antworten auf eine Fra-
ge eine mangelnde Reliabilität und Validität aufweisen. Werden die Axiome der
klassischen Mess- bzw. Testtheorie unterstellt (vgl. Teil IV), so lässt sich der Mit-
telwert der beobachteten Werte in der Stichprobe als Schätzer für den Mittelwert
III.3 Einflüsse auf das Antwortverhalten 221
Das Antwortverhalten und die Qualität einer Antwort werden maßgeblich durch
die Aspekte „Leistungsanforderungen“, „Leistungsfähigkeit“ und „Leistungsbereit-
schaft“ (auch: „Leistungsmotivation“) sowie die mit ihnen zusammenhängende in-
dividuelle Arbeitsbelastung mitbestimmt. Wie bereits an früherer Stelle mehrfach
erwähnt, beschreibt jeder Fragetext eine Aufgabe, die vom Befragten bewältigt
und einer Lösung zugeführt werden muss. In einem dem Paradigma der Infor-
mationsverarbeitung folgenden Modell des Antwortprozesses werden die dafür er-
forderlichen mentalen Teilleistungen spezifiziert, die je nach Aufgabe und je nach
Befragtem unterschiedlich ausgeführt werden, indem unterschiedliche Informati-
onen, z.B. unterschiedliche Gedächtnisinhalte, abgerufen werden, unterschiedliche
Bewertungen vorgenommen werden und unterschiedliche Urteile gebildet werden.
Jede Frage stellt für die Befragten eine Aufforderung zur Erbringung einer Leis-
tung dar, die zu einer Antwort aus der Menge der Antwortalternativen führt und in
deren Ernsthaftigkeit der Forscher Vertrauen investiert. Je nach Komplexität der zu
erfüllenden Aufgabe stellt eine Frage mehr oder weniger hohe Anforderungen an
die zu erbringende Leistung. Die Art der im Fragetext beschriebenen Leistung be-
stimmt auch, ob die vom Forscher intendierte Leistung überhaupt erbracht werden
kann. So darf angenommen werden, dass die Antwortqualität auch eine Funktion
der Diskrepanz zwischen den Leistungsanforderungen der Frage und den Leis-
tungen ist, die der Befragte tatsächlich erbringt bzw. überhaupt erbringen kann.
Welcher Leistungsanteil an den Leistungsanforderungen realisiert wird, hängt ei-
nerseits vom grundsätzlichen Leistungsvermögen, andererseits von der Leistungs-
bereitschaft ab, d.h. von der Bereitwilligkeit und Motivation, die erforderlichen
Leistungen, soweit es das grundsätzliche Leistungsvermögen zulässt, zu realisieren.
Die für die Beantwortung einer Frage zu erbringenden Leistungen lassen sich in
drei Leistungsarten zerlegen:
erforderlichen Leistungen und die zur Formatierung und Äußerung der Antwort
notwendigen Leistungen. Sie trifft zu einem bestimmten Befragungszeitpunkt an
einer wohl definierten Stelle im Interview auf einen Befragten, der sich in einem
in der Regel dem Forscher nicht bekannten physischen, psychischen und sozio-
kulturellen Zustand befindet. Dieser bestimmt die Leistungsfähigkeit sowie die
Leistungsbereitschaft zu diesem Zeitpunkt. In Bezug auf jede für die Erfüllung der
Interpretationsleistung und der für die Lösung der im Fragetext beschriebenen
Aufgabe geforderten Teilleistungen kann das Leistungsvermögen auf Grund orga-
nischer, psychischer und/oder sozialer Bedingungen beeinträchtigt sein, die durch
Veranlagung, Krankheit. altersbedingten organischen Abbau und Sozialisation
einschließlich der sozialen und kulturellen Lernprozesse verursacht sein können.
Aber auch die Anstrengungen durch jenen Teil des Interviews, der vor einer Fra-
ge liegt könnten die Leistungsfähigkeit zu diesem Zeitpunkt beeinträchtigen. Geht
man von einer gewissen Verbreitung leicht oder schwer dementer Personen in der
Bevölkerung aus, die noch selbstständig zuhause leben, wird man stets auch einen
Anteil solcher Personen als Befragte in einer allgemeinen Bevölkerungsumfrage
wiederfinden.
Betroffen sein können die zum Verstehen notwendige Fähigkeit, semantisches
und syntaktisches Wissen aus dem Gedächtnis abzurufen, Fähigkeiten zur Zwi-
schenspeicherung von Informationen im Kurzzeitgedächtnis, der Abruf von Daten
aus dem autobiographischen Gedächtnis (siehe Schwarz & Sudman 1993; Park &
Schwarz 2000). Solche Fähigkeiten können durch verschiedene Faktoren wie Al-
ter und durch den Forscher und die Administratoren nicht feststellbare Demenz,
Krankheit, etc. eingeschränkt sein (zu den möglichen neurophysiologischen Ein-
schränkungen im Alter vgl. die entsprechenden Beiträge in Park & Schwarz ebda).
Nachlassende kognitive Fähigkeiten können dazu führen, dass vorgegebene Ant-
wortkategorien nicht im Gedächtnis gespeichert werden können, mit der Folge von
„Primacy“- und „Recency“-Effekten (siehe unten).
Grundsätzlich kann es zum Zeitpunkt des Stellens einer Frage zu einem Missver-
hältnis zwischen den Leistungsanforderungen der Frage und der tatsächlich erbrach-
ten Leistung kommen. Dieses Missverhältnis kann entweder dadurch entstehen,
dass die Leistungsanforderungen der Frage im Verhältnis zum Leistungsvermögen
des Befragten zum Zeitpunkt der Frage zu hoch sind oder dass die erbrachte Leis-
tung nicht ausreichend ist. Sind die Leistungsanforderungen der Frage hoch, so
können Überforderung und Belastung (engl.: work load) mit der Folge nachlassender
Konzentration des Befragten die Folge sein. Auch wenn die Leistungsanforderun-
gen erfüllbar wären, kann es auf Grund mangelnder Leistungsmotivation zu einem
nachlässigen Antwortverhalten kommen. Motivationsdefizite können u.a. durch
mangelndes Interesse am Inhalt der Frage oder am Thema der Umfrage bedingt
224 III.3 Einflüsse auf das Antwortverhalten
sein. Aber auch die Widerwilligkeit der Befragten, überhaupt am Interview teilzu-
nehmen, lässt, wie Analysen der Antwortqualität bei Befragten zeigen, die nur mit
großem Aufwand zur Teilnahme überredet werden konnten, Motivationsdefizite
erwarten, die zu nachlässigem Antwortverhalten führen und die Antwortqualität
reduzieren (vgl. z.B. Fricker & Tourangeau, 2010; Olson, 2013). Die Auswirkungen
der Widerwilligkeit (engl.: reluctance) werden im Abschnitt über Maßnahmen zur
Reduktion von Unit-Nonresponse detaillierter besprochen (siehe Teil VII).
Bei Ermüdung durch Belastungen, nachlassende Konzentration, mangelnde
Motivation, oder aber auch auf Grund von habitualisierten Verhaltensweisen, be-
steht die Gefahr, dass Befragte zu bestimmten Antwortstrategien (auch: Antwortsti-
le, Antworttendenzen; engl.: response strategies oder response styles) übergehen (vgl.
z.B. Vaerenbergh & Thomas, 2013; Kieruj & Moors, 2010). Beispiele sind:
Bedeutung von Worten zu erkennen. So könnte eine Frage Begriffe enthalten, die
nur im Rahmen einer Gymnasialausbildung gelernt werden können oder nur in
Familien mit einem entsprechenden soziokulturellen Kontext.
Grundsätzlich ließe sich das Ausmaß der durch unterschiedliche Leistungsfä-
higkeit bedingten unbeobachteten Heterogenität wie bei anderen Merkmalen auch,
im Rahmen von Mischverteilungsmodellen statistisch analysieren und schätzen
(zur Anwendung von Mischverteilungsmodellen vgl. z.B. Arminger & Stein, 1997;
Faulbaum & Stein, 2000).
In Abschnitt III.1 hatten wir Fragen als Sprechhandlungen definiert, die auf unter-
schiedliche Weise ausgeführt werden können. Jede konkrete Realisation einer Fra-
ge ist untrennbar mit einer bestimmten Formulierung (question wording), einem
bestimmten Mode, d.h. einer bestimmten Administrationsform, einem bestimm-
ten Übertragungskanal und einer bestimmten Technologie sowie deren Merkma-
len verbunden. Außerdem ist eine konkrete Ausführung nicht unabhängig von der
konkreten Ausgestaltung der Äußerungen von Fragen zu sehen, die im Fall der
Interviewer-Administration stimmlich gestaltet sind und im Fall der Selbst-Admi-
nistration mit einem bestimmten Layout verbunden ist.
Es gibt in der einen oder anderen Kommunikationsform vorgetragene Frage-
oder Itemtexte, die mitunter sensitive Wirkungen im Befragten erzeugen und damit
das Antwortverhalten in bestimmter Weise beeinflussen. Fragen, die oft sensitive
Wirkungen erzeugen können, werden auch als sensitive Fragen/Items bezeichnet. Es
gibt ferner spezifische Zielpopulationen, bei denen von vornhinein angenommen
werden muss, dass sie auf bestimmte Fragen sensitiv reagieren. Ein Beispiel hierfür
sind Opfer- bzw. Viktimisierungsstudien (vgl. Lynch, 1993; Skogan, 1986). Ein Bei-
spiel für einen Viktmisierungssurvey ist der National Crime Victimization Survey
(NCVS) des amerikanischen Bureau of Justice Statistics (www.bjs.gov/).
Sensitive Fragen sind nicht nur in der Lage, die Antwortqualität in Form
nicht-adäquater Antworten, sondern auch den Messfehler und die inhaltliche
Validität beeinflussen (vgl. den Überblick von Tourangeau & Yan, 2007). Linguis-
tisch betrachtet, stellt eine sensitive Frage einen perlokutionären Akt dar, d.h. eine
Sprechhandlung mit mehr oder weniger starken nicht-konventionellen Wirkungen
wie „erschrecken“, „demütigen“, „bedrohen“ etc. Mitentscheidend für die sensitive
III.3 Einflüsse auf das Antwortverhalten 227
Wirkung ist, dass der Befragte dem Fragetext eine sensitive Deutung gibt. Schon auf
Grund der unterschiedlichen Bedeutungswahrnehmung kann eine Frage auf Be-
fragte in unterschiedlichem Ausmaß sensitiv wirken. Obgleich verbindliche Indi-
katoren für die Sensitivität einer Frage schwer zu präzisieren sind, können folgende
Arten von Fragen als sensitiv angesehen werden:
Eine Antwort auf eine Frage ist dann sozial erwünscht, wenn sie vom Befragten
unter Berücksichtigung der Normen seiner Bezugsgruppe gegeben wird (zur De-
finition der sozialen Erwünschtheit vgl. DeMaio 1984; Edwards 1957; Hartmann
1991, Krebs 1987). Eine der im Zusammenhang mit der sozialen Erwünschtheit
viel diskutierte Frage ist die, ob die Tendenz, sozial erwünscht zu antworten, eine
stabile Persönlichkeitseigenschaft, also eher einen „Trait“ darstellt (vgl. Crowne &
Marlowe, 1964), oder ob sie eine item-spezifische, eher temporäre Reaktion be-
stimmter Respondenten auf bestimmte Fragen darstellt, also eher eine Strategie,
mit den Inhalten der Frage umzugehen. Paulhus (2002) unterscheidet zwischen
Antwortstilen im Sinne eines über Fragebögen und Zeiten hinweg konsistenten
Antwortverhaltens und einer temporären, aus der augenblicklichen Motivation
entstandenen Antworttendenz (engl.: response set). Detailliertere Analysen haben
Hinweise auf eine differenziertere Zusammensetzung des Konstrukts der sozialen
Erwünschtheit ergeben wie z.B. die Neigung, eigene Fehler zuzugeben, oder „mo-
ralistischen Bias“ in Sinne eines übertriebenen Gefühls für die eigenen moralischen
Qualitäten (vgl. Paulhus, 2002).
Beispiele für Fragen, welche die Privatheit bedrohen sind Fragen wie z.B. die
Frage nach dem Einkommen oder die Frage, welche Partei man wählen würde,
wenn am nächsten Sonntag Wahl wäre (Sonntagsfrage). Das Risiko zur Enthüllung
gegenüber Dritten ist gegeben, wenn Befragte die Gefahr sehen, dass ihre Antwort
an Dritte weitergeben wird. Der Dritte kann der Interviewer sein, anwesende dritte
Personen oder Organisationen (z.B. bei Mitarbeiterbefragungen).
Es gibt zahlreiche Hinweise für sensitive Wirkungen von Fragen, insbesondere
von Fragen nach dem Einkommen, Alkohol und illegalem Drogengebrauch oder
nach der Sexualität auf das Ausmaß an Item Nonresponse (vgl. Tourangeau et al.
1997). Auch bewusst falsche Angaben sind bei sensitiven Fragen zu erwarten (vgl.
Jobe et al. 1997). Dies belegen auch Studien zum „Overreporting“ und „Under-
reporting“ von Ereignissen, bei denen absichtlich falsche Tatsachenbehauptungen
228 III.3 Einflüsse auf das Antwortverhalten
vorliegen. Das Phänomen des „Overreporting“ betrifft den Sachverhalt, dass Per-
sonen Ereignisse und Verhaltensweisen berichten, die nicht stattgefunden haben.
Man findet dieses Verhalten verstärkt bei Nichtwählern in Bezug auf die Fragen
nach der Teilnahme an politischen Wahlen. So besteht bei Nichtwählern offen-
sichtlich die Tendenz, statt ihrer tatsächlichen Nichtteilnahme eine Teilnahme zu
berichten (vgl. Belli et al., 1999; Bernstein, Chadha & Montjoy, 2001). Als Ursachen
werden „soziale Erwünschtheit“ und der Versuch, das Gesicht zu wahren, genannt.
Dies Verhalten tritt scheinbar eher bei gebildeteren und religiöseren Personen auf.
„Overreporting“ stellt eine Gefährdung der Reliabilität dar, weil es zu einer Ab-
weichung der beobachteten Antwort vom wahren Wert führt. Es kann aber die
intendierte Validität betreffen, weil es dazu führt, dass andere als die vom Forscher
intendierten Konstrukte gemessen werden. So intendiert der Forscher die Messung
der Bereitschaft zur Teilnahme an Wahlen, de facto misst er aber die soziale Er-
wünschtheit.
Holbrook und Krosnick (2010) kommen in ihrer Analyse des „Overreportings“
bei Nichwählern ebenfalls zu dem Schluss, dass es sich dabei um sozial erwünschte
Antworten handelt, indem sie eine Fragetechnik anwendeten, die es den Befragten
erlaubte, ihre Antworten anonym zu geben. Die Anwendung dieser Technik, der
sog. „Item-Response“-Technik (siehe unten) führte zur Feststellung einer gerin-
geren Wahlbeteiligung im Vergleich zu einer Wahlbeteiligung, die durch direkte
Fragen erhoben wurde. Zu ähnlichen Ergebnissen kommen auch Comşa und Pos-
telnicu (2013).
Auch das Gegenteil von „Overreporting“, das „Underreporting“, stellt ein Beispiel
für mangelnde Reliabilität und Validität dar. Ein Beispiel ist das „Underreporting“
von Abtreibungen (vgl. Peytchev, Peytcheva & Groves, 2010). Erklärt werden könn-
te das Verhalten durch Angst vor sozialer Stigmatisierung. Peytchev, Peytcheva und
Groves fanden Hinweise dafür, dass „Underreporting“ mit der Teilnahmebereit-
schaft zusammenhängen könnte. Personen mit geringerer Teilnahmebereitschaft
berichteten weniger Abtreibungen. Ein Beispiel für die Interaktion von Befragten
und dem Kontext der Befragung kann in dem Befund der Autoren gesehen wer-
den, dass nach Beseitigung der Befragten-Interviewer-Interaktion die Anzahl der
berichteten Abtreibungen anstieg.
Einige Studien belegen den Einfluss von Persönlichkeitsmerkmalen auf die Nei-
gung, sozial erwünscht zu antworten. So fand z.B. Stocké in seiner Analyse (vgl.
Stocké, 2004), dass sozial erwünschte Antworten vor allem dann zu erwarten ist,
wenn ein Bedürfnis nach Anerkennung vorliegt und der Befragte auf Grund der
Wahrnehmung der Inhalte seiner Antworten Sanktionen befürchten muss. Saks-
haug, Yan und Tourangeau (2010) fanden in einer Umfrage unter Alumni mit Fra-
gen zur akademischen Leistung, dass der Nonresponse-Fehler (zum Begriff "Non-
III.3 Einflüsse auf das Antwortverhalten 229
response-Fehler" vgl. Teil VII) eher Items mit sozial erwünschten Inhalten betraf,
während Items mit unerwünschten Inhalten eher vom Messfehler betroffen waren.
Letzterer machte dort den größten Anteil am gesamten Schätzfehler aus (vgl. Saks-
haug, Yan & Tourangeau, 2010, p. 931). Eine Abschätzung des Messfehlers war in
dieser Studie möglich, weil auf die wahren Angaben zugegriffen werden konnte.
Die Schätzung des totalen Nonresponse-Bias basierte auf dem Vergleich zwischen
der Ausgangsstichprobe und den von Item zu Item variierenden Substichproben,
die auf die Fragen geantwortet hatten. Der Effekt, dass der Anteil des Nonrespon-
se-Fehlers bei neutralen und sozial erwünschten Fragen den Beitrag des Messfeh-
lers überstieg, kann eventuell darauf zurückgeführt werden, dass Personen, die zur
sozial erwünschten Gruppe gehören, eher geantwortet haben.
Die beschriebenen sensitiven Effekte stellen in Bezug auf die Forschungsfrage-
stellung in der Regel unerwünschte und manchmal nicht intendierte Nebeneffekte
dar. Sie führen zu einer Gefährdung der inhaltlichen Validität. Reagieren Befrag-
te auf bestimmte Fragen sensitiv, so besteht die Gefahr, dass mit der Frage nicht
das vom Forscher intendierte Konstrukt, sondern ausschließlich oder zusätzlich
ein anderes Konstrukt wie z.B. „Soziale Erwünschtheit“ gemessen wird bzw. dass
die ursprünglich für die Messung eines bestimmten Konstrukts vorgesehenen In-
dikatoren auch oder ausschließlich Indikatoren eines anderen Konstrukts sind. Nur
in einem entsprechend geplanten Umfragedesign lassen sich Effekte der beiden
Konstrukte auf die beobachteten Indikatoren voneinander getrennt schätzen, so
dass man das Ausmaß beurteilen kann, indem das Konstrukt der „Sozialen Er-
wünschtheit“ die Fragen/Items beeinflusst. So kann etwa eine Skala der „Sozialen
Erwünschtheit“ explizit in den Fragebogen aufgenommen werden, so dass diese als
Kontrollvariable in statistische Modelle eingeführt werden kann.
Ob es zu einer sensitiven Wirkung kommt, hängt nicht allein am sensitiven In-
halt einer Frage, sondern auch davon ab, welche Kommunikationsform gewählt
wird (vgl. Abschnitt III.3.4) und ob sich Befragte auf die Anonymität verlassen
können (vgl. Himmelfarb & Lickteig, 1982; Paulhus, 1984; Warner, 1965). Die Be-
fragten sollten auch sicher sein, dass sich die Forscher nicht auf anderem Wege
Zugang zu privaten Informationen verschaffen (vgl. Evans, Hansen & Mittlemark,
1977). Sensitive Wirkungen können auch durch die Aufmerksamkeit steigernde
Bemerkungen (eng. warnings) wie z.B. „Ihre Antworten sind anonym“ oder „Wir
akzeptieren nur Teilnehmer, die den Text aufmerksam gelesen haben“ verstärkt
werden (vgl. Clifford & Jerit, 2015).
230 III.3 Einflüsse auf das Antwortverhalten
dagegen nicht. Auf diese Weise erfährt der Interviewer nicht, ob das sensitive oder
das nicht-sensitive Item beantwortet wurde, so dass die Antwort anonym bleibt.
Sei yk = 1, wenn Individuum k in einer endlichen Population des Umfangs N
die sensitive Eigenschaft besitzt und 0, wenn dies nicht der Fall ist. Sei T = ∑Uyk /N
der unbekannte Anteil der Befragten in der Population U, für welche yk = 1 gilt.
Gelte ferner xk = 1, wenn Individuum k dem sensitiven Item x zustimmt und 0 an-
dernfalls. Würde der Zufallsmechanismus zur Vorlage der Antwortalternativen auf
jedes Individuum angewendet, so wäre der Anteil der Individuen mit xk = 1, in der
Population, der durch den Zufallsmechanismus erzeugt würde:
P ( x k = 1) = θ p + (1 − θ ) (1 − p ) = 1 − p + ( 2 p − 1)θ .
P ( x k = 1) + p − 1
θ=
2p −1
Der Anteil T der Personen mit der sensitiven Eigenschaft kann aus den Stichpro-
bendaten geschätzt werden, da gilt:
¦x s
k
p 1
Tˆ n ,
2p 1
wobei ¦sxk die Summe der Befragten in der Stichprobe s mit xk = 1 und n den Stich-
probenumfang bezeichnet. Dieser Schätzer wird gelegentlich auch Warner-Schätzer
bezeichnet. Das zugrunde gelegte Modell heißt Warner-Modell.
Die RRT ist vielfach mit dem Ziel modifiziert worden, die Praktikabilität und
die Schätzeigenschaften des Modells in Umfragen zu verbessern (vgl. Diekmann,
2012; Greenberg, et al., 1971; Sihm, Chhabra & Gupta, 2016; Singh & Tarray, 2014).
Dabei wurde auch versucht, die Technik mit direkten Fragen zu verbinden (vgl.
Kim & Warde, 2005). Eine vielfach verwendete Variante ist die FRR (Forced Rando-
mized Response)-Technik (vgl. Boruch, 1971). Auch bei dieser Variante werden die
Befragten aufgefordert, einen Zufallsmechanismus (z.B. einen Würfel, zwei Mün-
zen oder Spielkarten) zu bedienen, dessen Ergebnis nur dem Befragten bekannt
ist. In Abhängigkeit vom Ergebnis wird der Befragte gebeten, entweder eine vorge-
gebene Antwort zu geben oder wahrheitsgemäß zu antworten. Auf der Grundlage
der bekannten Wahrscheinlichkeiten der Ereignisse des Zufallsmechanismus ist es
232 III.3 Einflüsse auf das Antwortverhalten
auch hier möglich, den Anteil der Befragten mit der sensitiven Eigenschaft erwar-
tungstreu zu schätzen. Diekmann (2012) schlägt vor, die Wahrscheinlichkeit für
das Stellen der sensitiven Frage auf der Grundlage von Benford's Law (vgl. Benford,
1938) zu bestimmen. Gemäß dieses Gesetzes folgt die Wahrscheinlichkeit für die
erste Ziffer einer Hausnummer einer logarithmischen Verteilung. Die kann prak-
tisch genutzt werden, indem Befragte gebeten werden, sich die Hausnummer eines
Freundes vorzustellen. Wenn die erste Ziffer im Bereich 1-4 liegt bekommt er die
sensitive Frage gestellt, liegt sie zwischen 5 und 9 die zufällige Alternativfrage. Das
Verhältnis ist 0,7 zu 0,3.
Die Anwendung der RRT stellt besondere Anforderungen an das Verständnis
der Aufgabe. Auch sind die Ergebnisse bezüglich der Erhöhung des Anteils auf-
richtiger Antworten nicht eindeutig (zur Bewertung der Ergebnisse vgl. Wolter &
Preisendorfer, 2013). Zudem gehen die verschiedenen Varianten des RRT davon
aus, dass die Befragten überhaupt antworten und die Antworten korrekt sind.
wobei p = Pr (Y = 1) und T̂ = nA/n. nA ist die Anzahl der Personen, die Alternative
A gewählt haben.
Das Problem bei der triangulären Methode ist, dass sich die Befragten prinzipi-
ell defensiv verhalten könnten, indem sie Option A wählen, wo eindeutig klar ist,
dass sie nicht mit dem sensitiven Sachverhalt identifiziert werden können.
Das kreuzweise Modell versucht die Nachteile der triangulären Methode da-
durch zu mildern, dass nur noch nicht-sensitive Optionen zugelassen werden. Die
Option A soll in diesem Fall dann gewählt werden, wenn die Antworten auf X und
Y gleich sind. Die Option B soll dann gewählt werden, wenn sich die Antworten
voneinander unterscheiden. Als Maximum-Likelihood-Schätzer für π̂ der Wahr-
scheinlichkeit π = Pr (X = 1) erhält man in diesem Fall:
π̂ = (Ô + p – 1)/(2p – 1),
wobei Ô = nA/n. nA ist wieder die Anzahl der Personen, die Alternative A gewählt
haben. Zu den Varianzen der Schätzer vgl. Yu, Tian & Tang, 2008).
chen, höher als bei solchen, die weniger Fehler machen. Das Ausmaß variiert von
Item zu Item. Es gibt außerdem größere Varianzen bei männlichen Interviewern
(vgl. Freeman & Butler, 1976)
Der Grund für Interviewer-Effekte dieser Art muss vor allem in Eigenschaften
und Verhaltensweisen der Interviewer im Interview gesucht werden. Das Verhalten
betrifft die Art des Vorlesens einer Frage (Lautstärke, Tonhöhe, Sprechgeschwin-
digkeit) sowie die Souveränität in der Handhabung des Fragebogens, und damit
auch die effektive Interviewlänge mit entsprechenden Konsequenzen in Form eines
Satisficing. Befunde deuten darauf hin, dass Face-to-Face-Interviews im Durch-
schnitt länger dauern als Telefoninterviews (vgl. Holbrook, Green & Krosnick,
2003). Interviewer sprechen in Telefoninterviews in der Regel zu schnell, Pausen
können sich unbehaglich auswirken, so dass Interviewer das Interview aus Angst
vor Abbruch hinter sich bringen möchten.
Verantwortlich für Interviewer-Effekte können neben den erwähnten Unter-
schieden in der Präsentation der Fragen auch Unterschiede im Ausmaß sein, in
dem klärende Nachfragen gestellt werden, um eine adäquate Antwort zu erhalten
(vgl. Mangione, Fowler & Louis, 1992).
Auch nonverbale Verhaltensaspekte könnten eine Rolle spielen. Erfahrene In-
terviewer führen ihr Interview schneller durch als neu rekrutierte Interviewer (vgl.
z.B. Olson & Petchev, 2007). Eine kürzere Interviewdauer kann entweder darauf
zurückgeführt werden, dass die Fragen schneller gelesen werden oder dass sich
die Interviewer stärker an den gedruckten Fragebogen halten, Veränderungen, die
sich positiv oder negativ auswirken können. Telefoninterviews führen scheinbar
zu einer stärkeren Orientierung am Fragetext, vermutlich verursacht durch eine
stärkere Supervision. Kürzere Fragen unterstützen nicht nur das Frageverständnis,
sondern auch die Performanz der Interviewer (vgl. Presser & Zhao, 1992).
Die Interaktion zwischen Befragten und Interviewer ändert sich mit einer
wachsenden Anzahl von Interviews: In späteren Interviews lassen sich Interviewer
nicht mehr so leicht in Gespräche verwickeln lassen, die nicht mit dem Inhalt des
Interviews zu tun haben. Oder sie stellen die Fragen schneller, so dass den Befrag-
ten weniger Zeit bleibt, die notwendigen kognitiven Leistungen zu erbringen, was
wiederum negative Auswirkungen auf die Datenqualität hat.
Die Gewerkschaften sollten stärker auf die wirtschaftliche Lage der Unternehmen
Rücksicht nehmen.
☐ 6WLPPH]X
☐ 6WLPPHQLFKW]X
Anschließend die Frage:
Es war gut, dass VERDI im letzten Arbeitskampf keine Kompromisse eingegangen
ist.
☐ 6WLPPH]X
☐ 6WLPPHQLFKW]X
In diesem Fall könnte der Effekt eintreten, dass die Befragten ihre Antworten auf
die zweite spezifische Frage konsistent mit der allgemeineren ersten Frage zu be-
antworten versuchen.
III.3 Einflüsse auf das Antwortverhalten 239
Wird die erste Frage zuerst gestellt, erhält sie einen höheren Anteil von Ja-Antwor-
ten (vgl. Schuman & Presser 1981). Es gibt Hinweise dafür, dass Assimilations- oder
Kontrasteffekte auch durch die Art der Präsentation der zu bewertenden Objekte
entstehen können. So fanden Wedell, Parducci und Geiselman (1987) Anhalts-
punkte für die Entstehung von Assimilationseffekten bei gleichzeitiger Darbietung
von Stimuli im Vergleich zu Kontrasteffekten bei der sequentiellen Darbietung.
Allerdings bezogen sich die Effekte auf sequentiell oder gleichzeitig dargebotene
Photographien.
Assimilationseffekte werden auch durch die Verfügbarkeit (engl.: accessibility)
von Wissen vermittelt und treten verstärkt bei mehrdeutigen Fragen auf (vgl. To-
dorov 2000 in Bezug auf Fragen zu den Bedingungen verschiedener Formen von
Behinderungen). Neben der Verfügbarkeit im Sinne einer Aktivierung des Wissens
durch eine vorherige Frage muss zusätzlich die Anwendbarkeit (engl.: applicabili-
ty) berücksichtigt werden. Dieser Aspekt beschreibt, wie stark die vorangegangene
Frage und die nachfolgende Frage inhaltlich zusammenhängen.
Effekte des Bezugsrahmens sind insbesondere für die Entscheidung bedeutsam,
welche Frage an den Anfang eines Fragebogens gestellt wird. Beispiele wären eine
Anfangsfrage zur Arbeitslosigkeit in einer Umfrage zur Lebensqualität oder eine
Frage zum wirtschaftlichen Erfolg eines Unternehmens am Anfang einer Mitarbei-
terbefragung zur Unternehmensführung
Grundsätzlich gibt es Unterschiede zwischen komparativen und nicht-kompara-
tiven Bewertungen. Als z.B. die Vertrauenswürdigkeit von Bill Clinton gegenüber
Al Gore in einem nicht-komparativen Kontext getrennt werden sollte, stuften 50%
Clinton und 68% Gore als vertrauenswürdig ein. Dieses Ergebnis änderte sich,
wenn erst Clinton und dann Gore eingestuft wurden. In diesem Fall lag Clinton in
der Vertrauenswürdigkeit 7 Prozentpunkte höher als im nicht-komparativen Kon-
240 III.3 Einflüsse auf das Antwortverhalten
text und Gore 8 Prozentpunkte niedriger, wodurch sich der Unterschied von 18 auf
3 Prozentpunkte zugunsten von Gore verringerte (vgl. Moore, 2002).
Effekte können auch von der Reihenfolge von Filterfragen ausgehen. Werden
mehrere Filterfragen hintereinander geschaltet, stellt sich die Frage, ob nach ei-
ner Filterfrage gleich die für die ausgewählten Befragten relevanten Fragen gestellt
werden (engl.: interleafed version), oder ob erst die Filter durchlaufen werden und
anschließend die Fragen (engl.: grouped version) gestellt werden. Empirische Ergeb-
nisse scheinen zu bestätigen, dass Filterfragen ein eher positives Antwortverhalten
in der gruppierten Version (Kreuter et al., 2011; Eckman et al., 2014) zur Folge
haben. Der Grund für dieses Verhalten könnte darin liegen, dass die Respondenten
im gruppierten Fall lernen, durch positive Antworten die nachfolgende Filterfragen
zu vermeiden, die bei einer negativen Antwort gestellt worden wären. Dieser Effekt
scheint unabhängig von der Sensitivität zu sein. Diese Wirkung wird mit zuneh-
mender Zahl von Filterfragen stärker, wenn die Anzahl der Filterfragen zunimmt.
Dies gilt aber nur innerhalb inhaltlicher Frageblöcke. Eventuell lernen Befragte,
dass Fragen nachfolgen.
„Glauben Sie, dass Minister, Politiker und andere kommunale Führungspersonen sich
gegen das Rauchen aussprechen sollten?"
Diese Frage besteht im Grunde aus drei impliziten Fragen, eine für jede der in der
Frage angesprochenen Personengruppe. Die gemeinsame Vereinigung in einer Fra-
ge führt zu einem Interpretationsproblem.
Unklarheiten in der Frageformulierung lassen sich auch als schwer erfüllbare
oder sogar unerfüllbare Anforderungen an die Interpretationsleistung auffassen.
Auch Formulierungen, die aus Sicht des Forschers eindeutig erscheinen, kön-
nen unterschiedliche Interpretationen erzeugen. Unterschiedliche Interpretationen
scheinbar eindeutiger Formulierungen durch Befragte liegen dann vor, wenn ver-
schiedene Befragte auf Grund unterschiedlicher Begriffsverwendung mit einem
sprachlichen Ausdruck zwar eine eindeutige Interpretation verbinden, diese Inter-
pretationen sich aber zwischen den Befragten unterscheiden. Ein Begriff wie „Fa-
milie“ mag für verschiedene soziale und kulturelle Gruppierungen der Gesellschaft
eine unterschiedliche, aber dennoch eindeutige Interpretation besitzen, die von der
des Forschers abweicht. Insofern kann hier nicht von einem genuin vagen oder un-
präzisen Begriff gesprochen werden. Tritt dieses Phänomen auf, besteht die Gefahr,
dass fälschlicherweise eine Bedeutungsäquivalenz der Frage und der Antwortvor-
gaben über alle Befragten hinweg unterstellt wird. In diesem Fall wird eine Homo-
genität der Zielpopulation in Hinblick auf die Interpretationsleistung unterstellt.
Beispiele sind die Unterstellung, dass adverbiale Modifikatoren gleiche Intensitäten
darstellen oder dass Begriffe wie „politische Betätigung“ unabhängig vom sozialen
und kulturellen Hintergrund in gleicher Weise verstanden werden. Hier ergeben
sich ähnliche Probleme der Sicherung der Bedeutungsäquivalenz wie in der in-
terkulturell und international vergleichenden Umfrageforschung (vgl. Przeworski
& Teune, 1968; Faulbaum, 1990; Johnson, 2003; Beiträge in: Harkness et al., 2003;
Smith, 2003; Harkness, Penell & Schoua-Glucksberg, 2004; Hambleton, Merenda &
Spielberger, 2005). Zur Feststellung der mit den Fragen verbundenen Interpretati-
onen erweisen sich allgemein Verfahren zur Kalibrierung der Fragebedeutung und
die Anwendung kognitiver Pretest-Verfahren mit einer entsprechenden Repräsen-
tanz der relevanten Teilgruppen sowie systematische Begleituntersuchungen zur
Fragebedeutung als hilfreich.
Die Gestaltung von Antwortskalen kann über unterschiedliche Merkmale die Güte
einer Messung beeinflussen. Einen guten Überblick geben über diese Effekte geben
auch Krosnick und Fabrigar (1997) sowie Krosnick und Presser, (2010).
244 III.3 Einflüsse auf das Antwortverhalten
nimum), der den Befragten zur Formatierung ihrer Antwort zur Verfügung gestellt
wird.
Wie sich der Skalenbereich auf die Bewertung alltäglicher (engl.: mundane)
Aktivitäten auswirkt, haben Schwarz et al. (1985) in Bezug auf die Häufigkeit des
täglichen Fernsehkonsums untersucht. Befragte wurden gebeten, die Häufigkeit
ihres Fernsehkonsums auf einer Skala anzugeben, die entweder in halbstündigen
Abständen von „bis zu ½ Stunde“ bis zu „mehr als 2 ½ Stunden“ reichte oder auf ei-
ner Skala von „bis zu 2 ½ Stunden“ bis zu „mehr als 4 ½ Stunden“ reichte. Es stellte
sich heraus, dass die Befragten in der ersten Variante eher die mittlere Kategorie, in
der zweiten Variante aber die unterste Kategorie wählten. Die Befunde bestätigten
den Einfluss des Wertebereichs der Antwortvorgaben auf die Wahl der Antwort-
kategorie. Dieser Einfluss konnte auch in Bezug auf eine Skala der Zufriedenheit
mit Freizeitdauern festgestellt werden. Die Autoren interpretieren ihre Ergebnisse
dahingehend, dass die Bereichsinformationen Hinweise über das Wissen und die
Erwartungen des Forschers in Bezug auf die Alltagswelt geben. Befragte nutzen den
Skalenbereich als Bezugsrahmen und vermeiden Angaben, die in der Bevölkerung
unüblich sind.
Bei der Gestaltung von Antwortskalen für Items, die zusammen eine Item-Liste
bilden, ist auch das eventuelle Auftreten von Kontexteffekten zwischen den Bewer-
tungen der Items zu berücksichtigen. So fanden Wedell & Parducci (1988) sowie
Wedell et al. (1990), dass kontextuelle Kontrasteffekte zwischen den Items desto
geringer ausfallen, je höher die Anzahl der kategorialen Abstufungen ist. Mehr Ska-
lenpunkte übertragen mehr nützliche Information bei bis zu 7-9 Skalenpunkten.
Dagegen sinkt der Informationsgehalt jenseits von 12 Skalenpunkten.
benannt sind (vgl. Schaeffer & Barker 1995). Es gibt auch Hinweise darauf, dass
Befragte Extremkategorien vermeiden.
Zahlreiche Studien befassen sich seit den frühen Analysen von Belson (1966)
mit dem Effekt der Skalenrichtung, d.h. mit dem möglichen Effekt auf das Ant-
wortverhalten, der darin besteht, dass die Reihenfolge der Skalenpunkte umgedreht
wird, wenn also z.B. statt einer Reihenfolge von 1 bis 7 die Reihenfolge von 7 bis 1
gewählt wird. Mögliche Effekte dieser Art sind sicherlich nicht unabhängig vom
Skalentyp (z.B. bipolar vs. unipolar), von der Antwortdimension und vom Inhalt
der Items. Beispiele für einen solchen Effekt ergaben die Analysen von Yan und
Keusch (2015). Die Autoren haben die einschlägige Literatur gesichtet und eige-
ne Analysen auf der Basis eines Telefonsurveys vorgenommen. Die Autoren ver-
glichen eine 0-10-Skala mit einer 10-0-Skala. Beurteilt werden sollten Länder auf
einer Skala von 0: „am wenigsten entwickelt“ bis 10: „am meisten entwickelt“. Die
Autoren fanden, dass Länder, die nach dem Human Development Index (HDI) der
UN als höher entwickelt eingestuft wurden, niedrigere Werte bei der 0-10-Version
als in der 10-0-Version erhielten. Die Analysen ergaben keine Anhaltspunkte dafür,
dass es sich um einen Satisficing-Effekt in dem Sinne handelte, dass die Befragten
gar nicht die gesamte Skala berücksichtigten.
gering motivierte Befragte und solche mit einer eher schwach ausgeprägten ko-
gnitiven Fähigkeit eine Einladung darstellen, diese Kategorie zu wählen, weil die
Neigung besteht, die Dinge eher so zu lassen wie sie sind (vgl. Krosnick & Presser,
2010, p. 271). Trotz des Einflusses der Bildung auf zahlreiche Aspekte des Satis-
ficing konnte ein Zusammenhang zwischen Bildung und Wahl der Mittelkatego-
rie allerdings empirisch nicht nachgewiesen werden (vgl. z.B. Schuman & Presser,
1981; Narayan & Krosnick, 1996). Die Attraktivität der Mittelkategorie scheint mit
abnehmender subjektiver Wichtigkeit des Frageinhalts, mit abnehmender Einstel-
lungsstärke (vgl. Krosnick & Schuman, 1988; Bishop, 1990) und abnehmendem
Interesse am Inhalt der Frage (vgl. O’Muircheartaigh, Krosnick & Helic, 1999)
zuzunehmen. Für Krosnick (1991) ist die Verwendung neutraler Kategorien eine
Einladung für Befragte, die keine Meinung haben, diese Kategorie zu wählen. Auch
Payne (1951) sieht in der Einführung einer Mittelkategorie vor allem eine Möglich-
keit, jene Befragten auszusortieren, die keine Meinung haben.
Die neutrale Kategorie kann unterschiedliche Konnotationen für die Befragten
haben. So spricht Einiges dafür, dass sie für einige Befragte eine Kategorie der Un-
entschiedenheit darstellt (vgl. Zaller 1992, zit. nach Krosnick & Fabrigar, 1997, p.
164).
Trotz der nachgewiesenen Einflüsse durch verschiedene Merkmale des Satisfi-
cing muss bedacht werden, dass bei Weglassen der Mittelkategorie die Gefahr be-
steht, dass Befragte ihre reale Bewertung nicht ausdrücken können und die nächst
niedrigere oder höhere Kategorie wählen, was zu einer ungenauen Messung und zu
einem Reliabilitätsverlust führt (vgl. O’Muircheartaigh, Krosnick & Helic, 1999).
In ähnliche Richtung weisen die Befunde von Stern, Dillman & Smyth (2007). Die
Autoren stellten in ihrer Analyse fest, dass der Zwang, in der einen oder anderen
Richtung zu antworten, zur Erhöhung des Messfehlers beitragen kann. Es sollte
ferner bedacht werden, dass die Wahl neutraler Kategorien von den Erwartungen
der Befragten und der Anordnung der Alternativen abhängen können. So fanden
die Autoren ebenfalls, dass die neutrale Kategorie häufiger gewählt wird, wenn die
für das Beurteilungsobjekt günstigen Alternativen in der Reihenfolge der Antwort-
vorgaben zuerst aufgeführt werden. Unter Berücksichtigung der Befunde über die
optimale Anzahl der Skalenpunkte sprechen die Befunde für 5stufige oder 7stufi-
ge Antwortskalen. Um die Reliabilität zu erhöhen sollte vermieden werden, dass
sich Ursachen des Satisficing wie mangelndes Interesse, etc. auswirken können. Für
diese Empfehlung sprechen auch Analysen, die sich mit den Auswirkungen der
Skalenpunkte auf die Wahl der Mittelkategorie beschäftigen.
Es gibt empirische Hinweise dafür, dass die Anzahl der Skalenpunkte die Nei-
gung verstärkt, Extremkategorien und Mittelkategorien zu wählen. Je höher die
Anzahl der Skalenpunkte, desto stärker dieser Effekt, wobei dieser Effekt im Ver-
250 III.3 Einflüsse auf das Antwortverhalten
gleich zur Wahl von Extremkategorien bei der Wahl der Mittelkategorie geringer
ausfällt (vgl. Kieruj & Moors, 2010). Dieser Effekt spricht möglicherweise dafür,
dass die Befragten mit der Bewältigung von Skalen mit vielen Skalenpunkten
(z.B. 9, 10 und 11 Kategorien) überfordert sind und ein Satisficing-Effekt einsetzt.
Grundsätzlich besteht die Gefahr eines Bias, wenn die Tendenz zur Mittelkategorie
oder zu Extremkategorien ignoriert wird. Tutz und Berger (2016) zeigen, wie dieser
Bias im Rahmen von simultanen Modellen korrigiert werden kann, die den inhalts-
bezogenen Effekt vom Effekt des Antwortstils trennen, so dass der inhaltsbezogene
Effekt ohne Einfluss des Antwortstils geschätzt werden kann.
Bei der Verwendung von Skalen und Antwortvorgaben in unterschiedlichen
kulturellen Zielgruppen muss die Kulturabhängigkeit der Tendenz, Extremkatego-
rien zu wählen, in Betracht gezogen werden.
sind. Faulbaum (1984b) fand eine hohe Konstruktinvarianz in Bezug auf 7-stufige
numerische und verbalisierte Skalen, d.h. die numerischen und verbalisierten Ska-
len maßen offensichtlich das gleiche Konstrukt.
Die Auswahl der Benennungen ist eine schwierige Aufgabe, wenn die Anzahl
der Skalenpunkte hoch ist und eine metrische Skalenqualität verlangt wird. Sollen
die verbalisierten Skalenwerte metrisch interpretiert werden, muss die Gleichab-
ständigkeit der adverbialen Modifikatoren gesichert sein (vgl. Rohrmann 1978; zu
einer gleichabständigen 7-stufigen Verbalskala siehe Abbildung III.6). Einen Effekt
können insbesondere die Verbalisierungen der oberen und unteren Grenzen auf
den Skalenmittelpunkt haben (vgl. Schwarz & Hippler 1987).
Wie bereits in Abschnitt III.1.6 ausgeführt, kann die Interpretation für unter-
schiedliche soziale Gruppen unterschiedlich sein (vgl. Wegener, Faulbaum & Maag
1982; Schaeffer 1991). Unterschiedliche Bedeutungszuordnungen sind insbeson-
dere bei interkulturellen Umfragen zu erwarten (vgl. Kristof, 1966; Smith, 2003,
2004). Ein Beispiel stellen vage Häufigkeitsabstufungen bzw. vage Quantifikatoren
wie „oft“, „ziemlich häufig dar“, die an Stelle präziser Zahlenvorgaben verwendet
werden und bei denen gezeigt werden kann, dass sie von der Häufigkeit abhängen,
mit der das zu beurteilende Objekt in der Zielpopulation vorkommt (vgl. Pepper
& Prytulak, 1974) oder auch durch das Thema und die wahrgenommene Referenz-
population, über welche die Umfrage Aussagen machen soll (vgl. Wänke, 2002).
Bei der Interpretation solcher vagen Abstufungen scheint eine Anpassung an die
soziale Referenzgruppe stattzufinden, was die nachweisbare Abhängigkeit von Bil-
dung und Alter erklärt (vgl. Schaeffer, 1991). Wright, Gaskell und O’Muirchearta-
igh (1994) fanden, dass vage Quantifikatoren, welche die Fernsehhäufigkeit in der
letzten Woche abstufen sollten, bei Personen mit höherem Sozialstatus auf kleinere
Zahlenangaben abgebildet werden als bei den übrige Statusgruppen.
Die Entscheidung für oder gegen die Anwendung voll verbalisierter Ra-
tings-Skalen sollte neben möglicher Abhängigkeiten der Urteile von der Interpreta-
tion der Verbalisierungen auch die Praktikabilität berücksichtigen (vgl. Krosnick &
Fabrigar, 1997). Bei Telefonbefragungen ist diese Praktikabilität z.B. nicht gegeben.
Die Abfrage verbalisierter Antwortalternativen sollte in diesem Fall nicht über drei
bis vier liegen. Andernfalls können Recency-Effekten nicht ausgeschlossen werden,
da die Befragten nicht alle verbalen Benennungen im Kurzzeitgedächtnis speichern
können, gerade, wenn ein hoher Zeitdruck wie bei Telefoninterviews empfunden
wird.
252 III.3 Einflüsse auf das Antwortverhalten
Visuelle Analogskalen
Antwortdimensionen lassen sich auch mit Hilfe von visuellen Analogskalen präsen-
tieren. Tourangeau, Couper & Conrad (2007) untersuchten Unterschiede zwischen
visuellen Analogskalen und anderen Skalen, darunter graphische Ratingskalen, bei
denen eine Antwortlinie verbal abgestuft wurde, Skalen mit numerischen Abstu-
fungen und Skalen mit Radioknöpfen. Sie fanden, dass visuelle Analogskalen die
höchste Anzahl fehlender Werte und die längsten Bearbeitungszeiten aufwiesen.
Studien zu den Wirkungen von Eigenschaften der Interviewer auf das Antwort-
verhalten der Befragten wurden sehr frühzeitig stimuliert durch amerikanische
Untersuchungen zu den Wirkungen afroamerikanischer und weißer Interviewer
auf afroamerikanische oder weiße Befragte. In der Frühzeit wurden dunkelhäu-
tige Interviewer vor allem eingesetzt, um dunkelhäutige Befragte zu interviewen,
da frühe Studien zeigten, dass Reaktionen von schwarzen Befragten auf weiße In-
terviewer durch Angst vor physischer Verletzung geprägt sein konnten und dass
schwarze Befragte vor unbekannten weißen Interviewern Angst hatten (vgl. Hy-
man, 1954). Auf der anderen Seit verlangte es damals weißen Kontaktpersonen
Mut ab, schwarzhäutigen Interviewern mit Vertrauen zu begegnen (vgl. Schuman
& Converse, 1968).
254 III.3 Einflüsse auf das Antwortverhalten
Analysen zu den Effekten der Rasse (engl.: race) auf das Antwortverhalten zeig-
ten u.a. auch, dass bei Abweichungen der Rasse zwischen Interviewern und Befrag-
ten, Antworten vermieden wurden, die die andere Rasse hätten beleidigen können
(vgl. Hatchett & Schuman, 1975). Die Ergebnisse dieser frühen Studien beleuchten
jedenfalls die Rolle der sozialen, insbesondere der ethnischen Interaktion zwischen
Interviewern und Befragten auf das Antwortverhalten. Die Studien basierten al-
lerdings auf Face-to-Face-Umfragen, bei denen Interviewer physisch präsent wa-
ren. Die Frage ist, ob ein solcher Einfluss auch existiert, wenn der Interviewer nur
virtuell präsent ist. Ergebnisse eines Experiments von Krysan und Couper (2003)
ergaben, dass weiße Befragte in Bezug auf die Rasse konservativere Antworten ga-
ben, wenn die Fragen von schwarzen Interviewern in einem Video gestellt wurden
als wenn sie von weißen Interviewern gestellt wurden. Die Interpretation dieses
Befunds, dass negative Vorurteile gegenüber schwarzen Interviewern in der vir-
tuellen Situation der bloßen Präsenz verstärkt werden, in der sozialen Präsenz der
physischen Anwesenheit aber eher einer Zensur unterliegen, konnte in einem spä-
teren Webumfrage-Experiment teilweise bestätigt werden (vgl. Krysan & Couper,
2006). Die Studien über die Interaktion zwischen weißen/schwarzen Interviewern
und weißen/schwarzen Befragten geben über die spezifischen Eigenschaften der
Interviewpartner hinaus einen Einblick in die möglichen Effekte der ethnischen
Zusammensetzung der Interviewpartner.
Nicht nur in Bezug auf die ethnische Herkunft, sondern auch in Bezug auf das
Geschlecht kann es bei spezifischen Themen zu sozialen Interaktionen zwischen
Interviewern und Befragten kommen. So wird etwa der Messfehler bei bestimm-
ten Fragen offensichtlich auch durch das Geschlecht der Interviewer beeinflusst. So
fanden z.B. Liu und Stainback (2013) empirische Hinweise dafür, dass weibliche
Interviewer bei Items, die für eine Heirat sprechen, positivere Antworten gaben als
männliche Interviewer.
Einer der bereits erwähnten möglichen Einflüsse der Interviewer auf die Mes-
sung besteht in der Erzeugung Interviewer-spezifischer Homogenität. Auch diese
kann bei bestimmten Themen durchaus von spezifischen Konstellationen der In-
terviewpartner abhängen. So äußern sich etwa männliche Respondenten je nach
Geschlecht der Interviewer unterschiedlich. In einer Studie gaben männliche Res-
pondenten gegenüber weiblichen Interviewern bei Fragen, die sich auf Geschlech-
ter-Ungleichheit bezogen, eher gleichheits-orientierte Antworten. Eine Erklärung
wäre die, dass männliche Interviewer möglicherweise versuchen, gegenüber weib-
lichen Interviewern höflicher zu sein. Weibliche Respondenten unterschieden sich
in ihren Antworten gegenüber Interviewern unterschiedlichen Geschlechts bei
Fragen, die sich auf Gruppeninteressen und Handlungsorientierungen beziehen
(vgl. Kane & Macaulay, 1993). Auch Zukunftsvorstellungen der Befragten könn-
III.3 Einflüsse auf das Antwortverhalten 255
ten vom Geschlecht der Interviewer beeinflusst sein. So fanden Groves und Fultz
(1985) empirische Anhaltspunkte dafür, dass männliche Interviewer von ihren Be-
fragten optimistischere Einschätzungen ihrer ökonomischen Aussichten erhielten.
Ein wichtiger Mediator des Geschlechtereinflusses auf das Antwortverhalten kann
die Stimme sein. So fanden Dykema et a. (2012) in einer Analyse von ACASI-Ant-
worten auf sensitive Fragen, dass die weibliche Stimme bei männlichen Befrag-
ten ein genaueres Antwortverhalten zur Folge hat. Männliche Befragte zeigten ein
stärkeres Engagement bei der Beantwortung von Fragen und gaben konsistentere
Antworten, wenn die Fragen durch eine weibliche Stimme vorgetragen wurden.
Negativ auf die Datenqualität können sich persönliche Beziehungen zwischen In-
terviewern und Befragen auswirken, die sich im Verlauf des Interviewprozesses ent-
wickeln (vgl. Beatty, 1995; Dijkstra, 1987), eine Qualitätsgefährdung, die vor allem
bei freier geführten Interviews entstehen kann. Es spricht ferner einiges für einen
Zusammenhang zwischen dem Erfolg von Interviewern, einen Kontakt oder eine
Kooperation herzustellen und der Höhe des Messfehlers.
Die Befunde zeigen, dass bei der Beurteilung der Validität der Antworten im-
mer auch eine mögliche Interviewer-Befragten-Interaktion in Betracht gezogen
werden muss.
tige Schriftart und Schriftgröße, eine ungünstige Aufteilung des Bildschirms, etc.
können unerwünschte und unvorhergesehene Effekte auf die Bereitschaft zum
Ausfüllen oder zum Abbruch des Interviews führen. Nicht nur die Darstellung der
Fragetexte, sondern auch die optische Darstellung von Antwortskalen erfordern
hier besondere Überlegungen, da Layout und Design Einflüsse auf das Antwortver-
halten ausüben können (vgl. Jenkins & Dillman 1997; Sless 1994).
Das Layout entsteht durch die Bindung eines Fragetextes an einen Zeichenträger
bzw. Übertragungskanal und ist mitbestimmend nicht nur für die Lesbarkeit bzw.
Wahrnehmbarkeit des Textes, sondern auch für die Interpretierbarkeit des Frage-
textes. Die Größe der Buchstaben, die Hervorhebung von Textpassagen und Wor-
ten, die Platzierung der Fragen und Items auf dem Bildschirm, die Gestaltung des
Hintergrunds, die Darstellung der Skalenpunkte auf dem Bildschirm, die Verwen-
dung von besonderen Symbolen und Bildern etc. stellen mögliche Determinanten
des Frageverständnisses und damit der Fragenqualität dar. Selbst-administrierte
computerunterstützte Interviews bieten zahlreiche Möglichkeiten der Einbindung
graphischer Elemente sowie von Bildern und der Platzierung von Textinformati-
onen. Insbesondere Webfragebögen bieten dafür besondere Möglichkeiten (vgl.
Couper, Tourangeau & Kenyon 2004).
Schon die Wahl der Antwortalternativen durch Radio-Knöpfe oder Drop-
Down-Boxen (siehe oben) sollte sorgfältig getroffen werden, um zu verhindern,
dass Befragte vorzeitig aus der Bearbeitung des Fragebogens aussteigen. So fanden
z.B. Heerwegh & Loosveldt (2002) gewisse Hinweise dafür, dass Drop-Down-Bo-
xen mehr Zeit brauchen und zu einer höheren Drop-out-Rate führen als Radi-
oknöpfe. Allerdings war der Effekt relativ gering.
Auch das Format der Antwortboxen, in die numerische Angaben eingetragen
werden sollen, kann einen Einfluss auf die Antwortverteilungen haben. So fanden
Couper, Traugott & Lamias (2001) in Bezug auf Webfragebögen, dass eine Verlän-
gerung der Antwortboxen (Kästchen, in die man die Antworten eintragen muss)
bei sonst gleichen Fragen, die Antwortverteilungen verändert. Christian & Dillman
(2004) fanden in Bezug auf schriftliche Fragebögen folgende Einflüsse:
• Lineare und nichtlineare Darstellungen (Platzierung der Kategorien nebenein-
ander in mehreren Spalten) von Antwortskalen hatten ebenfalls einen Einfluss.
Befragte wählten in der nichtlinearen Darstellung eher Kategorien der obersten
Zeile.
• Gleichheit oder Ungleichheit von Abständen zwischen den Antwortkategorien
kann ebenfalls einen Effekt auf die Wahl der Antwortkategorien haben.
• Die Größe des für Antworten auf offene Fragen zur Verfügung gestellten Raums
beeinflusst sowohl die Anzahl der Themen, die in den Antworten angesprochen
werden als auch die Anzahl der Worte.
III.3 Einflüsse auf das Antwortverhalten 257
• Die Verwendung von Linien für die Einträge von Antworten verringert nicht
die Anzahl der angesprochenen Themen und die Anzahl der verwendeten Wor-
te.
• Richtungspfeile auf untergeordnete Fragen erhöhen signifikant den Anteil der
Befragten, welche die untergeordneten Fragen beantworten sollen.
• Ein Vergleich von polaren Antwortskalen, bei denen nur die Endpunkte ver-
balisiert wurden, mit Abstufungen in Form von Antwortboxen, in welche die
Befragten den numerischen Skalenwert eintragen konnten, ergab, dass die
Skalenmittelwerte bei den Boxen erheblich höher lagen. Auf der Suche nach
Erklärungen führten die Autoren weitere Experimente durch, bei denen sich
herausstellte, dass das Weglassen graphischer Informationen einen Effekt auf
das Skalenverständnis hat.
Auch Christian, Dillman & Smyth (2007; vgl. auch Stern, Dillman & Smyth 2007)
fanden Einflüsse des Layouts der Antwortboxen auf das Befragten-Verhalten bei
Webfragebögen. Sie studierten die Einflüsse unterschiedlicher Größen von Boxen
für Zeitangaben in Jahren und Monaten, Einflüsse der Verwendung von symboli-
schen Informationen statt verbaler Benennungen, Einflüsse der Gruppierung der
Zeitangaben um die Boxen, der Verbalisierung (z.B. Wann vs. In welchem Jahr und
Monat) sowie Einflüsse des Zwischenraums zwischen der Präsentation von Jahr
und Monat. Dabei konnten sie z.B. zeigen, dass eine kleinere Monatsbox zusam-
men mit einer größeren Jahresbox dazu führt, dass Befragte eher eine vierstelli-
ge Jahresangabe machen. Die Verwendung von Symbolen (MM,YYYY) statt von
Worten (Monat, Jahr) erhöht den Prozentsatz der korrekten Angaben. Ähnliche
Ergebnisse fand Fuchs (2009) bei Mailumfragen.
verschiedene Seiten untersuchten die Autoren auch die Unterschiede zwischen der
Präsentation auf einer Seite, auf zwei Seiten und in der Form der Präsentation jedes
Items auf einer getrennten Seite. Die Interkorrelation der Items war am höchsten,
wenn alle Items auf einer Seite dargestellt wurden. Die Befragten leiten aus der
räumlichen Nähe offensichtlich eine Ähnlichkeit der Items ab.
Mobiles Web
Zunächst muss mit den gleichen Effekten gerechnet werden wie beim festinstal-
lierten Rechner. Allerdings kann es je nach Ausstattung des mobilen Geräts Effekte
der Bildschirmgröße, etc. geben (vgl. Peytchev & Hill, 2010). Es empfiehlt sich in
jedem Fall einem mobilen Survey einen extensiven Pretest inkl. Usability-Test vo-
ranzustellen.
Effekte der verbalen Instruktionen aber stärker waren. Die Autoren fanden auch,
dass restriktive Instruktionen wie „Zählen Sie nur die Ereignisse mit einer geringen
Häufigkeit“ den Effekt der Bilder reduzierten.
III.4 Zusammenfassung
Für die Auswahl und Gestaltung von Survey-Items steht eine große Menge al-
ternativer Gestaltungsmöglichkeiten zur Verfügung, die durch eigene Vorschlä-
ge erweitert werden kann. Die konkreten Entscheidungen hängen nicht nur von
inhaltlich/thematischen Überlegungen, sondern auch von den Eigenschaften der
Grundgesamtheit, den Kommunikationsformen sowie von den Wirkungen kon-
kreter Realisierungen der Bestandteile der Survey-Items ab. Zu berücksichtigen
sind die zahlreichen Befunde zu den Wirkungen auf das Antwortverhalten. Aller-
dings sind diese inzwischen für den normalen Anwender nahezu unübersehbar
und daher nur schwer in die konkrete Arbeit zu integrieren. Auch sind die Be-
funde gelegentlich widersprüchlich und von den spezifischen Bedingungen und
Designs der einzelnen Studien abhängig. Dennoch gibt es einige Befunde, denen
Erkenntnischarakter zugebilligt werden kann. Dazu gehören z.B. Gefährdungen
der Datenqualität durch Satisficing auf Grund einer zu großen Arbeitsbelastung
und mangelnder Leistungsmotivation der Befragten und der positive Effekt der
Selbstadministration bei sensitiven Fragen, die Folgen der Selbstadministration für
die Bearbeitung von Fragen, Wirkungen des Interviewer-Verhaltens, etc. Wichtig
erscheint in diesem Zusammenhang die Dokumentation der eigenen Erfahrungen
mit unterschiedlichen methodischen Randbedingungen.
Besondere Aufmerksamkeit muss der Semantik und Pragmatik sprachlicher
Äußerungen gewidmet werden. Angestrebt werden sollte eine über Forscher und
Befragte invariante Bedeutungswahrnehmung. Erkenntnisse darüber lassen sich
eigentlich nur über die in Teil V dargestellten Pretest-Verfahren gewinnen. Die
Konsequenzen des Frageentwurfs für die Zuverlässigkeit und Gültigkeit der inten-
dierten Messung lassen sich nur über entsprechende Verfahren der statistischen
Analyse gewinnen (vgl. Teil IV).
Grundsätzlich erscheint es notwendig, dass im Bereich der Einflüsse auf das
Antwortverhalten wiederholte Studien zu gleichen Themen unter weiteren Rand-
bedingungen durchgeführt werden sollten.
Teil IV: Fragen und Antworten als
Messungen
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 263
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_4
IV.1 Was ist Messen?
Das Messen gehört zur normalen Alltagspraxis des menschlichen Lebens. Wir
messen das Fieber, den Blutdruck, die Raumtemperatur, die Geschwindigkeit, die
Anzahl der Quadratmeter einer Wohnung. In jedem Fall wird durch ein Gerät, das
mit einem Messfühler ausgestattet ist, die Ausprägung einer Eigenschaft bestimmt
und als Zahl verschlüsselt an uns weitergeben. Die gemeinsame Eigenschaft der
genannten Beispiele für das Messen im Alltag besteht darin, dass durch den Mess-
fühler aufgespürte Ausprägungen der Eigenschaft eines Objekts Zahlen zugeordnet
werden, z.B. Zahlen für die Höhe der Temperatur, des Blutdrucks, etc.
Allerdings wird von einem solchen Gerät erwartet, dass die Zuordnung der
Zahlen nicht beliebig erfolgt, sondern so, dass sich unterschiedliche Ausprägun-
gen der gemessenen Eigenschaft in den zugeordneten Zahlen widerspiegeln, d.h.,
dass die Zahlen die Sensitivität des Messfühlers respektieren. So sollten also un-
terschiedliche Wärmezustände eines Raums zumindest durch unterschiedliche,
als Quantitäten interpretierte Zahlen repräsentiert werden. Darüber hinaus wäre
vielleicht auch zu fordern, dass sich wärmere Zustände durch höhere Zahlen als
niedrigere auszeichnen, oder dass sich sogar quantitative Abstände zwischen den
Zuständen in entsprechenden Zahlenverhältnissen widerspiegeln. D.h. wir fordern
eventuell sogar, dass die zugeordneten Zahlen die Beziehungen zwischen den an
den Objekten festgestellten Merkmalsausprägungen respektieren.
Ehe wir die Beziehungen zwischen Merkmalsausprägungen und Zahlen formal
charakterisieren, sollen die Besonderheiten der Messung durch Antworten auf Fra-
gen näher betrachtet werden. Was in Umfragen gemessen wird, sind in der Regel
subjektive Eigenschaften von intern repräsentierten Objekten im weitesten Sinn.
Selbst bei sog, Fakt-Fragen gibt es die „Fakten“ in der Regel nur in der zeitlichen
Modalität der Vergangenheit als subjektive Repräsentationen im Befragten. Weder
der Forscher noch die Administratoren haben in der Regel das Faktum unabhän-
gig vom Befragten beobachtet. Selbst die Existenz dieses Faktums ist fraglich und
wird oft vorausgesetzt. Die Gegenstände, die nach der Bitte um Selbstauskunft vom
Befragten auf Antwortdimensionen bewertet und durch Angabe von Skalenwerten
oder Antwortalternativen geäußert werden, sind ohne Ausnahme subjektiv. Dies
bedeutet, dass im Vergleich zu den „objektiven“ Messungen der äußeren Umge-
bung im Fall sozialwissenschaftlicher Messungen die Messapparatur vollständig im
Befragten, d.h. der inneren Umgebung des Befragten, situiert ist. Registriert wird
vom Forscher nur die beobachtbare, vom Befragten geäußerte Antwort. Sowohl die
zu messende, schon vorhandene oder erst im Antwortprozess erzeugte subjektive
Repräsentation als auch der Messfühler, der diese Repräsentation auf einer subjek-
266 IV.1 Was ist Messen?
tiven Skala beurteilt, ist der Befragte selbst. Insofern lässt der Forscher durch das
Stellen einer Frage den Befragten die Messung intern ausführen und beobachtet das,
was ihm mitgeteilt wird. Aus der geäußerten Mitteilung des Befragten interpretiert
er in einer zum Befragten inversen Abfolge die Äußerung. Der gesamte Messpro-
zess ist dem Forscher verborgen, so dass er die Korrektheit der Messung bei einem
konkreten Befragten nur vermuten kann (vgl. Abbildung IV.1).
Erst im Aggregat, d.h. bei der Ausführung der Messung in einer größeren Stich-
probe von Fällen können unter bestimmten Modellannahmen Rückschlüsse auf
Reliabilität und Validität gezogen werden. Eine Übertragung auf den einzelnen Fall
kann nur über die Annahme einer stochastischen Identität aller Individuen vorge-
nommen werden, so dass also die statistische Verteilung in der Population auch die
Wahrscheinlichkeitsverteilung des einzelnen Individuums wiederspiegelt.
Der formale Begriff des Messens als Zuordnung von Zahlen zu Eigenschaften von
Objekten, die dann bezüglich quantitativer Ausprägungen untereinander in eine
Ordnung gebracht werden können, wurde ursprünglich für die Messung beobacht-
barer, empirischer Eigenschaften wie z.B. Länge, Wärme, etc. entwickelt. Im Fall
der Messung subjektiver Eigenschaften wie „Zufriedenheit“, „Wichtigkeit“ von Si-
tuationen, Ereignissen, Zuständen, etc. sind nur die beobachteten Äußerungen des
Befragten empirisch. Nur durch den in Abbildung IV.1 dargestellten Rückschluss
des Forschers von der Äußerung auf die subjektive Antwortdimension lassen sich
Ausprägungen in Äußerungen auf subjektive Urteile rückbeziehen.
Man kann die klassische Beschränkung des Messbegriffs auf die Zuordnung von
Zahlen zu empirischen Eigenschaften und Objekten übernehmen und zunächst auf
die Zuordnung von Zahlen zu Werten der Antwortskala beziehen. Individuen sind
dann durch Werte auf einer empirischen und nicht auf einer latenten Antwortdi-
mension unterschieden. Erst im Rahmen eines Modells, das die beobachteten Ant-
worten (Äußerungen) mit den Werten auf der subjektiven latenten Antwortskala
im Sinne von Abschnitt 1.5 verbindet, lassen sich formal die beobachteten Werte
und damit auch die diesen zugeordneten Zahlen auf latente Werte beziehen. In der
Praxis geschieht der Rückschluss in der Regel ohne bewusste Entscheidung für ein
Modell. Stattdessen werden die von den Befragten geäußerten Werte auf der be-
trachteten Antwortdimension mit den subjektiven Urteilen identifiziert. Will man
diese Identifikation nicht, so führt dies zwangsläufig zu Messmodellen mit latenten
Variablen (siehe unten).
Der Begriff „Messen“ empirischer Eigenschaften wird in der Theorie des Mes-
sens im Begriff der Skala gebündelt (vgl. hierzu z.B. Krantz et al., 1971, 1974; Orth,
1974; Stevens, 1957; Suppes & Zinnes, 1963). Eine Skala wird formal als struktur-
treue Abbildung (Funktion, Zuordnung) präzisiert; d.h. eine Skala ordnet Objekten
Zahlen in der Weise zu, dass die zwischen den Objekten bestehenden empirischen
Beziehungen sich in der Beziehung zwischen Zahlen widerspiegeln. Strukturtreue
Abbildungen werden in der Mathematik als Homomorphismen bezeichnet. Box
III.1 enthält ein Beispiel für die strukturtreue Abbildung einer Ordnungsbeziehung.
Eine Menge von Objekten, in der empirische Beziehungen zwischen Objekten
wie z.B. „größer als“ oder „Wert auf einer Antwortskala größer als“ bestehen, wird
in der Messtheorie als empirisches Relativ bezeichnet. Mathematisch handelt es sich
um eine algebraische Struktur. Die Menge der Zahlen, in welche die Objekte des
empirischen Relativs abgebildet werden, heißt numerisches Relativ.
268 IV.1 Was ist Messen?
Eine Skala ist nunmehr definierbar als eine strukturtreue (d.h. homomorphe)
Abbildung eines empirischen Relativs ! in ein numerisches Relativ " . Eine Skala
S ist also durch die folgenden drei Bestandteile definiert:
1) ein empirisches Relativ ! = < A, R >, das in einer Menge A und einer in ihr
GH¿QLHUWHQ5HODWLRQR besteht;
2) ein numerisches Relativ " = < B, S >, das in einer Menge B von Zahlen und
HLQHULQLKUGH¿QLHUWHQ5HODWLRQS besteht;
3) einen Homomorphismus ϕ : A → B des empirischen Relativs in das numeri-
sche Relativ mit φ[R(a, b] = S[φ(a), φ(b)].
R(a, b) wird gelesen als a steht zu b in der Relation R. S(a, b) wird gelesen als die
Zahl a steht zur Zahl b in der Relation S. Prinzipiell kann in den Mengen A und B
natürlich mehr als eine Relation definiert sein.
Eine Skala lässt sich formal kennzeichnen durch Tripel
S = < A, B, φ >.
Eine wichtige Frage ist, ob es für ein vorgegebenes empirisches Relativ einen Ho-
momorphismus gibt bzw. ob eine Skala existiert (Repräsentationsproblem).
Durch Einführung von Axiomen, die im empirischen Relativ als gültig ange-
nommen werden, lassen sich mehr oder weniger komplexe sog. Messstrukturen
definieren. Im einfachsten Fall wäre nur eine Äquivalenzrelation im empirischen
IV.1 Was ist Messen? 269
Wie oben dargestellt, müsste zur Typisierung von Skalen eigentlich überprüft wer-
den, welche Messtrukturen der Messung zugrundeliegen, was gleichbedeutend mit
einer Validierung der die Messstruktur definierenden Axiome wäre. Dies lässt sich
aber in der Regel aber nur in experimentellen Kontexten durchführen. Berühmt
sind in den Verhaltenswissenschaften die verschiedenen Überprüfungen von Ei-
genschaften der Nutzenskala und der Skala der subjektiven Wahrscheinlichkeiten
IV.1 Was ist Messen? 271
auf der Basis der Axiome, die Savage (1954) in seinem berühmten Werk „Founda-
tions of Statistics“ aufgestellt hat. Auch für die Überprüfung der Intervallskalen-
qualität von Skalen wurde gibt es Beispiele (vgl. z.B. Wegener, 1982). In der Praxis
werden Annahmen über die Skalenqualität aber, vor allem von Rating-Skalen, oft
einfach vorausgesetzt.
Skalen, die durch bestimmte Messstrukturen und diese respektierende Homo-
morphismen definiert sind, lassen sich auch durch numerische Transformationen
typisieren, die für eine Skala zugelassen sind (vgl. Stevens, 1946). Dabei lassen sich
folgende Typen unterscheiden, die auch als Mess- oder Skalenniveaus bezeichnet
werden:
Nominalskalen
Nominalskalen sind eindeutig bis auf ein ein-eindeutige Transformation, d.h. alle
ein-eindeutige (auch: injektive) Abbildungen einer der Nominalskala ergeben wie-
der Nominalskalen. Nehmen wir das oben genannte Beispiel der Parteizugehörig-
keit. Dann sind alle in Tabelle IV.1 dargestellten drei Zuordnungen von Zahlen glei-
chermaßen zulässige Nominalskalen. Jede Zuordnung entsteht aus einer anderen
durch eine ein-eindeutige von Zahlen in Zahlen.
CDU/CSU 1 7 3
SPD 2 20 12
FDP 3 1 25
Bündnis90/Die Grünen 4 300
Piraten 5 2 26
NPD 6 8 19
sonstige 7 6 5
Wie bereits in Abschnitt IV.1.2 erwähnt, respektiert eine Nominalskala nur die
Einteilung in Klassen. Die Klasse aller Personen, die einer der genannten Parteien
angehören, sind durch den gleichen Zahlenwert gekennzeichnet. Die Zahlen haben
hier nur die Funktion von Namen.
272 IV.1 Was ist Messen?
Ordinalskalen
Ordinalskalen respektieren die Ordnungsrelation im empirischen Relativ. Sie sind
eindeutig bis auf eine monoton steigende Transformation; d.h. durch eine mono-
ton steigende Transformation erhält man wieder eine zulässige Ordinalskala. Eine
monoton steigende Transformation φ ist definiert durch
x > y oφ(x) > φ(y),
wobei x, y, φ(x) und φ(y) Zahlen darstellen. In Box IV.2 ist ein Beispiel für eine
Ordinalskala dargestellt.
sehr stark 1 4 5
stark 2 7 7
mittel 3 9 9
wenig 4 20 12
überhaupt nicht 5 30 15
Intervallskalen
Die Klasse der zulässigen Transformationen bei Intervallskalen sind die positiv li-
nearen (affinen) Abbildungen. Affine Transformationen lassen die Verhältnisse zwi-
schen Intervallen konstant. Sei φ eine Intervallskala. Dann ist auch
ψ(x) = υφ(x) + ν
eine Intervallskala. υ ist eine freiwählbare Skaleneinheit (z.B. Euro oder Cent) und
ν eine willkürliche Verschiebung des Nullpunkts. In Box IV.3 wird die Intervall-
skala anhand der Termperaturskala erläutert.
Nehmen wir an, in London sei am 04.11.93 eine Temperatur von 50° F (Fahren-
heit) gemessen worden. Dann können wir diesen Wert durch Multiplizieren mit
5
9
und Addieren von 160 9
in den Messwert 10 der Celsius-Skala umrechnen,
so dass wir ebenfalls behaupten können, die Temperatur hätte am 04.11.93 10°
Celsius betragen. Die Gleichung für die lineare Transformation von x° F in y° C
lautet:
5 90
y= x− ,
9 9
so dass sich für einen Wert von 50° Fahrenheit ein Wert von
5
9
50 −
160
9
=
1
9
( 250 − 160 ) = 909 = 10
ergibt.
274 IV.1 Was ist Messen?
Für die Umrechnung von Celsius in Fahrenheit ergibt sich die Gleichung
x = 1, 8 y + 32.
Durch einfache arithmetische Umformungen lässt sich zeigen, dass das Verhältnis
zwischen den Messwert-Differenzen auf zwei Intervallskalen immer einen über alle
Messwerte konstanten Wert ergibt (vgl. Box IV.4).
Seien φ und ψ zwei Intervallskalen und x1 und x2 Messwerte. Dann ergibt sich
für die Differenz der Skalenwerte ψ(x1) und ψ(x2):
ψ ( x1 ) −ψ ( x 2 ) = (υ ⋅ ϕ ( x1 ) +ν ) − (υ ⋅ ϕ ( x 2 ) +ν ) = υ ⋅ ϕ ( x1 ) − υ ⋅ ϕ ( x 2 )
= υ (ϕ ( x 1 ) − ϕ ( x 2 ) ) .
Dies bedeutet, dass für beliebige zwei Messwerte das Verhältnis zwischen den
Differenzen auf den beiden Skalen immer den gleichen Wert υ hat.
Tabelle IV.5: Skalenniveaus und Maße der zentralen Tendenz und Streuungsmaße
Tabelle IV.6 gibt einen Überblick über wichtige Korrelationsmaße und Signifikanz-
tests.
IV.2 Die Messung latenter Variablen 277
Viele Variablen, die wir messen wollen, sind nicht direkt beobachtbar. In Abschnitt
III.1.7 hatten wir die latenten Konstruktvariablen bereits als ein Beispiel für latente
Variablen kennengelernt. Latente Variablen sind grundsätzlich nur „auf dem Um-
weg“ über beobachtbare Variablen messbar. Zu den latenten Variablen sind aber
keineswegs nur die Konstruktvariablen zu rechnen. Beispiele für latente Variab-
len, die keine Konstruktvariablen sind, sind die in Abschnitt III.1.5 eingeführten
latenten Antwortvariablen. Grundsätzlich können auch alle Variablen, die nur bis
auf einen Fehler genau gemessen werden können, als latente Variablen betrachtet
werden, da ein Messfehler stets Anlass für eine Zelegung der gemessenen Variablen
in eine latente „wahre“ Variable und eine Fehlervariable ist. Diese Messfehlerzer-
legung ist Grundlage für den Begriff der Reliabilität (siehe Abschnitt III.1.7). Wir
278 IV.2 Die Messung latenter Variablen
IV.2.2 Messmodelle
exp T β
S y 1 .
1 exp T β
280 IV.2 Die Messung latenter Variablen
Für den Fall, dass der Regressionsparameter β gleich 1.0 ist, ergibt sich das sog.
Raschmodell:
exp (θ )
π ( y = 1) = .
1 + exp (θ )
Die exakte Form der Beziehung hängt von den Personenparametern (Ausprägun-
gen von θ) sowie Itemparametern ab. Ein wichtiger Itemparameter ist die Schwierig-
keit eines dichotomen Items. Unter der Schwierigkeit eines Items versteht man jene
Ausprägung einer latenten Variablen, für welche die Antwortwahrscheinlichkeit
0.5 beträgt.
In Latent-Class-Modellen (vgl. Hagenaars & McCutcheon, 2002; Lazarsfeld &
Henry, 1968; McCutcheon, 1987; Van de Pol & de Leeuw, 1986), werden alle Vari-
ablen, latente wie beobachtete, als diskret vorausgesetzt, Der Zusammenhang zwi-
schen latenten Variablen und beobachteten Variablen wird durch bedingte Wahr-
scheinlichkeiten modelliert (vgl. z.B. Van de Pol & de Leeuw, 1986) Sei ξ eine latente
IV.2 Die Messung latenter Variablen 281
Variable mit c latenten Kategorien bzw. Klassen. Sei x der Indikator für ξ mit der
gleichen Anzahl c manifester Klassen. Dann ergibt sich die Wahrscheinlichkeits-
verteilung p(x) der diskreten manifesten Variablen x als Produkt der Wahrschein-
lichkeitsverteilung ν(ξ) der latenten Variablen ξ und der Matrix Q der Übergangs-
wahrscheinlichkeiten der latenten Klassen in die manifesten Klassen:
p(x) = ν(ξ)Q.
Die Elemente qjk von Q sind die bedingten Wahrscheinlichkeiten für das Auftreten
der manifesten Klasse ak gegeben die latente Klasse aj . Dieser Ansatz lässt sich auf
mehr als eine latente Variable und mehr als einen Indikator verallgemeinern.
Box IV.5: Allgemeine Struktur eines Messmodells mit nur einem Konstrukt
(Ein-Konstruktmodell)
Abbildung IV.5 zeigt ein Beispiel für ein Messmodell für die bereits in
Abschnitt III.1.7 erwähnte Konstruktvariable „Extrinsische Berufsorientierung“,
mnemotechnisch symbolisiert durch „EXT“. Das Beispiel enthält bereits durch die
im Rahmen einer statistischen Analyse geschätzten Ladungen.
IV.2 Die Messung latenter Variablen 283
Die Spezifikation von Messmodellen ist nicht auf Modelle mit nur einem Konstrukt
beschränkt. Vielmehr können Messmodelle auch aus mehreren Konstruktvariablen
bestehen, die mit einander korreliert sein können. Box IV.6 enthält die Spezifikati-
on eines Messmodells mit zwei Konstrukten.
geschätzt
auf 0 gesetzt
284 IV.2 Die Messung latenter Variablen
Modellgleichungen Matrixnotation
§ x1 · § λ11 λ12 · § δ1 ·
x1 = λ11ξ1 + λ12ξ2 + δ1 ¨ ¸ ¨ ¸ ¨ ¸
x2 = λ21ξ1 + λ22ξ2 + δ2 ¨ x 2 ¸ ¨ λ21 λ22 ¸
§
δ2
ξ1 · ¨ ¸
x3 = λ31ξ1 + λ32ξ2 + δ3 ¨ x 3 ¸ = ¨ λ31 λ32 ¸ ¨ ¸ + ¨ δ 3 ¸ = Λx ξ + δ
¨ ¸ ¨ ¸ ζ2 ¨ ¸
x4 = λ41ξ1 + λ42ξ2 + δ4 ¨ x 4 ¸ ¨ λ41 λ42 ¸ © ¹ ¨ δ 4 ¸
x5 = λ51ξ1 + λ52ξ2 + δ5 ¨ x 5 ¸ ¨ λ51 λ52 ¸¹ ¨δ5 ¸
© ¹ © © ¹
In Abbildung IV.6 ist ein Beispiel für ein Modell mit zwei Konstrukten dargestellt.
Mit diesem Modell wurde u.a. überprüft, ob das Konstrukt der extrinsischen Be-
rufsorientierung (EXT) vom Konstrukt der intrinsischen Orientierung (INT)
unabhängig ist. Die Items, welche als Indikatoren ausgewählt wurden, sind in der
Abbildung aufgeführt. Die Bewertungsskala ist wiederum eine 7stufige numerische
Wichtigkeitsskala. Wie man aus der Abbildung erkennen kann sind die Konstrukt-
variablen noch miteinander korreliert. Die Korrelation beträgt immerhin noch
0.37 und ist signifikant.
In Messmodellen kann es durchaus vorkommen, dass ein Indikator nicht nur
Indikator für ein einziges Konstrukt ist, sondern Indikator für mehrere Konstrukte.
Im dem Fall, bei dem alle Indikatoren nur Indkatoren eines einzigen Konstrukts
sind, spricht man auch von reinen Messmodellen (engl.: pure measurement models).
Wird ein Indikator durch mehr als ein Konstrukt beeinflusst, so ist dies ein Hinweis
auf dessen Mehrdimensionalität.
Ein weiteres Merkmal von Messmodellen kann das Auftreten von Messfeh-
ler-Korrelationen sein. Korrelationen zwischen Messfehlern treten insbesondere
auf, wenn die Fehlerkomponenten durch gleiche, vom Modell nicht explizit erfass-
te latente Ursachen beeinflusst werden. Beispiele für Ursachen sind gemeinsame
Merkmale von Items, die unmittelbare Nachbarschaft von Indikatoren im Frage-
bogen, etc.
Messmodelle sind der Regel Bestandteile umfassenderer statistischer Modelle
für gerichtete und ungerichtete Zusammenhänge zwischen beobachteten und/oder
unbeobachteten Variablen. Solche Modelle werden auch als Strukturgleichungsmo-
delle bezeichnet. In Abbildung IV.7 ist ein Beispiel für eine komplexe Abhängig-
keitsstruktur zu sehen, in der insgesamt vier Messmodelle eingebettet sind (siehe
Faulbaum & Kaase, 1993).
IV.2 Die Messung latenter Variablen 285
Muthén (1984) hat darauf hingewiesen, dass die Annahme latenter Antwortvaria-
blen eine Erweiterung von Messmodellen erfordert. In diesem Fall muss nämlich
angenommen werden, dass die latenten Konstruktvariablen nicht direkt auf die be-
obachteten Indikatoren y wirken, sondern zunächst auf die latenten Antwortvaria-
blen y*, aus denen dann auf der Basis eines Zufallsmechanismus die beobachteten
Antworten erzeugt werden (vgl. Abbildung IV.9).
288 IV.2 Die Messung latenter Variablen
IV.2.3.1 Vorbemerkung
Oft ergeben sich die Konstrukte aus der Fragestellung des Forschungsvorhabens. Es
ist aber auch denkbar, dass die hinter empirischen Variablen stehenden Konstruktva-
riablen erst im Rahmen einer statististischen Analyse gesucht und identifiziert wer-
den müssen. In jedem Fall bleibt die Identifikation geeigneter Indikatoren für die
gewählten Konstrukte einer Suche vorbehalten, die auf theoretischer Ebene unter
Abstimmung mit der empirischen Ebene erfolgen kann. Grundsätzlich können sich
in Bezug auf die Spezifikation von Messmodellen folgende Situationen ergeben:
• Die Konstrukte ergeben sich aus der Forschungsfragestellung, gesucht werden
geeignete Indikatoren;
• es liegt bereits eine Menge von gemessenen Variablen vor, gesucht werden Kon-
strukte, die zusammen mit Teilmengen dieser Variablen Messmodelle bilden,
die an die Daten optimal angepasst sind.
Ergeben sich die Konstrukte aus der Forschungsfragestellung, so sollte zunächst in
der Forschungsliteratur nach Indikatoren gesucht werden, die sich bereits bewährt
haben und über deren Reliabilität und Validität (zu den Begriffen vgl. Abschnitt IV.3)
bereits Untersuchungen existieren. Diese Angaben sollten eigentlich Bestandteil der
Metadaten von Datenbanken sein, in denen Umfragen zugänglich gemacht werden.
IV.2 Die Messung latenter Variablen 289
Für die Identifikation von Konstrukten auf der Basis einer existierenden Aus-
wahl empirischer Variablen bietet sich die explorative Faktorenanalyse an. Zur
Überprüfung von Messmodellen und ihrer Eigenschaften sowie zur Beurteilung
der Güte der Anpassung von Messmodellen an empirische Daten (engl.: goodness
of fit) bietet sich die konfirmatorische Faktorenanalyse an. Beide Verfahren werden
wegen ihrer Bedeutung kurz beschrieben.
A. Analyseziel
Ziel der explorativen Faktorenanalyse (engl.: Exploratory Factor Analysis; kurz:
EFA) im Zusammenhang mit der Identifikation von Messmodellen ist die Suche
nach den Faktorvariablen, welche eine Menge von gemessenen Variablen beein-
flussen. Die Identifikation der latenten Faktorvariablen wird auch als Extraktion
bezeichnet. Abbildung IV.10 stellt den Fall dar, wo aus acht beobachteten Variablen
y1,…,y8 vier Faktoren F1,…,F4 extrahiert wurden.
C. Variablen
Alle Variablen, die beobachteten Variablen genau so wie die Faktorvariablen, sind
in den üblichen Verfahren der explorativen Faktorenanalyse standardisiert, d.h. sie
besitzen einen Mittelwert von 0 und eine Standardabweichung von 1.0.
D. Modell
Jede beobachtete Variable wird als lineare Funktion aller noch unbekannten Fak-
torvariablen aufgefasst. Die Koeffizienten in dieser Funktion heißen Ladungen. Die
Ladungen sind also wie im Rahmen der Definition von Messmodellen bereits be-
merkt, die Einflussgrößen, mit denen die Faktoren auf die beobachteten Variablen
wirken. Da alle Variablen standardisiert sind, stellen die Ladungen die Korrelatio-
nen zwischen den Faktoren und den beobachteten Variablen dar.
E. Anpassungsalgorithmus
Der als Extraktion bezeichnete, in der Regel rein algebraische Algorithmus be-
stimmt iterativ nacheinander die Faktoren und vergleicht die aus den Faktoren
rückgerechnete Korrelationsmatrix mit der vorliegenden empirischen Korrelati-
onsmatrix. Er stoppt, wenn die empirische Korrelationsmatrix reproduziert wurde.
Entscheidend hierfür ist, dass die Korrelationen der empirischen Variablen mit sich
selbst, d.h. die Varianzen der Variablen reproduziert werden.
F. Faktormodelle
Man kann zwischen verschiedenen (Faktor)modellen unterscheiden. Die beiden
wichtigsten Arten von Modellen sind:
Modelle mit gemeinsamen Faktoren (engl.: common factor models):
In diesem Fall gibt es eine Unterscheidung zwischen spezifischen Faktoren, die je-
weils nur eine Variable beeinflussen und gemeinsamen Faktoren, die sich auf meh-
IV.2 Die Messung latenter Variablen 291
rere beobachtete Variablen auswirken. Die Extraktion der Faktoren wird in diesem
Fall so lange fortgesetzt bis die sog. Kommunalitäten reproduziert sind. Kommuna-
litäten sind die Varianzanteile einer Variablen, die auf die gemeinsamen Faktoren
zurückgehen. Eine Faktorenanalyse auf der Basis dieser Annahmen wird in der
Regel als Hauptachsenmethode (engl.: principal axis method) bezeichnet. Diese Me-
thode bedingt eine Kommunalitätenschätzung.
Volles Komponentenmodell:
In diesem Fall wird keine Unterscheidung zwischen spezifischen Faktoren und
gemeinsamen Faktoren getroffen. Es werden so viele Faktoren extrahiert bis die
Varianzen der Variablen und nicht nur die Kommunalitäten aus den geschätzten
Modellgleichungen reproduziert sind. Dies bedeutet zugleich, dass die Anzahl der
extrahierten Faktoren mit der Anzahl der beobachteten Variablen übereinstimmt.
Das auf dem vollen Komponentenmodell beruhende Verfahren wird als Haupt-
komponentenanalyse (engl.: principal components) bezeichnet.
H. Faktorwerte
Die Werte der Individuen auf den Faktorvariablen heißen Faktorwerte. Sie stellen
lineare Funktionen der durch Ladungen gewichteten beobachteten Variablen dar.
Faktorvariablen können in den üblichen Statistik-Paketen nach Wunsch dem Da-
tensatz zugespielt werden und wie alle anderen Variablen weiterverarbeitet werden.
H. Extraktionskriterien
Extraktionskriterien entscheiden darüber, welche Faktoren als bedeutsam anzuse-
hen sind. Wichtige Kriterien sind:
Eigenwertkriterium (auch: Kaiser-Kriterium):
Es werden diejenigen Faktoren als bedeutsam angesehen, die einen Eigenwert grö-
ßer oder gleich 1.0 haben.
Scree-Plot:
Der Scree-Plot ist eine graphische Darstellung, bei der auf der x-Achse die Faktoren
geordnet nach den Eigenwerte aufgetragen sind und auf der y-Achse die Größe der
Eigenwerte. Nach diesem Kriterium sind alle Faktoren als bedeutsam einzustufen,
die vor einen „Knick“ liegen.
J. Beispiel
Als Beispiel nehmen wir wieder die Berufswerte aus der Allgemeinen Bvölkerungs-
umfrage der Sozialwissenschaften 1982 (ALLBUS 1982). Hier noch einmal Frage
und Items.
Für wie wichtig halten Sie persönlich diese Merkmale für den Beruf und die beruf-
liche Arbeit?
Sichere Berufsstellung
Hohes Einkommen
Gute Aufstiegsmöglichkeiten
Ein Beruf, der anerkannt und geachtet ist
Ein Beruf, der einem viel Freizeit lässt
Interessante Tätigkeit
Eine Tätigkeit, bei der man selbständig arbeiten kann
Aufgaben, die viel Verantwortungsbewusstsein erfordern
IV.2 Die Messung latenter Variablen 293
Graphischen Einblick in die Bedeutsamkeit liefert auch der Scree-Plot (vgl. Abbil-
dung IV.11).
294 IV.2 Die Messung latenter Variablen
Komponente
1 2 3
SICHERE BERUFSTELLUNG ,019 ,216 ,630
BERUF MIT HOHEM EINKOMMEN ,181 -,060 ,780
GUTE AUFSTIEGSCHANCEN IM BERUF ,406 ,034 ,636
ANERKANNTER BERUF ,220 ,410 ,490
BERUF MIT VIEL FREIZEIT -,016 ,192 ,515
INTERESSANTE TAETIGKEIT ,689 ,211 ,119
SELBSTAENDIGE TAETIGKEIT ,798 ,134 ,094
VERANTWORTUNGSVOLLE TAETIGK. ,733 ,276 ,143
BERUF M.VIEL MENSCHL. KONTAKT ,348 ,583 ,148
CARITATIV HELFENDER BERUF ,156 ,829 ,149
SOZIAL NUETZLICHER BERUF ,188 ,782 ,121
A. Analyseziel
Die konfirmatorische Faktorenanalyse (engl.: Confirmatory Factor Analysis, kurz:
CFA) erlaubt die gezielte Überprüfung von Hypothesen über:
B. Modell
Die empirischen Kovarianzen (die Kovarianzen zwischen den gemessenen Variab-
len bzw. Indikatoren) werden in der konfirmatorischen Faktorenanalyse als Funk-
tionen der zugrundeliegenden Modellparameter (e.g. Ladungen, Fehlervarianzen,
Varianzen der latenten Variablen, etc.) dargestellt :
σij = fij(θ)
wobei σij die Populationskovarianz zwischen zwei empirischen Variablen xi und xj
darstellt und θ den Vektor aller Modellparameter. Man spricht wegen der Darstel-
lung der empirischen Kovarianzen als Funktionen der Modellparameter auch von
Kovarianzstrukturanalyse (engl.: covariance structure analysis). Box IV.7 zeigt ein
Beispiel für die Darstellung der empirischen Kovarianz als Funktion der zugrun-
deliegenden Modellparameter. Für die Ableitung braucht man eigentlich nur die
Regeln für das Rechnen mit Kovarianzen zu kennen.
IV.2 Die Messung latenter Variablen 297
Dargestellt werden soll die Kovarianz σij zwischen zwei Indikatoren xi und xj
für eine latente Variable ξ in einem Messmodell mit vier Indikatoren. Für die
Kovarianz zwischen zwei Zufallsvariablen X1 und X2 schreibt man oft auch
Cov(X1, X2). Sei c eine Konstante. Dann gelten für Kovarianzen die folgenden
Rechenregeln:
(1)Cov (c, X1 ) = 0;
(2)Cov (cX1 , X 2 ) = cCov ( X1 , X 2 );
(3)Cov ( X1 + X 2 , X 3 ) = Cov ( X1 , X 3 ) + Cov ( X 2 , X 3 );
Wie wir bereits in Abschnitt IV.2.2.2 über die Struktur von Messmodellen gese-
hen haben, gilt für xj:
x i = λiξ + δ i ,
wobei λi die Ladung von xi und δi die Residual- bzw. Fehlervariable. Entspre-
chend gilt für xj :
x j = λ jξ + δ j .
Durch Anwendung der Regeln für das Rechnen mit Kovarianzen ergibt sich
unter Berücksichtigung, dass die latente Variable mit der Fehlervariablen nicht
korreliert sein darf:
= λi λ jσ ξ2 + Cov (δ i , δ j ) .
Damit kann nunmehr die empirische Kovarianz σij durch die Parameterdarstel-
lung
λi λ jσ ξ2 + Cov (δ i , δ j )
298 IV.2 Die Messung latenter Variablen
σ ij = λi λ jσ ξ2 .
Parameterdarstellungen lassen sich für alle Kovarianzen der allgemein mit ∑bezeich-
neten Populationskovarianzmatrix ableiten. Die Populationskovarianzmatrix, in der
alle Kovarianzen durch ihre Parameterdarstellungen ersetzt sind, heißt auch theore-
tische bzw. modellimplizierte Kovarianzmatrix, da in ihr die theoretischen Annah-
men über die Parameterstruktur enthalten sind. Die theoretische Kovarianzmatrix
stellt also die Populationskovarianzmatrix als Funktion der Parameter dar:
∑ = ∑(θ)
Die theoretische Kovarianzmatrix wird als wahre Populationsmatrix unterstellt.
Abbildung III.37 stellt noch eimal die theoretische Kovarianzmatrix dar.
D. Parameterschätzung
Die Schätzung der Modellparameter erfolgt durch Minimierung einer Anpassungs-
funktion, die eine Funktion der Diskrepanz zwischen der theoretischen Kovarianz-
matix ∑(θ) und der empirischen Kovarianzmatrix S ist. Die empirische Kovarianz-
matrix besteht aus den empirischen Kovarianzen des Datensatzes.
Die Parameter werden also so geschätzt, dass eine Anpassungsfunktion
F = F ( S,Σ
Σ (θ ) )
300 IV.2 Die Messung latenter Variablen
ein Minimum ergibt. Auf der Basis der geschätzten Parameter θ̂ und der Parame-
terdarstellung der Kovarianzen lässt sich die geschätzte Kovarianzmatrix
6ˆ
6ˆ Tˆ
berechnen. Wenn die Differenzen zwischen allen empirischen und geschätzten em-
pirischen Kovarianzen 0 sind, so nimmt auch die Anpassungsfunktion F den Wert
0 an. In diesem Fall stimmt die Stichprobenkovarianzmatrix mit der geschätzten
Kovarianzmatrix überein.
N : Stichprobenumfang;
p : Anzahl der gemessenen Variablen;
t : Anzahl der unabhängig, d.h. ohne Einschränkungen geschätzten
Parameter.
τk
CFI = 1 − .
τi
Die χ2-Statistik setzt voraus, dass das analysierte Modell das wahre Populations-
modell darstellt. Der sog. Zentralitätsparameter τk betrifft den Betrag, um den die
χ2-Verteilung verschoben ist, wenn diese Annahme nicht zutrifft. τi ist der Zentra-
litätsparameter des Unabhängigkeitsmodells.
Im Unterschied zu den inkrementellen Indizes basieren die absoluten Indizes
nicht auf Modellvergleichen. Wichtig für die Beurteilung der Modellanpassung ist
immer die Inspektion der Differenzen zwischen angepasster Kovarianzmatrix (Ma-
trix der geschätzten Kovarianzen) und der Stichprobenkovarianzmatrix, d.h. zwi-
schen den geschätzten Kovarianzen und den Stichprobenkovarianzen. Auf solchen
Vergleichen beruhende Indizes sollten immer berückischtigt werden. Eine detail-
lierte Erörterung der Anpassungsindizes und ihrer Vor- und Nachteile finden sich
in der einschlägigen Literatur (vgl. z.B. Reinecke, 2014).
Bei Abweichungen von der Bedingung der Normalverteilung lässt sich auch die
sog. Satorra-Bentler-Statistik anwenden. Diese Statistik ist robust gegenüber Ab-
weichungen von der Normalverteilung, erfordert aber sehr große Stichprobenum-
302 IV.2 Die Messung latenter Variablen
Bei der Modellsuche sollte immer darauf geachtet werden, dass die Enscheidung
über Freisetzung oder Einschränkung von Parametern nicht allein aus statistischen
Gründen, sondern auch theoretisch begründet werden können.
Die Logik der Modellmodifikation eines Anfangsmodells basiert auf dem Sach-
verhalt, dass das analysierte Modell Mk an einer bestimmten Position einer Folge
von Modellen steht, die durch sukzessive Setzungen oder Aufhebungen von Para-
meterrestriktionen auseinander hervorgehen. Das eingeschränkteste Modell ist das
oben erwähnte Unabhängigkeitsmodell, bei dem keine Zusammenhänge zwischen
Variablen angenommen werden, d.h. in dem alle Zusammenhänge zwischen Va-
riablen auf 0 fixiert sind. Es wird zumeist mit Mi oder auch M0 bezeichnet. Am
anderen Ende steht das perfekt angepasste Modell, das sog. saturierte Modell Ms:
Mi " M k " M s .
Ein Modell Mk, das durch Einschränkungen aus einem Modell Mj hervorgegangen
ist, heißt in Mi geschachtelt (eng.: nested). Eine Modellmodifikation mit dem Ziel
einer verbesserten Anpassung besteht immer darin, mit Hilfe des Vergleichs der
Anpassungs-χ2-Werte und durch Tests wie dem univariaten (Modifikationsindizes)
oder dem multivariaten Langrange-Muliplier-Test zu prüfen, ob die Freisetzung
von Einschränkungen zu einer signifikant besseren Modellanpassung führt oder ob
sich durch die Setzung von Einschränkungen die Modellanpassung signifikant ver-
schlechtert. Letzteres kann ebenfalls durch die Signifikanzbeurteilung der χ2-Dif-
ferenz der Anpassungswerte oder durch den multivariaten Wald-Test überprüfen.
gigen Variablen η unterscheidet, unabhänig davon, ob sie latent sind oder nicht,
lautet die Gleichung für die theoretische Kovarianzmatrix:
Σ (θ ) = G ( I - B ) ΓΦΓ ′ ( I - B ) G’ ,
-1 -1’
wobei:
H. Identifizierbarkeit
Um ein Modell statistisch analysieren zu können, muss es die Bedingung der Iden-
tifizierbarkeit erfüllen. Ein Modell ist nicht identifizierbar, wenn die Anzahl der
Datenpunkte, im Falle der Kovarianzstrukturanalyse die Anzahl der empirischen
Varianzen und Kovarianzen, geringer ist als die Anzahl der unabhängig zu schät-
zenden (freien) Parameter. Box III.8 enthält dafür ein Beispiel. Unabdingbar ist die
Definition der Skalen der latenten Konstruktvariablen. Dies kann grundsätzlich auf
zwei unterschiedlichen Arten geschehen:
• Identifikation der Skala der latenten Variablen mit der einer gemessenen Varia-
blen durch Fixierung einer Ladung auf den Wert 1.0.
• Standardisierung der latenten Variablen durch Fixierung der Varianz der laten-
ten Variablen auf den Wert 1.0.
IV.2 Die Messung latenter Variablen 305
ξ
λ1 λ2
x1 x2
δ1 δ1
Als Datenpunkte stehen nur eine empirische Kovarianz und zwei empirische
Varianzen, d.h. insgesamt drei empirische Kovarianzen zur Verfügung:
I. Software
Für die Analyse von Modellen der konfirmatorischen Faktorenanalyse und von
vollen Strukturgleichungsmodellen kann die folgende Software eingesetzt werden
(in alphabetischer Reihenfolge):
AMOS (Arbuckle, 2011, Modul in SPSS)
EQS (Bentler,2006; Multivariate Software Inc.) und REQS (EQS Integration in R,
vgl. Mair, Wu & Bentler 2010)
lavaan (Strukturgleichungspaket in R; vgl. Rosseel, 2012)
306 IV.3 Fehlertheorie der Messungen
Geht man davon aus, dass die Ausprägungen der beobachteten bzw. manifesten
Indikatoren nicht mit den wahren Ausprägungen der Indkatoren zusammenfallen,
so führt man damit zwangsläufig eine Unterscheidung zwischen dem beobachteten
bzw. gemessenen Wert der Ausprägung einer Variablen und ihrer wahren Ausprä-
gung ein. Die Betrachtung der Differenz zwischen beiden Ausprägungen führt zur
Konzeption des Messfehlers, der sich wiederum aus verschiedenen Komponenten
zusammensetzen kann, die auf unterschiedliche Quellen zurückgeführt werden
kann (je nach Art Befragungsart). Als Komponenten kommen alle Einflüsse in Fra-
ge, welche den Messwert beeinflussen könnten wie:
• Sichtbare und unsichtbare Merkmale der Interviewer
• Befragungssituation (z.B. Anwesenheit Dritter)
• Frageformulierung
• Fragebogengestaltung
• Befragungsart
• Mentaler Zustand des Befragten
Da jedem Messwert ein wahrer Wert und ein Messfehler entspricht, kann man auf
der Ebene von Variablen zwischen einer gemessenen Variablen x, einer latenten
wahren Variablen (eng.: true variable bzw. true-score-variable) τ und einer Fehler-
variablen ε unterscheiden.
Elaboriert wird diese Konzeption in der klassischen Testtheorie (vgl. Gulliksen,
1950; Lord & Novick, 1968; vgl. auch die Zusammenfassung von Bohrnstedt, 1983,
1993 sowie die Darstellung in Zeller & Carmines, 1980). Die klassische Testtheorie
IV.3 Fehlertheorie der Messungen 307
geht von einer additiven Zerlegung des beobachteten Werts einer Variablen xi in
einen wahren Wert (engl.: true score) τi und einen Messfehler (engl.: measurement
error) εi aus:
xi = τ i + ε i .
Eine beobachtete Variable x wird also als Summe einer wahren Variablen und einer
Fehlervariablen betrachtet:
x =τ + ε.
Der Fehler ist gemäß dieser Zerlegung definiert als Differenz zwischen dem gemes-
senen Wert und dem wahren Wert:
ε i = x i − τ i bzw. ε = x − τ .
Diese Zerlegung einer beobachteten Messung in eine wahre Messung und einen
Fehler bildet die Basis für die statistische Analyse fehlerbehafteter stetiger Variab-
len und den Reliabilitätsbegriff der klassischen Testheorie, der in Abschnitt IV.3.5
dargestellt wird.
In ihrer Definition des wahren Werts vertritt die klassische Testtheorie eine ope-
rationalistische Auffasung. Der wahre Wert ist gemäß dieser Auffassung definiert
als Erwartungswert (Mittelwert) E(xi) der individuellen Wahrscheinlichkeitsver-
teilung (Propensity) der gemessenen Zufallsvariablen xi. Da nach den Axiomen der
klassischen Testtheorie (siehe unten) der Erwartungswert der Fehlervariablen 0 ist,
ergibt sich:
τ i = E ( x i ) = μi .
x i = μi + ε i .
E ( x ) = E (τ ) + E ( ε ) ,
308 IV.3 Fehlertheorie der Messungen
so gilt:
E ( x ) = E (τ ) + 0 = E (τ ) .
Der Mittelwert aller Messwerte ist also gleich dem Mittelwert aller wahren Werte.
Die Axiome der klassischen Testtheorie sind:
Axiome der klassischen Testtheorie (vgl: Lord & Novick, 1968, p. 36):
1) E(ε) = 0
(der Mittelwert der Fehlervariablen ist bei einer unendlichen Zahl von Wie-
derholungen der Messung 0);
2) ρ(x, τ) = 0
(die Korrelation zwischen der wahren Variablen und der Fehlervariablen ist
0);
3) ρ(εg, τh) = 0
(Die Korrelation zwischen der Fehlervariablen einer Messung g und der
wahren Variablen einer Messung h ist 0);
4) ρ(εg, εh) = 0
(Die Korrelation der Fehlervariablen zweier unterschiedlicher Messungen g
und h ist 0).
1) E(x) = E(τ) = μx
(Der Mittelwert der gemessenen Variablen ist gleich dem Mittelwert der
wahren Variablen);
2) E(x1τ2) = E(τ1τ2)
(Die Kovarianz zwischen einer gemessenen Variablen x1 und der wahren
Variablen einer gemessenen Variablen x2 ist gleich der Kovarianz der beiden
wahren Variablen);
3) E(x1x2) = (x1τ2)
(Die Kovarianz zwischen zwei gemessenen Variablen ist gleich der Kovari-
anz zwischen einer der gemessenen Variablen und der wahren Variablen der
zweiten gemessenen Variablen).
Auf der Grundlage der klassischen Testtheorie lassen sich die Ähnlichkeiten zwi-
schen Messungen bezüglich des Ausmaßes, in dem sie die wahren Werte widerspie-
geln, präzise beschreiben. So können Messungen sich etwa insofern ähnlich sein,
als die ihnen korrepondierenden wahren Variablen perfekt, d.h. mit dem Wert 1.0
miteinander korrelieren. Ist dies der Fall, so heißen die Messungen kongenerisch,
d.h.:
q Messungen x1, x2,… xq heißen kongenerisch genau dann, wenn für jedes Paar von
Messungen xk xl gilt, dass die wahren Variablen τk,τl zu 1.0 korrelieren.
310 IV.3 Fehlertheorie der Messungen
Die Eigenschaft der kongenerischen Ähnlichkeit besagt bereits, dass sich die wah-
ren Variablen aus den wahren Variablen anderer Variablen durch Anwendung ei-
ner linearen Transformation fehlerfrei vorhersagen lassen.
Die nächste Steigerung der Ähnlichkeit zwischen Messungen ergibt sich, wenn
die beobachteten Variablen die gleichen wahren Werte besitzen. Präzisiert wird
dieser Sachverhalt durch den Begriff der τ-Äquivalenz:
Die Ähnlichkeit kann noch weiter durch die Annahme verschärft werden, dass die
Messungen gleiche Fehlervarianzen besitzen. Diese Bedingung definiert die Eigen-
schaft der Parallelität zwischen Messungen:
Gilt diese Gleichheit nur bis auf die Addition einer Konstanten, so spricht man
auch hier von essentieller Parallelität.
x i = μi + λτ
i + εi.
so sieht man, dass die Konstante μi der Mittelwert von xi ist. Diese folgt aus den
Rechenregeln für Erwartungswerte. Danach wäre
E ( x i ) = μi + λi E (τ ) + E ( ε ) = μi + λi 0 + 0 = μi .
Außerdem gilt
λi ist gleich der Kovarianz zwischen τ und xi, da
Cov (τ , x i ) = Cov (τ , μi + λτ
i + ε i ) = Cov (τ , μ i ) + Cov (τ , λτ
i )
+ Cov (τ , ε ) = Cov (τ , λτ
i ) = λiCov (τ ,τ ) = λiVar (τ ) = λi 1 = λi .
und
λ2i ist gleich der Varianz der wahren Variablen τi von xi, da
+ Cov ( μi , λτ
i ) + Cov ( λτ
i , μ i ) + Cov ( λτ i ) = Cov ( λτ
i , λτ i )
i , λτ
In einem Modell mit einer latenten Konstruktvariablen ξ würde ξ zunächst auf die
mit den beobachteten Indikatoren x1, x2,…, xi,…,xq assoziieren wahren Variablen τ1,
τ2,…, τi,…,τq wirken. Für ein Messmodell mit vier Indikatoren würden die Modellglei-
chungen lauten:
τ1 = λ1ξ
τ2 = λ2ξ
τ3 = λ3ξ
τ4 = λ4ξ
x1 = τ1 + ε1
x2 = τ2 + ε2
x3 = τ3 + ε3
x4 = τ4 + ε4
IV.3 Fehlertheorie der Messungen 313
x1 = λ1ξ + ε1
x2 = λ2ξ + ε2
x3 = λ3ξ + ε3
x4 = λ4ξ + ε4
Wie man sieht, übertragen sich die Einflussgrößen der latenten Variablen ξ von den
wahren Variablen auf die gemessenen Variablen. Außerdem gilt, dass unter der Be-
dingung, dass die Axiome der klassischen Testtheorie erfüllt sind, die gemessenen
Variablen kongenerisch sind, weil es eine generische Variable ξ mit
τi = λiξ ( i = 1,…, q )
gibt. Aus den vorangegangenen Überlegungen ergibt sich, dass sich Ein-Konst-
rukt-Modelle und kongenerische Messmodelle in der Modellanpassung an die Da-
ten nicht unterscheiden (vgl. auch Alwin & Jackson, 1980).
Man bezeichnet daher ein Messmodell, dass die Axiome der klassischen Test-
theorie erfüllt, als kongenerisches Messmodell. Es hat die Form eines Ein-Konstrukt-
Modells (siehe Box IV.5). Als Spezialfall des kongenerischen Messmodells ergibt
sich das Modell mit τ-äquivalenten Messungen. Man sieht leicht, dass in einem
kongenerischen Messmodell die q Indikatoren x1, x2,…,xq genau dann τ-äquivalent
sind, wenn ihre Ladungen auf der latenten Variablen ξ gleich sind, d.h., wenn gilt:
λ1 = λ2 = " = λq .
sich die Anpassungsstatistik nicht signifikant, so kann die Eigenschaft nicht wi-
derlegt werden. Die Eigenschaft der Parallelität lässt sich überprüfen, indem man
zusätzlich eine Gleichheit der Fehlervarianzen in des Modell einführt. Dieses noch
stärker eingeschränkte Messmodell vergleicht man hinsichtlich der Anpassung mit
der des τ-äquivalenten Modells. Die Eigenschaft der τ-Äquivalenz muss sich aber
vorher bewährt haben.
Mit Hilfe des Tests von Gleichheitsrestriktionen lassen sich wichtige Eigeschaften
von Messmodellen überprüfen. Geht man davon aus, dass die Bedeutung von Kon-
strukten vornehmlich durch die Ladungen der Indikatoren bestimmt wird, so lässt
sich mit dem Verfahren des multiplen Gruppenvergleichs die Hypothese der em-
pirischen Bedeutungsgleichheit wie auch die Gleichheit bezüglich der Messfehler
prüfen.
Das Verfahren des multiplen Gruppenvergleichs wurde ursprünglich von Jö-
reskog (1971) entwickelt und hat sich seitdem zu einem Standardverfahren für
den Vergleich von Modellen der konfirmatorischen Faktorenanalyse und Struktur-
gleichungsmodellen zwischen unterschiedlichen Gruppen entwickelt (vgl. z.B. die
Darstellungen in Bollen, 1989, pp. 355; Reinecke, 2014, S. 69 ff.) Anwendungsbe-
reiche beziehen sich auf Vergleiche soziodemographischer Gruppen (vgl. z.B. Faul-
baum, 1987; Porst, Schmidt & Zeifang, 1987), auf den Vergleich zwischen Natio-
nen/Kulturen (vgl. Billiet, 2003; Faulbaum, 1990; Davidov et al., 2012; Davidov et
al., 2014; Gordoni & Smith, 2010) oder auf den Vergleich zwischen Modegruppen
(vgl. z.B. Gordoni, Schmidt & Gordoni, 2012; Hox, De Leeuw & Zijlmans, 2016).
Durch die gezielte Setzung oder Freisetzung von Parametern zwischen Gruppen
lassen sich die Unterschiede und Gleichheiten präzise lokalisieren. So kann man
z.B. feststellen, welche Gruppen sich in welchen Ladungen unterscheiden und in
welchen nicht.
316 IV.3 Fehlertheorie der Messungen
Die Zerlegung einer gemessenen Variablen in eine wahre Variable und eine Feh-
lervariable führt auf ganz natürliche Weise zum Begriff der Zuverlässigkeit bzw. Re-
liabilität von Messungen. Es scheint plausibel, eine perfekte Zuverlässigkeit dann
anzunehmen, wenn es keinen Messfehler gibt, d.h., wenn der Messfehler den Wert
0 annimmt und die beobachteten Messungen mit den wahren Werten übereinstim-
men. Die Definition der Reliabilität in der klassischen Testtheorie basiert auf der
Varianzzerlegung der beobachteten Variablen. Ist die Fehlervariable wie von der
klassischen Testtheorie postuliert von der wahren Variablen statistisch unabhängig,
so kann man die Varianz σx2 der beobachteten Variablen x in der folgenden Weise
zerlegen:
σ x2 = σ τ2 + σ ε2 .
In dieser Formel ist στ2 die Varianz der wahren Variablen (auch : wahre Varianz) und
σε2 die Varianz der Fehlervariablen (auch: Fehlervarianz). Die Reliabilität wird dann
definiert als Verhältnis der wahren Varianz zur Varianz der beobachteten Variablen
(auch: beobachtete Varianz) σx2:
σ τ2 σ x2 − σ ε2 σ ε2
ρx = = =1− 2 .
σx 2
σx2
σx
IV.3 Fehlertheorie der Messungen 317
Wir sehen, dass die Reliabilität den maximalen Wert von 1.0 und den minimalen
Wert von 0 annehmen kann. Die Reliabilität ist 1.0, wenn die beobachtete Varianz
gleich der wahren Varianz ist bzw. wenn die Fehlervarianz 0 ist.
Hat man ein kongenerisches Messmodell spezifiziert, das gut an die Daten an-
gepasst ist, so lässt gilt für die Varianz eines Indikators xi (vgl. Box IV.7):
Der nicht auf den Messfehler zurückgehende wahre Varianzanteil des Indikators ist
λi2 σξ2.
Die Reliabilität eines einzelnen Indikators kann man in diesem Fall definieren
als:
λi2σ ξ2 λi2σ ξ2
ρi = = 2 2 .
Var ( x i ) λi σ ξ + Var (δ i )
Unter der Bedingung, dass wir die Variable τ standardisieren, indem wir ihre Vari-
anz auf 1.0 fixieren und damit τ in Einheiten von Standardabweichungen messen,
ergibt sich als Varianz von xi:
In diesem Fall ergibt sich als Maß für die Reliabilität also
λi2σ ξ2 λi2
ρi = = 2 .
Var ( x i ) λi + Var (δ i )
Standardisieren wir außer der latenten Faktorvariablen auch noch den beobachte-
ten Indikator selbst, so ergibt sich
λi2
ρi = = λi2 .
1
318 IV.3 Fehlertheorie der Messungen
Cov ( x , x′ ) Cov (τ + ,τ + ′ )
ρ xx ′ = =
σ xσ x ′ σ xσ x ′
Cov (τ ,τ ) + Cov (τ , ε ) + Cov (τ , ε ′ ) + Cov ( ε , ε ′ )
=
σ xσ x ′
Cov (τ ,τ ) σ τ2 σ τ2
= = = 2 = ρx .
σ xσ x ′ σ xσ x ′ σ x
In der Ableitung wurde ausgenutzt, dass die Korrelationen zwischen den wahren
und den beobachteten Variablen 0 sowie zwischen den Fehlervariablen 0 sind und
dass die Varianzen paralleler Messungen gleich sind.
A. Test-Retest-Methode
Bei der Test-Retest-Methode werden die gleichen Untersuchungseinheiten zu 2 ver-
schiedenen Zeitpunkten t1 und t2 gemessen. Die Reliabilität wird dann durch die
Korrelation zwischen Messung und Wiederholungsmessung bestimmt. Vorausset-
zung ist, dass Messung und Wiederholungsmessung parallele Messungen darstel-
len. Dies ist aber nur dann der Fall, wenn die wahren Variablen perfekt korreliert
sind (siehe unten).
IV.3 Fehlertheorie der Messungen 319
B. Testhalbierungsmethode
Bei der Testhalbierungsmethode (engl. split-halves-Methode) wird versucht, aus ei-
nem vorgegebenen Test zwei parallele Testhälften bzw. Hälften einer Skala zu ge-
winnen. Dies kann dadurch geschehen, dass die Items nach Zufall auf zwei Hälften
verteilt werden, oder besser dadurch, dass Paare von Items mit gleichen Mittelwer-
ten und Standardabweichungen gebildet werden und anschließend ein Item jedes
Paares einer der beiden Testhälften zugeordnet wird. Sind beide Hälften parallel, so
ergibt die Korrelation zwischen den Testhälften die Reliabilität des halbierten Tests.
Durch die Anwendung einer speziellen Formel, der Formel von Spearman-Brown
(siehe unten), kann die Reliabilität der Testhälfte auf den Gesamttest hochgerech-
net werden.
Mangelnde Reliabilität von Messungen führt dazu, dass die beobachtete Korrela-
tion, d.h. die Korrelation zwischen zwei beobachteten Variablen, von der wahren
Korrelation, d.h. der Korrelation zwischen den assoziierten wahren Variablen ab-
weicht. Dies ergibt sich aus der sog. Verdünnungsformel (engl.: formula of attenuati-
on). Die aus den Definitionen der Reliabilität und der Definition einer Korrelation
leicht abeitbaren Verdünnungsformel hat die Gestalt:
ρ ( x, y )
ρ (τ x ,τ y ) =
ρx ρ y
ρ(τx, τy) : Korrelation zwischen den wahren Variablen der Messungen x und y
ρ(x, y) : Beobachtete Korrelation zwischen x und y
ρx, ρy : Reliabilitäten von x und y
320 IV.3 Fehlertheorie der Messungen
Aus der Formel erkennt man, dass die beobachtete Korrelation nur dann gleich
der wahren Korrelation ist, wenn beide Messungen eine perfekte Reliabilität von
1.0 aufweisen. Ist dies nicht der Fall, so unterschätzt die beobachtete Korrelation die
wahre Korrelation, und zwar um so mehr, je geringer die Reliabilitäten sind.
Aus der Verdünnungsformel ergeben sich wichtige Konsequenzen für das Ver-
hältnis von Reliabilität und Stabilität einer Messung. Seien x1 und x2 Messungen zu
zwei Messzeitpunkten t1 und t2. Dann ist ρ(τx1, τx2) die Korrelation zwischen den
wahren Messungen der beiden Messzeitpunkte. Diese Korrelation wird auch als
Stabilität bezeichnet. Die Anwendung der Verdünnungsformel auf die Messungen
zu den beiden Messzeitpunkten ergibt für die Stabilität:
ρ ( x1 , x 2 )
ρ (τ x1 ,τ x2 ) = .
ρ x1 ρ x2
ρ (τ x1 ,τ x2 ) ρ x1 ρ x2 = ρ ( x1 , x 2 ) .
Wenn wir annehmen, dass die Reliabilität eine Eigenschaft der Messung ist, die
über die Messzeitpunkte konstant ist, erhalten wir:
ρ (τ x1 ,τ x2 ) ρ x = ρ ( x1 , x 2 ) .
Man erkennt sofort, dass es sich um eine Gleichung handelt, in der nur die beob-
achtete Korrelation bekannt ist. Stabiltät und Reliabilität sind Größen, die man aus
der empirischen Korrelation schätzen müsste. Da es sich um eine Gleichung mit
zwei Unbekannten handelt, lässt sich eine der beiden Größen nur berechnen, wenn
die jeweils andere bekannt ist. Würde man z.B. annehmen, dass die Stabilität 1.0 ist,
wäre die Reliabilität gleich der der beobachteten Korrelation. Dies wäre der klassi-
sche Fall der Berechnung der Test-Restest-Korrelation als Maß für die Reliabilität.
Man kann sich nun die Frage stellen, wie viele Messzeitpunkte notwendig sind,
um Reliabilität und die Stabilität unabhängig schätzen zu können. Heise hat in ei-
nem 1969 erschienenen Aufsatz die Antwort darauf gegeben: Benötigt werden drei
Messzeitpunkte. Bei drei Messzeitpunkten stehen insgesamt drei empirische Kor-
relationen zur Verfügung: die Korrelation ρ(x1, x2) zwischen dem ersten und dem
zweiten Messzeitpunkt, die Korrelation ρ(x2, x3) zwischen dem zweiten und dem
IV.3 Fehlertheorie der Messungen 321
dritten Messzeitpunkt und die Korrelation ρ(x1, x3) ziwschen dem ersten und dem
dritten Messzeitpunkt. Es gelten also die folgenden Beziehungen:
ρ (τ x1 ,τ x2 ) ρ x = ρ ( x1 , x 2 ) ;
ρ (τ x2 ,τ x3 ) ρ x = ρ ( x 2 , x 3 ) ;
ρ (τ x1 ,τ x3 ) ρ x = ρ ( x1 , x 3 ) .
ρ (τ x1 ,τ x3 ) = ρ (τ x1 ,τ x2 ) ρ (τ x2 ,τ x3 ) ,
ergibt sich
ρ ( x1 , x 3 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
ρx = = = .
ρ (τ x1 ,τ x2 ) ρ (τ x2 ,τ x3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 )
ρx ρx ρ x2
ρ x2 ρ ( x1 , x 3 )
ρx = .
ρ ( x1 , x 2 ) ρ ( x 2 , x 3 )
Daraus folgt:
1 ρ ( x1 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 )
= bzw. ρ x = .
ρ x ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 3 )
Bei drei Messzeitpunkten lassen sich also die Reliabilitäten aus den beobachteten
Korrelationen ableiten. Wie die folgende Ableitung zeigt, lassen sich auch die Stabi-
litäten aus den beobachteten Korrelationen berechnen.
ρ ( x1 , x 2 ) ρ ( x1 , x 2 ) ρ ( x1 , x 2 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
ρ (τ x1 ,τ x3 ) = = = = .
ρx ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x 2 , x 3 )
ρ ( x1 , x 3 )
322 IV.3 Fehlertheorie der Messungen
ρ ( x2 , x3 ) ρ ( x2 , x3 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
ρ (τ x2 ,τ x3 ) = = = = .
ρx ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 )
ρ ( x1 , x 3 )
ρ ( x1 , x 3 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
2
ρ (τ x1 ,τ x3 ) = ρ (τ x1 ,τ x2 ) ρ (τ x2 ,τ x3 ) = = .
ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 )
Wir sehen also, dass sich die Stabilitäten unabhängig von der Reliabilität aus den
beobachteten Korrelationen schätzen lassen. Als Messmodell formuliert, ergibt sich
das in Abbildung IV.16 dargestellte Heise-Modell, einem Modell mit nur einem Indi-
kator (engl.: single indicator model) (vgl. auch Jagodzinski & Kühnel, 1987).
Tabelle IV.9: Reliabilitäten und Stabilitäten in Heise-Modellen (Jagodzinski & Kühnel, 1987)
nρ xx ’
ρx = .
1 + (n − 1)ρ xx ’
In dieser Formel ist ρxx΄ die Reliabilität der Einzelmessungen. Berechnen wir die
Reliablität für eine aus zwei parallelen Messungen, z.B. zwei Testhälften, zusam-
mengesetzte Messung, so muss von der Reliabilität einer Testhälfte auf die Reliabi-
lität des gesamten Tests hochgerechnet werden, so ist n = 2 anzusetzen, so dass sich
obige Formel auf die folgende Form reduziert:
2 ρ xx ’
ρx = .
1 + ρ xx ’
∑ w 2j σ i2 − ∑ j =1w 2j σ i2rjj
n n
j =1
ρx = .
∑ w 2j σ i2 + 2∑ j =1w jw kσ jσ krjk
n n
j =1
Jöreskog (1971) schlägt für die Indikatoren eines kongenerischen Messmodells ei-
nen gewichteten Score
vor. In dieser Formel ist w' eine Zeilenvektor von Gewichten, μ, λ und ε sind Spal-
tenvektoren der Mittelwerte, der Ladungen und der Fehler. Die Bestimmung der
Varianz von und die Anwendung der Definition der Reliabilität führt zu folgen-
dem Ausdruck für die Reliablität:
(¦ w λ )
2
m
( w'λ )
2
i i
i =1
ρ= = .
( w'λ ) + w'Θ w ( ¦ w λ ) + ¦ w λ Var (ε )
2 2 2
m m
i i i i 1
i =1 i =1
In diesem Ausdruck ist Θ2 ist die quadrierte Kovarianzmatrix der Fehler. Man kann
zeigen, dass die Reliabilität ein Maximum annimmt, wenn für die Gewichte der
Komponenten gilt:
λi
wi =
Var ( )
326 IV.3 Fehlertheorie der Messungen
Nehmen wir als Beispiel das kongerische Messmodell der extrinsischen Berufsori-
entierung mit den folgenden Ladungen und Fehlervarianzen:
Items λi
λi Var(ε) wi =
Var ( )
Sichere Berufsstellung 1.053 1.600 0.658
Hohes Einkommen 1.259 1.332 0.945
Gute Aufstiegsmöglichkeiten 1.276 0.468 2.726
Ein Beruf, der anerkannt und
geachtet wird 1.093 1.750 0.625
Zur Berechnung der Reliabilität der aus den Items gebildeten zusammengesetzten
Messung berechnen wir zunächst die Bestandtteile
2
⎛ m ⎞
⎜ ∑wi λi ⎟ = ⎡⎣(1.053 × .658 ) + (1.253 × .945 ) + (1.276 × 2.726 ) + (1.093 × .625 ) ⎤⎦
2
⎝ i =1 ⎠
= ( .693 + 1.184 + 3.478 + .658 ) = 6.0132 = 36.156
2
36.156 36.156
ρ= = = .858.
36.156 + 5.941 42.097
Bentler (1972), Bentler & Woodward (1980) und Shapiro (1982), leiten untere und
obere Grenzen für die Reliabilität multivariat verteilter Indikatoren in Modellen
der Faktorenanalyse ab.
Cronbachs α:
Man kann zeigen, dass für zusammengesetzte Messung x = y1 + y2 + ∙∙∙ + yn gilt,
dass
n ⎡⎢ ∑ i =1Var ( y i ) ⎥⎤
n
ρ x ≡ ρ ( x ,τ ) ≥ α =
2
1− .
n −1 ⎢ Var ( x ) ⎥
⎣ ⎦
IV.3 Fehlertheorie der Messungen 327
Der in der Formel auftauchende Koeffizient Į wird auch als Cronbachs Į bezeichnet
(vgl. Cronbach, 1951). Cronbachs Į ist gleich der Reliabilität, wenn die Messungen
wenigstens τ-äquivalent sind, d.h. die gleichen wahren Werte besitzen. Man kann Į
auch über die Kovarianzen zwischen unterschiedlichen Items definieren:
n ∑ i ≠ jCov ( y i , y j )
α= .
n −1 Var ( x )
In dieser Formel steigt Į mit steigenden Kovarianzen zwischen den Items relativ
zur Varianz des Gesamtscores. Dies zeigt, dass die Reliabilität maßgeblich über die
interne Konsistenz der Items bestimmt ist: Je stärker die Items zusammenhängen,
desto höher die Reliabilität.
Die Spearman-Brown-Formel (siehe oben) ergibt sich als Folgerung aus Cron-
bachs Į (vgl. Lord & Novick, 1968, p. 90). Sind die Items dichotom, so erhält man
als Spezialfälle die sog. Kuder-Richardson-Formeln.:
Seien pi und qi = 1 − pi die Antwortwahrscheinlichkeiten der Einzelmessungen
yi. Dann nimmt die Form der sog. Kuder-Richardson-Formel 20 an:
n ⎛⎜ ∑ i =1piqi ⎞⎟
n
α 20 = 1− .
n −1⎜ Var ( x ) ⎟
⎝ ⎠
n ⎛ npq ⎞
α 21 = ⎜1 − ⎟,
n − 1 ⎜⎝ Var ( x ) ⎟⎠
wobei:
∑
n
pi
p= i =1
n
und
∑
n
qi
q= i =1
.
n
328 IV.4 Die Validität von Messungen
Shapiro (1985; vgl. auch Bentler & Woodward, 1983) leiten die asymptotische Ver-
teilung der größten unteren Schranke der Reliabilität ab und ermöglichen damit
einen statistischen Test der Reliabilität.
Das Wort Validität bezeichnet den Grad bzw. das Ausmaß, mit dem ein Instrument
(z.B. Test, Fragebogen, Item) das zu untersuchende Konstrukt misst. Anders ausge-
drückt, bezeichnet das Wort Validität das Ausmaß, in dem ein Messinstrument das
misst, was es messen soll. Voraussetzung für die Anwendung statistischer Verfah-
ren der Validitätsberechnung ist, dass das Frageverständnis gesichert wurde, was
nur mit den in Teil V erläuterten Verfahren erreichbar ist.
Wir haben in Abschnitt IV.3.5 den Begriff der theoretischen Validität als Qua-
dratwurzel aus der Reliabilität bzw. als Korrelation zwischen Indikator und Kons-
truktvariablen definiert. Die theoretische Validität eines Indikators ist also um so
höher, je höher die Korrelation zwischen Indikator und Konstrukt ist. Von größerer
Bedeutung in der differentiellen und diagnostischen Psychologie, aber weniger in
der Umfrageforschung ist der Begriff der empirischen Valdidität. Im Unterschied
zur theoretischen Validität bezieht sich die empirische Validität auf die Korrelation
zwischen einer Messung und einem unabhängigen beobachtbaren Kriterium. Man
spricht daher auch von Kriteriumsvalidität oder kriteriumsbezogener Validität, wo-
bei man unterscheidet zwischen:
Beispiel:
Es wird überprüft, ob der mittlere Testwert eines Tests zur polizeilichen Eignung
für die Gruppe der erfolgreichen Polizisten signifikant höher ist als für die Gruppe
der nicht erfolgreichen Polizisten.
Für die Sammlung von Fragen/Items ist zentral, dass inhaltlich valide Fragen/Items
gefunden werden, d.h. Items, die als gute Indikatoren für ein Konstrukt gelten
könnten. Die Inhaltsvalidität (engl.: content validity) betrifft das Ausmaß, in dem
eine Menge von Items einen bestimmten inhaltlichen Bereich abdeckt; repräsen-
tieren die ausgewählten Items den vollen inhaltlichen Bereich, heißen sie inhaltlich
valide. Der Begriff der inhaltlichen Validität bezieht sich also auf die Qualität der
Operationalisierung sowie der Konzeptspezifikation. So wäre vielleicht ein Item zur
Messung zur Messung der politischen Partizipation nicht unbedingt inhaltlich vali-
de für die Messung ethnischer Vorurteile. Die Messung arithmetischer Fähigkeiten
muss alle Fähigkeiten abdecken und z.B. nicht nur Addition und Subtraktion.
Wenn man in der Lage ist, die geeigneten Daten zu erheben, lassen sich wichtige
Erkenntnisse über den Einfluss von Methoden und theoretischen Konstrukten auf
Valdität und Reliabilität von Messungen durch Inspektion sog. Multitrait-Multi-
method-Matrizen (kurz MTMM-Matrizen) erlangen (vg. Campbell & Fiske, 1959).
Die Inspektion von Multitrait-Multimethod-Matrizen dient der Überprüfung der
konvergenten (engl. convergent) und diskriminanten (engl.: discriminant) Validität.
Konvergente Validität liegt für ein Konstrukt dann vor, wenn unterschiedli-
che Operationalisierungen des Konstrukts, d.h. verschiedene Methoden seiner
Messung, zu ähnlichen Ergebnissen führen. Diskriminante Validität liegt für eine
Messung vor, wenn sich empirisch zeigen lässt, dass die Messung zwischen ver-
schiedenen Konstrukten differenzieren kann. Dies wäre dann der Fall, wenn eine
neu eingeführte Messung nicht zu hoch mit den Messungen anderer Konstrukte
korreliert.
In der klassischen Form erfordert die Aufstellung von MTMM-Matrizen, dass
alle Befragten unter allen methodischen Bedingungen und unter allen Konstrukten
gemessen wurden. Ist dies der Fall, so lassen sich die Korrelationen zwischen Mes-
sungen in Form einer MTMM-Matrix zusammenstellen, welche die in Abbildung
IV.17 dargestellt Form hat. In der Abbildung ist ein fiktives Beispiel dargestellt, in
dem extrinsische Berufsorientierung, die intrinsische Berufsorientierung und die
soziale Orientierung unter den Bedingungen der computeruntersützten Telefon-
befragung (CATI), der Face-to-Face-Befragung (FtF) und der Online-Befragung
über spezifische Indikatoren gemessen wurden. In die Beispielmatrix sind in der
Hauptdiagonalen die Reliabilitäten eingefügt, die mit Hilfe der in Abschnitt *5.5
oder über die Faktorenaladungen geschätzt werden können.
330 IV.4 Die Validität von Messungen
Wie aus Abbildung IV.13 zu entnehmen ist, kann man verschiedene Teile einer
MTMM-Matrix unterscheiden:
Korrelationen zwischen Konstrukten, die mit einer Methode gemessen wurden,
bilden sog. Heterotrait-Monomethod-Dreiecke. Die Heterotrat-Heteromethod-Drei-
ecke werden durch die Korrelationen zwischen Messungen unterschiedlicher Me-
thoden und Konstrukte gebildet. Die Validitätsdiagonalen enthalten die Korre-
lationen zwischen Messungen des gleichen Konstrukts unter den verschiedenen
Methoden. Validitätsdiagnonale und Heterotrait-Heteromethod-Dreicke bilden
einen Heteromethodenblock. Die Korrelationen innerhalb einer Methode bilden ei-
nen Monomethodenblock.
Konvergente Validität wird durch Inspektion der Korrelationen in der Validi-
tätsdiagonalen festgestellt. Diese sollten hoch sein. Diskriminante Validität liegt
vor, wenn die Werte der Heterotrait-Heteromethod-Dreiecke nicht so hoch sind
wie die in der Validitätsdiagonalen und wenn die Werte in den Heterotrait-Mono-
method-Dreiecken nicht so hoch wie die Reliabilitäten der Messungen sind.
Wenn wir die Methoden und Konstrukte als latente Variablen in ein Modell der
konfirmatorischen Faktorenanalyse zusammen mit den Messungen als Indikato-
ren aufnehmen, lassen sich die Effekte der Methoden und der Konstrukte auf die
Messungen bestimmen. In Abbildung IV.18 ist die Struktur eines Modells mit den
IV.4 Die Validität von Messungen 331
Variablen der MTMM-Matrix von Abbildung IV.14 dargestellt, wobei die Fehler-
variablen der Einfachheit der Darstellung halber nicht mit eingezeichnet und hin-
zugedacht werden müssen. Mit Hilfe der konfirmatorischen Faktorenanalyse lassen
sich die Einflüsse von Methoden und Konstrukten auf die Messungen schätzen.
Außerdem lassen sich mögliche Zusammenhänge zwischen den Methodenvari-
ablen und zwischen den Konstruktvariablen prüfen. Dank der Möglichkeit, Ein-
schränkungen der Parameter, etwa durch die Postulierung von Ladungsgleicheiten,
einzuführen, lassen sich detailliertere Modellstrukturen prüfen.
Unter der Annahme, dass die Methodenfaktoren mit den Konstruktfaktoren nicht
korreliert sind, lässt sich die Korrelation zwischen zwei beobachteten Variablen für
eine konstante Methode Mj in der folgenden Weise zerlegen (vgl. Saris & Gallhofer,
2014; Oberski, Saris & Hagenaars, 2010):
wobei:
Die obige Zerlegung lässt sich unter Anwendung der Regeln für das Rechnen mit
Kovarianzen (siehe Box III.7) leicht ableiten, denn es gilt:
λij und λkj sind die Quadratwurzeln aus den Reliabilitäten bzw. die theoretischen
Validitäten. Die Anwendung auf die Verdünnungsformel (siehe Abschnitt IV.3.7)
ergibt:
ρ ( y ij , y ik ) − mijmkj
ρ (ξ i , ξ k ) = .
λij λkj
Der Methodeneffekt auf die Variablen yij und ykj erhöht bzw. bereinigt also die Kor-
relation zwischen den latenten Konstrukten.
Als Methodenfaktoren können neben unterschiedlichen Kommunikationsfor-
men wie „telefonisch“, „Face-to-Face“ und „online“ unterschiedliche Aspekte von
Erhebungsinstrumenten eingeführt werden. So lassen sich etwa die Effekte unter-
schiedlicher Skalentypen studieren, wie z.B. Ratingskalen mit einer unterschied-
lichen Anzahl von Abstufungen oder unterschiedlichen Verbalisierungen. Auch
IV.5 Zusammenfassung 333
lassen sich die Effekte von Kategorialskalen genauer untersuchen, wenn man zu-
sätzlich latente Antwortvariablen in die Modellierung der MTMM-Matrix einbe-
zieht. So untersuchten Oberski, Saris und Hagenaars (2010) Kategorisierungsfeh-
ler, indem sie die latenten Schwellenwerte schätzten.
Modifikationen des MTMM-Ansatzes ergeben sich, wenn man zulässt, dass
nicht alle Befragten alle Items vorgelegt bekommen, sondern stattdessen eine zufäl-
lige Teilstichprobe eine Form der Items beantwortet und die andere Teilstichprobe
die andere Form der Items. Man spricht in diesem Fall von einem split-ballot-MT-
MM (vgl. Oberski, Saris und Hagenaars, 2010).
IV.5 Zusammenfassung
Das Ziel ernsthaft gemeinter Umfragen besteht immer in der Messung von Eigen-
schaften der Grundgesamtheit (siehe Teil I). Diese Messungen stellen Schätzun-
gen der statistischen Parameter bzw. der „wahren“ statistischen Eigenschaften der
Grundgesamtheit dar. Mitentscheidend für die Genauigkeit dieser Schätzungen
sind die zu den Nichtstichprobenfehlern gehörenden Messfehler sowie die Gül-
tigkeit der Messungen. Werden mit einer Messung Inhalte/Konstrukte gemessen,
die sich von den Inhalten, über die für eine Population Aussagen getroffen werden
sollen, unterscheiden, so führt dies zu einer Fehlinterpretation der statistischen
Ergebnisse. Eine mangelnde Reliabilität führt zu einer Einschränkung der Ausage-
kraft in dem Sinne, dass das Ergebnis in einer Erhebung unter den gleichen Bedin-
gungen anders aussehen würde.
Welche Verfahren zur Analyse von Reliabilität und Validität anwendbar sind,
richtet sich nicht zuletzt nach der gewählten Operationalisierung, der Anzahl der
Indikatoren, etc. Der gesamte Apparat der in diesem Teil vorgestellten Verfahren
wird von einem einzelnen Institut für eine einzelne Erhebung aus Kosten- und
Gründen der personellen Ausstattung nicht immer zu nutzen sein. Allerdings emp-
fiehlt sich die Nutzung bei Umfragen von besonderer nationaler, wissenschaftlicher
oder gesellschaftlicher Bedeutung, allgemein jedenfalls dort, wo auf der Basis von
Umfragedaten wichtige generalisierbare Erkenntnisse gewonnen werden sollen,
aus denen wissenschaftliche Konsequenzen gezogen werden sollen oder die der
politischen Entscheidungsvorbereitung dienen. Gelegentlich wird man an Stelle
eigener Analysen bereits bewährte Survey-Items nutzen können. Dabei kann auf
Datenbanken wie Mikrodaten-Informationssysten (kurz: Missy) oder den Daten-
bestandskatalog von GESIS zurückgegriffen werden.
Teil V: Entwurf und Evaluation von Fragen
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 335
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_5
V.1 Überblick
Der Entwurf eines Fragebogens sollte mit einer Überlegung darüber beginnen,
welche Informationen durch Selbstauskünfte des Befragten erhoben werden sollen.
Diese Überlegungen müssen die Forschungsfragestellung und die zu erhebenden
Konstrukte in den Blick nehmen, für welche die Fragen angemessene Operatio-
nalisierungen darstellen sollen. Der Entwurf eines Fragebogens ist ein mehr oder
weniger langer Prozess, der mit der Ausarbeitung der Inhalte, ggf. unter Einbe-
ziehung von Expertisen oder Ergebnissen vorgeschalteter Gruppendiskussionen
und ersten Entwürfen von Survey-Items und ihren Bestandteilen beginnt. Dabei
geht es sowohl um die Texte von Fragen und Items als auch um die Konzeption
geeigneter Antwortvorgaben und Skalen. Es steht außer Zweifel, dass die Phase des
Erstentwurfs eine der schwierigsten Phasen der Fragebogenentwicklung darstellt,
insbesondere dann, wenn an der Entwicklung ein nationales oder internationales
Team beteiligt ist, was in er Regel wiederholte Abstimmungen und Diskussionen
der Entwürfe erfordert.
Der Entwurf einer Frage erfordert Entwürfe aller Bestandteile einer Frage. Wird
im Fragetext die Bewertung von Items verlangt, stellen die Items in der Regel Ope-
rationalisierungen der zugrundeliegenden Konstrukte dar. Für jedes Item ist ein
Textentwurf, die Festlegung der Antwortdimension (z.B. Wichtigkeit, Zufrieden-
heit, etc.) sowie die Auswahl des Antwortformats einschließlich möglicher Verba-
lisierungen erforderlich.
Es liegt nahe, noch vor einem eigenen Entwurf zu prüfen, ob es bereits Fragen/
Items aus anderen Erhebungen gibt, die als Operationalisierung in Frage kommen.
Dazu ist es erforderlich, in einschlägigen Dokumentationssystemen nachzusehen,
die Auskunft nicht nur über die Datensätze, sondern auch über die mit den Er-
hebungen verbundenen Metadaten geben, zu denen auch Fragen und Fragebögen
gezählt werden können. Ehe schlechte Fragen mit der Begründung der Aufrecht-
erhaltung der Vergleichbarkeit mit den Ergebnissen anderer Erhebungen nicht im-
mer perpetuiert werden, sollte geprüft werden, ob für die Fragen/Items Angaben
über Gütekriterien vorliegen. Auch aus anderen Erhebungen übernommene Fra-
gen sollten wie die eigenen Erstentwürfe auf mögliche Probleme abgeklopft wer-
den, wobei auch Fragebewertungssysteme eingesetzt werden können (siehe unten).
Nicht alle Fragen, auf die ein Designer in der Vergangenheit stolz war, sollten auch
eine Zukunft haben, wenn sie Probleme beinhalten.
Besonders bei seit langem etablierten Item-Skalen, die bestimmte Dimensionen
messen, wie etwa Beschwerdeskalen in der Gesundheitsforschung oder psychologi-
sche Skalen wie z.B. Extraversion kommt man um deren Verwendung oft nicht he-
338 V.1 Überblick
rum. Oft liegen für diese Skalen aber auch Angaben über Gütekriterien vor, wenn
nicht in Datenbanken, dann in der einschlägigen Literatur.
Wie bereits mehrfach in Teil III immer wieder ausgeführt, stellt eine Frage eine
Aufforderung dar, eine im Fragetext beschriebene Aufgabe zu lösen. Diese Aufgabe
besteht möglicherweise nicht nur im einfachen Abruf einer Antwort, sondern kann
z.B. Entscheidungen wie in Wahlexperimenten oder in der Randomized-Respon-
se-Technik (siehe Teil III) beinhalten. Auch nonverbales Verhalten kann Teil der
Aufgabe sein. So kann eine Frage nach dem Energieverbrauch eine Bitte um das
Heraussuchen der letzten Stromrechnung erfordern; eine Frage nach dem Gewicht
kann eine Gewichtsmessung beinhalten, etc. Die erfolgreiche Lösung der Aufgabe
wird dann durch die Antwort dokumentiert.
Liegt ein erster Frageentwurf vor, lässt sich dieser Entwurf noch einmal mit
Hilfe eines Fragebewertungssystems (siehe unten) hinsichtlich seiner Qualität
überprüfen, um Quellen von Gefährdungen des Frage- und damit des Aufgaben-
verständnisses sowie mögliche Probleme des Befragten mit der Erfüllung Aufgabe
bzw. der Leistungserbringung schon vor Einsatz eines empirischen Prüfungsver-
fahrens identifizieren zu können. Der nach erfolgten Prüfungen resultierende Fra-
geentwurf stellt dann einen optimierten Anwärter auf die finale Frageformulierung
dar. Dieser sollte aber in jedem Fall noch einmal einem empirischen Prüfungs-
verfahren unterworfen werden, um noch existierende Probleme, die Befragten
mit den Frageentwürfen und dem Fragebogenentwurf haben, zu erkennen und
die Entwürfe entsprechend modifizieren zu können. Besondere Aufmerksamkeit
sollte dem Frageverständnis gewidmet sein. Der Forscher bzw. der oder die Fra-
gebogendesigner entwerfen die Fragen in der Regel unter Zugrundelegung des
eigenen Verständnisses, d.h. sie verleihen einem Text die eigene Bedeutung. Wie
bereits in Teil III ausgeführt wurde, kann sich diese von den Bedeutungen, die be-
stimmte Subgruppen der Population dem Fragetext geben, unterscheiden. Für die
Interpretation der späteren Daten und als Voraussetzung für die Beurteilung der
Validität ist ein Überblick darüber, wie Befragte den Fragetext verstehen, außeror-
dentlich wünschenswert. Der Forscher bekommt dann Hinweise, in welcher Form
er den Text ändern muss, um das von ihm intendierte Verständnis zu erzeugen.
Es versteht sich, dass der z.T. hohe Zeit- und Kostenaufwand für die Ermittlung
des Frageverständnisses nur bei solchen Fragen erfolgen sollte, bei denen ein vom
Verständnis des Forschers unterschiedenes Verständnis auf Seiten der Befragten
vermutet werden kann.
Zur Überprüfung der Frageentwürfe stehen aber nicht nur auf die Prüfung des
Frageverständnisses abzielende Verfahren zur Verfügung, sondern vielmehr eine
ganze Palette weiterer Verfahren mit unterschiedlichen Schwerpunkten. Das Fra-
geverständnis und die Qualität von Fragetexten ist zwar ein zentrales Anliegen der
V.2 Der Erstentwurf einer Frage 339
Evaluation von Fragen. Es geht aber auch um kostenrelevante Merkmale wie die
Zeit, die es braucht, um eine Frage oder einen Fragebogen zu bearbeiten, Gesamt-
beurteilungen des Erhebungsinstruments aus Sicht der Befragten und der Inter-
viewer.
Schon der erste Entwurf einer Frage, ob er nun in Teamarbeit erstellt wurde oder
nicht, sollte von vornhinein darauf gerichtet sein, die Qualität der Antwort zu op-
timieren, soweit sie durch die Wahl des Frageinhalts und des Fragetextes kontrol-
liert werden kann. Dabei sollten nach Möglichkeit die Untersuchungsergebnisse
über die Wechselwirkungen von Fragetexten, Personen und Kommunikationsform
beachtet werden. Den Überblick darüber können eigentlich nur auf die Umfrage-
forschung spezialisierte Teams haben. Notwendig sind solche Teams der Qualitäts-
sicherung besonders an Einrichtungen, die Umfragen mit hohem wissenschaftli-
chem Anspruch und großer Bedeutung für die akademische Forschung oder für
die Sammlung von Erkenntnissen von nationaler oder internationaler Bedeutung
über Wirtschaft und Gesellschaft selber durchführen oder durch Institute betreuen
lassen.
In der Vergangenheit gewonne Ergebnisse der Umfrageforschung zur Optimie-
rung von Fragen und Fragebögen, ergänzt durch „Common Sense“ schlagen sich
in zahlreichen Empfehlungen und Richtlinien nieder, die beim Entwurf von Fragen
beachtet werden können. Manche dieser Empfehlungen sind gut gemeint, lassen
sich aber oft in der Praxis nur teilweise oder überhaupt nicht realisieren, weil For-
schungsthema und andere Vorgaben, etwa der Kommunikationsform dies nicht
erlauben.
Einige Empfehlungen ergeben sich schon aus dem Ansatz des maßgeschneider-
ten Designs von Dillman (zum Begriff des maßgeschneiderten Designs siehe I.4.4).
Auf die Konstruktion von Erhebungsinstrumenten beziehen sich die folgenden
Vorschläge (vgl. Dillman, 1997):
• Konstruktion eines interessanten Fragebogens;
• Vermeidung einer herablassenden Sprache bzw. Befehlsformen;
• Vermeidung von Verlegenheit oder Verwirrung der Befragten;
• Vermeidung von Unannehmlichkeit bzw. Unbequemlichkeit;
340 V.2 Der Erstentwurf einer Frage
• Entwurf eines kurzen und leichten Fragebogens (gilt besonders für Selbst-ad-
ministrierte Interviews);
• Reduzierung von Forderungen nach persönlichen Informationen, die die Be-
fragten nicht gerne weitergeben;
• Verwendung untereinander konsistenter Fragen.
In Bezug auf den Entwurf von Fragebögen und Fragen ergibt sich aus dem Ansatz
vor allem die Konsequenz, die Belastungen des Befragten, seien es kognitive, emo-
tionale Belastungen oder Belastungen durch schlechte Benutzerfreundlichkeit des
Fragebogens, gering zu halten.
Sofern Erkenntnisse zu Auswirkungen physischer, psychologischer und sozi-
aler Merkmale der Befragten auf die Beantwortung von Fragen vorliegen, sollten
diese soweit wie möglich schon beim Entwurf von Fragebögen und Fragen Berück-
sichtigung finden. Zur Kontrolle der emotionalen und kognitiven Ressourcen gibt
es Bestrebungen, kurze Skalen zu Messung dieser Ressourcen in den Fragebogen
einzuführen Ein Beispiel ist der Versuch, die sog. „big five“ (die Persönlichkeitsfak-
toren Extraversion, soziale Verträglichkeit, Gewissenhaftigkeit, Neurotizismus, Of-
fenheit/Intellekt) durch Kurzskalen in Fragebögen zu integrieren (vgl. Rammstedt
2004; Rammstedt & John 2007).
Bei allen Bemühungen ergibt sich schon aus der zu erwartenden Heterogeni-
tät der Population, dass es bei allgemeinen Bevölkerungsumfragen Fragen geben
kann, die nicht für alle Teilgruppen der Stichprobe optimal sind.
Allgemeine Empfehlungen für den Entwurf von Fragen sind wegen der Abhän-
gigkeit von den Besonderheiten der Studie sowie der Abhängigkeit von den De-
tails der Ausführungsbedingungen einer Frage immer mit einer gewissen Vorsicht
zu behandeln. Hinzu kommt, dass die Ergebnisse empirischer Studien und deren
Empfehlungen nicht immer verallgemeinert werden können, da diese oft nur ein-
mal und unter besonderen methodischen Randbedingungen erhoben wurden und
Replikationen fehlen. Groves et al. (2009) greifen in ihren Empfehlungen Anregun-
gen von Sudman & Bradburn (1982) auf und entwickeln auf dieser Basis eine Reihe
von Empfehlungen, von denen jede empirisch begründet wird. Die Empfehlungen
sind auf die Optimierung der Antwortqualität ausgerichtet und aufgeschlüsselt
nach nichtsensitiven Verhaltensfragen, sensitiven Verhaltensfragen, Einstellungs-
fragen und selbst-administrierten Fragen, wobei nicht nur die Frageformen, son-
dern auch Aspekte der Leistungsfähigkeit des Befragten, der Antwortprozess und
Kommunikationsformen berücksichtigt werden. Sie ersetzen in Teilen bereits be-
stimmte Aspekte von Fragebewertungssystemen:
V.2 Der Erstentwurf einer Frage 341
Nichtsensitive Fragen:
Sensitive Verhaltensfragen:
• Verwenden Sie eher offene als geschlossene Fragen, um die Häufigkeit sensibler
Ereignisse zu erfragen.
• Verwenden Sie eher lange als kurze Fragen.
• Verwenden Sie vertraute Worte, um sensitive Verhaltensweisen zu beschreiben.
• Versuchen Sie die Frage als „Einladung“ zu einer sozial nicht akzeptablen Ant-
wort zu formulieren, indem Sie Formulierungen wählen wie den „Jeder-tut-
es-Ansatz (everybody-does-it-approach)“ (z.B. „Selbst die ruhigsten Eltern
342 V.2 Der Erstentwurf einer Frage
Einstellungsfragen:
unterschiede der Adverbien unter den Befragten mit einer gewissen Vorsicht
zu behandeln.
• Beginnen Sie mit der Antwortalternative, die am wenigsten üblich ist.
• Verwenden Sie Analoginstrumente wie z.B. Thermometer, um detailliertere
Skaleninformationen zu erhalten.
• Lassen Sie Items nur dann in eine Rangordnung bringen, wenn die Befragten
alle Alternativen sehen. Ist dies nicht der Fall, lassen Sie lieber Paarvergleiche
durchführen.
• Lassen Sie jedes Item bewerten und verwenden Sie keine „check-all-that-ap-
ply“-Items
Selbst-administrierte Fragen:
Einige dieser Empfehlungen wie das Sammeln von Daten zur Validierung von In-
formationen erfordern einen besonderen Aufwand und werden nur in finanziell
entsprechend ausgestatteten Umfrageprojekten realisiert werden können. Insbe-
sondere die Verfügbarkeit von Informationen spielt hier eine zentrale Rolle. Auch
die obigen Empfehlungen bedürfen immer wieder der Überprüfung.
Voraussehbare Mängel im Zusammenhang mit traditionellen Frageformen
können auch dadurch gelöst werden, dass zusätzliche Befragungshilfen oder Inter-
aktionsmöglichkeiten mit dem Interviewer geschaffen werden (vgl. Schober 1999).
344 V.2 Der Erstentwurf einer Frage
Dillman (2000), Dillman, Smyth & Christian (2014) und Couper (2008) leiten auf
der Basis empirischer Befunde eine Reihe von Empfehlungen ab, die bei der Gestal-
tung des Layouts bei Webumfragen beachtet werden sollten und die an dieser Stelle
zusammengefasst werden:
Gesamtaufteilung des Bildschirms:
• Der Bildschirm sollte klar strukturiert sein Er sollte trennscharf aufgeteilt sein
in den Kopfteil (engl.: header), den inhaltlichen Teil (Befragungsteil) und den
Navigationsteil.
Typographie:
• Wähle eine Schriftart und benutze sie konsistent;
• Widerstehe der Versuchung, in der Verwendung von Schriftarten kreativ zu
sein;
• Wähle keinen festen Schriftgrad, sondern überlasse die Kontrolle über den
Schriftgrad den Befragten;
• Ein festgelegter Schriftgrad sollte nicht unter dem Default-Wert des vom Be-
fragten verwendeten Browsers liegen;
• Verwende eine Kombination von Zeilenlänge und Zeilenabstand, um die Les-
barkeit zu erhöhen;
• Verwende unterschiedliche Schriftarten und Schriftmerkmale um zwischen
unterschiedlichen Textarten (Fragen, Antwortalternativen, Instruktionen, etc.)
zu unterscheiden;
• Vermische nicht unterschiedliche typographische Eigenschaften in der Darstel-
lung eines sprachlichen Ausdrucks (z.B. gleichzeitige Verwendung der Eigen-
schaften „fett“, „Großbuchstaben“ und „Unterstreichung“.
Außerdem sollte man vorsichtig bei der Verwendung von Heraushebungen bzw.
Betonungen sein.
Farbgestaltung:
Farben können auf drei Dimensionen unterschieden werden:
• Farbton (engl.: hue);
• Farbsättigung (Grad der Reinheit der Farbe) (engl.: colour saturation)
• Farbhelligkeit (Anteil von „schwarz“ und „weiß“ in der Farbe) (engl.: bright-
ness)
V.2 Der Erstentwurf einer Frage 345
Für den Entwurf einer Matrix gibt Couper (op. cit.) die folgenden Empfehlun-
gen:
• Meide horizontales „Scrolling“; sorge dafür, dass alle Spalten (Antwortalterna-
tiven) sichtbar sind;
• Sorge dafür, dass die Spaltenüberschriften sichtbar sind, wenn vertikal gescrollt
wird.
• Erlaube, dass sich die Tabelle der Größe des Browsers anpasst;
• Sorge dafür, dass Spalten für skalare Antwortalternativen von gleicher Breite
sind;
• Verwende Schattierung und Abstand so, dass sie Augen und Maus auf die Ant-
wortalternativen lenken.
• Vermeide visuelles Durcheinander; minimiere das Ausmaß externer Informa-
tion in der Tabelle;
• Teile das Gitter, falls es zu komplex ist, in kleinere Teile auf.
Dillman (2007) hat auf der Basis seiner Konzeption eines maßgeschneiderten Designs
zur Optimierung der Datenqualität eine Reihe von Prinzipien entwickelt, die man spe-
ziell bei der Gestaltung des Layouts in computerunterstützten selbst-administrierten
Befragungen wie E-Mail-Befragungen oder Befragungen im Internet beachten sollte.
Die auf die Fragengestaltung von Webumfragen bezogenen Prinzipien sind:
• Präsentiere jede Frage in einem konventionellen Format ähnlich wie das bei
Papierfragebögen
• Gebrauche Farben so, dass die Figur/Hintergrund-Konsistenz und die Lesbar-
keit erhalten bleiben, der Fluss der Navigation nicht behindert wird und die
Messqualitäten des Fragebogens nicht gefährdet werden
• Vermeide, dass aus unterschiedlichen Bildschirmkonfigurationen, Betriebssys-
temen, Browsern, Beschränkungen des Displays und ungewollten Textumbrü-
chen Unterschiede im visuellen Erscheinungsbild entstehen.
• Verwende spezifische Anweisungen, wie man jede notwendige Aktivität am
Computer durchführt, die für die Beantwortung der Fragen notwendig ist; füh-
re weitere Anweisungen an dem Punkt ein, wo sie benötigt werden
• Verwende „Drop-down-Boxen“ nur sehr sparsam (mögliche Effekte der Befra-
gungsart z.B. bei multiplen Antwortvorgaben)
• Gestalte Sprunganweisungen so, dass diese zur Markierung der Antworten er-
mutigen und zum Anklicken der nächsten anwendbaren Frage führen.
• Konstruiere Web-Fragebögen so, dass sie von Frage zu Frage scrollen, voraus-
gesetzt es sind keine Reihenfolgeeffekte zu vermuten
V.3 Vom Erstentwurf zur finalen Frage: Instrumente des Evaluationsprozesses 347
• Wenn die Zahl der Antwortvorgaben die Zahl übersteigt, die auf einen Bild-
schirm oder einer Spalte darstellbar ist, ziehe eine doppelte Anordnung („dou-
ble banking“) in Betracht
• Verwende graphische Symbole oder Worte, um den Befragten darüber zu in-
formieren, an welcher Stelle der Bearbeitung er sich befindet (Statusanzeige).
Vermeide solche, die den Rechner zusätzlich belasten.
• Übe Zurückhaltung in der Verwendung von Fragestrukturen, die schon be-
kannte Messprobleme bei schriftlichen Fragebögen verursachen wie offene Fra-
gen oder Auswahl mehrerer Items aus einer Liste
Bei der Gestaltung des Layouts sollten stets auch laufend empirische Befunde über
mögliche Wirkungen in den Entwurf einbezogen werden.
Entwürfe von Fragen und Fragebögen bedürfen zur Optimierung ihrer Qualität und
zur Abschätzung ihrer Wirkungen auf die Befragten stets der nachfolgenden Evalua-
tion. Die Optimierung der Qualität erfordert zunächst die Identifikation möglicher
Qualitätsbeeinträchtigungen bzw. Schwächen des Erhebungsinstruments. Auf der
Basis dieser Diagnose können dann Verbesserungen des Entwurfs erfolgen, wobei
diese Verbesserungen zwecks weiterer Optimierung wieder in den Diagnoseprozess
zurückgespielt werden können. Die Schwächenanalyse sollte sich auf alle Aspekte ei-
nes Erhebungsinstruments beziehen, um möglichst alle negativen Wirkungen auf die
Befragten im Interview zu reduzieren oder sogar auszuschließen. Zu diesen Aspekten
gehören neben den Fragetexten das Layout der Fragen (bei Selbst-administrierten
Interviews) und die Interviewer-Instruktionen (bei Interviewer-administrierten In-
terviews) auch die Navigation durch den Fragebogen. Einige dieser Aspekte wie z.B.
das Verständnis von Fragetexten können von anderen Aspekten wie etwa dem Layout
und dem Navigationsverhalten getrennt evaluiert werden.
Zur Evaluation von Erhebungsinstrumenten kann ein Repertoire unterschied-
licher Verfahren zur Diagnose von Schwächen bzw. Qualitätsbeeinträchtigungen
herangezogen werden. Dazu gehören:
Der Einsatz von Fragebewertungssystemen erlaubt bereits vor dem Einsatz empi-
rischer Evaluationsverfahren eine vorläufige Diagnose der Qualitätsbeeinträch-
tigungen von Fragen und ihren Komponenten. Grundlage solcher Systeme sind
Klassifikationen von Problemen, die bei Fragen/Items auftreten können. Der Ein-
satz dieser Diagnoseinstrumente gestattet eine Konzentration der empirischen
Verfahren auf eine reduzierte Menge noch verbleibender Probleme. Damit wird
insbesondere vermieden, dass mit dem empirischen Pretest Probleme mit Fragen
entdeckt werden, die bereits am „grünen Tisch“ hätten beseitigt werden können.
Mit dem Einsatz von Fragebewertungssystemen werden bereits im Vorfeld Reakti-
onen der Befragten ausgeschlossen, die sich auf offensichtliche Mängel der Fragen
beziehen. Allerdings können Fragebewertungssystem oft nur mögliche Gefährdun-
gen der Qualität aufzeigen. So muss etwa für einen konkreten Befragten eine über
das Bewertungssystem als sensitiv eingestufte Frage nicht unbedingt sensitiv sein.
Hieraus ergibt sich zweifellos die Empfehlung, bei der Verwendung von Fragebe-
wertungssystemen immer die Zielgruppe im Auge zu behalten.
Expertenrunden dienen in der Entwurfsphase dazu, einen Erstentwurf weiter
durch den gemeinsamen Austausch von Argumenten zu verbessern und Qualitäts-
mängel aufzudecken. Im Kern geht es um die Verbesserung der Operationalisie-
rung, indem z.B. geprüft wird, ob es angemessenere Inhalte für den Erstentwurf
gibt, die das Konstrukt besser repräsentieren.
Gruppendiskussionen über Entwürfe von Fragen können dazu beitragen, Unter-
schiede im Frageverständnis zu entdecken.
Empirische Pretest-Verfahren erlauben die Entdeckung von Problemen, welche
Befragte mit Fragen haben und die Untersuchung des Frageverständnisses;
Verfahren zur Evaluation der Benutzerfreundlichkeit bzw. Handhabbarkeit kön-
nen zur Untersuchung der Wirkung des Layouts und der Funktionalität program-
mierter Erhebungsinstrumente eingesetzt werden wobei zahlreiche technische
Hilfsmittel zur Verfügung stehen wie z.B. Eye-Tracking-Verfahren oder Videoauf-
zeichnungen. Insbesondere zur Entdeckung von Navigationsproblemen und Prob-
lemen der Filterführung, also zur Funktionsprüfung programmierten Fragebogen
können auch Simulationen durchgeführt werden, indem der Fragebogen unter al-
V.3 Vom Erstentwurf zur finalen Frage: Instrumente des Evaluationsprozesses 349
len Besetzungen der Werte von Filtervariablen geprüft wird. Insbesondere Fehler in
der Fragebogenprogrammierung lassen sich hiermit identifizieren.
Die Evaluation von Fragebögen und Fragen ist oft kein einfacher linearer Prozess.
Nicht selten muss das evaluierte Instrument nach der Beseitigung von Mängeln noch
einmal in die Evaluation, um die verbesserten Entwürfe noch einmal zu prüfen. Für
die Entwicklung von Fragetexten würde dies bedeuten, dass nach Fertigstellung des
Anfangsentwurfs des Fragetextes, der bereits unter Einbeziehung der in Abschnitt
2.2 erwähnten allgemeinen Empfehlungen erfolgt sein sollte, eine Evaluation des
Entwurfs stattfindet, wobei sich eine gewisse Reihenfolge der Evaluationsschritte
anbietet. Ein sinnvoller Ablauf der Optimierung von Fragetexten ist in Abbildung
V.1 dargestellt. Die Modifikation des Fragetextes auf der Basis der Pretest-Befunde
sollte so lange fortgesetzt werden bis weder die Evaluation mit Hilfe eines Fragebe-
wertungssystems noch empirische Pretest-Verfahren keine Beanstandungen ergeben.
Abbildung V.1: Beispiel für die Optimierung des Textentwurfs einer Frage
350 V.4 Fragebewertungssysteme
Um das tatsächliche Verständnis von Fragen und Begriffen zu prüfen, sind, zumin-
dest bei Fragen, die Begriffe enthalten, deren Verständnis in der Zielpopulation mut-
maßlich unklar oder heterogen ist, spezifische Pretest-Verfahren, sog. kognitive Inter-
views, zur Überprüfung des Frageverständnisses empfehlenswert (siehe unten).
Neben den erwähnten Verfahren lassen sich bei ausreichend großer Pre-
test-Stichprobe und geeignetem Umfragedesign (z.B. Paneldesign, Integration von
latenten Variablen mit multiplen Indikatoren) statistische Analysen der Reliabilität
und Validität entsprechend der Definitionen in Teil IV durchführen. Diese Ana-
lysen können unter entsprechenden Designvoraussetzungen (Test-Retest-Design,
multiple Indikatoren) auch mit den Daten der Haupterhebung durchgeführt wer-
den. Allerdings entfällt in diesem Fall der Einsatz des auf Basis dieser Analysen
modifizierbaren Instruments in der laufenden Studie. Die Ergebnisse können zur
Optimierung zukünftiger Erhebungsinstrumente berücksichtigt werden.
V.4 Fragebewertungssysteme
Das Fragebewertungssystem von Willis und Lessler basiert auf einer Einteilung,
die sich sehr eng an den Stufen des Antwortprozesses orientiert. Es unterscheidet
folgende Problemklassen:
352 V.4 Fragebewertungssysteme
• Antwortkategorien
• Offene Fragen
• Fehlende Übereinstimmung von Fragetext und Antwortkategorien: Die
Antwortkategorien passen nicht zu den Fragen
• Fachausdrücke sind undefiniert, unklar oder zu komplex (z.B. bei Che-
mikalien und Medikamenten)
• Ungenauigkeit: Ungenau formulierte Antwortkategorien lassen mehrere
Interpretationsmöglichkeiten zu.
• Überschneidungen: Es existieren Antwortkategorien, die sich über-
schneiden
• Fehlende Antwortkategorien: Es fehlen zu möglichen Antworten die
Antwortkategorien
• Unlogische Anordnung
Beispiele
• Fehlendes Wissen/Erinnerungsvermögen
V.4 Fragebewertungssysteme 357
• Sensitivität/Beeinflussung
358 V.4 Fragebewertungssysteme
Antwortkategorien
V.4 Fragebewertungssysteme 359
Faulbaum, Prüfer und Rexroth (2009) haben das System von Willis und Lessler
erweitert und mit deutschen Beispielen versehen. Es hat die in Übersicht V.1 dar-
gestellte Einteilung.
Übersicht V.1: Das Kategoriensystem des FBS von Faulbaum, Prüfer und Rexroth
Bereich C: Erinnerungsvermögen
C1 Eine Erinnerungsleistung ist schwer oder gar nicht zu erbringen.
Bereich D: Berechnung/Schätzung
D1 Es wird eine schwierige Berechnung/Schätzung verlangt.
V.4 Fragebewertungssysteme 361
V.5.1 Überblick
Pf = 1 − (1 − d f π f )
n
log (1 − Pf )
n= .
log (1 − d f π f )
Blair und Conrad beobachteten eine Zunahme von Problemen bis zu einem Stich-
probenumfang von n=90 (vgl. Blair & Conrad, 2011, p. 650).
Abbildung V.3 gibt einen Überblick über unterschiedliche Pretest-Verfahren,
die vor allem bei Fragen und Fragebögen für Interviewer-administrierte Interviews
Anwendung finden, von denen sich aber einige einzeln oder in Kombination auch
bei Pretests für Selbst-administrierte Erhebungsinstrumente wiederfinden. Bei
Selbst-administrierten Erhebungsinstrumenten kommen zusätzlich spezifische
Verfahren zum Test der Handhabbarkeit (engl.: usability) dazu.
364 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)
Von ganz besonderer Bedeutung ist bei empirischen Pretest-Verfahren die Zusam-
mensetzung der Pretest-Stichprobe. Probleme, die Zielpersonen mit Fragen haben
können, lassen sich nur erkennen, wenn die Pretest-Stichprobe Personenmerkma-
le abdeckt, die für das Verstehen von Fragen von Bedeutung sind. Bei allgemei-
nen Bevölkerungsumfragen sollte in jedem Fall darauf geachtet werden, dass die
Breite der soziodemographischen Merkmale „Alter“, „Geschlecht“ und „Bildung“
vertreten ist. Um dies zu garantieren, kann unabhängig davon, ob es sich um ein
kognitives Interview oder einen Feld-Pretest handelt, auf jeden Fall eine Quotie-
rung vorgenommen werden. Tabelle V.1 zeigt das Beispiel eines Quotenplans. Bei
Feldpretests, welche die Befragungssituation in der Haupterhebung widerspiegeln
sollen, kann die Pretest-Stichprobe wie in der Haupterhebung vorgesehen zufällig
gezogen werden. Allerdings besteht bei geringen Stichprobenumfängen die Gefahr,
dass wichtige soziodemographische Subgruppen in der Pretest-Stichprobe nicht
ausreichend oder gar nicht repräsentiert sind.
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 365
V.5.2.1 Überblick
Kognitive Interviews (vgl. Miller, 2011, 2014; Prüfer & Rexroth 2005; Willis 2004,
2005, 2015) sind ein Werkzeug zur Evaluation des Frageverständnisses und sollen
einen Einblick in die kognitiven Prozesse vermitteln, die bei der Beantwortung von
Fragen ablaufen. Wie bereits mehrfach erwähnt, sollte ein Forscher grundsätzlich
nicht davon ausgehen, dass sein eigenes Begriffsverständnis mit dem der Befragten
übereinstimmt. Viele Forscher wären vermutlich überrascht, vielleicht sogar entsetzt,
wenn sie zur Kenntnis nehmen müssten, wie weit das Verständnis der Befragten von
ihrem eigenen entfernt ist. Die Gefahr erscheint durchaus nicht abwegig, dass pub-
lizierte Ergebnisse auf Grund einer Fehleinschätzung des Frageverständnisses in der
Vergangenheit fehlinterpretiert worden sind. Es ist sogar damit zu rechnen, dass die
Problematik einer Fehleinschätzung des Frageverständnisses auf Grund der zuneh-
366 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)
Werden Nachfragen auf Begriffe in der Antwort des Befragten bezogen, so spricht
man auch von bedingten Nachfragen (engl.: conditional probing). Beziehen sich
Nachfragen auf keinen spezifischen Aspekt der Frage, so spricht man von einer
unspezifischen Nachfrage. Die Auswahl der Fragen, bei denen Nachfragen gestellt
werden, kann auch unsystematisch per Zufall erfolgen (engl.: random probe).
368 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)
Grundsätzlich gilt:
Je präziser ein Proband auf den zu klärenden Inhalt angesprochen wird, desto grö-
ßer ist die Chance, Verständnisprobleme aufzudecken!
V.5.2.3 Paraphrasieren
• Die Technik eignet sich nicht für kurze Faktfragen. (Beispiel: „Wie lange
wohnen Sie schon in dieser Stadt?)
• Die Testperson soll nicht versuchen, den Text wörtlich zu erinnern.
• Die Technik liefert erste Hinweise für den Forscher, ob die Frage überhaupt
verstanden wurde.
• Die Technik deckt nicht zuverlässig spezielle Aspekte hinsichtlich des Ver-
ständnisses einer Frage auf.
Im Fall des Confidence Ratings werden die Probanden gebeten, nach der Beantwor-
tung der Frage den Grad der Verlässlichkeit ihrer Antwort zu bewerten. Eingesetzt
werden können verschiedene Varianten. Die folgenden beiden Varianten wurden
in der Praxis öfter eingesetzt:
Variante 1:
Was würden Sie sagen, wie genau ist Ihre Angabe? Wählen Sie bitte den Wert auf
dieser Skala.
Skala: 1: sehr genau bis 7: grob geschätzt
372 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)
Variante 2:
Wie sicher waren Sie sich beim Beantworten der Frage?
Beurteilung auf einer Skala von 1: sehr sicher bis 5: sehr unsicher oder auf einer
Skala von 1: sehr sicher bis 5: überhaupt nicht sicher.
Beispiel:
Die Sortier- bzw. Vignettentechnik dient zur Exploration der Art und Weise, wie
Befragte Begriffe definieren. Dazu müssen im Vorfeld von den Experten zunächst
Situationen/Aussagen konstruiert/formuliert werden. Im Face-to-Face-Modus wird
jede eine Situation beschreibende Aussage auf eine Karte geschrieben. Die Proban-
den werden gebeten, die Karten so wie diese ihrer Meinung nach hinsichtlich des
zu untersuchenden Begriffs oder Sachverhalts zusammengehören, zu sortieren. In
Bezug auf die Anwendung dieser Techniken lassen sich aber auch Online-Reali-
sierungen vorstellen, indem die Aussagen auf dem Bildschirm dargeboten werden
und jene Aussagen angekreuzt werden, die nach Meinung der Probanden eine Ins-
tanz des Begriffs darstellen.
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 373
Auf diesen Kärtchen sind verschiedene Situationen beschrieben, die sich auf ei-
ner Straße abspielen. Bitte sortieren Sie die Karten danach, ob Sie die beschrie-
bene Situation als „Verkehrsunfall“ bezeichnen würden oder nicht.
Absicht der Technik des lauten Denkens ist, den Antwortprozess sichtbar machen,
mit dem Ziel, Verständnisprobleme zu erkennen und auf der Grundlage dieser Er-
kenntnis die Frage zu verbessern.
Vorgehensweise:
Im Folgenden sind zwei Beispiele für das Nichtfunktionieren und die Erzeugung
irrelevanter Informationen aufgeführt.
Beispiel (Nichtfunktionieren der Technik):
V.5.3 Feld-Pretest
V.5.3.1 Funktionsweise
Bei diesem Verfahren wird das Verhalten von Befragten und Interviewern bei jeder
Frage mit Hilfe eines Codesystems bewertet und analysiert. Dadurch lassen sich
Rückschlüsse auf die Qualität von Fragen ziehen. Das Codesystem kann mehr oder
weniger umfangreich sein und somit mehr oder weniger differenziert Verhalten
erfassen. Bei Anwendung dieses Verfahrens muss das Interview aufgezeichnet wer-
den. Es kann sowohl zur Bewertung des Interviewer-Verhaltens als auch zu Bewer-
tung von Fragen eingesetzt werden (vgl. Cannell, Fowler & Marquis 1968; Ongena
& Dijkstra 2006; Prüfer & Rexroth 1985).
Die aufgezeichneten Interviews werden abgehört und dabei sowohl das Inter-
viewer-Verhalten als auch das Befragten-Verhalten bei jeder Frage mittels eines
Codesystems klassifiziert.
Kurzbeispiel für ein Behavior Coding:
Bewertungskategorien:
Aus der Analyse der Antwortverteilungen lassen sich je nach Umfang der Pre-
test-Stichprobe unterschiedlich zuverlässige Schlussfolgerungen für die Fragen-
und Skalenqualität ziehen. Zu den aufschlussreichen Merkmalen der Antwortver-
teilungen gehören Informationen zu den statistischen Kennwerten einschließlich
der Verteilungsschiefe. Sind die Verteilungen an den Enden abgeschnitten oder
„gestutzt“ (engl.: truncated), ergeben sich Erkenntnisse über mögliche Decken-
bzw. Ceiling-Effekte, die auf zu geringe Skalenbreiten schließen lassen. Hohe Häu-
figkeitswerte bei sog. „Ausweichkategorien“, wie z.B. „weiß nicht“ (Befragte/r kann
sich nicht entscheiden oder hat keine Informationen) oder „verweigert“ (Befragte/r
möchte die Frage nicht beantworten) lassen sich auf diese Weise erkennen.
Split Ballot:
Beim Split-Ballot werden zwei oder mehr Varianten einer Frageformulierung je-
weils einer Teilstichprobe der Gesamtstichprobe einer Umfrage vorgelegt. Unter-
schiede in den Antwortverteilungen werden dann auf die unterschiedlichen Frage-
varianten zurückgeführt.
380 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)
Beispiel für den Vergleich zwischen zwei Versionen einer Frage (aus:
Fowler, 2004)
Frage-Version 1
Bei den nächsten Fragen geht es um alkoholische Getränke. Dazu gehören Schnaps/
hochprozentige Getränke wie Whisky oder Gin, Bier, Wein und alle anderen Arten
von alkoholischen Getränken.
Haben Sie früher schon einmal innerhalb eines Jahres mindestens 12mal irgend-
welche alkoholischen Getränke zu sich genommen?
Frage-Version 2
Bei den nächsten Fragen geht es um alkoholische Getränke. Dazu gehören Schnaps/
hochprozentige Getränke wie Whisky oder Gin, Bier, Wein und alle anderen Arten
von alkoholischen Getränken.
Haben Sie früher schon einmal innerhalb eines Jahres im Durchschnitt mehr als
ein alkoholisches Getränk pro Monat zu sich genommen?
Tabelle V.2 zeigt die Darstellung der Antwortverteilungen in einer Vierfelder-Tafel.
Die Assoziationen zwischen den Versionen und den Antworten lassen sich je nach
Messniveau der Antworten statistisch überprüfen, bei nominalem Messniveau z.B.
mit der χ2-Statistik überprüfen. Auch komplexere Modellvergleiche mit anspruchs-
volleren multivariaten Verfahren wie multiplen Gruppenvergleichen von Struktur-
gleichungsmodellen sind möglich.
Version 1 Version 2
Ja 71 % 53 %
Nein 29 % 47 %
100 % 100 %
Gesamt
(n=77) (n=79)
Im folgenden Beispiel wird die Wirkung einer Definition geprüft (vgl. Fowler,
2004):
Frage-Version 1
An wie vielen Tagen während der letzten 30 Tage haben Sie in Ihrem Haus oder
außerhalb Ihres Hauses anstrengende Tätigkeiten ausgeführt?
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 381
Zusatz: Mit anstrengenden Tätigkeiten meinen wir Erde im Garten umgraben, Holz
hacken oder sägen, die Garage aufräumen, Böden schrubben oder Möbel verschieben.
Frage-Version 2
An wie vielen Tagen während der letzten 30 Tage haben Sie in Ihrem Haus oder au-
ßerhalb Ihres Hauses anstrengende Tätigkeiten ausgeführt?
Tabelle V.3 enthält wieder eine deskriptive Darstellung der Ergebnisse. Wie zu er-
sehen ist, unterscheiden sich beide Versionen in Bezug auf die berichtete Anzahl
der Tage.
Die Messung von Latenzzeiten ist in der Software für computerunterstützte Befra-
gungen in der Regel implementiert.
V.6.1 Papierfragebögen
Für den Test eines schriftlichen Fragebogens empfiehlt sich die Durchführung der
folgenden Schritte:
• Ausfüllen des Fragebogens durch die Testperson mit Markierung der Probleme
durch die Testperson;
• Festhalten der Ausfülldauer;
• Erklärung der Testsituation (Laborsituation);
• Testinterview nach dem Ausfüllen des Fragebogens.
Bei jeder Frage sollte überprüft werden, ob die Antworten korrekt eingetragen sind.
Außerdem sollten die Befragten das von ihnen markierte Problem beschreiben. Bei
ausgewählten Fragen kann dann noch ein spezielles Probing erfolgen. Konkret er-
gibt sich der Ablauf wie folgt:
Was ganz wichtig ist: Nicht Sie werden getestet, sondern der Fragebogen, d.h.
wenn Sie ein Problem haben, dann liegt das nicht an Ihnen, sondern am Fra-
gebogen.
Bei jeder Frage prüft der Testleiter, ob korrekt ausgefüllt wurde. Falls nicht, fragt
der Testleiter nach dem Grund für das falsche Ausfüllen und notiert, was genau
falsch gemacht wurde und warum. Außerdem notiert er dies bei der entspre-
chenden Frage im Testprotokoll.
Bei allen Fragen, die von der Testperson als Problem markiert wurden, sollte
das Problem von ihr beschrieben werden. Dabei sollte der Testleiter so lange
nachfragen, bis ihm sowohl das Problem selbst, als auch dessen Ursache klar ist.
Diese sollte ebenfalls im Testprotokoll notiert werden. Bei einigen Fragen sind
im Testprotokoll ausformulierte Nachfragen vorgesehen, die in jedem Fall zu
stellen sind und wörtlich vorgelesen werden müssen., falls das in der Nachfrage
angesprochene potentielle Problem bereits von der Testperson genannt und mit
dem Testleiter besprochen wurde.
384 V.6 Evaluation von Fragebögen für Selbst-administrierte Interviews
Die geschilderten Methoden lassen allerdings noch keine Aussagen über die Be-
nutzerfreundlichkeit (engl.: usability) eines programmierten Fragebogens zu. Die
Evaluation der Benutzerfreundlichkeit stellt den Nutzer (Interviewer oder Befrag-
ter) in den Vordergrund und erfordert ein Labor mit einer angemessenen Ausstat-
tung (vgl. Hansen & Couper 2004). Im Mittelpunkt der Evaluation der Benutzer-
freundlichkeit stehen in erster Linie das Layout und das Design des Fragebogens,
wobei die Gestaltung des Bildschirms von besonderer Bedeutung ist. Diese sollte
konsistent sein, eine visuelle Diskriminierung der verschiedenen Elemente auf dem
Bildschirm erlauben und das normale Leseverhalten berücksichtigen (Start in der
oberen linken Ecke des Bildschirms). Die Instruktionen sollten so angeordnet wer-
den, dass sie sich auf die entsprechenden Aufgaben beziehen und keine unnötigen,
von der Aufgabe ablenkenden Informationen enthalten.
Nach Hansen & Couper (op.cit.) lassen sich die Methoden zur Evaluation der
Benutzerfreundlichkeit wie folgt klassifizieren:
• Inspektionsmethoden (engl.: usability inspection methods):
Bei dieser Methode inspizieren Experten anhand von Evaluationskriterien, die
aus Erkenntnissen über Mensch-Maschine-Interaktion wie etwa Minimierung
der Gedächtnislast abgeleitet sind, das programmierte Erhebungsinstrument.
386 V.6 Evaluation von Fragebögen für Selbst-administrierte Interviews
• Reaktionszeitmessung;
• Logfile- und Keystroke-Analysen (vgl. Couper, Hansen & Sadosky 1997; Cou-
per 2000b). Keystroke-Analysen bestehen in der Analyse sog. Keystroke-Datei-
en (keystroke files) oder sog. Trace-Dateien, in denen die Tastenbewegungen
der Nutzer registriert sind. Anhand der fehlerhaften Tastenbewegungen kann
bei Interviewer-administrierten Fragebögen (CAPI-Interviews) geprüft wer-
den, wie die Interviewer mit der Anwendung des Fragebogens zurechtkom-
men (vgl. z.B. Sperry et al. 1998). Bei selbst-administrierten Fragebögen kann
V.6 Evaluation von Fragebögen für Selbst-administrierte Interviews 387
geprüft werden, wie gut die Befragten den Fragebogen technisch bewältigen
können.
• Zählen von Fehlern (z.B. fehlende Antworten, falsche Eingabe, etc.)
• Informationen zum Navigationsverhalten
• Registrierung der letzten Antwort (zur Inspektion der Abbruchsstelle)
Als neues Problem kommt bei interkulturellen Umfragen die Herstellung der se-
mantischen Äquivalenz von Fragen und Items hinzu. Die Herstellung der semanti-
schen Äquivalenz beginnt bereits mit der Übersetzung der Fragen. Harkness (vgl.
Harkness, Pennell & Schoua-Glucksberg, 2004; Harkness, Villar & Edwards, 2010)
hat als Verfahren das sog. TRAPD-Verfahren vorgeschlagen, das auch im European
Social Survey (ESS) Anwendung findet (vgl. European Social Survey, 2014). Die
einzelnen Buchstaben stehen für die folgenden fünf Schritte: Translation, Review,
Adjudication, Pre-Testing und Documentation. Diese Schritte werden im Folgen-
den kurz beschrieben. Sie können auf unterschiedliche Art und Weise realisiert
werden. Notwendig erscheint jedenfalls ein Team-Ansatz, der auch beim ESS be-
vorzugt wird und bei dem Übersetzer und Survey-Experten zusammenarbeiten.
Translation (Übersetzung):
In dieser Phase geht es um die sprachliche Übersetzung des Quellentextes, wobei
dieser Text entweder zwischen verschiedenen Übersetzern aufgeteilt oder parallel
von verschiedenen Übersetzern übersetzt wird.
Review:
In der Phase des Reviews wird die Übersetzung durch einen Reviewer noch einmal
geprüft. Der Reviewer muss gute Übersetzungskompetenzen besitzen und mit den
388 V.7 Einsatz multivariater Verfahren zur Evaluation der Fragenqualität
Prinzipien des Fragebogen- und Studiendesigns sowie dem Thema der Umfrage
vertraut sein. Steht keine Person zur Verfügung, die über alle geforderten Kompe-
tenzen verfügt, können diese unter zwei Personen aufgeteilt werden.
Adjudication:
Der Schritt der Adjudication beinhaltet die endgültige Entscheidung über die Op-
tionen der Übersetzung. Sie wird durch eine Person (Adjudicator) vorgenommen,
der über ein Verständnis des Forschungsgegenstands verfügt, das Umfragedesign
kennt und in allen involvierten Sprachen bewandert ist.
Pre-Testing:
Als Pretest-Verfahren kommen grundsätzlich alle oben beschriebenen Verfahren
infrage, wobei die Verfahren zunächst für jedes Land getrennt durchgeführt wer-
den sollten. Zur vergleichbaren Codierung der Ergebnisse gibt es verschiedene
Codesysteme, die auf teilweise auf Fragebewertungssystemen beruhen (vgl. z.B.
Willis & Miller, 2011). Zur Bewertung und Verbesserung der Fragequalität kann
auch der Survey Quality Predictor (SQP; vgl. Survey Quality Predictor, 2015) ein-
gesetzt werden, der auf einer umfangreichen Datenbasis von Fragen für zahlrei-
chen Länder mit dazugehörigen Qualitätsmerkmalen beruht.
Dokumentation:
Alle Probleme, die während der vorangehenden Stufen aufgetreten sind, die Ent-
scheidungen, die getroffen wurden, und die nicht berücksichtigten Optionen müs-
sen dokumentiert werden, damit das Vorgehen in zukünftigen Umfragen weiter
optimiert werden kann.
Wie oben bereits erwähnt, erfordern Analysen, die zuverlässige Schätzungen von
Populationsparametern schon in der Pretest-Phase liefern sollen, den Einsatz infe-
renzstatistischer Verfahren und damit entsprechend große Pretest-Stichproben. In
Bezug auf den Einsatz von multivariaten statistischen Modellen ist bekannt, dass
sich Einflussgrößen (die Schätzungen der Modellparameter) bis zu einem Stichpro-
benumfang von ca. 120 noch verändern können (vgl. z.B. Boomsma 1987). Liegt
eine hinreichend große Stichprobe vor, so lassen sich bereits in der Pretest-Phase
vor der Haupterhebung Analysen komplexer multivariater statistischer Modelle
durchführen wie sie in Teil IV schon beschrieben wurden. Dazu gehören:
V.8 Zusammenfassung 389
Sofern finanzierbar, empfiehlt sich die Durchführung von Zusatzstudien zur um-
fassenden Analyse der Skaleneigenschaften (vgl. z.B. die Zusatzstudien zum ALL-
BUS 1984; vgl. Faulbaum 1984; Bohrnstedt, Mohler & Müller 1987; Erbslöh & Koch
1988). Sollen in wichtigen zentralen Studien alternative Formulierungen von Fra-
gen und Items eingeführt werden, erfordert die Evaluation der möglichen statisti-
schen Konsequenzen ebenfalls große Stichproben, um die Ergebnisse abzusichern.
Als Beispiel wurde oben bereits die Ersetzung des Begriffs „Gastarbeiter“ durch den
Begriff „in Deutschland lebende Ausländer“ in der Allgemeinen Bevölkerungsum-
frage der Sozialwissenschaften (ALLBUS) erwähnt.
V.8 Zusammenfassung
Ziel von Teil V war ein Überblick und die Darstellung des Instrumentariums, das
beim Entwurf und bei der Evaluation von Erhebungsinstrumenten eingesetzt wer-
den kann. Welche Verfahren tatsächlich zum Einsatz kommen, hängt auch hier
nicht nur von den finanziellen und personellen Ressourcen ab, sondern auch von
der Forschungsfragestellung und deren Umsetzung im Frageentwurf sowie von der
Zielpopulation. Komplexe sozialwissenschaftliche Themen, welche die Erhebung
von Einstellungen erfordern oder Themen, die auf Begrifflichkeiten zurückgreifen
müssen, die in der Bevölkerung nicht durchweg bekannt sind, machen bei aus-
gewählten Survey-Items den Einsatz mehr oder weniger aufwändiger kognitiver
Interviewverfahren notwendig. Gelegentlich erscheint es angesagt, auch während
der Haupterhebung allgemeinverständliche Definitionen von Fachbegriffen bereit-
zuhalten, die den Befragten angeboten werden können und damit im Sinne von
Schober (1999) von der strikten Standardisierung abzuweichen.
Es sollte deutlich geworden sein, dass Entwurf und Evaluation von Erhebungs-
instrumenten den Einsatz von Experten erfordern, die, insbesondere bei interkul-
turellen Umfragen, in Operatoren-Teams zusammenarbeiten. Wo dies nicht im
eigenen institutionellem Rahmen möglich ist, müssen ggf. externe Expertisen ein-
390 V.8 Zusammenfassung
geholt werden. Natürlich bedarf es bei einfachen Fragebögen, die sich auf einfache
Fakten beziehen, oder auch beim Einsatz bereits mehrfach geprüfter Fragen in der
Regel dieses Aufwands nicht. Auch hier wie bei allen anderen in diesem Band vor-
gestellten Methoden sollte das Ziel zuverlässiger und genauer Aussagen über die
Zielpopulation im Mittelpunkt stehen.
Teil VI: Stichprobenauswahl und Schätzung
von Populationswerten
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 391
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_6
VI.1 Zielpopulation, Auswahlgrundlage und Auswahlge-
samtheit
Die Durchführung einer Umfrage setzt voraus, dass zunächst eine Zielpopulation
definiert wird. Unter einer Zielpopulation U (auch: Universum; engl.: target popula-
tion oder universe) versteht man eine endliche Menge von N Elementen (potentiel-
len Untersuchungseinheiten)
über die in einer Umfrage Aussagen getroffen werden sollen und für die eine ein-
deutige Regel existiert, nach der entschieden werden kann, ob eine Untersuchungs-
einheit zur Zielpopulation gehört oder nicht. Aus der Zielpopulation muss eine
Stichprobe s von n Elementen gezogen werden, wenn aus Kapazitätsproblemen
oder anderen Gründen eine Totalerhebung ausscheidet Eine Stichprobe ist eine
Teilmenge der Zielpopulation. Die Grundgesamtheit kann durch mess- bzw. be-
obachtbare Eigenschaften ihrer Elemente oder durch Angabe einer Liste bzw. eines
Registers definiert sein. Die Festlegung der Zielpopulation durch identifizierbare
Eigenschaften, denen ein Element genügen muss, um zur Zielpopulation gerechnet
zu werden, definiert die Wählbarkeit (engl.: eligibility) eines Elements in der Aus-
wahlgrundlage (siehe unten).
Nicht immer enthält die Auswahlgrundlage die zum Ausschluss nicht wählbarer
Elemente notwendigen Identifikatoren, so dass die Identifikation der wählbaren
Elemente erst auf der Basis eines Screenings in der Phase der Kontaktaufnahme
erfolgen kann. Dies ist sehr oft bei Telefonumfragen der Fall, da die Telefonregis-
ter und auch die erzeugten Nummernräume nicht die notwendigen Informatio-
nen über die definierenden Merkmale der Zielpopulation enthalten und diese erst
im Rahmen eines telefonischen Screenings erhoben werden müssen. Wie wir im
Abschnitt über die Ziehung von Stichproben seltener Populationen sehen werden,
gibt es aber auch Ausnahmen. Ein Beispiel dafür ist etwa gegeben, wenn die im
Telefonregister eingetragenen Namen als Identifikatoren für die nationale Herkunft
herangezogen werden können. Auch die Entscheidung, ob ein Eintrag eine Firma
ist oder nicht lässt sich in Bezug auf die meisten Einträge im Telefonregister ent-
scheiden. Auch Recherchen im Internet können zur Verifikation von Identifikato-
ren durchgeführt werden.
Manchmal reicht eine einzige Auswahlgrundlage nicht aus, um die Zielpopu-
lation abzubilden. In diesen Fällen kann versucht werden, weitere Auswahlgrund-
lagen hinzuzuziehen, die sich mehr oder weniger stark überlappen können. Die-
ses Vorgehen wird als Multiple-Frame-Ansatz bezeichnet (vgl. Brick & Lepkowski
2008; Häder & Häder 2009; Hartley 1974, Hoffmann 2007 , Sand 2014; zu statis-
tischen Aspekten des Multiple-Frame-Ansatzes vgl. Lohr, 2009). Im speziellen
Fall zweier Auswahlgrundlagen spricht man von einem Dual Frame-Ansatz (vgl.
Abbildung VI.1). Von dieser Möglichkeit wird z.B. im Fall computerunterstützter
Telefonumfragen Gebrauch gemacht, um dem Umstand Rechnung zu tragen, dass
eine zunehmende Anzahl von Personen ausschließlich über Mobiltelefon und nicht
mehr über Festnetzanschluss erreichbar sind (sog. Mobile-Onlys; vgl. dazu Häder
& Häder 2009). Eine Beschränkung auf nur eine Auswahlgrundlage für Festnetz-
anschlüsse hätte zur Folge, dass nur über das Mobilfunknetz erreichbare Personen
aus der Stichprobenauswahl ausgeschlossen würden; d.h. es würde zu einer Unter-
deckung (siehe unten) der Zielpopulation kommen. Um dies zu vermeiden, greift
man auf zwei Auswahlgrundlagen zurück: eine Auswahlgrundlage für Festnetzein-
träge und eine Auswahlgrundlage für Mobilfunkeinträge. Ein duales Vorgehen
kann sich aus Kostengründen auch bei seltenen Populationen empfehlen. In die-
sem Fall kann sich unter bestimmten Randbedingungen z.B. eine Ergänzung von
Telefonstichproben durch opt-in Webstichproben (siehe unten) als kostengünstig
erweisen (vgl. Blair & Blair 2006).
396 VI.1 Zielpopulation, Auswahlgrundlage und Auswahlgesamtheit
Ziel einer Stichprobenauswahl ist die Ziehung einer Stichprobe aus einer Zielpo-
pulation U. Da die praktische Ziehung auf der Basis einer oder mehrerer geeigne-
ter Auswahlgrundlagen erfolgen muss, sollten diese so beschaffen sein, dass alle
Elemente der Zielpopulation die Chance haben, in eine Stichprobe aufgenommen
werden können, d.h. die Auswahlgesamtheit FU sollte mit der Zielpopulation de-
ckungsgleich sein. Tritt eine Unterdeckung ein, so könnten die resultierenden
Schätzer wegen signifikanter Abweichungen der Merkmalsverteilungen in der
Stichprobe von denen in der Grundgesamtheit verzerrt sein, so dass nach der Zie-
hung geeignete Korrekturen vorgenommen werden müssen. Dies ist aber nur un-
ter bestimmen Voraussetzungen möglich (siehe unten). Wir beziehen uns in den
folgenden Darstellungen der Stichprobenauswahl auf die Population U und nicht
auf die Auswahlgesamtheit UF, obwohl die Ergebnisse in der Stichprobe nur so ver-
zerrungsfrei sein können wie die Auswahlgesamtheit es zulässt und daher eigent-
lich die Auswahlgesamtheit Maßstab der Stichprobenbeurteilung sein müsste (vgl.
Bethlehem, Cobben & Schouten, 2010, p. 10).
Die Ziehung einer Stichprobe sollte den Kriterien einer Zufallsauswahl genü-
gen. Grund hierfür ist, dass bei einer Zufallsauswahl am ehesten eine Übertragung
von Verteilungseigenschaften der Zielpopulation auf die Stichprobe zu erwarten
sind und dass nur in diesem Fall die statistischen Gütekriterien für Rückschlüsse
von der Stichprobe auf die Zielpopulation präzisiert und überprüft werden können.
Das Merkmal der Zufälligkeit ist nicht nur grundlegend für die Schätzung von Po-
pulationswerten, sondern auch für die Definition und die Einschätzung des Aus-
maßes von Stichprobenverzerrungen sowie für die Korrektur dieser Verzerrungen.
Ein Verfahren, welches das Kriterium der Zufallsauswahl (auch: Wahrscheinlich-
keitsauswahl; engl.: random sampling bzw. probabilty sampling) erfüllen soll, muss
folgenden Bedingungen genügen (vgl. Särndal, Swensson & Wretman, 1992, p. 8):
Eine Stichprobe, auf deren Auswahl diese Kriterien zutreffen, heißt Zufallsstich-
probe (engl.: random sample bzw. probability sample). Ein Stichprobendesign (engl.:
sampling design) ordnet den Stichproben ihre bekannten Auswahlwahrscheinlich-
keiten zu; d.h. es besteht in einer auf der Menge aller mit dem Auswahlverfahren
auswählbaren Stichproben definierten Wahrscheinlichkeitsverteilung (vgl. hierzu
Särndal, Swennson & Wretman, 1992, S. 8). Fasst man jede Stichprobe aus einer
Auswahlgesamtheit U als Wert (Realisation) einer Zufallsvariablen S auf, die als
Werte alle auswählbaren Stichproben annehmen kann, so ist das Stichprobende-
sign definiert als die auf S definierte Wahrscheinlichkeitsverteilung p(∙), die jeder
ausgewählten Stichprobe s deren Auswahlwahrscheinlichkeit p(s) zuordnet (vgl.
Abbildung VI.3). Da p(∙) eine Wahrscheinlichkeitsverteilung ist, folgt, dass die
Auswahlwahrscheinlichkeit für eine Stichprobe immer ≥ 0 sein muss und dass die
Summe aller Auswahlwahrscheinlichkeiten 1 ist.
eine ausgewählte Stichprobe den Wert 1 annimmt, wenn das Element zu dieser
Stichprobe gehört und sonst den Wert 0. Ik ist also selber eine Zufallsvariable, die
für jede zufällig realisierte Stichprobe s den Wert 1 oder 0 annimmt (siehe Beispiel
IV.1), d.h. für die gilt:
⎪⎧ 1, falls k ∈ s
Ik (s) = ⎨ .
⎩⎪0, falls nicht
U = {a, b, c, d, e, f, g, h}
Stichprobe:
s = {c, e, f, h}
Ia(s) =0
Ib(s) =0
Ic(s) =1
Id(s) =0
Ie(s) =1
If(s) =1
Ig(s) =0
Ih(s) =1
π k = ∑I k ( s ) p ( s ) .
S
402 VI.2 Grundbegriffe der Zufallsauswahl
V ( I k ) = C ( I k , I l ) = π k − π kπ k = π k (1 − π k ) .
1
°° § N ·
ps ® ¨ n ¸ , wenn s n Elemente enthalt
.
° © ¹
°¯ 0, sonst
⎛N ⎞
⎜ n ⎟ ist die Zahl der Möglichkeiten, aus N Elementen n Elemente ohne Berück-
⎝ ⎠
sichtigung der Anordnung auszuwählen. Die Inklusionswahrscheinlichkeit πk für
die Aufnahme eines Elements k in die Stichprobe ist in diesem Fall:
VI.2 Grundbegriffe der Zufallsauswahl 403
n
πk = = f.
N
⎛ N ⎞ ns
⎜ ⎟ π (1 − π )
N − ns
⎝ ns ⎠
Exkurs IV.1: Cut-off Sampling (vgl. Särndal, Swensson & Wretman, 1992,
S. 531):
Wie wir oben gesehen haben, erfordert die Definition einer Zufallsstichprobe
für jedes Element k der Zielpopulation U eine Inklusionswahrscheinlichkeit
πk > 0. Es gibt aber auch Methoden der Stichprobenauswahl, bei denen für eine
Teilmenge von U eine Inklusionswahrscheinlichkeit πk > 0 gilt und für die Rest-
menge die Inklusionswahrscheinlichkeit πk = 0. Dieses Stichprobenverfahren
führt zu verzerrten Schätzungen und ist eigentlich nur zu rechtfertigen, wenn
die Kosten für die Konstruktion einer Auswahlgrundlage für die gesamte Ziel-
population unverhältnismäßig hoch sind und/oder die zu erwartende Verzer-
rung der Schätzung gering ist. Es macht vor allem einen Sinn, wenn die Wahr-
scheinlichkeitsverteilung der Untersuchungsvariablen schief ist. Das Verfahren
ist teils probabilistisch, teils nicht-probabilistisch.
tet ist. Es gibt also a mögliche Stichproben, wobei jede mit der Wahrscheinlichkeit
1/a ausgewählt werden kann. Der Umfang n der ausgewählten Stichprobe ergibt
sich als N/a. In der beschriebenen Form führt das Verfahren zu einer Auswahl der
Elemente mit gleichen Wahrscheinlichkeiten. Es wird oft als Annäherung an ein
Verfahren der einfachen Zufallsauswahl angesehen. Der Unterschied liegt darin,
dass nur das erste Element einer systematischen Auswahl per Zufall bestimmt wird.
Größenproportionale Ziehung von Elementen
Ein wichtiges Verfahren, insbesondere bei der Ziehung von Gemeindestichproben
stellt die größenproportionale Ziehung von Elementen dar (engl.: probability pro-
portional-to-size sampling, kurz: pps sampling; vgl. Särndal, Swensson & Wretman,
1992, p. 87). Dabei handelt es sich um eine Auswahl von Elementen k(k = 1, ..., N)
unter Zurücklegen mit Ziehungswahrscheinlichkeiten p(k), die proportional zu
Größen x1, ..., xN sind, in Symbolen: pk ןxN. Dabei soll gelten:
xk
pk .
ΣU x k
Sei etwa U={1, 2, …, k, …, N} eine Grundgesamtheit von Gemeinden und xk die
Gemeindegröße (Anzahl der Einwohner). Dann besagt dieser Ausdruck, dass eine
Gemeinde mit einer Wahrscheinlichkeit ausgewählt wird, die dem Anteil der Ein-
wohner in der Gemeinde an allen Einwohnern in der Grundgesamtheit entspricht.
Soll eine Stichprobe des Umfangs n = 1 gezogen werden bietet sich als Vorgehen
die Methode der kumulierten Summenwerte an (engl.: cumulative total method; vgl.
Särndal, Wretman & Swensson, op.cit., p. 91) an, die auf der Kumulation der Grö-
ßen beruht. Bezeichnen wir die Variable der kumulierten Summenwerte mit T, so
ist die Kumulation definiert durch
T0 = 0 und Tk = Tk-1 + xk (k = 1, ..., N).
Gezogen wird eine Zufallszahl H aus einer auf dem Einheitsintervall definierten
Gleichverteilung Unif(0,1). Ein Element wird ausgewählt, wenn gilt:
Tk-1 < HTN ≤ Tk.
Dann ist
Tk − Tk −1 xk
p(k) = Pr(Tk −1 < ε TN ≤ Tk . ) = = .
TN ∑U x k
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 407
Angenommen, wir ziehen eine Stichprobe aus einer Region U, die aus sechs
Gemeinden besteht. Die mit den Gemeinden assoziierten Größen seien die Ein-
wohnerzahlen. Tabelle IV.1 enthalte die Anzahl der Einwohner ab 18 Jahren. xk
und die kumulierten Einwohnerzahlen Tk sowie Selektionsintervalle, innerhalb
derer eine Zufallszahl zwischen 2.500 und 56.500 liegt.
k xk Tk Selektionsintervall
1 2.500 2.500 1-2.500
2 13.000 15.500 2.600-15.500
3 10.000 25.500 15.501-25.500
4 25.000 50.500 25.501-50.500
5 1.000 51.500 50.501-51.500
6 5.000 56.500 51.500-56.500
Angenommen, wir ziehen die Zahl 27.000. Dann wird die Gemeinde mit der
Nummer k=4 gezogen.
Das Problem, welches auftritt, wenn man statt einer Totalerhebung eine Stichproben-
erhebung durchführen muss, besteht darin, dass Aussagen über statistische Eigen-
schaften der Grundgesamtheit getroffen werden sollen, obgleich nur Informationen
aus der Stichprobe zur Verfügung stehen. Die Informationen, die in der Stichprobe
zur Verfügung stehen, sind sog. Statistiken. Statistiken sind auf der Menge S aller
Stichproben eines festen Umfangs n einer Population definierte Funktionen, die auch
408 VI.3 Die Schätzung von Populationsparametern (Schätzphase)
als Stichprobenfunktionen bezeichnet werden und die jeder Stichprobe nach einer
bestimmten Rechenvorschrift eine reelle Zahl zuordnen. Ein Beispiel für eine Stich-
probenfunktion ist das arithmetische Mittel. Diese Stichprobenfunktion ordnet jeder
Stichprobe s S mit ihren Messwerten x1, …, xi, …, xn den Wert
x1 + …+ x i + … x n
n
zu.
Unter die Statistiken fallen alle statistischen Kennwerte empirischer Merk-
malsverteilungen wie Maße der zentralen Tendenz bzw. Lagemasse (arithmetisches
Mittel oder Anteilswerte, Median), Streuungsmaße, Schiefe, Wölbung bzw. Kurtosis,
aber auch jede beliebige andere Stichprobenfunktion wie Summenwerte (engl.: to-
tals) oder der Stichprobenumfang ns. Dieser kann als Funktion der Zufallsvariablen
S aufgefasst werden, die jeder Stichprobe s S den Stichprobenumfang zuordnet.
Der Stichprobenumfang ns ist nämlich definiert als Summe der Werte der Indika-
torfunktion Ik über alle Elemente der Population für die Stichprobe s:
N
ns = ∑I k ( s ) = I1 ( s ) + …+ I k ( s ) + …+ I N ( s ) = ∑I k ( s )
U k =1
(Zur Verwendung von Summenzeichen vgl. Exkurs IV.2). Diese Summe kann für
jede Stichprobe berechnet werden und definiert so eine Statistik
ns = ∑I k ( S ) ,
U
∑x
i =1
i = x1 + x 2 + …+ x i + …+ x N
Für die Summe von Werten aller Elemente einer Menge M schreiben wir auch:
¦ M
x k oder ¦ x k .
M
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 409
Allein durch den Sachverhalt, dass statt der Grundgesamtheit lediglich eine Stich-
probe untersucht wird, entsteht ein sog. Stichprobenfehler (engl.: sampling error),
mit der Konsequenz, dass
• die Schätzer (z.B. das arithmetische Mittel in der Stichprobe) nicht identisch
mit dem Populationsparameter (z.B. Mittelwert der Populationsverteilung)
sind;
• unterschiedliche Stichproben zu unterschiedlichen Schätzungen führen.
Der Stichprobenfehler betrifft zunächst die Ausgangs-, bzw. Bruttostichprobe, die
alle Untersuchungseinheiten der Stichprobe vollständig enthält. Zwar entsteht we-
gen der zu erwartenden Ausfälle ganzer Stichprobenelemente während der Erhe-
bung (Unit-Nonresponse, siehe Teil VII) eine als Nettostichprobe bezeichnete Teil-
stichprobe der Ausgangsstichprobe, jedoch betrifft der Mechanismus, der von der
Bruttostichprobe zur Nettostichprobe führt, nicht mehr das Verfahren der Stich-
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 411
A. Bias
Der Bias eines Schätzers gibt an, wie genau der Populationsparameter θ im Durch-
schnitt aller möglichen Stichproben des gleichen Umfangs aus der Zielpopulation
U von einem Schätzer (arithmetischer Mittelwert, Anteilswerten in den Stichpro-
ben, etc.) geschätzt wird. Formal:
() ()
Bias θˆ = E θˆ − θ ,
()
E θˆ = ¦p ( s )θˆ ( s )
s
wobei p(s) die bekannte Wahrscheinlichkeit für die Auswahl der Stichprobe s und
θ̂(s) der Wert des Schätzers in der Stichprobe s ist. Die Formel summiert also über
alle Stichproben das Produkt aus dem Wert des Schätzers der Stichprobe und der
Auswahlwahrscheinlichkeit der Stichprobe.
412 VI.3 Die Schätzung von Populationsparametern (Schätzphase)
2
¦ p s Tˆ s E Tˆ .
V Tˆ s
Angestrebt wird ein erwartungstreuer Schätzer mit möglichst geringer Varianz. Die
Quadratwurzel aus der Varianz heißt Standardfehler des Schätzers.
2 2
MSE Tˆ E ª¬Tˆ T º¼ ¦ p s ª¬Tˆ s T º¼
s
.
Man kann formal zeigen, dass der mittlere quadratische Fehler gleich der Summe
aus dem quadrierten Bias und der Varianz des Schätzers ist:
MSE = Varianz des Schätzers + Bias2
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 413
Die oben vorgestellten Konzepte des Bias, der Varianz und der mittleren qua-
dratischen Abweichung eines Schätzers sollen im Folgenden an einem fiktiven
Beispiel erläutert werden:
Angenommen, eine Population U würde aus N = 5 Personen U = {1,2,3,4,5}
bestehen, die folgende Altersstufen aufweisen:
Person 1: 32 Jahre;
Person 2: 35 Jahre;
Person 3: 33 Jahre;
Person 4: 29 Jahre;
Person 5: 31 Jahre.
Der Populationsmittelwert ist μ = (32+35+33+29+31) ⁄ 5 = 160 ⁄ 5 = 32 Jahre).
Gezogen werden soll eine Stichprobe von drei Personen nach dem Verfahren
der einfachen Zufallsauswahl. Die Anzahl aller möglichen Stichproben mit Um-
fang n=3, die aus U gezogen werden können, beträgt
⎛ N ⎞ ⎛5⎞
⎜ ⎟ = ⎜ ⎟ = 5 × 4 × 3 / 3 × 2 × 1 = 10.
⎝ n ⎠ ⎝3⎠
Für die zehn Stichproben ergeben sich folgende Werte für das arithmetische
Mittel:
s1={1,2,3}: 33;
s2={1,2,4}: 32;
s3={1,2,5}: 32,7;
s4={1,3,4}:31,3;
s5={1,3,5}:32;
s6={1,4,5}: 30,7;
s7={2,3,4}: 32,3;
s8={2,3,5}: 33;
s9={2,4,5}:31,7;
s10={3,4,5}:31.
414 VI.3 Die Schätzung von Populationsparametern (Schätzphase)
Bei einer einfachen Zufallsauswahl werden alle Stichproben mit der gleichen
⎛N ⎞ ⎛5⎞
Wahrscheinlichkeit p ( s ) = 1 / ⎜ ⎟ = 1 / ⎜ ⎟ = 1 / 10 = 0,1 gezogen. Der Erwar-
⎝n⎠ ⎝3⎠
tungswert E (μ̂) ergibt sich dann wie folgt:
E(μ̂) = 0,1 × 33 + 0,1 × 32 + 0,1 × 32,7 + 0,1 × 31,3 + 0,1 × 32 + 0,1 × 30,7 + 0,1
× 32,3 + 0,1 × 33 + 0,1 × 31,7 + 0,1 × 31 = 0,1 (33 + 32 + 32,7 + 31,3 + 32 + 30,7
+ 32,3 + 33 + 31,7 + 31) = 0,1 × 319,7 = 31,97.
Der Bias beträgt also E(θ̂) - θ = 31,97-32=-0,03 Jahre. Ob dieser sehr gering er-
scheinende Bias statistisch signifikant ist oder nicht, kann nur nach Konstrukti-
on eines Konfidenzintervalls entschieden werden.
Die Varianz des Schätzers μ̂ berechnet sich folgendermaßen:
V (θ̂) = σs p(s) (θ̂ (s) - E(θ̂))2 = 0,1 (1,032 + 0.032 + 0,732 + (-067)2 + 0.032 + (-1,27)2
+ 0.332 + 1,032 + (-0,27)2 + (-0,97)2) = 0,1 (1,061 + 0,001 + 0,533 + 0,450 + 0,001
+ 1,613 + 0,109 + 1,061 + 0,073 + 0,941) = 0,1 × 5,843 = 0,584
Als mittlere quadratische Abweichung des Schätzers erhält man den folgenden
Wert:
2
MSE Pˆ ¦ p s ª¬Tˆ s T º¼
s
Das Beispiel liefert auch eine empirische Bestätigung für die additive Zusam-
mensetzung von MSE(μ̂):
MSE(μ̂) = Varianz(μ̂) + (Bias(μ̂))2 = 0,584 + 0,001 = 0,585
Designeffekt:
Der Designeffekt (deff) basiert auf einem Vergleich der Varianz des Schätzers für
eine Statistik unter irgendeinem Stichprobendesign, z.B. unter dem Design einer
Klumpenauswahl (siehe unten) mit der Varianz des Schätzers unter der Annahme
einer einfachen Zufallsauswahl:
Varianz des Schatzers unter einem Design p
deff
Varianz des Schatzers unter dem Design einer einfachen Zufallsauswahl
Er misst den Präzisionsverlust oder den Präzisionsgewinn, der entsteht, wenn man
statt einer einfachen Zufallsauswahl ein anderes Design wählt. Ein Verlust tritt ein,
wenn der Designeffekt größer als 1 ist. Ist er kleiner als 1, wird Präzision gewonnen.
So kann man z.B. zeigen, dass bei einer 1stufigen Klumpenauswahl, bei der aus
einer Menge von Klumpen eine Stichprobe nach dem Verfahren der einfachen Zu-
fallsauswahl gezogen wird, der Designeffekt des Mittelwertschätzers mit anwach-
sender Homogenität innerhalb der Klumpen (Intraklassenkorrelation) steigt. Ein
Präzisionsgewinn tritt nur ein, wenn die gepoolte Varianz innerhalb der Klumpen
größer ist als die Varianz aller Messwerte. Die Berechnung des Designeffekts kann
auf verschiedene Arten von Klumpung angewandt werden wie z.B. Klumpungen
durch Interviewer, durch Sampling Points, etc.
Die Varianz eines Stichprobenmittelwerts V(y) über alle Stichproben gleichen
Umfangs ist bei einer einfachen Zufallsauswahl
V (y) =
(1 − f ) s 2 .
n
Dabei sind n: Stichprobenumfang, f: Auswahlsatz, s2: Stichprobenvarianz. Die Grö-
ße (1-f) heißt endliche Populationskorrektur. Angestrebt wird ein erwartungstreuer
Schätzer mit möglichst geringer Varianz.
Im Falle von Klumpenstichproben (siehe Abschnitt 4.4) lassen sich die Effekte
der Klumpung über die Stärke des Designeffekts bestimmen.
Der Designeffekt kann zur Korrektur des Stichprobenumfangs eingesetzt wer-
den. Der sog. effektive Stichprobenumfang (engl.: effective sample size) ergibt sich als:
Stichprobenumfang
Effektiver Stichprobenumfang
Designeffekt
Je unpräziser also ein Schätzer unter einem Design gegenüber dem Design der ein-
fachen Zufallsauswahl wird, desto höher der einzusetzende Stichprobenumfang.
416 VI.3 Die Schätzung von Populationsparametern (Schätzphase)
m∑ i =1miwi2
I
deff p = ,
( )
2
∑i =1miwi
I
wobei mi die Anzahl der Interviews und wi das Designgewicht (siehe unten) in
der i-ten Gewichtungsklasse (zum Begriff der Gewichtungsklasse vgl. Teil VII) dar-
stellt. Der Designeffekt durch Klumpung ergibt sich als:
(
deff c = 1 + b − 1 ρ . )
In diesem Ausdruck bezeichnet b die durchschnittliche Anzahl der Interviews in
einem Klumpen (Subgruppen) und ρ die Intraklassenkorrelation (siehe Abschnitt
VI.4.4, Exkurs VI.5). Als totaler Designeffekt wird das Produkt aus deff p und deff c
definiert.
Um die Präzision eines Schätzers auf seine statistische Bedeutsamkeit hin zu
prüfen, können Konfidenzintervalle verwendet werden. Ein Konfidenzintervall ist
wie in der auf der Annahme unendlicher Populationen beruhenden Inferenzsta-
tistik auch im Fall endlicher Populationen als ein Intervall definiert, in dem der
unbekannte Populationswert mit einer definierten Wahrscheinlichkeit 1 – α zwi-
schen einer oberen und unteren Grenze zu liegen kommt. α heißt auch Irrtums-
wahrscheinlichkeit. Eine fest vereinbarte Irrtumswahrscheinlichkeit wie 0,05 oder
0,01 heißt auch Signifikanzniveau. 1 – α heißt auch Konfidenzniveau. Die obere und
untere Grenze des Konfidenzintervalls werden wie in der Inferenzstatistik über den
Standardfehler und den Stichprobenumfang aus den Stichprobeninformationen
geschätzt. Die obere und untere Grenze eines Konfidenzintervalls stellen Statisti-
ken im oben definierten Sinne dar. Angenommen, wir betrachten als Parameter
den Summenwert Y einer Zielvariablen y und sei ferner angenommen, der Para-
meterwert sei uns bekannt. Dann ist 1 – α die kumulierte Wahrscheinlichkeit aller
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 417
Stichproben, in denen der wahre Wert im Intervall zwischen unterer und oberer
Grenze zu finden ist.
Als obere und untere Grenze werden oft die Werte
1/2
¬
Yˆ r z1D /2 ªVˆ Yˆ º
¼
mit z0,975 = 1.96 (5%-Niveau) oder z0,995 = 2.576 (1%-Niveau definiert). Ist die Stich-
probenverteilung des Schätzers, z.B. Ŷ, näherungsweise eine Normalverteilung mit
Ŷ als Mittelwert und einer Varianz V(Ŷ) so enthält das obige Intervall unter der
Voraussetzung, dass V̂(Ŷ) ein konsistenter Schätzer von V(Ŷ) ist, den unbekannten
Parameter mit der Wahrscheinlichkeit 1 – α.
Ein Schätzer, der erwartungstreu oder zumindest annähernd erwartungstreu ist, ist
der von Horvitz und Thompson (1952) entwickelte so genannte Horvitz-Thomp-
son-Schätzer (kurz: HT-Schätzer), der von Särndal, Swensson & Wretman (1992, S.
42) auch als S-Schätzer bezeichnet wird. Dieser Schätzer ist anwendbar bei beliebi-
gen Inklusionswahrscheinlichkeiten, also nicht nur in dem Fall, wo alle Stichpro-
benelemente mit der gleichen Wahrscheinlichkeit gezogen werden. Er gewichtet
die Untersuchungseinheiten mit ihren inversen Inklusionswahrscheinlichkeiten
dk = 1/πk. Die inversen Inklusionswahrscheinlichkeiten werden auch als sog. De-
sign- bzw. Basisgewichte bezeichnet (vgl. Särndal & Lundström, 2005, S. 43). Sie
dienen zur Korrektur von solchen Verzerrungen der Schätzer, die sich auf Grund
des Sachverhalts ergeben können, dass Elemente der Population mit unterschied-
lichen Wahrscheinlichkeiten gezogen wurden. Die Multiplikation der Messwerte
der Untersuchungseinheiten mit den inversen Inklusionswahrscheinlichkeiten
bewirkt, dass Elemente mit einer geringeren Ziehungswahrscheinlichkeit stärker
gewichtet werden als solche mit einer höheren Ziehungswahrscheinlichkeit. Ein
Beispiel für ein Designgewicht das Haushaltsgewicht (auch: Transformationsge-
wicht) bzw. die Gewichtung nach der reduzierten Haushaltsgröße. Die reduzierte
Haushaltsgröße ist definiert als die Anzahl der Zielpersonen im Haushalt. Manche
Stichprobendesigns erfordern die Zufallsausziehung einer Zielperson im Haushalt.
Die Wahrscheinlichkeit, eine Person in einem Haushalt mit einer großen Anzahl
von Zielpersonen zu ziehen ist aber kleiner als die Wahrscheinlichkeit, in einem
Haushalt mit nur wenigen Zielpersonen eine Zielperson zu ziehen. Dieser Effekt
418 VI.3 Die Schätzung von Populationsparametern (Schätzphase)
wird durch die Gewichtung nach der inversen Wahrscheinlichkeit für die Ziehung
einer Zielperson im Haushalt korrigiert. Diese Gewichtung ist dem Stichproben-
design geschuldet, daher die Einordnung als Designgewicht. Ob und wie stark sich
eine Designgewichtung korrigierend auf die Schätzung auswirkt, hängt davon ab,
ob und wie stark die reduzierte Haushaltsgröße mit der zu gewichtenden Zielvari-
ablen zusammenhängt.
Y = y1 + y 2 + …+ y k + …+ y N = ∑y k .
U
wobei yk (k = 1,…,N) der Wert ist, den das Populationselement k auf der Variablen
y annimmt. Gewichtet man alle Elemente k in der Stichprobe mit dem Designge-
wicht, also der mit ihnen verbundenen inversen Inklusionswahrscheinlichkeit dk =
1/πk , so nimmt der Horvitz-Thompson-Schätzer ŶHT für das Populationstotal Y die
folgende Form an:
yk 1
YˆHT = ¦ = ¦ y k = ¦dk y k .
s πk s πk s
ŶHT ist ein erwartungstreuer Schätzer für Y. Die Designgewichte reflektieren die
Konsequenzen des Stichprobendesigns. Ihre Berechnungen können sich je nach
Stichprobendesign voneinander unterscheiden. Alternative Bezeichnungen des
Summenwerts einer Variablen y sind Ty oder ty. Wir werden diese Bezeichnungen
gelegentlich alternativ zu Y verwenden.
n
N N N ¦
YˆHT = × y1 + × y 2 +…+ × y n = N × i
yi
= N × y.
n n n n
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 419
ŶHT ist die Schätzung des Summenwerts der Variablen y in der Population U. Der
Horvitz-Thompson-Schätzer berechnet sich also im Fall der einfachen Zufallsaus-
wahl aus dem Umfang der Population N multipliziert mit dem arithmetischen Mit-
tel y der Stichprobe. Das Gewicht N/n heißt gelegentlich auch Hochrechnungsfaktor.
Der Vorgang heißt auch ungebundene Hochrechnung. Die Varianz des SchätzersŶHT
ist:
( ) §1 1 ·
V YˆHT = N 2 ¨ − ¸ S 2yU .
©n N ¹
In dieser Formel ist S2yU die Varianz der Variablen y in der Population U. Sie kann
geschätzt, werden indem statt der Populationsvarianz die Stichprobenvarianz S2ys
eingesetzt wird:
( ) §1 1 ·
Vˆ YˆHT = N 2 ¨ − ¸ S 2ys .
©n N ¹
( )
V p YˆHT = ¦¦(π kl − π kπ l )
U U
yk yl
= ¦C ( I k , I l )
πk πl U
yk yl
.
πk πl
wobei k und l Elemente der Population sind, C(Ik,Il) = πkl – πkπl die Kovarianz des
Auftretens von k und l ist. yk und yl sind wieder die Werte der Untersuchungsvaria-
blen y für die Elemente k und l.
Bezeichnet man das Stichprobendesign einer einfachen Zufallsauswahl wie
Särndal, Swensson und Wretman (1992) als SI-Design (siehe oben), so ergibt sich
als Designeffekt für einen Summenwert:
yk yl
( ) = ¦ ¦ C(I ,I )π
V p YˆHT k l
π l = ¦U ¦UC ( I k , I l ) dk y k dl y l .
( )
U U
deff p,YˆHT = k
VSI ( Ny s ) §1 1 · §1 1 ·
N 2 ¨ − ¸ S 2yU N 2 ¨ − ¸ S 2yU
©n N ¹ ©n N ¹
420 VI.3 Die Schätzung von Populationsparametern (Schätzphase)
Y
yU
N
berechnet sich wie folgt:
y YˆHT 1 yk 1
= = ¦ = ¦dk y k .
U , HT
N N s πk N s
1 yk 1 N
y
U , HT , SI
= ∑ = ∑y k × = y s ,
N s n/N N s n
wobei ys der Mittelwert der Stichprobe s ist. Im Fall einer einfachen Zufallsauswahl
ist also der Stichprobenmittelwert ein erwartungstreuer Schätzer des Populationsmit-
telwerts.
Die obigen Formeln für y U ,HT setzen voraus, dass der Umfang der Population
bekannt ist. Ist dies nicht der Fall, muss N geschätzt werden. Der π-Schätzer für den
Populationsumfang N ist
1
Nˆ = ¦ .
s πk
YˆHT ¦ s y k / π k
y s = = .
Nˆ 1/π k
¦ s
( 1
)
V y U , HT = 2 ∑U
N
∑ U
C ( Ik , Il )
yk yl
πk πl
In dieser Formel ist C(Ik,Il) = πkl – πkπl wieder die Kovarianz des Auftretens der
Elemente k und l. Der Schätzer für diese Varianz ist
1 C I k , Il yk yl
Vˆ y U , HT ¦
N2 s
¦ s
S kl Sk Sl
Im Fall einer einfachen Zufallsauswahl ergibt sich für die Varianz des Mittel-
wert-Schätzers y U , HT , SI y s :
1− f 2
V ( ys ) = S
n
wobei S2 die Varianz von y in der Population U ist. V(ȳs) kann geschätzt werden
durch
1− f 2
V ( ys ) = s ,
n
Die Auswahlgrundlagen können sich dabei überlappen, einige können sogar be-
reits vollständig sein. Aus jeder Auswahlgrundlage seien jeweils Stichproben s1,…,
sq,…,sQ auf Grund möglicherweise unterschiedlicher Stichprobendesigns gezogen
worden sind. Geschätzt werden soll das Populationstotal einer Variablen y:
Q
Ty = ∑y i = ∑∑ y iα q (i ) .
i∈U q =1 i∈U q
αq(i) ist ein Anpassungsfaktor als Korrektur für das mögliche mehrfache Vorkom-
men des Elements i in den Auswahlgrundlagen. Er garantiert, dass das Element i
nicht mehrfach gezählt wird. Angenommen wird, dass ∑Qq=1αq(i) = 1, d.h. dass sich die
Anpassungsfaktoren für ein Element über alle Auswahlgrundlagen zu 1 addieren.
Die einfachste Wahl für αq(i) wäre das Inverse der Vervielfachung. Stehen z.B. drei
Auswahlgrundlagen U1,U2,U3 zur Verfügung und Element i tritt in U1 und U2 auf,
aber nicht in U3, so wäre ∑Qq=1αq(i) = 1/2 + 1/2 + 0 =1. Ferner wird für die Konstruk-
tion des Schätzers eine beobachtbare Zufallsvariable δi(q) eingeführt, die anzeigt, ob
das Element i unter dem gewählten Design für Auswahlgrundlage q zur Stichprobe
sq gehört oder nicht. δi(q) entspricht der in Abschnitt IV.1 eingeführten Indikator-
funktion für die Stichprobenzugehörigkeit. δi(q) nimmt für alle i אsq den Wert 1 an.
Der GMTH-Schätzer eines Populationstotals hat dann die folgende allgemeine
Form:
Q
δ i (q )
t y (GMTH ) = ∑∑ y iα q (i ) .
q =1 i∈U q E (δ i ( q ) )
Q ⎧
⎪ ⎪⎫
Var (t y (GMTH ) ) = ∑ ⎨ ∑ z i2(q )Var (δ i (q ) ) ∑ ∑ z i (q ) z j (q )Cov (δ i (q ) , δ i (q ) ) ⎬
⎪i∈U q
q =1 ⎩ i∈U q j∈U q ,i ≠ j ⎭⎪
y iα q (i )
z i (q ) = .
E (δ i ( q ) )
Für Designs mit festen Stichprobenumfängen reduziert sich die Formel auf
Singh und Mecatti zeigen, dass sich die oben beschriebenen Grade der Informati-
on, die über einen Fall hinsichtlich seiner Zugehörigkeit zu einer Auswahlgrundla-
ge unterschieden werden können, als Spezialfälle des GMHT-Schätzers darstellen
lassen.
Eine wichtige Anwendung des MF-Schätzers ist die Anwendung im Bereich der
Telefonstichproben, bezogen auf die beiden Auswahlgrundlagen „Festnetz“ und
„Mobilfunknetz“. Über die Elemente der Population weiß man, dass sie entweder
zu einen oder zur anderen Auswahlgrundlage oder zu beiden Auswahlgrundla-
gen gehören. Wir wissen zum Zeitpunkt der Stichprobenauswahl nicht, zu welcher
der beiden Auswahlgrundlagen ein konkretes Element der Zielpopulation gehört
(fehlende Identifizierbarkeit der Auswahlgrundlage). Wir können aber die Inklu-
sionswahrscheinlichkeiten für beide Auswahlgrundlagen berechnen. Nach der
Klassifikation von Singh und Mecatti hätten wir in diesem Fall also nur partielles
Wissen vorliegen. Für den oben angeführten GMTH-Schätzer bedeutet dies bei
Überschneidungsfreiheit, dass Q = 2 und Di(q) = 1 für jedes Element i. Damit hat der
GMTH-Schätzer folgende Form:
2
1
t y (GMTH ) = ∑∑ y i .
q =1 i∈U q π q (i )
Dagegen erfolgt die Auswahl der Zielpersonen über das Mobilfunknetz einstu-
fig. Unter der Voraussetzung überschneidungsfreier Auswahlgrundlagen wird bei
Dual-Frame-Stichproben der Allgemeinbevölkerung oft die folgende Formel für
die Berechnung der Inklusionswahrscheinlichkeiten verwendet (vgl. Häder & Hä-
der, 2009).
mF 1 mC 1
π k ≈ kkF F
× + kkc C ×
M Z HH M Z Mobil
Geht man von einer Überlappung aus, müsste in die Formel ein Multiziplitätsfak-
tor integriert werden. Grundsätzlich kann zur Vermeidung von Überschneidungen
aber statt eines solchen Faktors die Gewichtung auch auf Basis eines Modells mit
drei Auswahlgrundlagen erfolgen: „Nur Festnetz“, „Überlappungsbereich Festnetz
und Mobil“, „Nur Mobilfunk“.
Der Nachteil besteht darin, dass einige der notwendigen Informationen über die
Nutzung von Festnetz und Mobilfunk nur im Rahmen von Befragungen erhoben
und geschätzt werden können.
426 VI.3 Die Schätzung von Populationsparametern (Schätzphase)
Sowohl in der Designphase als auch in der Phase der Schätzung von Populationspa-
rameter (Schätzphase). auf Basis der erhobenen Daten empfiehlt sich die Verwen-
dung von sog. Hilfsvariablen und Hilfsinformationen. Hilfsvariablen (engl.: auxi-
liary variables) unterscheiden sich von den eigentlichen Zielvariablen durch ihre
Funktion. Während Zielvariablen eine inhaltliche Funktion in der Forschungsfra-
gestellung haben, dienen Hilfsvariablen primär der Konstruktion des Stichproben-
designs oder der Verbesserung der Schätzqualität durch Optimierung der Schätz-
genauigkeit. Beispiele für Hilfsvariablen sind Melderegisterdaten wie Geschlecht,
Datum der Geburt bzw. Alter, Geburtsort, Familienstand, Zeitpunkt des Ein- und
Auszugs bzw. Wohndauer, etc. Hilfsvariablen sind aber nicht an die Auswahlgrund-
lage gebunden, sondern können auch zum Datensatz zugespielte Kontextinforma-
tionen wie Gemeindegröße, Migrantenanteil in der Gemeinde, Kriminalitätsrate,
Betriebsgrößenklasse, Geodaten etc. sein.
Hilfsvariablen lassen sich einerseits zur Verbesserung der Schätzung von Po-
pulationsparametern auf der Basis von vollständigen Stichprobendaten einsetzen
andererseits aber auch zur Verbesserung der Schätzungen auf der Basis von unvoll-
ständigen Daten, die durch Ausfälle von Elementen während der Erhebungsphase
entstanden sind. Die zuletzt erwähnte Anwendung wird uns in Teil VII beschäfti-
gen.
Die Verwendung von Hilfsvariablen in der Designphase ist etwa bei der Kon-
struktion von geschichteten Stichprobendesigns üblich, wobei die Schichtungs-
merkmale die Hilfsvariablen darstellen. Beispiele für die Nutzung von Hilfsvariab-
len in der Schätzphase ist die Anwendung bei Regressionsschätzern (siehe unten)
und der Verbesserung der Stichprobenqualität durch nachträgliche Schichtung
(Poststratifikation), wo Hilfsvariablen als unabhängige Variablen in ein Regressi-
onsmodell eingehen.
Grundsätzlich können in einer Stichprobe erhobene Variablen sowohl als Hilfs-
variablen als auch als Zielvariablen genutzt werden. Ein Beispiel wäre die Variable
„Einkommen“, die sowohl zur Gewichtung von Schätzern als auch als unabhängige
Variable in einer inhaltlichen Fragestellung verwendet werden kann.
Mit dem Ausdruck Hilfsinformationen verbindet man im Vergleich zu Hilfsva-
riablen allgemein auf Populationsebene vorliegende Informationen über in der Er-
hebung gemessene Variablen wie z.B. Zell- und Randhäufigkeiten wie Häufigkeiten
von Alterskategorien oder Ausprägungen der Variablen „Geschlecht“.
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 427
Damit Hilfsvariablen ihre Funktion erfüllen können, müssen alle Elemente der
gezogenen Stichprobe einschließlich jener Elemente, die aus der Stichprobe auf
Grund verschiedener Ursachen herausgefallen sind, Werte auf den Hilfsvariablen
aufweisen. Darüber hinaus erfordern einige Einsatzmöglichkeiten das Vorliegen
von Werten für die gesamte Population.
Eine Hilfsvariable wird in der Regel mit dem Symbol „x“ bezeichnet. Oft liegen
statt einer einzigen Hilfsvariablen allgemein J Hilfsvariablen
x1 , x 2 ,..., x j ,..., x J
vor. Jedes Element k weist auf einer Hilfsvariablen xj einen Wert xkj auf. Bei Vorlie-
gen von mehr als einer Hilfsvariablen bilden die Werte eines Element k der Zielpo-
pulation einen Zeilenvektor
x k = ( x k1 , x k 2 ,..., x kj ,..., x kJ ) ’
xk kann als Wert des Elements k eines allgemeinen Hilfsvektors (engl.: auxiliary
vector) x dargestellt werden (zur kurzen Rekapitulation der Begriffe „Matrix“ und
„Vektor“ vgl. Exkurs IV.3).
Im Unterschied zu einer Hilfsvariablen wird eine Zielvariable im Folgenden
mit y bezeichnet. Der Wert eines Elements k auf einer Zielvariablen wird mit yk
bezeichnet.
Unter einer Matrix A der Ordnung (auch: Typ) n × m mit n Zeilen und m Spalten
versteht man eine rechteckige Anordnung von Elementen:
Die aij ( i = 1,…, I ; j = 1,…, J heißen Elemente von A. i heißt Zeilenindex, j heißt
Spaltenindex.
428 VI.3 Die Schätzung von Populationsparametern (Schätzphase)
Eine Matrix, die nur aus einer Spalte oder Zeile besteht, heißt Vektor, wobei
unterschieden werden kann zwischen Spaltenvektoren: Matrizen der Ordnung
n × 1 und Zeilenvektoren: Matrizen der Ordnung 1 × m Vektoren werden in
der Regel mit fetten Kleinbuchstaben gekennzeichnet. Zeilenvektoren erhalten
zusätzlich ein Apostroph (z.B. x΄).
der für alle Elemente der Population definiert ist, also auch für jene, die nicht in der
Stichprobe enthalten sind.
Grundidee des modellbasierten Ansatzes:
Ziel des modellbasierten Ansatzes ist die Konstruktion von Schätzern, die zu ei-
ner minimalen Abweichung der durch die Hilfsvariablen vorhergesagten Werte
der Zielvariablen von den tatsächlichen Werten der Zielvariablen führen sollen.
Zugrunde gelegt wird dabei ein Regressionsmodell, das für eine metrische Zielva-
riablen die Form einer gewöhnlichen linearen Regression (siehe unten) annimmt.
Dabei wird zunächst versucht, die beobachteten Werte der Zielvariablen durch die
Werte der Hilfsvariablen so vorherzusagen, dass die Vorhersagefehler ein Mini-
mum ergeben. Dies kann mit Hilfe der Methode der kleinsten Quadrate geschehen.
Als Werte für die nicht gemessenen Werte des nicht in der Stichprobe befindlichen
Teils der Population werden dann die vorhergesagten Werte eingesetzt. Dies ist ein
Verfahren, dass auch bei der Ersetzung (auch: Imputation) fehlender Werte im Fall
von Item-Nonresponse eingesetzt werden kann (vgl. Teil VII). Als optimale Schät-
zung eines Totals in der Population könnte dann die Summe aller mit den inversen
Inklusionswahrscheinlichkeiten gewichteten gemessenen Werte der Zielvariablen
für die Elemente in der Stichprobe plus der Summe der vorgesagten Werte der Ziel-
variablen für alle Elemente außerhalb der Stichprobe verwendet werden.
Der modellbasierte Ansatz legt also ein Modell zur Vorhersage einer Zielvaria-
blen y als abhängiger Variablen durch allgemein J Hilfsvariablen als unabhängigen
Prädiktorvariablen zugrunde (vgl. Abbildung VI.5). Es hat die allgemeine Form:
y = F ( x1 , x 2 ,…, x j ,…, x J ) + R
y = F ( x ) + R.
430 VI.3 Die Schätzung von Populationsparametern (Schätzphase)
y = a + b1x1 + b2 x 2 + …+ b j x j + …+ bJ x J + R.
mit
ܦ
ෙ =
ܦ
ߨ
und
Dk = y k − y k0 .
Der Differenzenschätzer eines Summenwerts ergibt sich also als Summe der vorher-
gesagten Werte in der Population U und der Summe der Differenzen zwischen tat-
sächlichen und vorhergesagten Werten in der Stichprobe s. Die tatsächlichen Werte
in der Stichprobe werden um den Vorhersagefehler korrigiert. Ist die Vorhersage
perfekt, d.h. ist der Vorhersagefehler 0, so ergibt sich der Summenwert für die Po-
pulation als Summe der vorhergesagten Werte. Voraussetzung für die praktische
Anwendung ist, dass die Summe der vorgesagten Werte in der Population über-
haupt gebildet werden kann.
Der Differenzenschätzer stellt eine leicht zu verstehende Form des allgemeinen
Regressionsschätzers dar. Die allgemeine Form eines sog. verallgemeinerten Regres-
sionsschätzers (engl.: generalized regression estimator; Abkürzung: GREG-Schätzer)
ŶGREG des Populationstotals Y einer Zielvariablen y lautet im Fall einer einzigen
Hilfsvariablen x:
Dabei ist B der mit Hilfe der Methode der kleinsten Quadrate geschätzte Regressi-
onskoeffizient der einfachen Regression mit der Hilfsvariablen x als unabhängiger
Variablen. dk = 1 ist wieder das Designgewicht.
πk
In Worten:
Der verallgemeinerte Regressionsschätzer GREG für einen Summenwert ist bei ei-
ner einzigen Hilfsvariablen gleich der Summe aus dem Horvitz-Thompson-Schät-
zer und der Differenz zwischen dem Summenwert der Hilfsvariablen in der Popu-
lation und dem Summenwert der mit dem Designgewicht multiplizierten Werte
der Hilfsvariablen in der Stichprobe.
432 VI.3 Die Schätzung von Populationsparametern (Schätzphase)
⎛ B1 ⎞
⎜ ⎟
⎜ B2 ⎟
⎜# ⎟
B=⎜ ⎟
⎜ Bj ⎟
⎜# ⎟
⎜ ⎟
⎜ BJ ⎟
⎝ ⎠
bilden.
Für J Hilfsvariablen nimmt der allgemeine Regressionsschätzer die folgende
Form an:
YˆGREG = YˆHT + ¦ Jj =1 Bˆ j ( ¦U x j − ¦ S dk x j )
.
bzw.
§ Bˆ1 ×
¨
(¦ U
x 1 − ¦ S d k x1 ) +·
¸
¨ # # # #¸
¨ ¸
YˆGREG = YˆHT + ¨ Bˆ j × (¦ U
x j − ¦ S dk x j ) +¸
¨ # # # # ¸¸
¨
¨ Bˆ J ×
© (¦ U
x J − ¦ S dk x j ) ¸
¹
oder in Matrixschreibweise:
§ Bˆ1 ·
¨ ¸
¨ # ¸
(¦ ) (¦ ) ( )
'
YˆGREG = YˆHT + ª
¬ U
x1 − ¦ S d k x 1 … U
x1 − ¦ S d k x 1 … ¦U ¦ S ¼ ¨¨ Bˆ j ¸¸
x 1 − d k x 1 º ×
¨ # ¸
¨ ¸
¨ Bˆ J ¸
© ¹
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 433
bzw.
(¦ ) (¦ )
'
YˆGREG = YˆHT + ¦B j U
x *k − ¦ S dk x *k = YˆHT + U
x *k − ¦ S dk x *k Bs ,d
j =1
mit
x *k = ( x1k ,…, x jk ,…, x Jk ) ’,
(∑ x ) = (∑ ∑ ∑ ∑ )
’ ’
*
U
k
U
x k1 U
xk2 ! U
x kj ! U
x kJ
und
(∑ ) (∑ ∑ ∑ ∑ )
’ ’
S
dk x *k = S
d1k x1k ) S
d2 k x 2 k ) … S
d jk x jk ) … S
d Jk x Jk )
.
Zum Verständnis der Formel sind als Erinnerung in Box IV.4 noch einmal die Re-
geln für die Addition und die Multiplikation von Matrizen beschrieben. In einigen
Formeln der Literatur mit Matrizendarstellung spielt auch die Division von Matri-
zen eine Rolle. Hier sei der Leser auf die einschlägige Literatur in linearer Algebra
verweisen (vgl. z.B. Jänich, 2013; Kowalsky & Michler, 2003; Namboodiri, 1984).
Exkurs VI.4: Operationen mit Matrizen
B. Multiplikation
Sei A eine Matrix der Ordnung p × n und B eine Matrix der Ordnung n × m.
Dann ergibt sich als Ergebnis eine Matrix C = AB der Ordnung p × m mit den
Elementen c kj ( k = 1,…, p; j = 1,…, m ) , dergestalt, dass gilt
Als Beispiel für die Berechnung eines einzelnen Elements von C nehmen wir das
Element c24. Dieses berechnet sich wie folgt:
C. Inverse:
Die Inverse einer quadratischen Matrix A (quadratisch: gleiche Anzahl von Zei-
len und Spalten) ist definiert als eine Matrix A^(-1), welche die Eigenschaft hat,
dass
AA-1 = A-1A = I.
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 435
I ist die Identitätsmatrix. Hier als Beispiel eine Identitätsmatrix der Ordnung 3×3:
⎛1 0 0 ⎞
⎜ ⎟
⎜0 1 0⎟
⎜ 0 0 1⎟
⎝ ⎠
Der GREG-Schätzer ist selber nur annähernd erwartungstreu. Der Bias ist aber zu
vernachlässigen. Mit größer werdendem Stichprobenumfang nähert sich das Ver-
hältnis von Bias und Standardfehler dem Wert 0. Das Subskript s,d beim Vektor der
Regressionskoeffizienten soll die Abhängigkeit der Koeffizienten vom Design und
der Stichprobe signalisieren. Die Schätzung des Vektors Bs,d nach der Methode der
kleinsten Quadrate ergibt:
( ∑ (d x ) x )
−1
(∑ )
’
Bs , d = S
k
*
k
*
k
S
dk x *k y k
ment). Hat man den Summenwert geschätzt, so erhält man die Schätzung des Po-
pulationsmittelwerts mittel Division durch N, d.h. es gilt:
y GREG = y HT + ( x − x HT ) Bs ,d
’
Dabei ist
x ’ = ( x1 x 2 … x j … x J ) ’
der Zeilenvektor der Mittelwerte der J Hilfsvariablen über alle k Elemente der Po-
pulation U und
x HT = ( x1, HT x 2, HT … x j , HT … x J , HT ) ’
Yˆ = N ¬ª y s ,d + ( xU − x s ,d ) ¼º Bˆ s ,d
mit Bˆ s ,d = ¦ dk ( x k − x s ,d )( y k − y s ,d ) / ¦ d k ( x k − x s ,d )
2
Der Schätzer yˆ=U für den Populationsmittelwert der Zielvariablen y ergibt sich mit-
tels Division durch N. Er hat unter der Annahme einer einfachen Zufallsauswahl
die Form
y = y s + Bˆ ( xU − x s ) .
U
schätzen.
Der Schätzer für dieses Verhältnis würde dann lauten:
Yˆ
Rˆ =
Xˆ
Also wäre Ŷ = R̂ X̂. Identifizieren wir R̂ mit der Schätzung des Regressionskoeffizi-
Yˆ
enten B, also mit Bˆ = unter der Einschränkung, dass die Residuen 0 sind, so
Xˆ
erhalten wir durch Einsetzungen unter der Bedingung, dass wir nur eine einzige
Hilfsvariable x vorliegen haben, die folgende Formel für die Berechnung des Schät-
zers Ŷ für den Summenwert Y der Variablen y:
y s ,d
Y˘GREG NxU
x s ,d
y y s ,d xU
U , GREG
xU y s ,d .
x s ,d x s ,d
Statt ŶGREG und yˆ=U, GREG wird auch oft ŶR und yˆ=R geschrieben. Der Verhältnisschätzer
multipliziert also den Stichprobenmittelwert mit einem Korrekturfaktor.
VI.3 Die Schätzung von Populationsparametern (Schätzphase) 437
1
dk = ist wieder das Designgewicht, Nˆ g = ¦ dk ist die geschätzte Anzahl der
πk
Elemente in Gruppe g der Stichprobe s.
Unter der Bedingung einer einfachen Zufallsauswahl gilt:
G
YˆPS = ¦N g y s g .
g =1
ˆ G
y = YPS = 1 N g y s g .
PS ¦
N N g =1
Bei nachträglicher Schichtung ergibt sich der Schätzer für den Populationsmittel-
wert also als durch die Anzahl der Elemente in den Schichten gewichtete Summe
der Schichtmittelwerte.
Dieser Schätzer resultiert, wenn jeder Messwert des Elements k einer Gruppe g
mit dem Poststratifikationsgewicht Ng/ng multipliziert wird.
438 VI.4 Zusammengesetzte Stichprobendesigns
( )
Als Varianz V y PS des Mittelwertschätzers ergibt sich im Fall einer einfa-
chen Zufallsauswahl
G G
1 f 1 f
V y PS
n
¦Wg S 2g
g 1 n2
¦ 1 W S .
g 1
g
2
g
( ) 1− f 1− f
G G
Vˆ y PS =
n ¦W sg =1
2
g g +
n2 ¦ (1 − W ) s
g =1
g
2
g .
s2g ist die Stichprobenvarianz in Gruppe g. Wir werden uns später mit der nachträg-
lichen Schichtung auch im Zusammenhang mit Gewichtungsverfahren bei Ausfäl-
len befassen (vgl. Teil VII).
VI.4.1 Vorbemerkung
VI.4.2 Zweiphasenauswahl
• Gezielte Auswahl von Substichproben auf Basis von in der Stichprobe der ersten
Phase extensiv gesammelten Hilfsinformationen. Dies ist etwa der Fall, wenn
Personen mit bestimmten Merkmalsausprägungen in der zweiten Phase noch
einmal intensiver befragt werden sollen (z.B. Verbindung von „quantitativen“
und „qualitativen“ Befragungsmethoden). Brick, Williams und Montaquila
(2011) geben ein Beispiel für eine postalische zweiphasige Auswahl. In der ers-
ten Phase wurden die Haushalte der Bruttostichprobe per Mail nach Kindern
gescreent. in der zweiten Phase wurden die Kinder befragt.
440 VI.4 Zusammengesetzte Stichprobendesigns
Auch die Stichprobenauswahl auf der Basis eines Access-Panels kann als Zweipha-
senauswahl betrachtet werden. Zunächst wird eine Stichprobe von Panelteilneh-
mern rekrutiert, anschließend werden aus dieser Stichprobe weitere Stichproben
generiert.
Obwohl die Zweiphasenauswahl von der Konzeption her einfach erscheint, sind
die Schätzer im Fall einer Zweiphasenauswahl nicht so ohne weiteres zu berechnen.
Dies liegt einerseits daran, dass in der zweiten Auswahlphase ein anderes Stichpro-
bendesign gewählt werden kann als in der ersten Phase, andererseits, damit zu-
sammenhängend, daran, dass für die Berechnung des Schätzers die Kenntnis der
Inklusionswahrscheinlichkeiten notwendig ist. Dafür müssen aber alle Auswahl-
wahrscheinlichkeiten der Stichproben bekannt sein, auch die bedingten Wahr-
scheinlichkeiten einer Stichprobe der zweiten Stufe, gegeben die Stichproben der
ersten Stufe. Ein sich anbietender Schätzer für einen Summenwert wäre der bereits
bekannte Horvitz-Thompson-Schätzer
YˆHT = ¦ dk y k
mit dk = 1 / π k .
In diesem Ausdruck wird die Inklusionswahrscheinlichkeit Sk über die Summe
der Auswahlwahrscheinlichkeiten p(r) der Stichproben r, denen das Element k an-
gehört, bestimmt:
π k = ∑p ( r ) .
r k
VI.4 Zusammengesetzte Stichprobendesigns 441
p ( r ) = ∑p ( s ) ( p ( r|s ) .
s ⊃r
In Worten:
Die Wahrscheinlichkeit der Auswahl einer Stichprobe r ist gleich der Summe der
Wahrscheinlichkeiten für das gemeinsame Auftreten von r und allen Stichproben
s, denen r angehört.
Abbildung VI.7: Einteilung in zwei Schichten nach den Merkmalen „Geschlecht“ und „Alter“
Ein bekanntes Beispiel für eine disproportionale Schichtung ist die Schichtung
nach Ost und West in der Allgemeinen Bevölkerungsumfragen der Sozialwis-
senschaften (ALLBUS). Würde man proportional in den Erhebungsgebieten
ziehen, hätte man eine für Subgruppenanalysen ungenügende Anzahl von Fäl-
len im Osten. Daher wird im Osten eine größere Stichprobe gezogen als ihrem
Anteil in der Gesamtpopulation der deutschen Wohnbevölkerung entspricht.
Die Aufteilung der gesamten Stichprobe auf die Schichten wird auch als Allokation
bezeichnet. Eine optimale Allokation, d.h. eine Allokation, welche eine optimale
Schätzung der Population unter Annahme gleicher Kosten in den Schichten h er-
VI.4 Zusammengesetzte Stichprobendesigns 443
N h S yh
nh = n
∑
H
h =1
N h S yh
wobei H die Anzahl der Schichten, Nh die Anzahl der Elemente in der h-ten Schicht
und Syh die Standardabweichung der Untersuchungsvariablen y in der h-ten Schicht.
Geht man von unterschiedlichen Kosten in den Schichten aus, so berechnet sich
der optimale Stichprobenumfang nach der allgemeineren Formel:
N h S yh / 2 ch
nh = ( C − c0 )
∑
H
h =1
N h S yh 2 ch
H
C = c0 + ∑nhc h .
h =1
Ein Problem der obigen Formeln für eine (kosten-)optimale Allokation besteht
darin, dass die Varianz Syh in der h-ten Schicht Uh bekannt sein muss, eine Voraus-
setzung, die im Allgemeinen in der Designphase eher nicht erfüllt ist; erst nach der
Erhebung könnte man eine Schätzung der Varianz vornehmen. Eine realistischere
Formel erhält man, wenn man eine Hilfsvariable x zur Verfügung hat, die mit der
Zielvariablen y hoch korreliert ist und die Standardabweichungen dieser Hilfsva-
riablen in den einzelnen Schichten bekannt sind. In diesem Fall kann Formel zur
Berechnung von nh auf die Hilfsvariable bezogen werden:
N h Sxh
nh = n .
∑
H
h =1
N h Sxh
Diese Allokation erhält man, wenn man annimmt, dass die Varianzen von y in allen
Schichten gleich sind. Eine zum Summenwert von y proportionale Allokation ist
definiert durch
∑
Nh
yk
nh =n k =1
.
∑
N
k =1
yk
S yh
cv yh .
yh
Ersetzt man die Zielvariable y durch eine mit y korrelierte Hilfsvariablen x, so er-
hält man eine zum Summenwert der Hilfsvariablen x proportionale Allokation.
H
YˆST = ¦Yˆh
h =1
VI.4 Zusammengesetzte Stichprobendesigns 445
H
ˆ
y = ¦ h =1Yh ,
ST
N
yk
wobei Yˆh = ¦ der Horvitz-Thompson-Schätzer für den Summenwert in der
π kh
h-ten Schicht ist und πkh die Wahrscheinlichkeit für die Inklusion eines Elements k
in der h-ten Schicht.
Bei einfacher Stichprobenauswahl ergibt sich für πkh:
nh
π kh = ,
Nh
wobei Nh der Umfang der h-ten Schicht und nh der Stichprobenumfang der in der
h-ten Schicht gezogenen Stichprobe sh ist. Der Schätzer für den Summenwert in der
Population hat in diesem Fall folgende Form:
H
YˆST = ¦N h y sh ,
h =1
wobei:
yk
y sh = ∑ S h
nh
der Mittelwert der in der h-ten Teilpopulation Uh gezogenen Stichprobe sh ist. Als
Schätzer für den Populationsmittelwert ergibt sich bei einem geschichteten Stichpro-
bendesign mit einfacher Zufallsauswahl in jeder Schicht:
H H
y = N h y h = Nh 1
ST ∑
h =1 N
∑
h =1
∑ Sh
× yk .
N nh
446 VI.4 Zusammengesetzte Stichprobendesigns
Beispiel VI.4.5:
N West N west
y BRD = yWest + y Ost .
N N
VI.4.4 Klumpenauswahl
Das Design der Klumpenauswahl (engl.: cluster sampling) geht davon aus, dass
die Population U in allgemein M Subpopulationen U 1 ,U 2 ,...,U i ,...,U M zerlegt
werden kann. Aus diesen M Subpopulationen wird dann eine Stichprobe s von
m Subpopulationen gezogen, deren Elemente vollständig erhoben werden. Bei
der Klumpenauswahl (auch: einstufige Klumpenauswahl; engl.: single stage cluster
sampling) handelt es sich um eine direkte, einstufige Auswahl, wobei zunächst nicht
die Elemente der Population selber, sondern Mengen solcher Elemente gezogen
werden. Eine weitere Auswahlstufe findet nicht statt, da alle Elemente eines Klum-
pens untersucht werden. Eine Klumpenauswahl bietet sich an, wenn eine direkte
Auswahl von Elementen nicht oder nur zu sehr hohen Kosten möglich ist. Dies
ist etwa dann der Fall, wenn keine Auswahlgrundlage für eine direkte Stichprobe
der Untersuchungseinheiten zur Verfügung steht. Ein Beispiel wäre die Population
aller Schüler, die eine Hauptschule besuchen. Da es keine Auswahlgrundlage aller
Hauptschüler gibt, könnte man eine Stichprobe von Hauptschulen ziehen und in
diesen Hauptschulen alle Schüler untersuchen. Mit hohen Kosten und einer Ge-
fährdung der Durchführbarkeit wäre zu rechnen, wenn die Elemente der Populati-
on weit gestreut sind und daher mit hohen Interview-Kosten und langen Feldzeiten
zu rechnen wäre.
Die formale Darstellung des Schätzers für das Design der Klumpenauswahl er-
fordert Begriffe, deren hier verwendete symbolische Bezeichnungen in Tabelle IV.2
zusammengestellt sind.
VI.4 Zusammengesetzte Stichprobendesigns 447
Abbildung VI.8 erläutert die Auswahl am Beispiel einer Population von Haupt-
schülern einer Stadt, die sich auf 8 Hauptschulen verteilen.
Sei Ni die Anzahl aller Elemente des Klumpens Ui. Dann ist der Summenwert Yi
einer Variablen y in Ui gegeben durch:
Ni
Yi = ∑y k .
k =1
1
yi Yi .
Ni
Der Umfang N der Population lässt sich auch als Summe der Umfänge Ni aller
Klumpen Ui in der Zerlegung UCL darstellen:
M
N = ∑N i
i =1
m
YsCL = ∑Yi
i =1
∑
m
Yi
YsCL = i =1
m
Der zu schätzende Mittelwert der Population U ist:
1 M
y= ∑Yi .
N i =1
VI.4 Zusammengesetzte Stichprobendesigns 449
m
Yi
YˆCL ,HT = ¦ .
i =1 π sc ,i
In der Formel sind m die Anzahl der Klumpen in der Stichprobe sCL der Klumpen
und Yi der Summenwert von y im Klumpen i der Stichprobe sCL. πsc,i ist in diesem
Fall die Inklusionswahrscheinlichkeit des Klumpens i. Da jedes Element der Popu-
lation U, das zu einem Ui gehört, keinem anderen Uj angehören kann und alle Ele-
mente eines Klumpens ausgewählt werden, gilt für ein Element k Є Ui, dass πk = πsc,i.
Als Schätzer für den Mittelwert von y in der Population U ergibt sich:
y 1 ˆ 1 m Yi
CL , HT
N
YCL , HT ¦ .
N i 1 S sc ,i
Wenn wir aus Gründen der Übersichtlichkeit den Teil sc des Subskripts bei πsc,i
weglassen, ergibt sich als Varianz des Schätzers für das Populationstotal ŶHT,CL in
der Population:
Yˆk Yˆl
( )
m m
V YˆCL , HT = ¦¦ (π kl − π kπ l )
k =1 l =1 πk πl
Yˆk Yˆl
( )
m m
1
Vˆ YˆCL ,HT = ¦¦ (π kl − π kπ l ) .
k =1 l =1 π kl πk πl
m
m
Yi M m ¦ Yi
YˆCL ,SI = ¦
Yˆ = ¦ = ¦Yi = M i =1 = MYsCL .
i =1 π i m i =1 m
y M
CL , SI
YsCL .
N
In Worten:
Im Fall einer einfachen Zufallsauswahl ist der Schätzer für den Populationsmittel-
wert der mit dem Verhältnis von Anzahl der Klumpen zu Umfang der Population
gewichtete Mittelwert von y in der Vereinigung aller Klumpen aus sCL.
Man kann zeigen, dass die Varianz von y CL , SI durch folgende Formel ausgedrückt
werden kann:
( ) ⎛ M ⎞ 1− f
V y CL , SI = ⎜ ⎟
⎝N⎠ m
SYU CL
1 M
∑ (Yi − YU CL )
2
2
SYU =
CL
M − 1 i =1
wobei
∑
M
Yi
YU CL = i =1
den Mittelwert der Summenwerte in den Klumpen über alle Klumpen der Zerlegung
UCL der Klumpen darstellt.
2
SYU CL
kann geschätzt werden durch
VI.4 Zusammengesetzte Stichprobendesigns 451
1 m
( Yi − YsCL ) .
2
SˆYU
2
= ¦
CL
m − 1 i =1
Die Homogenität einer Klumpenauswahl betrifft das Verhältnis der Varianz in-
nerhalb der Klumpen zur Varianz zwischen den Klumpen. Sie lässt sich bestim-
men über den Homogenitätkoeffizienten
S 2 − SW2 SW2
ρ= 2
=1− 2 .
S S
2
In diesem Ausdruck ist SW die gepoolte Varianz innerhalb der Klumpen und
2
S die Gesamtvarianz der Variablen y in der Population. ρ misst also, welcher
Anteil der Gesamtvarianz von y auf die Varianz innerhalb der Klumpen zurück-
zuführen und ist und entspricht dem Intraklassenkorrelationskoeffizienten (vgl.
z.B. Hartung, Elpelt & Klösener, 1995, S. 290; Hays, 1994, p. 332). Eine hohe
Homogenität bedeutet, dass die Varianz innerhalb der Gruppen klein ist und in-
folgedessen also die Werte der Variablen y innerhalb der Klumpen ähnlich sind.
Eine niedrige Homogenität besteht dann, wenn die Varianz innerhalb groß ist.
2
Die gepoolte Varianz innerhalb, SW , berechnet sich wie folgt:
M Ni
1
∑∑ ( y k − yi )
2
SW2 =
N − M i =1 k =1
MSB − MSW
ρ= ,
MSB + ( n. − 1) MSW
452 VI.4 Zusammengesetzte Stichprobendesigns
wobei:
MSB: Model Mean Square (Mittlere Quadratsumme zwischen)
MSW: Means Square Error (Mittlere Quadratsumme innerhalb)
n: Stichprobenumfang pro Gruppe, falls balanciert.
Betrachten wir den Fall, dass alle Clustergrößen gleich sind, so ergibt sich zwi-
schen dem Designeffekt der Schätzung eines Summenwerts d e f f (Ŷ) (Verhältnis
der Varianzschätzung auf Grund einer einfachen Zufallsauswahl in den Klum-
pen und der Varianzschätzung bei einer direkten einfachen Zufallsauswahl aus
der Population) und dem Homogenitätskoeffizienten ρ folgende Beziehung:
—
d e f f (Ŷ) = 1 + (N - 1)ρ
—
In dieser Formel ist N =Ni bei gleichen Clusterumfängen. Der Formel kann ent-
nommen werden, dass der Designeffekt den Wert 1 annimmt, wenn die Intra-
klassenkorrelation 0 ist. In diesem Fall gibt es keinen Unterschied in der Präzi-
sion des Schätzers zwischen dem Design der Klumpenauswahl und dem Design
der einfachen Zufallsauswahl. Der Designeffekt erhöht sich mit steigender In-
traklassenkorrelation bzw. mit steigender Homogenität innerhalb der Klumpen,
was gleichbedeutend mit einem Präzisionsverlust durch die Klumpung ist.
Größenproportionale Klumpenauswahl
Eine größenproportionale Klumpenauswahl ist dadurch gekennzeichnet, dass die
Inklusionswahrscheinlichkeit eines Klumpens gleich dem Verhältnis des Umfangs
Ni des Klumpens i zum Umfang N der Population gesetzt wird, d.h. es gilt:
Ni
πi = .
N
m
Yi m Yi m
NYi m
Yi m
YˆCL = ¦ = ¦ =¦ = N¦ = N ¦y i .
i =1 π i i =1
N i i =1 N i i =1 N i i =1
N
VI.4 Zusammengesetzte Stichprobendesigns 453
m
y = YCL = N ¦ i =1y i = y i .
ˆ m
CL
N N ¦
i =1
Im Fall der größenproportionalen Auswahl der Klumpen ist also der Schätzer für
den Populationsmittelwert von y gleich dem Mittelwert der Mittelwerte aller Klum-
pen der Klumpenstichprobe.
Als Varianz von y HT ,CL ergibt sich
( )
V y CL =
1 M
∑N h ( y h − yU )
Nm h =1
2
( )
m m
1 § ·
Vˆ y CL = ¦ N i ¨ y i − ¦y i ¸ .
m ( m − 1) i =1 © i =1 ¹
zogen. Diese können wieder Elemente oder Klumpen von Elementen sein. Dieser
Prozess wiederholt sich bei mehr als drei Stufen.
Stufe 2:
Aus jeder gezogenen Primäreinheit Ui Є sCLwird eine Stichprobe si des Umfangs nsi
von Elementen gemäß einem Stichprobendesign pi(·|sCL) gezogen. Die SSUs sind im
Fall der zweistufigen Auswahl also die Elemente, keine Stichproben.
Man beachte, dass den Ziehungen auf den verschiedenen Stufen unterschiedliche
Stichprobendesigns zugrunde liegen können. So könnte z.B. die Ziehung der Pri-
märeinheiten auf der Grundlage einer einfachen Stichprobenauswahl mit Auswahl-
wahrscheinlichkeiten erfolgen, die Ziehung der Sekundäreinheiten aber mit unter-
schiedlichen Auswahlwahrscheinlichkeiten.
Diese Allgemeinheit kann durch das Prinzip der Invarianz und der Unabhängig-
keit eingeschränkt werden. Das Prinzip der Invarianz des Designs der zweistufigen
Auswahl besagt, dass die Stichprobenauswahl auf der zweiten Stufe nach dem glei-
chen Design wie auf der ersten Stufe erfolgt. Nehmen wir z.B. an, die Auswahl der
PSUs auf der ersten Stufe würde nach dem Design der einfachen Zufallsauswahl
durchgeführt, dann würde im Fall der Invarianz des Designs die Stichprobenaus-
wahl innerhalb aller PSUs ebenfalls nach dem Design der einfachen Zufallsauswahl
erfolgen. Die Annahme der Unabhängigkeit wiederum besagt, dass die Stichpro-
benauswahl in einer PSU unabhängig von den Auswahlen in den übrigen PSUs
erfolgt. Diese Annahmen werden in Folgenden zugrunde gelegt.
Sei
Ni
Yi = ∑y k
k =1
der Summenwert der Variablen y in der Primäreinheit Ui. Ni sei die Anzahl der
SSUs, in Ui.
Wenn auf der ersten Stufe eine Stichprobe sCL von m Primäreinheiten gezogen
wurde, lässt sich die Summe Yi der Variablen y in der Primäreinheit Ui Є sCL durch
den entsprechenden Horvitz-Thompson-Schätzer schätzen:
nsi
yk
Yˆi = ¦ ,
k =1 π k|i
wobei π k|i die bedingte Wahrscheinlichkeit der Inklusion des Elements k unter der
Bedingung der Auswahl der Stichprobe si ist. nsi bezeichnet die Anzahl der Sekun-
däreinheiten, also den Elementen, in der gezogenen Primäreinheit Ui.
456 VI.4 Zusammengesetzte Stichprobendesigns
Ni Ni
yk yl
Vi = ∑∑ (π kl|i − π k|iπ l|i ) .
k =1 l =1 π k|i π l|i
m m
Vˆi = ¦¦
(π kl|i − π k|iπ l|i ) y k y l .
k =1 l =1 π kl|i π k|i π l|i
2
1 Ni Ni ⎛ yk yl ⎞
Vi = − ∑∑ (π kl|i − π k|iπ l|i ) ⎜⎝ π k|i − π l|i ⎟⎠ .
2 k =1 l =1
Nachdem wir die Summenwerte für die Primäreinheiten schätzen können, ergibt
sich als Schätzer für den Summenwert von y in der Population U:
m
Yˆi
Yˆ = ¦ ,
i =1 π CL ,i
V2 st = VPSU + VSSU
VI.4 Zusammengesetzte Stichprobendesigns 457
wobei:
M M
Yi Y j
VPSU = ∑∑ (π Iij − π Iiπ Ij ) .
i =1 j =1 π Ii π Ij
und
∑
M
Vi
VSSU = i =1
,
π Ii
Der zweistufige Fall lässt sich auf mehr als zwei Stufen verallgemeinern (vgl. Särn-
dal, Swensson & Wretman, 1992, S. 144). Dann werden auf der zweiten Stufe nicht
mehr Elemente, sondern Tertiäreinheiten gezogen, die wiederum Elemente oder
weitere Einheiten 4. Stufe, etc. sein können. Ein praktisches Beispiel für eine Aus-
wahl in drei Stufen stellt das ADM-Stichprobendesign für Face-to-Face-Umfragen
dar (vgl. Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V., 2013).
Im Fall einer einfachen Stichprobenauswahl ohne Zurücklegen auf beiden Stu-
fen vereinfachen sich die Formeln für den oben aufgeführten allgemeinen Horvitz-
Thompson-Schätzer. Als Schätzer für das Populationstotal Y ergibt sich in diesem
Fall:
nsi
M m M m M m § ¦ yk ·
Yˆ = ¦N i y si = ¦YˆiHT = ¦N i ¨ k =1 ¸.
m i =1 m i =1 m i =1 ¨ nsi ¸
© ¹
m
y = M Yˆi .
¦
mN i =1
458 VI.4 Zusammengesetzte Stichprobendesigns
Die Varianz des Schätzers für das Populationstotal ist gegeben durch
1− fI 2 1 − fi 2
( )
V2 st YˆHT = M 2
m
M M
StU I + ¦N i2
m i =1 ns i
SU i .
wobei:
m
fI (Auswahlsatz für die Primäreinheiten)
M
n si
fi (Auswahlsatz für die Sekundäreinheiten innerhalb der Primäreinheit Ui
Ni
⎛
∑ Yi ⎞
M
1
∑ ⎜ ⎟ und
M
StU I =
2
Yi −
i =1
M − 1 i =1 ⎜ M ⎟
⎝ ⎠
⎛
∑ k =1y k ⎞⎟ = S 2 = 1 N i ( y k − yUi ).
Ni
1
∑ ⎜ ∑
Ni
SU2 i = y k −
N i − 1 k =1 ⎜ Ni ⎟
Ui
Ni − 1 k =1
⎝ ⎠
wobei
2
1 ª § YˆiHT ·º
¦ «YˆiHT ¨¨ ¦ ൌͳ
2
StU
ˆ I ൌͳ ¸¸ »
m 1 ¬« © m ¹ ¼» und
Ss2i = ∑
nsi − 1 k =1 ⎜
y k − ∑
nsi ⎟ nsi − 1 k =1
⎝ ⎠
Eine weitere Vereinfachung ergibt sich, wenn die PSUs auf der ersten Stufe bei Vor-
liegen eines geeigneten Maßes der Größe (z.B. Anzahl der Einwohner in einer Ge-
meinde) nach Größe in H Schichten von PSUs etwa gleichen Umfangs stratifiziert
werden. Unter der Annahme, dass auf beiden Stufen eine einfache Zufallsauswahl
vorgenommen wird, hat der Horvitz-Thompson-Schätzer für das Populationstotal
Y die folgende Form:
H
N CL ,h
Yˆ ¦n ¦N y i si .
h 1 CL , h sCL ,h
VI.4 Zusammengesetzte Stichprobendesigns 459
In dieser Formel sind NCL,h die Anzahl der Primäreinheiten in der Schicht h bezo-
gen auf die Zerlegung UCL der Grundgesamtheit in M PSUs, sCL,h eine Stichprobe
von Primäreinheiten aus den Primäreinheiten in Schicht h des Umfangs nCL,h Ni die
Anzahl der Elemente in der PSU i und ȳsi der Mittelwert der Zielvariablen y in der
Stichprobe von Elementen, die in der Primäreinheit Ui gezogen wurde.
Sind für alle M PSUs in der Zerlegung UCL Größenmaße ui bekannt, so lässt sich
unter der Voraussetzung einer einfachen Zufallsauswahl auf beiden Stufen auch der
folgende Verhältnisschätzer für das Populationstotal ableiten:
¦
Yˆ = ¦ ui si
N i y si
.
¦u si
i
In dieser Formel ist ui irgendein Maß für die Größe des i-ten Klumpens, das für alle
Klumpen der Zerlegung UCL vorliegt.
m ni n
π k = π CL ,iπ k|i = = ,
M Ni N
m ni
wobei der Auswahlsatz für die Ziehung auf der ersten Stufe und der Aus-
M Ni
wahlsatz für die Ziehung einer Stichprobe aus dem Klumpen Ui des Umfangs ni auf
der zweiten Stufe.
Diese Gleichung kann für alle Elemente k nur dann erfüllt sein, wenn das Ver-
hältnis ni/Ni für alle ausgewählten Ui gleich ist, was bedeutet, dass die Stichproben-
460 VI.4 Zusammengesetzte Stichprobendesigns
auswahl auf der zweiten Stufe größenproportional erfolgen muss. Aus der Glei-
chung ergibt sich durch Auflösung nach ni , dass in einer Primäreinheit Ui
n M
ni Ni
N m
Sekundäreinheiten gezogen werden müssen. Für Ui mit etwa gleichem Umfang Ni
können also gleich viele Sekundäreinheiten/Elemente gezogen werden.
Als Schätzer für das Populationstotal ergibt sich:
M m M m
Yˆ = ¦N i y si = ¦Yˆi .
m i =1 m i =1
m
y = M 1 Yˆi .
¦
N m i =1
Die obigen Ableitungen gelten für den Fall, dass auf beiden Auswahlstufen nach
dem Design der einfachen Zufallsauswahl gezogen wird. Wenn wir auf der ers-
ten Auswahlstufe nicht unbedingt nach diesem Design ziehen, so gibt es für jeden
Klumpen Uh auf der ersten Auswahlstufe eine Inklusionswahrscheinlichkeit π CL ,i ,
in die Stichprobe der Klumpen aufgenommen zu werden. Wollen wir eine einfache
Zufallsauswahl der Elemente aus der Grundgesamtheit erreichen, so muss gelten:
ni n
π Cl ,i = .
Ni N
n ni n Ni
π CL ,i = / = .
N N i N ni
VI.4 Zusammengesetzte Stichprobendesigns 461
ni 1
π k = π CL ,iπ k|i = cui ⋅ = cui ⋅ = c.
Ni ui
Die Inklusionswahrscheinlichkeiten sind also in diesem Fall alle gleich der Kons-
tanten c.
Beispiel:
Grundsätzlich hängt der notwendige Umfang einer Stichprobe von folgenden Fak-
toren ab:
Allerdings sind für die Festlegung des Stichprobenumfangs nicht nur formale
Gründe des Stichprobendesigns von Bedeutung. Von Bedeutung ist vielmehr spe-
ziell unter Auswertungsgesichtspunkten auch die Schachtelungstiefe bei der Einbe-
ziehung mehrerer Variablen. In diesem Fall befindet man sich im Bereich der mul-
tivariaten Analyse, die größere Stichprobenumfänge erforderlich machen kann.
Bei Anteilswerten lässt sich der Stichprobenumfang wie folgt bestimmen (vgl.
Cochran, 1972, S. 92ff):
4 PQ
n=
(tolerierte Abweichung )
2
Nehmen wir z.B. die Variable „Geschlecht“ mit den Prozentanteilen 45% Männer
und 55% Frauen. Dann ergibt sich bei einer tolerierten Abweichung (Genauigkeit)
von 5% folgender Stichprobenumfang:
4 PQ 4 × 45 × 55 4 × 2.475 9.900
n= = = = = 396
(tolerierte Abweichung ) 5×5
2
25 25
VI.5 Repräsentativität 463
( SI )
Allgemein lässt sich der Mindeststichprobenumfang nmin einer einfachen Zufalls-
auswahl wie folgt bestimmen (vgl. Gabler & Quatember, 2013):
⎡ ⎤
⎢ z12−α ⋅ S 2 ⎥
( SI )
nmin =⎢ 2
⎥.
⎢ b2 + 1 ⋅ z 2 α ⋅ S 2 ⎥
⎢⎣ N 1− 2 ⎥⎦
VI.5 Repräsentativität
Die oft gestellte Frage: „Ist die Umfrage überhaupt repräsentativ?“ bzw. die For-
derung nach einer repräsentativen Umfrage wird oft von Auftraggebern oder von
kritischen Kommentatoren von Umfrageergebnissen gestellt, ohne dass klar wird,
in welchem Sinne der Begriff verwendet wird. In den meisten Fällen wird er als ein
allgemeines Qualitätsmerkmal ohne weitere Präzisierung verwendet. Wie Kruskal
und Mosteller (1979a, 1979b, 1979c) festgestellt haben, wird der Begriff „Repräsen-
tativität“ in sehr unterschiedlichen Bedeutungen verwendet. Bethlehem, Cobben &
Schouten (2011, p. 17) empfehlen daher mit Recht den Gebrauch des Begriffs „Re-
präsentativität“ mit einer präzisen Definition zu verbinden. Besonders populär ist
die Definition des Repräsentativitätsbegriffs als verkleinertes Abbild der Population
(„minitiature of the population“). Diese Definition wird auch von anderen Autoren
wie z.B. Hartung, Elpelt und Klösener (2009) häufig als Definition genannt. In die
gleiche Richtung zielt auch die Präzisierung von Stenger (1994):
464 VI.5 Repräsentativität
ben ist, wenn die individuellen Antwortwahrscheinlichkeiten und damit auch die
Ausfallwahrscheinlichkeiten (engl. response propensities) für alle Elemente in der
Population gleich und damit nicht mehr von deren Eigenschaften abhängig sind. In
diesem Fall hängt die Wahrscheinlichkeit nicht zu antworten nicht von bestimmten
Merkmalen wie etwa dem Geschlecht ab. Diesem Konzept nach sind die Antwor-
ten in einer Umfrage in Bezug auf eine Menge von Hilfsvariablen (z.B. Alter, Ge-
schlecht, Bildung, etc.) X repräsentativ genau dann, wenn die Antwortwahrschein-
lichkeiten über alle Ausprägungen von X der Populationselemente gleich sind; d.h.
bezüglich eines Vektors X von Hilfsvariablen gilt, dass die individuellen Antwort-
wahrscheinlichkeiten ρX(x) über alle Ausprägungen x der Hilfsvariablen X konstant
sind. Äquivalent dazu ist die Aussage, dass die individuellen Antwortwahrschein-
lichkeiten gleich der mittleren Antwortwahrscheinlichkeit in der Population sind.
Abweichungen von der vollständigen Repräsentativität drücken sich in dem Aus-
maß aus, in dem die Propensities voneinander abweichen.
Als Indikatoren für Repräsentativität führen Schouten, Cobben und Bethlehem
(2009, p. 109) den Begriff des Repräsentativitätsindikators, kurz: R-Indikators, ein.
Ein R-Indikator ist definiert über die Variabilität der individuellen Antwortwahr-
scheinlichkeiten
R ( ρ X ) = 1 − 2S( ρ X )
wobei
1 N
S2 ( ρ X ) = ∑( ρ X ( xk ) − ρ )
2
N k =1
1 N si
ρl = ¦ρˆ X ( xi ) π i .
N i =1
l ist der Schätzer der individuellen Antwortwahrscheinlichkeit in der Population
U
^
auf Grund der Daten der Stichprobe. R wird durch den Schätzer R ersetzt mit
1 N si
( )
2
Rˆ = 1 − 2S ( ρ X ) = 1 − 2 ¦ ρˆ X ( x i ) − ρl .
N − 1 i =1 π i
^
ρ X (xi) sind die aus der Stichprobe geschätzten individuellen Antwortwahrschein-
lichkeiten. Der Ansatz von Schouten et al. kann als Präzisierung der Bedeutung von
Repräsentativität als Abwesenheit selektiver Einflüsse aufgefasst werden, da nach
diesem Ansatz Repräsentativität dann gegeben ist, wenn die Hilfsvariablen keinen
Selektionseffekt ausüben.
Abbildung IV.11 zeigt einen fatalen Verlauf während einer kontinuierlichen Rekru-
tierung, die zu einer nahezu gegenläufigen Entwicklung führt. Solche Entwicklun-
gen lassen sich nur durch kontinuierliche statistische Kontrollen evaluieren, indem
die Entwicklung zentraler Hilfsvariablen in der Population beobachtet und mit den
Veränderungen im Panel verglichen wird.
468 VI.5 Repräsentativität
Eine interessante Frage ist, ob sich aus einem über Websites rekrutiertes, selbst-
selektives Access-Panel, das über einen längeren Zeitraum existiert und in Bezug
auf die Gesamtheit der Teilnehmer möglicherweise nicht repräsentativ ist, reprä-
sentative Substichproben ziehen lassen. Grundsätzlich erscheint dies für die Hilfs-
variablen möglich, wie Abbildung VI.12 erläutern soll.
Das mittlere Rechteck in der Abbildung soll die Substichprobe darstellen. Sie enthält
das dichotome Merkmal in gleichen Anteilen wie in der Population. Bei dieser Be-
trachtung muss aber berücksichtigt werden, dass es sich in diesem Beispiel nur um
die Repräsentativität in Bezug auf Randverteilungen handelt und nicht in Bezug auf
die gemeinsame Verteilung mit anderen Merkmalen. Auch dies ist prüfbar. Abwei-
chungen von der Population könnten mit Hilfe von unterschiedlichen Formen der
Gewichtung korrigiert werden.
Das erforderliche Monitoring des Panel-Zustands einschließlich der Vergleiche
mit der Population führt in der Regel zur Entscheidung, die Stichprobe aufzufrischen
bzw. vollständig zu erneuern. Repräsentativität bezüglich soziodemografischer Hilfs-
variablen bedeutet allerdings nicht automatisch auch Repräsentativität hinsichtlich
der Zielvariablen. Analysen des Zusammenhangs zwischen Hilfs- und Zielvariablen
sind eigentlich für jede neue Erhebung, die auf einer Stichprobe aus einem Access-Pa-
nel beruht, notwendig. Ein soziodemographisches Updating des Panels muss noch
nicht notwendig ein Updating bezüglich der Zielvariablen bedeuten, die von Umfra-
gen zu Umfrage variieren können. Ist der Einsatz eines Access-Panels geplant, sollte
man sich über die Rekrutierungsstrategie und die Maßnahmen zur Panelpflege genau
informieren. Es hängt allerdings nicht zuletzt von der Fragestellung und den metho-
dischen Notwendigkeiten ab, in welchem Umfang man methodische Kompromisse
eingehen kann. Insbesondere, wenn keine Schlüsse auf die Grundgesamtheit gezogen
werden sollen oder wenn die Fragestellung eher experimenteller Natur ist, können
auch Kompromisse hinsichtlich der Repräsentativität eingegangen werden.
VI.6 Auswahlverfahren für telefonische Umfragen 469
VI.6.1 Allgemeines
eine Gruppe von Personen gibt, die ausschließlich über Mobilfunk erreichbar sind
(sog. Mobile-Onlys). Dieser Prozentsatz liegt bei ca. 12-13% (vgl. Häder & Häder,
2009). Aus dieser Situation ergeben sich die folgenden Schlussfolgerungen:
Bei der zufälligen Erzeugung von Telefonnummern (engl.: Random Digit Dialing;
kurz: RDD) werden Telefonnummern mit Hilfe eines Zufallsgenerators erzeugt.
Seine ideale Anwendung findet dieses Vorgehen dann, wenn, wie in den USA, alle
Telefonnummern eine feste Länge besitzen und nach den gleichen Prinzipien auf-
gebaut sind. In den USA besteht eine Telefonnummer aus insgesamt 10 Ziffern.
Die ersten drei Ziffern definieren den sog. Area Code (den Code für die Region),
die nächsten drei als Präfix bezeichneten Ziffern bilden den sog. Central Office
Code, im Alltag auch als Exchange (Vermittlungsstelle) bezeichnet. Die letzten vier
Ziffern schließlich bilden das sog. Suffix und identifizieren den individuellen Tele-
fonkunden innerhalb einer Area-Präfix-Kombination.
Die Area Codes haben auch eine geographische Bedeutung, während Präfixe
ohne geographische Kriterien vergeben werden. Zwar haben die Vermittlungsstel-
len eine geographische Bedeutung, doch können Vermittlungsstellen zwei oder
mehrere Präfixe besitzen, nur ungefähr die Hälfte besitzt nur ein einziges Präfix.
Da bei idealer Realisierung des RDD-Verfahrens jede aus zehn Ziffern bestehende
Nummer die gleiche Wahrscheinlichkeit hat erzeugt zu werden, werden nicht nur
gültige, sondern auch ungültige Telefonnummern nach dem Verfahren einer einfa-
chen Zufallsauswahl ausgewählt.
472 VI.6 Auswahlverfahren für telefonische Umfragen
Das reine RDD-Verfahren ist sowohl für die USA als auch für die Bundesrepu-
blik schon deshalb nicht praktikabel, weil die Anzahl der erzeugten ungültigen Te-
lefonnummern ungeheuer groß ist. Im Fall der Bundesrepublik kommt als weiteres
Hindernis für eine Anwendung die Struktur des Nummernsystems dazu. Wichtig
ist aber die grundlegende Idee der Zufallserzeugung. Die Frage, die sich dabei stellt,
ist die, wie man die Zahl der erzeugten ungültigen, d.h. nicht existenten Ziffernfol-
gen weiter reduzieren kann. Ein Ausweg besteht darin, die Zufallsauswahl listenba-
siert vorzunehmen (siehe unten).
Das reine RDD-Verfahren in den USA wurde von Mitofsky (1970) und Waks-
berg (1978) modifiziert. Sie entwickelten ein 2-stufiges Design. Auf der ersten Stufe
werden gültige Kombinationen von Area/Präfix-Ziffern sowie die ersten zwei Zif-
fern des Suffixes gezogen. Die letzten beiden Stellen des Suffixes definieren einen
100er Block möglicher Telefonnummern von Privathaushalten. Dann wird aus je-
dem Block eine zufällig ausgewählte Nummer angerufen. Ist diese Nummer die
gültige Nummer eines Privathaushalts, so wird der betreffende Block in die Menge
der PSUs der ersten Stufe aufgenommen. Ist die Nummer keine gültige Nummer,
so wird der Block nicht berücksichtigt. Diese Methode der Auswahl von PSUs ist
größenproportional, da die Wahrscheinlichkeit der Aufnahme einer PSU auf der
ersten Stufe proportional zur Anzahl der gültigen Nummern in den Blöcken ist.
Auf der zweiten Stufe, werden für jede PSU weitere k-1 Nummern angerufen, wo-
bei k eine vorher festgelegte Konstante ist. Bei jeder angerufenen Nummer wird
auch die Realisation eines Interviews angestrebt.
Für die Bundesrepublik Deutschland haben Gabler und Häder (1997, 1999,
2000) ein ähnliches Verfahren entwickelt, bei dem die nicht besetzten Blöcke eben-
falls nicht berücksichtigt werden. Die Autoren gehen bei ihren Überlegungen zur
Entwicklung einer geeigneten Auswahlgrundlage für telefonische Zufallsstichpro-
ben in der Bundesrepublik Deutschland von der Erkenntnis aus, dass auch bei
RLD-Techniken die Inklusionswahrscheinlichkeiten unbekannt und für die Tele-
fonhaushalte unterschiedlich sind. Ihr Vorschlag, der auch Grundlage für das Tele-
fonstichprobenmodell des Arbeitskreises deutscher Markt- und Sozialforschungs-
institute (ADM) ist (vgl. ADM, 2013; Heckel 2002, 2007; Von der Heyde 2002) ist,
zielt auf ein Design, das zu gleichen Inklusionswahrscheinlichkeiten auf der Ebene
der Haushalte führt. Allerdings stellte sich sehr schnell heraus, dass gleiche Inklu-
sionswahrscheinlichkeiten wegen einer steigenden Zahl von Haushalten mit meh-
reren eingetragenen Nummern in Bezug auf die Haushalte nicht realisierbar ist.
Haushalte mit mehreren Telefonanschlüssen haben eine höhere Wahrscheinlich-
keit, in die Stichprobe zu kommen als Haushalte mit nur einem Telefonanschluss.
Eine Korrektur kann dadurch erfolgen, dass eine Gewichtung entsprechend der
Anzahl der pro Haushalt vorhandenen Anschlüsse erfolgt, was wiederum nur mög-
lich ist, wenn diese Information im Interview für jeden Haushalt erhoben wird (sie-
he Abschnitt 3.3).
Die Konstruktion des Auswahlrahmens erfolgt im Fall des Verfahrens von
Gabler und Häder in zwei Stufen. Zunächst werden auf der ersten Stufe als PSUs
Gemeinden ausgewählt, da für diese weitere Hilfsvariablen (z.B. Anzahl der Ein-
wohner, Altersverteilung, etc.) sowie statistische Charakterisierungen weiterer Va-
riablen vorhanden sind oder noch gebildet werden können. Auf der zweiten Stufe
wird für jede Gemeinde anhand eines aktuellen Telefonverzeichnisses (z.B. auf CD-
ROM) die Verteilung der Telefonnummern auf sog. Blöcke bestimmt (vgl. Gabler
& Häder 1997, S. 9), wobei zunächst festgestellt wird, welche Blöcke überhaupt mit
eingetragenen Nummern besetzt sind. Als Blöcke werden gleich lange Abschnitte
der Ziffernfolge fester Länge, z.B. der Länge 100 bezeichnet. Aus den besetzten Blö-
cken einer Gemeinde j wird dann eine feste Anzahl von Blöcken n(j) gezogen. Die-
se sollte nicht zu niedrig sein, da Telefonnummern innerhalb eines Blocks eventuell
räumlich zusammenliegen und damit Klumpungen entstehen könnte. Aus jeden
ausgewählten Block werden dann m(j) Ziffernfolgen zufällig erzeugt.
Die Wahrscheinlichkeit für die Auswahl einer festen Ziffernfolge aus einem be-
stimmten Block ist nach der Produktregel für Wahrscheinlichkeiten:
n( j) m( j )
W ( j) = × .
K ( j) L
VI.6 Auswahlverfahren für telefonische Umfragen 475
K(j) bezeichnet in dieser Formel die Anzahl der mit Nummern besetzten Blöcke.
Natürlich sollte die Anzahl m(j) der pro Block ausgewählten Ziffernfolgen nicht
größer sein als die Blocklänge L, und die Anzahl n(j) der ausgewählten Blöcke sollte
nicht größer sein als die Anzahl der besetzten Blöcke insgesamt. Außerdem sollte
die Summe der Produkte m(j) × n(j) über alle ausgewählten Gemeinden nicht grö-
ßer sein als die Gesamtzahl der Telefonnummern über alle Gemeinden. Man kann
zeigen, dass das Produkt m(j) × n(j) mit der sog. Blockdichte variiert. Die Block-
dichte ist definiert als das Verhältnis der Anzahl der Blöcke in einer Gemeinde j zur
Anzahl der in der Gemeinde vergebenen Telefonnummern.
Das Verfahren von Gabler und Häder stellt insofern einen angemessenen Vor-
schlag für einen Rahmen für Telefonstichproben dar, als die Inklusionswahrschein-
lichkeiten, also die Wahrscheinlichkeiten dafür, dass eine gültige Ziffernfolge in die
Stichprobe aufgenommen wird, angegeben werden können. Praktisch arbeitet das
Verfahren so, dass zunächst die Nummern der ausgewählten Gemeinden bereinigt
werden, in dem mit Hilfe eines Softwareprogramms die Nummern mit bestimmten
Telefonbuchzusätzen (z.B. Funktelefone), Fremdeinträge (fremde Vorwahlnum-
mern oder Orte), Nummern mit Bindestrich (Sammelanschlüsse) und sonstige
unzulässige Nummern (Notrufe, Nummern mit unzulässiger Länge, Mehrfachein-
träge) ausgeschlossen werden.
Die Bildung der Blöcke erfolgt dadurch, dass man bei allen eingetragenen Te-
lefonnummern der ausgewählten Gemeinden die letzten beiden Ziffern streichen
(vgl. Abbildung VI.13).
Die Ziffern ohne die beiden letzten weggelassenen Nummern definieren einen
Ziffernstamm. Dabei kann es natürlich mehrere, theoretisch 100 gleiche Ziffern-
stämme geben. Alle Ziffernstämme außer einem werden dann eliminiert. Alle Zif-
fernfolgen, die sich aus einem Ziffernstamm plus Ziffernpaaren von 00-99 ergeben,
bilden dann einen Block. Im Fall einer anderen Längenvereinbarung sieht die Bil-
dung jeweils anders aus. So würde man etwa bei Bildung von 1000er Blocks die
letzten drei Ziffern abschneiden, so dass Ziffernstamm plus angefügter drei Ziffern
einen Block bilden. In jedem Fall bildet die Gesamtzahl von Länge x Anzahl der
Stammziffern die Bruttostichprobe der potentiellen Telefonnummern, die angeru-
fen werden sollen, von denen man aber noch nicht weiß, ob sie überhaupt existie-
ren bzw. gültig sind. Sind die besetzten Blöcke identifiziert, bilden die potentiellen
Rufnummern dieser Blöcke eine Obermenge von Nummern als Basis für die Stich-
probenauswahl, die nunmehr uneingeschränkt zufällig erfolgen kann. Nur solche
Telefonnummern haben keine Auswahlchance, die nicht eingetragen sind oder in
einem Block liegen, in dem keine eingetragene Nummer vorkommt. Man kann zei-
gen, dass dieser Fall nur sehr selten auftritt. Für die Effizienz des Verfahrens ist die
sog. Hitrate H ein geeignetes Maß. Sie ist definiert durch
476 VI.6 Auswahlverfahren für telefonische Umfragen
Von Bedeutung ist natürlich ebenfalls, wie viele Rufnummern erzeugt werden müs-
sen, um eine Nettostichprobe vorgegebenen Umfangs realisieren zu können. Der
VI.6 Auswahlverfahren für telefonische Umfragen 477
FSS
SSP = ,
B
λ
(1 − REC ) (1 − LE )
wobei:
SSP: Size of Sampling Pool (Umfang der Bruttostichprobe)
FSS: Final Sampling Size (Umfang der Nettostichprobe)
REC: Respondent Exclusion Criteria (Anteil der Telefonnummern, die keinen
Privathaushalt darstellen oder nicht zur Grundgesamtheit gehören
LE: Loss of Eligbles (Anteil der Nonresponse)
B: Blockdichte der eingetragenen Nummern
λ Anteil der im Telefonbuch Eingetragenen
Wie man sieht, müssen einige der Größen aus anderen geschätzt oder unterstellt
werden, so z.B. der Anteil der Eingetragenen. Verfügt man über ausreichende Re-
chenkapazität, kann man bei der Ziehung von Haushaltsstichproben nach dem
Verfahren von Gabler und Häder auf die vorherige Ziehung von Gemeinden ver-
zichten und versuchen, den Stichprobenrahmen auf alle Nummern der Bundesre-
publik zu beziehen.
Beschränkt man sich auf eine Teilmenge von Gemeinden, muss bedacht wer-
den, dass die Vorwahlbereiche nicht mit den Gemeindegrenzen übereinstimmen,
sondern dass die Menge der Haushalte in einer Gemeinde über mehrere Vorwahl-
nummern erreichbar sein können. Dies bedeutet einerseits, dass auch die Blöcke
anderer Vorwahlbereiche einbezogen werden müssen und die Zuordnung von
Haushalten zu Gemeinden durch ein Screening-Verfahren abgesichert werden
muss.
schutzes eher gemieden. Besonders bedenklich erscheint das Verfahren, wenn auf
eine Vorabauflistung der Adresse verzichtet wird. Hier erscheint ein mögliches Ein-
fallstor für Manipulationen zu liegen, da davon auszugehen ist, dass einige Intervie-
wer den einfachsten Weg wählen. Dieser kann auch darin bestehen, dass Adressen
aufgesucht werden, von denen bekannt ist, dass sie an der Umfrage teilnehmen.
Die Adressen sollten aus Gründen der Interviewer-Kontrolle nach Möglichkeit zur
Verfügung stehen.
Bei mehrstufigen Verfahren besteht die vorletzte Stufe oft in einer Menge von
Haushalten, aus denen dann eine oder mehrere Zielpersonen auszuwählen sind.
Dieses Verfahren muss in Übereinstimmung mit dem gewählten Stichprobende-
sign stehen und so gestaltet sein, dass Schätzer für die Populationswerte konstruiert
werden können. Die Auswahl geschieht oft im ersten Kontakt mit einer Auskunfts-
person (auch: Kontaktperson, Screening-Person). Die Auswahl von Zielpersonen im
Haushalt erfordert immer zumindest eine rudimentäre Form des Screenings, bei
dem festgestellt wird, ob es Personen im Haushalt gibt, die den Kriterien genügen,
welche eine Zielperson definieren (z.B. die Eigenschaft, ein Alter ab 18 Jahren be-
sitzen). In der Regel wird nur eine Person pro Haushalt ausgewählt. Ausnahmen
von dieser Regel kann es z.B. bei seltenen Populationen geben. Gaziano (2005) gibt
einen Überblick über die verschiedenen Methoden zur Auswahl einer Zielperson
im Haushalt, ebenso Le et al. (2013). Im Folgenden wird nur eine Auswahl der
wichtigsten Alternativen vorgestellt.
Die Kish-Methode und ihre Varianten:
Das älteste Verfahren stellt die Kish-Methode dar (vgl. Kish, 1949). Dabei wird
zunächst eine Liste aller Haushaltsmitglieder in der Weise erstellt, dass zunächst
alle Männer nach abnehmendem Alter, dann alle Frauen nach abnehmendem Al-
ter aufgelistet werden. Aus dieser Liste wird nach Zufall eine Person ausgewählt.
Die Kish-Methode kann unterschiedlich praktisch umgesetzt werden. Die in
Deutschland übliche Methode ist der Schwedenschlüssel (kish selection grid), der
unterschiedlichen Kommunikationsarten angepasst werden kann. Bei Face-to-Fa-
ce-Befragungen besteht eine Möglichkeit darin, auf dem Fragebogen für jede
Haushaltsgröße eine zufällig ausgewählte Zahl vorzusehen: Für einen Zwei-Perso-
nen-Haushalt steht nach Zufall ausgewählt entweder eine 1 oder eine 2. Für einen
482 VI.8 Auswahl von Personen im Haushalt (Within-Household Sampling)
Dreipersonen-Haushalt steht nach Zufall ausgewählt eine 1, eine 2 oder eine 3, etc.
Die Auswahl der Zielperson erfolgt durch den Interviewer, der die ihm durch den
Schwedenschlüssel angegebene Person befragt. Ein Nachteil der Kish-Methode ist,
dass sie Fragen nach Geschlecht und Alter erfordert, also die Erhebung persönli-
cher Informationen an den Anfang stellt. Außerdem ist das Verfahren nur prakti-
kabel bis zu einer Haushaltsgröße von sechs Personen.
Eine weniger aufdringliche Variante wäre eine Auflistung der Haushaltspersonen
nur nach dem Alter (engl.: age only oder age order) (vgl. Denk & Hall, 2000) mit
anschließender Zufallsauswahl einer Person. Der Nachteil dieser Methode besteht
darin, dass es keine Schichtung nach Geschlecht in Haushalten mit Angehörigen
beiderseitigen Geschlechts erzeugt (vgl. Gaziano, 2005, p. 126).
Eine weitere Möglichkeit der Listenerstellung wäre die volle Auflistung aller
Haushaltsmitglieder. vornamensalphabetisch oder fortlaufend nach Alter mit Vor-
namen oder Kurzbezeichnung (Oma, Opa etc.) oder fortlaufend nach Alter und
Geschlecht (z.B. zuerst alle weiblichen Mitglieder nach Alter, dann alle männli-
chen, etc.). Eine Möglichkeit der Umsetzung sieht vor, dass für jedes Interview eine
Permutationszahlenfolge, z.B. der Zahlen 1 bis 9 gebildet wird. Zu befragen ist die
Person, die in der Zufallsreihenfolge zuerst aufgerufen wird.
Beispiel: So wäre bei einer Zufallsreihenfolge 9,8,6,4,2,5,7,2,3,1 z.B. im 2-Per-
sonenhaushalt die 2. Person (2 steht vor 1 in obiger Reihenfolge), im 4- Personen-
haushalt die 4. Person (die 4 steht vor den Zahlen 1, 2, und 3) zu befragen.
Weitere Methoden, die alle das Ziel haben, den Aufwand für die Bestimmung
der Person zu reduzieren, sind nicht mehr rein wahrscheinlichkeitsbasiert. Von
diesen stellen einige Varianten der Methode von Troldahl und Carter (T-C-Metho-
de) dar (vgl. Troldahl, 1964). Bei dieser Methode handelt es sich ebenfalls um eine
Variante der Kish-Methode, die eine raschere Bestimmung der Zielperson erlaubt.
Zunächst wird nach der Anzahl der Personen im Haushalt über der kritischen Al-
tersgrenze (z.B. ab 18 Jahren gefragt. Anschließend wird die Frage gestellt, wie viele
Personen davon männlich sind. Die Auswahl wird unter dem ältesten Mann, der
ältesten Frau, dem jüngsten Mann und der jüngsten Frau getroffen.
Eine Methode, welche das T-C-Verfahren weiter abkürzt, wurde von Hagan
und Collier vorgeschlagen (vgl. Hagan & Collier, 1983). Dabei wird die Zusam-
mensetzung des Haushalts nicht mehr erhoben. Stattdessen werden unter den
Interviewern nach Zufall folgende, vorher pro Interviewer festgelegte Varianten
der Auswahl verteilt: „jüngster Mann im Haushalt“, „ältester Mann im Haushalt“,
„jüngste Frau im Haushalt“, „älteste Frau im Haushalt“. Ist eine Person mit diesen
Eigenschaften nicht im Haushalt, wird die nächste Alternative gewählt. Ist z.B. der
älteste Mann nicht im Haushalt, so wird nach der ältesten Frau im Haushalt gefragt
(vgl. Hagan & Collier, 1983, p. 550).
VI.8 Auswahl von Personen im Haushalt (Within-Household Sampling) 483
Eine Modifikation der Alternative von Hagan und Collier stellt die Variante
„Youngest Male“/Oldest Female (YMOF) dar (vgl. z.B. Keeter & Fisher, 1997). Bei
dieser Variante wird zunächst nach einer der beiden Alternativen gefragt, wobei
diese Alternativen auf „gegenwärtig zu Hause“ bezogen werden; z.B. „Ich würde
gerne die jüngste männliche Person im Alter von 18 Jahren und älter im Haushalt
sprechen. Ist diese zu Hause?“. Ist diese Person nicht zu Hause, wird gefragt: „Kann
ich mit der ältesten weiblichen Person im Alter ab 18 Jahren sprechen, die gerade
zu Hause ist?“ Ist auch diese Person nicht zu Hause, wird die Kontaktaufnahme
beendet und später noch einmal angerufen.
Bei Telefonumfragen wird nicht nur aus Zeit- und Kostengründen, sondern
auch, um die Belastung der Kontaktpersonen zu gering wie möglich zu halten, die
eher pseudoprobabilistische Methode des letzten oder nächsten Geburtstags ange-
wandt. Dabei wird diejenige Person im Haushalt befragt, deren Geburtstag dem
Befragungstag zuerst vorangeht oder im zuerst folgt (vgl. Salmon & Nichols 1983).
Methode von Rizzo, Brick und Park (2004):
Auch die Methode von Rizzo, Brick und Park (2004) ist besonders geeignet für
Telefonumfragen. Sie verzichtet ebenfalls auf eine ausführliche Erhebung der Haus-
haltsstruktur. Sie trägt dem Umstand Rechnung, dass 85% der Haushalte in den
USA zwei und weniger Erwachsene haben. Um einen Erwachsenen auszuwählen,
wird entweder die Kontaktperson oder der andere Erwachsene ausgewählt. Die
Auswahl erfolgt in zwei Schritten:
Schritt 1:
Frage die Kontaktperson (Screener respondent) nach der Anzahl der Erwachsenen
im Haushalt (Festlegung von N)
Wenn N=1, wird die Kontaktperson ausgewählt
Wenn N>1, wähle die Kontaktperson mit einer Wahrscheinlichkeit 1/N aus. Wenn
ausgewählte Person die Kontaktperson ist, dann ist der Auswahlprozess beendet.
Wenn N=2 und die Kontaktperson wurde nicht ausgewählt, teile der Kontaktper-
son mit, dass die andere Person ausgewählt wird;
Schritt 2:
Wenn N>2 und die Kontaktperson wird nicht ausgewählt, verwende die Kish-Me-
thode oder die Last-Birthday-Methode unter Ausschluss der Kontaktperson.
Dieses Verfahren ist aus den gleichen Gründen wie in den USA auch in Deutsch-
land anwendbar. Gaziano (2005) hat 16 Studien ausgewertet, die sich mit Verglei-
chen zwischen den oben genannten Verfahren beschäftigt haben und kommt in
ihrer Zusammenfassung zu folgenden Ergebnissen (vgl. Graziano, 2005, pp. 149):
484 VI.8 Auswahl von Personen im Haushalt (Within-Household Sampling)
Die Kish-Methode ist trotz der Aufdringlichkeit ihrer Fragen die populärste
Methode, da sie näherungsweise eine Wahrscheinlichkeitsauswahl ermöglicht. In
Einpersonen-Erwachsenenhaushalten und in Zweipersonen-Haushalten mit bei-
den Geschlechtern ist die Kish-Methode einfacher zu implementieren als die Ge-
burtstagsmethode. Allerdings weiß man wenig über die Fehler, die bei der Auflis-
tung der Haushaltspersonen gemacht werden.
Die Kooperationsraten waren bei der Last-Birthday-Methode den Kooperati-
onsraten der Kish-Methode überlegen. Die Last-Birthday-Methode führte aber zu
einer stärkeren Identifikation der Frauen im Haushalt, repräsentiert aber besser
junge Männer. Die Methode des nächsten Geburtstages wurde seltener angewen-
det als die Methode des letzten Geburtsages und als eher irreführend empfunden.
Es schien mehr Probleme mit der Korrektheit der Auswahl zu geben. So wurden
Schwankungen zwischen 75% und 90% der korrekten Identifikation berichtet (vgl.
Lavrakas, Stasny & Harpuder, 2000; O’Rourke & Blair, 1983). Außerdem zeigte
sich, dass mit steigender Haushaltsgröße die Wahrscheinlichkeit steigt, dass die
Kontaktperson die Information über den letzten Geburtstag nicht geben kann. In
der Anwendung ihres Verfahrens fanden Rizzo, Brick und Blair (2004), dass in 5%
der Dreipersonen-Haushalte, in 7% der Vierpersonen-Haushalte und in 16% der
Haushalte mit mehr als vier Personen die Geburtstagsinformation nicht gegeben
werden konnte.
YMOF war leichter zu applizieren als „Last Birthday“ und unterscheidet sich nur
geringfügig in positiver Weise in Bezug auf die Kooperationsrate. Die nicht-proba-
bilistische Natur einiger Verfahren sollte nicht darüber hinwegtäuschen, dass die
Anpassung an Zensusdaten dennoch hoch sein kann.
Es wäre natürlich am einfachsten und auch kostengünstiger, die Zielperson un-
ter den im Haushalt zum Befragungszeitpunkt anwesenden Personen auszuwählen.
Dies bedeutet allerdings, dass man damit die Teilnahme von der Anwesenheit mit
der möglichen Konsequenz systematischer Teilnahmeeffekte abhängig macht. Die
Anwesenheit zum Zeitpunkt des Interviews ist zumindest nicht mehr zufallsge-
steuert. Haushaltsgewichtungen sind daher streng genommen nicht anwendbar.
Es zeigt sich, dass bei der Anwendung von Verfahren zur Bestimmung einer
Zielperson im Haushalt Kompromisse geschlossen werden müssen zwischen me-
thodischen Ansprüchen, Kosten und Einfachheit der Anwendung. Bei der Ent-
scheidung für das ein oder andere Verfahren spielt insbesondere eine Rolle in wel-
cher Kommunikationsform der Kontakt hergestellt werden soll. Bei schriftlicher
Kontaktaufnahme kann ein Kurzfragebogen zugeschickt werden, in Face-to-Fa-
ce-Umfragen, obliegt die Kontaktaufnahme dem Interviewer, wobei im Fall der
Kish-Methode, die Auswahl durch entsprechende Tabellen unterstützt werden
VI.9 Rekrutierung von Teilnehmern in Webumfragen 485
kann. Die telefonische Kontaktaufnahme muss vor allem leicht durchführbar sein,
da es sich um die Methode mit dem höchsten Zeitdruck handelt.
Die erwähnten Methoden beziehen sich auf Formen der Kontaktaufnahme, bei
denen eine Auswahl nach einfachen Eigenschaften von Zielpersonen, z.B. Alter ab
18 Jahren, erfolgt. Die Eigenschaften können aber ohne weiteres komplexer sein
wie z.B. bei der Erhebung des Migrantenstatus oder anderer Merkmalskomplexe.
In diesen Fällen muss ein umfangreicherer Screening-Fragebogen eingesetzt wer-
den. In diesen Fällen spricht man von einem Screening-Interview.
Es liegt nahe, das Screening auch zur Ziehung geschichteter Stichproben zu ver-
wenden. Stichprobentheoretisch bedeutet das Screening aber, dass das Vorhanden-
sein der Schichtungsmerkmale und ihrer Ausprägungen einem Auswahlverfahren
unterliegen; d.h. die Merkmale und ihre Ausprägungen sind zufällig gezogen, wäh-
rend eine geschichtete Stichprobe eine Schichtung der Grundgesamtheit bedeutet.
In dieser Weise kann über ein Screening nur eine nachträgliche Schichtung (siehe
unten) erreicht werden.
Screening
Ein Screening wird notwendig, wenn die Auswahlgrundlage nicht die zur Identifi-
kation der Populationselemente notwendigen Informationen enthält. Ein Beispiel
wäre eine Telefonstichprobe aus der Population aller über Festnetz oder Mobil-
funkanschluss kontaktierbaren Personen im Alter zwischen 18 und 21 Jahren, die
Menge aller Frauen über 60 Jahren, die auf Grund einer Krankheit schon einmal in
einer Rehabilitation waren, die Menge aller Personen, die schon einmal eine Fern-
reise nach Ostafrika angemacht haben, etc. In diesem Fall muss durch eine Reihe
von Fragen erst ermittelt werden, ob die kontaktierte Person Angehörige der sel-
tenen Population ist oder nicht. Dabei stellt sich die Frage des Umfangs der Stich-
probe, der notwendig ist, um eine vorher festgelegte Nettostichprobe zu erreichen.
Ist der Anteil der Subpopulation in der Gesamtpopulation bekannt, so kann der
notwendige Umfang der Ausgangsstichprobe unter der Maßgabe, dass keine Aus-
fälle durch Unterdeckung oder Nonresponse auftreten, leicht berechnet werden:
Es gilt:
Nh
× nbrutto = nnetto .
N
Daraus folgt:
N
nbrutto nnetto .
Nh
In dieser Formel sind N der Umfang der Gesamtpopulation, Nh der Umfang der
Subpopulation, nnetto Umfang der Nettostichprobe und nbrutto Umfang der Brutto-
stichprobe. Wenn wir einen Subpopulationsanteil von 5% in der Gesamtpopulation
haben, so wäre bei einer Nettostichprobe von nnetto = 1.000 eine Bruttostichprobe
von 20.000 Personen zu ziehen, um den Umfang der Nettostichprobe ohne Be-
rücksichtigung von Nonresponse zu erreichen. Nicht immer ist Umfang oder der
Anteil der interessierenden Subpopulation in der Gesamtstichprobe bekannt. In
diesem Fall kann in einer ersten Phase eine ausreichend große Stichprobe aus der
Gesamtpopulation gezogen werden, um festzustellen, hoch der Anteil ungefähr ist.
Bei der Bestimmung des Umfangs der Bruttostichprobe ist allerdings immer der
mögliche Anteil von Nonresponse zu berücksichtigen. So wäre bei einem Nonre-
sponse-Anteil von 30% wäre an Stelle einer Stichprobe von 20.000 Personen eine
Stichprobe von 60.000 Personen zu ziehen und danach zu screenen und zu kontak-
tieren. Dies bedeutet, dass die Screening-Kosten hier eine hohe Bedeutung haben.
Ob sie tragbar sind, hängt wiederum vom möglicherweise bereits vorher fixierten
490 VI.10 Rekrutierung von Stichproben in seltenen Populationen
Gesamtbudget, das in der Regel wiederum mit der Bedeutung des Projekts und sei-
nen Fragestellungen zu tun hat. Wichtig ist insbesondere auch, wie hoch der Anteil
der Screening-Kosten an den Gesamtkosten der Erhebung sind (vgl. hierzu auch
Sudman, 1972). Ist die Haupterhebung auf Grund der besonderen Untersuchungs-
methoden sehr kostspielig, so machen die Screeningkosten im Vergleich eventuell
einen vertretbaren Anteil aus.
Das Screening seltener Populationen kann erweitert werden, in dem z.B. eine
ausgewählte Kern-Adresse (engl.: core adress) der Stichprobe kontaktiert wird und
nach der Existenz von Mitgliedern der seltenen Population in n Nachbaradressen
gefragt wird. Dieses Vorgehen wird auch als Enumeration bezeichnet. Um die Kos-
ten zu senken, sollte für das Screening eine preiswerte Alternative gewählt werden.
Für die Haupterhebung kann dann ein anderer Mode eingesetzt werden. Als preis-
werte Alternativen gelten das telefonische Screening und das postalische Screening.
Allerdings darf bei allen Alternativen der Aspekt der Vollständigkeit der Auswahl-
grundlage nicht unbeachtet bleiben.
Disproportionale Schichtung
Die disproportionale Schichtung erlaubt eine stärkere Optimierung des Screenings,
in dem in den Schichten mit einem höheren Anteil der seltenen Population ein
höherer Auswahlsatz zugrunde gelegt wird. Wenn die seltene Population z.B. aus
Personen mit einer seltenen Krankheit bestehen würde und man wüsste, dass diese
Krankheit stark gehäuft in der Altersgruppe ab 70 Jahren auftritt, so würde man
nach Alter schichten und in der Schicht der über 70jährigen einen höheren Anteil
von Personen ziehen. Für die Entscheidung für eine disproportionale Schichtung
sind vor allem folgende Aspekte von Bedeutung (vgl. Kalton, 2009, p. 231): die
Prävalenzrate des seltenen Merkmals in den Schichten (Prävalenzrate: Häufigkeit
des Auftretens des Merkmals zum Zeitpunkt der Untersuchung im Verhältnis zur
Häufigkeit der in die Untersuchung einbezogenen Personen), der Anteil der selte-
nen Population in der Schicht und die Kosten. Die epidemiologische Bezeichnung
„Prävalenzrate“ entspricht dem Anteil der Personen mit dem seltenen Merkmal in
der Bruttostichprobe.
Zweiphasen-Auswahl:
Die 2stufige Auswahl besteht in der Regel darin, dass in einer ersten Phase grobe
Informationen über das Vorkommen des seltenen Merkmals erhoben werden, um
anschließend in einer zweiten Phase Personen mit diesem Merkmal genauer zu
untersuchen. Ein Beispiel wäre die Ziehung einer Haushaltsstichprobe, bei der zu-
nächst eine Auskunftsperson gebeten wird, Angaben über das Vorhandensein des
Merkmals (z.B. Krankheit, Behinderung) ggf. eingeschränkt auf bestimmte Alters-
gruppen, im Haushalt zu machen. Anschließend werden die genannten Personen
VI.10 Rekrutierung von Stichproben in seltenen Populationen 491
noch einmal in Hinblick auf die entscheidenden Merkmale untersucht und dann
einer Schicht in einer vorher vorgenommenen Schichtung zugeteilt. Schließlich
wird eine disproportionale Stichprobe gezogen.
Multiple Auswahlgrundlagen
Multiple Auswahlgrundlagen lassen sich vor allem einsetzen, um Defizite in der
Abdeckung der Population in einer Auswahlgrundlage auszugleichen.
Netzwerk-Auswahl (engl.: network sampling)
Bei der Auswahl von Angehörigen seltener Populationen durch die Netzwerk-Aus-
wahl werden die Personen der Stichprobe als Informanten über die Personen ein-
gesetzt, die mit ihnen in bestimmter Weise verbunden sind (z.B. bestimmte For-
men der Verwandtschaft, etc.). Die Informanten werden gebeten, für die mit ihnen
verbundenen Personen Informationen über die seltenen Eigenschaften zu geben.
Diese Personen können dann weiter untersucht bzw. interviewt werden.
Auswahl von Zentren (engl.: centres) bzw. Örtlichkeiten (engl.: locations)
Wenn bekannt ist, wo sich Angehörige seltener Personen zu bestimmten Zeitpunk-
ten oder über einen bestimmten Zeitraum aufhalten (z.B. auf welchen Plätzen, in
welchen Restaurants, in welchen sozialen Einrichtungen, etc.), so kann man versu-
chen, die sich in diesen Örtlichkeiten aufhaltenden Personen als Grundlage für eine
Stichprobenauswahl zu nehmen. Allerdings ist wichtig, dass man Höhe und Syste-
matik der Unterdeckung einschätzen kann. Ein Beispiel geben Baio, Blangiardo &
Blangiardo (2011) in Bezug auf die ägyptische Population im Mailand. Die Autoren
zeigen, wie man in diesem Fall die Inklusionswahrscheinlichkeiten und die Schät-
zer ableiten kann. Dieses Verfahren lässt sich auch mit der Multiplizitätsauswahl
verbinden, indem die sich an diesen Örtlichkeiten aufhaltenden Personen nach de-
nen gefragt werden, die sich dort vorübergehend oder dauerhaft nicht aufhalten.
Damit kann auch eine Einschätzung der Unterdeckung erfolgen.
Telefonische Klumpenauswahl
Eine telefonische Klumpenauswahl (Telephone Cluster Sampling bzw. TCS) bietet
sich ebenfalls bei seltenen Populationen an, wobei das folgende Vorgehen vorge-
schlagen wird (vgl. Blair & Czaja 1982; Blair & Blair 2006): Aus einer in Num-
mernblöcke (z.B. in 100er Blöcke) oder in anderer Weise unterteilten Menge von
Telefonnummern wird nach RDD oder einer anderen Art listenbasierter Zufall-
sauswahl eine Telefonnummer ausgewählt. Führt der Anruf nicht zu einer Zielper-
son, wird keine Nummer aus dieser Menge mehr angerufen. Trifft man aber auf ein
Element der Zielpopulation wird die Auswahl fortgesetzt bis man die vorher fest-
gelegte Anzahl von Interviews durchgeführt hat. Dieses Verfahren führt zu einem
schnellen Ausschluss der Telefonregister, in denen es keine Zielpersonen gibt und
492 VI.10 Rekrutierung von Stichproben in seltenen Populationen
zu einer Auswahl dort, wo es welche gibt. Der Nutzen hängt davon ab, wie stark die
Elemente der Zielpopulation geklumpt sind und wie schwer die Zielpersonen bei
einer einstufigen Auswahl zu finden sind.
RDS (Respondent Driven - Sampling)
Das RDS-Verfahren (vgl. Heckathorn, 1997) stellt eine Variante des Schneeball-
verfahrens dar. Man geht man von einer Anfangsstichprobe der Studienpopulation
aus, die Einladungen an Freunde und Bekannte versendet, welche wiederum Ein-
ladungen an ihre Freunde und Verwandte versenden, etc. Um statistische Schät-
zungen zu ermöglichen, müssen die Teilnehmer die Anzahl der Personen kennen,
die mit ihnen verbunden sind, die Rekrutierung muss zufällig erfolgen und der
Gesamtprozess durch einen Markov-Prozess beschreibbar sein. Lu et al. (2013)
wenden das Verfahren auf soziale Netzwerke an.
Eine weitere Strategie der Rekrutierung von Angehörigen seltener Populationen
kann darin bestehen, Angehörige über einen längeren Zeitraum zu akkumulieren.
Spezifische Auswahlverfahren für seltene Subpopulationen, die sich durch Eigenschaf-
ten der Zeichenfolgen ihres Namens identifizieren lassen
Ein Beispiel für ein solches Verfahren stellt das sog. Ononmastik-Verfahren dar
(vgl. Humpert, 2004; Humpert & Schneiderheinze 2000), das oft in der Auswahl
von Migrantenstichproben verwendet wird. Beim Onomastik-Verfahren wird der
vollständige Telefonbucheintrag (Vorname, Nachname, Zusatzeintrag) auf der
Grundlage der Namensforschung (Onomastik) den Sprachen der Herkunftsländer
zugeordnet. Das Verfahren kann auf alle Namenslisten angewendet werden. In den
meisten Fällen wird aber auf Namen im Telefonregister angewendet. Das Onomas-
tik-Verfahren erfordert die folgenden Arbeitsschritte:
• Fortlaufende Bibliographie der Onomastik-Literatur;
• Datentechnische Erfassung der Vor- und Nachnamen;
• Parallele Zuordnung aller Sprachen;
• Festlegung der Nationalitätenzuordnung aufgrund der Sprachenkombination.
Da das Verfahren auf Telefonbucheinträgen beruht, können nur im Telefonbuch
eingetragene Haushalte in die Stichprobe einbezogen werden, führt also zwangs-
läufig zu einer Unterdeckung der Migrantenpopulation. Allerdings zeichnet sich
das Verfahren durch eine hohe Hitrate aus. Wegen der Unterdeckung erscheint es,
sofern finanzierbar, sinnvoll das Verfahren durch eine Stichprobe der im Telefon-
buch nicht eingetragenen Migranten zu ergänzen. Weitere Möglichkeiten könnten
sich zukünftig über die Nutzung sozialer Netzwerke ergeben.
VI.11 Zusammenfassung 493
VI.11 Zusammenfassung
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 495
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_7
VII.1 Einführung und Überblick
anschließen können bis eine Kontaktaufnahme mit der Zielperson und die Bitte
um Teilnahme erfolgen kann. Bei positiver Teilnahmeentscheidung kann eine
Terminierung des Interviews erfolgen. Oft schließt sich das Interview direkt an
die Kontaktaufnahme mit der Zielperson an. Die in dieser Phase gesammelten
Daten zählen zu den Paradaten. Dazu zählen etwa die Anzahl der Kontaktver-
suche (eng.: call-backs) bis zur Herstellung eines Kontakts mit der Zielperson
oder bis zur Herstellung des Kontakts mit einem Klumpen, z.B. Privathaushalt-
bei einem 2tufigen Design.
• der Interviewphase nach erfolgter Einwilligung der Zielperson ins Interview, in
der es primär um das auf die Präsentation der Frage/Item folgende Verhalten
der Befragten geht, also das, was oft als Antwortverhalten (vgl. Teil III) bezeich-
net wird.
Während sich Unit-Nonresponse auf Grund von Ereignissen wie mangelnder
Erreichbarkeit oder Verweigerung vor allem in der Kontaktphase ereignet, tritt
Item-Nonresponse ausschließlich in der Interviewphase auf. Item-Nonresponse ist
Ergebnis einer Entscheidung, auf eine im Interview gestellte Frage zu antworten
oder nicht zu antworten und betrifft somit das Antwortverhalten der Befragten, das
durch eine Frage und ihren Kontext (z.B. Anwesenheit Dritter, Anwesenheit des In-
terviewers, Formulierung der Frage, Sensitivität der zu erhebenden Informationen,
etc.) beeinflusst wird.
In den folgenden Abschnitten werden von Ausfällen ausgehenden Gefährdun-
gen der Stichproben-, und damit der Umfragequalität präzisiert sowie Maßnahmen
zur Reduktion, Kontrolle und Korrektur von Nonresponse-Effekten dargestellt.
Univariate Nichtantwort:
Der Begriff der univariaten Nichtanwort ist in Abbildung VII.2 graphisch veran-
schaulicht.
In der Abbildung repräsentiert die Variable Y5 eine Variable mit fehlenden Werten.
Die übrigen Variablen sind vollständig. Sie können prinzipiell als Hilfsvariablen
für Verfahren der Ersetzung (Imputation) fehlender Werte verwendet werden, mit
deren Hilfe eine Schätzung der Populationswerte von Y5 verbessert werden könnte.
Multivariate Zwei-Muster-Nichtantwort:
Im Fall einer multivariaten Zwei-Muster-Nichtantwort haben wir mehrere Vari-
ablen, bei denen Werte für alle Untersuchungseinheiten vorliegen sowie mehrere
Variablen, bei denen für die gleichen Untersuchungseinheiten fehlende Werte vor-
liegen (vgl. Abbildung VII.3).
VII.2 Typische Ausfallmuster 501
In der Abbildung weisen die Variablen Y1 und Y2 keine fehlenden Werte auf, wäh-
rend dies bei den Variablen Y3, Y4 und Y5 bei den gleichen Untersuchungseinheiten
nicht der Fall ist. Ein Muster dieser Art liegt z.B. vor, wenn bei einer Bruttostich-
probe für alle Untersuchungseinheiten Hilfsvariablen wie Geschlecht und Alter
bekannt sind, auf dem Weg zur Nettostichprobe aber durch Nichtkontakt oder
Verweigerung, also auf Grund von Unit-Nonresponse eine bestimmte Teilmenge
von Untersuchungseinheiten aus der Stichprobe herausfällt. In diesem Fall liegen
für die Menge der Nichtrespondenten nur Messungen von Hilfsvariablen vor, alle
anderen Variablen weisen für diese Gruppe fehlende Werte auf. Ein Beispiel wäre
eine Meldeamtsstichprobe, bei der für alle Personen der Bruttostichprobe Werte
der Variablen Geschlecht und Alter vorliegen, nach der Erhebung aber aller Werte
der Zielvariablen.
Monotones Antwortmuster:
Monotone Antwortmuster treten vor allem in Panelerhebungen auf, wenn auf
Grund unterschiedlicher Ursachen in jeder Welle weitere Fälle aus der Ausgangs-
stichprobe herausfallen, ohne in folgenden Wellen wieder in die Erhebung einzu-
treten (vgl. Abbildung VII.4).
502 VII.2 Typische Ausfallmuster
In Abbildung VII.4 stehen Y1 –Y5 für eine Variable, die in fünf aufeinander fol-
genden Panelwellen erhoben wurde. Bei monotonen Antwortmustern ergibt sich
durch Faktorisierung eine Vereinfachung der Algorithmen zur Parameterschät-
zung mit Maximum-Likelihood-Verfahren (vgl. Little & Rubin, p. 133).
Allgemeines Antwortmuster:
Allgemein können fehlende Werte bei beliebigen Untersuchungseinheiten und be-
liebigen Zielvariablen auftreten. Diese Situation ist in Abbildung VII.6 dargestellt.
File-Matching:
Die Situation des File-Matching betrifft den Fall, wo zwei oder mehrere Variablen
nicht gemeinsam in einer einzigen Erhebung beobachtet werden konnten, wohl
aber in zwei oder mehr Erhebungen. In diesem Fall kann versucht werden, die un-
terschiedlichen Datenquellen abzugleichen und einen gemeinsamen vollständige-
ren Datensatz zu bilden (vgl. Abbildung VII.7 für zwei Datenquellen).
VII.2 Typische Ausfallmuster 503
In der Abbildung ist Y1 eine Menge von Variablen, die in zwei Datenquellen voll-
ständig erhoben wurden. Y2 und Y2 sind Mengen von Variablen, die jeweils nur in
einer der beiden Datenquelle gemessen wurden.
Unbeobachtete (latente) Variablen:
Viele in den Sozialwissenschaften untersuchte Variablen sind unbeobachtet (auch:
latent). Beispiele hierfür sind Einstellungsvariablen. Diese Variablen müssen über
beobachtete Indikatoren operationalisiert werden, was zu so genannten Mess-
modellen führt, die statistisch analysierbar sind (vgl. Teil IV). Latente Variablen
können als Variablen aufgefasst werden, bei denen alle Werte fehlen, da nur ihre
Indikatoren beobachtet werden können, sie selber aber nicht. an Abbildung VII.8
stellt X eine Menge von latenten Variablen und Y eine Menge von vollständig be-
obachteten Variablen dar.
Die auf den verschiedenen Stufen der Durchführung einer Erhebung auftretenden
Ausfälle können eine Selektion von Elementen mit bestimmten Merkmalen be-
VII.3 Ausfallmechanismen 505
wirken, mit der Konsequenz, dass Elemente mit bestimmten Merkmalen in einer
Stichprobe stärker oder schwächer vertreten als in der vorangegangenen Referenz-
stichprobe, die durch die Ausfälle verändert wird (vgl. unten). Selektionseffekte
können prinzipiell alle Variablen, Hilfs- und Zielvariablen einer Umfrage betreffen.
VII.3 Ausfallmechanismen
Ob ein Element aus einem erhobenen Datensatz herausfällt oder nicht, kann in
unterschiedlicher Weise statistisch modelliert werden. Eine Variante wäre, die
Variable „Ausfall vs. Nichtausfall“ (z.B. Kontakt vs. Nichtkontakt“, Teilnahme vs.
Nichtteilnahme) als abhängige Variable zu betrachten, deren Wahrscheinlichkei-
ten durch für relevant gehaltene, inhaltlich begründete, unabhängige Variablen im
Rahmen eines statistischen Modells vorherzusagen oder zu erklären. In Abschnitt
VII.7.2.2 werden solche Modellansätze in Bezug auf die Teilnahmeentscheidung
vorgestellt. Im vorliegenden Abschnitt geht es um die fehlenden Werte in einem
Datensatz sowie die statischen Bedingungen ihrer Ersetzbarkeit.
In diesem Fall beschränkt man sich auf eine von inhaltlichen Überlegungen
zunächst freie rein statistische Charakterisierung der Mechanismen, die zugleich
die statistischen Bedingungen für mögliche Maßnahmen aufzeigt, mit denen die
durch Ausfälle bedingten Verzerrungen der Stichprobe korrigiert werden könnten.
Die rein statistische Charakterisierung von Ausfallmechanismen (engl. „missing
data mechanism“) nimmt die Art und Weise in den Blick, in der die Wahrschein-
lichkeiten von fehlenden und beobachteten Werten zusammenhängen können. Sie
wurde ursprünglich von Rubin (1976) im Rahmen eines Bayes-Ansatzes zur Erset-
zung fehlender Werte vorgeschlagen. Die erste wirklich umfassende Darstellung
der statistischen Analyse mit fehlenden Werten findet sich bei Rubin und Little
(1987; 2. Auflage 2002). Weitere Darstellungen finden sich in Schafer (1997), End-
ers (2010, vor allem für Sozialwissenschaftler geeignet), Van Buuren (2012), Bethle-
hem (2009) sowie Bethlehem, Cobben und Schouten (2011). Annahmen über diese
Mechanismen bestimmen vor allem die Verfahren, mit denen Stichprobenverzer-
rungen durch Gewichtungen korrigiert werden können. Die Betrachtungsweise
von Little und Rubin führt zu Begriffen, die inzwischen zum Standardrepertoire
der Umfrageforschung gehören. Diese Begriffe sind MCAR, MAR und NMAR so-
wie der Begriff der Ignorierbarkeit. Die Begrifflichkeiten sind, wie einige Autoren
betonen, durchaus nicht ohne weiteres klar und werden von diesen in bestimmter
Weise präzisiert (vgl. Bethlehem, 1999, 2009; Lohr, 1999; Särndal & Lundström,
2005). Die genannten Begriffe werden unten näher erläutert.
506 VII.3 Ausfallmechanismen
Wir haben im vorangegangenen Abschnitt gesehen, dass in dieser Matrix für ei-
nige Untersuchungseinheiten und Variablen Werte fehlen können, wobei die An-
ordnungen der fehlenden Werte bestimmte Muster bilden können. Durch Bildung
einer Indikatormatrix M, die für jede Person i und eine Variable yi einen Eintrag
mij = 1 enthält, wenn der Wert einer Person auf dieser Variablen fehlt und sonst den
Eintrag mij = 0, kann dargestellt werden, an welcher Stelle der Datenmatrix Werte
VII.3 Ausfallmechanismen 507
fehlen. Abbildung VII.10 enthält ein Beispiel für vier Untersuchungseinheiten und
vier Variablen. Dargestellt sind die vollständige Datenmatrix Y, der beobachtete
Teil Yobs der Datenmatrix, der fehlende Teil Ymis der Datenmatrix und die Indika-
tormatrix M. In dem dargestellten Beispiel weist jede Variable mindestens einen
fehlenden Wert auf. Es sind also keine Hilfsvariablen mit vollständigen Informa-
tionen vorhanden. Äquivalente Formulierungen der Indikatormatrix erhält man,
wenn man statt der Wahrscheinlichkeiten für das Auftreten fehlender Werte die
Antwortwahrscheinlichkeiten betrachtet und statt der Indikatormatrix M die Indi-
katormatrix R betrachtet, in der für eine Untersuchungseinheit und eine Variable
ein Wert 1 steht, wenn eine Antwort erfolgte und 0 sonst (vgl. Bethlehem, 2009;
Bethlehem, Cobben & Schouten, 2011).
Auf der Basis der eingeführten Unterscheidungen können die Ausfallmecha-
nismen bzw. die Antwortmechanismen danach klassifiziert werden, ob sie von den
Werten der Datenmatrix, vom beobachteten Teil der Datenmatrix oder vom feh-
lenden Teil der Datenmatrix abhängen.
⎛ y13 ⎞ ⎛0 0 1 0⎞
⎜ ⎟ ⎜ ⎟
y 21 y 23 y 24 ⎟ 1 0 1 1⎟
Ymis =⎜ M =⎜
⎜ y 31 ⎟ ⎜1 0 0 0⎟
⎜⎜ ⎟⎟ ⎜⎜ ⎟
⎝ y 42 ⎠ ⎝0 1 0 0 ⎟⎠
Zunächst kann danach gefragt werden, unter welchen Bedingungen fehlende Wer-
te im Datensatz für die Parameterschätzung und die statistische Datenanalyse die
geringsten Verzerrungsprobleme erzeugen. Diese Situation ist dann gegeben, wenn
die Ausfallwahrscheinlichkeiten von Werten nicht von deren Ausprägungen, seien
sie nun beobachtet oder nicht, abhängen. Sei φi die Wahrscheinlichkeit, dass einer
Variablen ein fehlender Wert mi = 1 auftritt. Hängt diese Wahrscheinlichkeit nicht
von yi ab, so nimmt die Wahrscheinlichkeit, dass ein Ausfall auftritt oder nicht, für
alle Fälle i einen konstanten Wert φi = φ an. Der Ausfallmechanismus heißt in die-
508 VII.3 Ausfallmechanismen
sem Fall „Missing Completely At Random“, kurz: MCAR. Die beobachteten Werte
der Datenmatrix Y stellen in diesem Fall einfach eine von den fehlenden Werten
unabhängige Substichprobe dar. MCAR reduziert in diesem Fall nur den Stichpro-
benumfang und erhöht damit den Standardfehler. Bei Annahme von MCAR gilt
also (vgl. Little & Rubin, 2002, p.12):
f(M|Y,φ)=f(M|φ).
Hängt die Wahrscheinlichkeit für das Auftreten fehlender Werte nur vom beobach-
teten Teil der Datenmatrix Y, Yobs, nicht aber vom fehlenden Teil der Datenmatrix
ab, so spricht man von „Missing At Random“ bzw. MAR. In diesem Fall gilt:
f (M|Y , φ) = f (M|Yobs , φ) für alle Ymis , φ.
Nehmen wir z.B. an, wir hätten das Alter und das Einkommen erhoben. Wenn
die Wahrscheinichkeit für das Auftreten eines fehlenden Werts auf der Variablen
„Einkommen“ mit dem Alter kovariieren würde und für Fälle mit dem gleichen
Alter konstant wäre, dann wäre die Bedingung MAR erfüllt. In diesem Fall können
auf dem Regressionsansatz beruhende Verfahren zur Ersetzung fehlender Werte
eingesetzt werden.
Hängt die Verteilung für das Auftreten fehlender Werte M auch von den fehlen-
den Werten in der Datenmatrix Y ab, so spricht man von „Not Missing At Random“
bzw. NMAR. Dieser Fall wäre in obigem Beispiel dann gegeben, wenn unabhän-
gig vom beobachteten Alter vor allem die höheren Einkommensgruppen die Frage
nicht beantwortet hätten.
Während das Vorliegen von MCAR zu erwartungstreuen Schätzern von Mittel-
wertsparametern führt, ist dies bei MAR und NMAR nicht der Fall. Allerdings ist die
Verzerrung bei MAR unter Verwendung von Hilfsvariablen korrigierbar, während
dies bei NMAR nicht möglich ist. Little & Rubin (2002) zeigen, dass der Ausfallme-
chanismus bei der Maximum- Likelihood-Schätzung und bei der Bayes-Schätzung
außer Acht gelassen werden kann, wenn MAR zutrifft und wenn die Parameter
der Verteilungen von Y und von M voneinander unabhängig sind. In diesem Fall
spricht man von einem ignorierbaren (engl.: ignorable) Ausfallmechanismus. Gel-
ten diesen Bedingungen nicht, so wird der Ausfallmechanismus nichtignorierbar
(engl.: nonignorable) genannt. In diesem Sinne ist NMAR ein nicht-ignorierbarer
Ausfallmechanismus. Dies bedeutet, dass der Ausfallmechanismus bzw. das Ant-
wortverhalten getrennt und explizit durch Einbeziehung externer Variablen als Ur-
sachen modelliert werden muss. Zu weiteren Unterscheidungen hinsichtlich der
Arten von Ignorierbarkeit wie der Unterscheidung nach der Kenntnis des nicht
ignorierbaren Mechanismus vgl. Little und Rubin (2002, Kapitel 15).
VII.4 Gefährdungen der Umfragequalität durch Ausfälle 509
VII.4.1 Selektionseffekte
abweichen. Grundsätzlich können Selektionseffekte auf allen Stufen des Wegs von
der Zielpopulation zur Nettostichprobe auftreten (vgl. Abbildung VII.12).
ihrer Untersuchung diente das Fernsehgerät der Befragten als Monitor. Ein Mo-
dem übertrug Blöcke von Fragen und die die Befragten antworteten über das Te-
lefon. Auch das LISS-Panel (vgl. Das, 2012) oder das Mixed-Mode-Access-Panel
des GESIS-Leibniz-Institut für Sozialwissenschaften setzen Methoden ein, um
auch jene zu erreichen, die aus unterschiedlichen Gründen nicht in der Lage sind,
die notwendige Ausstattung zur Verfügung zu stellen. Natürlich ändert sich die
Ausstattungssituation auf Grund einer kontinuierlichen Diffusion technologischer
Innovationen in die Bevölkerung fortlaufend und kann nicht für einen Zeitpunkt
festgeschrieben werden.
Der durch Ausfälle auf der Ebene der Auswahlgrundlage verursachte Covera-
ge-Fehler bzw. der Coverage-Bias lässt sich in Bezug auf eine Zielvariable Y formal
wie folgt definieren (vgl. Groves et al., 2009, p. 55):
U
Yc − Y =
N
(YC − YU ) ,
wobei:
Das Verhältnis
U
N
heißt auch Unterdeckungsrate (engl.: noncoverage-rate).
Man erkennt aus der obigen Formel für den Unterdeckungsfehler, dass sich der
Fehler mit sinkender Differenz zwischen dem Mittelwert einer Variablen in der Aus-
wahlgesamtheit und dem Mittelwert der Variablen in der nicht abgedeckten Popu-
lation bei konstanter Unterdeckungsrate verringert. Er verringert sich ebenfalls mit
sinkender Unterdeckungsrate bei konstanter Differenz zwischen dem Mittelwert ei-
ner Variablen in der Auswahlgesamtheit und dem Mittelwert der Variablen in der
nicht abgedeckten Population.
514 VII.4 Gefährdungen der Umfragequalität durch Ausfälle
Wie auch im Fall der Unit-Nonresponse (siehe unten) stellt die Unterdeckung
vor allem dann ein Problem dar, wenn der Ausfallmechanismus nicht ignorierbar
ist und es nicht in der Auswahlgrundlage identifizierbare externe Ursachen wie
z.B. Ausstattungsmerkmale gibt, die dazu führen, dass Elemente der Zielpopulation
mit spezifischen Merkmalen fehlen, sodass die Auswahlgesamtheit entsprechend
verzerrt ist. So gilt etwa für Webumfragen, dass die Ausstattung mit Computern,
der Zugang zum Internet, etc. immer noch von den soziodemographischen Vari-
ablen Bildung, Geschlecht und Alter abhängt. Eine Stichprobe, die aus einer Aus-
wahlgrundlage gezogen wurde, die nur die höheren Bildungsstufen, die jüngeren
Altersjahrgänge, und eher Männer umfasst, kann nur Aussagen über eine entspre-
chend verzerrte Auswahlgesamtheit liefern, aber nicht über die Allgemeinbevöl-
kerung.
Die Konsequenzen der Nichtberücksichtigung eines Teils der Zielpopulati-
on lässt sich am Beispiel des Anteils von ca. 13% aus der Allgemeinbevölkerung
erläutern, der ausschließlich über Mobilfunk erreichbar ist: In Deutschland un-
terscheiden sich reine Mobilfunk-Teilnehmer von Festnetz-Teilnehmern in den
Variablen „Geschlecht“, „Alter“, „Erhebungsgebiet (Ost/West)“ und monatlichem
„Haushalts-Nettoeinkommen“ (vgl. Glemser, 2007). Betroffen sind also wichtige
soziodemographische Hilfsvariablen, von denen angenommen werden kann, dass
sie auch verschiedene, inhaltlich relevante Zielvariablen beeinflussen könnten. Die
Nichtberücksichtigung der Mobile-Onlys kann auch die Schätzer einschließlich ih-
rer Varianz beeinflussen. Peytchev, Carley-Baxter und Black (2010) fassen auf der
Basis ihrer eigenen empirischen Analysen einer Erhebung zur Gewalt in der Ehe
die verschiedenen Arten, in denen Schätzer durch Nichtberücksichtigung von Mo-
bilfunknummern beeinflusst werden können, in der folgenden Weise zusammen
(vgl. Peytchev, Carlex-Baxter & Black, p. 299):
• Beeinflusst werden nicht nur Mittelwerte und Anteile, sondern auch Varianzen
sowie Zusammenhänge zwischen Zielvariablen in der Stichprobe.
• Die Nichtberücksichtigung der Mobile-Onlys kann auch die Varianzen der
Schätzer und daher auch die Signifikanztests beeinflussen.
• Demographische Merkmale können bei einigen Merkmalen über Gewichtun-
gen angepasst werden, bei anderen Merkmalen dagegen erhöht sich der Bias.
• Insgesamt sind die Verzerrungen spezifisch für die Art der berechneten Statis-
tiken und die Art der Schätzer.
VII.4 Gefährdungen der Umfragequalität durch Ausfälle 515
VII.4.3 Nonresponse-Bias
Da mit einer Umfrage die Absicht verbunden ist, Populationseigenschaften auf Basis
der Stichprobe so gut wie möglich abzubilden, muss nicht nur die Verzerrung durch
Unterdeckung von Interesse sein, sondern auch die Verzerrung durch Nonresponse.
Das Ausmaß an Verzerrung durch Nonresponse, der sog. Nonresponse-Bias (engl.:
nonresponse bias) oder auch Nonresponse-Fehler (engl.: nonresponse error) kann für
eine Stichprobe s und eine Variable Y nach folgender Formel bestimmt werden:
M
Yr − Ys =
N
(Yr − Ym ) ,
wobei:
M
N
heißt auch Nonresponse-Rate.
Der Nonresponse-Bias beschreibt, wie stark der Mittelwert einer Variablen in
der Menge der Respondenten in einer Stichprobe vom Mittelwert aller Personen in
der Ausgangsstichprobe abweicht. Aus der Formel ist ersichtlich, dass der Nonre-
sponse-Fehler unter den folgenden Bedingungen den Wert Null annimmt:
• Es gibt keinen Mittelwertunterschied zwischen der Teilstichprobe der Befrag-
ten und der Gesamtstichprobe.
• Alle Elemente der Bruttostichprobe konnten befragt werden.
Die obige Formel ist deterministisch, insofern sie voraussetzt, dass die Auswahlge-
samtheit in zwei Schichten zerlegt ist: die Schicht der Respondenten und die Schicht
der Nichtrespondenten. Die Formel für den Nonresponse-Bias kann aber auf die
Ausgangsstichprobe bezogen werden. In diesem Fall variieren die Umfänge der
Respondenten und Nichtrespondenten von Stichprobe zu Stichprobe, so dass hier
516 VII.4 Gefährdungen der Umfragequalität durch Ausfälle
zu verwenden. In diesem Ausdruck ist Vyρ die Kovarianz zwischen der Variablen y
und den individuellen Antwortwahrscheinlichkeiten. ρ– ist die mittlere Antwort-
wahrscheinlichkeit. Nach dieser Formel steigt der Bias mit wachsender Kovarianz
zwischen der betrachteten Untersuchungsvariablen y und den individuellen Ant-
wortwahrscheinlichkeiten bei gleich bleibender durchschnittlicher Antwortwahr-
scheinlichkeit und sinkt mit zunehmender durchschnittlicher Wahrscheinlichkeit
der Nichtantwort. Mit anderen Worten: Das Ausmaß der Verzerrung nimmt zu,
wenn die individuellen Teilnahmewahrscheinlichkeiten mit der Untersuchungs-
variablen zusammenhängen. In seiner obigen Form bezieht sich der Nonrespon-
se-Bias auf alle Ausfälle, die durch Nonresponse entstehen einschließlich der durch
Item-Nonresponse und darüber hinaus sogar auf alle Arten von Ausfällen ein-
schließlich von Ausfällen durch Unterdeckung. Ein alternativer Ausdruck für die
obige Formel für den Nonresponse-Bias ist:
∑ iN=1 ( y i − y )(π i − π )
Bias ( y ) ≈
Nπ
In dieser Formel sind yi der Wert des Elements i auf der Variablen y, –y der Mittel-
wert von y, πi die Ausfallwahrscheinlichkeit des Elements i(π>0), –π die mittlere
Ausfallwahrscheinlichkeit und N –π die Schätzung der Anzahl der Respondenten.
Es ist zu erwarten, dass sich die Ausfälle in der Rekrutierungsphase zu einem
Gesamtfehler verbinden. Abbildung VII.13 stellt die Stufen eines Auswahlprozes-
ses von Personen für eine telefonisch offline-rekrutierte Zufallsstichprobe von Teil-
VII.4 Gefährdungen der Umfragequalität durch Ausfälle 517
nehmern an einer Webumfrage dar. Auf jeder Stufe können sukzessiv Teilnehmer
aus der Stichprobe herausfallen bis schließlich eine Nettostichprobe von Teilneh-
mern entsteht, die an der Webumfrage teilgenommen haben (vgl. Deutschmann
& Faulbaum, 2001). Die Zielpopulation besteht in der Menge aller in Privathaus-
halten der Bundesrepublik Deutschland lebenden Personen mit Telefonanschluss
im Alter von 18 Jahren und darüber. Durch Beschränkung der Zielpopulation auf
eine Auswahlgrundlage, die nur aus Privathaushalten mit Telefonanschluss besteht,
entsteht bereits ein Unterdeckungsfehler. Aus dieser Auswahlgrundlage wird eine
Zufallsstichprobe von Haushalten gezogen, die kontaktiert werden. Auf Grund von
Unit-Nonresponse ergibt sich eine Substichprobe der teilnehmenden Haushalte.
Durch Zufallsauswahl einer Person im Haushalt entsteht eine Zufallsstichprobe
von Zielpersonen, die nach ihrer E-Mail- und Internetnutzung gefragt werden, was
zu einer Substichprobe von Internet- und E-Mail-Nutzern führt. Nur eine Teilmen-
ge dieser Stichprobe ist schließlich bereit, ihre E-Mail-Adresse zu nennen. Diese
Teilmenge wird dann zu einer Webumfrage eingeladen. Auch auf dieser Stufe kann
es noch Ausfälle geben, die in der Abbildung nicht dargestellt sind.
Angenommen, es würde festgestellt, dass sich die Nettostichprobe von der Aus-
wahlgesamtheit in der Zusammensetzung der Variablen „Alter“ unterscheidet.
Dann würde ein Altersbias durch die selektive Teilnahme in Bezug auf die Zielvari-
able erst dann entstehen, wenn das Alter sowohl mit der Teilnahmewahrscheinlich-
keit als auch mit der Zielvariablen korreliert ist. Gilt dies nicht, gibt es diesen Bias
in Bezug auf die Zielvariable nicht.
Nehmen wir das Beispiel eines konkreten Items: die Wichtigkeitseinstufung des
Items „Religion und Kirche“. Angenommen, die Wahrscheinlichkeit, an der Erhe-
bung teilzunehmen, wäre für Frauen höher als bei Männern ist und Frauen würden
außerdem eine höhere Einstufung des Items „Wichtigkeit von Religion und Kirche“
vornehmen als Männer. Dann würde ein Bias dieser Variablen die Folge sein.
Etwas komplizierter wird es, wenn sowohl die Teilnahmewahrscheinlichkeit als
auch die Wahrscheinlichkeit, eine bestimmte Frage zu beantworten, berücksich-
tigt werden. Sind beide Wahrscheinlichketen korreliert, so beantworten Personen,
die eher teilnehmen auch eher eine Frage, eine Effekt, der die Art und Weise, wie
geantwortet wird, nicht direkt betrifft. Um den Effekt auf die Variable einer der bei-
den Wahrscheinlichkeiten zuordnen zu können, muss der Effekte der einen Wahr-
scheinlichkeit aus der jeweils anderen herauspartialisiert werden.
Groves und Peytcheva (2008, p.183) kommen in ihrer Metaanalyse, deren Be-
schränkungen sie explizit erwähnen, u.a. zu der Schlussfolgerung, dass hohe Res-
ponseraten das Risiko von Verzerrungen reduzieren können; dies aber umso we-
niger der Fall ist, je stärker die Ausfallursache mit einer Variablen korreliert ist. Es
520 VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten
gibt Umfragen mit einer niedrigen Nonresponse-Rate, aber einem großen Bias. An-
dererseits führt eine Erhöhung der Response-Rate nicht notwendig zu einer Reduk-
tion des Nonresponse-Bias (vgl. auch Peytchev, Baxter und Carley-Baxter, 2009).
Diese Befunde und auch die Formel für den Bias zeigen, dass die Nonrespon-
se-Rate mitbestimmend für den Bias ist und damit einen Indikator für den Bias dar-
stellt. Ein weiterer Indikator ist der oben bereits ausführlich beschriebene Selektions-
effekt. Nonresponse bewirkt immer eine Selektion von Respondenten mit bestimmten
Merkmalen aus der zufällig gezogenen Ausgangsstichprobe und damit aus der Aus-
wahlgesamtheit. So können sich in der Nettostichprobe der Respondenten mehr
Männer als Frauen, mehr ältere Personen als jüngere Personen, etc. Eine Selektion
kann dadurch festgestellt werden, dass die Zusammensetzung der Stichprobe mit der
Zusammensetzung der Auswahlgesamtheit in Bezug auf gemeinsame Hilfsvariablen
verglichen wird. Dies sind in der Regel soziodemographische Merkmale. Um solche
Vergleiche zu ermöglichen, sollten so viele Hilfsmerkmale wie möglich sowohl in
der Nettostichprobe als auch in der Auswahlgesamtheit und der Ausgangsstichprobe
einbezogen werden. Verschiedene Analysen zeigen, dass die Zusammensetzung der
Ausgangsstichprobe in Bevölkerungsumfragen durch die Nonresponse-Rate nicht
unbedingt beeinflusst wird (vgl. z.B. Blohm & Koch, 2013; Koch, 1998; Schneekloth
& Leven, 2003). Grundsätzlich hängen solche Befunde aber auch davon ab, ob bei
Durchführung der Umfrage bereits Strategien zur Vermeidung von Selektionseffek-
ten wie z.B. bestimmte Schulungsmaßnahmen bei Interviewern eingesetzt wurden.
Unit Nonresponse tritt vornehmlich in der Kontaktphase als negative Antwort auf
die Bitte um Teilnahme auf, wobei der Einleitung bzw. Gesprächseröffnung eine be-
sondere Bedeutung zukommt. So berichten bereits Oksenberg und Cannell (1988)
in Bezug auf Telefonumfragen, dass über 90% der Ausfälle während der Einleitung
entstehen. Als Ursachen für die Nichtteilnahme kommen in Betracht:
• Nichtkontakt (engl.: noncontact): Die Bitte um Teilnahme an der Umfrage (engl.:
survey request) konnte nicht vorgetragen werden (z.B. bei Nichterreichbarkeit,
Nicht-Auffindbarkeit, Nichtzustellbarkeit des Fragebogens, etc.);
• Verweigerung (engl: refusal) : Untersuchungseinheit verweigert die Teilnahme;
VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten 521
Erläuterungen:
Was ein vollständiges, ein partielles oder rein abgebrochenes Interview ist, muss
nach AAPOR-Empfehlungen klar definiert sein. Beispiele sind:
1) Ein Interview ist vollständig, wenn mindestens 80% aller Fragen beantwortet
sind, es ist partiell vollständig, wenn 50-80% beantwortet sind und es stellt ei-
nen Abbruch dar, wenn weniger als 50% beantwortet sind;
2) Ein Interview ist vollständig, wenn mindestens 80% aller Fragen gestellt wur-
den, es ist partiell vollständig, wenn 50-80% gestellt wurden und es stellt einen
Abbruch dar, wenn weniger als 50% gestellt wurden;
3) Ein Interview ist vollständig, wenn 100% aller zentralen Fragen beantwortet
wurden, es ist partiell vollständig, wenn 50-90% aller zentralen Fragen beant-
wortet wurden, es stellt einen Abbruch dar, wenn weniger als 50% aller zentra-
len Fragen beantwortet wurden;
Diese drei Fälle können auch miteinander kombiniert werden. So kann z.B. verein-
bart werden, dass ein vollständiges Interview dann vorliegt, wenn 100% der zentra-
len Fragen und 80% aller Fragen beantwortet wurden.
Response-Raten:
Die Standarddefinitionen der AAPOR unterscheiden sechs verschiedene Respon-
se-Raten:
I
RR1 = .
( I + P ) (
+ R + NC + O ) + (UH + UO )
VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten 523
RR1 ist die minimale Response-Rate. Diese ist gleich der Anzahl der vollständigen In-
terviews geteilt durch die Summe von vollständigen und partiellen Interviews plus der
Anzahl der Nichtinterviews (Verweigerungen plus Nichtkontakt plus der aus anderen
Gründen nicht Teilnehmenden) plus aller Fälle, deren Auswählbarkeit unbekannt ist.
RR2 =
(I + P) .
( I + P ) + ( R + NC + O ) + (UH + UO )
RR2 zählt die partiellen Interviews zu den Fällen, die geantwortet haben.
I
RR3 =
( I + P ) + ( R + NC + O ) + e (UH + UO )
RR3 bezieht statt der Anzahl der Fälle mit unbekanntem Status der Auswählbarkeit
eine Schätzung dieser Größe mit ein, die auf der Basis wissenschaftlicher Informa-
tionen erfolgen sollte.
RR 4 =
(I + P)
( I + P ) + ( R + NC + O ) + e (UH + UO )
RR4 zählt wieder die partiellen Interviews zu den beantworteten Fragebögen.
I
RR5 = .
( I + P ) + ( R + NC + O )
RR6 =
(I + P) .
( I + P ) + ( R + NC + O )
RR5 und RR6 nehmen an, dass es keine nicht auswählbaren Fälle gibt. RR6 stellt die
maximale Response-Rate dar.
Kooperationsraten:
Kooperationsraten beziehen sich auf die Anzahl der Interviews, die unter allen aus-
wählbaren kontaktierten Einheiten durchgeführt werden konnten. AAPOR unter-
scheidet vier verschiedene Kooperationsraten:
I
COOP1 = .
(I + P) + R + O
COOP1 ist die minimale Kooperationsrate.
524 VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten
COOP 2 =
(I + P) .
(I + P) + R + O
COOP2 bezieht wieder die partiellen Interviews in die Zählung der gültigen Inter-
views mit ein.
I
COOP 3 = .
( I + P )+R
COOP 4 =
(I + P) .
(I + P) + R
COOP3 und COOP4 gehen davon aus, dass Einheiten, die nicht zu einem Interview
fähig sind, auch nicht kooperieren können. Daher wird auf die Angabe von O im
Nenner verzichtet.
Verweigerungsraten:
Eine Verweigerungsrate bezieht sich auf die Anzahl aller Fälle, bei denen ein Haus-
halt oder Befragter ein Interview verweigert haben bzw. auf die Abbrüche der po-
tentiell auswählbaren Personen. Die Standarddefinitionen der AAPOR unterschei-
den drei Varianten von Verweigerungsraten:
R
REF1 = .
( I + P ) + ( R + NC + O ) + (UH + UO )
R
REF 2 =
( I + P ) + ( R + NC + O ) + e (UH + UO )
R
REF 3 = .
(I + P) + R + O
Die Nenner sind analog zu denen in den Response-Raten definiert.
Kontaktraten:
Die Kontaktrate misst den Anteil aller Fälle, in dem ein verantwortliches Haus-
haltsmitglied erreicht wurde. Sie bezieht sich auf den Haushalt und nicht nur auf
die Kontaktaufnahme mit der Zielperson. AAPOR unterscheidet drei verschiedene
Kontaktraten:
VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten 525
CON1 =
(I + P) + R + O .
( I + P ) + ( R + NC + O ) + (UH + UO )
CON 2 =
(I + P) + R + O .
( I + P ) + ( R + NC + O ) + e (UH + UO )
CON 3 =
(I + P) + R + O .
( I + P ) + ( R + NC + O )
Die Nenner sind wieder wie bei den Response-Raten definiert.
Entscheidend für die Berechnung der Raten ist der sog. finale Dispositionscode,
d.h. der Zustand nach dem letzten Kontaktversuch. Ein Dispositionscode (engl. di-
sposition code) gibt den Status der Ausfälle während der Erhebung wieder. Die-
ser kann sich im Verlauf der Erhebung verändern. Als finalen Dispositionscode
bezeichnet man den Zustand nach Beendigung der Erhebung, also jeweils immer
der nach dem letzten Kontakt geltende Dispositionscode (zu den Festlegungen der
Codes vgl. AAPOR (2011). Die Dispositionscodes werden beim Einsatz von Befra-
gungssoftware automatisch berechnet. Das Klassifikationsschema lässt sich dabei
festlegen. Es sollte auf jeden Fall so eingerichtet sein, dass sich die AAPOR-Ra-
ten berechnen lassen (bei CATI-Umfragen z.B. Anrufbeantworter, unterbrochenes
oder beendetes Interview, Verweigerung, Termin bei telefonischen Befragungen
sowie keine Reaktion („aktiv“) bei Online-Befragungen. Für die Dokumentati-
on des Feldgeschehens bei Telefonumfragen und Online-Umfragen während der
Durchführung ist der aktuelle Zustand der Dispositionscodes entscheidend.
Bei Kontakten mit den Zielpersonen über Mobiltelefone, muss eine Anpassung
der Disposition Codes erfolgen. Wie Callegaro et al. (2007) feststellen, können die
Standarddefinitionen der AAPOR nicht einfach von RDD-Festnetz-Erhebungen auf
Erhebungen über Mobilfunk übertragen werden. Im Vergleich zu Festnetz-Erhebun-
gen fehlt bei Erhebungen per Mobilfunk eine Standardisierung. So können sich die
Nachrichten des Providers stark voneinander unterscheiden, bei einem einzigen Fall
können mehrere mögliche Dispositionen eine Rolle spielen. So können Anrufe bei
der gleichen Mobilfunk-Nummer eine Mischung von auswählbaren, unbestimmten
und nicht-auswählbaren Zuständen ergeben. Die Autoren geben die Empfehlung,
alle Anrufe mit einer gemischten Kontaktgeschichte als Fälle mit unbestimmter Aus-
wählbarkeit zu zählen (vgl. Callegaro et al., 2007, p. 667). Im Gegensatz zum Vor-
gehen bei Festnetz-Umfragen kann nicht davon ausgegangen werden, dass sich mit
einer Zunahme der Kontaktversuche eine klare Zuordnung zu den auswählbaren Fäl-
526 VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten
len ergibt. Stattdessen kann im Verlauf der Zeit z.B. ein Wechsel von „außer Betrieb“,
„prepaid“, „in Betrieb“ und „nicht verbunden“ eintreten.
Die Alternative „Ausfall vs. Nichtausfall“ stellt ein dichotomes Ereignis dar, das
je nach Art des Ausfalls unterschiedlich konkretisiert werden kann. Beispiele für
unterschiedliche Konkretisierungen sind „Kontakt vs. Nichtkontakt“, „Teilnahme
vs. Verweigerung“, „Aufnahme in die Auswahlgesamtheit vs. Nichtaufnahme“,
„Antwort auf eine Frage vs. Antwortverweigerung“. Allen gemeinsam ist, dass es
sich um dichotome Ereignisse handelt, die formal jeweils als dichotome Variable
R mit den Werten bzw. Zuständen R = 1 (z.B. Teilnahme) und R = 0 (z.B. Verwei-
gerung) präzisiert werden. Gegenstand der Vorhersage ist die Wahrscheinlichkeit
einer Ausfallalternative.
Versuche, diese Variable als abhängige Variable durch unabhängige Prädiktor-
variablen mit Hilfe eines statistischen Modells vorherzusagen, münden in einem
Regressionsmodell für dichotome abhängige Variablen. Beispiele für solche Model-
le sind die binäre logistische Regression und andere Alternativen wir Probit-Mo-
delle, Modelle für zensierte Variablen, kurz: alle Spezifikationen des verallgemeiner-
ten linearen Modells (engl.: generalized linear models; kurz: GLIM; vgl. McCullagh &
Nelder, 1989; Fahrmeier, Hamerle & Tutz, 1996). Handelt es sich bei den unabhän-
gigen Variablen um latente unbeobachtete Variablen müssen entsprechende An-
sätze der Analyse mit latenten Variablen herangezogen werden (vgl. z.B. Muthén.,
1984; Skrondal & Rabe-Hesketh, 2004).
Das meist verwendete Modell ist das der binären logistischen Regression (vgl.
z.B. Tutz, 2000). Ein binäres logistisches Modell ist für m unabhängige Variablen
1, x1 , … , xj , … , xm und Regressionskoeffizienten β0 , β1, … , βj , … , βm durch die
folgende Form einer logistischen Funktion charakterisiert:
exp xcβ
S x .
1 exp x cβ
S x
exp x cβ
1S x
und
§ S x ·
log ¨ x cβ.
¨ 1 S x ¸¸
© ¹
528 VII.7 Bedingungen der Interview-Teilnahme
π (x)
1− π (x)
heißt Chancen bzw. „odds“. Die „odds“ spiegeln Tendenzen zu der einen oder an-
deren Ausfallalternative wider. Angewandt auf die Teilnahmeentscheidung wür-
den positive „odds“ eine Tendenz zur Teilnahme widerspiegeln, angewandt auf die
Entscheidung, eine Frage zu beantworten, wäre es die Neigung, eher zu antworten.
Unabhängige Variablen können Hilfsvariablen wie „Alter“, „Geschlecht“, etc.
oder Zielvariablen sein. Sie können dabei auch als Kontrollvariablen bzw. Kovariate
eingeführt werden, deren Funktion darin besteht, Effekte konfundierender Variab-
len aus den Effekten der Zielvariablen herauszunehmen. Die Anwendung des Mo-
dells auf die Teilnahmeentscheidung setzt voraus, dass die unabhängigen Variablen
sowohl für die Respondenten als auch für die Nichtrespondenten gemessen werden
konnten Eine wichtige Rolle spielen diese Modelle nicht nur bei der inhaltlichen
Modellierung des Antwortverhaltens, sondern auch bei der Gewichtung.
VII.7.1 Kontaktierbarkeit
realisiert wird, sondern zunächst mit einer von der Zielperson unterschiedenen
Kontakt- bzw. Auskunftsperson, über welche dann erst der Kontakt mit der Ziel-
person hergestellt wird. Die Form der Kontaktaufnahme ist nicht nur abhängig
von der Zielpopulation, sondern nicht zuletzt von der Art der in der Auswahl-
grundlage zur Verfügung stehenden Informationen. Sollen Befragte über Haushal-
te identifiziert werden, so muss zunächst eine Auswahlgrundlage vorliegen, in der
die Haushaltsadressen aufgeführt sind. Dies sind in der Regel Privatadressen, über
die zunächst eine Haushaltsperson erreicht wird, mit deren Hilfe die Zielperson im
Haushalt identifiziert werden kann. Dies ist etwa bei Telefonstichproben der Fall,
bei denen zunächst eine Kontaktperson im Haushalt erreicht wird. Eine Variante,
die darin besteht, einen Haushalt so oft zu kontaktieren bis eine Zielperson den
Hörer abnimmt, ist in der Regel aus Kosten- und Zeitgründen nicht realisierbar.
Die Wahrscheinlichkeit eines Kontakts (engl.: contactability) mit einer Kontakt-
und/oder einer Zielperson bzw. dafür, dass ein Kontakt überhaupt hergestellt wer-
den kann, hängt vor allem ab von
• Hindernissen des Zugangs;
• Muster der häuslichen Erreichbarkeit, bei Unternehmensumfragen: Muster der
betrieblichen Anwesenheit.
Die Art der Hindernisse wechselt je nach Befragungsart und Population. Beispiele
für Zugangshindernisse bei Interviewer-administrierten Umfragen und Personen-
stichproben sind Kontaktpersonen, die den Zugang zu Zielpersonen verweigern.
Kontaktpersonen übernehmen dann in Bezug auf die Zielperson die Funktion ei-
nes Gate-Keepers, von dem es abhängt, ob überhaupt ein Kontakt zu einer Zielper-
son zustande kommen kann. Bei Unternehmensumfragen übernehmen oft Sekre-
tariate, Assistenten/innen, Mitarbeiter/innen die Rolle des Gatekeepers. Aussagen
wie „Meine Frau gibt keine Interviews“ oder „Meine Mutter ist zu alt, um noch an
einem Interview teilzunehmen“ oder im Fall von Unternehmensumfragen „Mein
Chef ist zu sehr beschäftigt“ oder „Mein Chef lehnt Interviews grundsätzlich ab“
können zu einem Verlust eines Falls führen. Im Fall von Befragungen älterer Per-
sonen können Kinder den Zugang zu Eltern versperren. Ehemänner können den
Zugang zu den Ehefrauen verweigern. Obwohl es sich um Verweigerungen der
Kontaktpersonen handelt, sind diese Verweigerungen aus Sicht des Kontakts mit
den Zielpersonen Zugangshindernisse.
Beispiele für Zugangshindernisse bei selbst-administrierten postalischen Um-
fragen sind z.B. Personen, welche die Post vorher öffnen und zugesandte Befra-
gungsunterlagen nicht weiterleiten, sondern gleich in den Abfallkorb werfen, nicht
vorhandene Briefkästen, etc. So konnten z.B. Couper, Mathiowetz und Singer
(1995) für die USA zeigen, dass in ungefähr der Hälfte der Haushalte nur eine Per-
530 VII.7 Bedingungen der Interview-Teilnahme
son die Post sortiert und dass ca. 60% die Post ohne sie zu öffnen, aussortieren.
Weniger davon betroffen sind persönlich adressierte Schreiben (Beispiele für Zu-
gangshindernisse bei Webumfragen sind Passwörter, mangelnde technische Aus-
stattung, etc.
Zugangshindernisse können prinzipiell durch Merkmale des sozialen Umfelds
wie z.B. Angst vor dem Öffnen einer Wohnungstür in sozialen Brennpunkten, ne-
gative Erfahrungen und negative Berichte in den Medien, soziodemographische
Merkmale wie berufliche Belastung und häufige Abwesenheiten mit der Entschei-
dung, den Anrufbeantworter einzustellen, beeinflusst werden. Auch kulturelle
Einflüsse und damit zusammenhängende Entscheidungen, wer eine Person in die
Wohnung lassen darf oder nicht, können hier wirksam sein.
Genauso wie Hindernisse des Zugangs kann auch das Muster der häuslichen
Erreichbarkeit direkt beeinflusst werden durch Merkmale des sozialen Umfelds.
Dazu gehören infrastrukturelle Merkmale wie Anschluss an öffentliche Verkehrs-
mittel, Versorgung mit Kindertagesstätten sowie Einkaufsmöglichkeiten. Nicht
ausreichende Einkaufsmöglichkeiten vor Ort können bedeuten, dass lange Wege
in Kauf genommen werden müssen. Dieser Effekt kann sich verstärken, wenn be-
stimmte Altersgruppen mit eingeschränkter Beweglichkeit betrachtet werden. Ein-
flüsse dieser Art manifestieren sich z.B. in Stadt/Land-Unterschieden.
Auch soziodemographische Merkmale wie Alter, Geschlecht, Erwerbsstatus,
Familienstand, Beruf, sozialer Status können sich direkt auf die Anwesenheit/Ab-
wesenheit auswirken. Beispiele sind beruflich bedingte Abwesenheiten am Tag oder
häufige Abwesenheiten auf Grund von beruflich bedingten Reisen wie Tagungsrei-
sen, Montagetätigkeit etc., altersbedingte häufige Anwesenheit am Vormittag, etc.
Familien mit Schulkindern müssen für einen Urlaub die offizielle Ferienzeit nut-
zen. Frauen mit Kindern haben eine andere Struktur des Alltags als berufstätige
Männer. Diese soziodemographischen Variablen weisen wiederum eine Abhän-
gigkeitsstruktur untereinander auf, die wiederum bestimmt, welche Variablen sich
indirekt oder direkt auf die Anwesenheit auswirken.
Weitere Determinanten der Erreichbarkeit sind die Art der beruflichen Tä-
tigkeit, das Freizeitverhalten, die Jahreszeit bzw. das Wetter. Im Fall von Unter-
nehmensumfragen hängt das Muster der betrieblichen Anwesenheit z.B. von der
Betriebsgröße, von der Art der beruflichen Tätigkeit und von der Position im Un-
ternehmen ab. Für die telefonische Erreichbarkeit für allgemeine Bevölkerungsum-
fragen gibt es offensichtlich optimale Kontaktzeiten (vgl. hierzu auch Vigderhouse,
1981; Weeks, Kulka & Pierson, 1987). So stellen sich die späten Nachmittagsstun-
den und der Abend als Zeiten, heraus, an denen Personen am ehesten telefonisch
erreichbar sind. Bei der Festlegung der Termine muss immer bedacht werden, dass
Telefonanrufe eine Störung für die Befragten darstellen, so dass der in amerikani-
VII.7 Bedingungen der Interview-Teilnahme 531
Instruktionen:
Aufforderung, nur einmal an der Befragung teilzunehmen;
Zurücknahme von Incentives:
Belohnungen werden nur denjenigen zuteil, die nur einmal an der Umfrage teilgenommen ha-
ben;
Verwendung von Identifikatoren:
VII.7 Bedingungen der Interview-Teilnahme 533
Im Allgemeinen verlässt man sich bei Umfragen darauf, dass eine Mehrfachteil-
nahme dann nicht stattfindet, wenn die Attraktivität nicht durch Incentives oder
durch interessante experimentelle Varianten mit Gewinnauszahlungen (z.B. bei
Choice-Experimenten) erheblich gesteigert wird.
Nicht nur der Kontakterfolg, sondern auch die Teilnahmeentscheidung hängt von
einer Vielzahl unterschiedlicher Faktoren ab, von denen einige unter der Kontrolle
des Forschers und andere nicht unter der Kontrolle des Forschers stehen (vgl. Gro-
ves & Couper, 1998; Groves et al., 2009). Nicht unter der Kontrolle des Forschers
534 VII.7 Bedingungen der Interview-Teilnahme
stehen Merkmale der sozialen Umgebung (politisch ökonomisch und sozial; Um-
frageklima, Merkmale der Nachbarschaft) und die Merkmale des Befragten (Struk-
tur des Haushalts, soziodemographische Merkmale, Kenntnisse über das Thema
der Befragung, Erfahrungen mit Umfragen, affektiver Zustand, psychologische
Disposition). Unter Kontrolle des Forscher stehen das Erhebungsdesign (Belastung
der Befragten, Auswahl der Befragten, Thema der Umfrage, Wahl der Erhebungsart
und Administrationsform, Strategie der Belohnung bzw. Incentivierung) und die
Interviewer (soziodemographische Merkmale, Erfahrung, Erwartungen, affektiver
Zustand). Die vom Forscher kontrollierbaren und nicht kontrollierbaren Faktoren
treten in Wechselwirkung und beeinflussen die Teilnahmeentscheidung.
Im Zusammenhang mit der Teilnahmebereitschaft werden zahlreiche Einfluss-
faktoren vermutet (vgl. Cialdini, Groves & Couper, 1992), die z.T. aus sozialpsycho-
logischen Ansätzen abgeleitet werden können:
Personen nehmen eher teil, wenn der/die Interviewer/in ihnen attraktiv erscheint oder ihnen
ähnlich ist (gleiche Überzeugungen, Wertvorstellungen, etc.
Hilfsbereitschaft (engl.: helping tendency):
Personen, nehmen eher an einer Befragung teil, wenn sie damit eine Hilfeleistung verbinden
können. Dies bedeutet, dass eine Interview eher zustande kommt, wenn an die soziale Hil-
fenorm appelliert wird. Dies könnte z.B. bedeuten, dass ein durch den Regen triefnasser Inter-
viewer eher ein Interview bekommt.
Die aufgeführten Aspekte finden sich auch im Ansatz des maßgeschneiderten De-
signs von Dillman. Obwohl zunächst für Selbst-administrierte Umfragen gedacht,
ist dieser Ansatz aber in vielen Aspekten auch auf Interviewer-administrierte Um-
fragen anwendbar. Wie bereits in Teil I dargestellt, werden gemäß dieser Theorie
Personen durch das motiviert, was sie für ihr Handeln als Gegenleistung erhalten.
Angewandt auf die Kontaktaufnahme mit einer Person und die Bitte um Teilnahme
heißt dies, dass die Prinzipien des sozialen Tausches beachtet werden sollten. Dazu
zählen z.B Linie Incentives, Anpassung an die Bedürfnisse der Befragten wie z.B.
die Anpassung an die zeitlichen Restriktionen der Befragten sowie die Übermitt-
lung von Zeichen des Respekts und der Dankbarkeit.
Von großer Bedeutung für die Teilnahmemotivation ist auch die thematische
Relevanz einer Befragung, wobei der Effekt des thematischen Interesses aber mit
der Befragungsart variieren könnte. Einige Autoren äußern die Vermutung, dass
sich Themeneffekte in postalischen Umfragen und CATI-Umfragen unterschei-
den. Durch eine wiederholte Nennung des Auftraggebers und die Möglichkeit, sich
die Fragen vor der Rücksendung anzusehen, scheint die Wirkung des Themas auf
die Teilnahmeentscheidung bei postalischen Umfragen weniger relevant zu sein
(vgl. Groves, Presser & Dipko, 2004; Presser et al., 2006). Positiv auf die Teilnahme
scheint auszuwirken, wenn die Reflexion über das Thema positive Belohnungen für
den Befragten mit sich bringt, etwa durch Erzeugung positiver Assoziationen, Bil-
der, Erinnerungen oder die Möglichkeit, eigene Kenntnisse zu demonstrieren. Ist
das Thema zwar relevant für den Befragten, aber mit negativen Gedanken besetzt,
sinkt die Teilnahmebereitschaft.
536 VII.7 Bedingungen der Interview-Teilnahme
Speziell für die Vorhersage der Bereitschaft zur Teilnahme an einem Interview sind
verschiedene, auf inhaltlichen Überlegungen und z.T. auf empirischen Befunden
beruhende Erklärungsansätze entwickelt worden, die im Folgenden in Kurzdar-
stellungen beschrieben werden und zu deren statistische Überprüfung sich die Ab-
schnitt 6 beschriebenen statistischen Modelle eignen:
A. “Leverage Saliency”-Modell“ (vgl. Groves & Couper 1998; Groves, Singer &
Corning 2000):
Das Leverage Saliency-Modell beschreibt den Effekt, welchen die vom Interviewer
in der Kontaktphase vorgetragenen Attribute der Umfrage auf die Teilnahmebereit-
schaft haben und wurde zunächst für Interviewer-administrierte Interviews ausge-
arbeitet. Das Modell geht davon aus, dass Interviewer bei der Bitte um Teilnahme
Merkmale hervorheben, von denen sie glauben, dass sie für eine positive Teilnah-
meentscheidung der angesprochenen Personen günstig sind, d.h. das Modell geht
davon aus, dass die Interviewer den Inhalt ihrer Kontaktaufnahme auf die ange-
sprochenen Personen maßschneidern. Nach diesem Modell hängt die Teilnahme-
wahrscheinlichkeit von zwei zentralen Merkmalen ab:
1) der Bewertung, welche eine Person einem in der Bitte um Teilnahme vorge-
tragenen Merkmal (z.B. Auftraggeber, Länge des Interviews, Belohnung, etc.)
einem Merkmal gibt;
2) der Salienz, Auffälligkeit bzw. Stärke der Betonung (engl.: saliency), die diesem
Merkmal im Rahmen der Bitte um Teilnahme vom Interviewer gegeben wird.
In der Veranschaulichung ihres Modells stellen die Autoren Richtung und Höhe ei-
ner Bewertung als Distanz auf einem Hebel vom Angelpunkt des Hebels dar, wäh-
rend der Grad der Betonung durch das Gewicht von am Hebel hängenden Kugeln
dargestellt wird (vgl. Abbildung VII.14). Aus dieser Veranschaulichung leitet sich
der Name des Modells ab.
VII.7 Bedingungen der Interview-Teilnahme 537
Der Effekt eines Attributs j auf die Teilnahmewahrscheinlichkeit einer Person i ist
gemäß des Leverage-Saliency-Modells eine Funktion der Wahrscheinlichkeit Sij,
mit der das Attribut in der Bitte um Teilnahme in der Ansprache hervorgehoben
wird sowie der Höhe und der Richtung Lij , mit der das Attribut von der kontaktier-
ten Person i bewertet wird. Zwischen der individuellen Wahrscheinlichkeit einer
Kooperationsentscheidung (Propensity) als abhängiger Variablen und Lij und Sij
nehmen die Autoren einen logistischen Zusammenhang an:
J
ln ⎡⎣ pi / (1 − pi ) ⎤⎦ = β 0 + ∑β1 j Lij + β 2 j Sij + β 3 j Lij Sij .
j =1
In dieser Formel ist J die Anzahl der Attribute. Als individuelle Wahrscheinlichkeit
für die Kooperation von Person i ergibt sich dann:
J
β0 + ∑β1 j Lij + β2 j Sij + β3 j Lij Sij
pi = e j =1
.
538 VII.7 Bedingungen der Interview-Teilnahme
Wenn die Bewertung eines Attributs mit einem Merkmal Ci einer Person i zu-
sammenhängt, wie z.B. dem Alter oder der Religionszugehörigkeit, so dass ein
bestimmtes Attribut j in Abhängigkeit von diesem Merkmal höher oder niedriger
bewertet wird, kann das auf das Attribut j bezogene Merkmal Cij der Person i auch
als Proxy für das Attribut in die Modellgleichung aufgenommen werden: Zwischen
der Wahrscheinlichkeit pi einer individuellen Entscheidung zur Kooperation als
abhängiger Variablen und der Variablen Cij als in Bezug auf das Attribut j und den
Grad der Salienz Sij ergibt sich für ein einzelnes Attribut j die folgende Gleichung:
ln ⎡⎣ pi / (1 − pi ) ⎤⎦ = β 0 + β1Cij + β 2Sij + ε i ,
wobei pi wieder die Wahrscheinlichkeit der Kooperation einer Person i mit einer
bestimmten Konstellation der Werte der unabhängigen Variablen, Cij die Charak-
terisierung der Person in Bezug auf das Attribut j und Sij der Grad, mit der das
Attribut betont bzw. hervorgehoben wird.
Auch wenn das Modell für Interviewer-administrierte Umfragen ausgearbeitet
wurde, so liegt die Anwendung auf Anschreiben und Einleitungstexte und die dort
mehr oder weniger stark betonten Merkmale in selbst-administrierten Umfragen
auf der Hand.
RC (Rational Choice)-Modell:
Nach dem RC-Modell entscheidet sich eine Person für eine Teilnahme, wenn der
Nutzen einer Teilnahme deren Kosten übersteigt; d.h. die Teilnahmeentscheidung
basiert auf einer Kosten-Nutzen-Analyse (vgl. Schnell, 1997; Singer, 2011). Die Per-
son handelt also rational im Sinne einer Maximierung des Entscheidungsnutzens.
Ursprünglicher Ausgangspunkt eines RC-Modells ist das Modell des maximalen
subjektiv erwarteten Nutzens (SEU-Modell; vgl. Savage, 1954; Edwards, 1955).
Unter den angebotenen Handlungsalternativen, im vorliegenden Fall „Teilnahme
vs. Nichtteilnahme“ entscheidet sich die Person also für die Alternative mit dem
höchsten subjektiv erwarteten Nutzen:
J
SEU ( A ) = ∑pi*u j .
j
In diesem Ausdruck ist SEU der subjektiv erwartete Nutzen der Handlungsalterna-
tive A, J ist die Anzahl der sog. states of nature, d.h. der ungewissen Gelegenheiten
bzw. Bedingungen, die eintreten könnten und unter denen die Handlungsalternati-
ve ggf. realisiert werden müsste und uj ist die Nutzenbewertung der Konsequenzen,
welche Handlungsalternative A bei Realisierung unter Bedingung j hat, p✴i ist die
subjektive Wahrscheinlichkeit, mit der Gelegenheit j auftritt. Negative Nutzwerte
VII.7 Bedingungen der Interview-Teilnahme 539
bedeuten Kosten. Dies bedeutet praktisch, dass die Alternative mit den geringsten
Kosten gewählt wird. In der Anwendung auf die Teilnahmeentscheidung geht es
um die beiden Alternativen: Teilnahme-Nichtteilnahme. Die Zustände der Natur
sind die unterschiedlichen Zustände, die nach Überlegungen des Befragten eintre-
ten könnten wie z.B. De-Anonymisierung, hoher Zeitaufwand, etc.. Das RC-Mo-
dell ist allerdings inzwischen nicht mehr mit dem klassischen SEU-Modell iden-
tisch, sondern bezieht zahlreiche andere Komponente wie die Rahmung (framing)
der Situation mit ein.
Esser (1986) hat darauf aufmerksam gemacht, dass die Nutzen- und Kosten-
gesichtspunkte oft gering ausgeprägt sind und die Entscheidung daher in diesen
Fällen aus einer Situation der Indifferenz heraus erfolgt, so dass relativ periphere
Aspekte zum Tragen kommen können wie „Stimmung“, „Thema“, „Geschick des
Interviewers“ etc. Von den indifferenten Befragten unterscheidet Esser Personen,
bei denen die Teilnahme bzw. die Verweigerung mit einer starken Handlungsmo-
tivation verbunden ist, in einem bestimmten kulturellen Milieu verankert ist oder
bei denen die Befragten mit der Teilnahme oder Nichtteilnahme ein besonderes
Interesse verbinden. Die in die Nutzenbewertung eingehenden Kosten unterteilt
Esser in Opportunitätskosten und Transaktionskosten. Zu ersteren zählt er den Nut-
zen der anderen Handlungsalternativen wie z.B. „andere Verpflichtungen“. Zu den
wichtigeren Transaktionskosten rechnet Esser etwa die Unsicherheit im Umgang
mit fremden Situationen, Verständigungsprobleme und Befürchtungen.
Wie Singer (2011) am Beispiel von Zusicherungen von Vertraulichkeit zeigt, ist
eine Entscheidung darüber, was als Kosten und was als Nutzen gewertet werden
kann, nicht immer klar ist. So ist eine zu intensive Zusicherung bei nicht-sensitiven
Themen wohl eher der Kostenseite zuzurechnen.
Theorie des überlegten/geplanten Verhaltens (vgl. Aijzen, 2005; Aijzen & Krebs, 1994):
In ihrer ursprünglichen Form der Theorie des überlegten Handelns (engl.: theory of
reasoned action) wird die Verhaltensintention als Funktion der Einstellung gegen-
über dem Verhalten und der subjektiven Norm aufgefasst:
B = I ∝ ⎡⎣w1 AB + w w SN ⎤⎦.
Die Komponenten des Modells werden in der Regel durch entsprechende Items
operationalisiert. Man beachte, dass die Verhaltensintention nicht mit dem Verhal-
ten selbst identifiziert werden kann. In dieser Form wurde die Theorie von Hox,
De Leuuw, und Vorst (1995) auf die Teilnahmeentscheidung angewendet, wobei
noch einige zusätzliche Unterscheidungen eingeführt wurden wie z.B. die Unter-
scheidung zwischen spezifischen und allgemeinen Intentionen. Für die Messung
der allgemeinen Einstellung wurden acht Items entworfen, darunter die Gefühle
gegenüber Umfragen. Zur Erfassung der subjektiven Norm wurden vier Items kon-
struiert, welche die Wahrscheinlichkeit erhoben, mit der eine Person bereit ist an
Umfragen von Universitäten oder Marktforschungsinstituten teilzunehmen. Drei
Items dienten der Erfassung der normativen Überzeugungen. Sie bezogen sich auf
die subjektiven Normen von Freunden. Die Verhaltensüberzeugungen wurden
durch drei Skalen erhoben, wobei der persönliche Wert der Privatheit, die Bewer-
tung vergangener Erfahrungen mit Umfragen und zum empfundenen Aufwand,
der mit der Teilnahme verbunden ist. Analysiert wurde ein Strukturgleichungs-
modell mit latenten Variablen und den Items als Indikatoren. Das Modell konnte
gut an die Daten angepasst werden, allerdings konnte die Übereinstimmung von
Intention und Verhalten nicht bestätigt werden.
Die Theorie des überlegten Handelns wurde später zu einer Theorie des geplan-
ten Verhaltens (engl.: theory of planned behavior) durch Einbeziehung der wahrge-
nommenen Verhaltenskontrolle (engl.: perceived behavioral control) als zusätzlicher
Komponente erweitert. Das Modell des geplanten Verhaltens kann durch die fol-
genden Beziehungen beschrieben werden:
B = ⎡⎣w1I + w 2 PCB ⎤⎦
I ∝ ⎡⎣w1 AB + w 2SN + w 3 PCB ⎤⎦.
In dieser Formel erscheint als weitere Komponente die Variable PCB (perceived
behavioral control). Beispiele für Anwendungen der Theorie des geplanten Ver-
haltens auf die Teilnahmeentscheidung finden sich bei Gordoni & Schmidt (2010),
in Bezug auf Entscheidungen des arabischen Bevölkerungsteils in Israel, Bosnjak
(2002) in Bezug auf die Teilnahmeentscheidung bei Webumfragen und Haunber-
ger (2011) in Bezug auf die Teilnahme an einem Online-Access-Panel. Auch in der
Untersuchung von Haunberger wird die Irrelevanz der Intention für das tatsächli-
che Verhalten thematisiert. Die Korrelation zwischen Intention und Verhalten liegt
nach Metanalysen bei etwa 0,53 (vgl. Sheeran, 2002). Für die Messung der Einstel-
lungen gegenüber Umfragen haben Rogelberg et al. (2001) ein Instrument entwi-
ckelt. Bosnjak, Metzger und Gräf (2010) untersuchten eine erweiterte Version des
Modells auf die Teilnahme an mobilen Umfragen. Burger et al. (2010) untersuchten
VII.8 Maßnahmen zur Erhöhung der Responserate 541
mit Hilfe dieses Modellansatzes die Faktoren, welche die Erreichbarkeit mobiler
Teilnehmer beeinflussen.
hinaus oft auch die notwendigen Daten zur Auswahl der Zielperson, z.B. im Haus-
halt liefern soll, ist das Augenmerk zunächst auch auf die Motivation der Kontakt-
person zu richten, eine Weiterleitung an die Zielperson zu ermöglichen und/oder
ggf. notwendigen Daten über die Zielperson zur liefern. Um diese Motivation zu
verstärken, muss speziell die Form der Kontaktaufnahme einschließlich einer at-
traktiven und überzeugenden Darstellung der Studie bedacht werden.
Ist ein Kontakt mit der Zielperson erfolgt, sollte bei einer negativen ersten Ant-
wort nicht auf weitere Maßnahmen verzichtet werden, den Respondenten doch
noch zu einer Teilnahme zu bewegen. Dazu gehören weitere Überzeugungsarbeit,
sowie ein eventueller Modewechsel, ein Austausch der Interviewer oder die Nach-
kontaktierung von Verweigerern in im Rahmen eines Zweiphasen-Designs (vgl.
hierzu Groves et al., 2009, pp. 202).
Die gebräuchlichsten bisher vorgeschlagenen Maßnahmen zur Erhöhung der
Kontaktrate und/oder der Kooperationsrate wollen wir unter den folgenden Kate-
gorien subsummieren.
• Ankündigungen (engl.: advance letters)
• Zuwendungen (engl.: incentives)
• Interviewerperformanz und Maßnahmen zur deren Optimierung
• Optimierung der Bitte um Teilnahme („survey request“)
• Form und Inhalt der Kontaktaufnahme
• Wahl der Kommunikationsform
• Rekrutierungsaufwand, Nonresponse und Datenqualität
Zahlreiche empirische Befunde zu den die Teilnahmebereitschaft beeinflussenden
Merkmalen der Befragten und die daraus folgende Zusammensetzung der Stich-
probe lassen sich wegen mangelnder oder fehlender Kontrollierbarkeit der ent-
scheidenden Variablen nicht in konkrete Maßnahmen umsetzen. Zudem sind diese
Befunde auch nicht immer konsistent. So fand etwa Goyder (1987), dass höhere
Bildung und niedrigeres Alter die Teilnahmebereitschaft förderten, während z.B.
Pötzschke und Müller (2006) bei Telefonumfragen einen kurvenlinearen Zusam-
menhang zwischen Lebensalter und Teilnahmebereitschaft feststellten. In dieser
Studie ergaben sich niedrigere Teilnahmequoten für Jüngere und Ältere. Dieser
Befund konnte auch von Schnauber und Daschmann (2008) bestätigt werden, die
eine höhere Teilnahmebereitschaft der mittleren Altersgruppe feststellten. Befun-
de dieser Art lassen sich eigentlich nur durch statistische Maßnahmen wie Over-
sampling, disproportionale Ziehung oder Gewichtung ausgleichen.
VII.8 Maßnahmen zur Erhöhung der Responserate 543
VII.8.2 Ankündigungen
Unabhängig vom Thema der Umfrage ist die Art und Weise von Bedeutung, in
der die Kontaktaufnahme mit den Elementen der Ausgangsstichprobe erfolgt. Dies
kann durch eine Vorab-Ankündigung in Form eines Ankündigungsschreiben (engl.:
advance letters; prenotification letters) oder unangekündigt erfolgen. Ankündigun-
gen sind zu unterscheiden von Anschreiben in Mailumfragen, denen der Frage-
bogen beigelegt wird. Die positive Wirkung von Ankündigungen auf die Respon-
se-Raten ist vielfach empirisch belegt (vgl. Heberlein & Baumgartner 1978 in Bezug
auf postalische Umfragen; Groves & Couper, 1998 in Bezug auf Face-to-Face-Um-
fragen; Goldstein & Jennings, 2002, Mann, 2005 sowie De Leeuw et al. 2007 in
Bezug auf CATI-Umfragen mit listenbasierter oder zufallsbasierter Listenauswahl).
Ankündigungsschreiben vermindern, insbesondere bei Telefonumfragen, den
Überraschungseffekt und geben dem Interview den Charakter der Legitimation,
indem sie den Befragten signalisieren, dass keine Werbe- oder Verkaufsabsicht im
Spiel ist. Dennoch bleibt bei telefonischen Umfragen die ausschließlich erste Kon-
taktaufnahme oft dem Telefon vorbehalten (sog. kalte Anrufe; engl.: cold calls). Dies
hat den einfachen Grund, dass bei Anwendung des RDD-Verfahrens die Adressen
der Befragten vorher nicht bekannt sind, so dass als einzige Möglichkeit bleibt, den
Befragten auf Wunsch weitere Materialien zuzusenden. Dies bedeutet, dass dem
Eröffnungs- bzw. Einleitungsteil bei Telefonumfragen eine besondere Bedeutung
zukommt. Die einzige Alternative, auch in RDD-Umfragen ein Ankündigungs-
schreiben zu versenden, besteht darin, die im Rahmen der RDD-Nummerner-
zeugung generierten Nummern mit dem Telefonregister abzugleichen. Die An-
kündigungsschreiben werden dann nur an jene verschickt, für die eine registrierte
Nummer existiert. Link und Mokdad (2005) gingen in dieser Weise vor und bestä-
tigten die positive Wirkung des Ankündigungsschreibens für die Substichprobe der
Registrierten in der RDD-Stichprobe. Gleichzeitig ergaben sich aber soziodemo-
graphische Unterschiede hinsichtlich Alter und sozio-ökonomischem Status. Die
Ankündigungsschreiben bewirkten offensichtlich eine Verzerrung der Stichprobe
in Richtung höheres Alter und höheren Status. Die Kosten für das Ankündigungs-
schreiben wurde aufgewogen durch die verstärkte Teilnahme der registrierten Sub-
stichprobe (vgl. dazu auch Hembroff et al., 2005).
De Leeuw et al. (2007) berichten bei CATI-Umfragen eine Erhöhung der Re-
sponserate von 58% auf 66% und einer Erhöhung der Kooperationsrate von 64%
auf 75% bei Versand von Ankündigungsschreiben, eine Größenordnung, die etwas
über dem von Link und Mokdad (2005) berichteten Zuwachs liegt (ca. 6%). Hem-
broff et al. (2005) berichten einen Zuwachs von 5,4%. Frühe Analysen von Dillman,
Gallegos und Frey (1976) berichten dagegen über Erhöhungen von 4,4%, Traugott,
544 VII.8 Maßnahmen zur Erhöhung der Responserate
Groves und Lepkowski (1987) sogar um 13,4%. Nicht bestätigt werden konnte die
Wirkung von Ankündigungsschreiben bei CATI-Umfragen in den Experimenten
von Singer, van Hoewyk und Maher (2000).
Mit den Ankündigungsschreiben können Einladungen verbunden werden,
welche die Legitimität und den Wert der Umfrage stärken, Misstrauen reduzie-
ren und den Eindruck von Reziprozität bewirken können. Diese Prinzipien gelten
insbesondere für Anschreiben, die nicht vorab, sondern zusammen mit weiteren
Unterlagen und dem Fragebogen bei postalischen Umfragen versandt werden. Für
ihre Gestaltung lassen sich bestimmte Prinzipien formulieren (vgl. den Überblick
von Dillman 2000; Porst 2001). Die Wirkung von Ankündigungen variiert mit der
Länge der Anschreiben (vgl. Dillman, Gallegos und Frey, 1976), der Organisation
des Briefkopfs (vgl. Brunner & Carroll, 1969), der zwischen Ankündigung und Te-
lefonkontakt verstrichenen Zeit (vgl. Pennell, 1990, zit. nach Hembroff, 2005) und
der Person, an die das Schreiben adressiert ist.
Der Mode von Ankündigungen ist prinzipiell unabhängig vom Mode, in dem
das Interview durchgeführt wird. So kann etwa eine E-Mail-Umfrage oder eine
Webumfrage auch telefonisch, schriftlich/postalisch, per E-Mail oder per SMS an-
gekündigt werden.
VII.8.3 Zuwendungen
Die Wirksamkeit von Belohnungen in Bezug auf die Rücklaufquote bei Mail-
umfragen wird auch im deutschen Sprachraum bestätigt. In einer Studie von Be-
cker, Imhof und Mehlkop (2007) stieg die Teilnahmebereitschaft durch Beilegen
von 10 Franken, während reine Versprechen von Incentives erfolglos waren und
in ihrer Wirkung schlechter als in einer Kontrollgruppe ohne Incentives. In einer
Studie von Stadtmüller (2009) reichte bereits 1 Euro, um die Teilnahmebereitschaft
und die Rücklaufgeschwindigkeit zu steigern.
Konditionale Belohnungen bringen, wenn überhaupt, nur einen geringen An-
stieg der Response-Rate (vgl. Blohm & Koch, 2013 in Bezug auf Face-to-Face-Um-
fragen). Dies bestätigen auch Analysen einer Umfrage unter jungen Marokkanern
und Türken von Van den Brakel, Vis-Visschers und Schmeets (2006) für CAPI-
und CASI-Modes.
Scherpenzeel und Toepoel (2012) berichten u.a. über die Wirkung von Incenti-
ves bei einer wahrscheinlichkeits-basierten Rekrutierung von Teilnehmern für ein
Online-Acess-Panel und kamen sowohl bei der CAPI- Variante als auch der CA-
TI-Variante zu dem Ergebnis, dass Incentives verbunden mit einer Ankündigung
die höchste Wirkung auf die Response-Rate haben, wobei die optimale Größenord-
nung der Incentives bei 10 Euro lag.
Brick et al. (2007) fanden, dass bei Mobilfunkumfragen Incentives in Höhe von
10$ zu einer höheren Responserate führten als Incentives in Höhe von 5$.
Zuwendungen bei Webumfragen:
Bosnjak und Tuten (2003) untersuchten die Wirkungen von unkonditionalen Zu-
wendungen gegenüber versprochenen Belohnungen und Verlosungen von Preisen
in Webumfragen und fanden dass die Verlosung von Preisen im Vergleich zu den
anderen Varianten die höchste Steigerung der Antwortrate bewirkte. Tuten, Galesic
und Bosnjak (2004) fanden empirische Belege dafür, dass die Ziehung von Preisen
und die unmittelbare Benachrichtigung über das Ergebnis für die Steigerung der
Teilnahmebereitschaft bei Webumfragen wirksamer als prepaid incentives sind.
Galesic und Bosnjak (2004) berichten einen signifikanten Anstieg der Antwortrate
bei unmittelbarer Benachrichtigung des Preises im Vergleich zur verspäteten Be-
nachrichtigung (1 Monat später).
Göritz (2006) untersuchte in zwei Metanalysen die Wirksamkeit von Zuwen-
dungen bei Webumfragen. Dabei untersuchte sie sowohl den Einfluss auf den
Anteil der Teilnehmer, die die erste Frage beantworteten (response) als auch den
Einfluss auf den Anteil, der den Fragebogen vollständig beantwortete (retention).
Dabei stellte sich heraus, dass materielle Belohnungen einen Einfluss sowohl auf
„response“ als auch auf „retention“ haben, wobei der Effekt auf „retention“ größer
ist. Beide Effekte waren aber gering, so dass Belohnungen insgesamt nur einen be-
548 VII.8 Maßnahmen zur Erhöhung der Responserate
Einige Inhalte der Kontaktaufnahme sind nicht verhandelbar und müssen unab-
hängig von ihrer Wirkung auf die Befragten stets im Rahmen der Kontaktaufnahme
vorgetragen werden. So müssen mündliche oder schriftliche Kontaktaufnahmen
in jedem Fall die Vorgaben der Datenschutzgrundverordnung und der Standes-
richtlinien, die im Rahmen der Selbstregulation der Markt- und Sozialforschung
der Bundesrepublik Deutschland erarbeitet wurden (siehe Teil I) erfüllen. Dazu
gehören die Erwähnung der Freiwilligkeit der Teilnahme und die Zusicherung der
Anonymität. Letzteres bedeutet, dass Adressen und erhobene Daten nicht mitei-
nander verknüpft werden dürfen. Grundsätzlich ist dort, wo es möglich ist, eine
schriftliche Einwilligung zur Teilnahme erforderlich, wobei telefonische Umfragen
davon ausgenommen sind (siehe Teil I). Allerdings können Varianten der Präsen-
tation, etwa in Bezug auf die Salienz bzw. Auffälligkeit eingeführt werden, um die
Teilnahmebereitschaft entsprechend den Annahmen der Leverage-Saliency-Theo-
rie zu erhöhen.
Der Hinweis auf die Anonymität stellt eine Zusicherung der Vertraulichkeit dar,
die insbesondere bei sensitiven Themen von großer Bedeutung ist. Zusicherungen
der Vertraulichkeit können eine positive Wirkung auf die Teilnahmebereitschaft
haben (vgl. Singer, von Thurn & Miller, 1995), allerdings nur dann, wenn der Inhalt
der Befragung sensitiv ist (vgl. Singer, Hippler & Schwarz, 1992). Fällt die Zusiche-
rung zu ausführlich aus, besteht die Gefahr, dass die Befragten eher argwöhnisch
werden, indem sie die Wahrnehmung der Sensitivität verstärken (vgl. Singer, Hipp-
ler & Schwarz, 1992; vgl. auch die zusammenfassende Darstellung in Singer, 2011).
Dillman et al. (1996) fanden, wenn auch unter methodischen Vorbehalten, keine
negativen Auswirkungen verschiedener Arten der Zusicherung der Vertraulichkeit
auf die Anzahl vollständiger Interviews. Allerdings spielt hier die Einstellung der
Respondenten zur Vertraulichkeit eine gewisse, wenn auch nicht große Rolle (vgl.
Singer, Van Hoewyk & Neugebauer, 2003).
Wie bereits oben erwähnt, können Kontaktaufnahmen grundsätzlich in jeder
Kommunikationsform erfolgen und sind nicht an die Kommunikationsform der
später erfolgenden Interviews gekoppelt. Unter Aufarbeitung der bis dahin vorge-
legten empirischen Studien hat Dillman im Rahmen seiner Methode des totalen
Designs (engl. total design method; vgl. Dillman, 1978; Hippler, 1985) und seiner
550 VII.8 Maßnahmen zur Erhöhung der Responserate
Es empfiehlt sich die Wirkung des Themas auf die Befragten in einem Pretest bzw.
in einer Voruntersuchung zu klären, um dann optimierte Entscheidungen für die
Haupterhebung treffen zu können.
Auch die Art und Weise, wie ein Umfrage-Sponsor erwähnt wird, ist von Be-
deutung für die Teilnahmebereitschaft. Eine Verbesserung der Teilnahme ist zu
erwarten, wenn der Sponsor eine geachtete Autorität ist. Groves et al. (2012) raten
als Konsequenz ihrer Analyse des möglichen Nonresponse-Bias durch die Unter-
stützung eines Sponsors durch die Befragten zu einer gewissen Vorsicht. Wenn der
Sponsor eine positive Beziehung zum Thema hat und im Zusammenhang mit dem
Thema gewisse Leistungen erbringt, dann kann ein Nonresponse-Bias in Bezug auf
die Fragen zu diesem Thema resultieren (vgl. Groves et al., 2012, p.523). In diesem
Fall ist dies bei der Interpretation der Ergebnisse zu berücksichtigen. Wenn ein
Wechsel des Sponsors möglich ist, sollte der Sponsor gewechselt werden. Der Effekt
des thematischen Interesses könnte aber mit der Befragungsart zu variieren.
Interviewer-Varianz:
Insgesamt wird in der Literatur immer wieder eine hohe Varianz in den Leistungen
der Interviewer sowohl in Bezug auf die Messungen (vgl. u.a. Schnell und Kreuter,
2005) als auch auf verschiedene Quellen von Nonresponse (vgl. Hox und DeLeeuw,
2002; Link, 2006) hervorgehoben, die sich nur durch ein entsprechendes Training
reduzieren ließe (vgl. Fowler & Mangione, 1990; Freeman & Butler, 1978). Auch
Durrant und Steele (2009) fanden nicht nur eine Varianz der Interviewer in Bezug
auf die Nonresponse-Raten; vielmehr hatten Interviewer mit einer höheren Ver-
weigerungsrate auch eine niedrige Kontaktrate. Die Interviewer-Varianz kann eine
Größenordnung erreichen, die an die Stichprobenvarianz heranreicht (vgl. Bailey,
Moore & Bailar, 1978). Festzustellen ist eine hohe Varianz im Interviewer-Verhal-
ten (vgl. West & Olson, 2010). Antworten von Respondenten innerhalb eines Inter-
viewers waren ähnlicher als zwischen den Interviewern. Diese Unterschiede bezo-
gen sich nicht nur auf die Messungen, sondern auch auf den Rekrutierungserfolg.
Interviewer rekrutieren möglichweise systematisch Respondenten mit bestimmten
VII.8 Maßnahmen zur Erhöhung der Responserate 553
Merkmalen (vgl. West & Olson, 2010, p. 1022). Ähnlichkeiten der Reaktionen in-
nerhalb eines Interviews entstehen nach Meinung der Autoren z. T. auch deshalb,
weil sich die Interviewer in ihrem Nonreponse-Fehler in der von ihnen bearbeite-
ten Substichprobe unterscheiden; die Ursache der Ähnlichkeit liegt nach Meinung
der Autoren also in den Merkmalen der rekrutierten Personen und weniger daran,
dass ein Interviewer Korrelationen in den Antworten zwischen den Respondenten
erzeugt, ein Sachverhalt, der bereits von Groves und Fultz (1985) ins Spiel gebracht
wurde. Groves und Fultz erwähnen in der Interpretation ihrer Ergebnisse, dass
männliche Interviewer weniger Frauen, weniger ältere Personen, weniger ärmere
Personen und weniger Beschäftigungslose interviewen (vgl. Groves & Fultz, 1985).
Diese Unterschiede können auch aus unterschiedlichen Rekrutierungsstrategien
resultieren. West und Olson empfehlen, die Interviewer-Schulung darauf abzu-
stellen, die Nonresponse zwischen Interviewern zu egalisieren, statt nur auf die
Reduktion der Nonresponse zu achten. Offensichtlich muss bei Interviewern mit
merkmals-gesteuerten Selektionseffekten gerechnet werden. Allerdings deuten die
Ergebnisse von Schnell und Kreuter (2005) darauf hin, dass auch der Interpreta-
tion-Spielraum, der Interviewern durch die Frageformulierung bestimmter Items
eingeräumt wird, zu Interviewer-bezogenen Korrelationen zwischen Messungen
führen kann.
Selbstvertrauen, Überzeugungsfähigkeit und Erfahrung:
Neben den direkt beobachtbaren Merkmalen der Interviewer können auch nicht
direkt beobachtbare Merkmale der Interviewer eine Rolle spielen. So untersuchten
De Leeuw, Hox und De Heer (1998; vgl. auch Hox, De Leeuw und Snijkers, 1998)
den Einfluss von Meinungen und Einstellungen sowie von Interviewerstrategien
auf das Antwortverhalten in Interviewer-administrierten computerunterstützten
Interviews. Sie konnten zeigen, dass die Einstellungen der Interviewer zu ihrer ei-
genen Rolle einen Effekt auf die Antwortraten haben können. Interviewer, die ge-
neigter waren, den Befragten von der Teilnahme zu überzeugen, erzielten höhere
Antwortraten. Die Ergebnisse von Groves und Fultz (1985), Groves und Couper
(1998) sowie Hansen (2007) erhärten die Annahme, dass neben der Erfahrung das
Selbstvertrauen in die eigenen Fähigkeiten, d.h. die Einstellung des Interviewers
zu seiner eigenen Tätigkeit, die Kooperationsbereitschaft der Befragten erhöhen.
Dieser Effekt wird eindrucksvoll durch die Studie von Durrant et al. (2010) bestä-
tigt, die ebenfalls einen Effekt des Selbstvertrauens und einer positiven Einstellung
zur eigenen Überzeugungsfähigkeit fanden. Die Ergebnisse von Hansen ergeben
Hinweise dafür, dass männliche Interviewer in Telefoninterviews höhere Respon-
se-Raten erzielen als weibliche Interviewer. Ebenso spielt die Erfahrung eine we-
sentliche Rolle, ein Sachverhalt, der auch durch den Befund erhärtet wird, dass neu
554 VII.8 Maßnahmen zur Erhöhung der Responserate
vermehrte Rückmeldungen durch die Befragten eher auf einen Erfolg des Kontakts.
Schaeffer et al. (2013) schlagen vor, dass die Interaktion in der Kontaktphase so ge-
staltet wird, dass eine ermutigende Umgebung entsteht. Dazu untersuchten sie die
Handlungen der Interviewer in Bezug auf Gesprächsmerkmale, die zur Schaffung
einer solchen Umgebung beitragen können. Dabei wurde auch die in der Bundes-
republik gängige Praxis bestätigt, dass Interviewer sich persönlich vorstellen. Auch
die Last, die Bitte um Teilnahme vorzutragen, sollte durch entsprechende Formu-
lierungen reduziert werden.
Blom, de Leeuw und Hox (2011) fanden in ihrer Analyse des European Social
Survey (ESS) zahlreiche Hinweise für den Einfluss von Interviewern und Nation
in der Kontaktphase auf Kontakt- und Kooperationsraten. Zu den interessanten
Befunden gehört die Erkenntnis, dass Gegensprechanlagen bei Face-to-Face-Um-
fragen eher einen Effekt auf die Kooperationsrate als auf die Kontaktrate haben.
Die Autoren erklären dies durch die sozio-ökonomischen Merkmale der Stichpro-
benelemente, da es Gegensprechanlagen vor allem in großen Appartementhäusern
gibt. Die Gegensprechanlage ermöglicht zwar einen Kontakt, verhindert aber einen
erfolgreichen Vortrag der Einleitung. Stichprobenelemente, die vorher telefonisch
kontaktiert wurden, zeigen eine höhere Kooperationsbereitschaft. Die positive Art
und Weise, mit Verweigerungen umzugehen, war das einzige Verhalten, das mit
der Kooperationsrate korrelierte. Die entsprechenden Interviewer gaben statt die
Argumente der Verweigerung zu wiederholen, weitere relevante Informationen.
Die Autoren nennen als Beispiel, dass statt der Wiederholung „Sie denken, dass Sie
zu alt sind“ eher die Information gegeben wurde: „Die Umfrage ist speziell für alle
Leute von Interesse“.
Täuschungsverhalten:
Neben oben genannten Auswirkungen von Interviewer-Merkmalen kann es Ten-
denzen von Interviewern geben, fest vereinbarte Leistungen vorzugeben, ohne sie
tatsächlich erbracht zu haben. Dazu gehören
• Vollständige Fälschungen von Interviews;
• Teilweise Fälschungen von Interviews wie z.B. die Reduktion des Interviews
auf den soziodemographischen Teil und Selbstausfüllung des Restfragebogens;
• Unkorrekte Administration des Fragebogens wie z.B. Administration im Tele-
fon-Mode statt im Face-to-Face-Mode;
• Nicht korrekte Begehung des Sample-Points.
Diese Verhaltensweisen lassen sich auch kombinieren wie z.B. telefonische Abfrage
nur der soziodemographischen Daten. Zweck dieses Verhaltens ist in der Regel die
Minimierung von Aufwand und Belastungen bei Beibehaltung oder sogar Erhö-
hung der Honorierung. Oft bleiben diese Fälschungen unentdeckt und lassen sich
556 VII.8 Maßnahmen zur Erhöhung der Responserate
auch bei geschickten Intervewern nur schwer durch statistische Analysen aufde-
cken (vgl. Reuband, 1990). Statistische Analysen deuten allerdings darauf hin, dass
sich die Fälschungen kaum auf die Schätzer auswirken (vgl. Schnell, 1991). Aller-
dings ist diese Wirkung maßgeblich vom Anteil der Fälschungen und der fälschen-
den Personen abhängig. In Zusammenhang mit Täuschungen kann der Aspekt der
Interviewer-Erfahrung auch einen negativen Beigeschmack entfalten. Sog. „erfah-
rene“ Interviewer wissen auch eher als unerfahrene wie man eine professionelle
Fälschung herstellt.
Ein häufiges Fehlverhalten betrifft die Einhaltung der Begehungsvorschriften
eines Sample-Points. Ein solches Fehlverhalten lässt sich positiv beeinflussen, wenn
die Adressen an das Institut zurückgemeldet werden. Besonders problematisch
wird es, wenn Interviewer scheinbar Begehungsvorschriften einhalten, tatsächlich
aber Adressen kontaktieren, von denen sie annehmen können, dass Kontakt und
Teilnahme gesichert sind.
Interviewer-Wechsel während der Feldphase:
Häufigere Ausstiege aus der Interviewer-Tätigkeit während der Feldphase können
Neurekrutierungen von Interviewern und damit den Einsatz eher unerfahrener,
neu zu schulender Interviewer notwendig machen (vgl. Groves und Fultz, oben),
was wiederum zu erhöhten Verweigerungsraten führen kann.
zugeordnet, wobei Ojc = 1 für ein vollständiges Interview steht und Ojc = 0 sonst.
Ist die Wahrscheinlichkeit eines erfolgreichen Kontakts hoch ist der Abwei-
chungsscore niedrig. Ist die Wahrscheinlichkeit gering, ist er hoch. Durch diese
Form der Bewertung werden erfolgreiche schwierige Kontakte „belohnt“,
c) Der Interviewer bearbeitet insgesamt n Fälle während der Erhebungsphase, wo-
bei er insgesamt Cj Kontakte mit jedem Fall realisiert. Als Performanz-Indika-
tor kann dann der Propensity-angepasste Interviewer Performanz-Score (engl.:
propensity adjusted interviewer performance-score) PAIP berechnet werden. Er
besteht im Durchschnitt der Abweichungswerte über alle Kontakte aller vom
Interviewer bearbeiteten Fälle:
∑ ∑ d
n Cj
jc
j =1 c =1
d= .
∑ C
n
j
j =1
Der Score PAIP basiert nur auf den erfolgreichen Kontakten. Eine nur auf erfolgrei-
chen Kontakten beruhende Bewertung sollte ergänzt werden durch eine Bewertung
der Qualität der Interviews. Eine hohe Kooperationsrate mit schnell und schlampig
durchgeführten Interviews führt zu einer schlechten Datenqualität der Stichprobe,
die auch die Schätzer beeinflussen kann.
Die Berechnung von Indizes basiert auf mehr oder weniger umfangreichen
Kontaktinformationen, die die verfügbaren Paradaten einbezieht.
D. Interviewer-Training
Das Interviewer-Training wurde bereits in Teil I als nowendiger Bestandteil der
Organisation Interviewer-administrierter Befragungen eingehend beschrieben. Es
wurde als elementarer Bestandteil von Interviewer-administrierten Umfragen be-
reits in Teil II angeprochen.
Eine weitere Möglichkeit zur Verringerung der Nonresponse und zur Reduktion
des Bias ist eine geeignete Wahl der Kommunikationsform. Kommunikationsfor-
men unterscheiden sich durchaus im Ausmaß an Nonresponse und in ihren selek-
tiven Auswirkungen. Die Kunst besteht darin, die Kommunikationsform auf die
Zielpopulation maßzuschneidern und ggf. im Rahmen eines Mixed-Mode-Designs
zusammen mit anderen Kommunikationsformen so einzusetzen, dass die Respon-
562 VII.8 Maßnahmen zur Erhöhung der Responserate
se-Rate und möglichst auch der Nonresponse-Bias reduziert werden. Dies kann
auch im Rahmen eines responsiven Designs (vgl. Teil I) erfolgen.
Wie bereits in Teil II thematisiert, ist eine Kommunikationsform durch ein gan-
zes Bündel von Merkmalen gekennzeichnet, so dass bei einem Vergleich besonders
auf Konfundierungen zu achten ist. Löst man die Kommunikationsformen in ihre
Dimensionen „Kommunikationskanal“, „Administrationsform“ und „Befragungs-
technologie“ auf und betrachtet man die Konsequenzen für die Selektion von Be-
fragten, so ist sofort klar, dass ein globaler Vergleich, ohne dass die einzelnen, mit
den Kommunikationsformen verbundenen Merkmale isoliert werden, keine präzi-
sen Erkenntnisse über die Ursachen von Unterschieden erlaubt. Jede Kommunika-
tionsform unterliegt in ihrer Anwendung besonderen Voraussetzungen. Selbstad-
ministrierte Befragungen setzen die Schreib- und Lesefähigkeit in der gewählten
Interviewsprache voraus und können daher zu ethnischer und bildungsbezoge-
ner Selektion führen. Computerunterstützte Verfahren setzen nicht nur die Aus-
stattung voraus, sondern die Fähigkeit zur Nutzung, der Kommunikationskanals
entscheidet, über welche Sinnesorgane sprachliche Äußerungen wahrgenommen
werden und knüpft die Wahrnehmbarkeit sprachlicher Äußerungen an den physio-
logischen Zustand der Sinnesorgane des Befragten wie Hörfähigkeit, Sehfähigkeit,
etc. Die Anwesenheit eines Interviewers oder ein bestimmtes Verhalten des Inter-
viewers kann darüber mit entscheiden, ob die Befragten sich zu einer sensiblen
Frage äußern wollen.
Bei der Wahl der Technologie muss berücksichtigt werden, dass jüngere Perso-
nen oft eine höhere Affinität zu neuen Technologien haben als ältere Personen, ge-
bildetere eher als weniger gebildete. Befunde in dieser Richtung sind zumindest zu
erwarten. So fanden Deutschmann und Faulbaum (2001) signifikante Geschlechts-,
Alters,- und Bildungsunterschiede in Bezug auf die Teilnahme an Webumfragen.
Zu ähnlichen Ergebnissen in Bezug auf das Alter kommt auch Börkan (2010). Teil-
nehmer an Webumfragen waren signifikant jünger als solche, die an Mailumfragen
teilnehmen. Saunders (2012) liefert aber ein gutes Beispiel dafür, dass immer auch
bedacht werden muss, welche Population der Stichprobe zugrunde liegt. Er konnte
in einer Studie bei einer Stichprobe von IT-Mitarbeitern zeigen, dass IT-Mitarbei-
ter das Webinterview dem Mailinterview vorzogen, auch wenn dieser Unterschied
nicht besonders groß war und die Webteilnahme durch zahlreiche Fehler getrübt
war.
Besondere Aufmerksamkeit sollte dem Nutzungsverhalten und der Nutzungs-
kompetenz gewidmet werden. Ein Vergleich zwischen der Teilnahme an postali-
schen Umfragen und an Face-to-Face-Umfragen legt nahe, dass Befragte mit nied-
rigerem Bildungsniveau in postalischen Umfragen im Vergleich zu Face-to-Face
Interviews unterrepräsentiert sind (vgl. Dillman 1978). Es ist nicht auszuschließen,
VII.8 Maßnahmen zur Erhöhung der Responserate 563
dass dieser Effekt zumindest teilweise auf mangelnde Lese- und Schreibkompe-
tenzen bei weniger Gebildeten zurückgeht. Bei postalischen Umfragen haben die
Befragten ferner die Möglichkeit, noch vor der Teilnahmeentscheidung den Frage-
bogen einzusehen. Dagegen fällen die Befragten bei Interviewer-administrierten
Face-to-Face-Interviews sowie bei Telefoninterviews ihre Entscheidung auf der
Basis der Einleitung. Daher besteht bei postalischen Umfragen grundsätzlich ein
erhöhtes Risiko der themenbezogenen Selbstselektion. Selbstselektionsprobleme
gibt es auch bei hohen Ausschöpfungsquoten.
Hox und De Leeuw (1994) führten eine Metaanalyse von 45 Studien zum The-
ma „Nonresponse“ bei postalischen, persönlich/mündlichen Face-to-Face-Inter-
views und Telefoninterviews durch. Dabei ergab sich im Durchschnitt, dass In-
terviewer-administrierte Face-to-Face-Interviews die höchste Quote vollständiger
Interviews hatten, Telefoninterviews die zweithöchste Ausschöpfungsquote und
postalische Umfragen die geringste Ausschöpfung (61% der Studien).
De Leeuw (1992) untersuchte im Rahmen einer Metaanalyse die bis 1992 vor-
gelegten experimentellen Studien. Dabei stellte sich heraus, dass der Nonrespon-
se-Anteil, sowohl was die Nonresponse insgesamt, als auch die Item-Nonresponse
angeht, bei postalischen Umfragen am höchsten ist. Werden die Fragen beantwor-
tet, so scheinen die Daten allerdings eine bessere Qualität zu haben.
Börkan (2012) fand einen Unterschied in der Antwortrate zwischen Mailum-
fragen und Webumfragen. Die Antwortrate in Webumfragen war signifikant nied-
riger als in Mailumfragen. Shih und Fan (2006) kamen in einer Metaanalyse von
Mixed-Mode-Umfragen zu ähnlichen Ergebnissen.
Verschiedene frühe Studien beschäftigen sich mit der Akzeptanz bestimmter
Technologien (vgl. die Übersicht von Nicholls II, Baker & Martin, 1997). Dabei
ergab sich, dass Befragte ein CATI-Interview einem P&P-Interview vorzogen oder
sich zumindest indifferent verhielten (Groves & Nicholls 1986; Wojcik & Baker
1992). Verglichen mit P&P-Kontrollgruppen ergaben sich keine Unterschiede zwi-
schen Verweigerungsraten bei CATI und CAPI (vgl. Catlin & Ingram 1988; Baker
et al. 1995; Bergmann et al. 1994).
Duffy und Waterton (1984) fanden bei Haushaltsbefragungen höhere Verwei-
gerungsraten bei CASI als bei P&P. O’Reilly et al. (1994) sowie Mitchell (1993)
fanden in Laboratoriumssituationen und bei Untersuchungen im Klassenräumen,
dass Befragte CASI Befragungen P&P-Befragungen vorziehen. Wird in der Mitte
eines Interviews von CAPI zu CASI übergegangen, so scheint dies, wie Lessler und
O’Reilly (1994) bei Frauen im gebärfähigem Alter herausfanden, keine oder nur
geringe Probleme zu geben. Couper & Rowes (1995) fanden, dass in CASI-Inter-
views mit älteren Befragten die Fragebögen für den Zusatzteil in der Regel von den
Interviewern ausgefüllt werden.
564 VII.8 Maßnahmen zur Erhöhung der Responserate
Kiesler & Sproull (1986) berichten über niedrigere Antwortraten bei CSAQ als
bei P&P. Auf der anderen Seite zeigen Erfahrungen, dass der Wechsel von P&P auf
CSAQ Unternehmen keinen Einfluss auf die Antwortraten hat, wenn vorher dieje-
nigen identifiziert wurden, die über die notwendige Ausstattung verfügen.
Bei Webumfragen ist die Teilnahmebereitschaft insgesamt gering, sogar gerin-
ger als bei postalischen Umfragen (vgl. Dykema et al., 2013; Shin, Johnson & Rao,
2012. Kaplowitz, Hadlock & Levine (2004) konnten aber zeigen, dass sich die Rück-
laufquote bei Webumfragen der Rücklaufquote postalischer Umfragen angleicht,
wenn ein schriftliches Ankündigungsschreiben verschickt wurde.
Eine besondere Herausforderung stellen Mobilfunk-Umfragen dar. Wie Brick
et al. (2007) zeigen konnten, liegen hier die Responserate, aber auch die Verweige-
rungsrate höher als bei Festnetzumfragen.
Ein vollständiges Interview lässt sich nur nach einem Rekrutierungserfolg, d.h.
nach der Gewinnung eines teilnahmebereiten Respondenten, realisieren. Der Weg
dorthin ist immer mit einem mehr oder weniger großen Aufwand, im Folgenden
als Rekrutierungsaufwand bezeichnet, verbunden. Der Rekrutierungsaufwand be-
steht aus:
Aufwand für einen erfolgreichen Kontaktversuch:
Um den durch das Stichprobendesign vorgegebenen Umfang einer Nettostichpro-
be aus einer Ausgangsstichprobe realisieren zu können, muss der Anteil der Ziel-
population in der Gesamtpopulation abgeschätzt werden. Je geringer der Anteil,
desto mehr Kontaktversuche müssen durchgeführt werden, um einen erfolgreichen
Kontakt herzustellen, der wiederum die Voraussetzung für einen Erfolg der Bitte
um Teilnahme ist. Unterschieden müssen hierbei
• die Anzahl der Kontaktversuche bis zur Gewinnung eines Haushalts mit einer
auswählbaren (eligible) Zielperson;
• die Anzahl der Kontaktversuche bis zu einem erfolgreichen Kontakt mit der
Zielperson.
Die Faktoren, welche die Kontaktierbarkeit beeinflussen, wurden bereits beschrie-
ben. Insofern diese Faktoren wie optimale Kontaktzeiten, Berücksichtigung sai-
sonaler Bedingungen (z.B. Ferienzeiten) für die Zielpopulatio bekannt sind und
VII.8 Maßnahmen zur Erhöhung der Responserate 565
kontrolliert werden können, lässt sich die Anzahl der Kontaktversuche optimieren.
Entscheidend ist hier die Kontaktstrategie (vgl. Lynn, 2002), die sich im Verlauf der
Kontaktperiode anpassen kann, z.B. durch einen Modewechsel. Die obige Unter-
scheidung zwischen der Kontaktierbarkeit des Haushalts und der Kontaktierbarkeit
der Zielperson impliziert eine entsprechende Unterscheidung der Erreichbarkeit.
Ein Haushalt kann leicht erreichbar sein, die Zielperson aber nicht so leicht und
umgekehrt. Die Gesamtzahl der notwendigen Kontaktversuche betrifft also beide
Arten der Erreichbarkeit, die Erreichbarkeit des Haushalts und die Erreichbarkeit
der Zielperson. Sind die Zielpersonen in der Gesamtpopulation mit einem hohen
Anteil vertreten und kann man davon ausgehen, dass diese Personen in den vorge-
sehenen Kontaktzeiten oft im Haushalt anzutreffen, so liegt der Gedanke nahe, die
Zielperson gar nicht mehr unter allen Zielpersonen des Haushalts auszuwählen,
sondern nur aus den im Haushalt zum Kontaktzeitpunkt anwesenden Personen.
In diesem Fall ist davon auszugehen, dass die Kontaktierbarkeit und damit die Re-
alisierbarkeit eines Interviews durch den Kontaktzeitpunkt mitbestimmt werden.
Da mit dem Kontaktzeitpunkt Eigenschaften der Respondenten verbunden sind,
ist durchaus unklar, wie sich dieses Vorgehen auf den Messfehler bei unterschiedli-
chen Zielpopulationen auswirkt. Auch kann in diesem Fall eine Haushaltsgewich-
tung nicht mehr durchgeführt werden, da für die Auswahl einer Person nicht mehr
nur die Anzahl der Personen im Haushalt, sondern auch die Wahrscheinlichkeit
der Anwesenheit zum Kontaktzeitpunkt eine Rolle spielt.
Screening-Aufwand:
Der Screening-Aufwand besteht im Zeitaufwand für die Durchführung
des Screenings. Dieser hängt ab von der Komplexität und dem Umfang des
Screening-Instruments, das wiederum durch die Merkmale bestimmt wird, deren
Erhebung zur Identifikation der auswählbaren Personen notwendig ist. Zusätzlich
wird dieser Aufwand durch eine ungünstige Konstruktion des Screening-Instru-
ments sowie dadurch bestimmt, dass das Screening-Interview oft sowohl mit der
Kontaktperson als auch mit der Zielperson durchgeführt werden muss, im zuletzt
genannten Fall eventuell mit einer gekürzten Version.
Aufwand für das Eröffnungsgespräch (Einleitung):
Der Zeitaufwand für das Eröffnungsgespräch wird maßgeblich mitbestimmt durch
• notwendige Bestandteile wie individuelle Begrüßung, Kurzbeschreibung des
Themas, Hinweis auf die Freiwilligkeit, Zusicherung der Anonymität und Bitte
um Teilnahme;
• Aufklärungsbedarf von Kontakt- und Zielperson; dies kann auch die Zusen-
dung von Unterlagen per Fax, postalisch oder per E-Mail bedeuten; auch kann
es Rückfragen beim durchführenden Institut oder inhaltlich Verantwortlichen
566 VII.8 Maßnahmen zur Erhöhung der Responserate
geben, etwa über eine Hotline, eine Kontaktadresse oder eine kontaktierbare
Telefonnummern von ausgesuchten Mitarbeitern/innen.
• Überzeugungs- und Motivationsaufwand des Interviewers bei abschlägig be-
schiedener Bitte um Teilnahme; dieser besteht vor allem in einem Vortrag ge-
eigneter Argumente, um den Respondenten dennoch von einer Teilnahme zu
überzeugen, was in einer Sequenz von Argumentation und Gegenargumenta-
tion münden kann; über den Aufwand ist mit entscheidend, wie geschickt der
Interviewer die Begründungen des Respondenten für seine Nichtteilnahme,
entkräften kann; Die Optimierung der Überzeugungsstrategien ist eine Auf-
gabe des Interviewer-Trainings und der Person des Interviewers. Zur Optimie-
rung des Interviewer—Verhaltens sollten dem Interviewer entsprechende Ar-
gumente für den Kontakt zur Verfügung stehen, z.B. durch eine entsprechende
Hilfe-Funktion auf dem Bildschirm und/oder durch schriftliche Unterlagen
am Telefonplatz bei telefonischen Kontaktaufnahmen. Zunehmend Standard
wird der Einsatz eines Nonresponder-Fragebogens, mit Hilfe dessen versucht
werden kann, weitere soziodemographische Informationen sowie Informatio-
nen zu weiteren Verweigerungsgründen zu erhalten, die zu einer Erweiterung
der Disposition Codes führen können. Die Motivierung der Respondenten zur
Teilnahme kann mehr oder weniger schwierig sein, eine Einschätzung lässt sich
durch die Interviewer vornehmen. Das Zuspielen der Variablen „Motivations-
aufwand“ zum Datensatz erlaubt später eine Analyse, welche Folgen diese Vari-
able für die Datenqualität gehabt hat.
Das Einleitungsgespräch mit Verweigerern muss auf die besonders sensible Si-
tuation abgestimmt werden. Der eingesetzte Fragebogen sollte auch in einer ge-
kürzten Version verfügbar sein, wenn der Befragte nicht bereit ist, den längeren
Originalfragebogen zu beantworten.
Der Zusatzaufwand für die Nachkontaktierung von Befragungsunwilligen be-
steht nicht nur im zusätzlichen Zeitaufwand, sondern auch in zusätzlichen Erhe-
bungskosten, die zum großen Teil durch Interviewer-Honorare bestimmt werden,
die für Konvertierer normalerweise höher ausfallen müssen. Rein stichprobenthe-
oretisch handelt es sich bei der Verweigerer-Stichprobe um eine Substichprobe, so
dass das dazu gehörige Stichprobendesign ein Zweiphasen-Design ist (vgl. Teil VI).
Dies bedeutet, dass eine stufenweise Gewichtung durchgeführt werden kann, wobei
zunächst eine Gewichtung auf die Ausgangsstichprobe erfolgt, die dann in Bezug
auf die Auswahlgesamtheit gewichtet werden kann. Dies macht insbesondere Sinn,
wenn man während des Eröffnungsinterviews bereits bestimmte Variablen erheben
konnte, die auf der Ebene der Auswahlgesamtheit nicht vorliegen. In Frage kom-
men hier auch Paradaten wie Anzahl der Kontaktversuche oder andere während
des Screenings erhobene Zusatzinformationen.
Olson, Lepkowski und Garabrant (2011) untersuchten die Wirkung von Über-
zeugungsbriefen (engl.; persuasion letters), die, abgestimmt auf Paradaten, die in der
Kontaktphase erhoben wurden, auf die Nichtrespondenten zugeschnitten wurden.
Die Autoren berichten, dass der Inhalt dieser Briefe weniger relevant für die Teil-
nahmebereitschaft ist, dass sich die Nichtrespondenten aber je nach motivieren-
dem Inhalt in ihren Merkmalen von einander unterscheiden können.
Rekrutierungsaufwand und Datenqualität:
Bei der Entscheidung für eine Erhöhung des Aufwands für die Rekrutierung (engl.:
recruitment effort) zusätzlicher Teilnehmer und damit für eine Erhöhung der Ko-
operationsrate stellt sich die Frage, ob der eingesetzte Rekrutierungsaufwand im
rechten Verhältnis zur Verbesserung der Stichprobenqualität steht und ob die
zusätzliche Rekrutierung möglicherweise mit einer Verschlechterung der Daten-
qualität einhergeht. Schließlich ist auch zu fragen, wie sich die unterschiedlichen
Quellen von Nonresponse, Nichtkontakt und Verweigerung, zueinander verhalten.
In dem zuletzt genannten Zusammenhang führen Brick und Williams (2009) Bele-
ge dafür an, dass ein erhöhter Anteil von Nichtkontakten mit einer Erhöhung von
Verweigererungen einhergeht und beide Arten von Nonresponse auf ähnlichen
Mechanismen beruhen. In der Tat könnte z.B. eine schlechte Erreichbarkeit für die
zeitliche Belastung des Respondenten sprechen, die wiederum zu einer höheren
Wahrscheinlichkeit führt zu verweigern. Anrufbeantworter könnten nicht nur für
568 VII.8 Maßnahmen zur Erhöhung der Responserate
zeitliche Beanspruchung sprechen, sondern auch für den Wunsch, nicht durch An-
rufe gestört zu werden, etc.
Einige Befunde sprechen dafür, dass schwer erreichbare Personen oder die Um-
stimmung anfänglicher Verweigerer den Messfehler erhöhen (vgl. Cannell & Fow-
ler, 1963; Kreuter, 2008). Cannell und Fowler fanden, dass Personen, die erst nach
umfangreicher Recherche erreicht werden konnten, weniger genaue Informatio-
nen über Krankenhausaufenthalte lieferten. Die Analysen von Bollinger und David
(2001) ergaben, dass Stichprobenelemente, die später aus der Umfragen ausschie-
den, weniger genaue Informationen in den Panelwellen, in denen sie teilnahmen,
lieferten als solche, die an allen Wellen teilnahmen; d.h. Personen, die zögern, an
einer Umfrage teilzunehmen, liefern auch weniger genaue Informationen. Fricker
(2007; vgl. auch Triplett et al., 2006 über ähnliche Befunde) fand einen Zusam-
menhang zwischen der Response-propensity, dass ein Haushalt alle acht Interviews
durchführt und zwei Indikatoren der Ungenauigkeit: Item Nonresponse und Ver-
wendung gerundeter Werte bei Berichten über Gehalt und Anzahl der Arbeits-
stunden. Personen, die eine Verweigerungsumkehr erhielten, berichteten weniger
Aktivitäten als solche, die schneller kooperierten.
Fricker und Tourangeau (2010) gingen ebenfalls der Frage nach, ob zusätzli-
che Rekrutierungsanstrengungen und zusätzliche Rekrutierungskosten den Non-
response-Bias reduzieren. Die Analysen beruhten auf Propensity-Modellen mit
verschiedenen Qualitätsindikatoren wie ganzzahlige Angaben, Item-Nonrespon-
se, Klassifikationsfehler und fehlende Tagebucheinträge. Die Ergebnisse sprachen
ebenfalls dafür, dass zusätzliche Rekrutierungsanstrengungen die Datenqualität
eher reduzieren.
Auch Kaminska, McCutcheon und Billiet (2010) untersuchten an Hand der Da-
ten des European Social Surveys (ESS) den Zusammenhang zwischen Datenqualität
und Widerwilligkeit. Indikatoren für Widerwilligkeit waren „Verweigerung“ (der
Befragte hatte mindestens 1 x verweigert), Anstrengung (wie stark die Befragten
ihr Bestes gaben) und Widerstand (resistance) (wie zögerlich die Befragten nach
Einschätzung der Interviewer antworteten). Als Indikatoren für Satisficing nahmen
sie „weiß-nicht-Antworten“, „Straightlining“ (gleiche Antworten in wenigstens ei-
nem Item-Block), „inkonsistente Antwort“ und „Wahl extremer Kategoren“ oder
„Wahl der Mittelkategorie“. Die Autoren fanden, dass der Zusammenhang zwischen
Widerwilligkeit und Satisficing schwindet, wenn nach den kognitiven Fähigkeiten
kontrolliert wird.
Tourangeau, Groves und Redline (2010) untersuchten den Zusammenhang zwi-
schen Teilnahmebereitschaft und Messfehler. Die Analyse der Autoren basiert auf
dem Modell der gemeinsamen Ursache für Teilnahmewahrscheinlichkeit und Da-
tenqualität: Wenn der Fragebogen Fragen enthält, die sozial unerwünscht sind und
VII.8 Maßnahmen zur Erhöhung der Responserate 569
den Befragten in Verlegenheit bringen, dann sind Befragte, die eher widerwillig
sind, an der Befragung teilzunehmen, auch ungenauer in ihren Antworten. Nicht-
wähler neigen zu fehlerhaften Angaben, Raucher neigen zu fehlerhaften Angaben,
etc. Die Analysen betätigten für die Wahlitems eine Korrelation zwischen den Teil-
nahmewahrscheinlichkeiten und den Zielvariablen. Nichtwähler nahmen seltener
an der Umfrage teil und wiesen eine höhere Anzahl fehlerhafter Angaben auf. Zu
ähnlichen Ergebnissen kommen auch Peytchev, Peytcheva und Groves (2010). Die
Autoren fanden empirische Hinweise bei einer Umfrage zum Thema „Abtreibung“,
dass Befragte, die weniger Abtreibungen berichten auch eine geringere Teilnahme-
wahrscheinlichkeit aufwiesen. Die gemeinsame Ursache lag in diesem Fall in der
sozialen Stigmatisierung. Eine Beseitigung der Interviewer-Befragten-Interaktion
führte zu einer erhöhten Auskunftsbereitschaft.
In einer differenzierteren Analyse, in der ein Vergleich mit administrativen Da-
ten möglich war, konnten Kreuter, Müller und Trappmann (2010) den Bias, den
mittleren quadratischen Fehler und die Varianz des Schätzers berechnen. Dabei
fanden die Autoren, dass es bei einer erhöhten Anzahl von Kontakten zu einer si-
gnifikanten Reduktion des Nonresponse-Bias kommt. Eine verstärkte Bearbeitung
der Stichprobe führte zu einer leichten Erhöhung des Messfehlers. Die Autoren fan-
den aber auch gegenläufige Effekte von Messfehler und Nonresponse. Ein erhöh-
ter Rekrutierungsaufwand führte zu einer Erhöhung des Mean Square Errors trotz
der Reduktion des Nonresponse-Bias. Mit zunehmendem Aufwand sinkt der MSE,
weil der Nonresponse-Error sinkt und der Messfehler nur gering ansteigt.
Olson (2013) kommt nach einer Sichtung der relevanten Literatur zum Zusam-
menhang zwischen Rekrutierungsaufwand durch wiederholte Kontaktversuche
und der Datenqualität u.a. zu folgenden Ergebnissen:
• Respondenten, die mit einer höheren Anzahl von Kontaktversuchen und Ver-
weigerungsumkehr rekrutiert wurden, neigen zu höheren Raten von Item Non-
response bei spezifischen Items als einfacher rekrutierte Respondentenespon-
dents;
• Respondenten, für deren Rekrutierung ein höherer Aufwand an Kontaktversu-
chen notwendig war, gaben auf einigen Items weniger genaue Antworten sowie
variablere Antworten als mit einem geringeren Aufwand rekrutierte Respon-
denten.
Betroffen von dem Zusammenhang zwischen Rekrutierungsaufwand und Item
Nonresponse sind nicht alle Arten von Items, sondern besonders sensitive, schwie-
rige oder Items, deren Beantwortung eine besondere Belastung für die Responden-
ten darstellt. Vieles spricht für eine gemeinsame Ursache für den Umwillen, an einer
Umfrage teilzunehmen, einerseits und der Datenqualität andererseits (vgl. Touran-
570 VII.9 Dokumentation von Nonresponse-Gründen
geau, Groves und Redline, op.cit). Die Frage ist, welche praktischen Konsequenzen
aus den Befunden über den Zusammenhang zwischen Rekrutierungsaufwand und
Datenqualität zu ziehen sind. Zunächst ist klar, dass der Rekrutierungsaufwand
nur dann den Nonresponse-Bias von Zielvariablen reduziert, wenn die Teilnahme-
wahrscheinlichkeiten mit den Zielvariablen zusammenhängen (Groves, 2006, Ol-
son, 2007). Die Berechnung dieses Zusammenhangs ist aber nicht immer praktisch
realisierbar, da er voraussetzen würde, dass die Zielvariablen auch für die Nichtre-
spondenten zur Verfügung stehen. Dies ist in der Regel nicht der Fall, kann aber
durch eine Nonresponder-Befragung zumindest für einen Teil der Nonresponder
durchgeführt werden.
In jedem Fall sollten der Rekrutierungsaufwand für jeden Fall im Datensatz
gekennzeichnet sein, so dass der Effekt der Herausnahme schwer rekrutierter Fälle
auf die Messung untersucht werden kann.
VII.9.1 Erfassungsformen
12 Termin ZP** 7
14 ZP in Feldzeit nicht erreichbar 559
15 KP verweigert, legt auf 7620
16 Verständigungsschwierigkeiten 523
17 Keine Person zwischen 25 und 54 Jahren im HH 6768
23 ZP hat grundsätzlich keine Zeit 183
24 ZP hat kein Interesse 374
25 ZP verweigert aus anderen Gründen 219
28 ZP kann Interview nur in Englisch durchführen
44 Termin mit neuer Nummer
85 Quote erfüllt
89 Quote erfüllt
98 Abbruch mit Termin zur Fortsetzung 19
99 Abbruch 55
101 Interview komplett Fernpendler 87
102 Interview komplett Overnighter 50
103 Interview komplett Recent Relocator 70
104 Interview komplett Fernbeziehung 15
105 Interview komplett Multimobil 29
106 Interview komplett Nicht-Mobil
107 Interview komplett Nicht-Mobil Kurzinterview 2184
110 KP-Interview Mobile
111 KP-Interview Nicht-Mobile
TOTAL 37555
ATTEMPTED
Not Attempted 0
TOTAL SAMPLE 37555
Nicht in jedem Fall lässt sich eine Unterscheidung zwischen Kontaktperson und
Zielperson treffen. Bei Umfragen, in denen zunächst eine Stichprobe von Haus-
halten gezogen wird und danach nach eine Person im Haushalt ausgewählt wird,
kann bei Verweigerungen nicht unbedingt bestimmt werden, ob die verweigernde
Person eine Zielperson war oder nicht. Eine Kontaktperson kann entweder selbst
bereits eine Zielperson sein oder nicht. Eine Unterscheidung zwischen der Ver-
weigerung des Haushalts und einer Verweigerung einer kontaktierten Zielperson
lässt sich in diesem Fall keine klare Entscheidung treffen. Interpretiert man alle
Verweigerungen als Verweigerungen von Zielpersonen ohne Berücksichtigung der
Kontaktpersonen, kann die Kooperationsrate eventuell unterschätzt werden. Wie
572 VII.9 Dokumentation von Nonresponse-Gründen
wir bei der AAPOR-Klassifikation gesehen haben, wird dort der Nichtkontakt auf
den Haushalt bezogen.
In Deutschland üblich ist, auch eine Einteilung in stichprobenneutrale Ausfälle und
systematische Ausfälle vorzunehmen. Ausgehend von der Bruttostichprobe ergibt
sich nach Abzug der stichprobenneutralen Ausfälle die bereinigte Stichprobe. Aus
der bereinigten Stichprobe ergibt sich dann nach Abzug der systematischen Ausfäl-
le die Nettostichprobe (vgl. Abbildung VII.15).
Tabelle VII.3: Beispiel für eine Aufschlüsselung von Ausfällen bei Face-to-Face-Umfragen
West Ost
N % N %
Ursprüngliche Bruttostichprobe 5.772 100,0 2.652 100,0
+ Zusätzlich eingesetzte Adressen als Ersatz für 647 11,2 232 8,7
stichprobenneutrale Ausfälle
= Bruttostichprobe 6.419 100,0 2.884 100,0
./. Stichprobenneutrale Ausfälle insgesamt 704 11,0 264 9,2
- Anschreiben nicht zustellbar 132 2,1 55 1,9
- Adresse falsch, existiert nicht (mehr) 122 1,9 41 1,4
- Zielperson verstorben 40 0,6 15 0,5
- Zielperson verzogen 343 5,3 133 4,6
- Zielperson lebt nicht in Privathaushalt 67 1,0 20 0,7
= Bereinigter Stichprobenansatz 5.715 100,0 2.620 100,0
./. Systematische Ausfälle insgesamt 3.416 59,8 1.498 57,2
- Im Haushalt niemand angetroffen 238 4,2 93 3,5
- Zielperson nicht angetroffen 137 2,4 63 2,4
- Zielperson nicht befragungsfähig 167 2,9 86 3,3
- ZP verweigert telefonisch bei 28 0,5 26 1,0
Projektleitung des Instituts
- ZP aus Zeitgründen nicht zum Interview bereit 261 4,6 107 4,3
- ZP generell nicht zum Interview bereit 2.366 41,4 1.080 41,2
- Zielperson spricht nicht hinreichend gut 121 2,1 10 0,4
deutsch
- Adresse nicht abschließend bearbeitet 26 0,5 15 0,6
- Interviews als (Teil-)Fälschung identifiziert 72 1,3 18 0,7
= Auswertbare Interviews 2.299 40,2 1.122 42,8
Ausschöpfungsquote:
Insbesondere in Umfragen deutscher Institutionen wird oft die sog. Ausschöp-
fungsquote berechnet. Sie ist definiert als Anteil der Anzahl der realisierten Inter-
VII.9 Dokumentation von Nonresponse-Gründen 575
views (Umfang der Nettostichprobe) zum Umfang der um die neutralen Ausfälle
bereinigten Stichprobe:
Wie man sieht, hängt die Ausschöpfungsquote davon ab, wie die Unterscheidung
zwischen stichprobenneutralen und systematischen Ausfällen getroffen wird. Der
Begriff der Ausschöpfungsquote wird durchaus nicht immer im gleichen Sinn ver-
wendet wie Porst (1996) in einer Untersuchung verschiedener Umfrageinstitute
festgestellt hat. Wie bereits dargestellt, ist eine niedrige Ausschöpfungsquote nicht
notwendig mit einen starken Bias verbunden.
Die Ausschöpfungsquoten haben in den letzten Jahren kontinuierlich abge-
nommen. Sie liegen für allgemeine Bevölkerungsumfragen gegenwärtig im Fall
seriöser CAPI-Umfragen bei 50% und darunter. Bei Telefonumfragen liegt die
Ausschöpfungsquote gegenwärtig höchstens zwischen 20-30%, nicht selten sogar
darunter, sofern keine besonderen Maßnahmen zur Erhöhung getroffen werden.
Bei postalischen Umfragen liegt die Rücklaufquote bei 10-20%. Diese Zahlen sind
aber in stetiger Veränderung begriffen. Gegenüber Versprechungen hoher Aus-
schöpfungsquoten ist äußerste Skepsis angebracht.
Werden Ausschöpfungsquoten berechnet, so sollte die Grenzziehung zwischen
stichprobenneutralen und systematischen Fällen transparent sein und mit dem
Forscher/Auftraggeber abgestimmt sein, so dass klar wird, auf welchen Definiti-
onen die Berechnung der der Ausschöpfungsquote beruht. Offensichtlich unter-
scheiden sich die Institute in ihren Berechnungsgrundlagen (vgl. Porst, 1996).
VII.9.2 Verweigerungsgründe
Gründe für eine Verweigerung können entweder spontan genannt werden oder
über einen Verweigerer-Fragebogen erfasst werden, insofern die Kontaktperson
bereit ist, weitere Fragen zu den Gründen ihrer Verweigerung zu beantworten.
Übersicht VII.1 enthält Beispiele für Nichtteilnahme in einer Umfrage zum The-
ma „Fluglärm“ (n=9.600), die spontan geäußert oder mit Hilfe eines Nonrespon-
der-Fragebogens erhoben wurden.
576 VII.9 Dokumentation von Nonresponse-Gründen
Gründe
Zeitmangel (auch keine Terminfindung möglich)
Datenschutz-/Anonymitätsbedenken/ Auswahlfragen (Herkunft der Nummer)
Angst vor Verkäufen
Angst vor heiklen Fragen
Wissensfrage oder Befürchtung, zu dem Thema nichts sagen zu können
Keine Lust, kein Interesse
Ständige Befragungen
Umfragen haben keinen Sinn, Zweck der Befragung ist unklar
Prinzipiell keine Teilnahme
Interview wurde schon geführt
Person fühlt sich zu alt
Person ist dauerhaft erkrankt
Weiterleitung auf Mobiltelefon
Anderer Modus (z.B. online oder postalisch) gewünscht
Resignation: Umfrage ändert nichts an Flughafenausbau, etc.
Keine Angabe von Verweigerungsgründen.
zwischenzeitlich über Hotline verweigert
dauerhaft nicht befragbar/verstorben
Der Anteil einiger dieser Gründe wie z.B. „keine Zeit“, „kein Interesse“ kann durch
ein geeignetes Verweigerer-Training der Interviewer reduziert werden. Da es sich
um sog. „weiche“ Verweigerungsgründe handelt, könnte noch ein weiterer Kon-
taktversuch unternommen werden.
Tabelle V.4 gibt ein Beispiel für Ausfallgründe einer Teilnehmerrekrutierung für
eine Webumfrage zum Thema „Diabetes“ (vgl. Deutschmann & Faulbaum, 2001).
VII.9 Dokumentation von Nonresponse-Gründen 577
Pct of Responses
lack of time 19.1
lack of confidence in anonymity and data protection 13 . 3
lack of own e-mail address 11.7
don't know e-mail address 10.1
rarity of Internet use 8.8
already given enough information in CATI-interview 8.8
fear of getting included in advertising campaigns 4.2
lack of experience with the Internet 3.4
costs of being online 1.1
other reasons or no reasons given 19.6
377 responses 100.0
Wie man sieht, sind das Fehlen von Vertrauen in die Anonymität und den Daten-
schutz in dieser Rekrutierung wichtige Gründe. Aber auch die Erfahrung im Um-
gang mit dem Internet spielt eine Rolle, die nicht nur durch Tabelle VII.4, sondern
auch durch die Daten in Tabelle VII.5 untermauert werden. Wie aus der Tabelle
erkennbar, steigt die Häufigkeit der Teilnahme mit der Häufigkeit der Internetnut-
zung.
nennen. Bei CATI-Umfragen wird oft einfach der Hörer aufgelegt, ohne dass die
Gelegenheit zu weiteren Nachfragen besteht. Gründe wie „keine Zeit“ sind nicht
besonders aussagekräftig und stehen oft stellvertretend für andere Gründe. Um
eine präzisere Kenntnis der Verweigerungsgründe zu bekommen, kann versucht
werden, Verweigerer zu überreden, einen sog. Nonresponder-Fragebogen zu be-
antworten, der dann zu einer weiteren Aufschlüsselung der Verweigerungsursa-
chen führt.
VII.10 Anpassungsgewichtung
Eine der Wirkungen von Nonresponse besteht darin, dass auf Grund von Selek-
tionseffekten die Verteilungen von Zielvariablen in der Stichprobe der Respon-
denten von den Verteilungen in der Auswahlgesamtheit abweichen können. Die
Verteilungen in der Auswahlgesamtheit können sich auf Grund von Unterdeckung
wiederum von den Verteilungen in der Zielpopulation unterscheiden. Um den Ef-
fekt dieser Verteilungsunterschiede auf die Schätzer zu minimieren, wird jedem
Respondenten unter Verwendung von Hilfsinformationen oder Hilfsvariablen (vgl.
Teil VI) ein sog. Anpassungsgewicht (engl.: adjustment weight) zugeordnet. Mit Hil-
fe der Gewichte werden Verteilungen von Hilfsvariablen an bestimmte Referenz-
verteilungen dieser Variablen angeglichen. Diese Referenzverteilungen können
Verteilungen in der Population, Verteilungen in der Auswahlgesamtheit oder auch
Verteilungen in der Ausgangsstichprobe sein. Die Anpassung an die Population
kann durchaus stufenweise erfolgen: zunächst wird die Stichprobe der Respon-
denten an die Ausgangsstichprobe angepasst, dann die die Ausgangsstichprobe an
die Auswahlgesamtheit und schließlich die Auswahlgesamtheit an die Population,
wobei auf jeder Anpassungsstufe unterschiedlich Mengen von Zielvariablen bzw.
unterschiedliche Hilfsinformationen herangezogen werden können. In der Regel
wird die Verteilung der Hilfsvariablen direkt an die Verteilung in der Population
angepasst, was voraussetzt, dass Informationen über die Verteilungen der Hilfsva-
riablen sowohl auf der Ebene der Respondenten als auch auf der Ebene der Popu-
lation vorliegen.
Geht man davon aus, dass die Hilfsvariablen eine ausreichende prognostische
Relevanz für bestimmte Zielvariablen haben, so kann angenommen werden, dass
sich die Schätzer dieser Zielvariablen verbessern. Praktisch bedeutet die Gewich-
VII.10 Anpassungsgewichtung 579
VII.10.2 Antwortmechanismen
mh
S k |s , m fh für alle k sh .
nh
1 1 nh
= =
π k|s ,m f h mh
heißt auch Klassengewicht. Es wird berechnet, in dem man die Anzahl der Elemente
der Klasse in der Population durch die Anzahl der Elemente der Klasse in der Men-
ge der Respondenten teilt. Das vollständige Gewicht für Element k ergibt sich als
Produkt aus dem Designgewicht 1 ∕ πk und dem Anpassungsgewicht:
⎛ 1 ⎞⎛ 1 ⎞
⎜ π ⎟⎜ π ⎟.
⎝ k ⎠ ⎝ k |s , m ⎠
Unter Einbeziehung dieses Gewichts ergibt sich als gewichteter Schätzer des Sum-
menwerts Y = ∑U yk in der Population:
Hs
§ 1 ·§ 1 · yk / S k
YˆcS * ¦y k ¨ S ¸¨ S ¸ ¦S f h1 y k / S k ¦ f ¦yh
1
k / Sk.
r © k ¹ © k |s , m ¹ r k |s , m h 1 rh
In dieser Formel ist r die Teilmenge der Respondenten in der Stichprobe s. Im Fall
einer einfachen Zufallsauswahl der Stichprobe s und einer einfachen Zufallsstich-
probe der Respondenten in den homogenen Gruppen ergibt sich
VII.10 Anpassungsgewichtung 581
N Hs
YˆcS * ¦nh yrh N y U .
n h1
VII.10.4 Postratifikationsgewichte
Yˆcr heißt Poststratifikationsschätzer. Die Nh ∕ nrh werden gelegentlich auch als Zell-
gewichte bezeichnet (vgl. z.B. Kalton & Flores-Cervantes, 2003). Sie werden für jede
Zelle der poststratifizierten Stichprobe berechnet, indem die Anzahl der Elemente
in der Populationszelle durch die Anzahl der Respondenten in der Stichprobenzelle
dividiert wird. Jeder Fall in der gleichen Zelle bekommt das gleiche Gewicht (vgl.
Beispiel VII.1).
582 VII.10 Anpassungsgewichtung
nkj bezeichnet die Häufigkeit der Respondenten in der Zelle, die durch die k-te
Zeile und die j-te Spalte definiert ist. Sie ist also die Anzahl der Elemente in der
Stichprobe, die sowohl die Merkmalsabstufung ak als auch die Merkmalsabstu-
fung bj aufweisen. nk. (k = 1, …, K) bezeichnet die Randhäufigkeit (engl.: mar-
ginal frequency) der Abstufung ak des Merkmals x. n.j (j = 1, …, J) bezeichnet
die Randhäufigkeit (engl.: marginal frequency) der Abstufung bj des Merkmals y.
Alle Randhäufigkeiten eines Merkmals bilden die Randverteilung (engl.: marginal
distribution) des Merkmals. n ist der Stichprobenumfang. Eine entsprechende Ta-
belle lässt sich auch für die Population aufstellen:
N kj
nkj
versehen werden. Elemente in Zellen, die im Verhältnis zur Grundgesamtheit
eine sehr viel kleinere Häufigkeit beinhalten werden stärker gewichtet als solche,
bei denen der Anteil an der Populationshäufigkeit größer ist.
584 VII.10 Anpassungsgewichtung
Als fiktives Beispiel sei angenommen, in einer Gemeinde mit 3.550 EW sei
eine Umfrage von 1.180 Befragten nach dem Design der einfachen Zufallsaus-
wahl vorgenommen worden. Durchführt werden soll eine Gewichtsanpassung
nach Geschlecht und Zweitstimme bei der letzten Bundestagswahl. dar. Die em-
pirische Verteilung der Stichproben sei wie in Tabelle VII.6 wiedergegeben.
In unserem Beispiel würde z.B. die Zelle (weiblich , SPD) mit dem Gewicht
N 22 600
1, 43
n22 420
gewichtet. Mit dieser Gewichtung kann man versuchen, sowohl Verzerrungen
durch Nichtantwort als auch durch Unterdeckung zu korrigieren. Allerdings
ist damit die Annahme verbunden, dass alle Elemente in einer Zelle die gleiche
Wahrscheinlichkeit besitzen zu antworten bzw. in die Auswahlgrundlage aufge-
nommen zu werden, was der Annahme von MAR (siehe oben) entspricht.
Gelten nicht die Bedingungen von RHG (siehe oben), so entsteht ein Bias in der
Schätzung. Bethlehem, 2009) vergleicht den Postratifikationsschätzer für eine Ziel-
variable für vollständige Stichproben mit dem Schätzer unter Nonresponse. Auf
VII.10 Anpassungsgewichtung 585
Grund einer einfachen Ableitung, die hier nicht wiedergegeben werden soll, ergibt
sich der Bias durch Nonresponse für den Mittelwertschätzer auf Grund der Formel
1 H RρhY S ρh SYh
Bias ( y PS , R ) = ∑ ρ (h ) .
N h
N h =1
In dieser Formel ist RUhY die Korrelation zwischen der Zielvariablen Y und der Ant-
h
wortwahrscheinlichkeit ρ in Schicht h. S U und SYh sind die Standardfehler von Y
und ρ in Schicht h (vgl. die Ableitung in Bethlehem, 2009, p. 252). Die Formel zeigt,
dass der Bias den Wert 0 annimmt, wenn die Korrelation zwischen Antwortwahr-
scheinlichkeit und der Zielvariablen in allen Schichten 0 ist. Die Standardfehler
der Antwortwahrscheinlichkeiten und der Zielvariablen sind gering, wenn deren
Werte näherungsweise gleich sind.
Die Bedingungen für die Abwesenheit des Bias entsprechen denen, die ein
RHG-Modell definieren. Durch die Annahme gleicher Antwortwahrscheinlichkei-
ten in einer Schicht, ist eine Korrelation zwischen Zielvariablen und Antwortwahr-
scheinlichkeit ausgeschlossen.
Eine weitere traditionelle Anwendung des Poststratifikationsschätzers ergibt
sich unter der Annahme, dass die Grundgesamtheit in zwei Schichten zerlegt ist:
eine Schicht R der Respondenten und eine Schicht NR der Nichtrespondenten, so-
wie der Annahme, dass die Stichproben der Respondenten und der Nichtrespon-
denten Zufallsstichproben aus den jeweiligen Schichten darstellen. In diesem Fall
greift der Schätzer für geschichtete Stichproben. Der Populations-Summenwert ist
in diesem Fall:
2
y = N h y h = N R y R + N NR y NR ,
ST ∑
h =1 N N N
wobei NR und NNR die Umfänge der Schichten der Respondenten und Nichtrespon-
denten darstellen und − y R und −
y NR die Stichprobenmittelwerte der Respondenten
und Nichtrespondenten. Das Problem ist, dass weder R noch NR bekannt sind. Das
Gleiche gilt für die Mittelwerte von yR und NR bekannt sind.
Die obigen Verfahren setzen voraus, dass die Antwortwahrscheinlichkeiten ge-
schätzt werden können und dass eine Zerlegung in homogene Klassen möglich ist.
Dies ist aber nicht immer gegeben, weil nicht immer bekannt ist, wer verweigert
hat oder bei wem kein Kontakt zustande kam. Bei Telefoninterviews legen zahlrei-
che Personen einfach auf, ohne dass Eigenschaften irgendwelcher Art bestimmbar
wären. Eine Möglichkeit wäre, die Antwortwahrscheinlichkeiten zu schätzen, etwa
durch die Anzahl der Versuche bestimmte Klassen von Personen zu erreichen. (vgl.
Politz & Simmons 1949).
586 VII.10 Anpassungsgewichtung
VII.10.5 Raking
Sind auf Populationsebene nur die Randverteilungen der Variablen bekannt oder
möchte man aus anderen Gründen, z.B. weil die Anzahl der Zellen sehr groß ist
oder weil die Annahme identischer Antwortwahrscheinlichkeiten in den Zel-
len zweifelhaft ist, nur auf die Randverteilungen Bezug nehmen, kann das sog.
Raking-Verfahren angewendet werden. Es wurde ursprünglich von Deming und
Stephan (1940) entwickelt. Die Autoren widmen sich der Frage, wie die Zellhäufig-
keiten in der Population so geschätzt werden kann, dass die Summe der Differen-
zen zwischen den Zellhäufigkeiten in der Stichprobe und denen in der Population
ein Minimum ergeben (vgl. Deming & Stephan, 1940, p. 429):
K J
( mkj − nkj ) = min,
∑∑
k =1 j =1 nkj
wobei die mkj die angepassten Zellhäufigkeiten darstellen, die einer oder beiden der
folgenden Bedingungen genügen müssen:
Fall I (Anpassung an eine Randverteilung):
In diesem Fall sollte gelten:
J
N k .n
∑m
j =1
kj = mk . =
N
.
Die beiden Randverteilungen sollen also mit dem Auswahlsatz multipliziert wer-
den. Die Autoren schlagen ein vereinfachtes Verfahren vor, das als iterative pro-
portionale Anpassung (engl.: iterative proportional fitting) bezeichnet wird (vgl. De-
ming & Stephan, 1940, p. 439). Es wird in der Literatur mit dem Raking-Verfahren
gleichgesetzt, obgleich es nur die multiplikative Form des Rakings beinhaltet und
daher auch als multiplikative Gewichtung bezeichnet wird (vgl. z.B. Bethlehem,
2009, p. 260). Wir wollen das Verfahren an Hand einer Anpassung an Zeilen- und
Spaltenrandsumme erläutern. Es besteht darin, dass zunächst die Zeilenrandsum-
men in der Stichprobe an die entsprechenden bekannten Zeilenrandsummen der
Population angepasst werden, was bedeutet, dass jede Zelle der k-ten Zeile mit dem
Gewicht
VII.10 Anpassungsgewichtung 587
N k.
nk .
gewichtet wird. So müssten in Beispiel V.1 die Zellen der ersten Zeile (männlich)
mit dem Gewicht
1750
890
gewichtet werden. In der Zelle (männlich, F.D.P.) würde dann nach diesem Schritt
der Wert
1750
60 × = 60 × 1.97 = 118, 2
890
stehen. Nach der Anpassung an die Zeilenrandsummen würde eine Anpassung an
die Spaltenrandsummen erfolgen. Dabei werden die bereits gewichteten Zellen der
j-ten Spalte mit dem Faktor
N. j
n. j .
gewichtet. In unserem Beispiel würde die bereits gewichtete Zelle (männlich, F.D.P.)
mit dem Faktor
250
100
gewichtet werden, so dass sich nach diesem Schritt die gewichtete Häufigkeit
250
118, 2 × = 118, 2 × 2, 5 = 295, 5
100
ergibt. Der Prozess wird so lange wiederholt, bis die Randsummen von Stichprobe
und Grundgesamtheit im Rahmen einer vereinbarten Grenze übereinstimmen.
Der in Teil VI eingeführte GREG-Schätzer ist gleichzeitig ein Beispiel für line-
ares Raking.
588 VII.10 Anpassungsgewichtung
VII.10.6 Kalibrierung
Deville und Särndal (1992; vgl. auch Särndal & Sundström, 2005) fassen die De-
signgewichtung und die Gewichtung zum Ausgleich von Unit-Nonresponse in ei-
nem als Kalibrierung (engl.: calibration) bezeichneten Ansatz zusammen. Ziel ist
die Ableitung eines sog. Kalibrierungsschätzers (engl.: calibration estimator) für das
Populationstotal
N
Y = ∑U y k = ∑ y k .
k =1
Bezeichnen wir die Stichprobe der Respondenten wieder mit r und deren Umfang
mit nr, so hat der Schätzer die allgemeine Form
nr
YˆW ¦w r
k yk ¦w k yk .
k 1
Die Aufgabe besteht darin, ein geeignetes System von Gewichten zu finden. Dies
wird wieder unter Zuhilfenahme von Hilfsvariablen gebildet. Bei der Ableitung der
Gewichte spielen drei Arten von Hilfsvariablen eine Rolle:
a) Hilfsinformationen auf der Ebene der Population:
Hilfsinformationen auf Populationsebene sind Summenwerte von Hilfsvariab-
len, die für die gesamte Population bekannt sind. Sie liegen entweder bereits als
Summenwerte vor oder aber sie können berechnet werden, weil aus einer exter-
nen Quelle wie z.B. einem Melderegister oder einer zusammengefügten Datei
von Melderegisterdaten die Werte für jedes Element der Population bekannt
sind. Ein Beispiel wäre der Fall, dass für jeden Respondenten die Werte auf den
Alter oder Geschlecht aus einer externen Quelle wir z.B. einem Melderegister
importiert werden können und daher auf Populationsebene bekannt sind. Bei
den importierten Werten muss es sich um messfehlerfreie Messfehler handeln
(zum Begriff des Messfehlers vgl. Abschnitt IV.2). Außerdem liegen die Werte
für Element k aus der Respondentenstichprobe r vor.
b) Hilfsinformationen auf Stichprobenebene:
Hilfsvariablen, bei denen Informationen für die Stichprobe s vorliegen, jedoch
nicht für die Population, dergestalt, dass
• für jedes Element k aus der Gesamtstichprobe s die Werte auf den Hilfsvari-
ablen bekannt sind und die Summenwerte auf der Populationsebene unbe-
kannt sind;
• für jedes Element k aus der Respondentenstichprobe r die Werte jedes Ele-
ments k auf den Hilfsvariablen bekannt sind.
VII.10 Anpassungsgewichtung 589
∑ w x = ∑w x = ∑
r
k k k k
U
x k = ∑x k .
k =1 k =1
Die Gewichte sollen also so bestimmt werden, dass die Summe der gewichteten
Werte der Hilfsvariablen in der Stichprobe das Populationstotal reproduziert.
Liegen nur Hilfsinformationen auf Stichprobenebene vor, so werden die Ge-
wichte so bestimmt, dass gilt:
nr ns
¦ w x ¦w x ¦ d x ¦d x
r
k k k k
s
k k k k Xˆ HT .
k 1 k 1
In diesem Fall werden die Gewichte also so bestimmt, das die Horvitz-Thomp-
son-Schätzung des Populationstotals, d.h. die mit den Designgewichten
dk = 1 ∕ πk gewichtete Summe der Stichprobenwerte reproduziert wird.
Stehen mehr als eine Hilfsvariable zur Verfügung, so werden die Gewichte je
nach Ebene, Populationsebene oder Stichprobenebene nach einer der beiden Glei-
chungen bestimmt. Seien x1 , … , xj , … , xJ J Hilfsvariablen, die in einem Vektor
x = (x1 , … , xj , … , xJ) gesammelt werden. Ohne Einschränkung der Allgemeinheit
kann man die Hilfsvariablen des Vektors so anordnen, dass die Hilfsvariablen mit
Hilfsinformationen auf Populationsebene vor denen mit Hilfsinformationen auf
Stichprobenebene stehen (vgl. Särndal & Lundström, 2005: 54). Sei
590 VII.10 Anpassungsgewichtung
X = ( X1 ,…, X J * , X J * +1 ,…, X J ) =
(∑ U )
x1k ,…, ∑U x J * k ,∑ s d j * +1, k x j * +1, k …, ∑ s d Jk x Jk ,
der Vektor der Hilfsinformationen von J Hilfsvariablen, wobei die ersten J✳ Hilfs-
informationen aus den Populationstotals von J✳ Hilfsvariablen bestehen und die
restlichen J − J✳ Hilfsinformationen die Horvitz-Thompson-Schätzungen der Po-
pulationstotals der Hilfsvariablen beinhalten, für die auf Populationsebene keine
Hilfsinformationen vorliegen. Die allgemeine, als Kalibrierungsgleichung (engl.: ca-
libration equation) bezeichnete Form der Gleichung lautet für beliebige Anzahlen
von Hilfsvariablen dann:
∑r w x = X.
k k
In dieser Formel bezeichnet xk den Vektor der Werte eines Elements k auf den
Hilfsvariablen des Hilfsvektors x.
Die auf der Basis dieser Gleichung bestimmten Gewichte heißen an die Hilfsin-
formationen kalibriert. Sie gehen als Gewichte in den Kalibrierungsschätzer YˆW
ein. Die Gewichte wk haben die allgemeine Gestalt
wk = dkvk ,
wobei
vk = 1 + λ'rxk.
λ'r ist ein Zeilenvektor von Gewichten für die Stichprobe der Respondenten, mit
denen die Werte der Respondenten gewichtet werden, um die Unterschätzungen
der Designgewichte auszugleichen. λ'r hat die Form
( ) (∑ d x x )
−1
λr’ = X − ∑ r dk x k
’
’
k k k
r
Was dies bedeutet, macht man sich ehesten an einer einzigen Hilfsvariablen x klar,
bei der nur der Horvitz-Thompson-Schätzer X̂ des Populationstotals für x vor-
liegt. Die obige Gleichung hätte in diesem Fall die Form
Or
Xˆ ¦ d x .
r
k k
2
dxk k
Angenommen die Verteilung f(x) würde eine Verteilung g(x) mit den Wahrschein-
lichkeiten q1 , … , qj , … , qn, geschätzt durch die relativen Häufigkeiten in der Stich-
probe, ersetzen, so kann man den Informationsverlust definieren als
n n n
1 1 pj
I ( p : q ) = ∑p j log − ∑p j log = ∑p j log .
j =1 q j j =1 p j j =1 qj
⎛ pj ⎞
Z (p, q) = min p ⎜ Σ j p j log ⎟ 0 < pj, qj < 1, ∑jpj = ∑jqj = 1
⎝ qj ⎠
Sp = r.
VII.10.8 Propensity-Gewichtung
Die sog. Propensity-Gewichtung gewichtet nach den mit Ausprägungen der Hilfs-
variablen verbundenen Teilnahmewahrscheinlichkeiten dergestalt, dass Fälle mit
hoher Teilnahmewahrscheinlichkeit niedriger gewichtet und Fälle mit niedriger
Teilnahmewahrscheinlichkeit höher gewichtet werden. Durch diese Form der
Gewichtung wird erreicht, dass ein möglicher Bias, der durch die Korrelation der
594 VII.10 Anpassungsgewichtung
y 1 nr 1 1 yk
HT ¦
N k 1 S k Uk
yk
S k Uk
.
Für ein Element k berechnet sich das Propensity-Gewicht also wie folgt:
1
1
¨
§ exp x 'k β ·
¸ .
U xk
¨ 1 exp x 'k β
© ¸
¹
Die logistische Regression liefert für jede Merkmalskombination den dazugehö-
rigen Propensity-Score. Das Problem besteht darin, dass die Merkmale der nicht
teilnehmenden Fälle in der Regel nicht bekannt sind. Für Verweigerer, die also die
Bitte um Teilnahme negativ beantworten, sind die für das Modell notwendigen un-
abhängigen Variablen in der Regel nicht bekannt. Hier hilft eventuell die Nachbe-
handlung von Verweigerern weiter, wobei sich folgende Verfahren anbieten:
1) die Nutzung von Paradaten, wie Anzahl der Kontaktversuche, Informationen
auf Grund von Interviewer-Beobachtungen, Informationen der Screening-Pha-
se, etc.;
2) die Anwendung eines Kurzfragebogens („doorstep questionnaire“) mit Fragen,
die sensitiv in Bezug auf die Unterscheidung von Respondenten und Nichtre-
spondenten sind, unmittelbar nach der Verweigerung;
Die Varianten 1. und 2. werden auch unter dem Namen „basic question approach“
zusammengefasst (vgl. z.B. Bethlehem, 2009, pp.239; für eine Anwendung vgl. Mat-
suo et al., 2010).
Die Propensity-Gewichtung kann allgemein zur Korrektur des durch Selekti-
onseffekte bedingten Bias herangezogen werden. Statt der Betrachtung der indi-
viduellen Propensity Scores, werden in der Regel zwischen 5 und 10 Klassen von
Propensity Scores gebildet.
Ziel der Gewichtungen bei Internet-Umfragen ist die Korrektur des Selektionsef-
fekts und des dadurch bedingten Bias, der durch Unterdeckung und Nonresponse
entsteht. Zahlreiche Rekrutierungsmethoden, etwa über Websites, Banner, etc. ba-
sieren auf Selbstselektion.
Will man Aussagen über die die Gesamtbevölkerung auf der Basis von Inter-
net-Umfragen machen, so muss berücksichtigt werden, dass nur ca. 80% (Stand
596 VII.10 Anpassungsgewichtung
2017; Quelle: Statista) der Gesamtbevölkerung Zugang zum Internet haben und
sich die Nutzer von Nichtnutzern nicht nur in Deutschland, sondern auch in an-
deren Ländern Europas in zentralen soziodemografischen Variablen unterscheiden
(vgl. Mohorko, De Leeuw & Hox, 2013). Allerdings kann die Abdeckung in be-
stimmten Teilgruppen der Bevölkerung sehr hoch sein. So haben gegenwärtig ca.
99% der 18-24jährigen einen Internet-Zugang.
Insofern sich eine Umfrage auf eine Zielpopulation bezieht, die durch eine voll-
ständige Abdeckung des Internetzugangs gekennzeichnet ist, ist der Zugang zu den
Elementen der Grundgesamtheit durch Interviews im Online-Modus grundsätzlich
gegeben. So kann etwa bei bestimmten Zielpopulationen wie etwa Unternehmen
ein entsprechender Zugang vorausgesetzt werden. Auch bei anderen Zielpopulati-
onen wie etwa den Studierenden einer Hochschule kann ein Internetzugang weit-
gehend vorausgesetzt werden, zumal die Hochschulen den Zugang zu den Internet-
diensten für die Studierenden bereitstellen. Allgemeine Hochschulinformationen
und Informationen zu Studium und Lehre müssen von den Studierenden ohnedies
immer abgerufen werden. Das Problem besteht in diesem Fall oft in der Beschaf-
fung einer geeigneten Auswahlgrundlage, da vollständige Listen mit E-Mail-Adres-
sen nicht immer verfügbar sind. Hier hilft manchmal nur ein Offline-Screening,
z.B. telefonisch, mit der Bitte, an der Online-Umfrage teilzunehmen. Gelegentlich
lassen sich die E-Mail-Adressen auch aus dem Netz zusammenstellen.
Für die Beurteilung der Durchführbarkeit von Webinterviews ist allerdings der
Anteil der Haushalte mit Internetzugang nicht ausreichend, da Personen auch auf
anderem Wege als über die Ausstattung des Haushalts einen Zugang zum Inter-
net herstellen können, etwa über Computer in Internet-Cafés, über Mobilfunk,
über Computer an Arbeitsplätzen, in Einrichtungen wie Hochschulen, etc. Für die
Durchführung einer Online-Umfrage ist allerdings nicht nur der Zugang von Inte-
resse, sondern die Verfügbarkeit einer E-Mail-Adresse, über die zur Teilnahme an
der Umfrage eingeladen werden kann.
Im Fall einer Unterdeckung der Zielpopulation durch die Einschränkung auf
den über das Internet interviewbaren Teil der Population entstehen Verzerrungen
in den Daten dadurch, dass sich Internetnutzer von Nichtnutzern in den Zielvaria-
blen systematisch unterscheiden können.
VII.10 Anpassungsgewichtung 597
VII.10.9.2 Postratifikationsgewichtung
Nh (h = 1, … , H) die Anzahl der Elemente in der Schicht Nh mit N = N1 + ∙∙∙ + NH.
Sei n der Umfang der Online-Stichprobe und nh die Anzahl der Online-Befragten
in Schicht h. Nimmt man an, dass alle Befragten in einer Schicht mit der gleichen
Wahrscheinlichkeit antworten (RHG-Modell, siehe oben), so kann das Gewicht wk
für ein Element k in Schicht h wie folgt bestimmt werden (vgl. Bethlehem, 2009,
p. 289):
Nh / N
wk .
nh / n
Als gewichteten Stichprobenmittelwert der Online-Stichprobe erhält man:
1 n 1 n Nh / N
y I , PS = ∑
n k =1
wk yk = ∑ yk
n k =1 nh / n
.
1 H H
y I , PS = ∑
N h =1
N h y h = ∑Wh y h ,
h =1
wobei
Wh = Nh ∕ N.
Um den Bias B(− yI,PS) des Schätzers bewerten zu können, der durch die Be-
schränkung auf Fälle mit Internet-Zugang entsteht, müssen wir den Erwartungs-
wert E(− yI,PS) des Schätzers mit dem wahren Populationsparameter − yU vergleichen
(zur Definition des Erwartungswerts eines Schätzers vgl. Abschnitt Teil VI). E(−
yI,PS)
ist definiert wie folgt:
598 VII.10 Anpassungsgewichtung
N1 Nh NH
E ( y I , PS ) = × E ( yU I ,1 ) + " + × E ( yU I , h ) + " + ×
N N N
1 H
E ( yU I , H ) = ∑ N h E ( yU I , h ) .
N h=
Der Bias lässt sich dann wie folgt charakterisieren:
H
B ( y I , PS ) = E ( y I , PS ) − yU = yU I − yU = ∑Wh ( y hU I − y h )
h =1
H H
N NI ,h N
= ∑Wh ( yU I ,h − yU NI ,h ) = ∑ NI ,h ( yU I ,h − yU NI ,h ) .
h =1 Nh h =1 N
Eine Methode zur Reduktion des Unterdeckungsfehlers basiert auf dem Vergleich
mit Referenzsurveys. Ein Referenzsurvey ist ein unabhängiger, auf einer Zufalls-
stichprobe beruhender Offline-Survey, der nach Möglichkeit keine Unit-Nonres-
ponse oder zumindest keine nicht-ignorierbare Nichtantwort aufweist. Er sollte auf
jeden Fall erwartungstreue Schätzungen der Populationsparameter erlauben. Bei
Vorliegen ignorierbarer Nichtantwort können zur Korrektur der Schätzer geeignete
Gewichtungen durchgeführt werden. Ein Beispiel für eine Referenzumfrage wäre
z.B. eine telefonische Bevölkerungsumfrage auf der Basis zufällig erzeugter Num-
mern. Die Attraktivität dieses Ansatzes liegt darin, dass die unverzerrte Stichprobe
eines Offline-Surveys genutzt werden kann, um eine sehr viel umfangreichere On-
VII.10 Anpassungsgewichtung 599
Wie wir in Abschnitt VII.10.7 gesehen haben kann die Propensity-Gewichtung ein-
gesezt werden, um den Bias zu reduzieren, der dadurch entsteht, dass die mit Aus-
prägungen der Hilfsvariablen verbundene Teilnahmewahrscheinlichkeit mit Ziel-
variablen korreliert. Haben wir Ausprägungen von Hilfsvariablen sowohl für die
Teilnehmer als auch für die Nichtteilnehmer einer Webumfrage vorliegen, so kann
man versuchen, durch eine Gewichtung mit Propensity-Gewichten den Bias zu re-
duzieren, der durch Korrelation der Teilnahmewahrscheinlichkeit am Websurvey
mit Zielvariablen entstanden ist. Hilfsinformationen hat man für beide Gruppen
in der Regel vorliegen, wenn im Rahmen eines Zweiphasen-Stichprobendesigns
im Anschluss an eine erste Haupterhebung die Teilnehmer noch einmal gebeten
werden, an einer Webumfrage teilzunehmen. Auch bei Verwendung bestimmter
Auswahlgrundlagen wie z.B. amtlicher Melderegister als Basis für eine schriftliche
600 VII.10 Anpassungsgewichtung
Kontaktaufnahme mit der Bitte zur Teilnahme an einem Websurvey hat man als
Hilfsinformationen zumindest Meldedaten vorliegen. Geht man von einer allge-
meinen Bevölkerungsumfrage aus, die in einem Mode durchgeführt wurde, der
eine vollständige Abdeckung erlaubt, lässt sich der folgende korrigierte Webschät-
zer −
yU,I für den Populationsmittelwert berechnen (vgl. Schonlau et al., 2006; Nota-
tion nach Bethlehem, 2009):
NI
1
yU , I =
NI
∑w
k =1
k ,S w k , prop y k , I ,
N I ∑ k =1w k2
n
Deff prop = ,
( )
2
∑ k =1w k
NI
Zusammenführung der Daten aus dem Websurvey und den an die Population
angepassten Daten des Referenzsurvey;
Bildung der Propensity Scores mit den Hilfsvariablen als Kovariaten;
Ggf. Zerlegung der Propensity Scores in ca. 5 Klassen;
Propensity-Gewichtung der Daten aus dem Websurvey.
Der Propensity Score ist in diesem Fall die Wahrscheinlichkeit, dass ein Befrag-
ter eher an einem Websurvey gegeben die Ausprägung der Hilfsvariablen. Wich-
tig für die Reduktion des Bias ist natürlich wieder, dass eine bedingte stochasti-
sche Unabhängigkeit der Variablen „Teilnahme am Websurvey“ vs. Teilnahme am
Referenzsurvey“ von den Zielvariablen, gegeben eine konkrete Ausprägung der
Hilfsvariablen vorliegt. Nur wenn dies vorausgesetzt werden kann, sind Teilnah-
mewahrscheinlichkeit und Zielvariablen nicht mehr korreliert.
Zentral für das Verfahren sind Hilfsvariablen, welche die Teilnahme am Web-
survey im Vergleich zu Teilnahme am Referenzsurvey gut erklären. Bestimmte
Institutionen wie z.B. das Marktforschungsinstuitut Harris Interactive verwenden
spezifische, sog. webographic questions als Hilfsvariablen. Andere verwenden sog.
psychographic questions, z.B. Einstellungsfragen, Fragen zu Lebensstilen und demo-
graphische Fragen (vgl. Forsman & Varedian 2004). Ein Beispiel für eine psycho-
graphische Frage wäre: „Sind Sie einsam?“ (vgl. Schonlau et al., 2004).
Lee (2006, vgl. auch Lee & Vaillant, 2009) präzisiert die Anwendung bei einem
Websurvey von Teilnehmern eines freiwillig rekrutierten selbstselektiven On-
line-Access-Panels. In diesem Fall ist davon auszugehen, dass über die Nichtteilneh-
mer des Panels keine Hilfsinformationen vorliegen. Daher wird ein Referenzsurvey
als Benchmark herangezogen. Dazu wird die Stichprobe SR der Teilnehmer des Re-
ferenzsurveys mit nR und der Stichprobe sW des Websurveys mit nW Elementen zu
einer Gesamtstichprobe s = sR ∪ sW mit n = nR + nW Elementen vereinigt. Anschlie-
ßend wird eine logistische Regression mit der abhängigen dichotomen Variable
„Teilnahme am Referenzsurvey/vs. Teilnahme am Websurvey“ und unabhängigen
Kovariaten als Hilfsvariablen durchgeführt. Die resultierenden Propensity Scores
werden in C Klassen mit etwa gleich vielen Elementen zerlegt. In einer Klasse c
befinden sich dann ncRTeilnehmer des Referenzsurveys und nWcTeilnehmer des Web-
surveys. Insgesamt besteht einen Klasse c also aus nc = ncR + nWcFällen. Anschließend
wird der folgende Korrekturfaktor berechnet, der die unterschiedlichen Verhältnis-
se der Gewichtssummen zwischen der Referenzstichprobe und der Webstichprobe
ausgleicht, d.h. dass der gewichtete Anteil der Befragten in jeder Klasse des Websur-
veys denen des Referenzsurveys entspricht:
602 VII.10 Anpassungsgewichtung
fc =
∑ k∈scR
dkR / ∑ k∈s RdkR
.
∑ k∈sW
c
dkW / ∑ k∈sW dkW
Unter der Annahme, dass die Gewichte gleich den Inversen der Inklusionswahr-
scheinlichkeiten sind, gilt:
Nˆ cR / Nˆ R
fc
Nˆ cW / Nˆ W
ncR / n R
fc
nW
c /n
W
Als angepasstes Designgewicht djPSA,W (PSA: propensity adjusted) für die Elemente
des Websurveys ergibt sich dann:
Nˆ cR / Nˆ R W
d PSA
j
,W
f c d Wj dj .
Nˆ cW / Nˆ W
Dabei ist djW das Designgewicht der Einheit j im Websurvey. Die Wirkung des Fak-
tors fc lässt sich an der Berechnung der geschätzten Anzahl der Elemente im Web-
survey erkennen. Es gilt nämlich:
Nˆ cR
Nˆ cPSA ,W ¦d PSA ,W
j Nˆ W R .
jsW
c
Nˆ
¦¦ d PSA
j
,W
yj
y PSA,W c jsW
c
.
¦¦ c jsW
d PSA
j
,W
c
VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren 603
Unter Imputation versteht man die Ersetzung fehlender Werte bei einer oder meh-
reren Zielvariablen. Dabei spielt eine Rolle, in wieweit auf Hilfsinformationen
zurückgegriffen werden kann. Als Ergebnis einer Imputation ergibt sich ein ver-
vollständigter Datensatz (engl.: completed data set). In einem vervollständigten Da-
tensatz weist keine Variable mehr einen fehlenden Wert auf.
Folgende Imputationsverfahren können unterschieden werden:
Ersetzung durch den Gesamtmittelwert:
Bei diesem Verfahren werden alle fehlenden Werte einer Variablen durch den Ge-
samtmittelwert dieser Variablen ersetzt. Das Verfahren liefert zwar einen akzeptab-
len Punktschätzer, führt aber notwendig zu einer Unterschätzung der Varianz und
zu ungültigen Konfidenzintervallen. und sollte, wenn überhaupt, nur bei Variablen
mit sehr wenigen fehlenden Werten eingesetzt werden.
Ersetzung durch Klassenmittelwerte:
Um dieses Verfahren anzuwenden, muss die Menge aller Respondenten, die auf
mindestens ein Item geantwortet haben, auf der Basis von Hilfsvariablen wie z.B.
soziodemographischen Variablen in Klassen von einander ähnlichen Elementen
zerlegt werden. Diese Klassen heißen auch Imputationsklassen. Die fehlenden Wer-
te innerhalb einer Klasse werden dann durch die Klassenmittelwerte ersetzt.
Hot-Deck-Imputation:
Bei Hot-Deck-Verfahren werden die fehlenden Werte von Individuen durch die
Werte anderer Individuen der gleichen Umfrage ersetzt, die dem Individuum ähn-
lich sind. Die Beurteilung der Ähnlichkeit wird auf der Basis bestimmter Merkmale
vorgenommen. Formale Verfahren zur Beurteilung der Ähnlichkeit wäre z.B. das
Verfahren des „nächsten Nachbars“. Sequentielle Hot-Deck-Verfahren funktionieren
in der Weise, dass beim ersten angetroffenen fehlenden Wert, der Datensatz durch-
laufen wird, um den ähnlichsten Fall in der Imputationsklasse zur ermitteln, der
eine auf der betreffenden Variablen eine Antwort gegeben hat. Der fehlende Wert
wird dann durch diesen Wert ersetzt. Bei diesem Verfahren ist nur ein Durchlauf
notwendig. Zur Beurteilung der Ähnlichkeit können auch Distanzmaße verwendet
werden, die sich auf bekannte Hilfsvariablen beziehen.
604 VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren
Cold-Deck-Imputation:
Cold-Deck-Verfahren verwenden Daten aus externen Quellen, z.B. frühere Survey
oder historische Daten, aber nicht aus dem betrachteten Survey selbst.
Zufällige Imputation:
Bei diesem Verfahren wird der fehlende Wert einer Variablen durch den Wert eines
zufällig ausgewählten Befragten auf der gleichen Variablen ersetzt.
Zufällige Imputation innerhalb von Klassen:
Hier wird die zufällige Imputation innerhalb ähnlicher Klassen angewandt.
Regressionsimputation:
Bei der Imputation durch Regression werden die fehlenden Werte durch die vor-
hergesagten Werte einer Regressionsgleichung ersetzt, wobei die Werte der Hilfs-
variablen in geeigneter Weise gewichtet sind. Im Standardfall werden die fehlenden
Werte yˆ k durch die vorhergesagten Werte f(xk) einer linearen Regressionsgleichung
ersetzt. Angenommen, die Elemente 3, 6 und 10 hätten das Item y nicht beantwor-
tet und ferner angenommen, es würden drei Hilfsvariablen x1, x2, x3 zur Verfügung
stehen, so dass x = (x1, x2, x3). Dann würden die fehlenden Werte yˆ k auf Grund der
Beziehung yˆ k f x1k , x 2 k , x 3, k (k = 3, 6, 10) ersetzt werden. Ihre Anwendung
setzt voraus, dass für die fehlenden Werte MAR (siehe Abschnitt VII.10.7.3) gilt.
Ratioimputation:
Die Ratioimputation ist ein Spezialfall der Regressionsimputation. Liegen nur eine
Hilfsvariable x und eine Zielvariable y vor, so dass zwischen beiden eine feste line-
are Beziehung der Form
yk = xkβ
existiert, so gilt für β:
∑
nry
yk
β= k =1
,
∑
nry
k =1
xk
wobei ry die Menge der Elemente, welche das Item y beantwortet haben und nry der
Umfang von ry. Unter dieser Annahme lassen sich fehlende Werte yˆ k gemäß der
Gleichung
yˆ k xk E
ersetzen. Die Annahme einer deterministischen Beziehung der obigen Art stellt
eine sehr strenge Voraussetzung dar. Sie kann z.B. erfüllt sein bei Panelbefragun-
gen, bei denen gewisse Annahmen über die Stabilität gemacht werden können. In
VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren 605
diesem Fall stellen xk die Werte der Zielvariablen zum ersten Messzeitpunkt und yk
die Werte der Zielvariablen zum zweiten Zeitpunkt dar.
Addition eines zufällig ausgewählten Residuums:
Um der Ersetzung auf Grund der deterministischen Regression eine zufällige Kom-
ponente hinzufügen, kann aus der Menge der Residuen ein Residuum zufällig ein
Residuum ausgewählt und auf den Funktionswert hinzuaddiert werden.
Ersetzung durch den nächsten Nachbarn (engl.: nearest neighbour imputation):
In diesem Fall wird ein fehlender Wert durch den Wert eines anderen Elements
ersetzt, das dem Element mit dem fehlenden Wert am ähnlichsten ist. Zur Messung
der Ähnlichkeit können Ähnlichkeits- oder Distanzmaße verwendet werden wie
sie in der Clusteranalyse üblich sind (vgl. z.B. Bacher, 2010). Für metrische Hilfsva-
riablen kann das Euklidische Distanzmaß verwendet werden:
J
∑( x − x kj ) ,
2
Dik = ij
j =1
Voraussetzung für die Anwendung der multiplen Imputation ist die Ignorierbarkeit
des Ausfallmechanismus (vgl. Abschnitt VII.10.7.3). Bei der multiplen Imputation
kann eine gepoolte Varianzschätzung als Grundlage für eine Intervallschätzung be-
rechnet werden. Die Variabilität zwischen den imputierten Datensätzen ist ein Maß
für die Unsicherheit der Schätzung, die mit der Imputation verbunden ist.
Imputation auf der Grundlage von Expertenurteilen:
Die Ersetzung von fehlenden Werten auf der Grundlage von Expertenurteilen er-
scheint vor allem dann gerechtfertigt, wenn einzelne fehlende Werte Element für
Element ohne eine Referenzgruppe von ähnlichen Fällen vorgenommen werden
müssen oder wenn das Element besondere einzigartige Züge aufweist. Hierbei
kann man sich durchaus die Anwendung formaler Verfahren zur Erlangung ei-
nes gemeinsamen Urteils mehrerer Experten vorstellen, wie den Einsatz der Del-
phi-Methode (vgl. Häder, 2002).
Alle Verfahren, die nicht auf der Grundlage von Expertenurteilen erfolgen, hei-
ßen auch statistische Imputationsverfahren. Unter den statistischen Imputationsver-
fahren zeichnen sich einige Verfahren wie z.B. das Nearest-Neighbour-Verfahren
dadurch aus, dass die Imputationswerte durch ein anderes Element (sog. Spen-
derelemente; engl.: donor) geliefert werden.
VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren 607
Statt der Verwendung von Imputationsverfahren wird oft auch die paarweise
und listenweise Löschung von fehlenden Werten angewendet. Voraussetzung für
diese Art von Umgang mit fehlenden Werte ist, dass die Werte MCAR-erzeugt
sind, d.h. die Verteilung der fehlenden Werte nicht von den beobachteten Daten,
sondern nur von den Verteilungsparametern abhängt. Außerdem sollten diese Ver-
fahren nur bei einer geringen Anzahl fehlender Werte angewendet werden, da mit
wachsender Anzahl fehlender Daten der Standardfehler der Schätzer für die Para-
meter zunimmt.
YˆHT ¦dy
s
k •k ¦ ri
d k y k ¦ s ri d k yˆ k ,
wobei s die Ausgangsstichprobe, ri die Menge der Elemente, die Item i beantwortet
haben, s − ri die Menge der Elemente, die auf Grund von Uni- oder Item-Non-
response bezüglich Item i fehlende Werte aufweisen, dk das Designgewicht (in-
verse Inklusionswahrscheinlichkeit), y·k Werte des vervollständigen Datensatzes
608 VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren
mit y·k = yk, wenn keine Werte fehlen und y •k yˆ k , wenn der Wert fehlte. Eine ent-
sprechende Zerlegung gibt es auch für den GREG-Schätzer (vgl. Abschnitt VI.3).
Der kombinierte Ansatz:
Der Normalfall bei der Anwendung von Imputationsverfahren zur Korrektur von
Schätzungen unter Nonresponse besteht in der Kombination von Imputation und
Gewichtung: Zunächst wird der Datensatz in Bezug auf Item-Nonresponse mit
Hilfe der Imputation vervollständigt, anschließend wird der vervollständigte Da-
tensatz hinsichtlich Unit-Nonresponse gewichtet. Särndal und Lundström, 2005,
p. 158) zeigen, wie beim kombinierten Verfahren der Item-imputierte Kalibrie-
rungsschätzer (engl.: item imputed calibration estimator) YˆIW des Populationstotals
aussieht:.
YˆIW ¦dv
r
k k y •k ¦ ri
dk v k y ¦ r ri dkv k yˆ k ,
wobei r die Menge der Respondenten in der Ausgangsstichprobe s, r − ri die Menge
der Respondenten, die Item i nicht beantwortet haben. dkvk sind die Kalibrierungs-
gewichte (siehe Abschnitt 10.5.3). vk muss der Kalibrierungsbedingung
∑r d v x = X,
k k k
genügen. xk ist hier wieder der Vektor der Werte der Hilfsvariablen für Element k
und X der Vektor der Populations-Totale für die J Hilfsvariablen.
Der volle Gewichtungsansatz:
Beim vollen Gewichtungsansatz wird auf die Imputation ganz verzichtet und nur
noch gewichtet. Dieser Gedanke liegt nahe, wenn die gleichen Hilfsvariablen für
Unit- und Item-Nonresponse verwendet werden. In diesem Fall müssen durch die
Gewichtung die Populationstotals der Hilfsvariablen reproduziert werden, d.h. es
muss gelten:
∑r d v x = X,
i
k ik k
xk ist hier auch wieder der Vektor der Werte der Hilfsvariablen für Element k und X
der Vektor der Populationstotals für die J Hilfsvariablen. vik sind Gewichte, welche
die obige Gleichung erfüllen. Für den vollen Gewichtsschätzer ergibt sich dann
YFW = ∑r d v y.
i
k ik
VII.12 Zusammenfassung 609
VII.12 Zusammenfassung
Eine der bittersten Pillen, die bei Umfragen in mehr oder weniger großem Aus-
maß geschluckt werden muss und die die Umfragequalität nachhaltig gefährden
können, ist das Auftreten von Nonresponse (vgl. Kreuter, 1913a). Zwar hilft uns
hier die Mathematik, indem sie Verfahren der Nonresponse-Gewichtung anbietet;
dies setzt aber nicht nur voraus, dass geeignete Hilfsvariablen vorhanden sind, son-
dern auch, dass diese Variablen mit den inhaltlich interessierenden Zielvariablen
zusammenhängen. Dieser Zusammenhang lässt sich nicht immer theoretisch und/
oder empirisch begründen und gilt sicherlich nicht durchgängig für alle Hilf- und
Zielvariablen. Um das Ausmaß an Nonresponse von vornhinein zu reduzieren
sollten Maßnahmen zur Erzeugung einer erhöhten Erreichbarkeit und Koopera-
tionsbereitschaft ergriffen werden. Geeignete Maßnahmen sind eine Umsetzung
der einschlägigen Erkenntnisse über die Determinanten der Teilnahmebereitschaft
sowie die Beachtung der Ergebnisse einschlägiger wissenschaftlicher Studien (sie-
he Abschnitt VII.7 und VII.8). Zusätzlich sollte versucht werden für eine spätere
Gewichtung und für die Charakterisierung der Merkmalsunterschiede zwischen
Respondenten und Nichtrespondenten möglichst viele Informationen über die
Nichtrespondenten zu sammeln. Auf Ebene der Item-Nonresponse sollten zur Kor-
rektur nach Möglichkeit Verfahren der multiplen Imputation verwendet werden.
In Panelstudien können die Einflussvariablen auf die Teilnahme/Nichtteilnahme in
späteren Wellen durch die Variablen der vorherigen Welle oder Wellen identifiziert
werden.
VIII. Epilog
Die Realisation von Umfragen basiert auf einigen Grundprinzipien des Menschen
und der Gesellschaft. Dazu gehören insbesondere:
• Motive bestimmter Akteure, zuverlässige Informationen über Menschen und
die menschliche Gesellschaft insgesamt zu erhalten;
• Eine Gesellschaft mit sehr vielen Mitgliedern, die nur mit einem sehr großen
Aufwand in ihrer Gesamtheit untersucht werden kann;
• Ein Sprachsystem, in dem Menschen Aspekte ihres Zustands sprachlich zum
Ausdruck bringen können und Zustandsäußerungen anderer in eigene Zu-
standsvermutungen über deren Zustände übersetzen zu können.
• Die Bereitschaft, mit bestimmten anderen über bestimmte Informationskanäle
zu einem bestimmten Zeitpunkt in eine Kommunikation über ein bestimmtes
Thema einzutreten.
Da Art und Weise der konkreten Ausgestaltung dieser Prinzipien von kulturellen,
gesellschaftlichen und menschlichen Kontexten abhängen kann, kann bei Planung,
Durchführung und Ergebnisinterpretation die Betrachtung von Kontextfaktoren
relevant werden.
Jeder der oben erwähnten Aspekte unterliegt inner- und interindividueller Va-
riation, deren Ursachen wir in der Regel nicht vollständig erfassen können und die
daher dem nicht weiter auflösbaren „Zufallsrest“ zugeschlagen wird. Insbesondere
hängt die Variation von Messungen und von Statistiken von Auffassungen darü-
ber ab, was wohl der „wahre“ Wert gewesen sein mag: der wahre Populationswert,
der wahre Wert der Gesamtstichprobe unter Einbeziehung der Nichtrespondenten
oder die wahre Messung bestimmter Eigenschaften. Die statistischen Verfahren zur
Minimierung der Abweichungen von den wahren Verhältnissen stellen Reparatur-
mechanismen mit einer unterschiedlichen „repairing efficiency“ dar. Diese Repa-
raturmechanismen beruhen in der Regel wiederum auf bestimmten theoretischen
Annahmen.
Das Vertrauen in die Ergebnisse von Umfragen hängt nicht zuletzt davon ab,
wie transparent die eingesetzten Methoden einschließlich der Reparaturmethoden
nach außen vermittelt werden, so dass offenbar wird, wo eventuelle Schwächen der
Erhebung lagen bzw. wo es noch Restschwächen gibt. Hier erweisen sich vor allem
Dokumentationen der einzelnen Schritte des Umfrageprozesses (vgl. Abschnitt I.2)
als sinnvoll und hilfreich. Es wurde mehrfach darauf hingewiesen, dass eine Dis-
krepanz zwischen Ideal und Wirklichkeit eher die Regel ist. Es wäre aber abwegig,
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 611
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_8
612
bei Planung und Durchführung von Umfragen bereits von einer Diskrepanz auszu-
gehen und so das Bemühen um eine besonders gute Umfragequalität zu bremsen.
Umfragen sind stets von Zugängen zu Geräten für die Kommunikation abhän-
gig. Gegenwärtig scheint noch nicht absehbar, welche Möglichkeiten der Kom-
munikation mit Befragten zukünftig zur Verfügung stehen werden und wie die
Abdeckung der Bevölkerung mit diesen Zugangsformen aussehen wird. So kann
durchaus nicht ausgeschlossen werden, dass andere Formen der gesellschaftlichen
Organisation von Zugängen zu Kommunikationsmedien irgendwann auch Total-
erhebungen der Gesamtpopulation ermöglichen könnten. Ähnliches gilt auch für
die interkulturelle Kommunikation.
Nahezu alle Schritte des Umfrageprozesses können nicht nur durch methodi-
sche und technologische Entwicklungen, sondern auch durch gesellschaftliche Ent-
wicklungen beeinflusst werden. In diesem Sinn konnte das vorliegende Buch nur
eine Momentaufnahme liefern.
Literatur
Aalen, O.O., Borgan, Ø. & Gjessing, H. (2008). Survival and event history analysis. New York:
Springer.
AAPOR (2011) Standard definitions. <www.aapor.org >.
Aellig, S. (2004). Flow. Über den Sinn des Unsinns: Flow-Erleben und Wohlbefinden als Anreize
für autotelische Tätigkeiten. Münster: Waxman.
Ahmavaara, Y. (1954a). The mathematical theory of factorial invariance under selection. Psy-
chometrika, 19, 27-38.
Ahmavaara, Y. (1954b). Transformational analysis of factorial data. Annales Academiae Scien-
tarum Fennicae, 88, 1-150.
Aijzen, I. (2005). Attitudes, personality and behavior (2nd edition). Maidenhead, UK:
McGraw-Hill International Open University Press.
Aijzen, I. & Krebs, D. (1994). Attitude theory and measurement. In I. Borg & P.P. Mohler
(Eds.), Trends and perspectives in empirical social research (pp. 250-265). New York: de
Gruyter.
Alonso, G. et al. (2004). Web services: Concepts, architecture, and applications. New York:
Springer.
Alwin, D.F. (2011). Evaluating the reliability and validity of survey interview data using The
MTMM approach. In J. Madans et al. (Eds.), Question evaluation methods (pp. 263-293)
Hoboken: John Wiley.
Alwin, D.F. (2014). Investigating response errors in survey data. Sociological Methods & Re-
search, 43, 3-14.
Alwin, D.F. (2007). Margins of error: A study of reliability in survey measurement. Hoboken
NJ: John Wiley
Alwin, D.F. & Jackson, D.J. (1980). Measurement models for response errors in surveys: Issu-
es and applications. In K. Schuessler (Ed.), Sociological Methodology 1980. San Francisco:
Jossey Bass.
Alwin, D.F. & Krosnick, J.A. (1991). The reliability of survey attitude measurement: The influ-
ence of question and respondent attributes. Sociological Methods & Research, 20, 139-181.
Amaya, A. et al. (2015). Where to start. An evaluation of primary data-collection modes in an
Address-based sampling design. Public Opinion Quarterly, 79, 420–442.
Andreß, H.-J., Golsch, K. & Schmidt, A.W. (2013). Applied panel data analysis for economic
and social surveys. New York: Springer.
Andrews, F.M. (1984). Construct validity and error components of survey measures: A struc-
tural equation approach. Public Opinion Quarterly, 48, 409-442.
Aquilino, W.S. (1992). Telephone vs. face-to-face interviewing for household drug use sur-
veys. International Journal of Addiction, 27, 71-91.
Aquilino, W.S. & LoSciuto, L.A. (1990). Effects of interview mode on self-reported drug use.
Public Opinion Quarterly, 54, 362-395.
Aquilino, W.S., Wright, D.L.& Supple, A.J. (2000). Response effects due to bystander presen-
ce in CASI and Paper-and-Pencil surveys of drug use and alcohol use. Substance Use &
Misuse 35, 845-867.
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 613
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1
614 Literatur
Bavdaž, M. (2010). The multidimensional integral business survey response model. Survey
Methodology, 36, 81-93.
Beatty, P. (1995). Understanding the standardized/non-standardized interviewing controver-
sy. Journal of Official Statistics, 11, 147–160.
Beebe, T.J. et al. (2007). Mixing web and mail methods in a survey of physicians. Health Ser-
vices Research, 42, 1219-1932.
Behr, D. et al. (2012). Asking probing questions in web surveys: Which factors have an impact
on the quality of responses. Social Science Computer Review, 30, 487-498.
Belli, R.F., Bilgen, I. & Al Baghal, T. (2013). Memory, communication, and data quality in
calendar interviews. Public Opinion Quarterly, 77, 194–219.
Belli, R.F., Shay, W.L. & Stafford, F.P. (2001). Event history calendars and question list surveys.
Public Opinion Quarterly, 65, 45–74.
Belson, W.A. (1966). The effects of reversing the presentation order of verbal rating scales.
Journal of Advertising Research, 6, 30-37.
Benford, F. (1938). The law of anomalous numbers. Proceedings of the American Philosophical
Society, 78, 551-572.
Bentler, P.M. (1988). Comparative fit indexes in structural models. Psychological Bulletin, 107,
238-246.
Bentler, P. M. (2006). EQS 6 structural equations program manual. Encino, CA: Multivariate
Software
Bentler, P.M. & Bonett, D.G. (1980). Significance tests and goodness of fit in the analysis of
covariance structures. Psychological Bulletin, 88, 588-606.
Bentler, P.M. & Chou, C.-P. (1987). Practical issues in structural equation modeling. Sociolo-
gical Methods & Research, 16, 78-117.
Bentler, P.M. & Weeks, D.G. (1980). Linear structural equations with latent variables. Psycho-
metrika, 45, 289-307.
Bentler, P.M. & Woodward, J.A. (1980). Inequalities among lower bounds to reliability: With
applications to test construction and factor analysis. Psychometrika, 45, 249–267.
Bergmann, L.R. et al. (1994). Decentralised CATI versus paper and pencil interviewing: Ef-
fects of the results in the Swedish labor force surveys. Journal of Official Statistics, 10,
181-195.
Bernstein, R., Chada, A. & Montjoy, R. (2001). Overreporting voting: Why it happens and
why it matters. Public Opinion Quarterly, 65, 22-44.
Bethlehem, J.G. (1999). The routing structures of questionnaires. In C. Christie & J. Francis
(Eds.), Compilation (pp. 405-418). London: Association of Survey Computing.
Bethlehem, J.G. (2000). The routing structure of questionnaires. International Journal of Mar-
ket Research, 42, 95-110.
Bethlehem, J.G. (2004). TADEQ: A tool for the documentation and analysis of electronic
questionnaires. Journal of Official Statistics, 20, 233-264.
Bethlehem, J.G. (2010). Selection bias in web surveys. International Statistical Review, 78,
161–188.
Bethlehem, J.G., Cobben, F. & Schouten, B. (2011). Handbook of nonresponse in household
surveys. Hoboken, NJ: John Wiley.
Biemer, P.P. & Berzofsky, M. (2011). Some issues in the application of latent class models for
questionnaire design. In J. Madans et al. (Eds.), Question evaluation methods (pp. 153-
185). Hoboken, NJ: John Wiley.
616 Literatur
Biemer, P.P. & Lyberg, L.E. (2003). Introduction to survey quality. New York: John Wiley.
Biemer, P.P. et al. (Eds.) (2017). Total Survey Error in Practice. Hoboken, NJ: Wiley.
Bien, W. & Marbach, J.W. (Hrsg.) (2008). Familiale Beziehungen, Familienalltag und soziale
Netzwerke. Wiesbaden. Springer VS.
Billiet, J. (2003). Cross-cultural equivalence with structural equation modeling. In J.A. Har-
kness, F.J.R. Van de Vijver, & P.Ph. Mohler, (Eds.) (2003). Cross-cultural survey methods
(pp. 247-263). Hoboken, NJ: John Wiley.
Birkett, N.J. (1986). Selecting the Number of Response Categories for a Likert-type scale. Pro-
ceedings of the American Statistical Association 1987 Annual Meetings, Section on Survey
Research Methods.
Birnbaum, M.H. (2000a). Decision making in the lab and on the web. In M.H. Birnbaum
(ed.), Psychological experiments in the internet (pp. 3-34). San Diego: Academic Press.
Birnbaum, M.H. (2000b). SurveyWiz and FactorWiz: JavaScript web pages that make HTML
forms for research in the internet. Behavior Research Methods. Instruments, and Compu-
ters, 32, 339-346.
Birnbaum, M.H. (2001). A web-based program of research on decision making. In U.-D.
Reips & M. Bosnjak (Eds.), Dimensions of internet science (pp. 32-55). Lengerich: Pabst.
Birnbaum, M.H. (2004). Human research and data collection via internet. Annual Review of
Psychology, 55, 803-832.
Birnholtz, J.P. et al. (2004). The effects of cash, electronic, and paper gift certificates as incen-
tives for a web-based survey of technologically sophisticated respondents. Social Science
Computer Review, 22, 355-362.
Bishop, G. (1990). Issue involvement and response effects in public opinion surveys. Public
Opinion Quarterly, 54, 209-218.
Bishop, G. F. Oldendick, R.W. & Tuchfarber, A.J. (1983). Effects of filter questions in public
opinion surveys. Public Opinion Quarterly, 47, 528–46.
Bishop, G., Oldendick, R. & Tuchfarber, A. (1986). Opinions on fictitious issues: The pressure
of answer survey questions. Public Opinion Quarterly, 50, 240-250.
Bishop, G. et al. (1988). A comparison of response effects in self-administered and telephone
surveys. In Groves, R.M. et al. (Eds.), Telephone survey methodology (pp. 321-340). New
York: John Wiley.
Blair, J. et al. (2006). The effect of sample size on cognitive interview findings. Paper presen-
ted at the Annual conference of the American Association of Public Opinion Research,
Montreal.
Blair, G., Imai, K. & Zhou, Y.-Y. (2015). Design and analysis of the randomized response
technique. Journal of the American Statistical Association, 110, 1304-
Blair, E. & Blair, J. (2006). Dual frame web-telephone sampling for rare groups. Journal of
Official Statistics, 22, 211-229.
Blair, J. & Conrad, F.G. (2011). Sample size for cognitive interview pretesting. Public Opinion
Quarterly, 75, 636–658.
Blair, J. & Czaja, R. (1982). Locating a special population using random digit dialing. Public
Opinion Quarterly, 46, 585-590.
Blank, T. & Wasmer, M. (1996). Gastarbeiter oder Ausländer? Ergebnisse des Splits mit den
reformulierten Gastarbeiterfragen im ALLBUS. ZUMA-Nachrichten, 38, 45-69.
Blau, P. (1964). Exchange and power in social life. New York: John Wiley.
Literatur 617
Blohm, M. & Koch, A. (2013). Der Einsatz von Befragten-Incentives in einer bundesweiten
face-to-face-Umfrage. mda, 7, 89-122.
Blohm, M., Hox, J. & Koch, A. (2006). The influence of interviewer’s contact behavior on the
Contact and cooperation rate in face-to-face household surveys. International Journal of
Public Opinion Research, 19, 97-111.
Blossfeld, H.P. & Rohwer, G. (2002). Techniques of event history modeling. Mawah, NJ: Erl-
baum
Blossfeld, H.P., Hamerle, A. & Mayer, K.U. (1988). Ereignisanalyse. Frankfurt am Main: Cam-
pus.
Blumer, H. (1956). Sociological analysis and the variable. American Sociological Review, 22,
689-690.
Blyth, B. (1997). Developing a speech recognition application for survey research. In L. Ly-
berg et al. (Eds.), Survey measurement and process quality (pp. 249-266). New York: John
Wiley.
Börkan, B. (2009). The mode effect in mixed mode surveys: Mail and web surveys. Social
Science Computer Review, 28, 371-380.
Börsch-Supan, A. et al. (2004). Correcting the participation bias in an online survey. (Report).
München: Universität München.
Bohrnstedt, G.W. & Knoke, D. (1988). Statistics for social data analysis. Itasca, Ill: Peacock.
Bohrnstedt, G.W., Mohler, P. Ph. & Müller, W. (Eds.) (1987). An empirical study of the reliabi-
lity and stability of survey research items. Sociological Methods & Research, 15.
Bollen, K.A. (1989). Structural equations with latent variables. New York: Wiley.
Borg, I. (2000). Explorative multidimensionale Skalierung (ZUMA How-to-Reihe Nr. 1).
Mannheim: ZUMA.
Borg, I. (2003). Führungsinstrument Mitarbeiterbefragung (3. überarbeitete Auflage). Göttin-
gen: Hogrefe.
Borg, I. & Groenen, P. (2010). Modern multidimensional scaling (2. Auflage). New York:
Springer.
Borg, I. & Shye, S. (1995). Facet theory: Form and content. Newbury Hill, CA: Sage.
Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation (4. Auflage). Berlin: Sprin-
ger.
Boruch, R.F. (1971). Assuring confidentiality of responses in social research: A note on stra-
tegies. American Sociologist, 6, 308-311.
Bosnjak, M. (1997). Internetbasierte, computervermittelte Fragebogenuntersuchungen. St. Au-
gustin: Gadez Verlag.
Bosnjak, M. (2002). (Non)Response bei Web-Befragungen. Aachen: Shaker.
Bosnjak, M., Metzger, G. & Gräf, L. (2010). Understanding the willingness to participate in
mobile surveys: Exploring the role of utilitarian, affective, hedonic, social, self-expressive
and trust-related factors. Social Science Computer Review, 28, 350-370.
Bosnjak, R., Tuten, T.L. & Bandilla, W. (2001). Participation in Web.surveys – A typology.
ZUMA-Nachrichten, 48, 7-17.
Bosnjak, M. et al. (2008). Prenotification in Web-based access panel surveys: The influence
of mobile text messaging versus e-Mail on response rates and sample composition. Social
Science Computer Review, 26, 213-223.
Boulianne, J. (2013). Examining the gender effects of differential incentive amounts in a web
survey. Field Methods, 25, 91-104.
618 Literatur
Boudon, R. (1979). Generating models as a research strategy. In R.K. Merton, J.S. Coleman
& P.H. Rossi (Eds.), Qualitative and quantitative research (pp. 51-64). New York: The Free
Press.
Boyle, T. et al. (2012). Response fraction: A study and meta-analysis. Field Methods, 24, 112-
132.
Braun, M. (2000). Evaluation der Äquivalenz eines gemeinsamen Satzes an Indikatoren in der
interkulturell vergleichenden Sozialforschung. (ZUMA How-to-Reihe Nr. 3). Mannheim:
ZUMA.
Braun, M. & Harkness, J. (2005). Text and context: Challenges to comparability in survey
Questions (ZUMA-Nachrichten Spezial Band 11, S. 95-107). Mannheim: ZUMA.
Bredenkamp. J. (1969). Experiment und Feldexperiment. In C.F. Graumann, (Hrsg.). Hand-
buch der Psychologie, 7. Band: Sozialpsychologie. 1. Halbband: Theorien und Methoden
(S.322-374). Göttingen: Hogrefe.
Brick, J.M. & Lepkowski, J.M. (2008). Multiple mode and frame telephone surveys. In J.M
Lepkowski et al. (Eds.), Advances in telephone survey methodology (pp. 149-169). Hobo-
ken, NJ: John Wiley.
Brick, J.M. et al. (2007). Cell phone survey feasibility in the U.S.: Sampling and calling cell
numbers versus landline numbers. Public Opinion Quarterly, 71, 23-39.
Brick, J.M. & Williams, D. & Montaquila, J.M. (2011). Address-based sampling of subgroups.
Public Opinion Quarterly, 75, 409-428.
Bundesministerium für Familie, Senioren, Frauen und Jugend (2012). Familienatlas 2012.
Berlin: Bundesministerium für Familie, Senioren, Frauen und Jugend.
Burger, C. et al. (2010). Reaching the mobile respondent. Determinants of high-level mobile
phone use among a high-coverage group. Social Science Computer Review, 28,336-349.
Burt, R.S. (1984). Network items and the General Social Survey. Social Networks, 6, 293-339.
Buskirk, T.D. & Andrus, C.H. (2014). Making mobile browser surveys smarter: Results from
a randomized experiment comparing online surveys completed via computer or smart-
phone. Field Methods, 26, 322-342.
Byrne, B.M. (1998). Structural equation modeling with LISREL, PRELIS, and SIMPLIS. New
York, NY: Routledge.
Byrne, B.M. (2006. Structural equation modeling with EQS (2nd edition). New York, NY:
Routledge.
Byrne, B.M. (2010). Structural equation modeling with AMOS. New York, NY: Routledge.
Byrne, B.M. (2012). Structural equation modeling with Mplus. Basic concepts, applications,
and programming. New York, NY: Routledge
Callegaro, M. et al. (2007). Fitting disposition codes to mobile phone surveys: Experiences
of studies in Finland, Slovenia and the USA. Journal of the Royal Statistical Association A,
170, 647-670.
Campanelli, P. & O’Muircheartaigh, C. (2002). The importance of experimental control in
testing the impact of interviewer continuity on panel survey nonresponse. Quality and
Quantity, 36, 129-144.
Campbell, D.T. & Fiske, D.W. (1959). Convergent and discriminant validation by the multi-
trait-multimethod matrix. Psychological Bulletin, 56, 81-105.
Campbell, D.T. & Stanley, J.C. (1963). Experimental and quasi-experimental designs for re-
search. Chicago: Rand MacNally.
Literatur 619
Cannell, C.F., Fowler, F.J. & Marquis, K.H. (1968). The influence of interviewer and respondent
psychological and behavioral variables in the reporting of household interviews. Vital and
Health Statistics, Series 2, No. 26.
Carley-Baxter, L.S., Peytchev, A. & Black, M.C. (2010). Comparison of cell phone and land-
line survey: A design perspective. Field Methods, 22, 3-15.
Carnap, R. (1956). The methodological character of theoretical concepts. In H. Feigl & M.
Scriven (Eds.), Minnesota Studies in the Philosophy of Science I (pp. 38-76). Minneapolis:
University of Minnesota Press.
Casady, R.J. & Lepkowski, J.M. (1991). Optimal allocation for stratified telephone survey de-
sign. Proceedings of the Section on Survey Research Methods (111-116). American Statisti-
cal Association.
Catlin, G. & Ingram, S. (1988). The effects of CATI on costs and data quality: A comparison
CATI and paper methods on centralized interviewing. In R.M. Groves et al. (Eds.), Tele-
phone survey methodology (pp. 437-450). New York: John Wiley.
Caviglia-Harris, J. et al. (2012). Improving household surveys through computer-assisted
data Collection: Use of touchscreen laptops in challenging environments. Field Methods,
24, 74-94.
Champney, H. & Marshall, H. (1939). Optimal refinement of rating scales. Journal of Applied
Psychology, 23, 323-331.
Chapman, D.W. & Weinstein, R.B. (1990). Sampling design for a monitoring plan for CATI
interviewing. Journal of Official Statistics, 6, 205-211.
Chaudhuri, A. (2010). Randomized response and indirect questioning techniques in surveys.
Boca Raton, FL: CRC Press.
Cherry, C. (1957). On human communication. A review, a survey and a criticism. London:
Chapman & Hall.
Christen, P. (2012). Data matching. New York: Springer.
Church, A. (1993). Estimating the effect of incentives on mail survey response rates: A me-
ta-analysis. Public Opinion Quarterly, 57. 62-79.
Cliff, N. (1959). Adverbs as multipliers. Psychological Review, 66, 27-44.
Cochran, W.G. (1977). Sampling techniques (3rd edition). New York: John Wiley.
Cochran, W.G. (1983). Planning and analysis of observational studies. New York: John Wiley.
Collins, A.M. & Quillian, M.R. (1970). Facilitating retrieval from semantic memory: The
effect of repeating part of an inference. Acta Psychologica, 33, 304-314.
Committee of Advances in Collecting and Utilizing Biological Indicators and Genetic Infor-
mation in Social Sciences Surveys, Weinstein, M., Vaupel, J.W. & Wachter, K.W. (Eds.).
Biosocial surveys. New York: The National Academies Press.
Conklin, E.S. (1923). The scale of values method for studies in genetic psychology. University of
Oregon Publications, 2, No. 1.
Connett, W.E. (1998). Automated management of survey data: An overview. In M.P. Cou-
per et al. (Eds.), Computer-assisted survey information collection (pp. 245-262). New York:
John Wiley.
Conrad, F.G. & Schober, M.F. (2000). Clarifying question meaning in a household telephone
survey. Public Opinion Quarterly, 64, 1-28.
Conrad, F.G., Schober, M.F. & Coiner, T. (2007). Bringing features of human dialogue to web
surveys. Applied Cognitive Psychology, 21, 165-187
620 Literatur
Conrad, F.G. et al. (2013). Interviewer speech and the success of survey invitations. Journal of
the Royal Statistical Society, 176, 191-210.
Converse, J.M. (1964). The nature of belief systems in mass publics. In D. Apter (ed.), Ideology
and discontent (S. 206-261). New York: Free Press.
Corkrey, R. & Parkinson, L. (2002). Interactive voice response: review of studies 1989-2000.
Behavior Research Methods. Instruments, & Computers, 36, 342-353.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika,
16, 297-334
Cronbach, L.J. & Gleser, G.C. (1965). Psychological tests and personal decisions. Urbana. Uni-
versity of Illinois Press.
Couper, M.P. (2008). Designing effective web surveys. New York: John Wiley.
Couper, M.P. & Groves, R.M. (1992). Interviewer reactions to alternative hardware for com-
puter-assisted personal interviewing. Journal of Official Statistics, 8, 201-210.
Couper, M.P. & Nicholls II, W.L. (1998). The history and development of computer-assisted
survey information collection methods. In M.P. Couper et al. (Eds.), Computer-assisted
survey information collection (pp. 1-21). New York: John Wiley.
Couper, M.P. & Rowe, B. (1996). Evaluation of a computer-assisted Self-interviewing (CASI)
component in a CAPI survey. Public Opinion Quarterly, 60, 89-105.
Couper, M.P. & Wagner, J. (2011). Using paradata and responsive design to manage survey
nonresponse. Proceedings of the World Statistics Congress of the International Statistical
Institute.
Couper, M.P., Mathiowetz, N.A. & Singer, E. (1995). Related households, mail handlings, and
returns to the 1990 census. International Journal of Public Opinion Research, 7, 172-177.
Couper, M.P., Singer, E. & Tourangeau, R. (2004). Does voice matter? An interactive voice
response (IVR) experiment. Journal of Official Statistics, 20, 551-570
Couper, M. P., Tourangeau, R., & Kenyon, K. (2004). Picture this! An analysis of visual effects
in web surveys. Public Opinion Quarterly, 68, 255-266.
Couper, M.P., Tourangeau, R. & Conrad, F.G. (2007). Evaluating the effectiveness of visual
analogue scales. Social Science Computer Review, 24, 227-245.
Couper, M.P., Traugott, M.W. & Lamias, M.J. (2001). Web survey design and administration.
Public Opinion Quarterly, 65, 235-253.
Coxon, A.P.M. (1999). Sorting data: Collection and analysis. Thousand Oakes: Sage.
Crites, S.L. et al. (1995). Bioelectrical echoes from evaluative categorization: II. A late positive
brain potential that varies as a function of attitude registration rather than attitude report.
Journal of Personality and Social Psychology, 68, 997-1013.
Crowne, D. & Marlowe, D. (1964). The approval motive. New York: John Wiley.
Curtin, R., Presser, S. & Singer, E. (2005). Changes in telephone survey nonresponse over the
the past quarter century. Public Opinion Quarterly, 69, 87-98.
Curtin, R., Singer, E. & Presser, S. (2007). Incentives in random digit dial telephone surveys:
A replication and extension. Journal of Official Statistics, 23, 91-105.
D’Agostino, R.B. Jr. (1998). Propensity score methods for bias reduction for the comparison
of a treatment to a non-randomized control group. Statistics in Medicine, 17, 2265-2281.
Dalton, D.R., Daily, C.M & Wimbush, J.C. (1997). Collecting ‘sensitive’ data in business
ethics research: A case for the Unmatched Count Technique (UCT). Journal of Business
Ethics,16, 1049–1057.
Literatur 621
Dalton, D.R., Wimbush, J.C. & Daily, C.M. (1994). Using the Unmatched Count Technique
(UCT) to estimate base rates for sensitive behavior. Personnel Psychology 47, 817–828.
Das, M. (2012). Innovation der Online-Datenerhebung für wissenschaftliche Forschungen:
Das niederländische MESS-Projekt. In Faulbaum, F., Stahl, M. & Wiegand, E. (Hrsg.),
Qualitätssicherung in der Umfrageforschung (S. 75-101). Wiesbaden: VS Verlag.
Das, M. & Couper, M.P. (2014). Optimizing opt-out consent for record linkage. Journal of
Official Statistics, 30, 479-497.
Davidov, E. et al. (2014). Measurement equivalence in cross-national research. Annual Re-
view of Sociology, 40, 55-75.
Davern, M. et al. (2003). Prepaid monetary incentives in data quality in face-to-face inter-
views. Public Opinion Quarterly, 67, 139-147.
de Bruijne, M. & Wijnant, A. (2013). Comparing survey results via mobile devices and com-
puters: An experiment with a mobile web survey on a heterogeneous group of mobile de-
vices versus a computer-assisted web survey. Social Science Computer Review, 31, 482-504.
De Heer, W. (1999). International response trends: Results of an international survey. Journal
of Official Statistics, 15, 129-142.
De Heer, W., De Leeuw, E.D, Van der Zouwen, J. (1999). Methodological issues in survey
research: A historical review. BMS Bulletin de Méthodologie Sociologique, 64, 25-48.
De Leeuw, E.D. (2005). To mix or not to mix data collection modes in surveys. Journal of
Official Statistics, 21, 233–255
De Leeuw, E.D. (2008). Choosing the method of data collection. In E.D. De Leeuw, J.J. Hox &
D.A. Dillman, (Eds.). International handbook of survey methodology (pp. 113-135). New
York: Erlbaum.
De Leeuw, E.D. & Collins, M. (1997). Data collection methods and survey quality: An over-
view (pp. 199-220). In L. Lyberg et al. (Eds.), Survey measurement and process quality. New
York: John Wiley.
De Leeuw, E.D. & De Heer, W. (2002). Trends in household survey nonresponse: A longi-
tudinal and international perspective. In R.M. Groves et al. (Eds.), Survey nonresponse
(pp. 41-54). New York: John Wiley.
De Leeuw, E.D., Hox, J.J. & Dillman, D. (2008). Mixed-mode surveys: When and why? in E.D.
De Leeuw, J.J. Hox & D.A. Dillman (Eds.). International handbook of survey methodology
(pp. 299-316). New York: Lawrence Erlbaum.
De Leeuw, E.D. & Nicholls II, W. (1996). Technological innovations in data collection: Accep-
tance, data quality and costs. Sociological Research Online, 1. <http://www.socresonline.
org.uk/1/4/leeuw.html>
De Leeuw, E.D. et al. (1998). Interviewer opinions, attitudes and strategies regarding survey
participation and their effect on response. In A. Koch & R. Porst (Eds.), Nonresponse in
survey research (ZUMA-Nachrichten Spezial Nr. 4, pp. 239-248). Mannheim: ZUMA.
De Leeuw, E.D. et al. (2007). The influence of advance letters on response in telephone sur-
veys. Public Opinion Quarterly, 71, 413-443.
De Pijper, W.M. & Saris, W.E. (1986). Computer assisted interviewing using home compu-
ters. European Research, 14, 144-150.
Dean, E. et al. (2005). Developing as low-cost technique for parallel cross-cultural instrument
development (pp. 31-40). In Hoffmeyer-Zlotnik, J.H.P. & J. Harkness (Eds.), Methodolo-
gical aspects in Cross-National research (ZUMA-Nachrichten Spezial Bd. 11). Mannheim:
GESIS-ZUMA.
622 Literatur
Dykema, J. et al. (2017). Factors associated with participation in the collection of saliva
samples by mail in a survey of older adults. Public Opinion Quarterly, 81, 57-85.
Eckman, S. et al. (2014). Assessing the mechanisms of misreporting to filter questions in
surveys. Public Opinion Quarterly, 78, 721–733
Edwards, A.L. (1957). The social desirability variable in personality assessment and research.
New York: Dryden.
Edwards, T.P., Suresh, R. & Weeks, M.F. (1998). Automated call scheduling: Current systems
and practices. In M.P. Couper et al. (Eds.), Computer assisted survey information collection
(pp. 285-306). New York: John Wiley.
Edwards, W. (1955). The prediction of decisions among bets. Journal of Experimental Psycho-
logy, 50, 201-214.
Enders, C.K. (2010). Applied missing data analysis. New York: The Guilford Press.
Engel, U. (1998). Einführung in die Mehrebenenanalyse. Wiesbaden: Springer VS.
Engel, U. & Reinecke, J. (1994). Panelanalyse. Berlin: de Gruyter.
Engel, U. et al. (2013). Wissenschaftliche Umfragen. Methoden und Fehlerquellen. Frankfurt
am Main: Campus.
Engel, U. et al. (Eds.) (2015). Improving survey methods. New York: Routledge.
Epstein, J.F., Barker, P.R. & Kroutil L.A. (2001). Mode effects in self-reported mental health
data. Public Opinion Quarterly, 65, 529-549.
Esser, H. (1986). Können Befragte lügen? Kölner Zeitschrift für Soziologie und Sozialpsycho-
logie,38, 314-336.
European Social Survey (2014). ESS Round 7 Translation Guidelines. London: ESS ERIC
Headquarters, Centre for Comparative Social Surveys, City University London.
Evans, J.St.B.T. (2008). Dual-processing accounts of reasoning, judgment and social cogni-
tion. Annual Review of Psychology, 59, 255- 278.
Evans, R.L., Hansen, W.B. & Mittlemark, M.B. (1977). Increasing the validity of self-reports
of smoking behavior in children. Journal of Applied Psychology, 62, 521-523.
Fahrmeir, L. et al. (2004). Statistik (5. Auflage). Berlin-Heidelberg-New York: Springer.
Fahrmeier, L., Hamerle, A. & Tutz, G. (Hrsg.) (1996). Multivariate statistische Verfahren. Ber-
lin: de Gruyter.
Faulbaum, F. (1984a). Ergebnisse der Methodenstudie zur internationalen Vergleichbarkeit
von Einstellungsskalen in der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften
(ALLBUS) 1982 (ZUMA-Arbeitsbericht Nr. 04/84). Mannheim: ZUMA.
Faulbaum, F. (1984b). Zur Konstruktinvarianz numerischer und verbaler Kategorialskalen.
ZUMA-Nachrichten, 14, 46-59.
Faulbaum, F. (1986). Projektberatung in Jordanien: ein Erfahrungsbericht. ZUMA-Nachrich-
ten, 10, 58-63.
Faulbaum, F. (1987a). Panelanalyse im Überblick. ZUMA-Nachrichten, 23, 26-44.
Faulbaum, F. (1987b). Intergroup comparisons of latent means across waves. Sociological
Methods & Research, 15, 317-335.
Faulbaum, F. (1990). Der internationale Vergleich von Messmodellen unter verallgemeiner-
ten Verteilungsbedingungen. ZUMA-Nachrichten, 26, 56-71.
Faulbaum, F. (1991). Von der Variablenanalyse zur empirischen Evaluation von Handlungs-
paradigmen. In H. Esser & K.G. Troitzsch (Hrsg.), Modellierung sozialer Prozesse (S. 111-
138). Bonn: Informationszentrum Sozialwissenschaften.
624 Literatur
Fowler, F.J. (2011). Coding the behavior interviewer and respondents to evaluate survey ques-
tions. In J. Madans et al. (Eds.), Question evaluation methods (pp. 7-22. Hoboken, NJ: John
Wiley.
Fowler F.J., Roman, A.M. & Xiao Di, Z. (1998) Mode effects in a survey of medicare prostate
surgery patients. Public Opinion Quarterly, 62, 29-46.
Fox, J.A. & Tracy, P.E. (1986) Randomized response. A method for sensitive surveys (Sage
University Paper Series on Quantitative Applications in the Social Sciences Vol. 07-058).
Newbury Park, CA.: Sage.
Frege, G. (1892). Über Sinn und Bedeutung. Zeitschrift für Philosophie und philosophische
Kritik, NF 100, 25-50.
Freitag, M. & Bauer, C.P. (2013). Testing for measurement equivalence in surveys. Public
Opinion Quarterly, 77, 24-44.
Fricker, S. et al. (2005). An experimental comparison of web and telephone surveys. Public
Opinion Quarterly, 69, 370-392.
Fricker, S. & Tourangeau, R. (2010). Examining the relationship between nonresponse pro-
pensity and data quality in two national household surveys. Public Opinion Quarterly, 74,
934-955
Frietsch, R. & Wirth, H. (2001). Die Übertragung der Magnitude-Prestigeskala von Wegener
auf die Klassifizierung der Berufe. ZUMA-Nachrichten, 48, 139-163.
Fuchs, M. (2008). Mobile web survey: A preliminary discussion of methodological Implica-
tions. In M.F. Schober & F.G. Conrad (Eds.), Envisioning the survey interview of the future
(pp. 77-94). Hoboken, NJ: John Wiley.
Fuchs, M. (2009). Asking for numbers and quantities: Visual design effects in paper & pencil
surveys. International Journal of Public Opinion Research, 21, 65-84.
Fuchs, M. (2012). Der Einsatz von Mobiltelefonen in der Umfrageforschung, In F. Faulbaum,
M. Stahl, & E. Wiegand (Hrsg.), Qualitätssicherung in der Umfrageforschung (S. 51-73).
Wiesbaden: VS Verlag.
Fuchs, M. & Busse, B. (2009). The coverage bias of mobile web surveys across European
Countries. International Journal of Internet Science, 4, 21-33.
Gabler, S. & Häder, S. (1997). Überlegungen zu einem Stichprobendesign für Deutschland.
ZUMA-Nachrichten 41, 7-18
Gabler, S. & Häder, S. (1998). Probleme bei der Anwendung von RLD-Verfahren. S. 58-68
in: S. Gabler, S. Häder & J. Hoffmeyer-Zlotnik (Hrsg.), Telefonstichproben in Deutschland.
Opladen: Westdeutscher Verlag
Gabler, S. & Häder, S. (1999). Erfahrungen beim Aufbau eines Auswahlrahmens für Telefon-
stichproben in Deutschland. ZUMA-Nachrichten 44, 45-61.
Gabler, S., Hoffmeyer-Zlotnik, J. & Krebs, D. (Hrsg.) (1994). Gewichtung in der Umfragepra-
xis. Wiesbaden: Westdeutscher Verlag.
Gabler, S., Häder, S. & Lynn, P. (2006). Design effects for multiple design samples. Survey
Methodology, 32, 115-120.
Gabler, S. & Quatember, A. (2013). Repräsentativität von Subgruppen bei geschichteten Zu-
fallsstichproben. AStA Wirtschafts- und Sozialstatistisches Archiv, 7, 105–119.
Gadamer, H.-G. (1990). Wahrheit und Methode. Tübingen: J.C.B. Mohr.
Galesic, M. (2006). Dropouts on the web: Effects of interest and burden experience during an
online survey. Journal of Official Statistics, 22, 313–328.
626 Literatur
Galesic, M. et al. (2008). Eye-tracking data: New insights in response-order effects and other
cognitive shortcuts in survey responding. Public Opinion Quarterly, 72, 892-913.
Galvez, G. et al. (2009). Development of an iPod audio computer assisted self-interview to
increase the representation of low-literacy populations in survey research. Field Methods,
21, 407-415.
Ganter, B. & Wille, R. (1996). Formal concept analysis. New York: Springer.
Gaskell, G.D., O’Muircheartaigh, C.A. & Wright, D.B. (1994). Survey questions about the
frequency of vaguely defined events. Public Opinion Research, 58, 241-254.
Gaziano, C. (2005). Comparative analysis of within-household respondent selection
techniques. Public Opinion Quarterly, 69, 124-157.
Gfroerer, J. C.& Hughes, A.L. (1991). The feasibility of collecting drug abuse data by telepho-
ne. Public Health Reports, 106, 384-393.
Gigerenzer, G. (1991). From tools to theories: A heuristic of discovery in cognitive psycholo-
gy. Psychological Review, 98, 254-267.
Gilbert, N. & Troitzsch, K.G. (2005). Simulation for the social scientist (2n edition). Berkshire:
Open University Press.
Goeritz, A.S. (2006a). Incentives in web studies: Methodological issues and review. Internati-
onal Journal of Internet Science, 1, 58-70.
Goeritz, A.S. (2006b). Cash lotteries in online panels. Social Science Computer Review, 24,
445-459.
Goeritz, A.S. (2008). The long-term effect of material incentives on participation in online
panels. Field Methods, 20, 211-225.
Goeritz, A.S. & Luthe, S.C. (2013). Effects of lotteries on response behavior in online panels.
Field Methods, 25, 219-237.
Goeritz, A.S. & Wolff, H.-G. (2007). Lotteries as incentives in longitudinal web studies. Social
Science Computer Review, 25, 99-110.
Goldstein, K.M. & Jennings, M.K. (2002). The effect of advance letters on cooperation in a list
sample telephone survey. Public Opinion Quarterly, 66, 608-617.
Gordoni, G. & Schmidt, P. (2010). The decision to participate in social surveys: The case of
The Arab minority in Israel – An application of the theory of reasoned action. Internatio-
nal Journal of Public Opinion Research, 22, 364-391.
Gordoni, G., Schmidt, P. & Gordoni, Y. (2012). Measurement invariance across face-to-face
and telephone modes: The case of minority-status collectivistic oriented-groups. Interna-
tional Journal of Public Opinion Research, 24, 185-207.
Graesser, A.C., et al. (2006). Question understanding AID (QAID): A web facility that tests
question comprehensibility. Public Opinion Quarterly, 70, 3-22.
Granda, P., Wolf, Ch. & Hadorn, R. (2010). Harmonizing survey data. In Harkness, J. et al.
(Eds.) Survey methods in multinational, multiregional, and multicultural contexts (pp. 315-
322). New York: John Wiley.
Granquist, L. (1997). The new view on editing. International Statistical Review, 65, 381-387.
Granquist, L. & Kovar, J. (1997). Editing of survey data: How much is too much? In L. Lyberg
et al. (Eds.), Survey Measurement and Process Quality (pp. 425-435). New York: John
Wiley.
Gravlee, C.C. et al. (2013). Mode effects in free-list elicitation: Comparing oral, written, and
web-based data collection. Social Science Computer Review, 31, 119–132.
Literatur 627
Greenberg, B.G. et al. (1971). Application of the randomized response technique in obtaining
quantitative data. Journal of the American Statistical Association, 66, 243-250.
Gribble, H.P. et al. (2000). The impact of T-ACASI interviewing on reporting drug use among
men who have sex with men. Substance Use and Misuse, 80, 869-890.
Grice, H. (1975). Logic and conversation. In P. Cole & T. Morgan (Eds.), Syntax and semantics
(Vol 3, Speech acts, pp. 41-58). New York: Seminar Press.
Groeben, N. (1986). Handeln, Tun, Verhalten. Tübingen: Francke.
Groen, J.A. (2012). Sources of error in survey and administrative data: The importance of
reporting procedures. Journal of Official Statistics, 28, 173-198.
Groves, R.M. (1989) Survey errors and survey costs. New York: John Wiley.
Groves, R.M. (1991). Measurement error across discipline. In P.P. Biemer et al. (Eds.), Mea-
surement errors in surveys (pp. 1-25). New York: John Wiley.
Groves, R.M. (2006). Nonresponse rates and nonresponse bias in household surveys. Public
Opinion Quarterly 70, 646-675.
Groves, R.M., Cialdini, R.B. & Couper, M.P. (1992). Understanding the decision to participa-
te. in a survey. Public Opinion Quarterly, 56, 475-495.
Groves, R.M. & Couper, M.P. (1998). Nonresponse in Household interview surveys. New York:
John Wiley.
Groves, R.M. & Fultz, N.H. (1985). Gender effects among telephone interviewers in a survey
of economic attitudes. Sociological Methods & Research, 14, 31-52.
Groves, R.M. & Kahn, R.L. (1979). Surveys by telephone: A national comparison with personal
interviews. New York: Academic Press.
Groves, R.M. & Heeringa, S.G. (2006). Responsive design for household surveys: Tools for
actively controlling survey errors and costs. Journal of the Royal Statistical Society, Series
A, 169, 439-457
Groves, R.M. & Lyberg, L. (2010). Total survey error: Past, present, and future. Public Opinion
Quarterly, 74, 849.879.
Groves, R.M. & Magilavy, L.J. (1986). Measuring and explaining interviewer effects in cen-
tralized telephone surveys. Public Opinion Quarterly, 50, 251-266.
Groves, R.M. & McGonagle, K.A. (2001). A theory-guided interviewer training protocol re-
garding’ survey participation. Journal of Official Statistics, 17, 249–265.
Groves, R.M. & Nicholls II, W.L. (1986). The status of computer-assisted telephone interview-
ing: Part II-Data quality issues. Journal of Official Statistics, 2, 117-134.
Groves, R.M. & Peytcheva, E. (2008). The impact of nonresponse rates on nonresponse bias.
A meta-analysis. Public Opinion Quarterly, 72, 167-189.
Groves, R.M., Singer, E. & Corning, A. (2000). Leverage saliency theory of survey participa-
tion. Public Opinion Quarterly, 64, 299-308.
Groves, R.M. et al. (2009). Survey methodology (2nd edition). New York: John Wiley.
Guilford, J.P. (1954). Psychometric methods. New York: McGraw-Hill.
Gwartney, P.A. (2007). The telephone interviewer’s handbook: How to conduct standardized
Haas, H. (2009). Übersetzungsprobleme in der interkulturellen Befragung. Tagungsband
Probleme empirischer Kulturforschung. Interculture Journal, 8, 61-77.
Haberstroh, S. et al. (2002). Is the interdependent self more sensitive to question context
than The independent self? Self-construal and the observation of conversational norms.
Journal of Experimental Social Psychology, 38, 323–329.
628 Literatur
Häder, M. (2009). Der Datenschutz in den Sozialwissenschaften (Working Paper No. 90). Ber-
lin: Rat für Sozial- und Wirtschaftsdaten.
Häder (2014). Delphi-Befragungen. Wiesbaden: Springer VS.
Häder, S. (2000). Telefonstichproben (ZUMA How-to-Reihe Nr. 6). Mannheim: ZUMA.
Häder, S. & Gabler, S. (2003). Sampling and estimation. In J.A. Harkness, F.J.R., Van de Vijver
& P. Ph. Mohler (Eds.) (2003). Cross-cultural survey methods (pp. 117-134). Hoboken, NJ:
John Wiley.
Häder, M. & Häder, S. (Hrsg.) (2009). Telefonbefragungen über das Mobilfunknetz. Wiesba-
den: VS Verlag für Sozialwissenschaften
Häder, M., Häder, S. & Schmich, P. (Hrsg.) (2018). Telefonumfragen in Deutschland. Wiesba-
den: Springer VS.
Häder, S. & Lynn, P. (2007). How representative can a multi-nation survey be? In R. Jowell
et al. (Eds.), Measuring attitudes cross-nationally: Lessons from the European social survey.
(pp. 33-52). London: Sage.
Hagan, D.E. & Collier, C.M. (1983). Must respondent selection procedures for telephone sur-
veys be invasive? Public Opinion Quarterly, 47, 547-556.
Hagennars, J.A. & McCutcheon, A.L. (2002). Applied latent class analysis. Cambridge: Cam-
bridge University Press.
Hakel, M.D. (1968). How often is often? American Psychologist 23, 533-534
Hambleton, R.K., Merenda, P.F. & Spielberger, C.D. (Eds.) (2005). Adapting educational and
psychological tests for cross-cultural assessment. Mahwah: Lawrence Erlbaum.
Hammerton, M. (1976). How much is a large part? Applied Ergonomics, 10-12.
Han, S. et al. (2013) A cultural neural science approach to the biosocial nature of the brain.
Annual Review of Psychology, 64, 335-359.
Hank, K., Jürges, H. & Schaan, B. (2009). Die Erhebung biometrischer Daten im Survey of
Health, Aging and Retirement in Europe. Methoden-Daten-Analysen, 3, 97-108.
Hansen, M. (2006). The effects of incentive. Interview length, and interviewer characteristics
on response rates in a CATI study. International Journal of Public Opinion Research, 19,
112-121.
Hansen, S.E. & Couper, M.P. (2004). Usability testing to evaluate computer-assisted instru-
ments. In S. Presser et al. (2004). Methods of testing and evaluating survey questionnaires
(S. 357-384). Hoboken NJ: John Wiley.
Hansen, M., Hurwitz, W. & Bershad, M. (1961). Measurement errors in censuses and surveys.
Bulletin of the International Statistical Institute (32nd session 38, Part 2), 359-374.
Harkness, J.A., Van de Vijver, F.J.R. & Mohler, P.Ph. (Eds.) (2003). Cross-cultural survey me-
thods. Hoboken, NJ: John Wiley.
Harkness, J.A., Pennell, B.E. & Schoua-Glucksberg, A. (2004). Survey questionnaire transla-
tion and assessment. In S. Presser et al. (2004). Methods of testing and evaluating survey
questionnaires (pp. 453-473). Hoboken NJ: John Wiley.
Harkness, J. (2007). Round 3 Translation Guidelines. Online-Dokument: http://www.europe-
ansocialsurvey.org/index.php?option=com_docman&task=doc_download&gd=178&I-
temid=80.
Harkness, J.A. et al. (Eds.) (2010). Survey methods in multinational, multiregional, and Multi-
cultural contexts. Hoboken: John Wiley.
Literatur 629
Harkness, J.A., Villar, A. & Edwards, B. (2010). Translation, adaptation, and design. In J.A.
Harkness et al. (Eds.) (2010). Survey methods in multinational, multiregional, and multi-
cultural contexts (pp. 117-140). Hoboken: John Wiley.
Hartley, H.O. (1974). Multiple frame methodology and selected application. Sankhya, 36,
99-118.
Harris, L.E., Weinberger, M. & Tierney, W.M. (1997). Assessing inner-city patients’ hospital
experiences. A controlled trial of telephone interviews versus mailed surveys. Medical
Care, 35, 70–76.
Hartung, J., Elpelt, B. & Klösener, K.-H. (2009). Statistik (15. Auflage). München: Olden-
bourg.
Hartung, J. & Elpelt, B. (2007). Multivariate Statistik (6. Auflage). München: Oldenbourg.
Hatcher, L. (1998). A step-by-step approach to using the SAS-system for factor analysis and
structural equation modeling. Cary: SAS Institute.
Hatchett, S. & Schuman, H. (1975). White respondents and race-of-interviewer effects. Public
Opinion Quarterly, 39, 523-528.
Haunberger, S. (2011). Explaining Unit-Nonresponse in online panel surveys: An application
of the extended theory planned behavior. Journal of Applied Social Psychology, 41, 2999-
3025.
Hayes, A.F. (2013). Introduction to mediation, moderation, and conditional process analysis: A
regression-based approach. Ney York NY: The Guilford press.
Heberlein, T.A. & Baumgartner, R. (1978). Factors affecting nonresponse rates to mailed
questionnaires: A quantitative analysis of the published literature. American Sociological
Review, 43, 447-462.
Hedlin, D. (2003). Score functions to reduce business survey editing at the U.K. Office for
National Statistics. Journal of Official Statistics, 19, 177-199.
Heeringa, S.G. & O’Muircheartaigh, C. (2010). Sampling designs for cross-cultural and
cross-national survey programs. In J.A. Harkness et. al. (Eds.). Survey methods in mul-
tinational, multiregional and multicultural contexts (pp. 251-267). New York: John Wiley.
Heerwegh, D. (2009). Mode differences between face-to-face and web surveys: An experi-
mental investigation of data quality and social desirability effects. International Journal of
Public Opinion Research, 21, 111-121.
Heerwegh, D. & Loosveldt, G. (2002). An evaluation of the effect of response formats on data
quality in web surveys. Social Science Computer Review, 20, 471-484.
Heerwegh, D. & Loosfeldt, G. (2006). An experimental study on the effects of personalization
survey length statements, progress indicators and survey sponsor logos in web surveys.
Journal of Official Statistics, 22, 191-210.
Heckathorn, D.D. (1997). Respondent-driven sampling: A new approach to the study of hid-
den populations. Social Problems, 44, 174-199.
Heckel, C. (2002). Erstellung der ADM-Telefonauswahlgrundlage. In S. Gabler & S. Häder
(Hrsg.), Telefonstichproben (S. 11-31). Münster: Waxman.
Heckel, C. (2007). Weiterentwicklung der CATI-ADM-Auswahlgrundlagen. In S. Gabler &
S. Häder (Hrsg.), Mobilfunk-Technologie - Eine Herausforderung für die Umfrageforschung
(S. 25-37) (ZUMA- Nachrichten Spezial Band 13). Mannheim: GESIS-ZUMA.
Heerwegh, D. & Loosfeldt, G. (2011). Assessing mode effects in a national crime Victimiza-
tion survey using structural equation models: Social desirability bias and acquiescence.
Journal of Official Statistics, 27, 49-63.
630 Literatur
Heike, H.-D. & Sauerbier, Th. (1997): MISTRAL - a new object-based micro simulation lan-
guage. In Bandilla, W. and Faulbaum, F. (Eds.): SoftStat’97 - Advances in Statistical Soft-
ware 6 (pp. 403-410). Stuttgart: Lucius & Lucius.
Heise, D.R. (1969). Separating reliability and stability in test-retest correlation. American
Sociological Review, 34, 93-101.
Heise, D.R. (1975). Causal analysis. New York: John Wiley.
Hembroff, L.A. et al. (2005). The cost-effectiveness of alternative advance mailings in a tele-
phone survey. Public Opinion Quarterly, 69, 232-245.
Hempel, C.G. & Oppenheim, P. (1948). Studies in the logic of explanation. Philosophy of
Science, 15, 135-175.
Higgins, C.A., Dimnik, T.P. & Greenwood, H.P. (1987). The DiskQ survey method. Journal of
Market Research Society, 37, 437-445.
Himmelfarb, S. & Lickteig, C. (1982). Social desirability and the randomized response
technique. Journal of Personality and Social Psychology, 43, 710-717.
Hippler, H.-J. (1985). Schriftliche Befragung bei allgemeinen Bevölkerungsstichproben. Un-
tersuchungen zur Dillmanschen „Total Design Method“. ZUMA-Nachrichten, 16, 39-56.
Hippler, H.-J., Schwarz, N. & Sudman, S. (Eds.) (1987). Social information processing and
survey methodology. New York: Springer.
Hippler, H.-J. et al. (1991). Der Einfluss numerischer Werte auf die Bedeutung verbaler Ska-
lenendpunkte. ZUMA-Nachrichten, 28, 54-65.
Hoffmann, H. (2007). Kombinierte Stichproben für Telefonumfragen – Ansätze in Europa. In
S. Gabler & S. Häder (Hrsg.), Mobilfunktelefonie - Eine Herausforderung für die Umfra-
geforschung (S. 47-57) (ZUMA-Nachrichten Spezial Band 13). Mannheim: GESIS.
Hoffmeyer-Zlotnik, J. & Wolf, Ch. (Eds.) (2003). Advances in cross-national comparison. New
York: Kluwer.
Hoffmeyer-Zlotnik, J. & Warner, U. (2012). Harmonisierung demographischer und sozioöko-
nomischer Variablen. Wiesbaden: Springer VS.
Hoffmeyer-Zlotnik, J. & Warner, U. (2013). Harmonising demographic and socio-demographic
variables vor cross-national comparative research. New York: Springer.
Hoffmeyer-Zlotnik, J. & Warner, U. (2013). Soziodemographische Standards für Umfragen in
Europa. München und Mering: Rainer Hampp Verlag.
Hofmans, J. et al. (2007). Bias and changes in perceived intensity of verbal qualifiers effected
by scale orientation. Survey Research Methods, 1, 97-108
Hofstätter, P.R. (1957). Die amerikanische und die deutsche Einsamkeit – American and Eu-
ropean loneliness. Verhandlungen des 13. Deutschen Soziologentages in Bad Meinberg
(S. 87-106). Wiesbaden: Westdeutscher Verlag.
Hofstätter, P.R. (1963). Einführung in die Sozialpsychologie (3. Auflage). Stuttgart: Alfred Krö-
ner.
Hofstätter, P.R. & Lübbert, H. (1958). Die Untersuchung von Stereotypen mit Hilfe des Pola-
ritätsprofils. Zeitschrift für Markt- und Meinungsforschung, 3, 127-135.
Holbrook, P.R. & Krosnick, J.A. (2010). Social desirability bias in voter turnout. Public Opin-
ion Quarterly, 74, 37-67.
Holbrook, A.L. et al. (2007). Response order effects in dichotomous categorical questions
Presented orally. Public Opinion Quarterly, 71, 325-348.
Literatur 631
Holbrook, P.R., Green, M.C. & Krosnick, J.A. (2003). Telephone vs. face-to-face interviewing
of national probability samples with long questionnaires. Public Opinion Quarterly, 67,
79-125.
Holland, P.W. (1986). Statistics and causal inference. Journal of the American Statistical Asso-
ciation, 81, 945-970.
Homans, G. (1958). Social behavior as exchange. American Journal of Sociology, 62, 597-606.
Hormuth, S. (1986). The sampling of experiences in situ. Journal of Personality, 54, 262-293.
Horvitz, D.G. & Thompson, D.J. (1952). A generalization of sampling without replacement
from a finite universe. Journal of the American Statistical Association, 47, 663-685.
Houtkoop-Steenstra, H. & Van den Bergh, H. (2000). Effects of introductions in large-scale
telephone survey interviews. Sociological Methods & Research, 28, 281-300.
Howe, E.S. (1962). Probabilistic adverbial qualifications of adjectives. Journal of Verbal Learn-
ing and Verbal Behavior 1, 225-242.
Hox, J. (1994). Hierarchical regression models for interviewer and respondent effects. Socio-
logical Methods and Research, 22, 300-318.
Hox, J. (1997). From theoretical concepts to survey questions. In L. Lyberg et al. (Eds.), Sur-
vey measurement and process quality (pp. 47-69). New York: John Wiley.
Hox, J. (2010). Multilevel analysis: Techniques and applications (2nd edition). Mahwah, NJ:
Erlbaum
Hox, J. & De Leeuw, E.D. (2002). The influence of interviewer’s attitude on behavior in House-
hold survey nonresponse: An international comparison. In R.M. Groves et al. (Eds.), Sur-
vey nonresponse (pp. 103-120). New York: John Wiley.
Hox, J., De Leeuw, E. & Kreft, I.G.G. (1991). The effect of interviewer and respondent cha-
racteristics on the quality of survey data: A multilevel model. In P. Biemer et al. (Eds.),
Measurement errors in surveys. New York: John Wiley.
Hox, J., De Leuuw, E. & Vorst, H. (1995). Survey participation as reasoned action: A behav-
ioral paradigm for survey nonresponse? Bulletin de Méthodology Sociologique, 47, 52-67.
Hox, J., De Leeuw, E. & Zijlmans, A.O.E. (2016). Measurement equivalence in mixed mo-
de-surveys. Frontiers in Psychology, 6, 1-11.
Hsiao, C. (2003). Analysis of panel data (2n edition). Cambridge, UK: Cambridge University
Press.
Hume, D. (1981). Untersuchungen über den menschlichen Verstand (Original erschienen
1748: An inquiry concerning human understanding). Stuttgart: Reclam.
Humpert, A. (2004). Erfahrungen mit Personennamen zur Bildung von Stichproben für Be-
triebsbefragungen. ZUMA-Nachrichten, 54, 141-153.
Humpert, A. & Schneiderheinze, K. (2000). Stichprobenziehung für telefonische Zuwanderer-
umfragen. Einsatzmöglichkeiten der Namensforschung (Onomastik). ZUMA-Nachrich-
ten 47, 36-59.
Huttenlocher, J., Hedges, L., & Bradburn, N. (1990). Reports of elapsed time: Bounding and
rounding processes in estimation. Journal of Experimental Psychology: Learning, Memory,
and Cognition, 16, 196-213.
Hyman, H. et al. (1954). Interviewing in social research. Chicago: University of Chicago Press.
Jäckle, A. (2008). Dependent interviewing: effects on respondent burden and efficiency of
data collection. Journal of Official Statistics, 24, 1–21.
Jäckle, A. (2009) Dependent interviewing: A framework and application to current research.
In P. Lynn (ed.), Methodology of longitudinal surveys (pp. 93–111). Chichester: John Wiley.
632 Literatur
Kalton, G. (2009). Methods for oversampling rare populations in social surveys. Survey Me-
thodology, 35, 125-141.
Kalton, G. & Anderson, D.W. (1986). Sampling rare populations. Journal of the Royal Statisti-
cal Society (Series A), 149, 65-82.
Kalton, G. & Flores-Cervantes, I. (2003). Weighting methods. Journal of Official Statistics,
19, 81-97.
Kaminska, O., McCutcheon, A.L. & Billiet, J. (2010). Satisficing among reluctant respondents
in a cross-national context. Public Opinion Quarterly, 74, 956-984.
Kane, E. W., & Macaulay, L. J. (1993). Interviewer gender and gender attitudes. Public Opinion
Quarterly, 57, 1–28.
Kaplan, D. (2008). Structural equation modeling. Thousand Oaks: Sage.
Kaplowitz, M.D., Hadlock, T.D. & Levine, R. (2004). A comparison of web and mail survey
response rates. Public Opinion Quarterly 68, 94-101.
Keeter, S. et al. (2006). Gauging the impact of growing nonresponse on estimates from a Na-
tional RDD telephone survey. Public Opinion Quarterly, 70, 759-779.
Kendall, M. & Stuart, A. (1976). The advanced theory of statistics. Vol. 3 (3rd ed.). London:
Charles Griffin.
Kenny, D.A. (1979). Correlation and causality. New York: John Wiley.
Keuschnigg, M. & Wolbring, T. (Hrsg.) (2015). Experimente in den Sozialwissenschaften.
(Soziale Welt, Sonderband 22). Baden-Baden: Nomos.
Kieruj, N.D. & Moors, G. (2010). Variations in response style behaviour by scale format in
attitude Research. International Journal of Public Opinion Research, 22, 320-342.
Kim, J. M. & Warde, W. D., (2005). A mixed randomized response model. Journal of Statistical
Planning and Inference, 133, 211–221.
Kim, J.M. et al. (2010). Comparison between Self-administered questionnaire, and computer
assisted self-interview for supplementary survey nonresponse. Field Methods, 22, 57-69.
Kirk, R.E. (1995). Experimental design; Procedures for the social sciences (3rd edition). Paci-
ficGrove: Brooks/Cole.
Kish, L. (1949). A procedure for objective respondent selection within a household. Journal
of the American Statistical Association, 44, 380-387.
Kish, L. (1965). Survey sampling. New York: John Wiley.
Kish. L. (1987). Statistical design for research. New York: John Wiley.
Klausch, T., Hox, J.J. & Schouten, B. (2013). Measurement effects of survey mode on the equi-
valence of attitudinal rating scale questions. Sociological Methods & Research, 42, 227-263.
Klein, D.M. (1987). Causation in sociology today: A revised review. Sociological Theory, 5,
19-26.
Knobloch, S. et al. (2003). Imagery effects on the selective reading of internet newsmagazines.
Communication Research, 30, 3–29.
Knoke, D., Bohrnstedt, G.W. & Mee, A.P. (2002). Statistics for social data analysis (4th edi-
tion). Itasca, Ill: F.E. Peacock Publ.
Koch, A. (1998). Warum „mehr“ nicht gleichbedeutend mit „besser“ ist: Ausschöpfungsquo-
ten und Stichprobenverzerrungen in allgemeinen Bevölkerungsumfragen. ZUMA-Nach-
richten 42, 66-90.
König, C., Stahl, M. & Wiegand, E. (Hrsg.) (2011). Umfrageforschung. Entscheidungsgrundla-
ge für Politik und Wissenschaft (GESIS-Schriftenreihe Band 8). Bonn: GESIS-Leibniz-In-
stitut für Sozialwissenschaften.
634 Literatur
Kolenikov, S. & Kennedy, C. (2014). Evaluating three approaches to statistical adjust for mode
effects. Journal of Survey Statistics and Methodology, 2, 126–158.
Komorita, S.S. & Graham, W.K. (1965). Number of scale points and the reliability of scales.
Educational and Psychological Measurement, 25, 987-995.
Kooreman, F. & Scherpenzeel, A. (2014). Advanced body mass measurement, feedback and
health behaviors. Economics and Human Biology, 14, 141-153.
Kowalsky, H.-J. & Michler, G.O. (2003). Lineare Algebra (12. Auflage). Berlin: de Gruyter.
Krantz, D.H. et al. (1971). Foundations of measurement I. New York: Academic Press.
Krantz, D.H. et al. (1974). Foundations of measurement II. New York: Academic Press.
Kreuter, F. (2013a). Facing the nonresponse challenge. The ANNALS of the American Aca-
demy of Political and Social Science Vol. 645, 32-35.
Kreuter, F. (ed.) (2013b). Improving surveys with paradata: Analytic uses of process informa-
tion. Hoboken, NJ: John Wiley.
Kreuter, F., Presser, S. & Tourangeau, R. (2008). Social desirability bias in CATI, IVR, and
web surveys: The effects of mode and question sensitivity. Public Opinion Quarterly, 72,
847-865.
Kreuter, F. et al. (2011). The effects of asking filter questions in interleafed versus grouped
format. Sociological Methods & Research, 40, 80–104.
Kristof, W. (1966). Das Cliffsche Gesetz im Deutschen. Psychologische Forschung, 29, 22-31.
Krosnick, J.A. (1991). Response strategies for coping with the cognitive demands of attitude
measures in surveys. Applied Cognitive Psychology, 5, 213-236.
Krosnick, J.A. (1999). Survey research, Annual Review of Psychology, 50, 537-567.
Krosnick, J.A. (2011). Experiments for evaluating survey questions. In J. Madans et al. (Eds.),
Question evaluation methods (pp. 215-238. Hoboken, NJ: John Wiley.
Krosnick, J.A. & Alwin, D.F. (1987). An evaluation of a cognitive theory of response-order
effects in survey measurement. Public Opinion Quarterly, 51, 201-219.
Krosnick, J.A. & Berent, M.K. (1990). The impact of verbal labeling of response alternatives
and branching on attitude measurement reliability in surveys. Paper presented at the
American Association for Public Opinion Research, Annual Meeting, Lancaster, Pennsyl-
vania.
Krosnick, J.A. & Fabrigar, L.R. (Eds.) (2013). The handbook of questionnaire design. Oxford
University Press.
Krosnick, J.A. & Schuman, H. (1988). Attitude intensity, importance, and certainty and sus-
ceptibility to response effects. Journal of Personality and Social Psychology, 54, 940-952.
Krosnick, J.A. et al. (2002). The impact of „No Opinion“ response options on data quality.
Non-attitude reduction or an invitation to satisfice? Public Opinion Quarterly 66, 371-403
Krosnick, J.A. & Presser, S. (2010). Question and questionnaire design. In P.V. Marsden &
J.D. Wright (Eds.), Handbook of survey research (2nd edition) (pp. 263-313). Bingley, UK:
Emerald.
Kruskal, W. & Mosteller, F. (1979a). Representative sampling I: Non-scientific literature
excluding statistics. International Statistical Review, 47, 13-24.
Kruskal, W. & Mosteller, F. (1979b). Representative sampling II: Scientific literature excluding
statistics. International Statistical Review, 47, 111-123.
Kruskal, W. & Mosteller, F. (1979c). Representative sampling III: Current statistical literature.
International Statistical Review, 47, 245-265.
Literatur 635
Krueger, B.S. & West, B.T. (2014). Assessing the potential of paradata and other auxiliary data
for nonresponse adjustments. Public Opinion Quarterly, 78, 795-831.
Krysan, M. et al. (1994). Respose rates and response content in mail versus face-to-face sur-
veys. Public Opinion Quarterly, 58, 381-399.
Krysan, M., & Couper, M. P. (2003.) Race in the live and the virtual interview: Racial defer-
ence, social desirability, and activation effects in attitude surveys. Social Psychology Quar-
terly, 66, 364-383.
Krysan, M. & Couper, M.P. (2006). Race of interviewer effects: What happens on the web?
International Journal of Internet Science, 1, 17-28.
Kühnel, S.-M. & Krebs, D. (2012). Statistik für die Sozialwissenschaften (6. Auflage). Reinbeck:
Rowohlt.
Lakoff, G. (1971). On generative semantics. In D.D. Steinberg & L.A. Jacobovits (Eds.), Se-
mantics (pp. 232-296). New York: Cambridge University Press.
Lau, R., Sears, D.O. & Jessor, T. (1990). Fact or artifact revisited: Survey instrument effects
and pocket books politics. American Political Science Review, 83, 399-42
Lavrakas, P.J., Stasny, E.A. & Harpuder, B. (2000). A further investigation of the last-birthday
random selection method and within-unit coverage error. Proceedings of the Survey Re-
search Section Method, American Statistical Association (pp. 890-895).
Lazarsfeld, P.F. & Henry, N.W. (1968). Latent structure analysis. Boston: Houghton Mifflin.
Leary, M.R. (2007). Motivational and emotional aspects of the self. Annual Review of Psycho-
logy, 58, 317-344.
Le, K.T. et al. 2012). Within-household sampling conditioning on household size. Internatio-
nal Journal of Public Opinion Research, 25, 108-118.
Lee, S. (2006). Propensity score adjustment as a weighting scheme for volunteer panel web
surveys. Journal of Official Statistics, 22, 29-49.
Lee, G., Benoit-Bryan, J. & Johnson, T.P. (2011). Survey research in public administration:
Assessing mainstream journals with a total survey error framework. Public Administra-
tion Review, 72, 87-97.
Lee, S. & Hershberger, S. (1990). A simple rule for generating equivalent models in Covari-
ance structure modeling. Multivariate Behavioral Research, 25, 313-334.
Leim, I. (2008). Die Modellierung der Fertilitätsentwicklung als Folge individueller Entschei-
dungsprozesse mit Hilfe der Mikrosimulation. Marburg: Metropolis Verlag.
Lepkowski, J.M. (1988). Telephone sampling methods in the United States. In R.M. Groves et
al. (Eds.), Telephone survey methodology (pp. 73-98). New York: John Wiley.
Lessler, J. T. & Forsyth, B.H. (1996). A coding system for appraising questionnaires (pp. 259-
292). In N. Schwarz & S. Sudman (Eds.), Answering questions: Methodology for determin-
ing cognitive and communicative processes in survey research. San Francisco: Jossey-Bass
Publishers.
Lessler, J.T. & O’Reilly, J.M. (1995). Literacy limitations and solution for Self-administered
Questionnaires to enhance privacy. Statistical Policy Working Paper 23 (pp. 453-469).
Bethesda, MD: Council of Professional Associations for Federal Statistics.
Lewis, D. (1973). Counterfactuals. Cambridge: Harvard University Press.
Liebig, S., Sauer, C. & Friedhoff, S. (2015). Empirische Gerechtigkeitsforschung mit dem fak-
toriellen Survey. In M. Keuschnigg & T. Wolbring (Hrsg.), Experimente in den Sozialwis-
senschaften (S. 321 – 339). Soziale Welt Sonderband 22.
636 Literatur
Likert, R. (1932). A technique for the measurement of attitudes. Archives for Psychology, 22,
1-55.
Lillard, L.A. & Farmer, M.M. (1997). Linking Medicare and national survey data. Annals of
Internal Medicine, 127, 691-695.
Lilly, R.S. (1968a). Multiplying values of intensive probabilistic, and frequency adverbs when
combined with potency adjectives. Journal of Verbal Learning and Verbal Behavior 7, 854-
858.
Lilly, R.S. (1968b). The qualification of evaluative adjectives by frequency adverbs. Journal of
Verbal Learning and Verbal Behavior 7, 333-336.
Link, M.W. & Burks, A.T. (2013). Leveraging auxiliary data, differential incentives, and sur-
vey mode to target hard-to-reach groups in an address-based sample design. Public Opin-
ion Quarterly, 77, 696-713.
Link, M.W. & Mokdad, A. (2005). Advance letters as a means of improving respondent co-
operation in random digit dialing studies. Public Opinion Quarterly, 69, 572-587.
Link, M.W. et al. (2009). Measuring the quality of real-time telephone survey interpreters.
International Journal of Public Opinion Research, 21, 271-292.
Little, R.A. & Rubin, D.B. (2002). Statistical analysis of missing data (2nd edition). Hoboken,
NJ: John Wiley.
Liu, M. & Stainback, K. (2013). Interviewer gender effects on survey response responses to
marriage-related questions. Public Opinion Quarterly, 77, 606-618.
Lodge, M. (1981). Magnitude scaling, quantitative measurement of opinions. London: Sage.
Lohr, S.L. (2009). Multiple frame surveys. In D. Pfefferman & J.N.K. Rao (Eds.), Handbook
of Statistics Vol. 29A: Sample surveys: Design, methods and applications Burlington, MA:
Elsevier.
Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA:
Addison-Wesley.
Lütgepohl, H. (2006). New introduction to multiple time series analysis. New York: Springer.
Lugtig, P. & Lensvelt-Mulders, G.J.L.M. (2014). Evaluating the effect of dependent intervie-
wing on the quality of measures of change. Field Methods, 26, 172-190.
Lundquist, P. & Särndal, C.-E. (2013). Aspects of responsive design with applications to the
Swedish Living Conditions Survey. Journal of Official Statistics, 29, 557-582.
Lyberg, L. et al. (Eds.) (1997). Survey measurement and process quality. New York: John Wiley.
Lynch, J.P. (1993): The effects of survey design on reporting in victimization surveys – The
United States Experience. In W. Bilsky, C. Pfeiffer & P.Wetzels (Hrsg), Fear of crime and
criminal victimization (pp. 159-185). Stuttgart: Enke,
Lynch, P.J. & Horton, S. (2008). Web Style Guide. New Haven: Yale University Press
Lynn, P. (ed.) (2009). Longitudinal surveys. Hoboken, NJ: John Wiley.
Lynn, P. (2012). The impact of questioning method on measurement error in panel survey
Measures of benefit receipts: Evidence of a validation study. Journal of the Royal Statistical
Society A, 175, 289-308.
Lynn, P. et al. (2002). The effect of extended interviewer efforts on nonresponse bias. In
Groves, R.M. et al. (Eds.), Survey nonresponse (pp. 135-147). New York: John Wiley.
Lynn, P. et al. (2006). The effects of dependent interviewing on responses to questions on
income sources. Journal of Official Statistics, 22, 357-384.
Lynn, P. et al. (2007). Methods for achieving equivalence of samples in cross-national surveys:
The European Social Survey experience. Journal of Official Statistics, 23, 107-124.
Literatur 637
Madans, J. et al. (Eds.) (2011). Question evaluation methods. Hoboken, NJ: John Wiley.
Madden, J.M. & Bourdon, R.D. (1964). Effects of variations in scale format on judgment.
Journal of Applied Psychology, 48, 147-151.
Mair, P., Wu, E. & Bentler, P.M. (2010) EQS Goes R: Simulations for SEM Using the Package
REQS. Structural Equation Modeling, 17, 333-349
Manfreda, K.L., Vehovar, V. & Hlebec, V. (2004). Collecting ego-centered network data via
the web. Metodološki zvezki, 1, 295-321.
Manfreda, K.L., et al. (2008). Web surveys versus other survey modes: A meta-analysis com-
paring response rates. International Journal of Market Research, 50, 79-104.
Mangat, N. S. & Singh, R. (1990). An alternative randomized response procedure. Biometri-
ka, 77, 439-442.
Mann, C.B. (2005). Do advance letters improve preelection forecasts accuracy? Public Opin-
ion Quarterly, 69, 561-571.
Massey, J.T., O’Connor, D.J. & Krotki, K. (1997). Response rates in random digit dialing
(RDD) telephone surveys. Proceedings of the American Statistical Association, Section on
Survey Research Methods (pp. 202-712).
Masters, E.R. (1974). The relationship between type number of response categories and re-
liability of Likert-Type questionnaires. Journal of Educational Measurement, 11, 49-53.
Mathiowetz, N.A. & McGonagle, K.A. (2000). An assessment of the current state of depen-
dent interviewing in household surveys. Journal of Official Statistics, 16, 401-441.
Mayer, K.U. & Huinink, J. (1990). Alters-, Perioden- und Kohorteneffekte in der Analyse von
Lebensverläufen: oder: Lexis ade? in K.U. Mayer (Hrsg.), Lebensläufe und sozialer Wandel
(S. 442-459). Wiesbaden: Westdeutscher Verlag.
Mayerl, J. & Urban, D. (2008). Antwortreaktionszeiten in Survey-Analysen. Wiesbaden: Sprin-
ger VS.
McCallister, J.L. & Fischer, C.S. (1978). A procedure for surveying personal networks. Socio-
logical Methods & Research, 7, 131-148.
McCutcheon, A.L. (1987). Latent class analysis. Thousand Oaks, CA: Sage.
McDonald, M.P. & Thornburg, M.P. (2012). Interview mode effects. The case of exit polls and
early voting. Public Opion quarterly, 76, 326-349.
McFall, S.L., Conolly, A. & Burton, J. (2014). Collecting biomarkers and biological samples
using trained interviewers. Lessons from a pilot study. Survey Research Methods, 8, 57-66.
McHorney, C.A., Kosinski, M. & Ware, J.E. (1994). Comparisons of the costs and quality of
norms for the SF-36 Survey collected by mail versus telephone interview: Results from a
national survey. Medical Care, 32, 551-567.
McKelvie, S.J. (1978). Graphic rating scales - How many categories? British Journal of Psycho-
logy, 69, 185–202.
McLachlan, G. & Peel, D. (2000). Finite mixture models. Hoboken, NJ: John Wiley.
Mead, H. (1934). Mind, self, and society. Chicago: University of Chicago Press.
Medway, R.L. & Fulton, J. (2012). When more gets you less: A meta-analysis of the effect
of concurrent web options on Mail Survey response rates. Public Opinion Quarterly,76,
733–746.
Mercer, A. et al. (2015). How much gets you how much? Monetary incentives and response
rates in household surveys. Public Opinion Quarterly, 79, 105–129.
Meitinger, K. (2017). Necessary but insufficient Why measurement invariance tests need on-
line probing as a complementary tool. Public Opinion Quarterly, 8, 447-472.
638 Literatur
Merz, J. (1983). Die konsistente Hochrechnung von Mikrodaten nach dem Prinzip des mini-
malen Informationsverlustes. Allgemeines Statistisches Archiv, 67, 342-366
Metschke, R. & Wellbrock, R. (2002). Datenschutz in Wissenschaft und Forschung. Berlin:
Berliner Beauftragter für Datenschutz und Informationsfreiheit (Hrsg.). Materialien
zum Datenschutz Nr. 28. http://www.datenschutz- berlin/attachments/47/Materialien28.
pdf?1166527077.
Meyers, L.S., Gamst, G. & Guarino, A.J. (2013). Applied multivariate research. ThousandOaks
CA: Sage.
Millar, M.M. & Dillman, D. (2011). Improving response to web and mixed-mode surveys.
Public Opinion Quarterly, 75, 249-269.
Miller, G.A. (1956). The magical number seven, plus or minus two: Some limits on our capa-
city for processing information. Psychological Review, 63, 81–97.
Miller, K. (2011). Cognitive interviewing. In J. Madans et al. (Eds.), Question evaluation
methods (pp. 51-75). Hoboken, NJ: John Wiley.
Miller, K. et al. (2014). Cognitive interviewing methodology. Hoboken, NJ: John Wiley.
Mitchell, D.L. (1993). A multivariate analysis of the effects of gender and computer vs. Paper/
pencil modes of administration on survey results. Unpublished doctoral dissertation of the
College Administration and Business, Lousiana Technical University, Ruston. LA. ACM
Digital Library.
Mitofski, W. (1970). Sampling of telephone households (unpublished CBS memorandum.)
Mohorko, A., De Leeuw, E. & Hox, J. (2013). Internet coverage and coverage bias in Europe:
Developments across countries and over time. Journal of Official Statistics, 29, 609–622.
Morris, C.W. (1938). Foundations of the theory of signs. In O. Neurath (ed.). International
Encyclopedia of Unified Science (Vol. I). Chicago: Chicago University Press
Morrison, D.E. & Henkel, R.E. (1970). The significance test controversy: A reader. London:
Butterworth.
Morrison, R.L., Dillman, D.A. & Christian, L.M. (2010). Questionnaire design guidelines for
establishment surveys. Journal of Official Statistics, 26, 43-85.
Moxey, L.M. & Sanford, A.J. (2000). Communicating quantities: A review of psycholingu-
istic evidence of how expressions determine perspectives. Applied Cognitive Psychology,
14, 237-255.
Münz, S. & Nefzger, W. (2004). HTML und Web-Publishing Handbuch. Poing: Franzis Verlag.
Muthén, B.O. (1984). A general structural equation model with dichotomous, ordered cate-
gorical, and continuous latent variable indicators. Psychometrika, 49, 115-132.
Muthén, L. K., & Muthén, B. O. (2015). Mplus (version 7.4). Los Angeles, CA: Muthén &
Muthén.
Narayan, S. & Krosnick, J.A. (1996). Education moderates some response effects in attitude
Measurement. Public Opinion Quarterly, 60, 58-88.
Nauck, B. & Bertram, H. (1995). Kinder in Deutschland: Lebensverhältnisse von Kindern im
Regionalvergleich. Wiesbaden: VS Verlag für Sozialwissenschaften.
Namboodiri, K. (1984). Matrix algebra. An introduction. Newbury Park, CA.: Sage.
Neale, M.C. et al. (2016). OpenMx 2.0: Extended structural equation and statistical model-
ing. Psychometrika, 81, 535-549.
Neon (2003). Anforderungen an Online-Umfrage-Software. Berlin: BVM Berufsverband
Deutscher Markt und Sozialforscher e.V.
Literatur 639
Neter, J. & Waksberg, J. (1964). A study of response errors in expenditures data from house-
hold interviews. Journal of the American Statistical Association, 59, 17-55.
Oberski, D., Saris, W.E. & Hagenaars, J.A. (2010). Categorization errors and differences in
the quality of Questions in Comparative Surveys. In J.A. Harkness et al. (Eds.), Survey
methods in multinational, multiregional, and multicultural contexts (pp. 435-473). Hobo-
ken, NJ: John Wiley.
Oh, H.L. & Scheuren, F. (1983). Weithting adjustments for unit nonreponse. In W.G. Madow,
I. Olkin & D. Rubin (Eds.). Incomplete data. Volume 2: Theory and Bibliographies. New
York: Academic Press.
Olsson, U., Drasgow, F. & Dorans, N.J. (1982). The polyserial correlation coefficient. Psycho-
metrika, 47, 337-347.
Österreichisches Normungsinstitut (2010). ÖNORM ISO 26362: 2010: Access Panels in der
Markt-, Meinungs- und Sozialforschung. Austrian Standard Publ.
Oksenberg, L. & Cannell, C. (1988). Effects of vocal characteristics on nonresponse. In R.M.
Groves et al. (Eds.), Telephone survey methodology (pp. 257-273). New York: John Wiley.
Oksenberg, L., Coleman, L. & Cannell, C.F. (1986). Interviewer’s voices and refusal rates in
telephone surveys. Public Opinion Quarterly, 50, 97-111.
Olson, K. (2013). Do non-response follow-ups improve or reduce data quality? A review of
the existing literature, Journal of the Royal Statistical Society A, 176, 129 – 145.
Olson, K., Smyth, J. D., & Wood, H. (2012). Does giving people their preferred survey mode
actually increase survey participation? An experimental examination. Public Opinion
Quarterly, 76, 611–635.
Olsson, U., Drasgow, F. & Dorans, N.J. (1982). The polyserial correlation coefficient. Psycho-
metrika, 47, 337-347.
O’Muircheartaigh, C., Krosnick, J. A., & Helic, A. (1999). Middle alternatives, acquiescence,
and the quality of questionnaire data. Paper presented at the American Association for
Public Opinion Research annual meeting, St. Petersburg, FL
O’Reilly et al. (1994). Audio and Video computer assisted Self-interviewing: Preliminary test
of new technologies for data collection. Journal of Official Statistics, 10, 197-214.
O’Rourke, D. & Blair, J. (1983). Improving random respondent selection in telephone sur-
veys. Journal of Marketing Research, 20, 428-432.
Ongena, Y.P. & Dijkstra, W. (2006). Methods of behavior coding of survey interviews. Journal
of Official Statistics, 22, 419-451.
Orth, B. (1974). Einführung in die Theorie des Messens. Stuttgart: Kohlhammer.
Osgood, C.E., Suci, G.J, & Tannenbaum, P.H. (1957). The measurement of meaning Urbana:
University of Illinois Press.
Ostrom, T. & Gannan, K. (1996). Exemplar generation: Assessing how respondents give
meaning to rating scales. In N. Schwarz & S. Sudman (Eds.), Answering questions Meth-
odology for determining cognitive and communicative processes in survey research (pp. 293-
318). San Francisco: Jossey-Bass.
Oyserman, D. & Lee, S.W.S. (2008). Does culture influence what and how we think? Psycho-
logical Bulletin, 132, 311-342.
Pannekoek, J., Scholtus, S. & Van der Loo, M. (2013). Automated and manual data editing: A
view on process design and methodology. Journal of Official Statistics, 29, 511-537.
Parducci, A. (1965). Category judgment: A range-frequency model. Psychological Review, 72,
407-418.
640 Literatur
Porst, R. (1996). Ausschöpfungen bei sozialwissenschaftlichen Umfragen. Die Sicht der Institute
(ZUMA-Arbeitsbericht 96/07). Mannheim: ZUMA.
Porst, R. (1999). Thematik oder Incentives? Zur Erhöhung der Rücklaufquoten bei Postali-
schen Befragungen. ZUMA-Nachrichten, 23, 72-87.
Porst, R. (2001). Wie man die Rücklaufquote bei postalischen Befragten erhöht (ZUMA How-
to-Reihe Nr. 9). Mannheim: ZUMA.
Porst, R. (2011). Fragebogen: Ein Arbeitsbuch (3. Auflage). Wiesbaden: VS Verlag.
Porst, R. & Jers, C. (2007). Die ALLBUS-„Gastarbeiter-Frage“. Zur Geschichte eines Stan-
dard-Instruments in der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften
(ALLBUS)., Soziale Welt, 58 145-161.
Porst, R. Schmidt, P. & Zeifang, K. (1987). Comparisons of subgroups by models with multi-
ple indicators. Sociological Methods & Research, 15, 303-315.
Porter, S.R. & Withcomb, M.E. (2003). The impact of content type on web survey response
rates. Public Opinion Quarterly, 67, 579-588.
Presser, S. et al. (Eds.) (2004a). Methods for testing and evaluating survey questions. New York:
John Wiley.
Presser, S. et al. (2004b). Methods for testing and evaluating survey questions. Public Opinion
Quarterly, 68, 109-130.
Preston, M.G. & Baratta, Ph. (1948). An experimental study of the auction-value of an uncer-
tain outcome. American Journal of Psychology, 61, 183-193.
Prüfer, P. & Rexroth, M. (1996). Verfahren zur Evaluation von Survey-Fragen. Ein Überblick.
ZUMA-Nachrichten 39, 95-116
Prüfer, P. & Rexroth, M. (2005). Kognitive Interviews (ZUMA-How-to-Reihe, Nr. 15). Mann-
heim: ZUMA.
Prüfer, P. & Stiegler, A. (2002). Die Durchführung standardisierter Interviews: Ein Leitfaden
(ZUMA How-to-Reihe Nr. 11). Mannheim: ZUMA.
Przeworski, A. & Teune, H. (1968). Equivalence in cross-national research. Public Opinion
Quarterly 30, 33-43.
Przeworski, A. & Teune, H. (1970). The logic of comparative social inquiry. New York: Wiley.
Quillian, M.R. (1968). Semantic memory. In M. Minsky (Ed.), Semantic information proces-
sing. (pp. 227-270). Cambridge, Mass.: MIT Press.
Rässler, S. (2002). Statistical matching: A frequentist theory, practical applications, and Alter-
native Bayesian approaches (Lecture Notes in Statistics 168). New York: Springer.
Raento, M., Oulasvita, A. & Eagle, N. (2009). Smartphones: An emerging tool for the social
scientists. Sociological Methods & Research, 37, 426-454.
Raffalovich, L.E. & Bohrnstedt, G.W. (1987). Common, specific, and error variance Compo-
nents of factor models: Estimation with longitudinal data. Sociological Methods & Rese-
arch, 15,385-405.
Ramos, M., Sedivi, B.M. & Sweet, E.M. (1998). Computerized self-administered Questi-
onnaires (pp. 389-408). In M.P. Couper et al. (Eds.), Computer-assisted survey information
collection. New York: John Wiley.
Rammstedt, B. & John, P. (2007). Measuring personality in one minute or less: A 10-item
short version of the Big Five Inventory in English and German. Journal of Research in
Personality, 41, 203-212.
Rammstedt, B. et al. (2013). Eine kurze Skala zur Messung der fünf Dimensionen der Persön-
lichkeit. Mda, 7, 233-249.
642 Literatur
Rao, K., Kaminska, O. & McCutcheon, A.L. (2010). Recruiting probability samples for a mul-
ti-mode research panel with internet and mail components. Public Opinion Quarterly, 74,
68-84.
Redline, C. (2013). Clarifying categorical concepts in a web survey. Public Opinion Quarter-
ly,77, 89-105.
Reinecke, J. (2014). Strukturgleichungsmodelle in den Sozialwissenschaften (2. Auflage). Mün-
chen: Oldenbourg
Reips, U.-D. (1997). Das psychologische Experimentieren im Internet. In B. Batinic (ed.),
Internet für Psychologen (S. 245-265). Göttingen: Hogrefe.
Reips, U.-D. & Funke, F. (2008). Interval level measurement with visual analogue scales in
internet-based research: VAS generator. Behavior Research Methods, 40, 699-704.
Reuband, K.-H. (1990). Interviews, die keine sind. Kölner Zeitschrift für Soziologie und Sozi-
alpsychologie, 42,
Rhemtulla, M. Brosseau-Liard, P.É. & Savalei, V. (2012). When can categorical variables be
treated as continuous? A comparison of robust continuous and categorical SEM estima-
tion methods under suboptimal conditions. Psychological Methods, 17, 354-373.
Rizzo, L., Brick, J.M. & Park, I. (2004). A minimal intrusive method for sampling persons in
random digit dialing surveys. Public Opinion Quarterly, 68, 267-274.
Rodgers, W.L., Andrews, F.M. & Herzog, A.R. (1992): Quality of survey measures: A structu-
ral modeling approach. Journal of Official Statistics, 8, 251-275.
Roduner, K. et al. (2001). Anleitung zum Arbeiten mit der Experience Sampling Method (ESM)
(Arbeitsbericht Nr. 4 aus dem Projekt „Qualität des Erlebens in Arbeit und Freizeit“).
Zürich Psychologisches Institut.
Rogelberg, S.G. et al. (2001). Attitudes toward surveys: Development of a measure and its
relationship to respondent behavior. Organizational Research Methods, 4, 2-25.
Rohrmann, B. (1978). Empirische Studien zur Entwicklung von Antwortskalen für die psy-
chologische Forschung. Zeitschrift für Sozialpsychologie, 9, 222-245.
Rohrmann, B. (2007). Verbal qualifiers for rating scales: Sociolinguistic considerations and psy-
chometric data (Project Report). University of Melbourne.
Available at http://www.rohrmannresearch.net/pdfs/rohrmann-vqs-report.pdf.
Rosch, E. (1975). Cognitive reference points, Cognitive Psychology 7, 532-547.
Rosen, S. & Tesser, A. (1970). On reluctance to communicate undesirable information: The
Mum effect. Sociometry, 33, 253-263.
Rosenbaum, P.R. & Rubin, D.B. (1983). The central role of the propensity score of observa-
tional studies for causal effects. Biometrika, 70, 41-55.
Rosenbaum, P.R. & Rubin, D.B. (1984). Reducing bias in observational studies using sub-
classification on the propensity score. Journal of the American Statistical Association, 79,
516-524.
Ross, B.H. & Murphy, G.L. (1999). Food for Thought: Cross-classification and category orga-
nization in a complex real-world domain. Cognitive Psychology 38, 495-553
Rosseel, Y. (2012). lavaan: An R package for structural equation modeling. Journal of Statisti-
cal Software, 48, 1–36
Rossi, P.H. (1979). Vignette analysis. Uncovering the normative structure of complex judge-
ments. In R. K. Merton, J. S. Coleman und P. H. Rossi (Eds.), Qualitative and quantitative
social esearch. Papers in honour of Paul F. Lazarsfeld (pp. 176-186). New York: Free Pres
Literatur 643
Rossi, P. H. & Anderson, A.B. (1982). The factorial survey approach. An introduction. In P.
H. Rossi & S.L. Nock (Eds.), Measuring social judgments. The factorial survey approach
(pp. 15-67). Beverly Hills: Sage.
Rothgeb, J.M., Willis, G. & Forsyth, B. (2007). Questionnaire pretesting methods: Do differ-
ent techniques and different organizations produce similar results? Bulletin de méthodol-
ogie sociologique, 96, 1-16.
Rubin, D.B. (1974). Estimating causal effects of treatments in randomized and nonrandom-
ized studies. Journal of Educational Psychology, 66, 688-701.
Rubin, D.B. (1976). Inference and missing data. Biometrika, 63, 581-592-
Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: John Wiley.
Rubin, D.B. (1997). Estimating causal effects from large data sets using propensity scores.
Annals of Internal Medicine, 127, 757-763.
Särndal, C.-E. and Lundström, S. (2005). Estimations in Surveys with Nonresponse. New York:
Wiley.
Särndal, C.-E., Swensson, B. & Wretman, J. (1992). Model assisted survey sampling. New York:
Springer.
Sakshaug, J.W. et al. (2012). Linking survey and administrative records. Sociological Methods
&Research, 41, 535-569.
Sakshaug, J.W. & Kreuter, F. (2011). Using paradata and other auxiliary data to examine mode
switch nonresponse in a “Recruit and Switch” telephone survey. Journal of Official Statis-
tics, 27, 338-357.
Sakshaug, J.W. & Kreuter, F. (2014). The effect of benefit wording on consent to link survey
and administrative records in a web survey. Public Opinion Quarterly, 78, 166-177.
Sakshaug, J.W. et al. (2015). Characteristics of Physical Measurement Consent in a Popula-
tion-Based Survey of Older Adults. Medical Care, 48, 64–71.
Sala, E., Burton, J. & Knies, G. (2012). Correlates of obtaining informed consent to data link-
age: Respondent. Interview, and interviewer characteristics. Sociological Methods & Re-
search, 41, 414-439.
Salmon, C.T. & Nichols, J.S. (1983). The next-birthday method of respondent selection. Pub-
lic Opinion Quarterly, 47, 270-276.
Sand, M. (2014). Dual-Frame-Telefonstichproben - Entwicklung, Handhabung und Gewich-
tung. (GESIS - Technical Reports 2014, 2). Mannheim: GESIS.
Sand, M. (2016). Evaluierung von HLR-Lookup-Verfahren. Erste Ergebnisse aus dem Projekt
VermIn. In S. Eifler & F. Faulbaum (Hrsg.) Methodische Probleme von Mixed-Mode-Ansät-
zen in der Umfrageforschung (S. 203-229). Wiesbaden: Springer VS.
Saris, W.E. (1988). Variations in response functions: A source of measurement error in attitude
research. Amsterdam: Sociometric Research Foundation.
Saris, W.E. (2003a). Response function equality. In J.A. Harkness, F.J.R. Van de Vijver, & P.Ph.
Mohler, (Eds.) (2003). Cross-cultural survey methods (pp. 275-288). Hoboken, NJ: John
Wiley.
Saris, W.E. (2003b). Multitrait-Multimethod studies. In J.A. Harkness, F.J.R. Van de Vijver, &
P.Ph. Mohler, (Eds.) (2003). Cross-cultural survey methods (pp. 265-274). Hoboken, NJ:
John Wiley.
Saris, W. E. & Gallhofer, I.N. (2014). Design, evaluation and analysis of questionnaires for
survey research (2nd edition). Hoboken: John Wiley.
644 Literatur
Särndal, C.-E., Swensson, B. & Wretman, J. (1992). Model assisted survey sampling. New York:
Springer.
Särndal, C.-E. & Lundström, S. (2005). Estimation in surveys with nonresponse. Hoboken, NJ:
John Wiley.
Saunders, M.N.K. (2012). Web versus mail: The influence of survey distribution mode on
employees’ response. Field Methods, 24, 56-73.
Sauerbier, Th. (2002). UMDBS – A new tool for dynamic microsimulation. Journal of Artifi-
cial Societies, 5 (2).
Savage, L.J. (1954). The foundations of statistics. New York: John Wiley.
Schafer, J.L. (1997). Analysis of incomplete multivariate data. Boca Raton, FL: Chapman &
Hill.
Schaeffer, N.C. & Maynard, D.W. (2008). The contemporary standardized survey interview
for social research. In F.G. Conrad & M.F. Schober (Eds.), Envisioning the survey interview
of the future (pp. 31-57). Hoboken, NJ: John Wiley.
Scherpenzeel, A. (2016). Mixing online panel data collection with innovative methods. In
S. Eifler & F. Faulbaum (Hrsg.), Methodische Probleme von Mixed-Mode-Ansätzen in der
Umfrageforschung (S. 27-49). Wiesbaden: Springer VS.
Scherpenzeel, A. C. & Saris, W.E. (1997). The validity and reliability of survey questions: A
meta-analysis of MTMM studies. Sociological Methods & Research, 25, 341-383.
Scheuch, E.K. (1968). The cross-cultural use of sample surveys: Problems of comparability.
In S. Rokkan (Ed.) Comparative research across cultures and nations (pp. 176-179). The
Hague: Mouton.
Schlittgen, R. & Streitberg, B.H.J. (2001). Zeitreihenanalyse. München: Oldenbourg.
Shumway, R.H. & Stoffer, D.S. (2011). Time series analysis and its applications. New York:
Springer.
Schneekloth, U. & Leven, I. (2003). Woran bemisst sich eine „gute“ allgemeine Bevölkerungs-
umfrage? Analysen zu Ausmaß, Bedeutung und zu den Hintergründen von Nonresponse
in zufallsbasierten Stichprobenerhebungen am Beispiel des ALLBUS. ZUMA-Nachrichten
53, 16-57.
Schneid, M. (1995). Disk by Mail. Eine Alternative zur schriftlichen Befragung (ZUMA- Ar-
beitsbericht 95/02). ZUMA: Mannheim.
Schneid, M. (2004). Zum Einsatz stationärer Rechner, Notebooks und PDAs bei der Erhe-
bung im Feld. Zeitschrift für Sozialpsychologie, 35, 3-13.
Schnell, R. (1991). Der Einfluss gefälschter Interviews auf Survey-Ergebnisse. Zeitschrift für
Soziologie, 20, 25-35.
Schnell, R. (1997). Nonresponse in Bevölkerungsumfragen. Opladen: Leske und Budrich.
Schnell, R. (2009). Biometrische Daten. In C. König, M. Stahl und E. Wiegand (Hrsg.),
Nicht-reaktive Erhebungsverfahren (S. 45-60). Bonn: GESIS-Leibniz-Institut der Sozial-
wissenschaften.
Schnell, R. (2012). Survey-Interviews. Methoden standardisierter Befragungen. Wiesbaden:
Springer VS.
Schnell, R. (2013). Linking surveys and administrative data. German RCL Working Paper No.
wp-grcl-2013-03.
Schnell, R. & Kreuter, F. (2005). Separating interviewer and sampling-point effects. Journal of
Official Statistics, 21, 389-410.
Literatur 645
Schober, M.F. (1999). Making sense of questions: An interactional approach. In M.G. Sirken
et al. (Eds.), Cognition and survey research (pp. 77-93). New York: John Wiley & Sons.
Schober, M.F. & Conrad, F.G. (1997). Does conversational interviewing reduce survey mea-
surement error? Public Opinion Quarterly, 61, 576-602.
Schober, M.F. & Conrad, F.G. (2002). A collaborative view of standardized survey interviews.
In D. Maynard et al. (Eds.), Standardization and tacit knowledge: Interaction and practice
in the survey interview (pp. 67-94). Hoboken, NJ: John Wiley.
Schober, M.F. & Conrad, F.G. (2008). Survey interviews and new communication technolo-
gies. In M.F. Schober & F.G. Conrad (Eds.), Envisioning the survey interview of the future
(pp. 1-30). Hoboken, NJ: John Wiley.
Schober, M.F., Conrad, F.G. & Fricker, S.S. (2004). Misunterstanding standardized language
in research interviews. Applied Cognitive Psychology, 18, 169-188.
Schouten, B., Cobben, F. & Bethlehem, J.G. (2009). Indicators for the representativeness of
survey response. Survey Methodology, 35, 101-113.
Schreckenberg, D. & Schümer, R. (2010). The impact of acoustical, operational and non-au-
ditory factors on short-term annoyance due to aircraft noise. Proceedings of internoise
2010: Noise and Sustainability, Lisbon, Portugal, CDROM: Paper No. 333.
Schröter, J. (2007). Grundwissen Perl. München: Oldenbourg.
Schuman, H. & Kalton, G. (1985). Survey methods. In G. Lindzey & E. Aronson (Eds.), The
handbook of social psychology (3rd edition pp. 635-697). Reading, MA:Addison-Wesley.
Schuman, H. & Converse, J.M. (1968). The effects of black and white interviewers on white
respondents in 1968. Public Opinion Quarterly, 35, 44-68;
Schwarz, N. (1995). What respondents learn from questionnaires: the survey interview and
the logic of conversation. International Statistical Review, 63, 153-177.
Schwarz, N. (1996). Cognition and communication: Judgmental biases, research methods, and
the logic of conversation. Mahwah: Lawrence Erlbaum.
Schwarz, N. (1997). Questionnaire Design: The Rocky Root from Concepts to Answers. In L.
Lyberg et al. (Eds.), Survey measurement and process quality (pp. 29-46). New York: John
Wiley.
Schwarz, N. (2007). Cognitive aspects of survey methodology. Applied Cognitive Psychology,
21, 277-287.
Schwarz, N. & Lee, S.W.S. (2012). Metaphor in judgment and decision making. In M.J.
Landau, D. Robinson, & P. Meier (Eds.), Metaphorical thought in social life (pp. 85-108).
Washington D.C.: Psychological Association.
Schwarz, S. & Sudman, S. (1993). Autobiographical memory and the validity of retrospective
reports. New York: Springer.
Schwarz, N., Oyserman, D. & Peytcheva, E. (2010). Cognition, communication, and culture:
Implications for the survey response process. In J. Harkness et al. (Eds.), Survey methods
in multinational, multiregional, and multicultural contexts (pp. 177-301). Hoboken, NJ:
John Wiley.
Schwarz, N. et al. (1993). Rating scales: numeric values may change the meaning of scale
labels. Public Opinion Quarterly, 55, 570-582.
Shapiro, A. (1985). A note on the asymptotic distribution of the greatest lower bound to reli-
ability. Psychometrika, 50, 243–244.
Sheeran, P. (2002). Intention-behavior relations: A conceptual and empirical review. Europe-
an Journal of Social Psychology, 12, 1-36.
646 Literatur
Shih, X. & Fan, T. (2002). Response rates and mode preferences in web-mail mixed-mode
surveys: A meta-analysis. International Journal of Internet Science, 2, 59–82.
Shin, E., Johnson, J.P. & Rao, K. (2013). Survey mode effects on data quality: Comparison of
web and mail modes in a U.S. national panel survey. Social Science Computer Review, 30,
212-228.
Sihm, J.S., Chhabra, A. & Gupta, S.N. (2016). An optional unrelated question RRT model.
INVOLVE, 9, 195-209.
Silvia, P.J. et al. (2013). Missed beeps and missing data: Dispositional and situational predic-
tors of nonresponse in experience sampling research. Social Science Computer Review, 31,
471-481.
Singer, E. (2011). Toward a benefit-cost theory of survey participation: Evidence, further
tests, and implications. Journal of Official Statistics, 27, 379-392.
Singer, J.D. & Willett, J.B. (2003). Applied longitudinal data analysis. New York: Oxford Uni-
versity Press.
Singer, E., Groves, R.M. & Corning, A.D. (1999). Differential incentives. Public Opinion
Quarterly, 63, 251-260.
Singer, E., Hippler, H.-J. & Schwarz, N. (1992). Confidentiality assurances: Reassurance or
threat? International Journal of Public Opinion Research, 4, 256-268.
Singer, E., Van Hoewyk, J. & Maher, M.P. (1998). Does the payment of incentives create ex-
pectation effects? Public Opinion Quarterly, 62, 152-164.
Singer, E., Van Hoewyk, J. & Maher, M.P. (2000). Experiments with incentives in telephone
surveys. Public Opinion Quarterly, 64, 171-188.
Singer, E., Van Hoewyk, J. & Neugebauer, R.J. (2003). Attitudes and behavior. Public Opinion
Quarterly, 67, 386-384.
Singer, E., Von Thurn, D.R. & Miller, E.R. (1995). Confidentiality assurances and response.
Public Opinion Quarterly, 59, 66-77.
Sinibaldi, J., Durrant, G.B. & Kreuter, F. (2013). Evaluating measurement error of interviewer
observed paradata. Public Opinion Quarterly, 77, 173-193.
Skrondal, A. & Rabe-Hesketh, S. (2004). Generalized latent variable modeling: Multilevel, lon-
gitudinal, and structural equation Models. London: Chapman.
Sless, D. (1994). Public forums: Designing and evaluating forms in larger organizations. Pa-
per presented at the International Symposium on Public Graphics, Lunteren, Netherlands.
Smith, T.W. (2003). Developing comparable questions in cross-national surveys. In J.A.
Harkness, F.J.R. Van de Vijver & P.Ph. Mohler (Eds.) (2003). Cross-cultural survey methods
(pp. 69-91). Hoboken, New Jersey: John John Wiley
Smith, T.W. (2004). Developing and evaluating cross-national survey instruments. In S. Pres-
ser et al. (Eds.), Methods for testing and evaluating survey questionnaires (pp. 431-452).
New York: John Wiley.
Smith, T. W. (2011). Refining the total error perspective. International Journal of Public Opi-
nion Research, 23, 464-484.
Snijders, T.A.B. & Bosker, R.J. (2012). Multilevel analysis. London: Sage.
Singer, E. (2011). Toward a benefit-cost theory of survey participation: Evidence, further
tests, and implications. Journal of Official Statistics, 27, 379-392.
Singh, A.C. & Mecatti, F. (2011). Generalized multiplicity-adjusted Horvitz-Thompson Esti-
mation as a unified approach to multiple frame surveys. Journal of Official Statistics, 27,
633-650.
Literatur 647
Skinner, C.J. & Rao, J.N.K. (1996). Estimation in dual frame surveys with complex designs.
Journal of the American Statistical Association, 91, 349-435.
Skogan, W.G. (1986): Methodological issues in the study of victimization. In: E.A. Fattah & A.
Ezzat (Hrsg.): From crime policy to victim policy: Restoring the justice system. Basingstoke:
Palgrave Macmillan.
Snijkers, G. et al. (2013). Designing and conducting business surveys. Hoboken, NJ: John Wiley.
Stadtmüller, S. (2009). Rücklauf gut, alles gut? Zu erwünschten und unerwünschten Effekten
monetärer Anreize bei postalischen Befragungen. mda, 3, 167-185.
Stadtmüller, S. & Porst, R. (2005). Zum Einsatz von Incentives bei postalischen Befragungen.
(ZUMA How-to-Reihe Nr. 14). Mannheim: ZUMA.
Stanovich, K.E. (1999). Who is rational? Studies of individual differences in reasoning. Mah-
wah: Lawrence Erlbaum.
Statistisches Bundesamt, ADM & ASI (Hrsg.) (2013). Regionale Standards (2. Auflage). Wies-
baden: Statistisches Bundesamt.
Stegmüller, W. (1974). Theorie und Erfahrung (1. Halbband: Begriffsformen, Wissenschafts-
sprache, empirisch Signifikanz und theoretische Begriffe). Berlin-Heidelberg-New York:
Springer.
Steiger, J.W. (1994). SEPATH-A STATISTICA for Windows structural equations modeling
program. In Faulbaum, F. (Ed.), Softstat’93: Advances in statistical software 4. Stuttgart:
Gustav Fischer.
Stelzl, I. (1986). Changing a causal hypothesis without changing fit: Some rules for generating
equivalent path models. Multivariate Behavioral Research, 21, 309-331.
Stenger, H. (1994). Anforderungen an eine repräsentative Stichprobe. In S. Gabler & J. Hoff-
meyer-Zlotnik (Hrsg.), Gewichtung in der Umfragepraxis (S. 42-45). Wiesbaden: West-
deutscher Verlag.
Stern, M.J., Bilgen, I. & Dillman, D.A. (2014). The state of survey methodology: Challenges,
Dilemmas, and new frontiers in the era of tailored design. Field Methods, 26, 284-301.
Stern, M.J, Dillman, D.A. & Smyth, J.D. (2007). Visual design, order effects, and respondent
characteristics in a Self-administered survey. Survey Research Methods, 1, 121-138.
Stevens, S.S. (1946). On the theory of scales of measurement. Science, 103,677-680.
Stevens, S.S. (1957). On the psychophysical law. Psychological Review, 64, 153-181.
Stevens, S.S. (1959). Cross-modality validation of subjective scales for loudness, vibration,
and electric shock. Journal of Experimental Psychology, 57, 201-209.
Stevens, J.C. & Marks, L.E. (1965). Cross-modality matching of brightness and loudness.
Proc. Nat. Acad. Sci., 54, 407-411.
Stinchcombe, A.L. (1968). Constructing social theories. Chicago: University of Chicago Press.
Stocké, V. (2004). Entstehungsbedingungen von Antwortverzerrungen durch soziale Er-
wünschtheit Zeitschrift für Soziologie, 33, 303–320
Sudman, S. (1972). On sampling of very rare human populations. Journal of the American
Statistical Association, 67, 335-339.
Sudman, S. (1976). Applied survey sampling. New York: Academic Press.
Sudman, S. & Bradburn, N. (1982). Asking questions: A practical guide to questionnaire design.
San Francisco: Jossey Bass.
Suessbrick, A., Schober, M.F. & Conrad, F.G. (2000). Different respondents interpret Ordi-
nary questions quite differently. ? Proceedings of the Section on Survey Research Methods
(pp. 907-912). Alexandria, VA: American Statistical Association.
648 Literatur
Suessbrick, A., Schober, M.F. & Conrad, F.G. (2001). When Do Respondent Misconceptions
lead to Survey Response Error? Proceedings of the Section on Survey Research Methods
(pp. 3982-3887). Alexandria, VA: American Statistical Association.
Suppe, F. (Ed.) (1977). The structure of scientific theories. Urbana: University of Illinois Press.
Suppes, P. & Zinnes, J.L. (1963). Basic measurement theory. In R.D. Luce, R.R. Bush & E.
Galanter (Eds.). Handbook of mathematical psychology I (pp. 1-76). New York: John Wiley.
Survey Quality Predictor (2015). SQP Users’ Manual. Barcelona, Universitat Pompeu Fabra.
Sutcliffe, J.P. (1965). A probability model for errors of classification. I. General considerations.
Psychometrika, 30, 73-96.
Sykes, M. & Collins, M. (1988). Effects of mode of interview: Experiments in the UK. In R.M.
Groves, P.P. Biemer & L.E. Lyberg (Eds.), Telephone survey methodology (S. 301-320). New
York: John Wiley.
Szklo, M. & Nieto, F.J. (2013). Epidemilogy. Beyond the basics. Madison: Jones and Bartlett
Learning.
Tarnai, J. & Moore, D.L. (2004). Methods for testing and evaluating computer-assisted ques-
tionnaires. In S. Presser et al., Methods for testing and evaluating survey questions (pp. 319-
335). New York: John Wiley.
Theis, T. (2012). Einstieg in PHP 5.4 und MySQL (8. Auflage). Bonn: Galileo Press.
Thome, H. (2005). Zeitreihenanalyse. München: Oldenbourg.
Thompson, S.K. & Seber, G.A.F. (1996). Adaptive sampling. New York: John Wiley.
Toepol, V. & Couper, M.P. (2011). Can verbal instructions counteract visual context effects in
web surveys? Public Opinion Quarterly, 75, 1-18.
Toepol, V. & Lugtig, P. (2015). Online surveys are mixed-device surveys. Issues associated
with the use of different (mobile) devices in web surveys. mda, 9, 155-162.
Toepoel, V., Das & Van Soest (2009). Design of web questionnaires: The effects of the number
of items per screen. Field Methods, 21, 200-213.
Troitzsch, K.G. & Möhring, M. (1988). Simulationsverfahren in den Sozialwissenschaften.
In F. Faulbaum & H.-M. Uehlinger (Hrsg.) (1988). Fortschritte der Statistik-Software 1
(S. 433-447). Stuttgart: Gustav Fischer.
Tourangeau, R. (1984). Cognitive science survey methods: a cognitive perspective. In T. Ja-
bine, M. Straf, J.Tanur & R. Tourangeau (Eds.), Cognitive aspects of survey methodology:
Building a bridge between disciplines (S. 73-100). Washington, DC: National Academy
Press.
Tourangeau, R. (1987). Attitude measurement: A cognitive perspective. In H.-J. Hippler,
N. Schwarz & S. Sudman (Eds.), Social information processing and survey methodology
(S. 149-162). New York: Springer.
Tourangeau, R., Couper, M. P., & Conrad, F. (2004). Spacing, position, and order. Interpretive
heuristics for visual features of survey questions. Public Opinion Quarterly, 68, 368–393.
Tourangeau, R., Couper, M.P. & Steiger, D.B. (2003). Humanizing self-administered surveys:
Experiments in social presence in Web and IVR surveys. Computers in Human Behavior,
19, 1-24.
Tourangeau, R., Conrad, F. & Couper, M.P. (2013). The science of web surveys. Oxford: Oxford
University Press.
Tourangeau, R., Groves, R.M. & Redline, C.D. (2010). Sensitive topics and reluctant respon-
dents. Demonstrating a link between nonresponse bias and measurement error. Public
Opinion Quarterly, 74, 423-432.
Literatur 649
Tourangeau, R. & Smith, T.W. (1998). Collecting sensitive information with different modes
of data collection. In M.P. Couper et al. (Eds.), Computer assisted survey information col-
lection (pp. 431-454). New York: John Wiley.
Tourangeau, T. & Yan, T. (2007). Sensitive questions in surveys. Psychological Bulletin, 133,
859-883.
Tourangeau, R., Rips, L.J. & Rasinski, K. (2000). The psychology of survey response. Cam-
bridge, MA: Cambridge University Press.
Tourangeau, R., Steiger, D.M. & Wilson, D. (2002). Self-administered questions by telephone.
Public Opinion Quarterly, 66, 265-278.
Tourangeau, R. et al. (2006). Everyday concepts and classification errors: Judgments of Dis-
ability and residence. Journal of Official Statistics, 22, 385-418.
Tourangeau, R. et al. (Eds.) (2014). Hard-to-survey populations. Cambridge: Cambridge Uni-
versity Press.
Tracy, D. & Mangat, N. (1996). Some development in randomized response sampling during
the last decade - a follow up of review by Chaudhuri and Mukerjee. Journal of Applied
Statistical Sciences, 4, 533-544.
Triandis, H. 2004. Dimensions of culture beyond Hofstede. In H. Vinken, J. Soeters, & P. Ester
(Eds.), Comparing Cultures. Dimensions of Culture in a Comparative Perspective. (pp. 28-
42). Leiden: Brill Academic Publications.
Trohldahl, V. & Carter, R. (1964). Random selection of respondents within households in
telephone surveys. Journal of Marketing Research, 1, 71-76.
Tucker, C., Lepkowski, J.M. & Piekarski, L (2002). The current efficiency of list-assisted tele-
phone sampling designs. Public Opinion Quarterly, 66, 321-338.
Turner, C.F. et al. (1998). Automated self-interviewing and the survey measurement of sensi-
tive behaviors. In M.P. Couper et al. (Eds.), Computer-assisted survey information collec-
tion (pp. 457-474). New York: John Wiley.
Tuten, T.L., Galesic, M. & Bosnjak, M. (2004). Effects of immediate versus delayed notifica-
tion of prize draw results on response behavior in web surveys: An experiment. Social
Science Computer Review, 22, 377-384.
Tutz, G. (2000). Die Analyse kategorialer Daten: Anwendungsorientierte Einführung in die in
Logit-Modellierung und kategoriale Regression. München: Oldenbourg.
Tutz, G. & Berger, M. (2016). Response styles in rating scales: Simultaneous modeling of con-
tent-related effects and the tendency to middle or extreme Categories. Journal of Educati-
onal and Behavioral Statistics, 41, 239-268.
Uskul, A.K., Oyserman, D. & Schwarz, N. (2010). Cultural emphasis on honor, modesty,
or self-enhancement: Implications for the survey response process. In J. Harkness et
al. (Eds.), Survey methods in multinational, multiregional, and multicultural contexts
(pp. 191-201). Hoboken, NJ: John Wiley.
Vaerenbergh, Y.V. & Thomas, T.D. (2013). Response styles in survey research: A literature re-
view of antecedents, consequences, and remedies. International Journal of Public Opinion
Research, 25, 195-217.
Valliant, R., Dever, J.A. & Kreuter, F. (2013). Practical tools for designing and weighting sur-
vey samples. New York: Springer.
Van Buuren, S. (2012). Flexible imputation of missing data. Boca Raton, Fl.: Chapman & Hall.
650 Literatur
Van den Brakel, J.A., Vis-Visschers, R. & Schmeets, J.J.G. (2006). An experiment with data
collection modes and incentives in the Durch family and fertility survey for young Mo-
roccans and Turks. Field Methods, 18, 321-334.
Van de Heer, W., de Leeuw, E.D. & van der Zouwen, J. (1999). Methodological issues in Sur-
vey research: A historical review. Bulletin de Méthodologie Sociologique, 64, 25-48.
Van de Pol, F. & De Leeuw, J. (1986). A latent Markov model to correct for measurement
error. Sociological Methods & Research, 15, 118-141.
Vannieuwenhuyze, J.T.A. & Loosveldt, G, (2013). Evaluating relative mode effects in mixed-
mode surveys: Three methods to disentangle selection and measurement effects. Sociolo-
gical Methods and Research, 42, 82.104.
Vannieuwenhuyze, J. T. A., Loosveldt, G. & Molenberghs, G. (2010). A method for evaluating
mode effects in mixed mode surveys. Public Opinion Quarterly 74, 27-45.
Vigderhouse, G. (1981). Scheduling telephone interviews. Public Opinion Quarterly, 45, 250-
259.
Von der Heyde, C. (2002). Das ADM-Stichproben-Modell. In S. Gabler & S. Häder (Hrsg.),
Telefonstichproben (S. 32-45). Münster: Waxman.
Voogt, Robert J.J. & Saris, Willem E. (2005). Mixed mode designs: finding the balance be-
tween nonresponse bias and mode effects. Journal of Official Statistics, 21, 367-388.
Wänke, M. (2002). Conversational norms and the interpretation of vague quantifiers. Applied
Cognitive Psychology, 16, 301-307.
Wagner, S. et al. (2014). Does sequence matter in multimode surveys: Results from an exper-
iment. Field Methods, 26, 141-155.
Waksberg, J. (1978). Sampling methods for random digit dialing. Journal of the American
Statistical Association, 73, 40-46.
Warner, S.L. (1965). Randomized response: A survey technique for eliminating evasive elimi-
nating evasive answer bias. Journal of the American Statistical Association, 60, 63-69.
Warriner, K. et al. (1996). Charities, no; lotteries, no; cash, yes. Public Opinion Quarterly, 60,
542-562.
Wedell, D. H. (1990). Methods for determining the locus of context effects in judgment. In J.
P. Caverni, J. M. Fabre, & M. Gonzalez (Eds.), Cognitive biases (pp. 285-302). New York:
Elsevier Science.
Wedell, D.H. (1994). Contextual contrast in evaluative judgments: A test of pre- versus postin-
tegration models of contrast. Journal of Personality and Social Psychology,66,1007-1019.
Wedell, D.H. & Parducci, A. (1988). The category effect in social judgment: Experimental
ratings of happiness. Journal of Personality and Social Psychology, 58, 319-329.
Wedell, D.H., Parducci, A. & Geiselman, R.E. (1987). A formal analysis of ratings of physical
attractiveness: Successive contrast and simultaneous assimilation. Journal of Experimental
Social Psychology, 23, 230-249.
Weeks, M.F. (1988). Call scheduling with CATI: Current capabilities and methods. In R.M.
Groves et al. (Eds.), Telephone survey methodology (pp. 403-420). New York: John Wiley.
Weeks, M. F. et al. (1983). Personal versus telephone surveys for collecting household health
data at the local level. American Journal of Public Health, 73, 1389-1394.
Weeks, M.F., Kulka, R.A. & Pierson, S.A. (1987). Optimal call scheduling for al telephone
survey. Public Opinion Quarterly, 51, 540-549.
Wegener, B. (1978). Einstellungsmessung in Umfragen: Kategorische vs. Magnitude-Skalen.
ZUMA-Nachrichten, 3, 3-27.
Literatur 651
Wegener, B. (1982). Fitting category to magnitude scales for a dozen survey-assessed attri-
butes. In B. Wegener (Ed.), Social attitudes and psycho-physical measurement (S. 379-399.
Hilldale, NJ.: Lawrence Erlbaum.
Wegener, B. (1983). Category-rating and magnitude estimation scaling techniques. Sociologi-
cal Methods & Research, 12, 31-75.
Wegener, B., Faulbaum, F. & Maag, G. (1982a). Die Wirkung von Antwortvorgaben bei Kate-
gorialskalen. ZUMA-Nachrichten, 10, 3-20.
Wegener, B., Faulbaum, F. & Maag, G. (1982b). Die Wirkung adverbialer Antwortvorgaben.
Psychologische Beiträge 24, 343-345.
Weisberg, H. F. (2005). The total survey error apprach. Chicago: The University of Chicago
Press.
Weisberg, H.F. (2010). Bias and causation. Hoboken, N.J.: John Wiley.
West, B.T. & Groves, R.M. (2013). A propensity-adjusted interviewer performance indicator.
Public Opinion Quarterly, 77, 352-374.
Wheeler, L. & Reis, H.T. (1991). Self-recording of everyday life events: Origins, types and
uses. Journal of Personality, 59, 339-354.
Wiegand, E. (2012). Berufsnormen und Qualitätssicherung. In F. Faulbaum, M. Stahl & E.
Wiegand (Hrsg.), Qualitätssicherung in der Umfrageforschung (S. 161-221). Wiesbaden:
Springer VS.
Wiley, D.E. & Wiley, J.A. (1970). The estimation of measurement error in panel data. Ameri-
can Sociological Review, 35, 112-117.
Willis, G.B (2004). Cognitive interviewing revisited: A useful technique. In theory? In S.
Presser et al. (Eds.), Methods for testing and evaluating survey questionnaires (pp. 23-43).
Hoboken NJ: John Wiley.
Willis, G.B. (2005). Cognitive interviewing: A tool for improving questionnaire design. London:
Sage.
Willis, G. (2015). Analysis of the cognitive interview in questionnaire design. Oxford: Oxford
University Press.
Willis, G.B. & Lessler, J.T. (1999). Question Appraisal System. Research Triangle Institute.
Willis, G.B. & Miller, K. (2011). Cross-cultural cognitive interviewing: Seeking Comparabili-
ty and enhancing understanding. Field Methods, 23, 331-341.
Willis, G. et al. (2014). Overview of the special issue on surveying the hard-to-reach. Journal
of Official Statistics, 30, 71–176
Wilson, T.P. (1970). Normative and interpretive paradigms in sociology. In J.D. Douglas
(Ed.), Toward the reconstruction of sociological knowledge (pp. 57-79). Chicago: Aldine.
Winer, B.J., Brown, D.R. & Michels, K.M. (1991). Statistical principles in experimental design.
(3rd edition). New York: McGraw Hill.
Witte, J. C. et al. (2004). Instrument effects of images in web surveys. Social Science Computer
Review, 22, 363–369.
Wojcik, M.S. & Baker, R.P. (1992). Interviewer and respondent acceptance of CAPI. Proceed-
ings of the Annual Research conference (pp. 619-621). Washington, D.C.: U.S. Bureau of
the Census.
Wolf, C. & Best, H. (Hrsg.) (2010). Handbuch der sozialwissenschaftlichen Datenanalyse.
Wiesbaden: Springer VS.
Wolf, C. et al. (Eds.) (2016). The Sage handbook of survey methodology. London: Sage.
652 Literatur
Wolf, K.E. (1994). A first course in formal concept analysis. In F. Faulbaum (Hrsg.), Softstat’93:
Advances in statistical software 4 (S. 429-438). Stuttgart: Gustav Fischer.
Wolf, K.E., Gabler, S. & Borg, I. (1994). Formale Begriffsanalyse von Arbeitswelten in Ost-
und Westdeutschland. ZUMA-Nachrichten, 34, 69-82.
Wolter, F. & Preisendorfer, P. (2013). Asking sensitive questions: An evaluation of the ran-
domized response technique versus direct questioning using individual validation data.
Sociological Methods & Research, 42, 321-353.
Yamaguchi, K. (1999). Event history analysis (Nachdruck). Newbury Park, CA: Sage.
Yan, T. & Keusch, F. (2015). The effects of the direction of rating scales on survey responses
In a telephone survey. Public Opinion Quarterly, 79, 145–165
Yan, T., Kreuter, F. & Tourangeau, R. (2012). Evaluating survey questions: A comparison of
Methods. Journal of Official Statistics, 28, 503–529
Yan et. al. (2010). Should I stay or should I go: The effects of progress feedback, promised task
duration, and length of questionnaire on completing web surveys. International Journal of
Public Opinion Research, 23, 131-147.
Ye, C., Fulton, J. & Tourangeau, R. (2011). Research synthesis: More positive or more ex-
treme? A meta-analysis of mode differences in response choice. Public Opinion Quarterly,
75, 349-365.
Yeager, D.S. et al. (2011). Comparing the accuracy of RDD telephone surveys and internet
surveys conducted with probability and non-probability samples. Public Opinion Quar-
terly, 74, 709-747.
Yu, J.-W., Tian, G.-L. & Tang, M.-L. (2008). Two new models for survey sampling with Sensi-
tive characteristic: design and analysis. Metrika, 67, 251-263.
Zhang, C.J.Z. & Schwarz, N. (2014). Past on the left, future on the right: How metaphorical
time-space mapping influences consumer choice (Working Paper).
Zio, M.D. & Guarnera, U. (2013). A contamination model for selective editing. Journal of
Official Statistics, 29, 539-555.